Hvernig mun gervigreind sem búa til myndbönd úr texta umbreyta miðlum á netinu?

Gervigreind sem breytir texta í myndband tekur örum framförum, en erum við tilbúin fyrir heim þar sem áreiðanleiki hvers myndbands er í vafa?

Knight on horseback

Stillingar úr myndbandi búið til af Meta’s Make-A-Video AI

Meta

Ímyndaðu þér að geta framleitt hágæða myndband af nánast hverju sem er, hvort sem það er byggt á raunveruleikanum eða einhverju algjörlega ímyndunarafl, bara með því að lýsa því sem þú vilt sjá. Þetta er ekki mögulegt ennþá, en gervigreindaralgrím frá texta til myndbands, eins og Meta’s Make-A-Video og Google’s Imagen Video, stefnir hratt að þessu markmiði. Á næstu mánuðum og árum gæti þessi tækni haft mikil áhrif á skapandi greinar og traust á netmiðlum, þegar við förum inn í heim þar sem að sjá er ekki lengur trú.

Uppgangur texta-í-myndbandsframleiðenda fylgir ótrúlegum framförum síðastliðið ár í gervigreindum texta í mynd, sem hafa farið úr nýjung í verkfæri sem geta framleitt myndir í faglegum gæðum – Microsoft hefur meira að segja samþætt OpenAI DALL-E 2 líkanið. inn í Microsoft Office. Á sama tíma hafa smærri fyrirtæki gefið út opna valkosti, eins og Stability AI í London með Stable Diffusion. Ólíkt lokuðum gerðum stóru tæknifyrirtækjanna eru þessar aðgengilegar hverjum sem er og háðar minna ströngu eftirliti.

Takmarkað í bili

Í augnablikinu eru myndbandsframleiðendur á eftir myndlíkingum sínum. Make-A-Video býr til 5 sekúndna myndskeið í 768×768 upplausn með því að byrja með 16 ramma úr texta-í-mynd líkani. Það saumar þetta síðan saman með því að bera þau saman við milljónir vídeóa frá YouTube og myndefnissíðum. Imagen Video gerir einnig 5 sekúndna myndbönd, en í aðeins hærri upplausn, 1280×768. Annað teymi hjá Google hefur gefið út líkan sem getur búið til mun lengri klippur, búið til með því að nota margar textabeiðnir sem líkjast handriti, þó í lægri gæðum.

Ekkert myndbandanna sem búið er til úr þessum líkönum er gallalaust – þessar kvikmyndir eru ekki háskerpu, þær innihalda undarlega sjónmuni og þær eiga í erfiðleikum með að endurtaka raunverulega eðlisfræði – en fyrstu texta-í-mynd líkanin voru líka kornótt og óraunhæf, áður en hún batnar hratt. Lykilvandamál fyrir texta-í-vídeólíkön til að sprunga verður að skilja hreyfingu og tímann sem líður. „Þú hefur fengið þessa skyndimynd í tíma sem inniheldur engar upplýsingar um hvað gerist næst – líkanið hefur engan skilning á orsakasamhengi eða eðlisfræði,“ segir Tom Mason , yfirtæknistjóri Stability AI.

Myndbandslíkön skortir einnig ítarleg, merkt gagnasett sem texta-í-mynd líkan hafa reitt sig á til framfara. Til dæmis notar Make-A-Video í staðinn „eftirlitslaust“ nám til að skanna í gegnum YouTube. „Það gætu verið takmörk fyrir því hversu mikið þú getur lært bara af myndböndum án eftirlits,“ segir Devi Parikh , rannsóknarstjóri Meta AI. “En ég held að við höfum ekki náð því enn.”

Nú þegar hefur fólk hins vegar haft áhyggjur af því að allar hlutdrægni eða staðalmyndir sem eru til staðar í myndböndunum sem notuð eru til að læra gæti verið dreift í gegnum líkanin og birst í úttakinu. „Viltu að barnið þitt læri allt sem það veit um samsetningu og hlutverk fólks í samfélaginu með því að horfa bara á YouTube? segir Arthur Holland Michel hjá Carnegie Council for Ethics in International Affairs. Þeir sem búa til gervigreind í texta í mynd hafa þegar staðið frammi fyrir þessu vandamáli, með OpenAI bætir orðum eins og „svörtum“ eða „kvenkyns“ á leynilegan hátt við sumar textaupplýsingar í viðleitni til að bæta fjölbreytileika niðurstaðna.

Hlutdrægni er ekki eina áhyggjuefnið. Í heimi þar sem rangar upplýsingar eru nú þegar allsráðandi er óttast að myndband sem framleitt er með gervigreind gæti gert það erfiðara að segja til um hvað er raunverulegt – þó hingað til hafi þetta ekki gerst með núverandi gervigreindarverkfærum. Þegar gervigreindarmyndbreytingar – svokallaðir djúpfalsar, sem geta til dæmis sett höfuð eins manns á líkama annars – kom fyrst fyrir nokkrum árum, vöruðu sumir við því að traust á netmiðlum myndi minnka. Hingað til hafa engin áberandi tilfelli verið um að fólk hafi verið blekkt af djúpfalsi, en Michel bendir á að það þurfi háþróaðan skilning á tækninni til að búa til þau.

„Með eitthvað eins og áhrifaríkan texta-í-vídeó rafall er aðgengið miklu meira… hvað varðar getu einhvers með mjög litla tæknilega getu til að búa til eitthvað trúverðugt,“ segir hann.

Til að bregðast við tilkomu djúpfalsa og nú texta í myndband hafa Yvonne McDermott Rees við Swansea háskólann í Bretlandi og samstarfsmenn hennar hafið fimm ára verkefni til að mæla hvort viðhorf fólks til netmiðla sé að breytast. Fyrirliggjandi rannsóknir sýna að það sem fjölmiðlafólk trúir og deilir á netinu er oft ráðist af forhugmyndum einstaklingsins. „Svo, samræmist þetta pólitískum viðhorfum þeirra eða hugmyndafræðilegum viðhorfum sem fyrir eru? segir Rees.

Röng upplýsingaáhætta

Slíkar skoðanir geta verið drifkrafturinn á bak við rangar upplýsingar, frekar en gæði myndbands. Eitt alræmt dæmi um óupplýsingar á netinu, einfalt, hægfara myndband af bandarísku stjórnmálakonunni Nancy Pelosi sem var hannað til að láta það líta út fyrir að hún væri drukkin, fór eins og eldur í sinu árið 2019 einfaldlega vegna þess að margir vildu að það væri satt. „Þetta er ekki einu sinni djúpfölsun, en svo margir trúa því og endurdeildu því,“ segir Rees.

Aðspurður hvort hægt væri að nota Make-A-Video til að dreifa ósannindum sagði talsmaður Meta: „Sem hluti af þessari rannsókn höldum við áfram að kanna leiðir til að betrumbæta og draga úr hugsanlegri áhættu. Til dæmis skoðuðum við og síuðum þjálfunargögnin okkar til að draga úr útsetningu fyrir vafasömu efni og munum halda áfram að þróa nálgun okkar áður en við deilum kynningu.“ Google svaraði ekki beiðni um athugasemd.

Jafnvel þótt texti í myndband stuðli ekki að röngum upplýsingum gætu samfélagsleg áhrif á skapandi greinar samt verið mikil. Margar af myndunum og myndböndunum sem notuð eru til að þjálfa þessi gervigreind eru höfundarréttarvarið verk, þannig að endurgerð þeirra án leyfis er í bága við lög nema um undanþágu sé að ræða, svo sem „sanngjörn viðskipti“ eða notkun þeirra í rannsóknartilgangi, segir Matt Hervey , yfirmaður gervi. njósnalög hjá lögfræðistofunni Gowling WLG. “Í flestum lögsagnarumdæmum, ef þú ert að gera þetta fyrir fræðilega grein, þar sem það sem þú framleiðir hefur ekkert viðskiptalegt gildi, mun það líklega falla undir einhvers konar sanngjörn viðskipti eða sanngjarna notkun undantekninga,” segir hann.

En þar sem þessi gervigreind færast frá rannsóknarverkefnum yfir í viðskiptavörur gætu þau verið opin fyrir lagalegum áskorunum. Eins og er, er lítil sem engin dómaframkvæmd á þessu sviði. „Enginn dómari hefur nokkru sinni þurft að skoða það, en væntingin er sú að þjálfunin, gervigreindin eða framleiðslan verði eins konar brot á höfundarrétti,“ segir Hervey. „Fyrir gervigreind í atvinnuskyni þarftu líka að hafa einhverja undantekningu, svo sem sanngjörn viðskipti í Bandaríkjunum eða sérstaka undantekningu fyrir gagnavinnslu í atvinnuskyni, eins og bresk stjórnvöld hafa lagt til.

Þó að engar lagalegar áskoranir hafi verið gegn texta-í-mynd módelum hingað til, hefur hópur lögfræðinga gert það hóf málsókn gegn Microsoft, GitHub og OpenAI fyrir Copilot kóða aðstoðarmann þeirra, sem hefur verið þjálfaður í milljónum kóðalína skrifaðar af mannlegum forriturum. Lögfræðingarnir segja að svo virðist sem Microsoft, sem á GitHub, hafi misfarið með opinn uppspretta leyfis fyrir stóran hluta kóðans sem það notaði til að þjálfa Copilot og mistókst að lána mannlegum höfundum. „Við höfum verið staðráðnir í að skapa ábyrga nýsköpun með Copilot frá upphafi og munum halda áfram að þróa vöruna til að þjóna sem best þróunaraðilum um allan heim,“ sagði talsmaður GitHub sem svar við málsókninni 8. nóvember.

Málið gæti skapað fordæmi fyrir önnur deilur um meint brot á gervigreind, en almennur skortur á dómaframkvæmd gæti þýtt að stjórnmálamenn þurfi að setja ný lög til að ná yfir kynslóða gervigreind. Samt er óljóst hvort löggjöf geti fylgst með þessari hraðvirku tækni. „Lögin gera nú þegar flest það sem þau geta gert, að einhverju leyti,“ segir Lilian Edwards við Newcastle háskólann í Bretlandi. „Eitt vandamál með falsfréttir almennt, sem fyrirbæri, er að þær eru ekki augljóslega ólöglegar. Það er skaðlegt, en það er ekki ólöglegt.“ Þetta gæti einnig náð til úttaks texta-í-vídeó gervigreindar, segir hún.

Möguleg lausn til að varðveita traust á myndböndum á netinu er að nota auðkenningarvottorð, sem segir nákvæmlega hvaðan miðill er upprunninn og hvernig hann var búinn til. Adobe, Microsoft og fleiri hafa stofnað bandalag um uppruna og áreiðanleika efnis, sem miðar að því að búa til opinn tæknilegan staðal til að gera einmitt það.

Snöggar aðgerðir gætu verið nauðsynlegar. Stability AI stefnir að því að gefa út texta-í-vídeó líkan til almennings á þessu ári, að sögn Mason. Þegar það gerist verður enn meiri þrýstingur á Google og Meta að gefa út sína, eins og OpenAI gerði þegar það jók aðgang að DALL-E 2 innan árs frá komu Stability AI’s text-to-image líkan. „Þetta á við um allar gerðir: þær ná þessum nýjustu samræmisstigum og stundum gerist það mun hraðar en jafnvel rannsakendur búast við,“ segir Mason.

Related Posts