Gervigreind spjallbotnar eins og ChatGPT gætu ekki orðið of mikið betri ef það er skortur á nýjum hágæða þjálfunargögnum Ascannio/Alamy
Framboð á hágæða tungumálagögnum sem notuð eru til að þjálfa gervigreindarlíkön sem læra vélar geta klárast á þremur árum, sem leiðir til þess að framfarir gervigreindar standi í stað.
Vélanám knýr gervigreindarforrit eins og Midjourney með textakvaðningu og textaframleiðanda OpenAI, ChatGPT, sem byggir á spjalli. Slík líkön þjálfa sig á stórum hópum af mannlegum gögnum af internetinu til að læra, til dæmis þegar þeir eru beðnir um að teikna banana að hann ætti að vera gulur eða grænn og boginn.
Nú hafa Pablo Villalobos hjá Epoch, safn vísindamanna sem rannsaka þróun gervigreindar, og samstarfsmenn hans greint hversu hratt líkön hafa farið í gegnum núverandi gögn. Þeir telja að hágæða tungumálagögn sem notuð eru til að þjálfa líkön eins og ChatGPT muni klárast árið 2026 og framfarir í sameiginlegri þekkingu á gervigreind gætu stöðvast fljótlega eftir það.
„Þetta tungumál er aðeins framleitt af mönnum og hágæða gögn eins og bækur eða vísindarit er dýrt að búa til,“ segir Villalobos. “Það er efnahagslega dýrt að framleiða það.”
Rannsakendur telja að enn verði nóg af texta af minni gæðum til að þjálfa vélanámslíkön, eins og bloggfærslur og vefsíðutexta, í nokkra áratugi fram í tímann. Hins vegar, með því að nota þjálfunargögn í minni gæðum, verður þekkingaraukningin meiri.
„Leiðbeinandi forsenda nútíma gervigreindar er mælikvarði,“ segir Gabriel Pereira við London School of Economics. „Vélnám finnur háþróuð mynstur í gögnum og hingað til, með því að hafa meira og meira af þeim, hefur árangurinn orðið betri.
Hingað til hafa tungumálagagnasöfnin sem gervigreind líkan notast við til þjálfunar stækkað um 50 prósent á hverju ári, en heildarbirgðir tungumálagagna sem hægt er að þjálfa á eykst aðeins um 7 prósent á ári, segja rannsakendur, og mun því ekki geta fylgt eftirspurninni.
Hágæða tungumálagögn eru framleidd enn hægar og munu því klárast hraðar. „Við gerum ráð fyrir að það verði engin stór aukning á skilvirkni gagna, og einnig að það er engin útbreidd notkun á sjálfsþjálfun á sjálfgerðum gögnum,“ segir Villalobos. „Ef það er raunin, þá virðist líklegt að við munum sjá hægagang í framgangi á næstu áratugum þegar við tæmum þessi þjálfunargögn.“
OpenAI svaraði ekki beiðni um athugasemdir um hugsanlegan skort á nýjum þjálfunargögnum.
Myndgögn sem notuð eru til að þjálfa rafala eins og Midjourney munu endast lengur, telur Villalobos, en aðgengi beggja gerða gæti fræðilega verið framlengt með þjálfunarlíkönum á gögnum sem myndast af gervigreindum frekar en mönnum. „Þetta er líklega ein vænlegasta leiðin til að sniðganga þetta vandamál,“ segir hann.
„Í mörgum vélaþjálfunaraðferðum er gögnum breytt reglulega til að ná meiri mílufjöldi úr núverandi gagnasetti,“ segir óháður rannsóknarmaður Andrew Hundt.
Slík aukning getur falið í sér að búa til gagnasett með því að þýða textagögn yfir á annað tungumál og síðan til baka eða með því að skipta út orðum í upprunalega textanum fyrir samheiti.
Samt fylgir því að nota breytt eða gervigreind gagnasöfn áhætta: þau innihalda oft villur eða hlutdrægni, sem hægt er að blanda saman á sama hátt og skyldleikaræktun getur haft áhrif á gen komandi kynslóða.
Hins vegar telur Hundt að niðurstöður Epoch séu ekki of skelfilegar. „Takmarkanir á gögnum eru venja í vélanámi,“ segir hann, og spáin um að klárast gögn mun aðallega hafa áhrif á örfáar aðferðir sem nota sérstaklega hágæða gögn.
Tilvísun: arxiv.org/abs/2211.04325