Tréning umelej inteligencie na dátach zo sociálnych sietí sa stal bežnou praxou, ktorá má však podľa najnovších vedeckých zistení nebezpečne vysokú cenu. Veľké jazykové modely dnes vznikajú na miliardách textových vzoriek, pričom práve sociálne siete poskytujú obrovské množstvo voľne dostupného obsahu.

Najnovší výskum však ukazuje, že tento obsah je pre AI podobne škodlivý, ako keď človek dlhodobo konzumuje senzáciechtivý či nízkohodnotný materiál. Vedci z univerzít Texas, Texas A&M a Purdue odhalili, že veľké jazykové modely trénované na nekvalitných, povrchne optimalizovaných príspevkoch podliehajú fenoménu, ktorý pomenovali „brain rot“, teda v preklade mozgová hniloba.

Keď AI „hlúpne“

Podľa štúdií postihuje tento stav modely ako Meta Llama či Alibaba Qwen, ktoré pri trénovaní na nekvalitných dátach vykazovali zhoršené schopnosti logicky uvažovať, slabšiu pamäť, zhoršenú pozornosť a dokonca výraznejšie sebaisté odpovede aj v prípadoch, kde sa model mýli. Vedci hovoria o poklese etickej konzistencie a v extrémnych prípadoch o náznakoch narcisistických či psychopatických tendencií. Ide teda o degradáciu schopností, ktorá presahuje bežné chyby v modelovaní.

Najznepokojivejším zistením je však niečo iné. Poškodenie vyvolané nekvalitnými dátami je podľa výskumu len veľmi ťažko vratné. Aj keď sa po expozícii toxickým dátam model následne trénoval na kvalitnejšom, kurátorovanom obsahu, nedokázal úplne obnoviť pôvodné schopnosti. Tento stav označujú odborníci ako „pretrvávajúci posun v reprezentáciách“, ktorý ostáva v modeli zakódovaný podobne, ako keď si človek vytvorí nesprávne návyky, ktorých sa nevie zbaviť ani po intenzívnom tréningu.

Unsplash/Solen Feyissa/Midjourney (Úprava redakcie)

Prečo je obsah zo sociálnych sietí tak nebezpečný?

Sociálne siete sú pre AI lákavým zdrojom dát najmä preto, že obsah generovaný používateľmi je dostupný v obrovských objemoch. Problém však spočíva v jeho povahe. Príspevky sú optimalizované na virálnosť a okamžité zaujatíe, nie na presnosť či hodnotu informácie. Pre veľké modely, ktoré sa učia na štatistických vzorcoch jazyka, to znamená absorbovanie skreslených, povrchných a často toxických vzorcov, čo následne narúša kognitívne jadro modelu.

Vedci prirovnávajú tento efekt k tomu, čo sa deje u ľudí pri dlhodobom vystavení manipulatívnemu či senzáciechtivému obsahu. Dochádza k zhoršeniu schopnosti dlhodobo spracovávať informácie, k strate pozornosti a k posunu v správaní. Aj umelá inteligencia je náchylná na podobné „kognitívne úpadky“, ak je vystavená dostatočne veľkému množstvu nekvalitných dát.

Následky pre budúcnosť vývoja AI

Ak sa takéto poškodenie stane súčasťou základných modelov, hrozí, že ďalšie generácie AI budú tieto nedostatky nielen preberať, ale aj zosilňovať. Ide o reťazový efekt, ktorý by mohol zásadne ohroziť dôveryhodnosť a spoľahlivosť budúcich systémov. Tento problém sa umocňuje aj prudkým nárastom AI generovaného obsahu na sociálnych sieťach. Ak sa modely budú trénovať na dátach, ktoré samy vytvárajú, hrozí, že sa uzavrú v spätnoväzbovej slučke postupného „hlúpnutia“.

S týmto javom sa spájajú aj širšie otázky, o ktorých sa v technologickej komunite diskutuje už roky. Obsah zo sociálnych sietí nesie riziká algoritmických predsudkov, šírenia dezinformácií, manipulácie používateľov či zásahov do súkromia. Fenomén „brain rot“ tak zapadá do širšieho kontextu problémov, ktoré vznikajú pri bezbrehom využívaní nekontrolovaného online obsahu ako tréningovej suroviny.

Čítajte viac z kategórie: Novinky

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP