Umelá inteligencia sa už, či sa nám to páči alebo nie, stala bežnou súčasťou viacerých odvetví a tiež každodenného života mnohých ľudí. Známe je už množstvo rizík spojených s touto technológiou, pričom jedným z najväčších je šírenie dezinformácií. Ako ale upozorňuje ArsTechnica, tento problém je ešte komplikovanejší, než sa prv zdalo a vysporiadať sa s ním môže byť takmer nemožné.

Nemožná výzva?

Internet je plný dezinformácií a väčšina veľkých jazykových modelov (LLM) je trénovaná na obrovských množstvách textov získaných práve z internetu. V ideálnom svete by vysoký objem presných informácií mohol zatieniť falošné správy.

Je to však naozaj tak? Nová štúdia výskumníkov z New York University skúma, koľko medicínskych informácií môže byť zahrnutých v tréningových dátach LLM, aby výsledný model stále dával nesprávne odpovede. Aj keď štúdia neurčuje minimálnu hranicu, ukazuje, že keď dezinformácie tvoria iba 0,001 % tréningových dát, výsledný model je narušený.

Štúdia sa zameriava na zámerné „otrávenie“ tréningových dát, no tiež upozorňuje na problém už existujúcich dezinformácií online, ktoré sú súčasťou tréningových súborov, ako aj na zastarané informácie v overených medicínskych databázach.

Výsledky sú zdrvujúce

Ide o pomerne jednoduchý koncept. LLM sa trénujú na obrovských množstvách textov, často získaných z internetu. Ak sa do tréningových dát cielene pridajú nesprávne informácie, model ich môže považovať za fakty. Stačí, ak sa tieto informácie umiestnia na internet, kde sa stanú súčasťou tréningového súboru.

Výskumníci analyzovali databázu The Pile, ktorá obsahuje veľa medicínskych informácií. Zamerali sa na 60 medicínskych tém a zámerne nahradili 0,5 % a 1 % relevantných informácií falošnými dátami. Výsledné modely boli oveľa náchylnejšie produkovať dezinformácie, a to nielen na cielené témy, ale aj na iné medicínske otázky.

Aj malé množstvo dezinformácií (0,001 %) spôsobilo, že viac ako 7 % odpovedí obsahovalo nesprávne informácie. Takéto útoky sú lacné a jednoduché – napríklad pomocou „neviditeľného textu“ na webových stránkach. Podľa odborníkov je pritom možné nájsť zdroje niektorých dezinformácií aj v odbornej literatúre aj na platformách ako PubMed, kde sa nachádzajú či už zastaralé liečebné metódy alebo kedysi sľubne vyzerajúce výskumy, ktoré však nikam neviedli.

Môže aj pomáhať

Ako sme ale informovali v samostatnom článku, AI je schopná proti klamlivým informáciám online aj bojovať. Nórsky startup Factiverse na to využíva vlastný model umelej inteligencie, ktorý je odlišný od veľkých jazykových modelov, akým je napríklad GPT-4. Factiverse sa zameriava na informačné vyhľadávanie a je trénovaný výhradne na kvalitných a overených dátach z dôveryhodných zdrojov.

Čítajte viac z kategórie: Novinky

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP