Umelá inteligencia nemusí byť až taká dokonalá a inteligentná, akoby sme si mohli myslieť. Nová štúdia naznačuje, že aj popredné AI modely od známych spoločností vykazujú znaky, ktoré by sme u ľudí mohli diagnostikovať ako kognitívne poruchy. A tak ako u ľudí, aj u AI sa zhoršujú vekom. Staršie modely v štúdii dosiahli najhoršie výsledky. O téme informoval portál Futurism.

Testovanie AI

Umelá inteligencia sa rýchlo etablovala do rôznych sfér našich životov. Chatboty na dennej báze sa využívajú na rôznorodé úlohy a pomáhajú v rôznych odvetviach, vrátane medicíny. Často sa na tieto nástroje spoliehame, hoci nie sú dokonalé. Nový výskum AI modelov ukazuje, že jazykové modely môžu mať svoje limity, vykazovali totiž znaky kognitívnych porúch.

Cieľom výskumu bolo spochybniť narastajúci trend používania umelej inteligencie v medicíne, kde častokrát slúžia pri diagnostikovaní diagnóz. Vo výskume sa porovnávali jazykové modely spoločnosti OpenAI GPT-4 a GPT-4o, Claude 3.5 Sonnet od spoločnosti Anthropic a Gemini 1.0 a 1.5 od Google.

Unsplash (Úprava redakcie)

Jazykové modely boli podrobené Montrealským kognitívnym testom (MoCA), čo je štandardný test na odhalenie príznakov demencie. Najlepšie si viedol GPT-4o, ktorý dosiahol skóre 26 bodov z 30, čo však ledva dosahuje normálnu úroveň kognitívnej schopnosti. Modely Gemini od spoločnosti Google dosiahli najnižšie skóre, len 16 bodov, čo naznačuje vážne deficity.

Chatboty sa osvedčili v úlohách zameraných na jazyk, pozornosť a abstraktné myslenie. Ich slabiny sa ale prejavili vo vizuálno-priestorových úlohách a v schopnosti plánovať, či vykonávať zložité úlohy. Zlyhali napríklad pri kreslení hodín alebo pri spájaní čísel podľa poradia.

„S výnimkou ChatGPT 4o takmer všetky veľké jazykové modely, ktoré podstúpili test MoCA, vykazovali známky mierneho kognitívneho poškodenia. Navyše, podobne ako u ľudí, vek je kľúčovým faktorom kognitívneho poklesu: „staršie“ chatboty, podobne ako starší pacienti, majú tendenciu dosahovať horšie výsledky v teste MoCA,“ uvádzajú autori výskumu.

Freepik

Digitálna demencia

Ďalším zlyhaním bol test pamäte, kde mali chatboty zopakovať jednoduchú sekvenciu piatich slov po krátkej pauze. V tomto teste najviac zlyhali modely Gemini. Predstavuje to zásadný problém, pretože lekár potrebuje nielen čítať poznámky, ale aj spracovať a zapamätať si informácie, ktoré mu pacienti hovoria.

Ďalším zistením, hoci by nás to nemalo prekvapiť, bola absencia empatie u všetkých testovaných modelov, avšak pri využití v medicíne môže znamenať problém. Výskumníci upozornili, že tento nedostatok môže byť analógiou symptómov frontotemporálnej demencie, ktorá sa prejavuje práve deficitom emocionálneho vnímania a sociálneho správania.

Hoci je ľahké pripisovať týmto modelom ľudské vlastnosti, odborníci upozorňujú, že je dôležité pamätať na zásadné rozdiely medzi ľudským mozgom a veľkými jazykovými modelmi. Hoci AI sú užitočnými pomocníkmi, aspoň v medicíne ľudských lekárov nevedia nahradiť.

„Tieto zistenia spochybňujú predpoklad, že umelá inteligencia čoskoro nahradí ľudských lekárov, pretože kognitívne poškodenie, ktoré je evidentné u popredných chatbotov, môže ovplyvniť ich spoľahlivosť v medicínskej diagnostike a oslabiť dôveru pacientov,“ uvádza sa v štúdii.

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP