Midjourney/OpenAI/Úprava redakcie

Veľké jazykové modely (LLM) sa stávajú čoraz populárnejšími. Množstvo ľudí ich využíva denne na riešenie rôznych pracovných úloh. Medzi najpopulárnejšie a najvyužívanejšie LLM v súčasnosti patria bezpochyby GPT-3.5 a GPT-4.

ChatGPT zmenil svoje správanie

Len málokto však vie, že tieto modely sa časom menia a vyvíjajú. Ako však naznačuje nová štúdia publikovaná na predtlačovom serveri arXiv, nie k lepšiemu. Na tému upozornil portál ArsTechnica.

Lots of people are wondering whether #GPT4 and #ChatGPT's performance has been changing over time, so Lingjiao Chen, @james_y_zou and I measured it. We found big changes including some large decreases in some problem-solving tasks: https://t.co/jgulqjvPAO pic.twitter.com/uAN43UTmWN

— Matei Zaharia (@matei_zaharia) July 19, 2023

Ako ďalej informuje portál DataDrivenInvestor, v nej sa tím výskumníkov zaoberal otázkou, ako sa zmenilo správanie ChatGPT v priebehu času a to od začiatku marca 2023 do júna 2023. V rámci výskumu pritom testovali štyri rôzne úlohy – riešenie matematických problémov, odpovedanie na citlivé otázky, generovanie kódu a vizuálne uvažovanie.

arXiv.org; Lingjiao Chen of Stanford University, Matei Zaharia of UC Berkeley, and James Zou of Stanford University.

Jedným z kľúčových zistení sú výrazné rozdiely vo výkone a správaní GPT-3.5 a GPT-4 v uvedenom časovom období. Napríklad sa ukázalo, že zatiaľ čo GPT-4 ešte v marci vykazoval pôsobivú 97,6 % percentnú presnosť pri identifikácií prvočísel, v júni presnosť tohto jazykového modelu klesla na mizerných 2,4 %. Za zmienku tiež ale stojí fakt, že zatiaľ čo GPT-4 v tejto úlohe pohorel, GPT-3.5 svojho nástupcu prekonal, keď vykázal zlepšenie zo 7,4 % na 86,5 %.

Čo sa týka ďalších metrík, pozoruhodným je aj správanie spomínaných modelov pri odpovediach na citlivé otázky. GPT-4 bol totiž v júni v porovnaní s marcom výrazne menej ochotný odpoveď na takéto otázky, pričom miera odpovedí klesla z 21 % na 5 %. Naopak, GPT-3.5 vykazoval mierny nárast, keď sa miera odpovedí zvýšila z 2 % a 8 %. Mimo to, ako GPT-3.5 tak aj GPT-4 vykazovali viac chýb pri generovaní kódu (podľa všetkého by chyba mala byť iba vo formátovaní).

arXiv.org; Lingjiao Chen of Stanford University, Matei Zaharia of UC Berkeley, and James Zou of Stanford University.

Ďalšie zaujímavé zistenia sa týkali spomínaného vizuálneho uvažovania, teda procesu analýzy vizuálnych informácií a schopnosti na ich základe riešiť problémy. Pri tejto úlohe autori využili súbor údajov ARC (AI2 Reasoning Challenge – súbor údajov s otázkami, ktoré obsahujú viacero možností), pričom medzi marcom a júnom bolo pri oboch jazykových modeloch pozorované minimálne zlepšenie.

Nové výsledky tak jednoznačne poskytujú nové perspektívy na výhody nepretržitého monitorovania kvality LLM, pričom autori zdôrazňujú dôležitosť pochopenia zmien v správaní týchto modelov. Skúmaním výkonu LLM pri rôznych úlohách je totiž možné identifikovať oblasti, kde možno dosiahnuť zlepšenie, ale aj potenciálne výzvy. Tieto nové poznatky môžu slúžiť ako základ pre vývoj LLM systémov, ktoré budú oveľa robustnejšie a spoľahlivejšie.

Ostrá kritika

Hoci štúdia na prvý pohľad vyzerá veľmi zaujímavo, nezaobišla sa bez kontroverzií a ostrej kritiky. Mnoho vedcov jej totiž vyčíta použitie nesprávnych metrík na zmeranie zmysluplných zmien, uvádza portál VentureBeat.

We dug into a paper that’s been misinterpreted as saying GPT-4 has gotten worse. The paper shows behavior change, not capability decrease. And there's a problem with the evaluation—on 1 task, we think the authors mistook mimicry for reasoning.
w/ @sayashk https://t.co/ZieaBZLRFy

— Arvind Narayanan (@random_walker) July 19, 2023

Napríklad riaditeľ Centra pre politiku informačných technológií Princetonskej univerzity na Twitteri napísal, že daná štúdia je nesprávne interpretovaná. Nehovorí totiž o tom, že GPT-4 sa v priebehu času zhoršil, ale iba poukazuje na zmeny správania. Taktiež vidí problém pri jednej úlohe, kde si autori pomýlili napodobňovanie s uvažovaním.

Štúdia tiež rozvírila ostrú debatu na stránkach slávneho akcelerátoru, ktorý kedysi viedol súčasný generálny riaditeľ OpenAI Sam Altman. Reč je samozrejme o Y Combinator, kde mnoho diskutujúcich uviedlo, že LLM jednoducho nie sú vhodné na testovanie matematiky. Taktiež považujú za neadekvátne, ako prebiehalo testovanie generovania kódu. Vedci totiž od GPT požadovali vytvoriť určitý kód, ktorého funkčnosť testovali jednoducho tak, že ho skopírovali a prilepili do vývojového prostredia.

Hodnotenie je tiež ohraničené pomerne malým množstvom úloh a dostupných údajov, ktoré nedokážu úplne zachytiť celkové správanie poskytovaných LLM služieb. Nedostatočná transparentnosť týkajúca sa aktualizácií modelov GPT-3.5 a GPT-4 navyše vzbudzuje pochybnosti o platnosti zistených výsledkov.

Taktiež nedostatok porovnania s predchádzajúcimi verziami alebo inými modelmi LLM komplikuje posúdenie, či sú pozorované zmeny v správaní špecifické pre GPT-3.5 a GPT-4, alebo či ide o širší trend v rámci LLM modelov. Zdá sa teda, že veľké jazykové modely GPT-3.5 a GPT-4 v priebehu času neznížili svoje schopnosti, ale len vykázali zmeny vo svojom správaní.

Čítajte viac z kategórie: Novinky

Teraz čítajú

Šéf Xiaomi to povedal otvorene: Do 5 rokov nastane revolúcia vo výrobe. Ľudia začnú robiť inú prácu

Taktika Rusov v sekunde prestala fungovať. Ukrajina nasadila zbrane s umelou inteligenciou

Nečakaná krajina postaví AI „mesto“ napájané jadrom. Najväčší projekt v Európe bude stáť 5 mld. €

Genetická modifikácia ľudí môže čoskoro začať. AI vytvorila úplne nové gény, ktoré príroda nepozná

Hlúpne podobne ako človek. Vedci našli prekvapivú vec, ktorá ničí „mozog" umelej inteligencii

NAJČÍTANEJŠIE ZO STARTITUP

Keď Buffett sedí na hotovosti a Zuckerberg stavia bunker, niečo sa deje. Miliardári sa pripravujú na kolaps

PREMIUM

Experti varujú pred raketovým rastom cien elektroniky na Slovensku. Masívne zdražovanie má jasné dôvody

KVÍZ: 9 z 10 Slovákov stroskotá už na 1. otázke zo slovenčiny. Otestuj sa, či by bol Ľudovít Štúr na teba hrdý

Slovenský šport prišiel o legendu. Zomrel šampión dráhovej cyklistiky a kulturistiky

Experti varujú: Vírus H5 má potenciál spustiť globálnu pandémiu. Úmrtnosť je 48 % a nemáme proti nemu imunitu

Ľudia hromžia. ChatGPT je čoraz hlúpejší, dôvod je zarážajúci

ChatGPT zmenil svoje správanie

Ostrá kritika

Šéf Xiaomi to povedal otvorene: Do 5 rokov nastane revolúcia vo výrobe. Ľudia začnú robiť inú prácu

Taktika Rusov v sekunde prestala fungovať. Ukrajina nasadila zbrane s umelou inteligenciou

Nečakaná krajina postaví AI „mesto“ napájané jadrom. Najväčší projekt v Európe bude stáť 5 mld. €

Genetická modifikácia ľudí môže čoskoro začať. AI vytvorila úplne nové gény, ktoré príroda nepozná

Hlúpne podobne ako človek. Vedci našli prekvapivú vec, ktorá ničí „mozog" umelej inteligencii

Keď Buffett sedí na hotovosti a Zuckerberg stavia bunker, niečo sa deje. Miliardári sa pripravujú na kolaps

Experti varujú pred raketovým rastom cien elektroniky na Slovensku. Masívne zdražovanie má jasné dôvody

KVÍZ: 9 z 10 Slovákov stroskotá už na 1. otázke zo slovenčiny. Otestuj sa, či by bol Ľudovít Štúr na teba hrdý

Slovenský šport prišiel o legendu. Zomrel šampión dráhovej cyklistiky a kulturistiky

Experti varujú: Vírus H5 má potenciál spustiť globálnu pandémiu. Úmrtnosť je 48 % a nemáme proti nemu imunitu

EÚ spravila historický krok. Dovoz ruského plynu definitívne končí, máme presný dátum

iPhone 17 vystrelil Apple na vrchol. Rekordný rok 2025 môže zmeniť kráľa na tróne výrobcov mobilov

Technologická elita zažije prudký skok. OSN vydala zdrvujúce varovanie o umelej inteligencii

Analytik: Mýtus o „veľkej ruskej ofenzíve“ sa rozpadol. Kľúčový faktor donúti Rusko rokovať o mieri

Slovensko zažíva zlom v mobilných sieťach. 5G pokrytie populácie šokujúco vystrelilo

Temu a Shein to majú spočítané. Ich veľký konkurent chystá v Európe nečakaný zvrat

Obrovská blamáž nemeckej armády. Z kamióna ukradli 20-tisíc kusov munície

Keď Buffett sedí na hotovosti a Zuckerberg stavia bunker, niečo sa deje. Miliardári sa pripravujú na kolaps

Experti varujú pred raketovým rastom cien elektroniky na Slovensku. Masívne zdražovanie má jasné dôvody

KVÍZ: 9 z 10 Slovákov stroskotá už na 1. otázke zo slovenčiny. Otestuj sa, či by bol Ľudovít Štúr na teba hrdý

Slovenský šport prišiel o legendu. Zomrel šampión dráhovej cyklistiky a kulturistiky

Experti varujú: Vírus H5 má potenciál spustiť globálnu pandémiu. Úmrtnosť je 48 % a nemáme proti nemu imunitu

Ľudia hromžia. ChatGPT je čoraz hlúpejší, dôvod je zarážajúci

ChatGPT zmenil svoje správanie

Ostrá kritika

Šéf Xiaomi to povedal otvorene: Do 5 rokov nastane revolúcia vo výrobe. Ľudia začnú robiť inú prácu

Taktika Rusov v sekunde prestala fungovať. Ukrajina nasadila zbrane s umelou inteligenciou

Nečakaná krajina postaví AI „mesto“ napájané jadrom. Najväčší projekt v Európe bude stáť 5 mld. €

Genetická modifikácia ľudí môže čoskoro začať. AI vytvorila úplne nové gény, ktoré príroda nepozná

Hlúpne podobne ako človek. Vedci našli prekvapivú vec, ktorá ničí „mozog" umelej inteligencii

Keď Buffett sedí na hotovosti a Zuckerberg stavia bunker, niečo sa deje. Miliardári sa pripravujú na kolaps

Experti varujú pred raketovým rastom cien elektroniky na Slovensku. Masívne zdražovanie má jasné dôvody

KVÍZ: 9 z 10 Slovákov stroskotá už na 1. otázke zo slovenčiny. Otestuj sa, či by bol Ľudovít Štúr na teba hrdý

Slovenský šport prišiel o legendu. Zomrel šampión dráhovej cyklistiky a kulturistiky

Experti varujú: Vírus H5 má potenciál spustiť globálnu pandémiu. Úmrtnosť je 48 % a nemáme proti nemu imunitu

EÚ spravila historický krok. Dovoz ruského plynu definitívne končí, máme presný dátum

iPhone 17 vystrelil Apple na vrchol. Rekordný rok 2025 môže zmeniť kráľa na tróne výrobcov mobilov

Technologická elita zažije prudký skok. OSN vydala zdrvujúce varovanie o umelej inteligencii

Analytik: Mýtus o „veľkej ruskej ofenzíve“ sa rozpadol. Kľúčový faktor donúti Rusko rokovať o mieri

Slovensko zažíva zlom v mobilných sieťach. 5G pokrytie populácie šokujúco vystrelilo

Temu a Shein to majú spočítané. Ich veľký konkurent chystá v Európe nečakaný zvrat

Obrovská blamáž nemeckej armády. Z kamióna ukradli 20-tisíc kusov munície

Keď Buffett sedí na hotovosti a Zuckerberg stavia bunker, niečo sa deje. Miliardári sa pripravujú na kolaps

Experti varujú pred raketovým rastom cien elektroniky na Slovensku. Masívne zdražovanie má jasné dôvody

KVÍZ: 9 z 10 Slovákov stroskotá už na 1. otázke zo slovenčiny. Otestuj sa, či by bol Ľudovít Štúr na teba hrdý

Slovenský šport prišiel o legendu. Zomrel šampión dráhovej cyklistiky a kulturistiky

Experti varujú: Vírus H5 má potenciál spustiť globálnu pandémiu. Úmrtnosť je 48 % a nemáme proti nemu imunitu

Zakúpené články