OpenAI má bizarný problém. Najnovšie výkonné modely robia jednu zlú vec častejšie, než tie staré
Nedávno predstavené modely umelej inteligencie od OpenAI – o3 a o4-mini – prinášajú špičkový výkon v oblastiach ako kódovanie či matematika, no zároveň čelia starej známej výzve, ktorá sužuje aj najlepšie AI systémy súčasnosti: halucináciám. Navyše, nové modely si podľa interných testov vymýšľajú ešte viac než ich predchodcovia, čo je znepokojujúci trend, ktorý vývojári zatiaľ nevedia úplne vysvetliť.
Halucinácie, teda situácie, keď si AI systém vymyslí nepravdivé alebo neoverené informácie, zostávajú jednou z najväčších a najťažších prekážok v oblasti umelej inteligencie. Doteraz sa s každou novou verziou modelu očakávalo, že bude v tejto oblasti lepšia – teda bude si vymýšľať menej. Pri modeloch o3 a o4-mini sa však tento trend otočil. O téme informoval portál TechCrunch.
Starý problém v novom prevedení
Podľa technickej správy od OpenAI oba nové modely halucinujú častejšie ako staršie reasoning modely ako o1, o1-mini či o3-mini, ale aj ako tradičné „ne-reasoning“ modely ako GPT-4o. Model o3 napríklad halucinoval až pri 33 % otázok na PersonQA – internej OpenAI databáze na testovanie faktickej presnosti o ľuďoch. Pre porovnanie, o1 halucinoval len v 16 % a o3-mini v 14,8 % prípadov. Ešte horšie dopadol o4-mini, ktorý vykazoval halucinácie v 48 % otázok.
OpenAI priznáva, že dôvody zhoršenia nie sú zatiaľ jasné a „je potrebný ďalší výskum“, aby sa zistilo, prečo škálovanie reasoning modelov vedie k vyššiemu výskytu halucinácií. Jedným z vysvetlení môže byť samotná povaha týchto modelov – vďaka ich schopnosti robiť viac záverov a tvrdení, častejšie vytvárajú presné, ale aj nepresné odpovede.
Nejasné dôvody a hypotézy výskumníkov
Organizácia Transluce, neziskové výskumné laboratórium pre AI, našla ďalší dôkaz o halucináciách modelu o3. V jednom prípade tvrdil, že spustil kód na MacBooku Pro mimo prostredia ChatGPT a následne skopíroval výsledky – čo technicky nie je možné. Podľa výskumníka Neila Chowdhuryho z Transluce môže byť za problémom typ reinforcement learningu použitý pri o-serii modeloch, ktorý môže zhoršiť niektoré nedostatky, ktoré bývajú zvyčajne zmiernené tradičným post-tréningovým spracovaním.
Napriek problémom s halucináciami niektorí odborníci nové modely už testujú v praxi. Kian Katanforoosh, profesor zo Stanfordu a CEO startupu Workera, uviedol, že model o3 používajú v kódovacích pracovných tokoch a považujú ho za výkonný nástroj. Avšak upozornil, že model má tendenciu vymýšľať nefunkčné odkazy na webové stránky, čo znižuje jeho spoľahlivosť.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Historický pokus vedy: Experti sa snažia replikovať prvú vec, ktorá kedy žila na Zemi
Netflix oživil ikonické monštrum. Máme prvú ukážku najočakávanejšieho hororu roka
Totálny prepadák za desiatky miliárd. Vojenská loď USA vyzerá ako zo zlého filmu
Kvantový zázrak v kryštáli: Vedci objavili nový materiál, ktorý naštartuje novú éru elektroniky
Slováci budú o pár hodín vidieť vesmírne divadlo. Zem zasiahnu zvyšky silnej geomagnetickej búrky
NAJČÍTANEJŠIE ZO STARTITUP
„Telo si pamätá, myseľ zabúda.“ Psychologička približuje, prečo bez fyzickej blízkosti chradnú telo aj duša
Chceš ísť do penzie skôr? Na žiadosť o predčasný dôchodok ti zostáva už len pár týždňov
Ukrajina spustila najväčší dronový útok na Rusko od začiatku vojny. Cieľom boli kľúčové základne
Slovensko zasiahnu búrky, meteorológovia varujú pred výdatným dažďom a lokálnymi záplavami
„Prekročil červenú čiaru,“ reaguje Zdechovský na vyjadrenia Fica. Pellegrini kritizuje slovník premiéra (REAKCIE)
- 24 hod
- 48 hod
- 7 dní
-
- „Našli“ signál pokročilej civilizácie. Vedci neverili vlastným očiam, keď zistili, o čo ide
- Najväčšie eso Netflixu aj nový Predátor. TOP 11 filmov a seriálov, ktoré musíš vidieť v júni (PREHĽAD)
- Ročne spravím spaľovákom 48 000 km, predal som ho a kúpil elektromobil. Výsledok ma dostal
- Slovákov očarila nová česká komédia na Netflixe. Sledujú ju viac než ČERNÁKA
- Ľudia už nerobia skoro nič. V Ázii stavajú priehradu len stroje, riadi ich umelá inteligencia
-
- „Našli“ signál pokročilej civilizácie. Vedci neverili vlastným očiam, keď zistili, o čo ide
- Ročne spravím spaľovákom 48 000 km, predal som ho a kúpil elektromobil. Výsledok ma dostal
- Najväčšie eso Netflixu aj nový Predátor. TOP 11 filmov a seriálov, ktoré musíš vidieť v júni (PREHĽAD)
- Koniec sa už nikdy nedozvieš. 12 seriálov, ktoré zrušili predčasne bez poriadneho konca
- Majú zásoby 85 miliárd m³. Do Európy začne prúdiť nový zdroj plynu z prekvapivej krajiny
-
- Pošlú ich rovno do šrotu. Kontroverzná regulácia Európskej komisie o autách je na spadnutie
- „Našli“ signál pokročilej civilizácie. Vedci neverili vlastným očiam, keď zistili, o čo ide
- Majú zásoby 85 miliárd m³. Do Európy začne prúdiť nový zdroj plynu z prekvapivej krajiny
- Rusi urobili „geniálny“ ťah. Kým ich vojaci trpia na Ukrajine, africkému štátu dodali najmodernejšiu techniku
- Za 12 tisíc eur dostaneš auto s dojazdom 2 000 km. Známa značka šokovala svet novým modelom
Podceňujeme online situáciu. Slováci oproti Čechom zaostávajú v dôležitom parametri
Kyberútočníci spustili vlnu falošných AI nástrojov. Malvér šíria cez sociálne siete
Ušetrí ti množstvo času. Gmail dostal zaujímavú AI funkciu
Je rýchlejšia než internet. Umelá inteligencia zmení všetko, či chceš alebo nie
Budúcnosť firiem je digitálna. Tu sú hlavné dôvody a riešenia
NAJČÍTANEJŠIE ZO STARTITUP
„Telo si pamätá, myseľ zabúda.“ Psychologička približuje, prečo bez fyzickej blízkosti chradnú telo aj duša
Chceš ísť do penzie skôr? Na žiadosť o predčasný dôchodok ti zostáva už len pár týždňov
Ukrajina spustila najväčší dronový útok na Rusko od začiatku vojny. Cieľom boli kľúčové základne
Slovensko zasiahnu búrky, meteorológovia varujú pred výdatným dažďom a lokálnymi záplavami
„Prekročil červenú čiaru,“ reaguje Zdechovský na vyjadrenia Fica. Pellegrini kritizuje slovník premiéra (REAKCIE)
Copyright© 2025 by Startitup, s. r. o. Všetky práva vyhradené