OpenAI má bizarný problém. Najnovšie výkonné modely robia jednu zlú vec častejšie, než tie staré
Nedávno predstavené modely umelej inteligencie od OpenAI – o3 a o4-mini – prinášajú špičkový výkon v oblastiach ako kódovanie či matematika, no zároveň čelia starej známej výzve, ktorá sužuje aj najlepšie AI systémy súčasnosti: halucináciám. Navyše, nové modely si podľa interných testov vymýšľajú ešte viac než ich predchodcovia, čo je znepokojujúci trend, ktorý vývojári zatiaľ nevedia úplne vysvetliť.
Halucinácie, teda situácie, keď si AI systém vymyslí nepravdivé alebo neoverené informácie, zostávajú jednou z najväčších a najťažších prekážok v oblasti umelej inteligencie. Doteraz sa s každou novou verziou modelu očakávalo, že bude v tejto oblasti lepšia – teda bude si vymýšľať menej. Pri modeloch o3 a o4-mini sa však tento trend otočil. O téme informoval portál TechCrunch.
Starý problém v novom prevedení
Podľa technickej správy od OpenAI oba nové modely halucinujú častejšie ako staršie reasoning modely ako o1, o1-mini či o3-mini, ale aj ako tradičné „ne-reasoning“ modely ako GPT-4o. Model o3 napríklad halucinoval až pri 33 % otázok na PersonQA – internej OpenAI databáze na testovanie faktickej presnosti o ľuďoch. Pre porovnanie, o1 halucinoval len v 16 % a o3-mini v 14,8 % prípadov. Ešte horšie dopadol o4-mini, ktorý vykazoval halucinácie v 48 % otázok.
OpenAI priznáva, že dôvody zhoršenia nie sú zatiaľ jasné a „je potrebný ďalší výskum“, aby sa zistilo, prečo škálovanie reasoning modelov vedie k vyššiemu výskytu halucinácií. Jedným z vysvetlení môže byť samotná povaha týchto modelov – vďaka ich schopnosti robiť viac záverov a tvrdení, častejšie vytvárajú presné, ale aj nepresné odpovede.
Nejasné dôvody a hypotézy výskumníkov
Organizácia Transluce, neziskové výskumné laboratórium pre AI, našla ďalší dôkaz o halucináciách modelu o3. V jednom prípade tvrdil, že spustil kód na MacBooku Pro mimo prostredia ChatGPT a následne skopíroval výsledky – čo technicky nie je možné. Podľa výskumníka Neila Chowdhuryho z Transluce môže byť za problémom typ reinforcement learningu použitý pri o-serii modeloch, ktorý môže zhoršiť niektoré nedostatky, ktoré bývajú zvyčajne zmiernené tradičným post-tréningovým spracovaním.
Napriek problémom s halucináciami niektorí odborníci nové modely už testujú v praxi. Kian Katanforoosh, profesor zo Stanfordu a CEO startupu Workera, uviedol, že model o3 používajú v kódovacích pracovných tokoch a považujú ho za výkonný nástroj. Avšak upozornil, že model má tendenciu vymýšľať nefunkčné odkazy na webové stránky, čo znižuje jeho spoľahlivosť.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Neprežije nič na 8000 m2. Najlepšiu zbraň Ukrajiny závidí aj Rusko, v panike z nej minuli najdrahšie rakety
Vedci objavili skrytý „tlmič“ rakoviny. Objavený proteín funguje ako bariéra pri jej vzniku
Na Netflix dorazil reštart kultového hororu. Ľudia pri ňom odchádzali z kina
„Akí klauni,“ vysmiali Rusi susednú krajinu. Putinova tieňová flotila opäť dráždi Západ
Čína buduje orbitálnu zbraň? Satelity v tvare strely vyvolávajú obavy
NAJČÍTANEJŠIE ZO STARTITUP
Zabudni na „2 litre čistej vody denne“, prestaň si ničiť obličky. Odborníci našli správne množstvo
AI už zakladá politické strany: „Dánska Synthetic Party je najvýraznejšou a najprepracovanejšou,“ tvrdí odborník (ROZHOVOR)
Slovensko čelí enormnému výskytu kliešťov: Najefektívnejšou obranou je podľa odborníkov prevencia
Obvinený z miliónovej sprenevery ostáva na slobode. Starosta Hrčka verí, že súd vyhovie sťažnosti
Slovensko bude mať novú päťeurovú mincu: Vieme, kedy bude dostupná
- 24 hod
- 48 hod
- 7 dní
-
- TEST: Vymenila som iPhone za najlacnejší Android. Už pri zapnutí prišiel šok, to však nebolo to najhoršie
- Hollywoodska legenda je späť. Rambo hlási úplne novú podobu, ukáže peklo vo Vietname
- Výrazne šetrí palivo, no vodiči ju vraj nenávidia. Táto automatická funkcia v autách má dostať veľké vylepšenie
- Netflix dostal košom. Gladiátor 2 je konečne dostupný online, exkluzívne len na jednom mieste
- Kritici mu dali 100 %. Na obľúbenú službu dorazil najlepší vojnový seriál posledných rokov
-
- TEST: Vymenila som iPhone za najlacnejší Android. Už pri zapnutí prišiel šok, to však nebolo to najhoršie
- Kritici mu dali 100 %. Na obľúbenú službu dorazil najlepší vojnový seriál posledných rokov
- Hollywoodska legenda je späť. Rambo hlási úplne novú podobu, ukáže peklo vo Vietname
- Vedci našli „trójskeho koňa“ v ovzduší aj vo vode. Prenáša do živých organizmov jedovaté látky
- Netflix dostal košom. Gladiátor 2 je konečne dostupný online, exkluzívne len na jednom mieste
-
- Potupa neutícha: Odhalili, čo poháňa ruské kamikadze drony
- Vedci neverili vlastným očiam. 1200 metrov pod pyramídami objavili 38 000 rokov staré mesto
- TEST: Vymenila som iPhone za najlacnejší Android. Už pri zapnutí prišiel šok, to však nebolo to najhoršie
- Astronómovia neverili vlastným očiam. V ďalekej galaxii spozorovali zvláštny disk
- AKTUÁLNE: Obľúbená služba Slovákov sa stala obeťou útoku. Hacker napadol 89 miliónov účtov a odcudzil údaje
Slovenský študent očaril vedu. Z bratislavského laboratória rovno na svetový trón
Stratili ďalší stroj. Ukrajinská F-16 neprežila zásah pri odrazení útoku
Lídri EÚ zvažujú historické sankcie voči Rusku. V hre je aj najtvrdší ekonomický úder
Slovensko čaká plynárenský maratón. Do krajiny je potrebné doviezť trojnásobok plynu
Slovensko varuje Brusel: Bez analýz nepodnikajme dôležité energetické kroky
NAJČÍTANEJŠIE ZO STARTITUP
Zabudni na „2 litre čistej vody denne“, prestaň si ničiť obličky. Odborníci našli správne množstvo
AI už zakladá politické strany: „Dánska Synthetic Party je najvýraznejšou a najprepracovanejšou,“ tvrdí odborník (ROZHOVOR)
Slovensko čelí enormnému výskytu kliešťov: Najefektívnejšou obranou je podľa odborníkov prevencia
Obvinený z miliónovej sprenevery ostáva na slobode. Starosta Hrčka verí, že súd vyhovie sťažnosti
Slovensko bude mať novú päťeurovú mincu: Vieme, kedy bude dostupná
Copyright© 2025 by Startitup, s. r. o. Všetky práva vyhradené