OpenAI má bizarný problém. Najnovšie výkonné modely robia jednu zlú vec častejšie, než tie staré
Nedávno predstavené modely umelej inteligencie od OpenAI – o3 a o4-mini – prinášajú špičkový výkon v oblastiach ako kódovanie či matematika, no zároveň čelia starej známej výzve, ktorá sužuje aj najlepšie AI systémy súčasnosti: halucináciám. Navyše, nové modely si podľa interných testov vymýšľajú ešte viac než ich predchodcovia, čo je znepokojujúci trend, ktorý vývojári zatiaľ nevedia úplne vysvetliť.
Halucinácie, teda situácie, keď si AI systém vymyslí nepravdivé alebo neoverené informácie, zostávajú jednou z najväčších a najťažších prekážok v oblasti umelej inteligencie. Doteraz sa s každou novou verziou modelu očakávalo, že bude v tejto oblasti lepšia – teda bude si vymýšľať menej. Pri modeloch o3 a o4-mini sa však tento trend otočil. O téme informoval portál TechCrunch.
Starý problém v novom prevedení
Podľa technickej správy od OpenAI oba nové modely halucinujú častejšie ako staršie reasoning modely ako o1, o1-mini či o3-mini, ale aj ako tradičné „ne-reasoning“ modely ako GPT-4o. Model o3 napríklad halucinoval až pri 33 % otázok na PersonQA – internej OpenAI databáze na testovanie faktickej presnosti o ľuďoch. Pre porovnanie, o1 halucinoval len v 16 % a o3-mini v 14,8 % prípadov. Ešte horšie dopadol o4-mini, ktorý vykazoval halucinácie v 48 % otázok.
OpenAI priznáva, že dôvody zhoršenia nie sú zatiaľ jasné a „je potrebný ďalší výskum“, aby sa zistilo, prečo škálovanie reasoning modelov vedie k vyššiemu výskytu halucinácií. Jedným z vysvetlení môže byť samotná povaha týchto modelov – vďaka ich schopnosti robiť viac záverov a tvrdení, častejšie vytvárajú presné, ale aj nepresné odpovede.
Nejasné dôvody a hypotézy výskumníkov
Organizácia Transluce, neziskové výskumné laboratórium pre AI, našla ďalší dôkaz o halucináciách modelu o3. V jednom prípade tvrdil, že spustil kód na MacBooku Pro mimo prostredia ChatGPT a následne skopíroval výsledky – čo technicky nie je možné. Podľa výskumníka Neila Chowdhuryho z Transluce môže byť za problémom typ reinforcement learningu použitý pri o-serii modeloch, ktorý môže zhoršiť niektoré nedostatky, ktoré bývajú zvyčajne zmiernené tradičným post-tréningovým spracovaním.
Napriek problémom s halucináciami niektorí odborníci nové modely už testujú v praxi. Kian Katanforoosh, profesor zo Stanfordu a CEO startupu Workera, uviedol, že model o3 používajú v kódovacích pracovných tokoch a považujú ho za výkonný nástroj. Avšak upozornil, že model má tendenciu vymýšľať nefunkčné odkazy na webové stránky, čo znižuje jeho spoľahlivosť.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
USA čelia vážnej hrozbe. Tajná čínska stíhačka zablokuje ich bombardéry na 1000 km
Ľudia pri ňom odchádzali z kina. Desivý horor ide do finále, najhoršie ešte len príde (VIDEO)
Najslávnejšia veta vznikla náhodou. Gladiátor má 25 rokov, prvý nápad by nikdy neprerazil
Má 340 koní a 560 km dojazd. Nová Škoda je najvýkonnejšie auto milovanej značky
Legendárny DOOM je späť v najlepšej forme. Takúto brutalitu len tak niekde nezažiješ (RECENZIA)
NAJČÍTANEJŠIE ZO STARTITUP
Ak máš dôchodok nižší ako 684,10 eura, môže to byť problém
U susedov došlo k výbuchu a zrúteniu stropu hotela: Záchranári vyťahovali zavalených hostí
Slováci odštartovali MS v hokeji 2025 debaklom. Domáci Švédi zvíťazili vysoko 5:0
Nový pápež Lev XIV. kritizoval Donalda Trumpa. Hnutie MAGA voľbou nadšené nie je
V Moskve sa začala kontroverzná vojenská prehliadka: Putin oslavuje, Fico medzi hosťami (FOTO)
- 24 hod
- 48 hod
- 7 dní
-
- Robí si na ňu zálusk NATO aj Ukrajina. Sused Ruska má novú kamikadze zbraň na obranu štátu
- Vedci sú v koncoch. Gigantický objekt popiera základné pravidlá vesmíru, fyzika na to nemá odpoveď
- ČERNÁK pobláznil Slovákov. Netflix však ponúka ešte niečo omnoho lepšie
- Majitelia elektromobilov dostali studenú sprchu. Po novom majú platiť nespravodlivú a vysokú daň
- Socialistická ikona hlási návrat. Slávna značka ukázala po desaťročiach nový model
-
- ČERNÁK pobláznil Slovákov. Netflix však ponúka ešte niečo omnoho lepšie
- Majitelia elektromobilov dostali studenú sprchu. Po novom majú platiť nespravodlivú a vysokú daň
- Robí si na ňu zálusk NATO aj Ukrajina. Sused Ruska má novú kamikadze zbraň na obranu štátu
- Vedci sú v koncoch. Gigantický objekt popiera základné pravidlá vesmíru, fyzika na to nemá odpoveď
- Google Mapy ťa vodia za nos. Tento skrytý trik ťa stojí kilometre navyše (+ako to zmeniť)
-
- Vedci našli skrytý trik, ako obnoviť zrak. Takéto niečo by ti nikdy nenapadlo
- ČERNÁK pobláznil Slovákov. Netflix však ponúka ešte niečo omnoho lepšie
- Našli artefakt starý 80 000 rokov. Odhalil, že o minulosti ľudstva sme sa totálne mýlili
- KVÍZ: Väčšina „znalcov“ nedá už tretiu otázku. Ukáž, že filmové akčné legendy máš v malíčku
- Majitelia elektromobilov dostali studenú sprchu. Po novom majú platiť nespravodlivú a vysokú daň
Malé firmy získajú dotácie na obnoviteľné zdroje. Pozri si podmienky
Americké automobilky sa búria. Trumpova dohoda s Britániou ich zrádza
Britská letecká skupina IAG nakupuje 53 lietadiel za miliardy. Obchodná dohoda s USA ruší clá
India a Pakistan na pokraji vojny. Civilné lety zastavené
Benzín aj nafta zlacneli. Analytik varuje, že ďalšie zníženie je neisté
NAJČÍTANEJŠIE ZO STARTITUP
Ak máš dôchodok nižší ako 684,10 eura, môže to byť problém
U susedov došlo k výbuchu a zrúteniu stropu hotela: Záchranári vyťahovali zavalených hostí
Slováci odštartovali MS v hokeji 2025 debaklom. Domáci Švédi zvíťazili vysoko 5:0
Nový pápež Lev XIV. kritizoval Donalda Trumpa. Hnutie MAGA voľbou nadšené nie je
V Moskve sa začala kontroverzná vojenská prehliadka: Putin oslavuje, Fico medzi hosťami (FOTO)
Copyright© 2025 by Startitup, s. r. o. Všetky práva vyhradené