Súboj roka sa vyostruje. Musk a OpenAI sa hádajú o výkone svojich modelov
V posledných dňoch sa rozprava o tom, ako AI laboratóriá reportujú výkonnosť svojich modelov, dostala do centra pozornosti. Zamestnanec OpenAI obvinil spoločnosť xAI Elona Muska zo zavádzajúceho prezentovania benchmarkových výsledkov pre ich najnovší model Grok 3. Spoluzakladateľ xAI Igor Babushkin sa však proti týmto tvrdeniam ohradil a tvrdí, že spoločnosť konala správne. Pravda, ako to často býva, leží niekde uprostred.
V blogovom príspevku xAI uverejnila graf, v ktorom ukázala výkonnosť modelu Grok 3 na teste AIME 2025, čo je súbor náročných matematických úloh prevzatých z prestížnej medzinárodnej matematickej súťaže. Hoci niektorí odborníci spochybňujú AIME ako relevantný benchmark pre AI modely, stále ide o bežne používaný test na meranie matematických schopností umelej inteligencie. Na tému poukázal portál TechCrunch.
Chýbajúce výsledky OpenAI a sporný parameter “cons@64”
Podľa grafu zverejneného xAI modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning prekonali OpenAI model o3-mini-high v teste AIME 2025. Zamestnanci OpenAI však rýchlo poukázali na zásadnú medzeru v týchto údajoch – v grafe nebol zahrnutý výsledok OpenAI modelu pri nastavení “cons@64”.
Čo znamená cons@64? Tento parameter, skratka pre “consensus@64”, umožňuje modelu 64 pokusov na zodpovedanie každej otázky v teste, pričom ako finálnu odpoveď berie tú, ktorú vygeneruje najčastejšie. Tento spôsob výrazne zvyšuje skóre modelov, pretože AI má väčšiu šancu nájsť správnu odpoveď. Ak sa tento faktor nezahrnie do porovnania, môže sa mylné zdať, že jeden model prekonáva druhý, hoci v skutočnosti to tak nie je.
Keď sa pozrieme na výsledky bez cons@64, modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning zaostávajú za OpenAI o3-mini-high. Navyše, Grok 3 Reasoning Beta mierne zaostáva aj za OpenAI o1 modelom v strednom výkonnostnom nastavení. Napriek tomu xAI propaguje Grok 3 ako “najinteligentnejšiu AI na svete”, čo vyvoláva ďalšie otázky o objektívnosti týchto tvrdení.
OpenAI tiež manipulovalo so svojimi benchmarkmi
Babushkin sa bráni tým, že OpenAI sama v minulosti publikovala podobne zavádzajúce grafy – hoci v prípade interného porovnávania vlastných modelov. Zatiaľ čo neutrálny AI výskumník zostavil presnejší graf, ktorý ukazuje výkonnosť väčšiny modelov pri cons@64, problém benchmarkov tým nekončí.
Ako upozornil AI výskumník Nathan Lambert, najdôležitejšia otázka stále zostáva nezodpovedaná – aká bola výpočtová (a finančná) náročnosť dosiahnutia najlepšieho výsledku každého modelu?
To len dokazuje, ako málo AI benchmarky skutočne vypovedajú o obmedzeniach a reálnych schopnostiach modelov. Bez pochopenia zdrojov, ktoré modely spotrebovali na dosiahnutie svojho skóre, môžu byť akékoľvek porovnania nepresné alebo zavádzajúce.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Najskôr zima, potom drastické teplo. Jadrová vojna spôsobí v mestách peklo, ľudstvo by hneď nevyhynulo
Za málo peňazí dostaneš famózny stroj. Toto sú najlepšie a najlacnejšie drony na slovenskom trhu
Musk vulgárne vynadal veliteľovi ISS. O pár hodín chcel odstaviť vesmírnu stanicu
Expert predpovedá ďalšie zvyšovanie cien pre motoristov. Môže za to poplatok v servisoch
Prefíkane porazili najlepší engine sveta. AI modely podvádzajú všetkých aj v tej najbanálnejšej veci
NAJČÍTANEJŠIE ZO STARTITUP
9 z 10 Slovákov nevie, kde sa nachádza Ľubica. Otestuj sa, či dokážeš priradiť mesto a obec k správnemu kraju (KVÍZ)
V 26 rokoch som sa stal milionárom: Investuj správne a nikdy nebudeš musieť pracovať. Tu je môj plán
Najpredávanejšie jedlo v Bystrici je držková, v Bratislave bôčik, hovorí majiteľ podniku s vysokokvalitným mäsom
Tabaková sa pustila do Huliaka a nazvala ho „obéznym autolakérom“. „Ak Huliak bude minister športu, podám výpoveď“
Predčasné parlamentné voľby v Nemecku vyhrali kresťanskí demokrati z únie CDU/CSU, tvrdí exit poll
- 24 hod
- 48 hod
- 7 dní
-
- Za málo peňazí dostaneš famózny stroj. Toto sú najlepšie a najlacnejšie drony na slovenskom trhu
- Medicína jasá. Vedci skúmali globálny problém 10 rokov, AI od Google ho vyriešila za 2 dni
- Mali byť hitom, no nikto ich nechcel. TOP 8 technologických prepadákov slávnych značiek
- Analytik odhalil krutú pravdu o plyne. Kým Česi šetria na plné obrátky, Slováci kúria bezhlavo
- Netflix prerazil dno a zabil milovanú fantasy. Zaklínač na tom nikdy nebol horšie
-
- Analytik odhalil krutú pravdu o plyne. Kým Česi šetria na plné obrátky, Slováci kúria bezhlavo
- Mali byť hitom, no nikto ich nechcel. TOP 8 technologických prepadákov slávnych značiek
- Lepší akčný seriál v súčasnosti nenájdeš. Dorazila nová séria obľúbeného titulu, kritici nešetria chválou
- Ak nepredáš auto, poškodíme ti ho. Majitelia populárnej značky čelia vyhrážkam po celom svete
- Netflix prerazil dno a zabil milovanú fantasy. Zaklínač na tom nikdy nebol horšie
-
- Majú zásoby 85 miliárd m³. Do Európy začne prúdiť nový zdroj plynu z prekvapivej krajiny
- Mali byť hitom, no nikto ich nechcel. TOP 8 technologických prepadákov slávnych značiek
- Analytik odhalil krutú pravdu o plyne. Kým Česi šetria na plné obrátky, Slováci kúria bezhlavo
- Podmanil si divákov v 75 štátoch vrátane Slovenska. Drsný film dostal pokračovanie na Netflixe (TRAILER)
- Ak nepredáš auto, poškodíme ti ho. Majitelia populárnej značky čelia vyhrážkam po celom svete
Ak chceš zhodnotiť peniaze, štát ti dá šancu. Slovensko spúšťa predaj dlhopisov
Klasickým robotom zvoní umieračik. Vedci vytvorili materiál, ktorý sa hýbe úplne sám
Súboj roka sa vyostruje. Musk a OpenAI sa hádajú o výkone svojich modelov
V reálnom čase mení tvar aj farbu. Číňania vyvinuli masku inšpirovanú známymi filmami
Vedci varujú pred veľkým problémom. DeepSeek umožňuje tvorbu škodlivého softvéru
NAJČÍTANEJŠIE ZO STARTITUP
9 z 10 Slovákov nevie, kde sa nachádza Ľubica. Otestuj sa, či dokážeš priradiť mesto a obec k správnemu kraju (KVÍZ)
V 26 rokoch som sa stal milionárom: Investuj správne a nikdy nebudeš musieť pracovať. Tu je môj plán
Najpredávanejšie jedlo v Bystrici je držková, v Bratislave bôčik, hovorí majiteľ podniku s vysokokvalitným mäsom
Tabaková sa pustila do Huliaka a nazvala ho „obéznym autolakérom“. „Ak Huliak bude minister športu, podám výpoveď“
Predčasné parlamentné voľby v Nemecku vyhrali kresťanskí demokrati z únie CDU/CSU, tvrdí exit poll
Copyright© 2025 by Startitup, s. r. o. Všetky práva vyhradené