Súboj roka sa vyostruje. Musk a OpenAI sa hádajú o výkone svojich modelov
V posledných dňoch sa rozprava o tom, ako AI laboratóriá reportujú výkonnosť svojich modelov, dostala do centra pozornosti. Zamestnanec OpenAI obvinil spoločnosť xAI Elona Muska zo zavádzajúceho prezentovania benchmarkových výsledkov pre ich najnovší model Grok 3. Spoluzakladateľ xAI Igor Babushkin sa však proti týmto tvrdeniam ohradil a tvrdí, že spoločnosť konala správne. Pravda, ako to často býva, leží niekde uprostred.
V blogovom príspevku xAI uverejnila graf, v ktorom ukázala výkonnosť modelu Grok 3 na teste AIME 2025, čo je súbor náročných matematických úloh prevzatých z prestížnej medzinárodnej matematickej súťaže. Hoci niektorí odborníci spochybňujú AIME ako relevantný benchmark pre AI modely, stále ide o bežne používaný test na meranie matematických schopností umelej inteligencie. Na tému poukázal portál TechCrunch.
Chýbajúce výsledky OpenAI a sporný parameter “cons@64”
Podľa grafu zverejneného xAI modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning prekonali OpenAI model o3-mini-high v teste AIME 2025. Zamestnanci OpenAI však rýchlo poukázali na zásadnú medzeru v týchto údajoch – v grafe nebol zahrnutý výsledok OpenAI modelu pri nastavení “cons@64”.
Čo znamená cons@64? Tento parameter, skratka pre “consensus@64”, umožňuje modelu 64 pokusov na zodpovedanie každej otázky v teste, pričom ako finálnu odpoveď berie tú, ktorú vygeneruje najčastejšie. Tento spôsob výrazne zvyšuje skóre modelov, pretože AI má väčšiu šancu nájsť správnu odpoveď. Ak sa tento faktor nezahrnie do porovnania, môže sa mylné zdať, že jeden model prekonáva druhý, hoci v skutočnosti to tak nie je.
Keď sa pozrieme na výsledky bez cons@64, modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning zaostávajú za OpenAI o3-mini-high. Navyše, Grok 3 Reasoning Beta mierne zaostáva aj za OpenAI o1 modelom v strednom výkonnostnom nastavení. Napriek tomu xAI propaguje Grok 3 ako “najinteligentnejšiu AI na svete”, čo vyvoláva ďalšie otázky o objektívnosti týchto tvrdení.
OpenAI tiež manipulovalo so svojimi benchmarkmi
Babushkin sa bráni tým, že OpenAI sama v minulosti publikovala podobne zavádzajúce grafy – hoci v prípade interného porovnávania vlastných modelov. Zatiaľ čo neutrálny AI výskumník zostavil presnejší graf, ktorý ukazuje výkonnosť väčšiny modelov pri cons@64, problém benchmarkov tým nekončí.
Ako upozornil AI výskumník Nathan Lambert, najdôležitejšia otázka stále zostáva nezodpovedaná – aká bola výpočtová (a finančná) náročnosť dosiahnutia najlepšieho výsledku každého modelu?
To len dokazuje, ako málo AI benchmarky skutočne vypovedajú o obmedzeniach a reálnych schopnostiach modelov. Bez pochopenia zdrojov, ktoré modely spotrebovali na dosiahnutie svojho skóre, môžu byť akékoľvek porovnania nepresné alebo zavádzajúce.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Najbrutálnejší seriál súčasnosti sa ukazuje v prvom videu. Nešetrí krvou ani humorom
Nemeckí tankisti bojujú proti ruským vojskám. Vojnový film ukazuje temnú stránku Wehrmachtu
Ľudstvo nemá kam ukladať energiu. Zachráni nás „zabudnutý” typ batérie, ktorú už 146 rokov nevyužívame
Herný trh sa opäť otriasa v základoch. Sony chystá krok, s ktorým nikto nepočítal
Hawking mal pravdu, desivý jav zničí celý vesmír. Objav ale ukazuje čosi nevídané
NAJČÍTANEJŠIE ZO STARTITUP
MIMORIADNE: Z mosta nad obchvatom spadlo mladé dievča. Zasahuje zachranársky vrtuľník
Muž zaútočil káblom na farára. Zabarikádoval sa doma, zasahujú vyjednávači
Zrážka vlaku s autom: Muži z vozidla zmizli, zasahujú všetky zložky
LIVE z Úradu vlády: Fico obviňuje Britániu z ovplyvňovania volieb na Slovensku
Neurológ búra mýty o kortizole: Ak ho správne načasuješ, dodá ti energiu a „nakopne“ imunitný systém
- 24 hod
- 48 hod
- 7 dní
-
- Zmeny v STK zaskočili Slovákov. Vysoké pokuty hrozia aj tým, ktorí auto už nemajú (PREHĽAD)
- Vojenskí experti prišli s víťazným plánom: Nad Ukrajinou bude lietať stovka európskych stíhačiek
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
- Ohromne zbohatnú a spasia Európu. Blízko Slovenska našli obrovské ložisko ropy a plynu
- Spojenec Západu vylepšil HIMARS desivou zbraňou. Trafila cieľ 480 km ďaleko s extrémnou presnosťou
-
- Zmeny v STK zaskočili Slovákov. Vysoké pokuty hrozia aj tým, ktorí auto už nemajú (PREHĽAD)
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
- Vojenskí experti prišli s víťazným plánom: Nad Ukrajinou bude lietať stovka európskych stíhačiek
- Vesmír možno práve odhalil svoj najväčší trik. Astronómovia hovoria o objave, ktorý mení učebnice
- Kolaps ľudskej spoločnosti príde nečakane skoro. Vedcov vystrašil počítač s realistickou predpoveďou
-
- Zmeny v STK zaskočili Slovákov. Vysoké pokuty hrozia aj tým, ktorí auto už nemajú (PREHĽAD)
- Slováci sa zamilovali. Tieto pneumatiky sú absolútnym hitom, vodiči rozmýšľajú logicky
- Európa má konečne plán. Našla svoju tajnú zbraň, Nórsko a Grónsko nám pomôžu k sebestačnosti
- Najprekliatejší film histórie? Tragédia, pri ktorej zomreli dve deti a hercovi odťalo hlavu, šokuje dodnes
- Nasadili vrták s extrémnym výkonom. Čína buduje najväčší tunel sveta, razí ho rekordnou rýchlosťou
Veľká novinka pre majiteľov smart hodiniek. Najväčší operátor prichádza s užitočnou funkciou
EÚ zaskočila svet. Nečakaná krajina môže cez Rusko vyvážať uhlie napriek sankciám
Audi sa rúti dolu kopcom. Zisk sa prepadol o vyše 37 % a problémy nekončia
Slovensko čelí digitálnej invázii. Týždenne nás napadnú tisíce kyberútokov
Slovensko zažije krvavý Mesiac. Blíži sa veľké úplné zatmenie
NAJČÍTANEJŠIE ZO STARTITUP