OpenAI hcce vytvoriť humanoidných robotov

Unsplash/Freepik (Úprava redakcie)

V posledných dňoch sa rozprava o tom, ako AI laboratóriá reportujú výkonnosť svojich modelov, dostala do centra pozornosti. Zamestnanec OpenAI obvinil spoločnosť xAI Elona Muska zo zavádzajúceho prezentovania benchmarkových výsledkov pre ich najnovší model Grok 3. Spoluzakladateľ xAI Igor Babushkin sa však proti týmto tvrdeniam ohradil a tvrdí, že spoločnosť konala správne. Pravda, ako to často býva, leží niekde uprostred.

V blogovom príspevku xAI uverejnila graf, v ktorom ukázala výkonnosť modelu Grok 3 na teste AIME 2025, čo je súbor náročných matematických úloh prevzatých z prestížnej medzinárodnej matematickej súťaže. Hoci niektorí odborníci spochybňujú AIME ako relevantný benchmark pre AI modely, stále ide o bežne používaný test na meranie matematických schopností umelej inteligencie. Na tému poukázal portál TechCrunch.

Chýbajúce výsledky OpenAI a sporný parameter “cons@64”

Podľa grafu zverejneného xAI modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning prekonali OpenAI model o3-mini-high v teste AIME 2025. Zamestnanci OpenAI však rýchlo poukázali na zásadnú medzeru v týchto údajoch – v grafe nebol zahrnutý výsledok OpenAI modelu pri nastavení “cons@64”.

Čo znamená cons@64? Tento parameter, skratka pre “consensus@64”, umožňuje modelu 64 pokusov na zodpovedanie každej otázky v teste, pričom ako finálnu odpoveď berie tú, ktorú vygeneruje najčastejšie. Tento spôsob výrazne zvyšuje skóre modelov, pretože AI má väčšiu šancu nájsť správnu odpoveď. Ak sa tento faktor nezahrnie do porovnania, môže sa mylné zdať, že jeden model prekonáva druhý, hoci v skutočnosti to tak nie je.

Keď sa pozrieme na výsledky bez cons@64, modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning zaostávajú za OpenAI o3-mini-high. Navyše, Grok 3 Reasoning Beta mierne zaostáva aj za OpenAI o1 modelom v strednom výkonnostnom nastavení. Napriek tomu xAI propaguje Grok 3 ako “najinteligentnejšiu AI na svete”, čo vyvoláva ďalšie otázky o objektívnosti týchto tvrdení.

Unsplash

OpenAI tiež manipulovalo so svojimi benchmarkmi

Babushkin sa bráni tým, že OpenAI sama v minulosti publikovala podobne zavádzajúce grafy – hoci v prípade interného porovnávania vlastných modelov. Zatiaľ čo neutrálny AI výskumník zostavil presnejší graf, ktorý ukazuje výkonnosť väčšiny modelov pri cons@64, problém benchmarkov tým nekončí.

Ako upozornil AI výskumník Nathan Lambert, najdôležitejšia otázka stále zostáva nezodpovedaná – aká bola výpočtová (a finančná) náročnosť dosiahnutia najlepšieho výsledku každého modelu?

To len dokazuje, ako málo AI benchmarky skutočne vypovedajú o obmedzeniach a reálnych schopnostiach modelov. Bez pochopenia zdrojov, ktoré modely spotrebovali na dosiahnutie svojho skóre, môžu byť akékoľvek porovnania nepresné alebo zavádzajúce.

Teraz čítajú

Nie je to len auto. Obľúbená automobilka ukázala nový elektromobil s geniálnou funkciou

Let na hranicu vesmíru už nebude len pre miliardárov. Balóny od Space Perspective môžu byť revolúciou

Spojenec Západu vylepšil HIMARS desivou zbraňou. Trafila cieľ 480 km ďaleko s extrémnou presnosťou

VIDEO: Prvý trailer na Avatar 3: Fire and Ash je vonku. Z mierumilovných Na’vi sa stáva temná hrozba

Elon Musk priznal, že Tesla narazila na strop. Na pomoc prišiel Samsung s miliardovým obchodom

NAJČÍTANEJŠIE ZO STARTITUP

Ukrajina uzavrela strategickú dohodu: Prvá transbalkánska dodávka plynu je realitou

PREMIUM

„Nie sme závislí od grantov a práve to nám mnohí nevedia odpustiť.“ Šéf Film Europe vybudoval biznis mimo sveta Netflixu

Sajfa predal Toldo známemu hráčovi na trhu, slovenský trh pre tento biznis už nestačí

Na Slovensku sú len dve. Prešovská nemocnica zaviedla revolučnú liečbu zeleného zákalu

Trump vraj ponúkol Putinovi časť Ukrajiny, tvrdí rakúska ministerka. Rusko malo ponuku odmietnuť a pokračovať vo vojne

Súboj roka sa vyostruje. Musk a OpenAI sa hádajú o výkone svojich modelov

Chýbajúce výsledky OpenAI a sporný parameter “cons@64”

OpenAI tiež manipulovalo so svojimi benchmarkmi

Nie je to len auto. Obľúbená automobilka ukázala nový elektromobil s geniálnou funkciou

Let na hranicu vesmíru už nebude len pre miliardárov. Balóny od Space Perspective môžu byť revolúciou

Spojenec Západu vylepšil HIMARS desivou zbraňou. Trafila cieľ 480 km ďaleko s extrémnou presnosťou

VIDEO: Prvý trailer na Avatar 3: Fire and Ash je vonku. Z mierumilovných Na’vi sa stáva temná hrozba

Elon Musk priznal, že Tesla narazila na strop. Na pomoc prišiel Samsung s miliardovým obchodom

Ukrajina uzavrela strategickú dohodu: Prvá transbalkánska dodávka plynu je realitou

„Nie sme závislí od grantov a práve to nám mnohí nevedia odpustiť.“ Šéf Film Europe vybudoval biznis mimo sveta Netflixu

Sajfa predal Toldo známemu hráčovi na trhu, slovenský trh pre tento biznis už nestačí

Na Slovensku sú len dve. Prešovská nemocnica zaviedla revolučnú liečbu zeleného zákalu

Trump vraj ponúkol Putinovi časť Ukrajiny, tvrdí rakúska ministerka. Rusko malo ponuku odmietnuť a pokračovať vo vojne

Audi sa rúti dolu kopcom. Zisk sa prepadol o vyše 37 % a problémy nekončia

Slovensko čelí digitálnej invázii. Týždenne nás napadnú tisíce kyberútokov

Slovensko zažije krvavý Mesiac. Blíži sa veľké úplné zatmenie

Po 50 rokoch čakania to prišlo. Petržalka má konečne svoju električku

Európska raketa, ktorá bude strážiť Zem, vyletela do kozmu. Jej misia je kľúčová pre budúcnosť planéty

Ukrajina uzavrela strategickú dohodu: Prvá transbalkánska dodávka plynu je realitou

„Nie sme závislí od grantov a práve to nám mnohí nevedia odpustiť.“ Šéf Film Europe vybudoval biznis mimo sveta Netflixu

Sajfa predal Toldo známemu hráčovi na trhu, slovenský trh pre tento biznis už nestačí

Na Slovensku sú len dve. Prešovská nemocnica zaviedla revolučnú liečbu zeleného zákalu

Trump vraj ponúkol Putinovi časť Ukrajiny, tvrdí rakúska ministerka. Rusko malo ponuku odmietnuť a pokračovať vo vojne

Odomknúť článok

kamošovi

Odomknúť článok

kamošovi

Súboj roka sa vyostruje. Musk a OpenAI sa hádajú o výkone svojich modelov

Chýbajúce výsledky OpenAI a sporný parameter “cons@64”

OpenAI tiež manipulovalo so svojimi benchmarkmi

Nie je to len auto. Obľúbená automobilka ukázala nový elektromobil s geniálnou funkciou

Let na hranicu vesmíru už nebude len pre miliardárov. Balóny od Space Perspective môžu byť revolúciou

Spojenec Západu vylepšil HIMARS desivou zbraňou. Trafila cieľ 480 km ďaleko s extrémnou presnosťou

VIDEO: Prvý trailer na Avatar 3: Fire and Ash je vonku. Z mierumilovných Na’vi sa stáva temná hrozba

Elon Musk priznal, že Tesla narazila na strop. Na pomoc prišiel Samsung s miliardovým obchodom

Ukrajina uzavrela strategickú dohodu: Prvá transbalkánska dodávka plynu je realitou

„Nie sme závislí od grantov a práve to nám mnohí nevedia odpustiť.“ Šéf Film Europe vybudoval biznis mimo sveta Netflixu

Sajfa predal Toldo známemu hráčovi na trhu, slovenský trh pre tento biznis už nestačí

Na Slovensku sú len dve. Prešovská nemocnica zaviedla revolučnú liečbu zeleného zákalu

Trump vraj ponúkol Putinovi časť Ukrajiny, tvrdí rakúska ministerka. Rusko malo ponuku odmietnuť a pokračovať vo vojne

Audi sa rúti dolu kopcom. Zisk sa prepadol o vyše 37 % a problémy nekončia

Slovensko čelí digitálnej invázii. Týždenne nás napadnú tisíce kyberútokov

Slovensko zažije krvavý Mesiac. Blíži sa veľké úplné zatmenie

Po 50 rokoch čakania to prišlo. Petržalka má konečne svoju električku

Európska raketa, ktorá bude strážiť Zem, vyletela do kozmu. Jej misia je kľúčová pre budúcnosť planéty

Ukrajina uzavrela strategickú dohodu: Prvá transbalkánska dodávka plynu je realitou

„Nie sme závislí od grantov a práve to nám mnohí nevedia odpustiť.“ Šéf Film Europe vybudoval biznis mimo sveta Netflixu

Sajfa predal Toldo známemu hráčovi na trhu, slovenský trh pre tento biznis už nestačí

Na Slovensku sú len dve. Prešovská nemocnica zaviedla revolučnú liečbu zeleného zákalu

Trump vraj ponúkol Putinovi časť Ukrajiny, tvrdí rakúska ministerka. Rusko malo ponuku odmietnuť a pokračovať vo vojne

Odomknúť článok

kamošovi

Odomknúť článok

kamošovi

Blahoželáme, máš prémiových kamošov!

Zakúpené články