Súboj roka sa vyostruje. Musk a OpenAI sa hádajú o výkone svojich modelov
V posledných dňoch sa rozprava o tom, ako AI laboratóriá reportujú výkonnosť svojich modelov, dostala do centra pozornosti. Zamestnanec OpenAI obvinil spoločnosť xAI Elona Muska zo zavádzajúceho prezentovania benchmarkových výsledkov pre ich najnovší model Grok 3. Spoluzakladateľ xAI Igor Babushkin sa však proti týmto tvrdeniam ohradil a tvrdí, že spoločnosť konala správne. Pravda, ako to často býva, leží niekde uprostred.
V blogovom príspevku xAI uverejnila graf, v ktorom ukázala výkonnosť modelu Grok 3 na teste AIME 2025, čo je súbor náročných matematických úloh prevzatých z prestížnej medzinárodnej matematickej súťaže. Hoci niektorí odborníci spochybňujú AIME ako relevantný benchmark pre AI modely, stále ide o bežne používaný test na meranie matematických schopností umelej inteligencie. Na tému poukázal portál TechCrunch.
Chýbajúce výsledky OpenAI a sporný parameter “cons@64”
Podľa grafu zverejneného xAI modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning prekonali OpenAI model o3-mini-high v teste AIME 2025. Zamestnanci OpenAI však rýchlo poukázali na zásadnú medzeru v týchto údajoch – v grafe nebol zahrnutý výsledok OpenAI modelu pri nastavení “cons@64”.
Čo znamená cons@64? Tento parameter, skratka pre “consensus@64”, umožňuje modelu 64 pokusov na zodpovedanie každej otázky v teste, pričom ako finálnu odpoveď berie tú, ktorú vygeneruje najčastejšie. Tento spôsob výrazne zvyšuje skóre modelov, pretože AI má väčšiu šancu nájsť správnu odpoveď. Ak sa tento faktor nezahrnie do porovnania, môže sa mylné zdať, že jeden model prekonáva druhý, hoci v skutočnosti to tak nie je.
Keď sa pozrieme na výsledky bez cons@64, modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning zaostávajú za OpenAI o3-mini-high. Navyše, Grok 3 Reasoning Beta mierne zaostáva aj za OpenAI o1 modelom v strednom výkonnostnom nastavení. Napriek tomu xAI propaguje Grok 3 ako “najinteligentnejšiu AI na svete”, čo vyvoláva ďalšie otázky o objektívnosti týchto tvrdení.
OpenAI tiež manipulovalo so svojimi benchmarkmi
Babushkin sa bráni tým, že OpenAI sama v minulosti publikovala podobne zavádzajúce grafy – hoci v prípade interného porovnávania vlastných modelov. Zatiaľ čo neutrálny AI výskumník zostavil presnejší graf, ktorý ukazuje výkonnosť väčšiny modelov pri cons@64, problém benchmarkov tým nekončí.
Ako upozornil AI výskumník Nathan Lambert, najdôležitejšia otázka stále zostáva nezodpovedaná – aká bola výpočtová (a finančná) náročnosť dosiahnutia najlepšieho výsledku každého modelu?
To len dokazuje, ako málo AI benchmarky skutočne vypovedajú o obmedzeniach a reálnych schopnostiach modelov. Bez pochopenia zdrojov, ktoré modely spotrebovali na dosiahnutie svojho skóre, môžu byť akékoľvek porovnania nepresné alebo zavádzajúce.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Trump dostal nebezpečný nápad. Chce ťažiť cenné suroviny na dne oceánov, spôsobí tým pohromu
Vedci sú v koncoch. Gigantický objekt popiera základné pravidlá vesmíru, fyzika na to nemá odpoveď
AKTUÁLNE: Bitcoin znova prekonal magickú hranicu. Vystrelil po Trumpovom dôležitom oznámení
Konečne sme sa dočkali. Nová Mafia predviedla svoju hrateľnosť v oficiálnom traileri
Ak zastavíš, bez milosti ťa popravia. Brutálny film podľa námetu Stephena Kinga dostal drsnú ukážku
NAJČÍTANEJŠIE ZO STARTITUP
Slovensko o pár hodín zasiahnu prudké mrazy. Vieme, kde ich pocítia najviac (PREDPOVEĎ)
Slováci majú v obývačke poklady za tisíce eur. Tieto predmety majú päťcifernú hodnotu (PREHĽAD)
Revolúcia v liečbe depresie: Domorodá rastlina môže zachrániť milióny životov, hlási nový výskum
Nový pápež Lev XIV. mal prísť v júni na Slovensko. Plánoval odslúžiť omšu aj navštíviť známy vrch
V zóne smrti nemôžeme zachrániť nikoho. Horolezci odhaľujú drsnú stránku výstupu na Mount Everest
- 24 hod
- 48 hod
- 7 dní
-
- Robí si na ňu zálusk NATO aj Ukrajina. Sused Ruska má novú kamikadze zbraň na obranu štátu
- Vedci sú v koncoch. Gigantický objekt popiera základné pravidlá vesmíru, fyzika na to nemá odpoveď
- ČERNÁK pobláznil Slovákov. Netflix však ponúka ešte niečo omnoho lepšie
- Majitelia elektromobilov dostali studenú sprchu. Po novom majú platiť nespravodlivú a vysokú daň
- AKTUÁLNE: Bitcoin znova prekonal magickú hranicu. Vystrelil po Trumpovom dôležitom oznámení
-
- ČERNÁK pobláznil Slovákov. Netflix však ponúka ešte niečo omnoho lepšie
- Majitelia elektromobilov dostali studenú sprchu. Po novom majú platiť nespravodlivú a vysokú daň
- Robí si na ňu zálusk NATO aj Ukrajina. Sused Ruska má novú kamikadze zbraň na obranu štátu
- Vedci sú v koncoch. Gigantický objekt popiera základné pravidlá vesmíru, fyzika na to nemá odpoveď
- Google Mapy ťa vodia za nos. Tento skrytý trik ťa stojí kilometre navyše (+ako to zmeniť)
-
- Vedci našli skrytý trik, ako obnoviť zrak. Takéto niečo by ti nikdy nenapadlo
- Našli artefakt starý 80 000 rokov. Odhalil, že o minulosti ľudstva sme sa totálne mýlili
- ČERNÁK pobláznil Slovákov. Netflix však ponúka ešte niečo omnoho lepšie
- KVÍZ: Väčšina „znalcov“ nedá už tretiu otázku. Ukáž, že filmové akčné legendy máš v malíčku
- Slováci majú nového miláčika. Tento mobil kupujú viac než nový iPhone a Samsung
Brent sa šplhá nahor. Investorov ťahá nádej na obchodnú dohodu medzi veľmocami
Brusel chce zastaviť ruský plyn. Hlas-SD varuje pred ohrozením Slovenska
Začína to rutinou a končí hladovaním. Na sociálnej sieti sa šíri trend, ktorý vydesil expertov
Severná Kórea opäť odpálila balistickú raketu. Napätie na polostrove stúpa
Ani silný zisk nestačil. Slabšie tržby poslali akcie Uberu do mínusu
NAJČÍTANEJŠIE ZO STARTITUP
Slovensko o pár hodín zasiahnu prudké mrazy. Vieme, kde ich pocítia najviac (PREDPOVEĎ)
Slováci majú v obývačke poklady za tisíce eur. Tieto predmety majú päťcifernú hodnotu (PREHĽAD)
Revolúcia v liečbe depresie: Domorodá rastlina môže zachrániť milióny životov, hlási nový výskum
Nový pápež Lev XIV. mal prísť v júni na Slovensko. Plánoval odslúžiť omšu aj navštíviť známy vrch
V zóne smrti nemôžeme zachrániť nikoho. Horolezci odhaľujú drsnú stránku výstupu na Mount Everest
Copyright© 2025 by Startitup, s. r. o. Všetky práva vyhradené