Súboj roka sa vyostruje. Musk a OpenAI sa hádajú o výkone svojich modelov
V posledných dňoch sa rozprava o tom, ako AI laboratóriá reportujú výkonnosť svojich modelov, dostala do centra pozornosti. Zamestnanec OpenAI obvinil spoločnosť xAI Elona Muska zo zavádzajúceho prezentovania benchmarkových výsledkov pre ich najnovší model Grok 3. Spoluzakladateľ xAI Igor Babushkin sa však proti týmto tvrdeniam ohradil a tvrdí, že spoločnosť konala správne. Pravda, ako to často býva, leží niekde uprostred.
V blogovom príspevku xAI uverejnila graf, v ktorom ukázala výkonnosť modelu Grok 3 na teste AIME 2025, čo je súbor náročných matematických úloh prevzatých z prestížnej medzinárodnej matematickej súťaže. Hoci niektorí odborníci spochybňujú AIME ako relevantný benchmark pre AI modely, stále ide o bežne používaný test na meranie matematických schopností umelej inteligencie. Na tému poukázal portál TechCrunch.
Chýbajúce výsledky OpenAI a sporný parameter “cons@64”
Podľa grafu zverejneného xAI modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning prekonali OpenAI model o3-mini-high v teste AIME 2025. Zamestnanci OpenAI však rýchlo poukázali na zásadnú medzeru v týchto údajoch – v grafe nebol zahrnutý výsledok OpenAI modelu pri nastavení “cons@64”.
Čo znamená cons@64? Tento parameter, skratka pre “consensus@64”, umožňuje modelu 64 pokusov na zodpovedanie každej otázky v teste, pričom ako finálnu odpoveď berie tú, ktorú vygeneruje najčastejšie. Tento spôsob výrazne zvyšuje skóre modelov, pretože AI má väčšiu šancu nájsť správnu odpoveď. Ak sa tento faktor nezahrnie do porovnania, môže sa mylné zdať, že jeden model prekonáva druhý, hoci v skutočnosti to tak nie je.
Keď sa pozrieme na výsledky bez cons@64, modely Grok 3 Reasoning Beta a Grok 3 mini Reasoning zaostávajú za OpenAI o3-mini-high. Navyše, Grok 3 Reasoning Beta mierne zaostáva aj za OpenAI o1 modelom v strednom výkonnostnom nastavení. Napriek tomu xAI propaguje Grok 3 ako “najinteligentnejšiu AI na svete”, čo vyvoláva ďalšie otázky o objektívnosti týchto tvrdení.
OpenAI tiež manipulovalo so svojimi benchmarkmi
Babushkin sa bráni tým, že OpenAI sama v minulosti publikovala podobne zavádzajúce grafy – hoci v prípade interného porovnávania vlastných modelov. Zatiaľ čo neutrálny AI výskumník zostavil presnejší graf, ktorý ukazuje výkonnosť väčšiny modelov pri cons@64, problém benchmarkov tým nekončí.
Ako upozornil AI výskumník Nathan Lambert, najdôležitejšia otázka stále zostáva nezodpovedaná – aká bola výpočtová (a finančná) náročnosť dosiahnutia najlepšieho výsledku každého modelu?
To len dokazuje, ako málo AI benchmarky skutočne vypovedajú o obmedzeniach a reálnych schopnostiach modelov. Bez pochopenia zdrojov, ktoré modely spotrebovali na dosiahnutie svojho skóre, môžu byť akékoľvek porovnania nepresné alebo zavádzajúce.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
„Krásne, čisté uhlie.“ Trumpova ekologická katastrofa ožíva, USA môže mať vážny problém
Slováci sa zamilovali. Tieto pneumatiky sú absolútnym hitom, vodiči rozmýšľajú logicky
Elon Musk bije na poplach. Objavil „magické počítače“, ktoré sú splnený sen Slovákov
TOP Mal pochovať elektromobily, realita je úplne iná. Revolučný spaľovák je fiasko
Seriál God of War čaká veľká budúcnosť, prezradil tvorca. Týmto však všetkých zarazil
NAJČÍTANEJŠIE ZO STARTITUP
Vedci odhalili tajomstvo nočného prebúdzania o 3:00. Tento jav má rôzne príčiny (ŠTÚDIA)
Posun v kauze údajnej Ficovej vily v Chorvátsku: Moravčík už nie je spolumajiteľom, tvrdí jeho otec
Predlžuje život až o 70 %: Každodenná aktivita Slovákov spomaľuje biologické starnutie
Tragédia v Prievidzi: Muža sa nepodarilo zachrániť
„Kávu nikdy nepijem, v tele vytvára výkyvy.“ 47-ročný milionár tvrdí, že sa omladil o 31 rokov
- 24 hod
- 48 hod
- 7 dní
-
- Klenot od Netflixu jasne vyhráva. Toto je TOP 11 najlepších akčných seriálov súčasnosti (+kde ich nájdeš)
- Nadvláda dronov skončila. USA nasadia krutú zbraň, ktorá ich ničí bez jediného dotyku
- Vedci zistili hrozivú vec. Dážď na celom svete je kontaminovaný nebezpečnými časticami
- Google spravil geniálny ťah. Vyše 30 miliárd investuje do veci, ktorú na Slovensku zúfalo potrebujeme
- Ľudstvo urobilo pred 100 rokmi veľkú chybu. Najväčší problém dopravy nevyriešia ani elektromobily
-
- Vedci zistili hrozivú vec. Dážď na celom svete je kontaminovaný nebezpečnými časticami
- Nadvláda dronov skončila. USA nasadia krutú zbraň, ktorá ich ničí bez jediného dotyku
- Ľudstvo urobilo pred 100 rokmi veľkú chybu. Najväčší problém dopravy nevyriešia ani elektromobily
- Ľudia po ňom nevedia zaspať. Netflix ovládol nový strhujúci seriál, na ČSFD má 81 %
- Prehliadaná krajina prechádza desivou premenou za miliardy. Čína ju zbrojí na úroveň superveľmocí
-
- Prehliadaná krajina prechádza desivou premenou za miliardy. Čína ju zbrojí na úroveň superveľmocí
- Vedci zistili hrozivú vec. Dážď na celom svete je kontaminovaný nebezpečnými časticami
- Ľudia po ňom nevedia zaspať. Netflix ovládol nový strhujúci seriál, na ČSFD má 81 %
- Neznáme sci-fi všetkých odrovnalo. Masaker na vesmírnej lodi prirovnávajú k Votrelcovi
- Budeme prepisovať učebnice. Vedci v genetickej štúdii odhalili, kedy naozaj vznikla ľudská reč
Rusko chce spojiť sily so SpaceX. Muskova reakcia všetkých prekvapila
EÚ spúšťa gigantickú investíciu 100 miliárd eur. Chce byť lídrom v čistej energii
Geopolitické napätie vystrelilo zlato nahor. Investori v panike kupujú
Diagnostika pľúc v rukách AI. Susedná krajina má v rukách revolučnú technológiu
Európska krajina tlačí na Stellantis. Výroba EV komponentov sa presúva inam, toto je dôvod
NAJČÍTANEJŠIE ZO STARTITUP
Vedci odhalili tajomstvo nočného prebúdzania o 3:00. Tento jav má rôzne príčiny (ŠTÚDIA)
Posun v kauze údajnej Ficovej vily v Chorvátsku: Moravčík už nie je spolumajiteľom, tvrdí jeho otec
Predlžuje život až o 70 %: Každodenná aktivita Slovákov spomaľuje biologické starnutie
Tragédia v Prievidzi: Muža sa nepodarilo zachrániť
„Kávu nikdy nepijem, v tele vytvára výkyvy.“ 47-ročný milionár tvrdí, že sa omladil o 31 rokov
Copyright© 2025 by Startitup, s. r. o. Všetky práva vyhradené