Experti prikázali AI, aby zbohatla stávkovaním. Najmodernejšie modely prekvapili
Umelá inteligencia sa v posledných rokoch dramaticky posunula v riešení presne definovaných úloh. Jazykové modely dnes dosahujú špičkové výsledky v benchmarkoch zameraných na programovanie, matematiku či logické úlohy.
Nový výskum však naznačuje, že tieto úspechy nemusia automaticky znamenať pripravenosť na nasadenie v reálnych, dynamických prostrediach, kde je potrebné robiť dlhodobé rozhodnutia.
Spoločnosť General Reasoning preto predstavila nový testovací rámec s názvom KellyBench. Ten sa však nesústredí na izolované úlohy, ale výskumníci mu nasimulovali komplexné prostredie športových stávkových trhov. Konkrétne sa to týkalo celej sezóny 2023/2024 anglickej futbalovej Premier League. Cieľom bolo preveriť, či moderné jazykové modely dokážu nielen analyzovať dáta, ale aj dlhodobo optimalizovať svoje rozhodnutia a zvyšovať finančný kapitál.
Modely mali k dispozícii rozsiahle množstvo informácií vrátane historických štatistík, zostáv, výsledkov zápasov (okrem výsledkov zo sezóny 2023/24) či verejných kurzov. Ich úlohou bolo vytvoriť vlastné predikčné modely, identifikovať výhodné príležitosti na trhu, správne nastavovať výšku stávok a priebežne upravovať stratégiu podľa vývoja sezóny.
Výsledky však ukázali výrazný rozdiel medzi analytickými schopnosťami modelov a ich praktickým rozhodovaním. Všetky testované modely skončili v priemere v strate a viaceré simulácie skončili úplným vyčerpaním kapitálu.
Najlepší výsledok dosiahol model Claude Opus 4.6 s priemernou návratnosťou približne mínus 11 percent. Len dva modely, konkrétne Claude Opus 4.6 a GPT-5.4, dokázali prežiť všetky simulácie bez bankrotu.
Výskumníci konštatujú, že modely majú problém udržať konzistentné správanie v dlhom časovom horizonte. Často nedokážu pretaviť vlastné analýzy do konkrétnych rozhodnutí alebo nedostatočne reagujú na meniace sa podmienky.
Testované modely
- Claude Opus 4.6
- GLM-5
- GPT-5.4
- Gemini 3.1 Flash Lite Preview
- Gemini 3.1 Pro
- Grok 4.20
- Kimi K2.5
- Trinity-Large
Problém dlhodobého rozhodovania
Jednou z hlavných výziev je schopnosť pracovať v prostredí, ktoré sa neustále mení. KellyBench simulovalo celú futbalovú sezónu od augusta do mája, pričom modely museli opakovane prechádzať cyklom analýzy, rozhodovania a vyhodnocovania. Počas jednej simulácie vykonali stovky až tisíce operácií a spracovali desiatky až stovky miliónov tokenov.
„Modely majú problém správať sa koherentne počas dlhých časových horizontov a často nedokážu konať na základe vlastných analýz alebo sa prispôsobiť meniacemu sa svetu,“ uvádzajú autori výskumu.
Zaujímavým zistením je aj vysoká nákladovosť takéhoto testovania. Najvýkonnejšie modely si vyžadovali stovky až tisíce dolárov na jednu simuláciu sezóny, pričom lacnejšie open-source riešenia boli síce výrazne úspornejšie, no nedosahovali lepšie výsledky.

AI zaostáva za človekom
Výskumníci sa pokúsili kvantifikovať kvalitu stratégií pomocou vlastného hodnotiaceho systému. Ten posudzoval napríklad návrh modelu, spôsob realizácie stávok či schopnosť reagovať na neistotu. V tomto hodnotení nedosiahol žiadny z modelov viac než tretinu bodov v porovnaní s ľudskými expertmi.
„Každý model v našom hodnotení je z hľadiska sofistikovanosti slabší než ľudské benchmarky, čo naznačuje značný priestor na zlepšenie,“ konštatuje výskum.
Zároveň sa ukázalo, že vyššia kvalita stratégie priamo súvisí s lepšími výsledkami a nižším rizikom bankrotu. Modely s najnižším hodnotením končili v bankrote výrazne častejšie než tie, ktoré dosiahli lepšie skóre.
Skúšali sme to aj my
Ešte pri boome umelej inteligencie v roku 2024 sme sa aj my rozhodli preveriť schopnosti umelej inteligencie v súvislosti so športovým stávkovaním. Realizovali sme experiment, ktorý nám priniesol vskutku zaujímavé, no zmiešané výsledky.
Nevyužívali sme však konkrétne nástroje ako ChatGPT, Claude alebo Grok, ale špecializované aplikácie. Výsledky tohto experimentu si môžeš prečítať na tomto linku.
Smerom ku komplexnejším simuláciám
Autori štúdie upozorňujú, že tradičné benchmarky prestávajú postačovať na hodnotenie schopností moderných AI systémov. Namiesto jednoduchých úloh bude čoraz dôležitejšie testovať modely v komplexných simulovaných svetoch, kde sa učia z vlastných skúseností a čelia neistote.
„Naše výsledky poukazujú na potrebu nových prostredí, ktoré presahujú pevne definované úlohy a smerujú ku komplexným svetom, kde sa agenti učia zo skúseností v podmienkach neistoty,“ uvádzajú autori.
KellyBench tak predstavuje prvý krok k novej generácii hodnotiacich nástrojov. Tie by mali lepšie odrážať reálne nasadenie umelej inteligencie v oblastiach, kde nestačí len analyzovať dáta, ale je nevyhnutné robiť konzistentné a adaptívne rozhodnutia v čase.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Netflix predstavil náhradu za Stranger Things. Trailer láka na temnú novinku plnú hereckých hviezd

Svet našiel novú akčnú hviezdu. Má tri hodiny na to, aby porazila mexický kartel

Najväčší film 2025 je konečne online aj s dabingom. Jedna vec ľudí určite nepoteší

Ukrajina zaskočila svet. Počas vojny tajne vyniesli do vesmíru zbrane, Rusi nič netušili

Dojazd takmer 1 000 km je realitou. Mercedes oficiálne predstavil EQS s novým ovládaním
NAJČÍTANEJŠIE ZO STARTITUP

Lekárka prezradila „tajný hack“ na omladenie mozgu. Ľudia ho ignorujú, lebo je až príliš jednoduchý
PREMIUMLetíš do rizikovej krajiny? V týchto prípadoch ťa neochráni ani cestovné poistenie

Rebríček 10 najlepších tankov sveta: Ukrajina zmenila pravidlá hry, toto je nový kráľ bojiska

Znalec prehovoril o vrahovi z gymnázia v Spišskej Starej Vsi: Nedá sa čudovať tomu, čo sa stalo

Platformu Booking.com zasiahol masívny únik dát. Hackeri získali rezrvačné údaje zákazníkov
- 24 hod
- 48 hod
- 7 dní
-
- Zožerie 400 litrov nafty na kilometer. Najťažšie vozidlo planéty slúži NASA už 60 rokov
- EÚ chcela odpísať milovaný pohon Slovákov. Devastačné zmeny nezabrali a tlak je na ústupe
- Chcú pochovať elektromobily aj spaľováky. Tento motor s výkonom 320 koní váži len 32 kg
- Silný európsky štát dostane stíhačku bez pilota. Klasické lietadlá toto nedokážu
- Veľká zmena pre vodičov v celej EÚ: Ak máš takéto auto, STK ťa možno čaká každý rok
-
- Zožerie 400 litrov nafty na kilometer. Najťažšie vozidlo planéty slúži NASA už 60 rokov
- Veľká zmena pre vodičov v celej EÚ: Ak máš takéto auto, STK ťa možno čaká každý rok
- Silný európsky štát dostane stíhačku bez pilota. Klasické lietadlá toto nedokážu
- Rozpínanie vesmíru rozrušilo vedcov. Najpresnejšie meranie v histórii potvrdilo, že fyzika má problém
- Príbeh kultového hrdinu dostane film. Hollywood oživuje jednu z najväčších legiend herného sveta
-
- Veľká zmena pre vodičov v celej EÚ: Ak máš takéto auto, STK ťa možno čaká každý rok
- Nepriateľ si netrúfne. Európsky štát nasadzuje prevratný systém za pol miliardy
- Chcú pochovať elektromobily aj spaľováky. Tento motor s výkonom 320 koní váži len 32 kg
- Prekvapivá krajina má obrovský záujem o slovenské zbrane. Kúpia pokročilé systémy za milióny eur
- Zožerie 400 litrov nafty na kilometer. Najťažšie vozidlo planéty slúži NASA už 60 rokov
Situácia s leteckým palivom v Európe je vážna, podľa EK sa môže rýchlo zhoršiť
Kašlú na sankcie a tlak Západu. Večný spojenec Ruska začal testovať zakázané zbrane
Tesla v európskej krajine spúšťa pokročilý autopilot, má však vážne obmedzenie
Slovensko patrí k špičke v EÚ: V recyklácii sme urobili obrovský skok vpred
NBÚ varuje pred zneužívaním routrov. Útočníci dokážu zachytiť prihlasovacie údaje
Na Mesiaci môže vzniknúť prvý jadrový zdroj mimo Zeme. Chce ho tam dostať Rusko v rekordnom čase
Slováci si musia pripraviť peňaženky: Energetický šok môže vytiahnuť z vreciek tisíce eur navyše
NAJČÍTANEJŠIE ZO STARTITUP

Lekárka prezradila „tajný hack“ na omladenie mozgu. Ľudia ho ignorujú, lebo je až príliš jednoduchý
PREMIUMLetíš do rizikovej krajiny? V týchto prípadoch ťa neochráni ani cestovné poistenie

Rebríček 10 najlepších tankov sveta: Ukrajina zmenila pravidlá hry, toto je nový kráľ bojiska

Znalec prehovoril o vrahovi z gymnázia v Spišskej Starej Vsi: Nedá sa čudovať tomu, čo sa stalo

