Experti prikázali AI, aby zbohatla stávkovaním. Najmodernejšie modely prekvapili
Umelá inteligencia sa v posledných rokoch dramaticky posunula v riešení presne definovaných úloh. Jazykové modely dnes dosahujú špičkové výsledky v benchmarkoch zameraných na programovanie, matematiku či logické úlohy.
Nový výskum však naznačuje, že tieto úspechy nemusia automaticky znamenať pripravenosť na nasadenie v reálnych, dynamických prostrediach, kde je potrebné robiť dlhodobé rozhodnutia.
Spoločnosť General Reasoning preto predstavila nový testovací rámec s názvom KellyBench. Ten sa však nesústredí na izolované úlohy, ale výskumníci mu nasimulovali komplexné prostredie športových stávkových trhov. Konkrétne sa to týkalo celej sezóny 2023/2024 anglickej futbalovej Premier League. Cieľom bolo preveriť, či moderné jazykové modely dokážu nielen analyzovať dáta, ale aj dlhodobo optimalizovať svoje rozhodnutia a zvyšovať finančný kapitál.
Modely mali k dispozícii rozsiahle množstvo informácií vrátane historických štatistík, zostáv, výsledkov zápasov (okrem výsledkov zo sezóny 2023/24) či verejných kurzov. Ich úlohou bolo vytvoriť vlastné predikčné modely, identifikovať výhodné príležitosti na trhu, správne nastavovať výšku stávok a priebežne upravovať stratégiu podľa vývoja sezóny.
Výsledky však ukázali výrazný rozdiel medzi analytickými schopnosťami modelov a ich praktickým rozhodovaním. Všetky testované modely skončili v priemere v strate a viaceré simulácie skončili úplným vyčerpaním kapitálu.
Najlepší výsledok dosiahol model Claude Opus 4.6 s priemernou návratnosťou približne mínus 11 percent. Len dva modely, konkrétne Claude Opus 4.6 a GPT-5.4, dokázali prežiť všetky simulácie bez bankrotu.
Výskumníci konštatujú, že modely majú problém udržať konzistentné správanie v dlhom časovom horizonte. Často nedokážu pretaviť vlastné analýzy do konkrétnych rozhodnutí alebo nedostatočne reagujú na meniace sa podmienky.
Testované modely
- Claude Opus 4.6
- GLM-5
- GPT-5.4
- Gemini 3.1 Flash Lite Preview
- Gemini 3.1 Pro
- Grok 4.20
- Kimi K2.5
- Trinity-Large
Problém dlhodobého rozhodovania
Jednou z hlavných výziev je schopnosť pracovať v prostredí, ktoré sa neustále mení. KellyBench simulovalo celú futbalovú sezónu od augusta do mája, pričom modely museli opakovane prechádzať cyklom analýzy, rozhodovania a vyhodnocovania. Počas jednej simulácie vykonali stovky až tisíce operácií a spracovali desiatky až stovky miliónov tokenov.
„Modely majú problém správať sa koherentne počas dlhých časových horizontov a často nedokážu konať na základe vlastných analýz alebo sa prispôsobiť meniacemu sa svetu,“ uvádzajú autori výskumu.
Zaujímavým zistením je aj vysoká nákladovosť takéhoto testovania. Najvýkonnejšie modely si vyžadovali stovky až tisíce dolárov na jednu simuláciu sezóny, pričom lacnejšie open-source riešenia boli síce výrazne úspornejšie, no nedosahovali lepšie výsledky.

AI zaostáva za človekom
Výskumníci sa pokúsili kvantifikovať kvalitu stratégií pomocou vlastného hodnotiaceho systému. Ten posudzoval napríklad návrh modelu, spôsob realizácie stávok či schopnosť reagovať na neistotu. V tomto hodnotení nedosiahol žiadny z modelov viac než tretinu bodov v porovnaní s ľudskými expertmi.
„Každý model v našom hodnotení je z hľadiska sofistikovanosti slabší než ľudské benchmarky, čo naznačuje značný priestor na zlepšenie,“ konštatuje výskum.
Zároveň sa ukázalo, že vyššia kvalita stratégie priamo súvisí s lepšími výsledkami a nižším rizikom bankrotu. Modely s najnižším hodnotením končili v bankrote výrazne častejšie než tie, ktoré dosiahli lepšie skóre.
Skúšali sme to aj my
Ešte pri boome umelej inteligencie v roku 2024 sme sa aj my rozhodli preveriť schopnosti umelej inteligencie v súvislosti so športovým stávkovaním. Realizovali sme experiment, ktorý nám priniesol vskutku zaujímavé, no zmiešané výsledky.
Nevyužívali sme však konkrétne nástroje ako ChatGPT, Claude alebo Grok, ale špecializované aplikácie. Výsledky tohto experimentu si môžeš prečítať na tomto linku.
Smerom ku komplexnejším simuláciám
Autori štúdie upozorňujú, že tradičné benchmarky prestávajú postačovať na hodnotenie schopností moderných AI systémov. Namiesto jednoduchých úloh bude čoraz dôležitejšie testovať modely v komplexných simulovaných svetoch, kde sa učia z vlastných skúseností a čelia neistote.
„Naše výsledky poukazujú na potrebu nových prostredí, ktoré presahujú pevne definované úlohy a smerujú ku komplexným svetom, kde sa agenti učia zo skúseností v podmienkach neistoty,“ uvádzajú autori.
KellyBench tak predstavuje prvý krok k novej generácii hodnotiacich nástrojov. Tie by mali lepšie odrážať reálne nasadenie umelej inteligencie v oblastiach, kde nestačí len analyzovať dáta, ale je nevyhnutné robiť konzistentné a adaptívne rozhodnutia v čase.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Need for Speed s vlakmi. Herná novinka zbiera mimoriadne ohlasy, stojí za ňou jediný vývojár

Akčný megahit či obľúbené sci-fi. Týchto 12 legendárnych filmov dostane pokračovanie

Návrat animovaných hitov, Scary Movie aj Spielberga: Leto v kine začína naplno

Xiaomi vytiahlo nové produkty, ktoré Slovákom ušetria stovky eur. Konkurenciu zničia cenou

Temu má v Európe veľký problém. Ohrozilo ľudí a dostalo obrovskú pokutu
NAJČÍTANEJŠIE ZO STARTITUP

AKTUÁLNE: Polícia zasahuje na východe Slovenska. Elitné jednotky mali zadržať prezidenta známeho futbalového klubu
PREMIUMVybavovali si byt za 240 000, hypotéku im schválili len na 90 000 eur: Maklér odhaľuje najčastejšie chyby pri kúpe bývania

Obľúbená dovolenková destinácia Slovákov čelí problému: Čistota mora sa zhoršuje, hrozia zdravotné komplikácie
PREMIUM„Ak slovenská priateľka Epsteina prehovorí, padne nejedna svetová vláda,“ tvrdí Pohle

Odstávka teplej vody v Bratislave na 5 dní. Mestská časť nahnevala ľudí „kontroverzným vizuálom“
- 24 hod
- 48 hod
- 7 dní
-
- Nový seriál ohúril svet. Na ČSFD má 87 % a trhá rekordy sledovanosti
- Je to tu. Netflix odhalil svoj najväčší hit tohto leta, dorazí čoskoro
- Platíš za rýchly internet, no doma ti stále seká Wi-Fi? Chyba nemusí byť u operátora, toto si skontroluj
- Slovensko sedí na geotermálnom poklade. Čína nám práve ukázala, ako ho využiť naplno
- Sklamaný Netflix nechápe. V krátkom čase prepadli hneď dva veľké seriály
-
- Platíš za rýchly internet, no doma ti stále seká Wi-Fi? Chyba nemusí byť u operátora, toto si skontroluj
- Slovensko sedí na geotermálnom poklade. Čína nám práve ukázala, ako ho využiť naplno
- Nový seriál ohúril svet. Na ČSFD má 87 % a trhá rekordy sledovanosti
- USA skúšajú šialený plán. 100 000-tonovú jadrovú superloď premenia na „energetickú zbraň“
- Je to tu. Netflix odhalil svoj najväčší hit tohto leta, dorazí čoskoro
-
- EÚ chcela odpísať milovaný pohon Slovákov. Pohorela však na plnej čiare
- Slovensko sedí na geotermálnom poklade. Čína nám práve ukázala, ako ho využiť naplno
- Platíš za rýchly internet, no doma ti stále seká Wi-Fi? Chyba nemusí byť u operátora, toto si skontroluj
- Nový vojnový film sa predvádza v plnej paráde. Dorazí už o pár dní, Slováci majú smolu
- Nový seriál ohúril svet. Na ČSFD má 87 % a trhá rekordy sledovanosti
Neznáme drony zaútočili na tankery pri Turecku. Napätie v Čiernom mori rastie
EÚ chce presmerovať miliardy eur. Pomoc má ísť na energie aj domácnosti
Spojenec Západu by sa mohol dočkať jadrových zbraní. Moskve sa to vôbec nepáči
Populárna služba Slovákov zvyšuje tlak a chce viac peňazí. Doplatia na to desiatky ľudí
Nvidia investuje 150 miliárd dolárov ročne do malého ostrovného štátu. Prinesie im „AI bohatstvo“
Automobilový priemysel netrpí, len niektoré automobilky. Nové štatistiky EÚ prekvapili
Bude benzín opäť drahý? Konflikt na Blízkom východe poriadne zamáva ropou
NAJČÍTANEJŠIE ZO STARTITUP

AKTUÁLNE: Polícia zasahuje na východe Slovenska. Elitné jednotky mali zadržať prezidenta známeho futbalového klubu
PREMIUMVybavovali si byt za 240 000, hypotéku im schválili len na 90 000 eur: Maklér odhaľuje najčastejšie chyby pri kúpe bývania

Obľúbená dovolenková destinácia Slovákov čelí problému: Čistota mora sa zhoršuje, hrozia zdravotné komplikácie
PREMIUM„Ak slovenská priateľka Epsteina prehovorí, padne nejedna svetová vláda,“ tvrdí Pohle

