Umelá inteligencia sa v posledných rokoch dramaticky posunula v riešení presne definovaných úloh. Jazykové modely dnes dosahujú špičkové výsledky v benchmarkoch zameraných na programovanie, matematiku či logické úlohy.

Nový výskum však naznačuje, že tieto úspechy nemusia automaticky znamenať pripravenosť na nasadenie v reálnych, dynamických prostrediach, kde je potrebné robiť dlhodobé rozhodnutia.

Spoločnosť General Reasoning preto predstavila nový testovací rámec s názvom KellyBench. Ten sa však nesústredí na izolované úlohy, ale výskumníci mu nasimulovali komplexné prostredie športových stávkových trhov. Konkrétne sa to týkalo celej sezóny 2023/2024 anglickej futbalovej Premier League. Cieľom bolo preveriť, či moderné jazykové modely dokážu nielen analyzovať dáta, ale aj dlhodobo optimalizovať svoje rozhodnutia a zvyšovať finančný kapitál.

Modely mali k dispozícii rozsiahle množstvo informácií vrátane historických štatistík, zostáv, výsledkov zápasov (okrem výsledkov zo sezóny 2023/24) či verejných kurzov. Ich úlohou bolo vytvoriť vlastné predikčné modely, identifikovať výhodné príležitosti na trhu, správne nastavovať výšku stávok a priebežne upravovať stratégiu podľa vývoja sezóny.

Výsledky však ukázali výrazný rozdiel medzi analytickými schopnosťami modelov a ich praktickým rozhodovaním. Všetky testované modely skončili v priemere v strate a viaceré simulácie skončili úplným vyčerpaním kapitálu.

Najlepší výsledok dosiahol model Claude Opus 4.6 s priemernou návratnosťou približne mínus 11 percent. Len dva modely, konkrétne Claude Opus 4.6 a GPT-5.4, dokázali prežiť všetky simulácie bez bankrotu.

Výskumníci konštatujú, že modely majú problém udržať konzistentné správanie v dlhom časovom horizonte. Často nedokážu pretaviť vlastné analýzy do konkrétnych rozhodnutí alebo nedostatočne reagujú na meniace sa podmienky.

Testované modely
  • Claude Opus 4.6
  • GLM-5
  • GPT-5.4
  • Gemini 3.1 Flash Lite Preview
  • Gemini 3.1 Pro
  • Grok 4.20
  • Kimi K2.5
  • Trinity-Large
Problém dlhodobého rozhodovania

Jednou z hlavných výziev je schopnosť pracovať v prostredí, ktoré sa neustále mení. KellyBench simulovalo celú futbalovú sezónu od augusta do mája, pričom modely museli opakovane prechádzať cyklom analýzy, rozhodovania a vyhodnocovania. Počas jednej simulácie vykonali stovky až tisíce operácií a spracovali desiatky až stovky miliónov tokenov.

„Modely majú problém správať sa koherentne počas dlhých časových horizontov a často nedokážu konať na základe vlastných analýz alebo sa prispôsobiť meniacemu sa svetu,“ uvádzajú autori výskumu.

Zaujímavým zistením je aj vysoká nákladovosť takéhoto testovania. Najvýkonnejšie modely si vyžadovali stovky až tisíce dolárov na jednu simuláciu sezóny, pričom lacnejšie open-source riešenia boli síce výrazne úspornejšie, no nedosahovali lepšie výsledky.

Freepik/Unsplash

AI zaostáva za človekom

Výskumníci sa pokúsili kvantifikovať kvalitu stratégií pomocou vlastného hodnotiaceho systému. Ten posudzoval napríklad návrh modelu, spôsob realizácie stávok či schopnosť reagovať na neistotu. V tomto hodnotení nedosiahol žiadny z modelov viac než tretinu bodov v porovnaní s ľudskými expertmi.

Každý model v našom hodnotení je z hľadiska sofistikovanosti slabší než ľudské benchmarky, čo naznačuje značný priestor na zlepšenie,“ konštatuje výskum.

Zároveň sa ukázalo, že vyššia kvalita stratégie priamo súvisí s lepšími výsledkami a nižším rizikom bankrotu. Modely s najnižším hodnotením končili v bankrote výrazne častejšie než tie, ktoré dosiahli lepšie skóre.

Skúšali sme to aj my

Ešte pri boome umelej inteligencie v roku 2024 sme sa aj my rozhodli preveriť schopnosti umelej inteligencie v súvislosti so športovým stávkovaním. Realizovali sme experiment, ktorý nám priniesol vskutku zaujímavé, no zmiešané výsledky.

Nevyužívali sme však konkrétne nástroje ako ChatGPT, Claude alebo Grok, ale špecializované aplikácie. Výsledky tohto experimentu si môžeš prečítať na tomto linku.

Smerom ku komplexnejším simuláciám

Autori štúdie upozorňujú, že tradičné benchmarky prestávajú postačovať na hodnotenie schopností moderných AI systémov. Namiesto jednoduchých úloh bude čoraz dôležitejšie testovať modely v komplexných simulovaných svetoch, kde sa učia z vlastných skúseností a čelia neistote.

Naše výsledky poukazujú na potrebu nových prostredí, ktoré presahujú pevne definované úlohy a smerujú ku komplexným svetom, kde sa agenti učia zo skúseností v podmienkach neistoty,“ uvádzajú autori.

KellyBench tak predstavuje prvý krok k novej generácii hodnotiacich nástrojov. Tie by mali lepšie odrážať reálne nasadenie umelej inteligencie v oblastiach, kde nestačí len analyzovať dáta, ale je nevyhnutné robiť konzistentné a adaptívne rozhodnutia v čase.

Čítajte viac z kategórie: Novinky

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP