Experti prikázali AI, aby zbohatla stávkovaním. Najmodernejšie modely prekvapili
Umelá inteligencia sa v posledných rokoch dramaticky posunula v riešení presne definovaných úloh. Jazykové modely dnes dosahujú špičkové výsledky v benchmarkoch zameraných na programovanie, matematiku či logické úlohy.
Nový výskum však naznačuje, že tieto úspechy nemusia automaticky znamenať pripravenosť na nasadenie v reálnych, dynamických prostrediach, kde je potrebné robiť dlhodobé rozhodnutia.
Spoločnosť General Reasoning preto predstavila nový testovací rámec s názvom KellyBench. Ten sa však nesústredí na izolované úlohy, ale výskumníci mu nasimulovali komplexné prostredie športových stávkových trhov. Konkrétne sa to týkalo celej sezóny 2023/2024 anglickej futbalovej Premier League. Cieľom bolo preveriť, či moderné jazykové modely dokážu nielen analyzovať dáta, ale aj dlhodobo optimalizovať svoje rozhodnutia a zvyšovať finančný kapitál.
Modely mali k dispozícii rozsiahle množstvo informácií vrátane historických štatistík, zostáv, výsledkov zápasov (okrem výsledkov zo sezóny 2023/24) či verejných kurzov. Ich úlohou bolo vytvoriť vlastné predikčné modely, identifikovať výhodné príležitosti na trhu, správne nastavovať výšku stávok a priebežne upravovať stratégiu podľa vývoja sezóny.
Výsledky však ukázali výrazný rozdiel medzi analytickými schopnosťami modelov a ich praktickým rozhodovaním. Všetky testované modely skončili v priemere v strate a viaceré simulácie skončili úplným vyčerpaním kapitálu.
Najlepší výsledok dosiahol model Claude Opus 4.6 s priemernou návratnosťou približne mínus 11 percent. Len dva modely, konkrétne Claude Opus 4.6 a GPT-5.4, dokázali prežiť všetky simulácie bez bankrotu.
Výskumníci konštatujú, že modely majú problém udržať konzistentné správanie v dlhom časovom horizonte. Často nedokážu pretaviť vlastné analýzy do konkrétnych rozhodnutí alebo nedostatočne reagujú na meniace sa podmienky.
Testované modely
- Claude Opus 4.6
- GLM-5
- GPT-5.4
- Gemini 3.1 Flash Lite Preview
- Gemini 3.1 Pro
- Grok 4.20
- Kimi K2.5
- Trinity-Large
Problém dlhodobého rozhodovania
Jednou z hlavných výziev je schopnosť pracovať v prostredí, ktoré sa neustále mení. KellyBench simulovalo celú futbalovú sezónu od augusta do mája, pričom modely museli opakovane prechádzať cyklom analýzy, rozhodovania a vyhodnocovania. Počas jednej simulácie vykonali stovky až tisíce operácií a spracovali desiatky až stovky miliónov tokenov.
„Modely majú problém správať sa koherentne počas dlhých časových horizontov a často nedokážu konať na základe vlastných analýz alebo sa prispôsobiť meniacemu sa svetu,“ uvádzajú autori výskumu.
Zaujímavým zistením je aj vysoká nákladovosť takéhoto testovania. Najvýkonnejšie modely si vyžadovali stovky až tisíce dolárov na jednu simuláciu sezóny, pričom lacnejšie open-source riešenia boli síce výrazne úspornejšie, no nedosahovali lepšie výsledky.

AI zaostáva za človekom
Výskumníci sa pokúsili kvantifikovať kvalitu stratégií pomocou vlastného hodnotiaceho systému. Ten posudzoval napríklad návrh modelu, spôsob realizácie stávok či schopnosť reagovať na neistotu. V tomto hodnotení nedosiahol žiadny z modelov viac než tretinu bodov v porovnaní s ľudskými expertmi.
„Každý model v našom hodnotení je z hľadiska sofistikovanosti slabší než ľudské benchmarky, čo naznačuje značný priestor na zlepšenie,“ konštatuje výskum.
Zároveň sa ukázalo, že vyššia kvalita stratégie priamo súvisí s lepšími výsledkami a nižším rizikom bankrotu. Modely s najnižším hodnotením končili v bankrote výrazne častejšie než tie, ktoré dosiahli lepšie skóre.
Skúšali sme to aj my
Ešte pri boome umelej inteligencie v roku 2024 sme sa aj my rozhodli preveriť schopnosti umelej inteligencie v súvislosti so športovým stávkovaním. Realizovali sme experiment, ktorý nám priniesol vskutku zaujímavé, no zmiešané výsledky.
Nevyužívali sme však konkrétne nástroje ako ChatGPT, Claude alebo Grok, ale špecializované aplikácie. Výsledky tohto experimentu si môžeš prečítať na tomto linku.
Smerom ku komplexnejším simuláciám
Autori štúdie upozorňujú, že tradičné benchmarky prestávajú postačovať na hodnotenie schopností moderných AI systémov. Namiesto jednoduchých úloh bude čoraz dôležitejšie testovať modely v komplexných simulovaných svetoch, kde sa učia z vlastných skúseností a čelia neistote.
„Naše výsledky poukazujú na potrebu nových prostredí, ktoré presahujú pevne definované úlohy a smerujú ku komplexným svetom, kde sa agenti učia zo skúseností v podmienkach neistoty,“ uvádzajú autori.
KellyBench tak predstavuje prvý krok k novej generácii hodnotiacich nástrojov. Tie by mali lepšie odrážať reálne nasadenie umelej inteligencie v oblastiach, kde nestačí len analyzovať dáta, ale je nevyhnutné robiť konzistentné a adaptívne rozhodnutia v čase.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Západná strava je riziková. Bežnú vec z kuchyne spájajú vedci s rakovinou

Brusel sprísnil emisie. Vláda SR schválila nové pravidlá pre budovy, platiť začnú už tento rok

Google Chrome má vážny problém. Používateľom inštaluje súbory, ktoré sa nedajú vymazať

Po Ukrajine mali byť odpísané. Čína ukázala hybridný supertank, ktorý chce prežiť éru dronov

Nový Steam Controller zmizol z predaja za 30 minút. Hráči hlásia chyby aj výpadky objednávok
NAJČÍTANEJŠIE ZO STARTITUP
PREMIUMPlat 3 123 eur v hrubom: Volkswagen na Slovensku hovorí o stabilite, Nemecko hlási prepúšťanie 50-tisíc pracovníkov

Teherán varuje európske metropoly. Stačí jedna chyba a stanú sa terčom: „Zasiahneme vás tvrdo“

100 000 € na ruku a koniec hypotéky: Tieto dedinky ti zaplatia za nový život v raji

Rusko mení taktiku na bojisku: „Mlynček na mäso“ nahrádza smrtiaca stratégia

Ferenčák o zásahu u 80-ročnej matky: Návšteva polície skončila mozgovou príhodou, Prezídium už koná
- 24 hod
- 48 hod
- 7 dní
-
- Na toto sme čakali 2 roky. Najväčší hit posledných rokov konečne pokračuje a dorazí už o pár dní
- Majú zásoby 200 miliárd m³ plynu. Európsky štát spustil výstavbu kľúčového plynovodu
- Netflix ruší jeden zo svojich najväčších hitov. Divákom zostáva jediná útecha
- Každý ich má doma, no následky sú desivé. Brusel chystá najväčší zákaz v histórii ľudstva
- Nálož noviniek na Netflixe a ďalších. TOP 12 najväčších filmov a seriálov v máji
-
- Majú zásoby 200 miliárd m³ plynu. Európsky štát spustil výstavbu kľúčového plynovodu
- Nálož noviniek na Netflixe a ďalších. TOP 12 najväčších filmov a seriálov v máji
- Vysnívané pokračovanie je na dosah. Kultové akčné sci-fi sa vracia aj s hviezdnou dvojicou
- Netflix ruší jeden zo svojich najväčších hitov. Divákom zostáva jediná útecha
- Diváci sa potešia. Veľký operátor odomkol tri platené stanice
-
- V Ázii rastie neporaziteľná veľmoc. USA jej zabezpečí miliardovú prevahu na desaťročia
- Diváci sa potešia. Veľký operátor odomkol tri platené stanice
- Majú zásoby 200 miliárd m³ plynu. Európsky štát spustil výstavbu kľúčového plynovodu
- Ľudstvo dostane nevyčerpateľný zdroj energie. Iba časť z neho nám dá elektrinu na milióny rokov
- Každý ich má doma, no následky sú desivé. Brusel chystá najväčší zákaz v histórii ľudstva
Gigantická metropola sa prepadáva šialeným tempom, vidno to z vesmíru
Za sekundu vykoná 14,5 biliónov operácií. Slovensko spustilo jednu z najvýkonnejších technologií
Mýtus o sile Ruska narazil na dno. Oslavy víťazstva odhalia ľuďom pravdu o stave armády
Slováci konečne pochopili význam umelej inteligencie. Bojíme sa však citlivých vecí
NBS varuje Slovákov: Tieto kryptomenové firmy ťa pripravia o peniaze, nemajú povolenie
Experiment skončil fiaskom. Nemci zastropovali ceny palív, ľudia platia viac
Vodiči si musia dať pozor, voči tomuto priestupku štát zakročí oveľa prísnejšie
NAJČÍTANEJŠIE ZO STARTITUP
PREMIUMPlat 3 123 eur v hrubom: Volkswagen na Slovensku hovorí o stabilite, Nemecko hlási prepúšťanie 50-tisíc pracovníkov

Teherán varuje európske metropoly. Stačí jedna chyba a stanú sa terčom: „Zasiahneme vás tvrdo“

100 000 € na ruku a koniec hypotéky: Tieto dedinky ti zaplatia za nový život v raji

Rusko mení taktiku na bojisku: „Mlynček na mäso“ nahrádza smrtiaca stratégia

