Experti prikázali AI, aby zbohatla stávkovaním. Najmodernejšie modely prekvapili
Umelá inteligencia sa v posledných rokoch dramaticky posunula v riešení presne definovaných úloh. Jazykové modely dnes dosahujú špičkové výsledky v benchmarkoch zameraných na programovanie, matematiku či logické úlohy.
Nový výskum však naznačuje, že tieto úspechy nemusia automaticky znamenať pripravenosť na nasadenie v reálnych, dynamických prostrediach, kde je potrebné robiť dlhodobé rozhodnutia.
Spoločnosť General Reasoning preto predstavila nový testovací rámec s názvom KellyBench. Ten sa však nesústredí na izolované úlohy, ale výskumníci mu nasimulovali komplexné prostredie športových stávkových trhov. Konkrétne sa to týkalo celej sezóny 2023/2024 anglickej futbalovej Premier League. Cieľom bolo preveriť, či moderné jazykové modely dokážu nielen analyzovať dáta, ale aj dlhodobo optimalizovať svoje rozhodnutia a zvyšovať finančný kapitál.
Modely mali k dispozícii rozsiahle množstvo informácií vrátane historických štatistík, zostáv, výsledkov zápasov (okrem výsledkov zo sezóny 2023/24) či verejných kurzov. Ich úlohou bolo vytvoriť vlastné predikčné modely, identifikovať výhodné príležitosti na trhu, správne nastavovať výšku stávok a priebežne upravovať stratégiu podľa vývoja sezóny.
Výsledky však ukázali výrazný rozdiel medzi analytickými schopnosťami modelov a ich praktickým rozhodovaním. Všetky testované modely skončili v priemere v strate a viaceré simulácie skončili úplným vyčerpaním kapitálu.
Najlepší výsledok dosiahol model Claude Opus 4.6 s priemernou návratnosťou približne mínus 11 percent. Len dva modely, konkrétne Claude Opus 4.6 a GPT-5.4, dokázali prežiť všetky simulácie bez bankrotu.
Výskumníci konštatujú, že modely majú problém udržať konzistentné správanie v dlhom časovom horizonte. Často nedokážu pretaviť vlastné analýzy do konkrétnych rozhodnutí alebo nedostatočne reagujú na meniace sa podmienky.
Testované modely
- Claude Opus 4.6
- GLM-5
- GPT-5.4
- Gemini 3.1 Flash Lite Preview
- Gemini 3.1 Pro
- Grok 4.20
- Kimi K2.5
- Trinity-Large
Problém dlhodobého rozhodovania
Jednou z hlavných výziev je schopnosť pracovať v prostredí, ktoré sa neustále mení. KellyBench simulovalo celú futbalovú sezónu od augusta do mája, pričom modely museli opakovane prechádzať cyklom analýzy, rozhodovania a vyhodnocovania. Počas jednej simulácie vykonali stovky až tisíce operácií a spracovali desiatky až stovky miliónov tokenov.
„Modely majú problém správať sa koherentne počas dlhých časových horizontov a často nedokážu konať na základe vlastných analýz alebo sa prispôsobiť meniacemu sa svetu,“ uvádzajú autori výskumu.
Zaujímavým zistením je aj vysoká nákladovosť takéhoto testovania. Najvýkonnejšie modely si vyžadovali stovky až tisíce dolárov na jednu simuláciu sezóny, pričom lacnejšie open-source riešenia boli síce výrazne úspornejšie, no nedosahovali lepšie výsledky.

AI zaostáva za človekom
Výskumníci sa pokúsili kvantifikovať kvalitu stratégií pomocou vlastného hodnotiaceho systému. Ten posudzoval napríklad návrh modelu, spôsob realizácie stávok či schopnosť reagovať na neistotu. V tomto hodnotení nedosiahol žiadny z modelov viac než tretinu bodov v porovnaní s ľudskými expertmi.
„Každý model v našom hodnotení je z hľadiska sofistikovanosti slabší než ľudské benchmarky, čo naznačuje značný priestor na zlepšenie,“ konštatuje výskum.
Zároveň sa ukázalo, že vyššia kvalita stratégie priamo súvisí s lepšími výsledkami a nižším rizikom bankrotu. Modely s najnižším hodnotením končili v bankrote výrazne častejšie než tie, ktoré dosiahli lepšie skóre.
Skúšali sme to aj my
Ešte pri boome umelej inteligencie v roku 2024 sme sa aj my rozhodli preveriť schopnosti umelej inteligencie v súvislosti so športovým stávkovaním. Realizovali sme experiment, ktorý nám priniesol vskutku zaujímavé, no zmiešané výsledky.
Nevyužívali sme však konkrétne nástroje ako ChatGPT, Claude alebo Grok, ale špecializované aplikácie. Výsledky tohto experimentu si môžeš prečítať na tomto linku.
Smerom ku komplexnejším simuláciám
Autori štúdie upozorňujú, že tradičné benchmarky prestávajú postačovať na hodnotenie schopností moderných AI systémov. Namiesto jednoduchých úloh bude čoraz dôležitejšie testovať modely v komplexných simulovaných svetoch, kde sa učia z vlastných skúseností a čelia neistote.
„Naše výsledky poukazujú na potrebu nových prostredí, ktoré presahujú pevne definované úlohy a smerujú ku komplexným svetom, kde sa agenti učia zo skúseností v podmienkach neistoty,“ uvádzajú autori.
KellyBench tak predstavuje prvý krok k novej generácii hodnotiacich nástrojov. Tie by mali lepšie odrážať reálne nasadenie umelej inteligencie v oblastiach, kde nestačí len analyzovať dáta, ale je nevyhnutné robiť konzistentné a adaptívne rozhodnutia v čase.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Lacné spaľováky to majú spočítané. Výrobcovia škrtajú autá, ktoré Slováci milujú
Slováci sa dnes OLED televízorov boja zbytočne. Najväčší strašiak už prakticky neexistuje

Netflix práve do ponuky pridal oscarové prekvapenie aj s dabingom. Niektorých nahnevalo

VW spustil výrobu kľúčového motora. Tieto lacné EV dostanú nový pohon s výkonom 226 koní

11 000 rokov sa nič podobné nezopakuje. Záhadný objekt sa blíži k Slnku a vedcom dochádza čas
NAJČÍTANEJŠIE ZO STARTITUP

Explózia v Moskve urvala obrie veko ropnej nádrže. Solovjov vyzval Rusov na sebaobetovanie

Koniec percentuálnym zľavám. Obľúbený reťazec mení pravidlá a rozdáva produkty úplne zadarmo

Súd s poslancom Hlasu nabral raketové tempo. Čurillovci a Kubina poznajú dátum verdiktu, Bartek na súd neprišiel

Pre prázdny paddleboard zalarmovali všetky záchranné zložky. Zásah v Bratislave má koniec

Chorvátsko či Cyprus dostali tvrdú facku. Najlepšia pláž Európy 2026 je lacný raj, kam Slováci doletia priamo z Bratislavy
- 24 hod
- 48 hod
- 7 dní
-
- Netflix vyhráva. Toto je TOP 11 najlepších seriálov tohto roka a kde ich nájdeš online
- Elektromobil si kúpiš za 30 000 eur, no doma ťa čaká nepríjemnosť. Predajcovia o nej mlčia
- Nový film Nolana spôsobil ošiaľ. Najväčším hitom leta však môže byť niekto úplne iný
- Spotrebu stlačil na 2,22 litra. Hybrid za 12-tisíc eur pokoril svetový rekord a zosadil Prius
- Moderná elektronika vydrží menej ako kedysi. Nie je to konšpirácia a má to jasný dôvod
-
- Automobilky oklamali svet a budú platiť. Obľúbený pohon zlyhal na celej čiare, produkuje veľké emisie
- Nový film Nolana spôsobil ošiaľ. Najväčším hitom leta však môže byť niekto úplne iný
- Moderná elektronika vydrží menej ako kedysi. Nie je to konšpirácia a má to jasný dôvod
- Spotrebu stlačil na 2,22 litra. Hybrid za 12-tisíc eur pokoril svetový rekord a zosadil Prius
- Netflix vyhráva. Toto je TOP 11 najlepších seriálov tohto roka a kde ich nájdeš online
-
- Automobilky oklamali svet a budú platiť. Obľúbený pohon zlyhal na celej čiare, produkuje veľké emisie
- Moderná elektronika vydrží menej ako kedysi. Nie je to konšpirácia a má to jasný dôvod
- Toto nemalo ísť takto ľahko. Číňania „rozobrali“ bombardér B-21 a odhalili jeho tajomstvo
- Spotrebu stlačil na 2,22 litra. Hybrid za 12-tisíc eur pokoril svetový rekord a zosadil Prius
- Vesmírny úkaz, aký zažiješ raz za život. V roku 2026 uvidíme najčarovnejšie zatmenie Slnka
Známa slovenská tvár mieri na streamovaciu službu. Táto platforma ukáže jeho kontroverznú výpravu
Intel pokračuje v návrate medzi elitu veľkolepým plánom. Pomôcť mu má partnerstvo s Applom
Volkswagen pokračuje v masívnom prepúšťaní. Do roku 2030 to schytá až 50 000 ľudí
BMW naznačuje veľké škrty. Automobilka pripravuje ďalšie opatrenia
Zemný plyn odpísalo ďalšie slovenské mesto. Teplo pre tisíce domácností získa oveľa lepším spôsobom
Najväčšia biometánová stanica na Slovensku premieňa odpad na plyn pre domácnosti
Hackeri môžu ochromiť aj dopravu. Slovensko sprísňuje ochranu kritických systémov
NAJČÍTANEJŠIE ZO STARTITUP

Explózia v Moskve urvala obrie veko ropnej nádrže. Solovjov vyzval Rusov na sebaobetovanie

Koniec percentuálnym zľavám. Obľúbený reťazec mení pravidlá a rozdáva produkty úplne zadarmo

Súd s poslancom Hlasu nabral raketové tempo. Čurillovci a Kubina poznajú dátum verdiktu, Bartek na súd neprišiel

Pre prázdny paddleboard zalarmovali všetky záchranné zložky. Zásah v Bratislave má koniec

