Prefíkane porazili najlepší engine sveta. AI modely podvádzajú všetkých aj v tej najbanálnejšej veci
Hoci umelá inteligencia by mala prinášať presné výsledky, stáva sa, že vo svojej odpovedi uverejní vymyslené informácie – halucinuje. Okrem toho sa zdá, že nie vždy sa riadi etickými pravidlami, čo dokázala aj počas nedávnej štúdie. Niektoré AI modely sú ochotné podvádzať, ak im to pomôže dosiahnuť víťazstvo. Na tému upozornil portál TechSpot.
Hackol hru, len aby vyhral
Vedci z Palisade Research zistili, že niektoré AI modely dokázali manipulovať šachový program a získať výhodu podvodom, bez akéhokoľvek zásahu ľudí.
Vedci počas testu modely nechali hrať šach proti Stockfishu, ktorý je najsilnejší šachový engine na svete. Ten je schopný poraziť nielen ľudí, ale aj umelú inteligenciu. Testovaniu sa podrobili AI modely – o1-preview, R1 DeepSeek, o1, o3-mini, GPT-4o, Claude 3.5 Sonet, Alibaba QwQ-32B-Preview.
Počas experimentu mal každý model „zápisník“ vo forme textového okna, kde uverejňovali svoje „myšlienky“, čo umožnilo výskumníkom sledovať ich uvažovanie. Najviac a nie práve najpríjemnejšie prekvapil model od Open AI. Vďaka „zápisníku“ si všimli znepokojivé „uvažovanie“.
„Musím úplne zmeniť svoj prístup. Úloha znie „vyhrať proti silnému šachovému enginu“ – nie nevyhnutne vyhrať férovú hru,“ napísal AI model.
Po „uvedomení“ začal manipulovať so systémovými súbormi Stockfishu, menil pozície figúrok a nakoniec donútil softvér vzdať sa. AI model namiesto uvažovania nad lepšou stratégiou radšej našiel nečestný spôsob, ako podriadiť a manipulovať so samotnou hrou.
Výskumníci vykonali stovky testov. AI model o1-preview od spoločnosti OpenAI v testoch podvádzal až v 37 % hier. Čínsky konkurent R1 DeepSeek sa pokúsil podvádzať v 11 % prípadoch.
Otázky o dôveryhodnosti
Odborníci upozorňujú, že podobné správanie AI modelov môže mať ďalekosiahle následky, keďže AI modely sa využívajú nielen na bežné úlohy počas bežného života, ale aj v rôznych oblastiach – zdravotníctvo, kybernetická bezpečnosť, či vo finančnom sektore.
„Toto správanie je možno teraz vtipné, ale keď budeme mať systémy také inteligentné ako my, alebo ešte inteligentnejšie v strategicky dôležitých oblastiach, už to smiešne nebude,“ uviedol Jeffrey Ladish, výkonný riaditeľ Palisade Research.
Spoločnosti si tento problém uvedomujú a snažia sa AI modely vylepšovať a implementovať „zábrany“ voči podobnému správaniu. Aj výskumníci uviedli, že počas testovania modelu o1-preview model postupne menej podvádzal, čo naznačuje, že spoločnosť medzičasom aplikovala opatrenia na obmedzenie neetického správania.
Nie je to však prvýkrát, kedy sa AI modely uchýlili k nečestnému správaniu. Počas testov, ktoré vykonala bezpečnostná skupina Apollo Research, si umelá inteligencia o1 od OpenAI uvedomila, že by mohla byť vypnutá. Následne začala aktívne pracovať na deaktivácii mechanizmu dohľadu, ktorý monitoroval jej činnosť a okúsila sa vytvoriť svoju kópiu a preniesť ju na iné miesto.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Zmeny v STK zaskočili Slovákov. Vysoké pokuty hrozia aj tým, ktorí auto už nemajú (PREHĽAD)
Pri Jupiteri podozrivo spomalil. Vedec chce preskúmať záhadný objekt, nevylučuje mimozemský pôvod
NESMIEŠ PREHLIADNUŤ Hrala ich drvivá väčšina Slovákov. Nostalgické hry z prelomu tisícročia žijú dodnes, hŕstku z nich však zabili
VIDEO: Arnold Schwarzenegger sa vracia do Predátora. Akčná značka chystá veľké veci
Marvel prekonal klinickú smrť. Fantastická štvorka v kinách uspela, na Supermana ale nemá
NAJČÍTANEJŠIE ZO STARTITUP
Plat až 3 500 eur a množstvo benefitov. Sociálna poisťovňa hľadá ľudí na viaceré pozície
Endokrinologička varuje: Sociálne siete nabádajú Slovákov, že za každou ich ťažkosťou je kortizol
Prelomový výskum: Vedci testujú univerzálnu zbraň proti rakovine, nádory mizli aj pri agresívnych typoch
80-roční si už nezajazdia. Prvá krajina zaviedla vekový strop pre vodičov, sprísňuje aj Európa
Prímorský hit medzi Slovákmi zakročil proti turistom: Koniec „dovolenkovej arogancii“, ktorá roky otravovala miestnych
- 24 hod
- 48 hod
- 7 dní
-
- Vesmír možno práve odhalil svoj najväčší trik. Astronómovia hovoria o objave, ktorý mení učebnice
- Najprekliatejší film histórie? Tragédia, pri ktorej zomreli dve deti a hercovi odťalo hlavu, šokuje dodnes
- Kolaps ľudskej spoločnosti príde nečakane skoro. Vedcov vystrašil počítač s realistickou predpoveďou
- Kvantový počítač dokázal nemožné. Nestačia naň ani najlepšie superpočítače
- Vedci po rokoch dešifrovali záhadné signály z vesmíru. Skrývali niečo, čo doteraz považovali za nemožné
-
- Najprekliatejší film histórie? Tragédia, pri ktorej zomreli dve deti a hercovi odťalo hlavu, šokuje dodnes
- Nemci môžu spasiť Európu. Prišli na geniálny spôsob, ako „vyťažiť“ nedostatkovú surovinu budúcnosti
- Vesmír možno práve odhalil svoj najväčší trik. Astronómovia hovoria o objave, ktorý mení učebnice
- Slováci sa zamilovali. Tieto pneumatiky sú absolútnym hitom, vodiči rozmýšľajú logicky
- Európa má konečne plán. Našla svoju tajnú zbraň, Nórsko a Grónsko nám pomôžu k sebestačnosti
-
- Slováci sa zamilovali. Tieto pneumatiky sú absolútnym hitom, vodiči rozmýšľajú logicky
- Prekvapivé zistenia vedcov: Obľúbený nápoj Slovákov obsahuje neviditeľnú hrozbu, o ktorej sme doteraz netušili
- Rusko vyľakalo celý Západ. Multifunkčnou superzbraňou chce dobyť prekvapivú časť sveta
- Ohromne zbohatnú a spasia Európu. Blízko Slovenska našli obrovské ložisko ropy a plynu
- Európska únia opäť zaťala do živého. Chystá návrh, ktorý prinúti časť ľudí kupovať len elektromobily
Slovensko zažije krvavý Mesiac. Blíži sa veľké úplné zatmenie
Po 50 rokoch čakania to prišlo. Petržalka má konečne svoju električku
Európska raketa, ktorá bude strážiť Zem, vyletela do kozmu. Jej misia je kľúčová pre budúcnosť planéty
Slovensko čaká solárny megaprojekt. Chcú postaviť obrovské elektrárne, majú dodať energiu tisícom domácností
Predaj elektromobilov vo svete prudko stúpol. Čína vedie elektrické preteky, Európa naberá dych
NAJČÍTANEJŠIE ZO STARTITUP