Prefíkane porazili najlepší engine sveta. AI modely podvádzajú všetkých aj v tej najbanálnejšej veci
Hoci umelá inteligencia by mala prinášať presné výsledky, stáva sa, že vo svojej odpovedi uverejní vymyslené informácie – halucinuje. Okrem toho sa zdá, že nie vždy sa riadi etickými pravidlami, čo dokázala aj počas nedávnej štúdie. Niektoré AI modely sú ochotné podvádzať, ak im to pomôže dosiahnuť víťazstvo. Na tému upozornil portál TechSpot.
Hackol hru, len aby vyhral
Vedci z Palisade Research zistili, že niektoré AI modely dokázali manipulovať šachový program a získať výhodu podvodom, bez akéhokoľvek zásahu ľudí.
Vedci počas testu modely nechali hrať šach proti Stockfishu, ktorý je najsilnejší šachový engine na svete. Ten je schopný poraziť nielen ľudí, ale aj umelú inteligenciu. Testovaniu sa podrobili AI modely – o1-preview, R1 DeepSeek, o1, o3-mini, GPT-4o, Claude 3.5 Sonet, Alibaba QwQ-32B-Preview.
Počas experimentu mal každý model „zápisník“ vo forme textového okna, kde uverejňovali svoje „myšlienky“, čo umožnilo výskumníkom sledovať ich uvažovanie. Najviac a nie práve najpríjemnejšie prekvapil model od Open AI. Vďaka „zápisníku“ si všimli znepokojivé „uvažovanie“.
„Musím úplne zmeniť svoj prístup. Úloha znie „vyhrať proti silnému šachovému enginu“ – nie nevyhnutne vyhrať férovú hru,“ napísal AI model.
Po „uvedomení“ začal manipulovať so systémovými súbormi Stockfishu, menil pozície figúrok a nakoniec donútil softvér vzdať sa. AI model namiesto uvažovania nad lepšou stratégiou radšej našiel nečestný spôsob, ako podriadiť a manipulovať so samotnou hrou.
Výskumníci vykonali stovky testov. AI model o1-preview od spoločnosti OpenAI v testoch podvádzal až v 37 % hier. Čínsky konkurent R1 DeepSeek sa pokúsil podvádzať v 11 % prípadoch.
Otázky o dôveryhodnosti
Odborníci upozorňujú, že podobné správanie AI modelov môže mať ďalekosiahle následky, keďže AI modely sa využívajú nielen na bežné úlohy počas bežného života, ale aj v rôznych oblastiach – zdravotníctvo, kybernetická bezpečnosť, či vo finančnom sektore.
„Toto správanie je možno teraz vtipné, ale keď budeme mať systémy také inteligentné ako my, alebo ešte inteligentnejšie v strategicky dôležitých oblastiach, už to smiešne nebude,“ uviedol Jeffrey Ladish, výkonný riaditeľ Palisade Research.
Spoločnosti si tento problém uvedomujú a snažia sa AI modely vylepšovať a implementovať „zábrany“ voči podobnému správaniu. Aj výskumníci uviedli, že počas testovania modelu o1-preview model postupne menej podvádzal, čo naznačuje, že spoločnosť medzičasom aplikovala opatrenia na obmedzenie neetického správania.
Nie je to však prvýkrát, kedy sa AI modely uchýlili k nečestnému správaniu. Počas testov, ktoré vykonala bezpečnostná skupina Apollo Research, si umelá inteligencia o1 od OpenAI uvedomila, že by mohla byť vypnutá. Následne začala aktívne pracovať na deaktivácii mechanizmu dohľadu, ktorý monitoroval jej činnosť a okúsila sa vytvoriť svoju kópiu a preniesť ju na iné miesto.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Zo slovenskej služby sa stáva športová veľmoc. Ponúkne všetky zápasy najlepšej ligy sveta
Výsledky experimentu vyrazili výskumníkom dych. AI modely si vedia prenášať tajné správy, aj tie extremistické
Čínskej invázii nedajú šancu. Kľúčový ostrov Ázie buduje 100-tisícovú armádu dronov, ktorá rozhodne konflikt
Ostatné hry už nezapneš. Očakávaný titul láka na brutálne súboje, aké si ešte nezažil
Štát zlyháva, ty nemusíš. Slováci vstupujú do éry AI agentov, takto si okamžite zlepšíš život (PREHĽAD)
NAJČÍTANEJŠIE ZO STARTITUP
Jeden z najzákernejších typov rakoviny sa šíri alarmujúco rýchlo. Čísla do roku 2050 expertov zaskočili
Hrozí pokuta až 800 eur: Tisíce Slovákov netušia, že ich vodičák má skrytý „dátum spotreby“
Vojna na Ukrajine bude podľa všetkého čoskoro pozastavená, tvrdí Tusk
Plat 36 900 eur aj pre juniorov. Technologický gigant hľadá nových zamestnancov v Bratislave
Dovolenkový raj Slovákov zasiahla vlna západonílskej horúčky: 7 mŕtvych, krvné obmedzenia a varovanie pre turistov
- 24 hod
- 48 hod
- 7 dní
-
- Vojenskí experti prišli s víťazným plánom: Nad Ukrajinou bude lietať stovka európskych stíhačiek
- Čínskej invázii nedajú šancu. Kľúčový ostrov Ázie buduje 100-tisícovú armádu dronov, ktorá rozhodne konflikt
- Vo vesmíre vedci spozorovali niečo, čo pripomína kozmickú bránu. A nachádza sa nečakane blízko Zeme
- Výsledky experimentu vyrazili výskumníkom dych. AI modely si vedia prenášať tajné správy, aj tie extremistické
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
-
- Vojenskí experti prišli s víťazným plánom: Nad Ukrajinou bude lietať stovka európskych stíhačiek
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
- Zmeny v STK zaskočili Slovákov. Vysoké pokuty hrozia aj tým, ktorí auto už nemajú (PREHĽAD)
- Nemeckí tankisti bojujú proti ruským vojskám. Vojnový film ukazuje temnú stránku Wehrmachtu
- Z prehliadaného paliva urobia „novú ropu“. Arabi budujú svätý grál čistej energie za 270 miliárd dolárov
-
- Zmeny v STK zaskočili Slovákov. Vysoké pokuty hrozia aj tým, ktorí auto už nemajú (PREHĽAD)
- Vojenskí experti prišli s víťazným plánom: Nad Ukrajinou bude lietať stovka európskych stíhačiek
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
- Kolaps ľudskej spoločnosti príde nečakane skoro. Vedcov vystrašil počítač s realistickou predpoveďou
- Vesmír možno práve odhalil svoj najväčší trik. Astronómovia hovoria o objave, ktorý mení učebnice
Európsky kódex pre AI rozdelil technologických obrov. Prichádza otvorený konflikt
Najpresnejší radar NASA je na orbite. Upozorní na zemetrasenia aj padnuté mosty
Veľká novinka pre majiteľov smart hodiniek. Najväčší operátor prichádza s užitočnou funkciou
EÚ zaskočila svet. Nečakaná krajina môže cez Rusko vyvážať uhlie napriek sankciám
Audi sa rúti dolu kopcom. Zisk sa prepadol o vyše 37 % a problémy nekončia
NAJČÍTANEJŠIE ZO STARTITUP