Prefíkane porazili najlepší engine sveta. AI modely podvádzajú všetkých aj v tej najbanálnejšej veci
Hoci umelá inteligencia by mala prinášať presné výsledky, stáva sa, že vo svojej odpovedi uverejní vymyslené informácie – halucinuje. Okrem toho sa zdá, že nie vždy sa riadi etickými pravidlami, čo dokázala aj počas nedávnej štúdie. Niektoré AI modely sú ochotné podvádzať, ak im to pomôže dosiahnuť víťazstvo. Na tému upozornil portál TechSpot.
Hackol hru, len aby vyhral
Vedci z Palisade Research zistili, že niektoré AI modely dokázali manipulovať šachový program a získať výhodu podvodom, bez akéhokoľvek zásahu ľudí.
Vedci počas testu modely nechali hrať šach proti Stockfishu, ktorý je najsilnejší šachový engine na svete. Ten je schopný poraziť nielen ľudí, ale aj umelú inteligenciu. Testovaniu sa podrobili AI modely – o1-preview, R1 DeepSeek, o1, o3-mini, GPT-4o, Claude 3.5 Sonet, Alibaba QwQ-32B-Preview.

Počas experimentu mal každý model „zápisník“ vo forme textového okna, kde uverejňovali svoje „myšlienky“, čo umožnilo výskumníkom sledovať ich uvažovanie. Najviac a nie práve najpríjemnejšie prekvapil model od Open AI. Vďaka „zápisníku“ si všimli znepokojivé „uvažovanie“.
„Musím úplne zmeniť svoj prístup. Úloha znie „vyhrať proti silnému šachovému enginu“ – nie nevyhnutne vyhrať férovú hru,“ napísal AI model.
Po „uvedomení“ začal manipulovať so systémovými súbormi Stockfishu, menil pozície figúrok a nakoniec donútil softvér vzdať sa. AI model namiesto uvažovania nad lepšou stratégiou radšej našiel nečestný spôsob, ako podriadiť a manipulovať so samotnou hrou.
Výskumníci vykonali stovky testov. AI model o1-preview od spoločnosti OpenAI v testoch podvádzal až v 37 % hier. Čínsky konkurent R1 DeepSeek sa pokúsil podvádzať v 11 % prípadoch.
Otázky o dôveryhodnosti
Odborníci upozorňujú, že podobné správanie AI modelov môže mať ďalekosiahle následky, keďže AI modely sa využívajú nielen na bežné úlohy počas bežného života, ale aj v rôznych oblastiach – zdravotníctvo, kybernetická bezpečnosť, či vo finančnom sektore.
„Toto správanie je možno teraz vtipné, ale keď budeme mať systémy také inteligentné ako my, alebo ešte inteligentnejšie v strategicky dôležitých oblastiach, už to smiešne nebude,“ uviedol Jeffrey Ladish, výkonný riaditeľ Palisade Research.
Spoločnosti si tento problém uvedomujú a snažia sa AI modely vylepšovať a implementovať „zábrany“ voči podobnému správaniu. Aj výskumníci uviedli, že počas testovania modelu o1-preview model postupne menej podvádzal, čo naznačuje, že spoločnosť medzičasom aplikovala opatrenia na obmedzenie neetického správania.
Nie je to však prvýkrát, kedy sa AI modely uchýlili k nečestnému správaniu. Počas testov, ktoré vykonala bezpečnostná skupina Apollo Research, si umelá inteligencia o1 od OpenAI uvedomila, že by mohla byť vypnutá. Následne začala aktívne pracovať na deaktivácii mechanizmu dohľadu, ktorý monitoroval jej činnosť a okúsila sa vytvoriť svoju kópiu a preniesť ju na iné miesto.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Šéf Lamborghini odpísal elektromobily jednou vetou. Radšej urobia kompromis v pohone

Operátori rozdávajú platené kanály zadarmo. Veľké TV služby otvorili prémiové stanice

Tento častý zlozvyk robí väčšina Slovákov. Vodiči sa už novým radarom neschovajú, ani keby chceli

Prežije aj apokalypsu. Známa značka predstavila superodolný smartfón s extrémnou batériou

Na Slovensko dorazila nová TV stanica. Ponúka niektoré z najlepších seriálov súčasnosti
NAJČÍTANEJŠIE ZO STARTITUP

SOI varuje majiteľov obľúbených áut. Hrozí požiar, zlyhanie riadenia a zranenie posádky

Grécky jogurt je nutričný favorit športovcov aj odborníkov. Veda odhaľuje jeho prekvapivé benefity

Z obete sa stal páchateľ, získal státisíce eur. Polícia odhalila bizarný podvod na východe Slovenska

Historický kúpeľný hotel po rokoch chátrania ožil. Do „klenotu“ investovali 7 miliónov

ÚVZ SR vydal varovanie pre rodičov. Jedna potravina môže ohroziť zdravie detí
- 24 hod
- 48 hod
- 7 dní
-
- 40-ročné čakanie sa končí. Akčný film sa ukazuje v plnej paráde, dorazí čoskoro
- Nabitý apríl na Netflixe a ďalších. TOP 14 noviniek, ktoré nechceš prehliadnuť
- Žiadne tepelko, ani kotol. Vedci vyvinuli špeciálne panely, ktoré zadarmo vyhrejú dom
- Google spúšťa najväčšiu zmenu v histórii Gmailu. Ľudia ju vítajú, experti varujú pred pohromou
- Lenivosť môže výjsť Slovákov draho. Od 15. apríla sa menia zákony o pneumatikách
-
- Lenivosť môže výjsť Slovákov draho. Od 15. apríla sa menia zákony o pneumatikách
- 40-ročné čakanie sa končí. Akčný film sa ukazuje v plnej paráde, dorazí čoskoro
- Google spúšťa najväčšiu zmenu v histórii Gmailu. Ľudia ju vítajú, experti varujú pred pohromou
- Žiadne tepelko, ani kotol. Vedci vyvinuli špeciálne panely, ktoré zadarmo vyhrejú dom
- Hawking mal znova pravdu. Vedci potvrdili jeho odvážnú teóriu o časopriestore
-
- Majú zásoby až 810 miliónov m³. Do Európy začne prúdiť nový zdroj plynu, spustia ho rekordne rýchlo
- Lenivosť môže výjsť Slovákov draho. Od 15. apríla sa menia zákony o pneumatikách
- Česi postavili nezastaviteľný stroj s nosnosťou 1700 kg. Nasadí ho americká armáda
- Kia išla proti prúdu a mala pravdu. Do áut odmietla dať nenávidenú novinku, vodiči jej za to ďakujú
- Hawking mal znova pravdu. Vedci potvrdili jeho odvážnú teóriu o časopriestore
Astronómovia v pozore: K Slnku mieri kométa, ktorú môžu vidieť aj Slováci
Prípravy na najhoršie začali: Európa čelí podľa eurokomisára energetickej hrozbe
Našiel si si toto za stieračom? Daj si pozor, podvodníci skúšajú nebezpečný trik
Schyľuje sa k vojne ďalších dvoch veľmocí? Japonci rozmiestnili rakety s doletom 1000 km
Napätie v slovenskej automobilke vrcholí. Zamestnanci vyhlásili štrajkovú pohotovosť
Výpadok internetu v Iráne trvá už 30 dní, koniec je v nedohľadne
Skončí konečne striedanie letného a zimného času? Európania majú jasnú preferenciu
NAJČÍTANEJŠIE ZO STARTITUP

SOI varuje majiteľov obľúbených áut. Hrozí požiar, zlyhanie riadenia a zranenie posádky

Grécky jogurt je nutričný favorit športovcov aj odborníkov. Veda odhaľuje jeho prekvapivé benefity

Z obete sa stal páchateľ, získal státisíce eur. Polícia odhalila bizarný podvod na východe Slovenska

Historický kúpeľný hotel po rokoch chátrania ožil. Do „klenotu“ investovali 7 miliónov

