Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.

Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Sú lepšie než človek. Slávna nemecká automobilka „zamestná" prvých humanoidov

Desivé sa stalo realitou. AI si sama hľadá pracovníkov, zadáva im úlohy a platí im

Google dostane solárnu farmu silnejšiu ako jadrový reaktor, potrebuje ju pre AI

AI bublina je na prasknutie. Finančná katastrofa sa dotkne takmer všetkých

Ľudia si ju nikdy nezahrajú. Bizarná herná novinka ukáže vec, ktorú ešte nikto neskúsil
NAJČÍTANEJŠIE ZO STARTITUP

Slováci vyberali najkrajšie mesto našej krajiny. Dominujú 4 favoriti, no prekvapila aj nenápadná obec
PREMIUMTieto chyby ťa môžu pripraviť o celoživotné úspory: Investor Boris má presný manuál, ako nezlyhať v roku 2026

Smažák pozná každý, ale čo je to „prejt“? Zradný kvíz z češtiny preverí aj tých najsebavedomejších Slovákov

AKTUÁLNE: Násilný incident v okrese Galanta: Žena neprežila útok ostrým predmetom

„Dotlačil“ Trumpa k útoku: „Šialený strýko“ dostával tajné správy z Izraela a loboval za nálety na Irán
- 24 hod
- 48 hod
- 7 dní
-
- Americkí vedci vyliali do oceánu 65 000 litrov chémie. Tvrdia, že takto chcú zachrániť klímu
- Na ČSFD má 90 % a patrí k najlepším filmom súčasnosti. Slávu mu paradoxne priniesla zvláštna okolnosť
- Používaš ju každý deň, pochovala stovky rakiet. Táto súčiastka je nočnou morou astronautov
- Štyri platené kanály zadarmo pre všetkých Slovákov. Známy operátor odomkol aj exkluzívnu športovú stanicu
- Superpočítač odhalil 45-ročný ľudský omyl. Hviezdy vo vesmíre sú úplne iné, než sme si mysleli
-
- Americkí vedci vyliali do oceánu 65 000 litrov chémie. Tvrdia, že takto chcú zachrániť klímu
- Na ČSFD má 90 % a patrí k najlepším filmom súčasnosti. Slávu mu paradoxne priniesla zvláštna okolnosť
- Netflix otvoril Pandorinu skrinku a porušil nepísané pravidlo. Hollywood to doteraz odsudzoval
- Štyri platené kanály zadarmo pre všetkých Slovákov. Známy operátor odomkol aj exkluzívnu športovú stanicu
- Čo naozaj robia slovenskí IT-čkári: Deň v živote programátora s platom tisícok eur
-
- Počasie odhalilo achillovú pätu moderných domov. Ľudia riešia ťažkú dilemu
- Americkí vedci vyliali do oceánu 65 000 litrov chémie. Tvrdia, že takto chcú zachrániť klímu
- Internet budú mať Slováci k dispozícii úplne všade. Veľký operátor sa dohodol s Muskom
- Rusi ostanú paralyzovaní. Poľsko buduje na východe miliardovú obranu s atypickým systémom
- Slováci si nimi dobrovoľne skracujú život. Experti varujú pred nebezpečným druhom potravín
Krok vpred: Slovensko rozširuje spoluprácu s lídrami v oblasti umelej inteligencie
SPP si poistilo ruský plyn: Nová dohoda vraj zaručuje najvýhodnejšie ceny na trhu
Obnoviteľné zdroje energie hrajú prím. Nemci ukazujú cestu celému svetu
Na dronový útok reagujú tvrdo. Európska mocnosť posiela na Blízky východ stíhačky a torpédoborec
Tvoje dáta mohli byť na predaj. Jeden z najväčších hackerských webov má vážny problém
USA chce poslať na oceány „lode duchov“. Operovať majú v nebezpečných zónach
Zelenskyj dostal výhodný nápad pre Blízky východ. Chcel by vymeniť technológie
NAJČÍTANEJŠIE ZO STARTITUP

Slováci vyberali najkrajšie mesto našej krajiny. Dominujú 4 favoriti, no prekvapila aj nenápadná obec
PREMIUMTieto chyby ťa môžu pripraviť o celoživotné úspory: Investor Boris má presný manuál, ako nezlyhať v roku 2026

Smažák pozná každý, ale čo je to „prejt“? Zradný kvíz z češtiny preverí aj tých najsebavedomejších Slovákov

AKTUÁLNE: Násilný incident v okrese Galanta: Žena neprežila útok ostrým predmetom

