Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.

Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Nemci chcú zachrániť staré batérie z elektromobilov. Pomôcť má inteligentný robotický systém

AI s vlastným vedomím je reálnym rizikom, evolučný biológ Richard Dawkins prišiel s nepríjemnou myšlienkou

Štúdia z Harvardu: Umelá inteligencia porazila špičkových lekárov v určovaní diagnóz

Google podpísal tajnú dohodu s Pentagonom. Chystajú zmeny, ktoré boli doteraz nepredstaviteľné

AI dostane ďalšiu špinavú energiu. Hyundai dodá USA gigantické motory
NAJČÍTANEJŠIE ZO STARTITUP

Nenápadné príznaky rakoviny žalúdka netreba ignorovať. Lekári upozorňujú na signály, ktoré si ľudia často mýlia s trávením
PREMIUMCeny nehnuteľností neklesnú: Slováci na to nemajú, no aj tak chcú byty a domy vlastniť (REALITNÝ EXPERT)

Čistý zisk 872 miliónov eur: Zbrojársky gigant CSG predstavil nový tank a partnerstvo s firmou z Turecka

Nový lovec ničí drony bez rakiet aj rušičiek. Nemci ním oživili princíp starovekej zbrane z Južnej Ameriky

Lacnejšie než lístok na vlak: Ryanair „odpálil“ ceny leteniek k moru, na nákup máš len 48 hodín
- 24 hod
- 48 hod
- 7 dní
-
- Program na večer je jasný. Na Netflix práve dorazil nový veľkofilm Ridleyho Scotta
- Objednalo si ho už 20-tisíc ľudí. Škoda začala s výrobou dostupného SUV, ponúkne solídny dojazd
- 40 rokov dozadu zmenil akčné filmy. Legenda sa vrátila v podobe, akú sme tu ešte nemali
- Stačí mu minimum paliva. Raketové motory môže nahradiť revolučný pohon, cestu na Mars skráti o 80 %
- Máš tieto pneumatiky? Radšej ich skontroluj, majú vážnu chybu a sťahujú ich z trhu
-
- Program na večer je jasný. Na Netflix práve dorazil nový veľkofilm Ridleyho Scotta
- Čechom došla trpezlivosť s drahou ropou. Začali kupovať autá, ktoré ju nepotrebujú
- Ak zahynie ich vodca, automaticky zaútočia jadrovými zbraňami. Ázijský štát sa zľakol USA
- Máš tieto pneumatiky? Radšej ich skontroluj, majú vážnu chybu a sťahujú ich z trhu
- Objednalo si ho už 20-tisíc ľudí. Škoda začala s výrobou dostupného SUV, ponúkne solídny dojazd
-
- Ak zahynie ich vodca, automaticky zaútočia jadrovými zbraňami. Ázijský štát sa zľakol USA
- Naša galaxia sa zrazí so susednou, „letiacu“ Andromedu už vidíš voľným okom
- Nová veľmoc chce dobyť vesmír. Za zlomok ceny dokážu to, čo USA a Čína za miliardy
- Čechom došla trpezlivosť s drahou ropou. Začali kupovať autá, ktoré ju nepotrebujú
- Našli svätý grál elektromobilov. Nové batérie lusknutím prsta pošlú spaľováky do zabudnutia
Rusi opäť provokujú NATO. Úrady v európskom meste zatvorili školy
Dôležitý krok: Kia štartuje výrobu modernizovaného modelu na Slovensku
Európsky štát stavia obrovské batériové úložisko. Pomôže pri návale zelenej energie
Nový zdroj plynu pre Európu je spustený. Poľsko už odoberá surovinu zo severu
Zlá správa pre Slovensko. Minuli sme svoje prírodné zdroje na celý rok
Európa rieši riziko nedostatku paliva. Ohrozené môžu byť spoje na dovolenky
EÚ poriadne pritvrdila. Zakáže najnemorálnejšie aplikácie na trhu
NAJČÍTANEJŠIE ZO STARTITUP

Nenápadné príznaky rakoviny žalúdka netreba ignorovať. Lekári upozorňujú na signály, ktoré si ľudia často mýlia s trávením
PREMIUMCeny nehnuteľností neklesnú: Slováci na to nemajú, no aj tak chcú byty a domy vlastniť (REALITNÝ EXPERT)

Čistý zisk 872 miliónov eur: Zbrojársky gigant CSG predstavil nový tank a partnerstvo s firmou z Turecka

Nový lovec ničí drony bez rakiet aj rušičiek. Nemci ním oživili princíp starovekej zbrane z Južnej Ameriky

