Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.

Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Šokujúci prieskum je varovaním pred novou revolúciou. Teenageri začali používať AI inak, ako sa čakalo

Sony chystá prevrat v hernom priemysle. Nová technológia vyrieši najväčší problém hier

Vzbura proti robotom: komunity sa sťažujú na gigantické dátové centrá, ničia im životy

Ľudia získajú superschopnosť: Musk sa chystá vypustiť do sveta sci-fi technológiu

Rusko nechápe. USA nasadili AI v stíhačkách tam, kde to ľudia nezvládali
NAJČÍTANEJŠIE ZO STARTITUP

MIMORIADNE: Chaos na železnici. Prepálené trakčné vedenie ochromilo frekventovaný úsek
PREMIUMNajlepšie platy na Slovensku: Vedie pozícia s odmenou 7 819 eur. Firmy v roku 2026 bojujú o TOP ľudí a znižujú náklady

ŠÚKL sťahuje z lekární všetky šarže dôležitého antipsychotika. Ústav hovorí o porušení pravidiel výroby

Známa firma s tržbami 7,5 milióna eur padla. Jej klientom bol aj štát, dnes dlhuje Finančnej správe 943‑tisíc

„Hanba pre Slovensko a morálny odpad.“ Bývalý europoslanec ostro zaútočil na slovenských hokejistov
- 24 hod
- 48 hod
- 7 dní
-
- Toto nemalo ísť takto ľahko. Číňania „rozobrali“ bombardér B-21 a odhalili jeho tajomstvo
- Africký štát blízko Európy sa pripravuje na vojnu. Do zbraní nalejú miliardy, analytici sa chytajú za hlavy
- Netflix má nový hit. Český oceňovaný film v priebehu pár hodín ovládol sledovanosť na Slovensku
- Doteraz to bolo nepredstaviteľné. Na svete sú prvé slúchadlá, ktoré sa dokážu napojiť na tvoj mozog
- Concorde mal slávu, ale aj veľkú kliatbu. Čína tvrdí, že našla spôsob, ako ju obísť
-
- Toto nemalo ísť takto ľahko. Číňania „rozobrali“ bombardér B-21 a odhalili jeho tajomstvo
- Africký štát blízko Európy sa pripravuje na vojnu. Do zbraní nalejú miliardy, analytici sa chytajú za hlavy
- Netflix má nový hit. Český oceňovaný film v priebehu pár hodín ovládol sledovanosť na Slovensku
- Doteraz to bolo nepredstaviteľné. Na svete sú prvé slúchadlá, ktoré sa dokážu napojiť na tvoj mozog
- Concorde mal slávu, ale aj veľkú kliatbu. Čína tvrdí, že našla spôsob, ako ju obísť
-
- Automobilky oklamali svet a budú platiť. Obľúbený pohon zlyhal na celej čiare, produkuje veľké emisie
- Toto nemalo ísť takto ľahko. Číňania „rozobrali“ bombardér B-21 a odhalili jeho tajomstvo
- Astronómovia ostali v nemom úžase. Hubblov teleskop odhalil záhadný objekt väčší než galaxia
- Satelitné snímky odhaľujú skazu vo Venezuele, viaceré budovy boli zrovnané so zemou
- Je 5-krát rýchlejšia než zvuk. Nečakaný štát odhalil raketu, ktorá zničí čokoľvek vo vzdialenosti 1 500 km
Čistky sa začali. STVR spúšťa najväčšie prepúšťanie za posledné roky
Rusko vypálilo na Ukrajinu najmodernejšiu technológiu, trafili presne
Ceny benzínu a nafty čakajú v najbližších dňoch zmeny. Odborník vysvetľuje dôvody
Záujem o robustné modely áut v Nemecku rastie. Segment prepisuje historické štatistiky
Európska únia podniká rázne kroky proti kontroverznej umelej inteligencii
Rutinná vec sa zmenila na krízový scenár. NASA rieši nečakaný problém na ISS, chce ukončiť misiu
Netflix vyhráva bitku o Hollywood. Sen o novej superslužbe je opäť bližšie
NAJČÍTANEJŠIE ZO STARTITUP

MIMORIADNE: Chaos na železnici. Prepálené trakčné vedenie ochromilo frekventovaný úsek
PREMIUMNajlepšie platy na Slovensku: Vedie pozícia s odmenou 7 819 eur. Firmy v roku 2026 bojujú o TOP ľudí a znižujú náklady

ŠÚKL sťahuje z lekární všetky šarže dôležitého antipsychotika. Ústav hovorí o porušení pravidiel výroby

Známa firma s tržbami 7,5 milióna eur padla. Jej klientom bol aj štát, dnes dlhuje Finančnej správe 943‑tisíc

