Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.

Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Odhaľuje rakovinu a diktuje, čo si kúpiš. Neuveriteľné veci, ktoré už dnes robí AI

Neviditeľný, autonómny, smrteľný. Dron X-BAT má byť technologickou prevahou nad Čínou a Ruskom

Čína prepisuje pravidlá IT sveta. Pod morom spustila veterné dátové centrum

Niečo sa deje s najznámejšou AI planéty. Dáta ukazujú nečakaný trend

Ľudia sa spoja s AI a prestanú starnúť. Legendárny vedec odhalil, čo sa stane v blízkej budúcnosti
NAJČÍTANEJŠIE ZO STARTITUP

Sieť predajní dm sťahuje z predaja nebezpečný produkt. Môže obsahovať kvasinky a plesne

Obchody masívne sťahujú „nebezpečnú potravinu“ z Poľska. Hrozí ťažká otrava

Zabudni na kódovanie AI: Podľa Marka Cubana budú firmy platiť zlatom ľuďom s touto jednou schopnosťou

Poznáme najlepšiu destináciu Európy za rok 2025: Je vzdialená len 3 hodiny od Slovenska

Kruháč, ktorý vedie „nikam“ za 1,27 milióna eur: Stal sa symbolom byrokratického fiaska, na železnicu čaká 4 roky
- 24 hod
- 48 hod
- 7 dní
-
- 11 minút mu tlieskali v stoji. Netflix práve predstavil jeden zo svojich najlepších filmov
- Západ nič také nemá. „Spojenec“ Ruska nasadí laser na stíhačky budúcnosti, rakety po ňom „slepnú“
- Celý život nás klamú. Powerbanky sú špinavý biznis, toto ti výrobcovia nikdy nepovedia
- Záhadný kameň v Egypte nechal vedcov v nemom úžase. Odhalil tajomstvo ukryté 5000 rokov
- Plán na večer je jasný. Najlepšie hodnotený horor 2025 dorazil na známu službu aj s dabingom
-
- Celý život nás klamú. Powerbanky sú špinavý biznis, toto ti výrobcovia nikdy nepovedia
- 11 minút mu tlieskali v stoji. Netflix práve predstavil jeden zo svojich najlepších filmov
- Západ nič také nemá. „Spojenec“ Ruska nasadí laser na stíhačky budúcnosti, rakety po ňom „slepnú“
- Niečo sa deje s najznámejšou AI planéty. Dáta ukazujú nečakaný trend
- Záhadný kameň v Egypte nechal vedcov v nemom úžase. Odhalil tajomstvo ukryté 5000 rokov
-
- Ak nepriateľ zaútočí, bude čeliť vlastnému koncu. Európsky štát otestoval 8100-tonový jadrový kolos
- Automobilky oklamali svet a budú platiť. Obľúbený pohon zlyhal na celej čiare, produkuje veľké emisie
- Máš doma staré mobily? Nevyhadzuj ich, obľúbený operátor ti za každý jeden dá až 100 GB dát
- 11 minút mu tlieskali v stoji. Netflix práve predstavil jeden zo svojich najlepších filmov
- Celý život nás klamú. Powerbanky sú špinavý biznis, toto ti výrobcovia nikdy nepovedia
Elektromobilita rozdelila Európu na dve časti. Osud spaľovákov má v rukách jeden štát
Prevádzkovatelia spochybňujú plán vlády. Žiadajú predĺžiť využívanie jadrovej energie
Predbehol angličtinu a rozumejú mu aj Slováci. Sused Slovenska má najpresnejší jazyk pre komunikáciu s AI
Trump vyslal jasný odkaz. Severnú Kóreu označil za „akýsi jadrový štát“
Kritici sa chytajú za hlavu: 60 krajín OSN podpísalo kontroverznú kyber dohodu, navrhli ju Rusi
NAJČÍTANEJŠIE ZO STARTITUP

Sieť predajní dm sťahuje z predaja nebezpečný produkt. Môže obsahovať kvasinky a plesne

Obchody masívne sťahujú „nebezpečnú potravinu“ z Poľska. Hrozí ťažká otrava

Zabudni na kódovanie AI: Podľa Marka Cubana budú firmy platiť zlatom ľuďom s touto jednou schopnosťou

Poznáme najlepšiu destináciu Európy za rok 2025: Je vzdialená len 3 hodiny od Slovenska

