Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.

Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Krstný otec umelej inteligencie varuje svet pred katastrofou. Ľudia brutálne doplatia na jednu vec

Ľudia už nerobia skoro nič. V Ázii začala nová éra života, priehradu stavajú stroje, ktoré riadi AI

Najväčší technologický podvod storočia: Ako startupy nafúkli hodnotu ničoho na miliardy

Nový čip je 1000-krát rýchlejší ako špičková Nvidia. Vedci vyriešili analógový „problém storočia“

Keď im povedali pravdu, začali panikáriť. Revolučná hra s AI postavami vydesila svet
NAJČÍTANEJŠIE ZO STARTITUP

Ukrajina zaútočila na jeden z najväčších prístavov Ruska: Moskva hlási škody

Hromadná zrážka na D1 ochromila dopravu. Cesta je plne prejazdná, treba však stále počítať so zdržaním

Nehoda štyroch áut zablokovala cestu, zasahujú všetky záchranné zložky

Odmietli ho 5 126-krát: Dnes má takmer 14 miliárd a jeho vynálezy používame všetci

Neurovedkyňa po 20 rokoch výskumu varuje: 12 TOP návykov, ktoré sabotujú tvoj mozog, mentálnu silu aj odolnosť
- 24 hod
- 48 hod
- 7 dní
-
- Slováci môžu sledovať platené TV stanice úplne zadarmo. Tu je kompletný prehľad
- Benzín a nafta definitívne skončili. Čerpacie stanice ich nahradia „novými“ palivami, vieme kedy
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
- Čína má plán, ktorý zatvorí benzínky. Zmazali najväčšiu slabinu elektromobilov, experti sú nadšení
- Predseda ÚRSO: Energetická politika EÚ sa vymyká zdravému rozumu. Nariadenia z Bruselu nedávajú Slovensku zmysel
-
- Slováci môžu sledovať platené TV stanice úplne zadarmo. Tu je kompletný prehľad
- Benzín a nafta definitívne skončili. Čerpacie stanice ich nahradia „novými“ palivami, vieme kedy
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
- Čína má plán, ktorý zatvorí benzínky. Zmazali najväčšiu slabinu elektromobilov, experti sú nadšení
- Predseda ÚRSO: Energetická politika EÚ sa vymyká zdravému rozumu. Nariadenia z Bruselu nedávajú Slovensku zmysel
-
- Automobilky majú veľkú dilemu: Kia odhalila pravdu o elektromobiloch, ktorú Brusel nechce počuť
- Švajčiarsko zaplatilo 100 000 eur za porovnanie spaľováku a EV. Keď zistili výsledky, radšej ich ututlali
- Rusko vyľakalo celý Západ. Multifunkčnou superzbraňou chce dobyť prekvapivú časť sveta
- Slováci môžu sledovať platené TV stanice úplne zadarmo. Tu je kompletný prehľad
- Benzín a nafta definitívne skončili. Čerpacie stanice ich nahradia „novými“ palivami, vieme kedy
EÚ robí krok, ktorý sa kedysi zdal nemysliteľný. Nový plán má zmeniť chod automobilového priemyslu
OFICIÁLNE: Ryanair mení spôsob nastupovania do lietadiel, cestujúci budú potrebovať aplikáciu
Zrážke vlakov pri Pezinku sa dalo predísť. Odborníci vidia problém v inštalácii kľúčovej technológie
Klimatická kríza núti milióny ľudí urobiť nepríjemnú vec. Experti varujú pred začarovaným kruhom
Raketa najväčšieho konkurenta Elona Muska neodštartovala. Dôvod je pragmatický
NAJČÍTANEJŠIE ZO STARTITUP

Ukrajina zaútočila na jeden z najväčších prístavov Ruska: Moskva hlási škody

Hromadná zrážka na D1 ochromila dopravu. Cesta je plne prejazdná, treba však stále počítať so zdržaním

Nehoda štyroch áut zablokovala cestu, zasahujú všetky záchranné zložky

Odmietli ho 5 126-krát: Dnes má takmer 14 miliárd a jeho vynálezy používame všetci

