Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.

Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

AI si začala tvoriť vlastnú osobnosť, stačia jej aj základné schopnosti

ChatGPT zavádza najhoršiu novinku v histórii. Google vycítil šancu, ľudí potešil opačným krokom

Prvé prípady AI psychózy vyvolávajú vážne obavy, budú pribúdať

Šokujúci prieskum je varovaním pred novou revolúciou. Teenageri začali používať AI inak, ako sa čakalo

Sony chystá prevrat v hernom priemysle. Nová technológia vyrieši najväčší problém hier
NAJČÍTANEJŠIE ZO STARTITUP

Zázračné lieky na chudnutie čelia žalobám. Tisíce pacientov hovoria o slepote, zvracaní a prasknutom čreve
PREMIUM„Efekt sa dá prejesť.“ Slovenský diabetológ o „zázračnom lieku“ na chudnutie a čo hrozí po vysadení (ROZHOVOR)

Známa kozmetická značka na Slovensku definitívne končí. Zatvorila predajne, telefón je odpojený

Kauza s Epsteinovými spismi graduje: Lajčák odmieta správy o dievčatách, opozícia žiada jeho odstúpenie

Starobylá superpotravina funguje ako lieky na obezitu. Znižuje chuť do jedla a bojuje proti zápalu
- 24 hod
- 48 hod
- 7 dní
-
- Z nečakanej krajiny sa stáva plynová veľmoc. Majú zásoby 200 miliárd m³, do ťažby nalejú 4 miliardy €
- Bez Západu by rýchlo prehrali. Ukrajina zistila, čo v skutočnosti poháňa „ruské“ drony
- 40 rokov čakania sa končí. Nesmrteľná akčná legenda od tvorcu Johna Wicka hlási návrat
- Keď to zbadali, vedcom padla sánka. Našli neviditeľného zabijaka v 2000 rokov starej pôde
- Rusi vytiahli na Ukrajinu zabudnutú zbraň z histórie. Používajú ju všade, kam vkročia
-
- Keď to zbadali, vedcom padla sánka. Našli neviditeľného zabijaka v 2000 rokov starej pôde
- Z nečakanej krajiny sa stáva plynová veľmoc. Majú zásoby 200 miliárd m³, do ťažby nalejú 4 miliardy €
- Bez Západu by rýchlo prehrali. Ukrajina zistila, čo v skutočnosti poháňa „ruské“ drony
- Svetu dochádza dôležitá energetická surovina. Vedci našli riešenie, ktoré môže fungovať miliardy rokov
- 40 rokov čakania sa končí. Nesmrteľná akčná legenda od tvorcu Johna Wicka hlási návrat
-
- Žiadna pokuta, rovno ti zoberú vodičák. Tieto činnosti za volantom nikdy nerob (PREHĽAD)
- Vyskúšalo ho už 800-tisíc Slovákov. Slovenský konkurent Netflixu rastie a ukazuje budúcnosť
- Astronómovia neverili vlastným očiam. V ďalekej galaxii spozorovali zvláštny disk
- Na objavenie čakal 140 miliónov rokov. 15 km pod Európou sa skrýva záhadný svet
- Ľudia sú zúfalí a nahnevaní. OLED televízory skrývajú výraznú slabinu
Apple opäť prepísal dejiny. Jeden produkt im priniesol desiatky miliárd dolárov a prevalcoval konkurenciu
Stačí už len povolenie. Futuristická dopravná služba mieri do Európy
Slovenské e-shopy čaká tvrdá rana a boj o prežitie. Lacné veci z Číny ovládli celý trh
Rusi si neškrtnú. Sused Slovenska vybuduje najmodernejší protidronový systém v Európe
Nemecko otvorilo Pandorinu skrinku. Európa zvažuje jadrový plán B, ktorý odstrihne USA
Slováci objavili nový spôsob, ako získať darčeky zadarmo. Veľký operátor hlási masívny úspech
Ďalšia provokácia Rusov? Do Poľska prileteli z východu neznáme objekty, spustili poplach
NAJČÍTANEJŠIE ZO STARTITUP

Zázračné lieky na chudnutie čelia žalobám. Tisíce pacientov hovoria o slepote, zvracaní a prasknutom čreve
PREMIUM„Efekt sa dá prejesť.“ Slovenský diabetológ o „zázračnom lieku“ na chudnutie a čo hrozí po vysadení (ROZHOVOR)

Známa kozmetická značka na Slovensku definitívne končí. Zatvorila predajne, telefón je odpojený

Kauza s Epsteinovými spismi graduje: Lajčák odmieta správy o dievčatách, opozícia žiada jeho odstúpenie

