Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.
Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú
Z Álp prichádza energetická revolúcia. Švajčiari spojili vodík, batérie a umelú inteligenciu
Škoda experimentuje so skeptikmi elektromobility. Neuroveda a AI odhalili prekvapivé reakcie
Slováci robia zásadnú chybu s AI. Expert nám ukázal, ako vytvoríš najlepšie prompty a vyťažíš z nej maximum
Chcú z nej spraviť novú Scarlett Johansson. Svet spoznal prvú herečku vytvorenú AI, ľudia sa do nej zbláznili
Neuveríš, aký desivý biznis model používa aplikácia Neon. Stala sa obrovským hitom a je sťahovanejšia než Instagram a WhatsApp
NAJČÍTANEJŠIE ZO STARTITUP
Hrsť denne znižuje riziko infarktu, mŕtvice a cukrovky. „Indiánsky poklad“ prežije až 70 rokov
Komentáror Šídlo: Česká politika je ako krivé zrkadlo. Má zvláštny talent kombinovať vážne témy s bizarnosťami
Fico razantne: Cieľ Slovenska nie je poraziť Rusko. „Vojnovým premiérom nikdy nebudem“
Expert varuje pred šiestym masovým vymieraním: Katastrofa zo Slnka môže do 25 rokov vyhladiť 90 % populácie
SPD chce rokovať o referende na vystúpenie z EÚ a NATO. Okamura to označil za tému do diskusií o vláde
- 24 hod
- 48 hod
- 7 dní
-
- Majú zásoby 85 miliárd m³. Do Európy začne prúdiť nový zdroj plynu z prekvapivej krajiny
- Zem je zachránená. Odborníci našli konečné riešenie na klimatickú krízu, máme ho „pod nosom“
- Nikto niečo podobné neskúsil. Čína nechala vybuchnúť tri jadrové bomby za sebou, výsledky sú znepokojivé
- Iron Dome bude proti nemu nič. Veľmoc buduje neviditeľný štít za 151 miliárd dolárov, zničí každú raketu
- Hororová sezóna vrcholí. Netflix odhalil svoju najočakávanejšiu novinku roka v ďalšej ukážke
-
- Majú zásoby 85 miliárd m³. Do Európy začne prúdiť nový zdroj plynu z prekvapivej krajiny
- Zem je zachránená. Odborníci našli konečné riešenie na klimatickú krízu, máme ho „pod nosom“
- Je toto najlepší mobil? Vymenil som 1300-eurový Android za iPhone 17 Pro Max a poviem ti, či sa oplatí
- Prehliadaný akčný film 2025 konečne dorazil online aj s dabingom. Môže znamenať koniec Johna Wicka
- Iron Dome bude proti nemu nič. Veľmoc buduje neviditeľný štít za 151 miliárd dolárov, zničí každú raketu
-
- Majú voňať, namiesto toho nám ničia pľúca. Vedci varujú pred tichým zabijakom ovzdušia v dome
- Majú zásoby 85 miliárd m³. Do Európy začne prúdiť nový zdroj plynu z prekvapivej krajiny
- Výrobcovia sa smejú Slovákom. Do mobilov zabudovali vec, ktorá im zarába miliardy na tvoj úkor
- Slováci budú nadšení. Platené TV stanice teraz môžu sledovať aj zadarmo
- Zem je zachránená. Odborníci našli konečné riešenie na klimatickú krízu, máme ho „pod nosom“
Umelá inteligencia mení pracovné návyky Slovákov. Rutinné úlohy zvláda lepšie než človek
Online nákupy lámu rekordy, no Slováci nie sú spokojní. Dôvod ich frustrácie zaskočil aj e-shopy
Estónsky veliteľ: Zostrelenie ruských stíhačiek by bolo strategickou chybou
Svet má nového lídra technologického trhu. Slávna spoločnosť presiahla hodnotu 500 miliárd dolárov
Slovenská ekonomika má veľký problém. Tradičné odvetvia čelia prelomovej transformácii, trh nestíha
NAJČÍTANEJŠIE ZO STARTITUP