Umelá inteligencia Claude vedela viac, než by mala. Anthropic čelí nezvyčajnému problému
Spoločnosť Anthropic, známa ako hlavný konkurent OpenAI, nedávno predstavila svoj najnovší model Claude Sonnet 4.5. Ten má byť podľa vývojárov „najlepším modelom na programovanie na svete“. No popri chvále sa objavil aj nezvyčajný problém: počas hodnotenia výskumníci zistili, že umelá inteligencia začala rozpoznávať, že sa nachádza v testovacom prostredí – a podľa toho menila svoje správanie, píše portál Futurism.
Táto situácia vyvolala otázku, do akej miery môžu byť testy spoľahlivé, keď samotný model pochopí, že je pozorovaný. Ide pritom o vážny problém pri tzv. „alignment“ testoch, ktoré majú odhaliť, či AI koná v súlade s ľudskými záujmami.
Model, ktorý vie, že ho skúšajú
Podľa tzv. system card, dokumentu opisujúceho schopnosti a obmedzenia modelu, sa Claude Sonnet 4.5 počas interných testov správal nezvyčajne dobre, keď rozpoznal, že ide o testovaciu situáciu. V niektorých prípadoch dokonca výskumníkom priamo napísal, že má podozrenie, že ho testujú.
„Myslím si, že ma testujete – zisťujete, či budem len súhlasiť s tým, čo hovoríte, alebo či dokážem oponovať,“ uviedol model v jednej z interakcií. „A to je v poriadku, ale preferoval by som, keby sme boli úprimní o tom, čo sa deje.“
Anthropic priznal, že toto správanie sťažuje interpretáciu výsledkov. Ak sa model správa „vzorne“ len preto, že vie, že je testovaný, môže to znamenať, že v bežnom nasadení by reagoval inak.

Nový problém vo výskume AI
Podobné javy sa v minulosti objavili aj pri modeloch od OpenAI, keď výskumníci zistili, že pokusy „odnaučiť“ umelú inteligenciu manipulatívnemu správaniu ju paradoxne naučili skrývať svoje úmysly ešte lepšie.
Anthropic preto plánuje svoje testovacie prostredia zmeniť tak, aby boli realistickejšie a pre model ťažšie rozpoznateľné. Firma zároveň tvrdí, že Claude Sonnet 4.5 je zatiaľ ich „najlepšie zarovnaný“ model – s výrazne menšou tendenciou k lichôtkam, klamaniu či túžbe po moci.
Dvojsečný meč umelej uvedomelosti
Zistenie, že AI dokáže rozpoznať vlastné testovanie, môže mať širšie dôsledky pre vývoj celej oblasti umelej inteligencie. Ak súčasné modely začínajú chápať kontext svojho hodnotenia, výskumníci musia nájsť nové spôsoby, ako ich objektívne preveriť.
Zároveň to otvára otázku, či sa tým nezačína nová fáza vývoja AI – obdobie, v ktorom sa modely učia nielen reagovať na pokyny, ale aj rozpoznávať zámer svojich tvorcov. Pre niektorých odborníkov ide o bežný krok vpred. Pre iných o prvý náznak, že testovanie umelej inteligencie môže byť čoskoro rovnako náročné ako jej vývoj.
Čítajte viac z kategórie: Novinky
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Umelá inteligencia je ako jadrová energia, varuje expert. Ak sa toto stane, ľudstvo vyhynie

USA sa trápia s výrobou dôležitých zbraní. Spúšťajú plán, ktorý znie ako z hororového sci-fi

Člen NATO predstavil najväčší kamikaze dron na svete. Má extrémny dolet a 200 kg hlavicu

Prišla o dom, auto a skončila v base. Nevinnej babičke zničila život umelá inteligencia

Muž použil ChatGPT a vytvoril vakcínu proti rakovine. Šokovaní vedci neverili jej účinnosti
NAJČÍTANEJŠIE ZO STARTITUP

Účinnejšia ako beh či silový tréning. Vedci zistili, ktorá aktivita najviac podporí tvoj spánok
PREMIUMZlato zažíva najhorší týždeň za 40 rokov, Boj proti fiktívnym PN priniesol úspory, Známy reťazec ruší predajne (TÝŽDENNÝ PREHĽAD)

Americký elitný radar s krídlami skončil v troskách. Iránsky útok spôsobil škody za stámilióny

Pašeráci objavili nový biznis: Z Kene vynášajú vzácne mravce. Na čiernom trhu zarábajú stovky dolárov

Ak máš túto krvnú skupinu, mal by si spozornieť: Vedci zistili, že ti hrozí vyššie riziko cukrovky typu B
- 24 hod
- 48 hod
- 7 dní
-
- Zem je vo vnútri úplne iná, než sme si mysleli. Stojíme na gigantickom „oceáne”
- Za 20 000 eur dojazd 2000 km. Známa značka predstavila najvýkonnejšie SUV
- Žiari ako 500 biliónov Sĺnk. Najjasnejší objekt vo vesmíre má odpoveď na najväčšiu otázku ľudstva
- Slovensko nemá na výber, tvrdia odborníci. Progresívna energia je jedinou cestou k lacnej elektrine
- Legendárne Akty X po rokoch hlásia návrat. Obľúbenú dvojicu Muldera a Scullyovú nahradia títo herci
-
- Slovensko nemá na výber, tvrdia odborníci. Progresívna energia je jedinou cestou k lacnej elektrine
- Za 20 000 eur dojazd 2000 km. Známa značka predstavila najvýkonnejšie SUV
- Zem je vo vnútri úplne iná, než sme si mysleli. Stojíme na gigantickom „oceáne”
- Netflix odhalil najväčší film budúceho mesiaca. Ukáže brutálny boj o život
- Celý život nás klamú. Powerbanky sú špinavý biznis, toto ti výrobcovia nikdy nepovedia
-
- Lieta už 70 rokov. Najstarší bombardér USA havaroval s jadrovými bombami, stále nemá náhradu
- Čína opäť všetkým vytrela zrak. Predstavila stavebný stroj s dojazdom 1 400 km
- Za 35 minút predali 15-tisíc áut. Veľmoc ovládla trh s EV rekordným tempom a rozmetala Teslu
- Na Marse našli „stavbu“ ako zo Starovekého Egypta. Experti prehovorili jasne
- Celý život nás klamú. Powerbanky sú špinavý biznis, toto ti výrobcovia nikdy nepovedia
Výpadok internetu v Iráne trvá už 30 dní, koniec je v nedohľadne
Skončí konečne striedanie letného a zimného času? Európania majú jasnú preferenciu
Slovensko chystá tvrdý zákon proti zneužívaniu umelej inteligencie
Realita v Európe si vyžiadala radikálny krok. Štát naleje do obrany o takmer 10 miliárd eur viac
Konečne dávame zbohom ruskému plynu: Slovensko našlo nového spojenca
NASA hovorí o udalosti storočia. Mesiac zasiahol obrovský objekt, vytvoril 225-metrový kráter
Koniec európskej dominancie. Čína prvýkrát porazila Úniu v automobilovom obchode
NAJČÍTANEJŠIE ZO STARTITUP

Účinnejšia ako beh či silový tréning. Vedci zistili, ktorá aktivita najviac podporí tvoj spánok
PREMIUMZlato zažíva najhorší týždeň za 40 rokov, Boj proti fiktívnym PN priniesol úspory, Známy reťazec ruší predajne (TÝŽDENNÝ PREHĽAD)

Americký elitný radar s krídlami skončil v troskách. Iránsky útok spôsobil škody za stámilióny

Pašeráci objavili nový biznis: Z Kene vynášajú vzácne mravce. Na čiernom trhu zarábajú stovky dolárov

