Mal byť najlepší z najlepších. AI pri testoch brutálne pohorela, jej odpovede mali mizernú úspešnosť
OpenAI, popredná spoločnosť vo vývoji umelej inteligencie, zverejnila nové zistenia o spoľahlivosti svojich najnovších modelov, ktoré prinášajú prekvapujúce výsledky. V rámci vlastného testovania, najnovší model o1-preview, vydaný minulý mesiac, dosiahol len 42,7 % úspešnosť v správnych odpovediach.
Tieto čísla sú znepokojujúce, najmä preto, že umelá inteligencia sa čoraz viac integruje do našich každodenných životov a služieb. O tejto téme informoval portál Futurism.
OpenAI testovalo svoj najnovší model v rámci benchmarku SimpleQA a dosiahlo alarmujúco nízky počet správnych odpovedí. Konkurenti OpenAI, ako napríklad modely od spoločnosti Anthropic, na tom nie sú lepšie. Ich nový model Claude-3.5-sonnet dosiahol v tomto teste len 28,9 %, pričom častejšie odmietal odpovedať na otázky, keď si nebol istý správnou odpoveďou.
Tento opatrný prístup je možno rozumnejší, pretože podľa zistení výskumníkov OpenAI sú modely často príliš sebavedomé v odpovediach, aj keď sú nesprávne. To vedie k riziku šírenia nesprávnych informácií s presvedčivým tónom.
Halucinácie AI – vážny problém
Jedným z najvážnejších problémov, s ktorým sa vývojári stretávajú, je tzv. halucinovanie modelov. Tento termín v oblasti AI znamená sklon modelov generovať odpovede, ktoré nemajú oporu v realite. Hoci riziko nepresných alebo dokonca úplne vymyslených odpovedí je v prípade týchto modelov vysoké. Technológie založené na veľkých jazykových modeloch (LLM) sú dnes populárne v mnohých oblastiach. Od študentov píšucich domáce úlohy až po programátorov v popredných technologických firmách.
Nedávno bol napríklad model OpenAI použitý na prepis rozhovorov s pacientmi v nemocnici, kde sa ukázalo, že časté halucinácie v odpovediach vedú k riziku nepresného zápisu zdravotných údajov. Podobne je možné, že zavedenie AI do činnosti polície v USA môže zvyšovať.

Narážka na kvalitu dát
Výskum od spoločnosti OpenAI upozorňuje na dôležitý fakt. Odpovede jazykových modelov umelej inteligencie si stále vyžadujú veľkú opatrnosť a pozorné hodnotenie. Aj keď sa tieto technológie rýchlo rozvíjajú, otázky ohľadom spoľahlivosti odpovedí zostávajú aktuálne. Čoraz väčší počet ľudí sa totiž pri hľadaní informácií spolieha na AI modely, a tak je dôležité zvážiť ich presnosť a dôveryhodnosť.
Podľa nových zistení od OpenAI sa ukazuje, že problém presnosti a spoľahlivosti AI môže byť spojený s kvalitou dát, ktoré modely spracovávajú počas tréningu. Aj keď rozšírenie množstva týchto dát môže zlepšiť výkon a rozmanitosť odpovedí, zatiaľ nie je jasné, či tento krok úplne vyrieši riziko nepresností.
Ďakujeme, že čítaš Fontech. V prípade, že máš postreh alebo si našiel v článku chybu, napíš nám na redakcia@fontech.sk.
Teraz čítajú

Piliér modernej fyziky sa rúca. Vesmírny teleskop Jamesa Webba spochybnil existenciu temnej hmoty

Slovensko sa stáva veľmocou. Už čoskoro budeme vyrábať oveľa viac vlastnej elektriny

Prekonala 97-ročný rekord. Na Netflix práve pribudla senzácia minulého roka

Kritici stíchli. Tesla totálne odpálila predaje a zosmiešnila predpovede analytikov

Každý ich má doma, no následky sú desivé. Brusel chystá najväčší zákaz v histórii ľudstva
NAJČÍTANEJŠIE ZO STARTITUP

Slováci majú „Maldivy“ len 2 hodiny od hraníc: Exotická scenéria v zatopenom lome je úplne zadarmo
PREMIUMJediný Čechoslovák s výcvikom Navy SEALs: To, čo som videl v Afganistane pri ženách, bolo kruté

SLEDUJEME ONLINE: Na Slovensku prebieha referendum. Člen jednej z komisii bol pod vplyvom

62-ročného Slováka v USA vyšetrovala FBI, hrozí mu až 10 rokov väzenia. Úrady opísali, kde mal spraviť chybu

Búrky poškodili Slovákom autá a domy: Poisťovňa radí, čo urobiť ako prvé, aby si neprišiel o peniaze (POSTUP)
- 24 hod
- 48 hod
- 7 dní
-
- Slováci vo veľkom zapínajú klimatizácie. Po týždňoch horúčav ich však čaká nepríjemné prekvapenie
- Dojazd 1 660 km a smiešna cena: Nová vlajková loď BYD vyráža dych
- Najlepšie sci-fi 2026 práve pribudlo online aj s dabingom. Dá sa pozrieť úplne zadarmo
- Netflix vytiahne svoje najväčšie eso. TOP 10 nových filmov a seriálov v júli
- Dva týždne a príde veľkoleposť. Film roka sa ukazuje vo finálnom traileri
-
- Slováci vo veľkom zapínajú klimatizácie. Po týždňoch horúčav ich však čaká nepríjemné prekvapenie
- Dojazd 1 660 km a smiešna cena: Nová vlajková loď BYD vyráža dych
- Netflix vytiahne svoje najväčšie eso. TOP 10 nových filmov a seriálov v júli
- Veľký operátor na Slovensku končí a dnes ruší všetky pobočky. Náhrada sľubuje viac výhod
- Zálohovanie fliaš by mohlo skončiť. Vedci našli oveľa lepšie využitie plastov, ktoré pomôže ekonomike
-
- Počasie odhalilo achillovú pätu moderných domov. Ľudia riešia ťažkú dilemu
- Veľký operátor na Slovensku končí a dnes ruší všetky pobočky. Náhrada sľubuje viac výhod
- Zálohovanie fliaš by mohlo skončiť. Vedci našli oveľa lepšie využitie plastov, ktoré pomôže ekonomike
- Cesta z plastu znela ako ekologická katastrofa. Po 11 mesiacoch však prišli prekvapivé výsledky
- Väčšina Slovákov má doma televízor na nesprávnom mieste. Zabúdajú na fyziku obrazu
Google definitívne prehral. EÚ potvrdila rekordnú pokutu za Android
Čínska automobilka mieri vysoko. Do roku 2030 chce ovládnuť až 5 % európskeho trhu
Ázijský tiger spúšťa veľkú investíciu. Do výroby čipov naleje viac než 500 miliárd dolárov
Holandsko úplne zmenilo svojich dodávateľov energií. Rusov nahradilo USA, dovoz prudko stúpol
Európa zrýchľuje budovanie obrovských batérií. Podporí projekty, ktoré majú stabilizovať elektrické siete
Poľsko masívne posilní dovoz plynu. Chystá niečo, čo pomôže celej strednej Európe
Slováci si rýchlo zvykli na nový spôsob platenia. Štátne platby prekonali 5 miliónov eur
NAJČÍTANEJŠIE ZO STARTITUP

Slováci majú „Maldivy“ len 2 hodiny od hraníc: Exotická scenéria v zatopenom lome je úplne zadarmo
PREMIUMJediný Čechoslovák s výcvikom Navy SEALs: To, čo som videl v Afganistane pri ženách, bolo kruté

SLEDUJEME ONLINE: Na Slovensku prebieha referendum. Člen jednej z komisii bol pod vplyvom

62-ročného Slováka v USA vyšetrovala FBI, hrozí mu až 10 rokov väzenia. Úrady opísali, kde mal spraviť chybu

