V tomto texte boli použité materiály TASR.

Nový výskum americkej Marylandskej univerzity v Baltimore v spolupráci so spoločnosťou Microsoft priniesol prekvapivé zistenie – najpresnejším jazykom na komunikáciu s umelou inteligenciou je poľština. V rámci rozsiahleho porovnania 26 jazykov si tento západoslovanský jazyk odniesol prvé miesto, čím predbehol francúzštinu, taliančinu aj angličtinu, ktorá skončila až šiesta.

Výskum mení predstavy

Štúdia s názvom „One ruler to measure them all: Benchmarking multilingual long-context language models“ bola predstavená ako súčasť nového benchmarku OneRuler, ktorý testuje, ako dobre veľké jazykové modely (LLM) dokážu spracovávať dlhé textové vstupy. Výsledky ukazujú, že poľština dosiahla priemernú úspešnosť 88 %, zatiaľ čo angličtina len necelých 84 %.

Na prvý pohľad ide o paradox, pretože väčšina AI modelov je trénovaná práve na anglických dátach, ktoré tvoria najväčší objem dostupného textového materiálu. Napriek tomu si poľština viedla lepšie aj než čínština – jazyk s obrovským množstvom tréningových dát, ktorá však v rebríčku skončila až štvrtá od konca s výsledkom 62 %.

Poľština ako ideálny jazyk pre komplexné otázky

Výskum analyzoval sedem typov úloh rozdelených do dvoch kategórií – vyhľadávanie a agregáciu informácií – pričom testy prebiehali pri rôznych dĺžkach kontextu, od 8 000 až po 128 000 tokenov. Z výsledkov vyplynulo, že čím dlhší je textový vstup, tým viac sa prehlbuje rozdiel medzi vysokozdrojovými jazykmi (ako angličtina či francúzština) a nízkozdrojovými jazykmi (napr. swahilčina alebo sothčina).

Kým pri krátkych textoch bol rozdiel vo výkonnosti modelov okolo 11 %, pri najdlhších sa prehĺbil až na 34 %. Poľština sa však vymyká tejto logike. Napriek menšiemu objemu tréningových dát sa ukázala ako jazyk, v ktorom modely robia menej chýb, dávajú presnejšie odpovede a lepšie zvládajú analýzu rozsiahlych textov.

Autori výskumu vysvetľujú tento fenomén jazykovou štruktúrou poľštiny, ktorá obsahuje množstvo ohybov a gramatických väzieb, nútiacich modely k presnejšiemu pochopeniu kontextu. „Poľština sa ukázala ako najvhodnejší jazyk na tzv. promptovanie – zadávanie dlhých a komplexných otázok umelej inteligencii,“ uvádzajú vedci v štúdii.

AI výskum dostáva nový smer

Objav z Marylandskej univerzity a Microsoftu tak spochybňuje doterajšie predstavy o jazykovej dominancii v AI svete. Ak sa potvrdí, že niektoré jazyky prirodzene „ladia“ s mechanizmami jazykových modelov lepšie než iné, mohlo by to zásadne ovplyvniť spôsob, akým sa AI bude učiť spracovávať viacjazyčné dáta.

Pre vývojárov to môže znamenať nový impulz na optimalizáciu modelov nielen pre dominantné jazyky, ale aj pre tie, ktoré dokážu umelú inteligenciu viesť k presnejším a logickejším odpovediam.

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP