V nasledujúcom článku boli použité materiály TASR.

Tím vedcov z Washingtonskej univerzity (UW) predstavil technologickú novinku, ktorá by mohla radikálne zmeniť spôsob, akým počúvame a rozumieme cudziemu jazyku. Ich inovatívny systém SST – Spatial Speech Translation – dokáže tlmočiť výpovede viacerých ľudí v reálnom čase, a čo je ešte pôsobivejšie, zachováva charakteristiku ich hlasu aj priestorovú orientáciu, teda smer, z ktorého rečník hovorí.

Na rozdiel od doterajších riešení, ktoré zvládali tlmočenie len jedného rečníka naraz – a aj to len po tom, čo prestal hovoriť – nový systém zvláda simultánne preklady viacerých osôb. Vedci dosiahli túto funkcionalitu kombináciou bežných slúchadiel s potlačením hluku a pokročilými algoritmami, ktoré dokážu identifikovať rečníkov v priestore a sledovať ich pohyb. Tlmočenie sa potom prehráva so oneskorením dve až štyri sekundy, pričom si zachováva vernosť hlasu a smeru.

Inšpirácia z praxe

Za vývojom systému stojí aj osobná skúsenosť doktoranda Tchuo-čchao Čchena, ktorý sa pokúsil pomocou mobilu porozumieť výkladu v mexickom múzeu. Napriek tomu, že v miestnosti bol nízky hluk, aplikácia tlmočenie nezvládla. Tento neúspech podnietil tím k vývoju niečoho použiteľnejšieho – riešenia, ktoré dokáže reagovať na realitu plnú viacerých hovoriacich osôb, a nie len jedného monotónneho hlasu

„Ostatné tlmočnícke technológie vychádzajú z predpokladu, že hovorí iba jedna osoba. V skutočnosti však nemôžete mať iba jeden robotický hlas tlmočiaci viaceré osoby v miestnosti,“ povedal profesor Paul G. Allen z UW. Významnou súčasťou systému je jeho lokálne spracovanie dát. Tlmočenie prebieha priamo na zariadení s čipom Apple M2, čo eliminuje potrebu cloudu a tým aj riziko úniku alebo zneužitia hlasových údajov. Práve táto vlastnosť robí zo systému vhodného kandidáta na reálne nasadenie aj v citlivých situáciách.

funkcia slúchadiel mení mozog
Freepik

Výsledky testov

Systém SST prešiel testami v rôznych prostrediach – v interiéri aj exteriéri. Medzi 29 účastníkmi testov si získal jednoznačné preferencie oproti konkurenčným riešeniam, ktoré nedokázali sledovať rečníkov v pohybe. Testeri ocenili aj troj- až štvorsekundové oneskorenie, ktoré poskytovalo lepšiu kvalitu prekladu ako kratšie varianty.

Zatiaľ čo systém zatiaľ zvláda len bežný hovorový jazyk, výskumníci už preukázali, že sa dá trénovať na preklad viac ako 100 jazykov. V aktuálnych testoch sa zamerali na preklady zo španielčiny, nemčiny a francúzštiny do angličtiny.

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP