Inžinierom zo spoločnosti Microsoft sa podarilo vytvoriť nový model umelej inteligencie s názvom VALL-E. Tá dokáže napodobniť akýkoľvek hlas len z niekoľkosekundového zvukového záznamu. Na tému upozornil portál NewAtlas.

Nová umelá inteligencia napodobňuje ľudskú reč

Ako píše portál BusinessInsider, umelá inteligencia VALL-E dokáže naklonovať ľudský hlas, vrátane emocionálnych odtieňov, z trojsekundového zvukového záznamu a bola trénovaná na 60-tisíc hodín trvajúcich anglicky hovoriacich nahrávkach.

Flickr / Mike MacKenzie, NeedPix

VALL-E taktiež dokáže napodobňovať hlas aj v „scenároch s nulovým záberom“, čo znamená, že dokáže generovať aj slová, ktoré nikdy predtým nepočula. VALL-E využíva technológiu prevodu textu na reč, pričom pri tréningu boli využité „vysokokvalitné personalizované prejavy“.

Nahrávky boli získané od viac ako 7 000 skutočných rečníkov, ktorých záznamy boli verejne prístupné. Technologický gigant dokonca v krátkej nahrávke ukázal, ako VALL-E funguje a klonuje hlas daného rečníka. Ukážky sú dostupné na tomto odkaze.

Už na prvé počutie je evidentné, že je len veľmi ťažké rozoznať skutočný hlas od toho syntetického. Zaujímavé je aj to, že ak nahrávka znie ako nahraná cez telefón, AI presne kopíruje tento zvuk, vrátane prízvuku rečníka.

Hoci VALL-E odvádza skutočne dobrú prácu pri napodobňovaní hlasu, zakomponovanie emócií je o niečo menej pôsobivé. Pri využívaní nahrávok, v ktorých je rečník nahnevaný, ospalý, prípadne znechutený sa totiž zdá, že syntéza reči je mierne skreslená.

Experti majú obavy

Aj keď ide o nesmierny úspech na poli počítačových vied, mnoho odborníkov je týmto výsledkom znepokojených.

Ako píše portál Calcalistech, potenciálne by tento druh AI mohol byť zneužitý od obchádzania hlasových biometrických zámkov, cez vytváranie realisticky znejúcich falzifikátov, až po spôsobenie všeobecného chaosu a paniky. Okrem vyššie uvedeného by mohlo dochádzať k porušovania práva na publicitu, čo je istá forma duševného vlastníctva.

Unsplash/Possessed Photography/Pixabay

Útočníkovi by na vykonanie takéhoto falzifikátu stačilo zavolať na tvoj mobil, nahrať 3 sekundy trvajúci zvukový záznam, ktorý by následne prehral AI a ďalej mohol obísť akékoľvek bezpečnostne zariadenie, ktoré sa spolieha na rozpoznávanie hlasu, prípadne zavolať tvojim rodičom, aby mu poslali peniaze. Taktiež by mohla byť AI využitá na napodobňovanie hlasu politikov, či iných vplyvných osôb.

Našťastie, Microsoft si tieto riziká uvedomuje a kód k tejto AI je preto bezpečne uchovaný, pričom VALL-E nie je dostupná pre verejnosť.

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP