Umelá inteligencia opäť raz dokazuje, že sci-fi budúcnosť je tu skôr, než by sme čakali. Nové generátory videa, ktoré dokážu z jediného textu a obrázku vytvoriť pôsobivú videosekvenciu, posúvajú hranice možností tvorby obsahu. No zároveň otvárajú dvere mnohým otázkam – o etike, bezpečnosti aj spoľahlivosti samotných nástrojov.

Najväčší rozruch momentálne spôsobuje Runway Gen-4 – najnovšia verzia modelu, ktorý zmenil spôsob, akým ľudia vytvárajú videá. Vďaka pokročilému porozumeniu textu, obrazu a pohybu dokáže vytvoriť videoklip s kontinuitou postáv aj scén, čo bolo doteraz doménou profesionálnych filmových štábov. Na tému upozornil portál BGR.

Ukážkové videá spoločnosti Runway sú natoľko presvedčivé, že by mohli konkurovať záberom z Hollywoodu. Ak technológia funguje tak, ako sľubuje, mohla by v budúcnosti výrazne znížiť náklady na vizuálne efekty a produkciu.

Rozhovory ako z filmu

Ďalšou technologickou bombou je projekt MoCha (Movie Character Animator) od spoločnosti Meta a University of Waterloo. Tento výskumný nástroj dokáže na základe textového popisu a zvukovej vzorky vytvoriť video, v ktorom postavy realisticky hovoria nasnímaný dialóg. A to vrátane mimiky, emócií či synchronizovaných pohybov pier. Aj keď výsledky ešte nie sú úplne dokonalé – hlavne v detailoch ako pohyb očí či prehnaná artikulácia pier – stále ide o obrovský technologický krok vpred.

Na malých obrazovkách či v menej pozornom sledovaní by mnohí nemuseli spoznať, že ide o výtvor umelej inteligencie. MoCha však nie je jediným projektom, ktorý umožňuje vytvárať realistické deepfake videá. Microsoft už minulý rok predstavil výskumný projekt VASA-1, ktorý zmení obyčajnú fotografiu na hovoriacu osobu. Tento model však nie je dostupný verejnosti – a to z dobrého dôvodu.

uvažujúci AI model
Freepik

Technológia je až príliš presvedčivá. Podobné schopnosti má aj OmniHuman-1 od čínskej spoločnosti ByteDance, známej ako majiteľ TikToku. Ten ide ešte ďalej a animuje aj pohyby tela. Výsledok? Na internete sme mohli vidieť deepfake video, v ktorom Taylor Swift spieva úvodnú pieseň z anime Naruto v japončine.

Otázky bez odpovedí

Všetky tieto pokroky sú síce technicky fascinujúce, ale zároveň vyvolávajú vážne obavy. Produkty ako VASA-1, MoCha alebo Runway Gen-4 by mohli byť zneužité na šírenie dezinformácií, manipuláciu alebo porušovanie súkromia.

Osobitne znepokojujúce je, že vývojári – ako napríklad Meta – nezverejňujú, na akých dátach svoje modely trénovali. MoCha údajne využila až 300 hodín videí s hovoreným slovom, no bez informácie, odkiaľ tieto dáta pochádzali. Nedostatok transparentnosti je v AI priemysle čoraz väčší problém.

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP