Predplatné PREMIUM na mesiac ZDARMA.

Spoločnosť OpenAI údajne použila prepisy viac ako milióna hodín videí z YouTube na trénovanie svojho najpokročilejšieho veľkého jazykového modelu GPT-4. Skutočnosť odhalil The Wall Street Journal, podľa ktorého sa niečoho podobného dopustila aj spoločnosť Anthropic, s ktorou komunikuje aj Apple v snahe totálne zmeniť iPhone.

Bola to súčasť ich úsilia o zhromažďovanie vysokokvalitných tréningových údajov, ktoré sú kľúčové pre vývoj a zlepšovanie modelov umelej inteligencie, ako je GPT-4. Spoločnosť vyvinula svoj model prepisu zvuku Whisper, ktorý im pri tomto procese pomohol a umožnil prepis obsahu YouTube.

Podľa YouTube ide o porušenie pravidiel

Použitie videí YouTube na tréningové údaje považovala spoločnosť OpenAI za právne sporné, ale verila, že nerobí nič proti pravidlám a právu. Prezident OpenAI Greg Brockman sa osobne podieľal na zhromažďovaní videí, ktoré boli použité na tento účel.

Hovorkyňa spoločnosti Lindsay Heldová uviedla, že OpenAI pre každý zo svojich modelov kurátoruje jedinečné súbory údajov, ktoré im pomáhajú pochopiť svet, a využíva množstvo zdrojov vrátane verejne dostupných údajov a partnerstiev pre neverejné údaje, dodáva The Verge.

Spoločnosť Google, ktorá vlastní YouTube, má súbory robots.txt a podmienky služby, ktoré zakazujú neoprávnené zbieranie alebo preberanie obsahu YouTube. Hovorca spoločnosti Google Matt Bryant uviedol, že spoločnosť prijíma technické a právne opatrenia, aby zabránila takémuto neoprávnenému používaniu, ak má na to jasný právny alebo politický základ.

OpenAI/Bing/Úprava redakcie

Školenie GPT-4 na prepisoch z YouTube bolo súčasťou širšej stratégie spoločností zaoberajúcich sa umelou inteligenciou na prekonanie výzvy nájsť dostatok rôznorodých údajov na efektívne školenie svojich modelov. Táto stratégia zahŕňala aj použitie údajov z iných zdrojov, ako sú Github, databázy šachových ťahov a obsah školských úloh z Quizletu.

Pošli nám TIP na článok



Teraz čítajú