Spoločnosti NVIDIA a Apple spojili sily. Urobili tak z dôvodu, aby zrýchlili a zlepšili výkonnosť veľkých jazykových modelov (LLM) pri generovaní textu pomocou inovatívnej techniky, ktorá by mohla významne zmeniť spôsob, akým používatelia zažívajú AI platformy. Táto spolupráca kombinuje silné stránky Apple v oblasti návrhu technológií s výkonným hardvérom NVIDIA, čo prináša prelomové vylepšenia v rýchlosti a efektivite inferencie AI.

Generovanie textu v LLM je proces, ktorý si vyžaduje veľké množstvo výpočtového výkonu. Každý nový token, či už slovo alebo časť vety sa generuje auto-regresívne. To znamená, že každý krok závisí od predchádzajúceho. Tento postup je časovo náročný a výpočtovo nákladný. Apple aj NVIDIA zdôrazňujú, že zlepšenie tejto efektivity môže významne znížiť latenciu, ktorú používatelia pri generovaní textu zažívajú. Na tému pokázal portál Bgr.

Nová technológia pre inferenčné vylepšenia

Apple začiatkom tohto roka otvorene publikoval a sprístupnil nástroj s názvom Recurrent Drafter (ReDrafter), ktorý využíva pokročilú metódu špekulatívneho dekódovania. Táto technika vylepšuje proces generovania textu pomocou RNN draft modelu, ktorý predbežne navrhuje možné textové reťazce. Kombinácie beam search a dynamickej stromovej pozornosti na zrýchlenie generovania tokenov. ReDrafter dosahuje o 3,5 rýchlejšiu generáciu tokenov na krok v porovnaní s predchádzajúcimi metódami.

Pri testovaní ReDrafter na NVIDIA TensorRT-LLM akceleračnom rámci pri použití modelov s desiatkami miliárd parametrov sa ukázal až 2,7-násobný nárast rýchlosti generácie tokenov počas greedy decoding. To znamená, že tento nástroj umožňuje rýchlejšie spracovanie úloh. Umožňuje lepšiu efektivitu pri nižšej spotrebe hardvéru a koncový užívateľ získa rýchlejšie a presnejšie odpovede. Apple plánuje tieto technológie implementovať aj do svojej platformy Apple Intelligence, čím zlepší interakciu používateľov s nástrojmi umelej inteligencie na zariadeniach, ako sú iPhony a MacBooky.

Nvidia

Dopad na vývojárov a priemysel

Táto spolupráca ponúka vývojárom nový spôsob, ako maximalizovať výkon svojich LLM aplikácií na NVIDIA GPU. ReDrafter je integrovaný do ekosystému TensorRT-LLM, čím sa stáva ľahko dostupný na produkčné použitie. Táto technológia môže priniesť menej výpočtového výkonu na dosiahnutie rovnakých výsledkov. Taktiež umožní implementáciu AI v oblastiach, kde bola doteraz latencia kritickým problémom.

Pre vývojárov, ktorí majú záujem začať používať ReDrafter, sú podrobné zdroje dostupné na webstránkach Apple a NVIDIA. Tento pokrok je zároveň ďalším dôkazom, že LLM sa stávajú technológiou budúcnosti, ktorá transformuje nielen komerčné aplikácie, ale aj každodennú interakciu s technológiami.

Pošli nám TIP na článok



Teraz čítajú