Bolo len otázkou času, kedy sa umelá inteligencia stane nielen cieľom, ale aj nástrojom hackerských útokov – a ten čas práve prišiel. Nový prelomový výskum ukazuje, že prompt injection útoky sú teraz rýchlejšie, jednoduchšie a desivo efektívne, dokonca aj proti systémom považovaným za bezpečné, ako je Google Gemini.

Prompt injection je jednou z najspoľahlivejších metód manipulácie veľkých jazykových modelov (LLM – Large Language Models). Funguje tak, že hackeri skryjú škodlivé inštrukcie do textu, ktorý AI spracúva – napríklad do komentára v kóde alebo do neviditeľného textu na webovej stránke. Výsledkom môže byť, že modelm prezradí citlivé informácie, poskytne nesprávne odpovede, vykoná nežiaduce akcie. O téme informoval portál BGR.

Doteraz bolo vykonanie takéhoto útoku pracné a vyžadovalo manuálne testovanie, najmä pri modeloch ako GPT-4alebo Gemini, kde nie je prístup k zdrojovému kódu ani tréningovým dátam. No práve tu prichádza nová technika s názvom Fun-Tuning.

AI nástroj na prelomenie AI bezpečnosti

Fun-Tuning je nový spôsob automatizovanej prompt injection, ktorý vyvinuli univerzitní výskumníci. Zneužíva vlastný fine-tuning API od Google na to, aby vytvoril vysoko účinné prompty, ktoré dokážu prejsť bezpečnostnými opatreniami jazykových modelov.

Táto technika funguje tak, že testuje, ako model reaguje na rôzne variácie útokov, a automaticky optimalizuje prompty, aby boli čo najúčinnejšie. Výsledky hovoria samy za seba. Úspešnosť Fun-Tuning útokov na Gemini dosahuje až 82 %, zatiaľ čo bežné metódy len 30 %. Jedna úspešná injekcia sa dá ľahko preniesť medzi rôznymi verziami modelu. Náklady na útok sú extrémne nízke – stačí iba 10 dolárov na výpočtový výkon.

umelá inteligencia
Pixabay

Vedci upozorňujú, že obrana proti tejto metóde nie je jednoduchá. Google by síce mohol obmedziť dostupnosť tréningových dát, ale to by zároveň znížilo využiteľnosť modelov pre vývojárov. Doteraz Google neoznámil žiadne kroky na obmedzenie svojho fine-tuning API, aj keď hrozbu uznáva.

AI už nie je len cieľom, ale aj zbraňou

Tento vývoj ukazuje novú éru kybernetických hrozieb, kde umelá inteligencia nie je len terčom, ale aj nástrojom útoku. Keď hackeri môžu pomocou AI zlepšovať svoje útoky rýchlejšie, ako sa ich bezpečnostné systémy dokážu brániť, môže to viesť k nebezpečným scenárom, ako sú úniky súkromných údajov z AI modelov, dezinformácie generované na mieru, manipulácia s AI asistentmi a chatbotmi.

Výskumníci varujú, že bez rýchlej reakcie veľkých AI spoločností by sa mohli stať tieto útoky bežnou súčasťou kyberkriminality. Kým Google, OpenAI a ďalší nenájdu efektívne riešenie, prompt injection útoky budú čoraz nebezpečnejšie a sofistikovanejšie.

Pošli nám TIP na článok



Teraz čítajú

NAJČÍTANEJŠIE ZO STARTITUP