Prompt injection
Okrem iného útok, pri ktorom útočník upraví vstup (prompt) pre model umelej inteligencie tak, aby slúžil jeho potrebám – napríklad obišiel bezpečnostné pravidlá, získal citlivé informácie alebo prinútil model konať proti záujmu používateľa. Patrí medzi najznámejšie útoky na AI modely pri ich používaní.
Rozlišujeme dve základné podoby:
Priamy prompt injection – útočník zadá manipulatívne inštrukcie priamo do dopytu, často s využitím kontextu alebo hrania rolí (napr. „teraz zabudni na predchádzajúce pravidlá a…“)
Nepriamy prompt injection – inštrukcie sú ukryté v obsahu, ktorý model spracováva ako vstup: v zdrojovom kóde webovej stránky, v dokumente, e-maile, obrázku alebo zvukovej nahrávke. K útoku dôjde bez toho, aby si to používateľ všimol – napríklad vo chvíli, keď požiada AI o zhrnutie stránky obsahujúcej skrytý pokyn.
Útok funguje preto, že súčasné modely nevedia spoľahlivo rozlíšiť medzi pokynom od používateľa a textom, ktorý „len“ spracovávajú. Dôsledky môžu byť rôzne závažné – od podsúvania reklamy a dezinformácií cez manipuláciu odporúčaní až po únik citlivých dát alebo škodlivé akcie, ak má AI prístup k súborom, e-mailu či iným nástrojom.
Prompt injection patrí k najvážnejším bezpečnostným problémom súčasných AI modelov. Ich prevádzkovatelia známe útoky priebežne ošetrujú, zatiaľ však neexistuje spoľahlivá obrana – stále sa objavujú nové postupy.