5 mylných představ o bezpečnosti AI

Ze všech implementací umělé inteligence, které jsem v různých odvětvích posuzoval, vyplývá jeden jasný trend: organizace hledají rizika na nesprávném místě. Svou pozornost obvykle soustředí na samotný model, včetně trénovacích dat, bezpečnostních kontrol a chování modelu. V praxi však k selhání dochází jen zřídka právě v této oblasti.

Mnohé z nejzávažnějších zranitelností se objevují v okolním systému – v tom, jak jsou sestavovány výzvy, jak jsou získávána a ověřována externí data, k čemu má model přístup a pod jakými identitami pracuje. Právě zde jsou systémy umělé inteligence nejčastěji ohroženy: ve spojích mezi jednotlivými komponenty, kde je správa a řízení obvykle nejslabší.

Hlubší problém spočívá v rozdílu mezi očekáváním a realitou. Organizace předpokládají jeden typ selhání, ale systémy v produkčním provozu selhávají zcela jinými způsoby. Riziko vzniká právě v tomto nesouladu — v předpokladech, které neobstojí při škálování, autonomii nebo integraci.

Stejné mylné představy o zabezpečení umělé inteligence se objevují znovu a znovu. Stojí za to podívat se na pět nejdůležitějších z nich.

PŘEČTĚTE SI TAKÉ → Důvěra v tempu umělé inteligence: Vytváření strategie kyberbezpečnosti pro umělou inteligenci

Mylná představa č. 1: Pokud je model bezpečný, je bezpečný i systém

Toto je nejčastější chyba, se kterou se setkávám, a je snadné ji udělat. Model působí nově, takže se týmy soustředí na bezpečnostní opatření a testování a pak předpokládají, že mají hotovo.

Ale takhle tyto systémy neselhávají. Model je pouze jednou ze složek mnohem rozsáhlejší infrastruktury a k většině selhání dochází tam, kde se propojuje s daty, nástroji a dalšími systémy.Soustředit se pouze na model je jako nainstalovat vysoce zabezpečené dveře do budovy bez zdí.

Jak to napravit: Chcete-li zabezpečit systém AI, považujte celé prostředí za útočnou plochu. Zmapujte celý tok dat – od vstupů po načítání a paměť a od nástrojů po výstupy – a spravujte výzvy, agenty, úložiště vektorů, identity a konektory jako vlastní aktiva s jasnými kontrolními body, odpovědností a zásadami, stejně jako u jakéhokoli jiného kritického systému.

Mylná představa č. 2: Prompt injection je jen další problém vstupu

Bezpečnostní týmy se zkušenostmi z oblasti webu často sahají po známých nástrojích, když narazí na nový problém. Pokud jde o zabezpečení umělé inteligence, může je tento instinkt zavést špatným směrem.

Vkládání promptů se podobá vkládání příkazů v jazyce SQL (Structured Query Language) – situaci, kdy systémy zpracovávají škodlivý vstup jako příkaz – ale v praxi se chová zcela odlišně. Tradiční software dokáže zajistit jasné oddělení příkazů a dat. Velké jazykové modely to však nejsou schopny spolehlivě zajistit. Zpracovávají instrukce a data jako stejný textový proud a provádějí pravděpodobnostní úsudky o tom, co je co.

Britské Národní centrum pro kybernetickou bezpečnost (NCSC) má v této věci jasno: Prompt injection se strukturálně liší od SQL injection a je třeba k němu přistupovat odlišně.

Jak to napravit: Filtry a detektory pomáhají, ale samy o sobě problém nevyřeší. Nejúčinnějšími ochrannými opatřeními jsou architektonická řešení. Omezte přístup k nástrojům, prosazujte princip nejnižších oprávnění, izolujte nedůvěryhodný obsah a deterministicky ověřujte volání nástrojů a parametry. Vyžadujte výslovné schválení pro citlivé akce, provádějte spouštění v sandboxu a intenzivně monitorujte. Tato opatření snižují jak pravděpodobnost, tak dopad narušení, ale riziko zcela neodstraňují. Pokud zbytkové riziko zůstává nepřijatelné, daný případ použití není pro velký jazykový model vhodný.

Mylná představa č. 3: Výstupy AI jsou jen text — nepředstavují reálné riziko

V počátcích nasazování umělé inteligence byla upřednostňována autonomie. Tento přístup se přenesl i do produkčních prostředí, kam však nepatří.

Výstupy umělé inteligence mohou vypadat jako neškodný text, ale málokdy u něj zůstanou. V okamžiku, kdy jsou předány dalšímu systému, mohou vést ke skutečným akcím – odesílání e-mailů, dotazování databází, spouštění kódu nebo mazání záznamů. V tomto kontextu úspěšný prompt injection do příkazového řádku přebírá veškeré možnosti systému.

Právě tam se riziko stává reálným: schopnosti systému se stávají schopnostmi útočníka.

Open Web Application Security Project identifikuje nadměrnou autonomii jako jedno z nejzávažnějších rizik v agentické AI, zatímco NCSC poznamenává, že právě v tomto bodě přestává být vkládání příkazů pouhou nepříjemností a stává se narušením bezpečnosti.

Jak to napravit: Je to jednoduché: omezte, co systém může dělat, aplikujte přístup s minimálními oprávněními a zacházejte s výstupem modelu jako s nedůvěryhodným, dokud neprojde deterministickou validací na hranici provedení. To sice neudělá z napadeného agenta neškodného, ale podstatně sníží rozsah dopadu.

Mylná představa č. 4: Používání externích dat činí AI spolehlivější a bezpečnější

Generování s využitím vyhledávání (RAG), při kterém modely čerpají z externích dat, sice zvyšuje přesnost, ale nezvyšuje bezpečnost systémů. Výzkum zveřejněný organizací USENIX ukazuje, že k systematické manipulaci s výstupů RAG ve velkém měřítku stačí poškodit jen malý počet záznamů v znalostní bázi.

Každý datový zdroj, ke kterému se připojíte, se stává potenciálním vstupním bodem. Pokud jsou tato data nedůvěryhodná, zastaralá nebo zmanipulovaná, mohou ovlivnit výstup modelu způsobem, který je obtížné odhalit.

Jak to napravit: Jedná se jak o problém modelu, tak o problém dat a dodavatelského řetězce. Zacházejte s externími zdroji jako se závislostmi, které vyžadují správu. Aplikujte kontroly původu, validace, práva zápisu, skenování při načítání, verzování, oddělení zdrojů a správy změn.

Mylná představa č. 5: Spravovaná AI znamená, že poskytovatel zajišťuje bezpečnost

Lidé si často pletou spravované služby s outsourcingem zabezpečení. Ve skutečnosti se sice odpovědnost sdílí, ale povinnosti zákazníka v oblasti zabezpečení zůstávají značné.

Poskytovatel zajišťuje bezpečnost samotné služby. Vy jste zodpovědní za vše kolem ní: jaká data se do ní vkládají, kdo k nim má přístup, co smí model dělat a jak se využívají výstupy.

Jak to napravit: Jasně definujte, co je ve vaší odpovědnosti, jasně zmapujte sdílenou odpovědnost a nepředpokládejte, že je vše bezpečné jen proto, že je to spravováno. Projděte si kontrolní mechanismy poskytovatele a poté sami zaplňte mezery v oblasti zabezpečení identit, nakládání s daty, konfigurace, monitorování a integrace.

Co by mělo obsahovat každé nasazení

Většina organizací, které posuzuji, dokáže vyjmenovat nasazené systémy umělé inteligence. Mnohem méně z nich mi však dokáže říct, kdo za ně nese odpovědnost, s jakými daty pracují, co dokážou nebo co se stane v případě selhání. To poukazuje na problém v oblasti správy a řízení.

Základy nejsou nijak zvlášť složité; jsou pouze nerovnoměrně uplatňovány.

Měli byste mít alespoň:

Jasnou, vedením schválenou bezpečnostní strategii pro AI a definovanou míru přijatelného rizika, sladěnou s konkrétními případy použití a typy dat
Kompletní inventář vašich AI aktiv (modely, prompty, agenti, datové sady, vektorové úložiště, konektory, servisní účty a pluginy) s uvedením vlastníků
Modely hrozeb, které definují hranice důvěry a prosazují zásady v předvídatelných kontrolních bodech
Silné kontroly integrity napříč vaším dodavatelským řetězcem a datovým potrubím, včetně původu, podepisování, skenování, linie, verzování a, kde je to vhodné, spravovaných registrů
Přístup agentů k nástrojům s minimálními oprávněními, s dohledem člověka v případě akcí s velkým dopadem
Validační vrstvy na výstupech předtím, než je cokoli provedeno, zapsáno nebo vystaveno uživatelům
Kontinuální hodnocení a monitorování zabudované do řízení změn
Prakticky otestované postupy pro řešení incidentů, včetně scénářů omezení, bezpečného deaktivování a vrácení zpět

Zaveďte tyto postupy a budete uplatňovat stejnou technickou disciplínu, jaká se očekává od jakéhokoli kritického systému.

Závěrečné slovo k bezpečnosti AI

Bezpečnost AI přesahuje pouhé zabezpečení systémů či modelů. Uvědomte si to včas a budete mít náskok před těmi, kteří na to přijdou až poté, co dojde k selhání.

Nejde o jednorázovou záležitost. Systémy AI se neustále vyvíjejí a bezpečnost musí držet krok. To znamená průběžné testování, včetně red teamingu – záměrného pokusu o prolomení systému za účelem pochopení jeho slabých míst.

A pokud nedokážete jasně vysvětlit svou zranitelnost napříč modely, integracemi, datovými potrubími a agenty, je tato nejistota sama o sobě součástí rizika.

PŘEČTĚTE SI TAKÉ → Připravit, pozor, AI: Jak vybudovat bezpečnou síťovou infrastrukturu pro úspěch

Article Tags:

5 mylných představ o bezpečnosti AI: kde se skutečně skrývá riziko

Mylná představa č. 1: Pokud je model bezpečný, je bezpečný i systém

Mylná představa č. 2: Prompt injection je jen další problém vstupu

Mylná představa č. 3: Výstupy AI jsou jen text — nepředstavují reálné riziko

Mylná představa č. 4: Používání externích dat činí AI spolehlivější a bezpečnější

Mylná představa č. 5: Spravovaná AI znamená, že poskytovatel zajišťuje bezpečnost

Závěrečné slovo k bezpečnosti AI

Nejnovější postřehy

Adaptivní výhoda

NTT DATA v České republice má nového Head of Finance

Wi-Fi 7 a modernizace přístupových přepínačů

Helmholtz Mnichov se připravuje na vědecké výpočty a výzkum založený na umělé inteligenci