Co je AI agent?
AI agent je LLM, který nedostává jen otázky - má přístup k nástrojům a může provádět akce. Čte e-maily, zapisuje do databáze, volá API, odesílá zprávy, spravuje soubory.
Rozdíl oproti chatbotu: chatbot odpovídá textem. Agent jedná.
A právě tady se bezpečnostní rizika násobí.
Proč jsou agenti rizikovější než chatboti?
Chatbot bez nástrojů:
- Útočník může získat informace z kontextu
- Může obejít pravidla odpovídání
- Dopad: informační únik, reputační škoda
Agent s nástroji:
- Útočník může spustit reálné akce v systémech
- Může exfiltrovat data přes externí volání
- Může modifikovat, mazat nebo vytvářet záznamy
- Dopad: přímá škoda na systémech, datech, financích
Hlavní rizikové kategorie
1. Nadměrná oprávnění (Excessive Permissions)
Agent má přístup k více nástrojům a datům, než potřebuje pro svůj úkol.
Příklad: Agent pro odpovídání na dotazy zákazníků má přístup k celému CRM včetně mazání a editace záznamů - přitom potřebuje jen čtení.
Dopad: Jakýkoli úspěšný útok má mnohonásobně větší blast radius.
Mitigace: Princip nejmenších oprávnění. Každý agent dostane jen minimální sadu nástrojů a oprávnění pro svůj konkrétní úkol.
2. Řetězení akcí bez kontroly (Uncontrolled Chaining)
Agent provede sérii kroků autonomně. Chyba nebo manipulace v jednom kroku se propaguje do dalších.
Příklad: Agent dostane úkol „zpracuj tuto objednávku”. Přečte data z e-mailu (který obsahuje injekční payload) → vytvoří záznam v CRM s chybným obsahem → odešle potvrzení zákazníkovi s manipulovaným textem → aktualizuje sklad.
Dopad: Kaskádové selhání přes více systémů. Obtížná forenzní analýza - kde přesně začal problém?
Mitigace: Checkpoint mechanismy. Kritické akce vyžadují potvrzení. Logování každého kroku.
3. Data exfiltrace přes nástroje
Agent má přístup k interním datům A zároveň k nástrojům s externím dosahem (e-mail, API volání, web requesty).
Příklad: Agent zpracovává interní dokumenty a má přístup k Slacku. Indirect PI v dokumentu instruuje agenta, aby klíčové informace odeslal do specifického kanálu nebo na externí webhook.
Dopad: Únik obchodních tajemství, PII, interních strategií.
Mitigace: Oddělit agenty na „čtecí” (interní data, žádný externí dosah) a „akční” (externí dosah, omezený přístup k datům). Nikdy obojí v jednom.
4. Privilege Escalation
Agent začne s omezenými oprávněními, ale přes manipulaci získá přístup k více.
Příklad: Agent má přístup k nástrojovému API, které umožňuje „spravovat uživatele”. Útočník přes injection instruuje agenta, aby si přidal admin oprávnění nebo vytvořil nový účet.
Dopad: Kompletní kompromitace systému.
Mitigace: Oprávnění agenta musí být hardcodovaná na úrovni infrastruktury, ne na úrovni promptu. Agent nesmí mít možnost měnit vlastní oprávnění.
5. Confused Deputy Problem
Agent provádí akce jménem uživatele, ale je zmanipulován třetí stranou. Systém vidí legitimního uživatele - nevidí, že za akcí stojí útočník.
Příklad: Manažer požádá AI agenta o shrnutí reportu. Report obsahuje indirect PI. Agent na základě injekce odešle e-mail jménem manažera. Z pohledu e-mailového systému e-mail odeslal manažer.
Dopad: Neoprávněné akce s legitimními credentials. Obtížné prokázání, že akci neinicioval uživatel.
Mitigace: Akce s externím dopadem vyžadují explicitní potvrzení uživatelem. Logovat nejen „kdo” ale i „proč” - celý řetězec rozhodnutí.
6. Agentic Loops a nekonečné smyčky
Agent se zacyklí - opakovaně provádí akci, eskaluje chybu nebo generuje nesmyslné výstupy.
Příklad: Agent dostane úkol „vyřeš tento ticket”. Napíše odpověď zákazníkovi. Zákazník neodpoví. Agent pošle follow-up. A další. A další. Nebo: agent narazí na chybu, pokusí se ji opravit, oprava způsobí další chybu, a tak dále.
Dopad: Spam, degradace služeb, neočekávané náklady (API volání, tokeny).
Mitigace: Rate limity, maximální počet kroků per úkol, circuit breaker, kill-switch.
Matice rizik AI agentů
| Faktor | Nízké riziko | Vysoké riziko |
|---|---|---|
| Oprávnění | Jen čtení | Čtení + zápis + mazání + odesílání |
| Dosah | Jen interní systém | Interní + externí (e-mail, API, web) |
| Autonomie | Každý krok schvaluje člověk | Plně autonomní řetězení |
| Data | Veřejná data | PII, obchodní tajemství, credentials |
| Vstupy | Jen od důvěryhodných zdrojů | E-maily, web, dokumenty třetích stran |
| Monitoring | Kompletní logování + alerty | Žádný nebo minimální logging |
Klíčové ponaučení
Bezpečnost AI agenta se neřeší na úrovni promptu. Řeší se na úrovni architektury:
- Jaké nástroje agent má (a které nemá)
- Jaká data vidí (a která ne)
- Kdy smí jednat sám (a kdy musí čekat na člověka)
- Co se děje, když selže (a jak to zjistíme)