Attaques LLM: prompt injection et defenses (GPT, Mistral, agents IA)

Les LLM sont puissants mais ils peuvent etre attaques, surtout quand on leur donne des outils (email, fichiers, CRM). Les risques principaux sont la prompt injection et l'exfiltration de donnees.

1) Prompt injection

Un contenu malveillant (email, PDF, page web) pousse le modele a ignorer les regles.

2) Exfiltration

Le modele peut divulguer des infos si les acces ne sont pas controles.

3) Defenses pratiques

Sandbox execution (pas d'acces systeme libre).
Allowlist outils + validation des actions.
Redaction de donnees sensibles.
Logs, monitoring, tests red-team.

1) Prompt injection

2) Exfiltration

3) Defenses pratiques

Articles similaires