L'injection de prompt, c'est une attaque où l'on glisse des instructions cachées dans un contenu pour détourner une IA de sa consigne d'origine. Par exemple, un texte piégé qui dit au modèle d'ignorer ses règles ou de divulguer des données. C'est un risque majeur des agents qui lisent du contenu externe. S'en protéger passe par des garde-fous et une méfiance par défaut envers les entrées.
Exemple — Une page web piégée tente, par injection de prompt, de faire révéler ses instructions secrètes à un agent qui la lit.