Pentest LLM
Vos applications LLM ouvrent une surface d'attaque que vos tests classiques ne couvrent pas.
Nous testons vos chatbots, assistants, agents et pipelines RAG comme le ferait un attaquant : injection de prompt, contournement des garde-fous, fuite du prompt système et des données de contexte, abus des outils exposés à un agent. Chaque scénario est rejoué manuellement et documenté avec un plan de remédiation priorisé.
Label France Cybersecurity La surface d'attaque LLM
Une application LLM mélange entrées utilisateur, données externes et actions automatisées
Un modèle de langage ne sépare pas l'instruction de la donnée : tout ce qui entre dans son contexte (message utilisateur, document RAG, page web récupérée par un outil) peut être interprété comme une consigne. Dès qu'un assistant peut appeler des fonctions, interroger une base ou déclencher une action, une entrée hostile devient un vecteur d'exécution. Nous évaluons cette surface en suivant l'OWASP Top 10 for LLM Applications, sur votre application réelle et son intégration, pas sur le seul modèle sous-jacent.
Ce que nous testons
Quatre familles de failles propres aux applications LLM
Injection de prompt et contournement des garde-fous
Injection directe via les messages utilisateur et injection indirecte via les sources que le modèle ingère (documents RAG, pages web, e-mails). Nous testons le jailbreak et le détournement des consignes pour faire sortir le modèle de son rôle.
Fuite de données et du prompt système
Extraction du prompt système et de ses règles, des données de contexte ou d'entraînement, et des informations appartenant à d'autres utilisateurs ou tenants. Nous vérifions le cloisonnement entre sessions et l'absence de divulgation de secrets injectés dans le contexte.
Traitement non sécurisé des sorties
Une réponse du modèle insérée sans contrôle dans votre application peut déclencher XSS, SSRF ou exécution de code côté serveur. Nous testons l'enchaînement entre une sortie manipulée et le code qui la consomme (rendu HTML, appel d'API, requête générée).
Agence excessive et empoisonnement de la chaîne RAG
Abus des outils et fonctions exposés à un agent (permissions trop larges, actions non confirmées) et empoisonnement de la base de connaissances pour orienter les réponses ou exfiltrer des données via la chaîne RAG. Nous vérifions les limites réelles de ce qu'un agent compromis peut déclencher.
Questions fréquentes
Ce qu'il faut savoir avant un pentest LLM
En quoi un pentest LLM diffère-t-il d'un scan automatisé ?
Un scanner détecte des schémas connus mais ne raisonne pas sur le contexte applicatif. La plupart des failles LLM tiennent à l'enchaînement entre une entrée manipulée, les données ingérées et les actions que le modèle peut déclencher. Nous construisons et rejouons ces scénarios à la main, en adaptant chaque charge utile au comportement observé de votre application.
Que devons-nous fournir pour définir le périmètre ?
Un accès à l'application et à ses comptes de test, la description des outils et fonctions exposés à l'agent, et la nature des sources alimentant le RAG. L'accès au prompt système et à l'architecture (mode boîte grise) accélère l'analyse, mais nous pouvons aussi travailler en boîte noire selon votre besoin. Le périmètre exact est arrêté lors du cadrage initial.
Quel est le livrable et combien de temps dure la mission ?
Vous recevez un rapport détaillant chaque vulnérabilité, sa preuve de concept rejouable, son impact métier et une remédiation priorisée, suivi d'une réunion de restitution. Un test d'application LLM standard dure en général entre 5 et 10 jours ouvrés selon le nombre de fonctions, d'agents et de sources RAG dans le périmètre.
Autres domaines
Explorez nos autres tests d'intrusion
Pentest Web
Vos applications web et vos API portent une logique métier qu'un scanner automatisé ne sait pas éprouver.
Pentest Mobile
Trouvez les failles de votre application iOS et Android avant qu'un attaquant ne les exploite.
Pentest IoT
Avant la mise sur le marché, sachez ce qu'un attaquant peut faire de votre objet connecté.
Pentest Cloud
Un rôle IAM trop permissif ou un bucket ouvert suffit à compromettre tout votre cloud.
Vue d'ensemble du pentestVotre application IA fait-elle ce que vous croyez, et rien d'autre ?
Décrivez-nous votre application LLM et son périmètre, nous vous proposons un devis adapté sous 48h.