Quelles données sont couvertes par le secret professionnel en France ?

Le secret professionnel au sens de l'article 226-13 du Code pénal couvre les informations confiées à un professionnel dans le cadre de sa fonction : avocats (correspondances, stratégie de défense), médecins (dossier médical, diagnostics), banquiers (données financières, transactions), experts-comptables (données fiscales) et notaires (patrimoine, testaments). Toute divulgation, y compris à un outil IA, est passible de sanctions pénales.

Comment intégrer Presidio dans un workflow n8n ou Python ?

Presidio s'intègre via son API REST (déploiement Docker) ou directement en Python via les packages presidio-analyzer et presidio-anonymizer. Dans un workflow n8n, vous pouvez appeler l'API REST de Presidio via un noeud HTTP Request avant tout appel à un LLM. En Python, quelques lignes suffisent pour analyser et anonymiser un texte avant de l'envoyer à l'API Claude ou OpenAI.

Emvista est-elle certifiée pour la défense et le renseignement ?

Emvista est labellisée hi France par le pôle de compétitivité Aktantis depuis fin 2025. Elle a participé à la conférence CAID (Conference on AI for Defense) et au Forum Innovation Défense organisé par le ministère des Armées. Sa technologie Prevyo est utilisée dans des contextes de défense et de renseignement, avec un hébergement exclusivement français chez Scaleway.

Quelles sont les sanctions CNIL en cas de défaut d'anonymisation ?

Les sanctions RGPD pour défaut de protection des données peuvent atteindre 20 millions d'euros ou 4 % du chiffre d'affaires annuel mondial. En 2025, la CNIL a prononcé plus de 40 sanctions liées à la protection des données. Depuis 2026, elle contrôle également l'authentification multifacteur pour les organismes gérant des bases de plus de 2 millions de personnes.

Anonymiser données RGPD et secret pro

Q: Peut-on utiliser ChatGPT ou Claude avec des données couvertes par le secret professionnel ?

Pas directement. Il faut anonymiser les données en amont avec un outil local comme Presidio ou souverain comme Emvista avant de les soumettre à un LLM cloud. L'alternative est d'utiliser un LLM on-premise comme Mistral ou Llama déployé sur votre propre infrastructure.

Q: Microsoft Presidio fonctionne-t-il pour du texte en français ?

Oui, via les modèles spaCy pour le français. Pour de meilleurs résultats, remplacez le moteur NER par défaut par CamemBERT fine-tuné. Presidio fonctionne 100 % en local, aucune donnée n'est envoyée à Microsoft.

Q: Quel est le coût d'une solution d'anonymisation conforme ?

De 0 euro avec Presidio open source à plusieurs milliers d'euros mensuels pour les solutions SaaS souveraines comme Emvista ou Datanaos. Pour un cabinet d'avocats de taille moyenne, Presidio + CamemBERT en local offre le meilleur rapport coût-efficacité.

Q: L'anonymisation réduit-elle la qualité des données pour l'IA ?

Oui, par nature. La CNIL recommande depuis 2025 d'utiliser des données synthétiques générées par des GAN pour l'entraînement IA plutôt que des données réelles anonymisées quand c'est possible. L'anonymisation réversible offre un compromis pour les traitements ponctuels.

Q: Le Cloud Act s'applique-t-il aux données hébergées en France par un éditeur américain ?

Oui. Le Cloud Act permet aux autorités US de réquisitionner des données détenues par une entreprise américaine quel que soit le lieu de stockage. Seul un hébergeur de droit français comme Scaleway, OVH ou Outscale échappe à cette juridiction extraterritoriale.

En 2026, toute entreprise qui utilise l’intelligence artificielle pour traiter des données clients, des dossiers juridiques ou des informations médicales se heurte à un double impératif : le RGPD, qui impose des règles strictes sur le traitement des données personnelles, et le secret professionnel — médical, juridique ou bancaire — qui ajoute une couche de contrainte supplémentaire. La CNIL recommande désormais d’anonymiser les données avant de les confier à tout modèle d’IA, et l’AI Act européen renforce cette exigence dès son entrée en application. Bonne nouvelle : des solutions françaises souveraines et des outils open source permettent d’anonymiser efficacement sans faire transiter vos données par des serveurs américains soumis au Cloud Act. Ce guide détaille chaque option, leurs forces, leurs limites et la marche à suivre pour protéger vos données en toute conformité.

Pourquoi l’anonymisation est devenue un impératif stratégique en 2026

L’essor de l’IA générative a multiplié les situations où des données sensibles sont envoyées à des modèles hébergés dans le cloud. Comprendre pourquoi l’anonymisation n’est plus une option mais une nécessité opérationnelle et juridique est la première étape pour protéger votre entreprise et vos clients.

Les risques sont tangibles. La CNIL a prononcé plus de 40 sanctions en 2025 pour défaut de protection des données, dont plusieurs concernaient l’envoi de données personnelles à des API d’IA sans anonymisation préalable. L’exemple historique de Netflix, où 68 % des utilisateurs d’une base prétendument anonymisée ont été réidentifiés par simple croisement de données, illustre les conséquences d’une anonymisation superficielle. En 2026, avec la puissance des modèles de langage capables de recouper des informations fragmentées, le risque de réidentification est démultiplié.

Le secret professionnel ajoute une obligation qui va au-delà du RGPD. Un avocat qui soumet un dossier client à ChatGPT sans anonymisation s’expose à des poursuites disciplinaires et pénales au titre de l’article 226-13 du Code pénal. Un médecin qui utilise une IA cloud pour analyser des comptes rendus médicaux viole potentiellement le secret médical. Un banquier qui fait traiter des données de transactions par un LLM externe enfreint le secret bancaire. Ces contraintes ne sont pas théoriques — elles sont au cœur des préoccupations des professions réglementées, comme le détaille notre article sur le secret professionnel de l’avocat face à l’IA en 2026.

L’AI Act européen, dont les premières obligations sont entrées en vigueur en 2025, renforce encore la pression. Les systèmes d’IA à haut risque — santé, justice, emploi, crédit — doivent démontrer que leurs données d’entraînement et de traitement sont conformes. La documentation du processus d’anonymisation devient une exigence réglementaire vérifiable, avec des sanctions pouvant atteindre 35 millions d’euros ou 7 % du chiffre d’affaires mondial.

Réglementation	Portée	Exigence d’anonymisation	Sanction maximale
RGPD (art. 5, 25, 32)	Toutes données personnelles UE	Anonymisation ou pseudonymisation avant traitement secondaire	4 % du CA mondial
AI Act (2024-2026)	Systèmes IA à haut risque	Données conformes, documentation exigée	35 M€ ou 7 % du CA
Secret professionnel (art. 226-13 CP)	Avocats, médecins, banquiers	Interdiction de divulgation, même à un outil IA	1 an de prison + 15 000 €
Cloud Act (US, 2018)	Données détenues par entreprises US	Accès possible par autorités US, même en UE	—

Secret professionnel, RGPD et Cloud Act : le cadre juridique à connaître

Avant de choisir un outil, il faut maîtriser le cadre réglementaire qui détermine vos obligations. Trois textes majeurs se superposent — le RGPD, le secret professionnel et le Cloud Act — et leurs interactions créent des zones de risque que beaucoup d’entreprises sous-estiment.

La CNIL rappelle dans ses recommandations 2025-2026 que l’anonymisation permet de sortir les données du périmètre du RGPD : une fois anonymisées de manière irréversible, ce ne sont plus des données personnelles. La pseudonymisation — qui consiste à remplacer un nom par un identifiant — reste en revanche soumise au RGPD car elle est réversible avec la clé de correspondance. Trois critères définissent une anonymisation valide selon la CNIL : l’impossibilité d’individualisation (isoler un individu), l’impossibilité de corrélation (relier des données entre elles) et l’impossibilité d’inférence (déduire de nouvelles informations sur un individu identifié).

Le Cloud Act américain constitue le principal risque structurel pour les professions soumises au secret. Toute donnée hébergée par une entreprise de droit américain — Amazon (AWS), Microsoft (Azure), Google (GCP) — peut être réquisitionnée par les autorités américaines, même si le datacenter physique est situé en Europe. L’arrêt Schrems II de la Cour de Justice de l’UE a invalidé le Privacy Shield et confirmé cette vulnérabilité. Pour un cabinet d’avocats ou un établissement de santé, utiliser une API IA hébergée aux États-Unis sans anonymisation préalable revient à prendre un risque juridique majeur. Notre analyse du secret professionnel et militaire français face aux IA américaines détaille ces enjeux en profondeur, y compris les alternatives souveraines disponibles.

Concrètement, deux stratégies s’offrent aux entreprises. La première consiste à utiliser des solutions 100 % souveraines — hébergement français, éditeur français, aucun transfert hors UE. La seconde, souvent plus pragmatique, consiste à anonymiser les données en local avant de les envoyer à n’importe quel service cloud. Cette approche permet de profiter de la puissance des meilleurs LLM du marché (Claude, GPT, Gemini) tout en respectant ses obligations. L’écosystème français de l’IA souveraine, soutenu par le plan France 2030 et les pépites IA françaises comme Mistral, offre désormais des alternatives crédibles pour les cas où même l’anonymisation pré-envoi ne suffit pas.

Approche	Avantages	Limites	Pour qui
Solution 100 % souveraine	Aucun transfert hors UE, conformité maximale	Coût plus élevé, écosystème plus restreint	Défense, santé, cabinets juridiques sensibles
Anonymisation locale + cloud	Accès aux meilleurs LLM, coût maîtrisé	Nécessite un pipeline technique	PME, ESN, professions libérales
LLM on-premise (Mistral, Llama)	Zéro donnée sortante, contrôle total	Infrastructure GPU requise, performances moindres	Grandes entreprises, OIV

Les solutions françaises souveraines d’anonymisation

L’écosystème français d’anonymisation s’est considérablement renforcé entre 2024 et 2026. Plusieurs éditeurs proposent des solutions matures, déployables en SaaS souverain ou on-premise, qui répondent aux exigences les plus strictes du secret professionnel.

Emvista / Prevyo est probablement la solution française la plus aboutie pour l’anonymisation de texte en contexte de secret professionnel. Basée à Montpellier, cette startup fondée en 2018 développe une technologie NLP 100 % propriétaire — aucune dépendance à un modèle américain. Son module d’anonymisation détecte et remplace les entités nommées (personnes, organisations, lieux, dates) avec une option d’anonymisation réversible (pseudonymisation sécurisée) ou irréversible. Labellisée hi France fin 2025 par le pôle de compétitivité Aktantis, intégrée au Mapping 2026 des startups IA de France Digitale, et utilisée dans des contextes défense et renseignement (participation à la conférence CAID et au Forum Innovation Défense), Emvista héberge ses traitements chez Scaleway — datacenters exclusivement français. Pour les cabinets d’avocats, les professions médicales et les acteurs de la défense, c’est la référence. L’initiative France 2030 et les Campus IA contribuent à renforcer cet écosystème souverain.

Datanaos — Data Anonymizer se positionne sur l’anonymisation de données structurées et semi-structurées. La plateforme supporte les bases SQL (PostgreSQL, SQL Server, MySQL, Oracle), NoSQL (MongoDB, Elasticsearch, Redis) et les fichiers plats (CSV, JSON, XML). Ses points forts : une détection automatique des données personnelles par IA, des techniques avancées de k-anonymat, l-diversité et t-proximité, et un score d’inférence unique qui évalue quantitativement le risque résiduel de réidentification après traitement. Disponible en SaaS et on-premise, Datanaos est particulièrement pertinent pour les entreprises qui doivent anonymiser des environnements de test, des exports de production ou des jeux de données destinés à l’entraînement de modèles IA.

DOT Anonymizer (Arcad Software) couvre l’anonymisation de bases de données et de fichiers texte avec une spécificité importante : la cohérence inter-sources. Quand le même individu apparaît dans plusieurs systèmes (CRM, ERP, tickets support), DOT Anonymizer garantit que l’anonymisation reste cohérente à travers toutes les sources — un point critique pour les tests d’intégration. La solution peut s’interfacer avec des LLM on-premise comme Mistral pour enrichir ses traitements. Utilisée notamment par l’URSSAF, elle est orientée données de test et environnements de développement.

AgiloText occupe un positionnement unique dans l’écosystème : c’est une couche d’anonymisation conçue spécifiquement comme proxy entre vos données et un LLM. L’idée est de s’insérer de manière transparente dans le flux de travail — anonymiser à la volée avant l’envoi à ChatGPT ou Claude, puis réinjecter les identifiants originaux dans la réponse. Un middleware de confidentialité pour l’IA générative, idéal pour les équipes qui veulent utiliser les meilleurs modèles sans compromettre la confidentialité. Pour les entreprises qui cherchent à déployer des agents IA tout en respectant le secret professionnel, cette approche proxy représente un excellent compromis.

Les outils open source pour une anonymisation 100 % locale

Pour les entreprises qui veulent garder un contrôle total sur leurs données — ou qui n’ont pas le budget pour une solution SaaS — les outils open source offrent des capacités remarquables. L’avantage décisif : aucune donnée ne quitte jamais votre infrastructure.

Microsoft Presidio est le standard open source de référence pour la détection et l’anonymisation de PII (Personally Identifiable Information). Ce framework Python, publié sous licence MIT, identifie plus de 50 types d’entités sensibles — noms, numéros de carte bancaire, adresses, numéros de sécurité sociale, IBAN, portefeuilles crypto, numéros de téléphone, données financières — en combinant NER (Named Entity Recognition), expressions régulières, règles métier et checksums avec prise en compte du contexte. Presidio fonctionne en local via Python ou Docker, supporte le traitement de texte et d’images (OCR intégré via Tesseract), et s’étend facilement avec des reconnaisseurs personnalisés. Son architecture est modulaire : l’Analyzer détecte les entités, l’Anonymizer les masque, remplace ou supprime selon des règles configurables. Un article académique de novembre 2025 publié dans l’International Journal of AI le positionne comme solution de référence pour la conformité RGPD et HIPAA en contexte d’entreprise.

Presidio + CamemBERT constitue la combinaison la plus robuste en open source pour le traitement du texte français. CamemBERT est un modèle de langue français entraîné sur 138 Go de texte français par l’INRIA et Facebook Research, dont les performances en NER surpassent largement les modèles spaCy génériques. En remplaçant le moteur NER par défaut de Presidio par un CamemBERT fine-tuné sur du NER français, vous obtenez une détection beaucoup plus précise des noms de personnes, organisations et lieux dans du texte français — un gain critique pour les dossiers juridiques ou médicaux. La mise en place demande un peu plus de configuration technique, mais le résultat est un pipeline d’anonymisation de qualité professionnelle, entièrement gratuit et local.

spaCy + règles custom offre une approche plus artisanale mais parfaitement fonctionnelle. Le modèle français de spaCy (fr_core_news_lg) combiné à des expressions régulières personnalisées pour les patterns spécifiques à votre domaine — numéros de dossier, IBAN français, numéros de sécurité sociale, identifiants internes — permet de construire un pipeline d’anonymisation sur mesure. Moins clé en main que Presidio, mais plus flexible pour des besoins très spécifiques ou des formats de données inhabituels.

Pour les entreprises soucieuses de la sécurité de leurs API IA, l’anonymisation en amont est la première ligne de défense. Quel que soit l’outil choisi, le principe reste le même : les données sensibles ne doivent jamais quitter votre périmètre sous leur forme originale.

Outil open source	Langage	Support français	Types de données	Facilité
Presidio	Python / Docker	Via spaCy fr	Texte, images, données structurées	★★★☆
Presidio + CamemBERT	Python	Excellent (NER natif)	Texte français	★★☆☆
spaCy + règles custom	Python	Bon (fr_core_news_lg)	Texte	★★☆☆

Comparatif complet des solutions d’anonymisation en 2026

Choisir la bonne solution d’anonymisation dépend de votre contexte : type de données, contraintes réglementaires, budget et compétences techniques disponibles. Ce comparatif synthétique permet d’identifier rapidement l’outil le plus adapté à votre situation.

Critère	Emvista	Datanaos	Presidio	Presidio + CamemBERT	AgiloText
Type de données	Texte (NLP)	BDD, fichiers	Texte, images	Texte FR	Texte (pré-LLM)
Hébergement	FR souverain (Scaleway)	FR ou on-prem	100 % local	100 % local	SaaS
Prix	Sur devis	Sur devis	Gratuit (MIT)	Gratuit (MIT)	Sur devis
Anonymisation réversible	Oui	Oui	Configurable	Configurable	Oui
Secret professionnel	Adapté	Adapté	Adapté (local)	Adapté (local)	Partiel (SaaS)
Facilité déploiement	★★★★	★★★★	★★★	★★	★★★★★

Ce qu’il faut éviter en contexte de secret professionnel. Les API cloud américaines de détection de PII — Google Cloud DLP, AWS Comprehend, Azure Text Analytics — posent un problème structurel : les données transitent par des serveurs soumis au Cloud Act. Même si ces fournisseurs garantissent le chiffrement en transit et au repos, l’accès juridique américain subsiste. La CNIL recommande explicitement d’anonymiser les données avant de les confier à un hébergeur non-souverain. Pour les avocats qui veulent tirer parti de l’IA pour leur visibilité, cette distinction entre outils souverains et non-souverains est déterminante.

Service à éviter	Éditeur	Problème	Alternative souveraine
Google Cloud DLP	Google (US)	Cloud Act, transfert hors UE	Emvista ou Presidio local
AWS Comprehend	Amazon (US)	Cloud Act, Schrems II	Datanaos ou Presidio local
Azure Text Analytics	Microsoft (US)	Cloud Act	Presidio local (même éditeur)

Construire sa stratégie d’anonymisation : feuille de route opérationnelle

Adopter un outil ne suffit pas — il faut l’inscrire dans une stratégie globale de gouvernance des données. Voici les cinq étapes pour construire un processus d’anonymisation robuste, conforme et pérenne en 2026.

Première étape : cartographier ses données sensibles. Identifiez tous les flux où des données personnelles ou couvertes par le secret professionnel sont traitées par un outil IA. CRM, e-mails, dossiers clients, comptes rendus médicaux, documents juridiques, exports comptables — chaque flux doit être inventorié et classifié selon sa sensibilité. Notre Diagnostic IA personnel permet d’identifier rapidement les points de friction et les usages à risque dans votre organisation.

Deuxième étape : choisir entre anonymisation et pseudonymisation. L’anonymisation irréversible sort les données du périmètre RGPD mais réduit leur utilité analytique — des données totalement anonymisées perdent les patterns nécessaires à certaines analyses. La pseudonymisation préserve ces patterns statistiques mais reste soumise au RGPD. Le choix dépend de l’usage visé : données d’entraînement IA → privilégiez l’anonymisation ou les données synthétiques (recommandation CNIL 2025) ; environnements de test avec intégrité référentielle → pseudonymisation (Datanaos, DOT Anonymizer) ; envoi ponctuel à un LLM → anonymisation réversible de type Emvista ou AgiloText.

Troisième étape : sélectionner l’outil adapté à son contexte. Cabinet d’avocats traitant du texte confidentiel → Emvista pour le SaaS souverain ou Presidio + CamemBERT pour le gratuit et local. Entreprise anonymisant des bases de données de production → Datanaos ou DOT Anonymizer. Équipe technique construisant un pipeline sur mesure → Presidio + spaCy/CamemBERT en Docker. Pour les professions réglementées comme les avocats, le critère déterminant est que les données ne quittent jamais le périmètre contrôlé par le professionnel.

Quatrième étape : intégrer dans le workflow IA existant. L’anonymisation doit être automatisée, pas manuelle. Intégrez Presidio comme étape dans votre pipeline Python ou n8n avant tout appel API. Utilisez AgiloText comme proxy transparent devant votre LLM favori. Ou configurez Emvista en mode API REST intégrée à votre système d’information. L’objectif : que l’anonymisation soit invisible pour l’utilisateur final, tout en étant systématique. C’est la même philosophie que nous appliquons dans notre propre stratégie SEO et GEO automatisée — automatiser ce qui peut l’être pour se concentrer sur la valeur ajoutée humaine.

Cinquième étape : documenter et auditer régulièrement. Le RGPD exige une documentation du processus d’anonymisation. Conservez les logs de traitement, les configurations utilisées, et réalisez des tests réguliers de résistance à la réidentification. Le score d’inférence proposé par Datanaos est un bon indicateur quantitatif du risque résiduel. La CNIL vérifie ces éléments lors de ses contrôles — et depuis 2026, elle contrôle aussi systématiquement l’authentification multifacteur pour les organismes disposant de bases de données de plus de 2 millions de personnes. Les entreprises qui veulent aller plus loin dans la protection de leurs données peuvent consulter notre page politique RGPD pour comprendre notre propre démarche de conformité.

Questions fréquentes sur l’anonymisation des données, le RGPD et le secret professionnel

Quelle est la différence entre anonymisation et pseudonymisation ?

L’anonymisation rend impossible l’identification d’une personne de manière irréversible — les données traitées sortent du périmètre d’application du RGPD. La pseudonymisation remplace les identifiants directs (nom, prénom) par des alias, mais reste réversible avec la clé de correspondance — les données restent donc soumises au RGPD. La CNIL définit trois critères pour une anonymisation valide : impossibilité d’individualisation, impossibilité de corrélation et impossibilité d’inférence.

Peut-on utiliser ChatGPT ou Claude avec des données couvertes par le secret professionnel ?

Pas directement sous leur forme brute, car les données transitent par des serveurs cloud souvent hébergés aux États-Unis et soumis au Cloud Act. Il faut anonymiser les données en amont avec un outil local comme Presidio ou souverain comme Emvista avant de les soumettre à un LLM. L’alternative consiste à utiliser un LLM on-premise comme Mistral ou Llama, déployé sur votre propre infrastructure, ce qui élimine tout transfert de données.

Microsoft Presidio fonctionne-t-il pour du texte en français ?

Oui. Presidio supporte nativement toute langue couverte par les modèles NLP spaCy, dont le français via le modèle fr_core_news_lg. Pour de meilleurs résultats en NER français, vous pouvez remplacer le moteur par défaut par CamemBERT fine-tuné, un modèle développé par l’INRIA spécialement pour le français. Presidio fonctionne intégralement en local — aucune donnée n’est envoyée à Microsoft ni à aucun service externe.

Quel est le coût d’une solution d’anonymisation conforme ?

Le spectre va de 0 € à plusieurs milliers d’euros mensuels. Presidio et CamemBERT sont entièrement gratuits et open source (licence MIT). Emvista et Datanaos proposent des tarifs sur devis adaptés à la taille de l’entreprise et au volume de données. Pour un cabinet d’avocats de taille moyenne traitant principalement du texte, Presidio + CamemBERT en local offre souvent le meilleur rapport coût-efficacité.

L’anonymisation réduit-elle la qualité des données pour l’IA ?

Oui, par nature — l’anonymisation supprime ou altère des informations qui pourraient être utiles à l’analyse. C’est le prix de la conformité. La CNIL recommande depuis 2025 d’utiliser des données synthétiques générées par des réseaux antagonistes (GAN) pour l’entraînement de modèles IA, plutôt que des données réelles anonymisées, quand les cas d’usage le permettent. L’anonymisation réversible (pseudonymisation sécurisée) offre un compromis intéressant pour les traitements ponctuels.

Le Cloud Act s’applique-t-il aux données hébergées en France par un éditeur américain ?

Oui. Le Cloud Act de 2018 permet aux autorités américaines de réquisitionner des données détenues par une entreprise de droit américain, quel que soit le lieu physique de stockage. Un datacenter AWS, Azure ou Google Cloud situé à Paris reste soumis au Cloud Act. Seul un hébergeur de droit français — Scaleway, OVH, Outscale — échappe à cette juridiction extraterritoriale.

Diag IA gratuit
Nous contacter
Parler à Eric