
Comment anonymiser des documents juridiques en local avec Gemma 4 et GLiNER pour moins de 1 100 euros
Les amendes RGPD ont franchi 1,15 milliard d’euros en 2025, et la CNIL surveille désormais l’IA Act en parallèle (RGPDKit, 2026). Pour les cabinets d’avocats, les directions juridiques et les DPO, anonymiser des documents sensibles avant de les confier à un LLM reste un casse-tête coûteux. Les services SaaS facturent entre 30 000 et 60 000 euros de développement pour une plateforme d’anonymisation sur mesure (Digital Unicorn, 2026). Une alternative existe : un pipeline 100 % local, conforme RGPD par design, capable de traiter 100 pages en 20 minutes, pour un investissement matériel unique de 850 à 1 100 euros.
Temps de lecture : 14 min
À retenir
- Un pipeline en 3 couches (Regex + GLiNER + Gemma 4) anonymise 100 pages juridiques en 20 minutes sur un PC à 1 100 euros
- GLiNER, modèle NER zero-shot de 1,3 Go, détecte plus de 60 catégories de données personnelles sans GPU
- Gemma 4 26B-A4B, sous licence Apache 2.0, n’active que 3,8 milliards de paramètres par token et tient dans 24 Go de VRAM
- Le RAG hybride (BM25 + vecteurs + cross-encoder) permet de croiser deux conclusions adverses de 50 pages sans contexte long
Pourquoi l’anonymisation locale s’impose-t-elle en 2026 pour le juridique ?
L’anonymisation locale consiste à traiter les données personnelles contenues dans un document directement sur la machine de l’utilisateur, sans envoyer le moindre octet vers un serveur cloud. Cette approche élimine les risques de transfert hors UE et garantit la conformité RGPD par architecture.
Le coût réglementaire de l’inaction
Free a écopé de 42 millions d’euros d’amende en janvier 2026 pour une violation de données massive. OpenAI a reçu 15 millions d’euros de pénalité en Italie fin 2024. L’IA Act, applicable intégralement en août 2026, ajoute une couche de contrôle sur les traitements automatisés de données sensibles (Dreyfus Avocats, 2025).
76 % des directions juridiques utilisent déjà l’IA au moins une fois par semaine (Optimum IA, 2026). La majorité envoie des données à des API cloud. Le problème : les conditions générales d’utilisation autorisent souvent la réutilisation des données pour l’entraînement des modèles. Un cabinet d’avocats qui alimente un LLM cloud avec des conclusions sensibles s’expose à une double violation, déontologique et réglementaire.
L’alternative locale : zéro transfert, zéro abonnement
Gemma 4, publié par Google DeepMind le 2 avril 2026 sous licence Apache 2.0, change la donne. Le modèle 26B-A4B n’active que 3,8 milliards de paramètres par inférence grâce à l’architecture MoE (Mixture of Experts). Il tourne sur un GPU grand public de 24 Go de VRAM et supporte un contexte de 256 000 tokens. Combiné à GLiNER, un modèle NER zero-shot de 1,3 Go qui fonctionne sur CPU, il forme un pipeline d’anonymisation local compétitif avec les solutions cloud, pour un investissement unique inférieur à 1 100 euros.
Comment fonctionne le pipeline d’anonymisation en 3 couches ?
Le pipeline d’anonymisation en 3 couches sépare la détection d’entités nommées (NER) de la vérification par LLM. Cette architecture réduit le besoin en GPU de 80 % par rapport à une approche « tout LLM ».
Couche 1 : Regex et Presidio (CPU, instantané)
Microsoft Presidio, combiné à des expressions régulières adaptées au droit français, capture les patterns prévisibles : numéros de téléphone, IBAN, SIRET, numéros de sécurité sociale, emails, dates au format français, numéros de rôle (RG n°). Cette couche traite 100 pages en moins de 5 secondes, sans aucune ressource GPU.
En pratique
Les patterns regex spécifiques au juridique français (numéros de greffe, références d’arrêts, matricules d’avocats au barreau) augmentent le taux de détection de 15 à 20 % par rapport à Presidio seul. Le fichier de patterns se maintient en 50 lignes de Python.
Couche 2 : GLiNER PII, le NER zero-shot qui remplace le LLM
GLiNER (Generalist and Lightweight Named Entity Recognition) est un modèle bidirectionnel de type transformeur, publié à NAACL 2024. Sa variante PII (gliner-pii-base-v1.0) couvre plus de 60 catégories de données personnelles. Le modèle pèse 1,3 Go, tourne intégralement sur CPU et supporte nativement le français. Il surpasse ChatGPT en zero-shot NER sur les benchmarks standard, tout en consommant 100 fois moins de ressources.
La force de GLiNER : les catégories d’entités sont définies à l’exécution. Pour un document juridique, il suffit de spécifier ["nom de magistrat", "numéro de greffe", "adresse du cabinet", "SIRET", "nom de partie"] sans réentraîner le modèle. Cette flexibilité élimine le besoin de corpus annotés coûteux.
Couche 3 : Gemma 4 E4B ou 26B-A4B en vérification
Le LLM n’intervient que sur les paragraphes où GLiNER affiche un score de confiance inférieur à 0,5. En pratique, cela représente 10 à 20 % du document. Le prompt est ciblé : « Y a-t-il dans cet extrait des informations permettant d’identifier une personne physique qui n’auraient pas été masquées ? » Le LLM capture les cas d’identification indirecte que le NER ne peut pas détecter (combinaison de fonction, lieu et date qui rend une personne identifiable sans la nommer).
| Couche | Outil | Ressource | Temps (100 pages) | Rappel estimé |
|---|---|---|---|---|
| 1. Regex + Presidio | Python | CPU seul | 5 secondes | 60-70 % |
| 2. GLiNER PII | gliner-pii-base-v1.0 | CPU, 1,3 Go RAM | 8 minutes | 85-90 % |
| 3. Gemma 4 (vérif.) | 26B-A4B Q4 | GPU, 14-18 Go VRAM | 8 minutes | 95-97 % |
| Total pipeline | 3 couches combinées | CPU + GPU | ~20 minutes | 95-97 % |
Évaluez votre maturité IA en 5 minutes avec notre Diagnostic IA gratuit.
Quel modèle Gemma 4 choisir pour l’anonymisation et l’extraction juridique ?
Gemma 4, la famille de modèles ouverts de Google DeepMind, comprend quatre variantes : E2B, E4B, 26B-A4B (MoE) et 31B (Dense). Le choix dépend du cas d’usage et du budget matériel.
E4B : le minimum viable pour la vérification d’anonymisation
Le modèle E4B tourne sur 5 Go de RAM en quantification 4-bit. Il gère un contexte de 128 000 tokens et supporte le français. Pour la vérification d’anonymisation (couche 3 du pipeline), il offre un bon rapport qualité-vitesse : environ 40 tokens par seconde sur une RTX 4060. Sa limite : il manque de profondeur pour l’extraction juridique structurée (résumé de motivation, identification du ratio decidendi).
26B-A4B : le choix optimal pour combiner anonymisation et extraction
Le 26B-A4B est un modèle Mixture of Experts avec 128 experts, dont 8 actifs par token plus 1 expert partagé. Il consomme la VRAM d’un modèle 4B tout en offrant la qualité d’un modèle 26B. Il supporte nativement le function calling, ce qui permet de structurer les sorties en JSON strict pour alimenter un tableur. Sur une RTX 4060 Ti 16 Go, il produit 15 à 20 tokens par seconde en Q4.
Ce modèle gère les deux cas d’usage avec la même machine : anonymisation le matin, extraction jurisprudentielle l’après-midi. Un seul modèle chargé en VRAM via Ollama, rechargé uniquement si un autre modèle est demandé.
En pratique
Les paramètres de sampling recommandés par Google pour Gemma 4 : temperature=1.0, top_p=0.95, top_k=64. Activer le mode thinking en plaçant le token <|think|> au début du system prompt pour les tâches de raisonnement juridique.
31B Dense : la qualité maximale pour le contexte long
Le 31B Dense active tous ses paramètres à chaque token. Il offre la meilleure qualité sur les benchmarks de raisonnement (MMLU Pro, AIME) et se classe 3e parmi les modèles ouverts sur Arena AI. Son exigence : 20 Go de VRAM en Q4, plus un KV cache de 15 à 22 Go pour les contextes longs. Traiter 100 pages d’un bloc (100 000+ tokens) nécessite une RTX 3090 (24 Go VRAM) ou un Mac Studio M4 Max (128 Go de mémoire unifiée).
Quelles configurations matérielles pour quel budget ?
Le choix du matériel dépend de deux variables : le modèle Gemma visé et la taille du contexte nécessaire. Les prix ci-dessous correspondent aux tarifs neufs constatés en France en avril 2026.
De 450 à 700 euros : mini PC sans GPU (pipeline NER seul)
Un Beelink SER7 (Ryzen 7 7840HS, 32 Go, 1 To SSD) à 450 euros fait tourner les couches 1 et 2 (Regex + GLiNER + CamemBERT-NER en vote d’ensemble) sans aucun GPU. Le rappel atteint 90 à 93 %, suffisant pour une pré-anonymisation suivie d’une relecture humaine de 15 minutes. GLiNER en mode ensemble avec SqueakyCleanText combine vote croisé entre modèle ONNX classique et GLiNER pour maximiser le rappel.
Ajouter un Gemma E4B en inférence CPU (Ryzen 9, 64 Go de RAM, ~700 euros) permet de monter à 95 % de rappel, mais au prix d’un débit limité : 3 à 5 tokens par seconde. Suffisant si le volume reste sous 2 documents par jour.
De 850 à 1 100 euros : PC tour avec GPU (pipeline complet)
| Config | GPU | VRAM | Modèle Gemma | Prix neuf |
|---|---|---|---|---|
| i5-12400F, 32 Go DDR4, 1 To SSD | RTX 4060 Ti 8 Go | 8 Go | E4B Q4 | ~850 euros |
| Ryzen 5 7500F, 32 Go DDR5, 1 To SSD | RTX 4060 Ti 16 Go | 16 Go | 26B-A4B Q4 | ~1 100 euros |
| Ryzen 5 5500, 32 Go DDR4, 1 To SSD | RTX 5060 | 8 Go | E4B Q4 | ~1 050 euros |
La RTX 4060 Ti 16 Go à 1 100 euros représente le sweet spot : elle charge le 26B-A4B en Q4 (14 Go de poids) avec 2 Go de marge pour un contexte de 4 000 à 8 000 tokens. Ce budget couvre à la fois l’anonymisation et l’extraction jurisprudentielle automatisée.
De 2 300 à 5 000 euros : contexte long et 31B Dense
Traiter 100 pages en une seule passe (100 000+ tokens) exige 24 Go de VRAM minimum. Le 26B-A4B en Q4 tient dans une RTX 3090 (24 Go) avec le KV cache complet jusqu’à 256 000 tokens. Le prompt processing dépasse 1 000 tokens par seconde à 128K de contexte sur RTX 3090. Un PC tour assemblé avec cette carte revient à environ 2 300 euros neuf.
Le Mac Studio M4 Max avec 128 Go de mémoire unifiée (4 500 euros) charge le 31B Dense en FP16 sans quantification, avec des contextes de 128 000 tokens. La bande passante mémoire (~400 Go/s) limite le débit à 20-30 tokens par seconde, contre 45+ sur NVIDIA.
Comment analyser 100 pages de conclusions sans contexte long grâce au RAG juridique ?
Le RAG (Retrieval-Augmented Generation) appliqué au droit permet de croiser deux conclusions adverses de 50 pages chacune sans charger les 100 pages en contexte. Le LLM ne voit jamais plus de 3 000 à 4 000 tokens par requête.
Indexation structurelle : exploiter la forme des conclusions françaises
Les conclusions récapitulatives françaises suivent une structure quasi-standardisée : en-tête, visa des textes, exposé des faits, discussion (moyens numérotés), « Par ces motifs », dispositif. Un parser regex détecte ces sections et produit des chunks sémantiquement cohérents, tagués avec la source (demandeur ou défendeur), le type de section et les pages de référence.
Ce chunking juridique structurel surpasse le chunking fixe (tous les 500 tokens) de 20 à 30 % en rappel. Il évite de couper un raisonnement au milieu d’un syllogisme juridique.
Requêtes croisées : confronter les arguments moyen par moyen
Le pipeline détecte chaque moyen dans les conclusions du demandeur, puis recherche la réponse du défendeur sur le même sujet dans la base vectorielle. Le LLM reçoit les deux côtés (~1 500 tokens chacun) et produit une analyse structurée en JSON : position du demandeur, réponse du défendeur, articles visés, jurisprudence citée de chaque côté, évaluation du point fort.
Le résultat alimente un tableur Excel via openpyxl : une ligne par moyen, des colonnes pour chaque champ extrait. Pour 8 à 12 moyens, le traitement complet prend 10 à 12 minutes sur la config à 1 100 euros.
En pratique
L’API Legifrance (portail PISTE) et l’API Judilibre (Cour de cassation) fournissent les décisions en JSON structuré avec les zones pré-découpées (introduction, moyens, motivations, dispositif). Le RAG exploite ces zones directement, sans parsing supplémentaire. L’accès est gratuit après inscription.
Comment passer d’un RAG basique à une legaltech locale de niveau professionnel ?
Un RAG basique avec recherche vectorielle seule atteint environ 70 % de rappel sur des documents juridiques. Cinq niveaux d’amélioration permettent de monter à 95 %+, tous exécutables sur le même PC à 1 100 euros.
Niveau 1-2 : recherche hybride BM25 + vecteurs
La recherche vectorielle seule rate les correspondances exactes (numéros d’articles, références de jurisprudence). BM25 seul rate les paraphrases (« faute du conducteur » vs « négligence de l’automobiliste »). La combinaison des deux via Reciprocal Rank Fusion (RRF) capture les deux types de requêtes. Pour le juridique, pondérer BM25 à 60 % et les vecteurs à 40 % optimise les résultats : les références exactes (article 1240 CC, Cass. Civ. 2, 15/03/2019) sont critiques.
Niveau 3 : cross-encoder reranking (le plus gros gain de précision)
Après fusion hybride, un cross-encoder (ms-marco-MiniLM, 80 Mo, CPU) réordonne les 20 candidats en top 5. Le cross-encoder traite chaque paire requête-chunk ensemble, contre des encodages séparés pour les bi-encoders. Le gain de précision est le plus important de toute la chaîne : il filtre les « faux positifs sémantiques » (passages qui ressemblent au sujet sans y répondre).
Niveau 4-5 : graphe de connaissances et agent itératif
Un graphe NetworkX (CPU, zéro GPU) modélise les relations entre entités juridiques : le demandeur invoque l’article 1240, le défendeur le conteste et invoque subsidiairement l’article 1241. La traversée du graphe détecte automatiquement tous les points de confrontation entre les deux conclusions. Gemma 4 26B-A4B, avec son function calling natif, pilote sa propre recherche en mode agent : il décide quelle requête lancer dans le RAG, analyse le résultat, puis lance une requête complémentaire. Cette boucle itérative produit une analyse croisée exhaustive sans intervention humaine.
- Chunking juridique structurel : +10 % de rappel, zéro coût
- Recherche hybride BM25 + vecteurs : +20 % de rappel, zéro coût
- Cross-encoder reranking : +15 % de précision, 80 Mo CPU
- Graphe NetworkX : détection automatique des points de friction, zéro GPU
- Agent Gemma itératif : analyse autonome, function calling natif
| Niveau | Technique | Rappel cumulé | Coût matériel supplémentaire |
|---|---|---|---|
| Basique | RAG vecteur seul | ~70 % | 0 euro |
| 1-2 | + Chunking juridique + BM25 hybride | ~90 % | 0 euro |
| 3 | + Cross-encoder reranking | ~95 % | 0 euro |
| 4-5 | + Graphe + agent itératif | ~97 % | 0 euro |
Méthodologie
Les données techniques proviennent de la documentation officielle Google DeepMind Gemma 4, des benchmarks communautaires publiés sur Hugging Face GLiNER PII et de l’article de recherche Resource-Efficient Anonymization via GLiNER (COLING 2025). Les prix matériels correspondent aux tarifs constatés sur Materiel.net et idealo.fr en avril 2026. Les pourcentages de rappel sont des estimations basées sur les benchmarks publiés et les tests internes.
📞 Appelez Eric au 06 25 34 34 25
Diagnostic IA gratuit · Nous contacter · SEO & GEO automatisé
Questions fréquentes
GLiNER peut-il remplacer un LLM pour l’anonymisation juridique ?
GLiNER couvre 85 à 90 % des cas d’anonymisation grâce à sa détection zero-shot de plus de 60 catégories de données personnelles. Il rate les identifications indirectes (combinaison de fonction, lieu et date). Un LLM en couche 3 corrige ces cas résiduels. Le pipeline combiné atteint 95 à 97 % de rappel sur des documents de 100 pages.
Gemma 4 26B-A4B est-il conforme RGPD pour le traitement de données juridiques ?
Gemma 4 sous licence Apache 2.0 tourne intégralement en local. Aucune donnée ne quitte la machine. Le RGPD s’applique aux transferts et aux traitements par des tiers, pas à l’inférence locale. Un modèle exécuté sur le poste de l’utilisateur respecte nativement les principes de minimisation et de non-transfert prescrits par l’article 5 du RGPD.
Quel est le coût récurrent d’un pipeline d’anonymisation locale ?
Le coût récurrent est de zéro euro. Le matériel (850 à 2 300 euros) est un investissement unique. Gemma 4 (Apache 2.0), GLiNER (MIT), Presidio (MIT) et ChromaDB (Apache 2.0) sont gratuits. La consommation électrique d’un PC tour avec RTX 4060 Ti représente environ 15 euros par mois en usage intensif.
Peut-on traiter 100 pages d’un seul bloc sans découpage ?
Le 26B-A4B en Q4 sur une RTX 3090 (24 Go VRAM) ingère 100 000 tokens en contexte grâce à l’architecture hybride sliding-window/global. Le prompt processing atteint 1 000 tokens par seconde. Le budget matériel passe à 2 300 euros. Pour la majorité des cas, le découpage structurel avec RAG offre une meilleure qualité à 1 100 euros.
Comment croiser deux conclusions adverses de 50 pages chacune ?
Le RAG juridique indexe les deux conclusions dans la même base vectorielle avec des métadonnées source (demandeur/défendeur). Le pipeline détecte chaque moyen du demandeur, recherche la réponse du défendeur par recherche hybride BM25 + vecteurs, puis envoie les deux côtés au LLM. Le résultat est un tableau Excel avec une ligne par moyen et des colonnes comparatives.
Pourquoi la recherche hybride BM25 + vecteurs surpasse-t-elle le RAG classique en juridique ?
Les documents juridiques contiennent des identifiants exacts (articles de loi, numéros de pourvoi, dates de décisions) que la recherche vectorielle seule peut rater. BM25 capture ces correspondances lexicales. La fusion par Reciprocal Rank Fusion combine les forces des deux approches. En pondérant BM25 à 60 % pour le juridique, le rappel passe de 70 % à 90 %.
Le cross-encoder reranking nécessite-t-il un GPU ?
Le modèle ms-marco-MiniLM-L-6-v2 pèse 80 Mo et tourne sur CPU en quelques millisecondes par paire requête-chunk. Il reranke les 20 candidats issus de la fusion hybride pour ne garder que les 5 plus pertinents. Le gain de précision, en filtrant les faux positifs sémantiques, est le plus important de toute la chaîne RAG. Aucun GPU requis, aucun coût matériel supplémentaire.
Quelle est la différence entre anonymisation et pseudonymisation en droit français ?
L’anonymisation rend l’identification irréversible : les données sortent du champ du RGPD. La pseudonymisation remplace les identifiants par des alias, mais la ré-identification reste possible avec la clé de correspondance. Le pipeline local gère les deux : anonymisation par suppression (GLiNER + regex) ou pseudonymisation cohérente via table de correspondance Python.
L’API Legifrance est-elle gratuite pour la recherche de jurisprudence ?
L’API Legifrance (portail PISTE) est gratuite après inscription. Elle couvre l’ensemble des données du site Legifrance : codes, lois, jurisprudence. L’API Judilibre (Cour de cassation) donne accès aux décisions avec des zones pré-découpées (introduction, moyens, motivations, dispositif). Les deux API retournent du JSON structuré directement exploitable par un pipeline d’extraction.
Combien de temps faut-il pour déployer ce pipeline sur un PC neuf ?
L’installation complète (Ubuntu ou Windows, Ollama, Python 3.11+, GLiNER, ChromaDB, Presidio) prend environ 2 heures pour un profil technique. Le téléchargement du modèle Gemma 4 26B-A4B en quantification Q4 (14 Go) dépend de la connexion internet. L’ensemble du pipeline s’orchestre via n8n avec des noeuds Python et des appels HTTP vers Ollama en local. Un premier test complet sur un document réel est possible en fin de journée.
Diag IA gratuit
Nous contacter
Parler à Eric



