
Construire un RAG des compétences IA pour le recrutement des métiers de l’IA en 2026
Pour la première fois, les compétences en intelligence artificielle sont les plus difficiles à recruter au monde, devant l’ingénierie et l’informatique classiques (ManpowerGroup, 2026). En France, les offres pour ces profils restent ouvertes des mois. Le problème n’est pas seulement la rareté des talents.
Les outils de tri par mots-clés ratent les bons candidats parce qu’un même savoir-faire s’écrit de dix façons. Un ingénieur parle de « fine-tuning », un autre d' »ajustement de modèle », un troisième de « RAG ». Pour la machine, ce sont trois choses différentes.
Une base de connaissances vectorielle change cette logique. Elle rassemble la terminologie technique de l’IA et les référentiels de métiers, puis relie une offre et un profil par le sens. Voici comment la construire, l’alimenter et la garder conforme.
Temps de lecture : 16 min
À retenir
- Les compétences IA sont devenues le premier poste de tension au recrutement, devant l’ingénierie, avec 72 % d’employeurs en difficulté (ManpowerGroup, 2026).
- Une base vectorielle de compétences relie un savoir-faire à ses synonymes, ses sigles et ses outils, là où un filtre par mots-clés échoue.
- ESCO recense environ 13 500 compétences et 3 000 professions ; le ROME 4.0 français compte 1 584 fiches métiers et 17 825 savoir-faire.
- Un outil qui trie ou évalue des candidatures est classé à haut risque par l’AI Act (annexe III) : la décision finale doit rester humaine.
Pourquoi un RAG transforme-t-il le recrutement des métiers de l’IA en 2026 ?
Un RAG de compétences est une base de connaissances vectorielle qui rassemble la terminologie technique de l’IA et les référentiels de métiers pour relier, par le sens, une offre et un profil, là où un filtre par mots-clés échoue. Il rend visibles des candidats que les outils classiques ignorent.
La pénurie de compétences IA atteint un pic
Le développement de modèles et d’applications d’IA arrive en tête des compétences introuvables (20 %), suivi de la maîtrise des outils IA (19 %), devant l’ingénierie (ManpowerGroup, 2026). La demande d’expertise en IA progresse d’environ 21 % par an.
Le World Economic Forum, dans son rapport Future of Jobs 2025, anticipe 170 millions de nouveaux emplois liés à l’IA sur cinq ans. La tension va donc durer, et la qualité du tri devient un avantage concurrentiel pour recruter vite et juste.
Pour une entreprise française, chaque mois de poste vacant coûte cher en projets retardés et en charge reportée sur les équipes en place. Mieux rapprocher une offre d’un profil réduit ce délai. Un bon outil ne crée pas de talents, mais il révèle ceux qui passaient sous le radar.
Le mot-clé exact ne suffit plus
Un tri par mots-clés rejette un profil qui écrit « modèle de langage » quand l’offre demande « LLM ». La recherche sémantique corrige ce biais en comparant le sens des textes. Une approche par plongements lexicaux a amélioré la pertinence du classement de candidats jusqu’à 15,85 % par rapport à un suivi de candidatures classique (étude Resume2Vec, MDPI Electronics, 2025).
Cette bascule du mot-clé vers le sens explique l’intérêt d’un RAG. Pour comprendre comment un logiciel trie aujourd’hui les candidatures, voir notre article sur les ATS et l’IA pour le tri des CV.
Quels signes et termes techniques de l’IA intégrer dans la base ?
La base doit couvrir le vocabulaire réel des métiers de l’IA, ses sigles et ses variantes d’écriture. Plus le corpus est riche, plus le RAG relie des formulations différentes qui désignent une même compétence. C’est le cœur de sa valeur.
Le vocabulaire technique à couvrir
Sept familles de signaux forment un socle solide pour les métiers de l’IA :
- Frameworks et bibliothèques : PyTorch, TensorFlow, scikit-learn, Hugging Face.
- Techniques de modèles : génération augmentée de récupération, fine-tuning, distillation, quantification.
- Briques d’infrastructure : base de données vectorielle, Model Context Protocol, conteneurs, orchestration.
- Métiers : data scientist, ML engineer, MLOps, AI product manager, prompt engineer.
- Cloud et data : SQL, dbt, Spark, GCP, AWS, Azure.
- Gouvernance : biais, explicabilité, supervision humaine, journalisation.
- Compétences relationnelles techniques : vulgarisation, conduite du changement, travail au contact métier.
Les synonymes, sigles et variantes
Un même savoir-faire se décline en surface. « LLM », « grand modèle de langage » et « modèle génératif » pointent le même domaine. La base associe ces formes grâce aux plongements lexicaux, qui placent les termes proches dans un espace commun. Le recruteur retrouve alors un profil quel que soit le mot employé.
Documenter ces équivalences est un travail d’ingénierie de la connaissance. Pour monter en compétence sur ces fondations, voir notre guide pour apprendre l’ingénierie de l’IA.
Le corpus doit aussi distinguer le niveau de maîtrise. Avoir « utilisé » un outil et l’avoir « mis en production à grande échelle » ne pèsent pas pareil. Marquer cette nuance dans la base affine le classement et évite de confondre une simple mention avec une vraie expertise opérationnelle.
En pratique
Commencez par 50 compétences clés de vos offres réelles. Pour chacune, listez trois synonymes et deux sigles courants. Vous obtenez en une journée un premier dictionnaire qui nourrit la base et améliore aussitôt la qualité du rapprochement offre-profil.
Comment construire le RAG de compétences étape par étape ?
La construction suit une chaîne claire : rassembler le corpus, le découper proprement, le transformer en vecteurs, puis le classer finement. Chaque étape pèse sur la précision finale. Une seule maille faible dégrade tout le rapprochement.
Ingestion et découpage structuré
Un découpage aveugle tous les 500 mots mélange les informations et brouille la recherche. Le découpage structuré garde une unité de sens par bloc : une liste de compétences en un bloc, une expérience par poste en un bloc, une certification par bloc. La précision du rapprochement grimpe nettement.
Ce travail vaut pour les CV comme pour les fiches de poste. La même découpe appliquée aux deux côtés rend les comparaisons cohérentes et explicables, ce que les recruteurs exigent pour justifier une présélection.
Conservez aussi des métadonnées utiles à chaque bloc : la date, l’employeur, le niveau. Ces étiquettes servent ensuite à filtrer et à pondérer les résultats. Un même savoir-faire récent et durable compte davantage qu’une mention isolée et ancienne dans un parcours.
Embeddings, base vectorielle et re-ranker
Chaque bloc devient un vecteur via un modèle d’embeddings, stocké dans une base de données vectorielle. Une première recherche ramène les candidats proches, puis un re-ranker affine le classement comme le ferait un évaluateur humain. Ce duo recherche large puis tri fin donne le meilleur compromis rappel-précision.
Une recherche hybride renforce encore le résultat. Elle combine la similarité de sens des vecteurs et une correspondance exacte sur les sigles rares, comme un nom de framework précis. Cette double lecture évite de manquer un terme technique pointu qu’un modèle généraliste lisserait.
| Brique | Rôle | Choix courant |
|---|---|---|
| Découpage | Garder une unité de sens par bloc | Par section de CV |
| Embeddings | Transformer le texte en vecteurs | Modèle multilingue |
| Base vectorielle | Stocker et chercher par similarité | Index dédié |
| Re-ranker | Affiner le classement final | Cross-encoder |
Cette architecture rejoint la pile technique d’une agence orientée déploiement, détaillée dans notre analyse de la stack technique RAG, agents et MCP. Le même socle sert une base de connaissance interne, comme expliqué dans notre article sur le RAG sur la connaissance interne.
En pratique
Testez deux modèles d’embeddings sur un échantillon de 30 paires offre-profil que vous connaissez. Mesurez combien de bons profils remontent dans le top 5. Ce petit banc d’essai évite de choisir un modèle au hasard et fixe une référence chiffrée avant le passage à l’échelle.
Évaluez votre maturité IA en 5 minutes avec notre Diagnostic IA gratuit.
Quels référentiels de compétences relier au RAG ?
Un corpus interne gagne en robustesse quand il s’appuie sur des référentiels publics. Ces classifications donnent une ossature partagée, multilingue, et un langage commun entre métiers, compétences et certifications. Deux références dominent en Europe et en France.
ESCO, le standard européen
ESCO est la classification européenne des aptitudes, compétences, certifications et professions. Elle recense environ 13 500 compétences et 3 000 professions, dans un format multilingue qui relie un métier à ses savoir-faire (Commission européenne, ESCO). Brancher la base sur ESCO normalise les intitulés entre pays.
ROME 4.0 côté France
Le ROME 4.0 de France Travail compte 1 584 fiches métiers depuis juin 2025, 17 825 savoir-faire et 15 383 savoirs, exposés via des interfaces ouvertes sur data.gouv.fr (France Travail, ROME 4.0). Relier le RAG à ces interfaces enrichit chaque compétence de ses voisines et de ses contextes de travail.
L’enjeu pratique est la mise en correspondance. Vos intitulés internes doivent pointer vers les codes du référentiel, une fois pour toutes. Ce travail d’alignement, fait au départ, garantit ensuite un langage commun entre vos offres, vos fiches de poste et les compétences recherchées sur le marché.
| Critère | ESCO | ROME 4.0 |
|---|---|---|
| Émetteur | Commission européenne | France Travail |
| Portée | Multilingue, échelle européenne | France |
| Volume | ~13 500 compétences | 17 825 savoir-faire |
| Accès | Portail et API | API data.gouv.fr |
Le recrutement par RAG est-il conforme à l’AI Act et au RGPD ?
Oui, à condition de respecter un cadre strict. Un outil qui trie ou évalue des candidatures touche aux droits des personnes. La loi européenne et la doctrine française imposent transparence, traçabilité et décision humaine effective.
Annexe III : un usage à haut risque
L’annexe III de l’AI Act classe les systèmes utilisés pour le tri, l’évaluation ou l’affectation des candidatures parmi les usages à haut risque (CNIL, 2026). À partir du 2 août 2026 s’appliquent notamment les obligations de transparence (article 50) de l’AI Act.
Les obligations pour les systèmes à haut risque de l’annexe III, initialement prévues à cette date, sont reportées au 2 décembre 2027, sous réserve de l’adoption définitive du Digital Omnibus (accord provisoire Conseil-Parlement du 7 mai 2026). Les sanctions atteignent 35 millions d’euros ou 7 % du chiffre d’affaires mondial (EUR-Lex, AI Act).
RGPD article 22 et décision humaine
L’article 22 du RGPD interdit une décision entièrement automatisée produisant des effets significatifs. Refuser un candidat sur le seul score d’un modèle est illégal sans intervention humaine réelle. Le RAG propose un classement, le recruteur tranche, et chaque étape est journalisée.
Cette exigence rejoint les obligations RH détaillées dans notre article sur l’AI Act et le recrutement. La conformité n’est pas un frein : elle protège l’entreprise et le candidat.
Une nuance compte selon votre rôle. L’entreprise qui édite l’outil et celle qui l’utilise n’ont pas les mêmes devoirs. Le déployeur garde une obligation de surveillance et d’information des candidats, même quand un éditeur fournit la technologie. Documenter qui fait quoi protège en cas de contrôle.
En pratique
Ajoutez une mention claire dans vos offres : un outil d’aide au tri est utilisé, et une personne examine chaque présélection. Conservez les journaux de décision pendant la durée légale. En cas de contrôle, c’est le raisonnement de classification qui sera demandé, pas seulement le résultat.
Quelles erreurs éviter en déployant un RAG de compétences ?
La plupart des échecs ne viennent pas du modèle, mais de la méthode. Un corpus pauvre, un découpage brutal ou une base jamais mise à jour ruinent les résultats. La gouvernance humaine fait la différence entre un gadget et un outil fiable.
Les pièges techniques
Quatre erreurs reviennent souvent : un découpage qui mélange compétences et expériences, un modèle d’embeddings inadapté au français technique, l’absence de re-ranker, et une base figée qui ignore les nouveaux termes. Chacune réduit le rappel ou la précision, et donc la confiance des recruteurs.
La parade tient en une règle : mesurer avant d’industrialiser. Un banc d’essai chiffré sur des paires connues révèle vite la maille faible et oriente les corrections.
La surveillance ne s’arrête pas au lancement. Le vocabulaire de l’IA évolue vite, et de nouveaux outils apparaissent chaque trimestre. Sans réindexation régulière du corpus, la base se périme et rate les profils les plus récents. Un suivi mensuel des termes manquants maintient sa pertinence.
Garder l’expertise humaine et le rôle du FDE
Un RAG performant ne décide pas, il éclaire. L’évaluation des compétences relationnelles, du contexte et de la trajectoire reste humaine. Le profil qui fait tenir l’ensemble est l’ingénieur déployé au contact métier, capable de traduire un besoin RH en pipeline technique fiable.
Cette approche se combine avec nos analyses sur le métier de Forward Deployed Engineer et sur le site emploi par compétences pour capter les profils passifs. Ensemble, elles forment une chaîne cohérente, du référentiel au recrutement. Commencez dès aujourd’hui : listez vos 50 compétences clés, branchez un référentiel public, et mesurez votre top 5 sur des cas réels.
Méthodologie
Cet article s’appuie sur les données publiées par ManpowerGroup, 2026, la Commission européenne, ESCO, France Travail, ROME 4.0 et la CNIL, 2026, consultées en juin 2026. Les chiffres correspondent aux données en vigueur au moment de la rédaction.
📞 Appelez Eric au 06 25 34 34 25
Diagnostic IA gratuit · Nous contacter · SEO & GEO automatisé
Questions fréquentes sur le RAG de compétences pour le recrutement
Qu’est-ce qu’un RAG de compétences pour le recrutement ?
Un RAG de compétences est une base de connaissances vectorielle qui rassemble la terminologie technique de l’IA et les référentiels de métiers pour relier, par le sens, une offre et un profil, là où un filtre par mots-clés échoue. Il compare le sens des textes plutôt que les mots exacts, ce qui fait remonter des candidats que les outils classiques ignorent. Le recruteur garde la décision finale.
Quels termes techniques de l’IA faut-il intégrer dans la base ?
La base couvre les frameworks comme PyTorch et TensorFlow, les techniques de modèles comme le RAG et le fine-tuning, l’infrastructure comme la base vectorielle et le MCP, les métiers comme data scientist et MLOps, ainsi que le cloud. Elle doit surtout intégrer les synonymes et les sigles, car un savoir-faire s’écrit de plusieurs façons. Un dictionnaire de 50 compétences clés avec leurs variantes suffit pour démarrer efficacement.
Comment construire un RAG de compétences étape par étape ?
La chaîne comprend quatre étapes : rassembler un corpus de compétences et de métiers, le découper en blocs de sens cohérents, transformer chaque bloc en vecteurs avec un modèle d’embeddings, puis classer les résultats avec un re-ranker. On relie ensuite la base à un référentiel public comme ESCO ou ROME. Chaque maille pèse sur la précision finale, et le découpage propre reste l’étape la plus décisive.
Quelle différence entre ESCO et ROME pour structurer les compétences ?
ESCO est la classification européenne multilingue, avec environ 13 500 compétences et 3 000 professions, utile pour comparer des profils entre pays. Le ROME 4.0 de France Travail couvre la France avec 1 584 fiches métiers et 17 825 savoir-faire, accessibles par des interfaces ouvertes. ESCO normalise à l’échelle européenne, le ROME colle au marché français. Les deux peuvent alimenter la même base de compétences.
Le recrutement assisté par RAG est-il légal en France ?
Oui, sous conditions. Un outil qui trie ou évalue des candidatures est classé à haut risque par l’annexe III de l’AI Act. L’article 22 du RGPD interdit une décision entièrement automatisée de rejet sans intervention humaine réelle. Le RAG doit donc proposer un classement, laisser le recruteur décider, et journaliser chaque étape. Les sanctions atteignent 35 millions d’euros ou 7 % du chiffre d’affaires mondial.
Un RAG remplace-t-il l’ATS classique ?
Non, il le complète. Un ATS gère le flux des candidatures, la conformité et le suivi administratif. Le RAG ajoute une couche de compréhension sémantique qui relie une compétence à ses synonymes et fait remonter des profils invisibles au tri par mots-clés. Beaucoup d’équipes branchent le RAG sur l’ATS existant plutôt que de le remplacer, pour garder leurs processus et leurs habitudes en place.
Quel modèle d’embeddings choisir pour les CV et compétences IA ?
Privilégiez un modèle multilingue capable de traiter le français technique et l’anglais, car les CV mélangent souvent les deux. Testez deux ou trois modèles sur un échantillon de paires offre-profil que vous connaissez, puis mesurez combien de bons profils remontent dans le top 5. Ce banc d’essai chiffré vaut mieux qu’un choix théorique. La performance dépend autant du découpage que du modèle retenu.
Combien coûte la mise en place d’un RAG de compétences ?
Le coût varie selon l’ambition. Un prototype interne s’appuie sur des modèles open source et une base vectorielle gratuite, pour un investissement surtout en temps d’ingénierie. À l’échelle, les postes principaux sont l’hébergement, le modèle d’embeddings et la maintenance du corpus. Le vrai coût caché est la mise à jour des termes : une base figée perd sa valeur en quelques mois et dégrade le tri.
Comment éviter les biais dans un RAG de recrutement ?
Trois mesures réduisent le risque : auditer régulièrement les résultats sur l’équité, retirer du corpus les signaux sans lien avec la compétence, et garder une décision humaine sur chaque présélection. L’affaire d’un grand modèle de recrutement abandonné pour biais sexiste rappelle que les données d’entraînement reflètent les préjugés passés. La journalisation permet ensuite de tracer et de corriger ces écarts dans le temps.
Qui doit piloter le projet de RAG de compétences ?
Le pilotage croise trois rôles : les RH qui connaissent les métiers et les compétences attendues, l’ingénieur qui construit la chaîne technique, et le référent conformité qui sécurise l’usage. Le profil pivot est l’ingénieur déployé au contact métier, capable de traduire un besoin RH en pipeline fiable. Sans ce relais humain, le projet reste un démonstrateur sans adoption réelle sur le terrain et sans valeur.
Diag IA gratuitNous contacterParler à Eric





