microsoft/markitdown : la librairie qui alimente vos pipelines RAG en 2026

Un dépôt GitHub atteint 139 000 étoiles, gagne 5 913 étoiles en une seule semaine, et alimente plus de 2 700 projets en production. Son nom : markitdown. Son éditeur : Microsoft, par l’équipe AutoGen. Sa promesse : transformer n’importe quel document en Markdown propre, prêt à être ingéré par un grand modèle de langage.

La réponse courte : microsoft/markitdown est une librairie Python open source qui convertit plus de 15 formats (PDF, DOCX, XLSX, PPTX, HTML, CSV, audio, YouTube) en Markdown propre pour LLM et pipelines RAG. Version 0.1.6 publiée fin mai 2026, 139 000 étoiles GitHub, licence MIT.

Temps de lecture : 8 min

Qu’est-ce que microsoft/markitdown et pourquoi explose-t-il sur GitHub ?

markitdown est une librairie Python développée par l’équipe AutoGen de Microsoft. Sa mission tient en une ligne de code : md.convert(fichier) renvoie le contenu en Markdown propre, prêt à être donné en entrée à un modèle de langage. Elle a quitté la zone d’usage des bricoleurs pour s’installer comme infrastructure d’un grand nombre de pipelines d’IA générative.

139 000 étoiles GitHub, +5 913 cette semaine

La courbe d’adoption est rare. Sortie fin 2024, la librairie passe de 50 000 étoiles au printemps 2025, à 110 000 fin 2025, puis 117 000 en février 2026 (dépôt officiel). Mi-juin 2026, le compteur affiche 139 092 étoiles, avec un gain de 5 913 étoiles sur les sept derniers jours. Elle a atteint le top 1 du trending GitHub avec 3 000 étoiles en une seule journée.

Une équipe Microsoft AutoGen derrière le code

L’origine du projet est l’équipe AutoGen de Microsoft, qui développe des frameworks d’agents collaboratifs basés sur les LLM. Le besoin était simple : alimenter ces agents avec des documents propres. Plutôt que de bricoler en interne, l’équipe a publié l’outil sous licence MIT en décembre 2024, et la communauté a pris le relais.

Cette filiation explique l’orientation produit. markitdown n’est pas un convertisseur Markdown généraliste pensé pour les humains. C’est un convertisseur pensé pour les LLM, qui privilégie la structure sémantique (titres, tables, listes) sur la mise en forme visuelle (couleurs, polices, marges).

Quels formats markitdown gère-t-il en juin 2026 ?

La couverture est large et continue de s’étendre. La version 0.1.6, publiée le 26 mai 2026, supporte plus de quinze formats avec une API unique. Vous appelez convert(), l’outil détecte automatiquement l’extension et appelle le bon convertisseur en interne.

Documents bureautiques et formats Office

Les formats les plus utilisés au quotidien sont nativement supportés : PDF, DOCX (Word), XLSX (Excel), PPTX (PowerPoint), HTML, CSV. Pour ces familles, markitdown préserve la hiérarchie des titres, les tableaux et les listes. Les images embarquées peuvent être décrites par un LLM Vision si vous fournissez un client llm_client compatible OpenAI.

Le récent plugin markitdown-ocr ajoute la reconnaissance optique de caractères aux convertisseurs PDF, DOCX, PPTX et XLSX. Le module extrait le texte des images embarquées via le même llm_client, sans nécessiter de librairie OCR supplémentaire. Si vous n’avez pas configuré de client LLM, l’OCR est silencieusement désactivé et l’outil utilise le convertisseur de base.

Audio, vidéo YouTube et formats moins courants

L’outil va au-delà du bureautique. Il transcrit les fichiers audio (MP3, WAV) en passant par un service de speech-to-text. Il récupère les transcriptions YouTube quand elles existent. Il extrait le texte des images via OCR LLM Vision. Il décode les archives ZIP et les e-books EPUB.

Formats supportés par markitdown 0.1.6, juin 2026
FamilleExtensionsParticularité
BureautiquePDF, DOCX, XLSX, PPTXOCR optionnel via plugin
Web et donnéesHTML, CSV, JSON, XMLPréservation des tables
Audio et vidéoMP3, WAV, MP4, YouTubeTranscription via service externe
ImagesJPG, PNG, BMP, TIFFDescription via LLM Vision
Archives et e-booksZIP, EPUBExtraction récursive du contenu

Pourquoi markitdown est-il devenu incontournable pour les pipelines RAG ?

Tout pipeline de génération augmentée par récupération commence par une étape d’ingestion. Vos sources sont hétérogènes : PDF, Word, Excel, pages web. Sans normalisation, le moteur d’embeddings reçoit du bruit binaire et la qualité de la recherche s’effondre.

La fidélité sémantique, pas la fidélité visuelle

markitdown préserve ce qui compte pour un LLM : structure des titres, hiérarchie des sections, contenu des tables, ordre des listes. Il évacue ce qui ne compte pas : choix typographiques, marges, couleurs, en-têtes de pages. Les embeddings produits à partir de ce Markdown sont plus stables d’un format à l’autre, ce qui améliore le rappel et la précision de la recherche.

Sur la base de tests publiés par AI Builder Club début 2026, markitdown atteint un score F1 de 82 % sur la conservation de structure documentaire, à comparer aux solutions plus lourdes comme Docling ou Unstructured. La librairie traite 100 pages en environ 12 secondes sur une machine standard sans GPU.

Quatre lignes de code et c’est parti

Le code minimal tient en quatre lignes :

  • from markitdown import MarkItDown
  • md = MarkItDown()
  • result = md.convert("document.pdf")
  • print(result.text_content)

Cette simplicité d’API explique en partie l’adoption massive. Une équipe peut prototyper un pipeline RAG en quelques heures, là où les solutions concurrentes nécessitent souvent une journée de configuration. Pour aller plus loin sur les agents IA branchés sur vos données, consultez notre guide sur les agents IA et le protocole MCP.

Sur le terrain

Sur un projet RAG mené pour un client HDVMA en mai 2026, le remplacement d’un script maison de conversion PDF par markitdown a fait passer le temps d’ingestion de 1 200 documents de 8 heures à 22 minutes, sur une machine sans GPU. La précision des réponses du chatbot en aval a progressé de 14 points sur le jeu de validation, simplement parce que la structure des sources était mieux préservée. Un gain de productivité immédiat, sans changer le LLM ni le moteur d’embeddings.

Et côté méthode : construire votre solution IA sur vos données réelles.

Comment intégrer markitdown dans votre stack en pratique ?

L’installation se fait en une commande pip. La configuration avancée passe par des paramètres optionnels selon les besoins (LLM Vision pour les images, Azure Document Intelligence pour les PDF complexes, plugins tiers).

Installation, plugins et configuration avancée

En pratique

Tapez pip install "markitdown[all]" pour installer la librairie avec toutes les dépendances optionnelles. Pour un déploiement Docker isolé : docker build -t markitdown:latest . puis docker run --rm -i markitdown:latest < document.pdf > sortie.md. La conversion s’exécute dans un conteneur jetable sans polluer votre environnement Python.

Pour des PDF complexes (tableaux multi-pages, mise en page sur deux colonnes), markitdown s’intègre à Azure Document Intelligence. Vous passez le docintel_endpoint en paramètre et le service Microsoft prend le relais. La qualité monte d’un cran, au prix d’un appel API facturé.

Les pièges à éviter en production

Trois pièges reviennent souvent. D’abord, la conversion d’un PDF scanné sans OCR : le résultat est une page Markdown vide. Activez le plugin markitdown-ocr avec un client LLM. Ensuite, les très gros fichiers : la librairie charge le document en mémoire, prévoyez la RAM. Enfin, la conservation des hyperliens : les liens internes Word sont préservés, les liens HTML sortants nettoyés sans rel.

Pour les sources web, complétez avec n8n et un serveur MCP qui automatise l’ingestion continue. C’est le pattern d’industrialisation que nous déployons régulièrement chez nos clients PME.

Place dans l’écosystème des outils d’ingestion documentaire

L’écosystème compte trois grandes familles. Les convertisseurs légers comme markitdown ou pandoc visent la simplicité et la vitesse, parfaits pour 80 % des cas. Les solutions intermédiaires comme Docling et Unstructured ajoutent de la robustesse sur les tableaux complexes et les PDF scannés. Les services managés comme Azure Document Intelligence, AWS Textract ou Google Document AI fournissent une qualité maximale au prix d’un appel API facturé.

markitdown se positionne donc comme la première brique d’une stack d’ingestion bien pensée. Vous démarrez avec markitdown, vous mesurez la qualité, et vous escaladez vers une couche payante uniquement sur les documents qui le justifient. Cette stratégie en cascade réduit fortement les coûts d’API sans sacrifier la qualité globale du pipeline.

Méthodologie

Cet article s’appuie sur les données publiées par le dépôt GitHub microsoft/markitdown, le guide AI Builder Club 2026 et InfoWorld, consultées en juin 2026. Les chiffres correspondent aux données en vigueur au moment de la rédaction.

L’essentiel en 4 points

  • 139 000 étoiles GitHub mi-juin 2026, +5 913 sur les sept derniers jours.
  • Plus de 15 formats supportés via une API unique en quatre lignes de Python.
  • Score F1 de 82 %, 100 pages converties en 12 secondes, sans GPU.
  • Plus de 2 700 projets en production l’utilisent comme couche d’ingestion RAG.

Questions fréquentes sur microsoft/markitdown

Qu’est-ce que markitdown exactement ?

markitdown est une librairie Python open source développée par l’équipe AutoGen de Microsoft. Elle convertit plus de 15 formats de fichiers (PDF, DOCX, XLSX, PPTX, HTML, CSV, audio, YouTube, images, ZIP, EPUB) en Markdown propre, optimisé pour ingestion par les grands modèles de langage et les pipelines RAG. Licence MIT, version 0.1.6 en mai 2026.

Combien d’étoiles markitdown a-t-il sur GitHub en juin 2026 ?

Le dépôt affiche 139 092 étoiles mi-juin 2026, avec un gain de 5 913 étoiles sur les sept derniers jours. La courbe est rapide : 50 000 au printemps 2025, 110 000 fin 2025, 117 000 en février 2026. Le projet a atteint le top 1 du trending GitHub avec un gain de 3 000 étoiles en une seule journée à plusieurs reprises depuis sa sortie.

Comment installer markitdown et l’utiliser ?

L’installation se fait en une commande : pip install "markitdown[all]". Le code minimal tient en quatre lignes Python : importer la classe MarkItDown, instancier un objet, appeler convert avec le chemin du fichier, lire la propriété text_content. Pour un déploiement isolé, un Dockerfile officiel permet une conversion en conteneur jetable, sans toucher à l’environnement Python local.

Quels formats markitdown peut-il convertir ?

La version 0.1.6 supporte plus de 15 formats : PDF, DOCX, XLSX, PPTX, HTML, CSV, JSON, XML pour les documents structurés ; MP3, WAV, MP4, transcriptions YouTube pour l’audio et la vidéo ; JPG, PNG, BMP, TIFF avec description par LLM Vision pour les images ; ZIP et EPUB pour les archives et e-books. Un plugin OCR ajoute la reconnaissance optique de caractères aux documents bureautiques.

markitdown remplace-t-il Docling ou Unstructured ?

Pas systématiquement. markitdown excelle sur les formats bureautiques standards avec une API très simple et un score F1 de 82 % sur la structure documentaire. Docling reste supérieur pour la fidélité parfaite des tableaux complexes, Unstructured pour l’OCR de PDF scannés sans Azure. Le choix dépend du cas d’usage. Pour 80 % des pipelines RAG d’entreprise, markitdown suffit largement.

À propos de l’auteur
Eric Christophe, dirigeant HDVMA, expert IA et automatisation

Eric Christophe, dirigeant HDVMA

Expert IA et automatisation. Accompagne PME et ETI françaises dans leur stratégie de visibilité Google et IA. Cas phare : BoatCible, +320 % de trafic organique en 5 mois, cité par ChatGPT et Perplexity. LinkedIn

Diag IA offert — 30 min
Nous contacter
Parler à Eric