PageIndex : le RAG sans vecteurs qui bouscule l’architecture documentaire IA

98,7 % de précision sur FinanceBench, contre environ 50 % pour les approches RAG vectorielles classiques. PageIndex, signé VectifyAI, ne se contente pas d’améliorer le RAG : il jette les embeddings et les bases vectorielles à la poubelle. À la place, un index arborescent inspiré d’AlphaGo et un raisonnement LLM sur la structure documentaire reproduisent la manière dont un expert humain navigue dans un dossier complexe. Ce bond architectural rebat les cartes pour toute équipe qui pilote des assistants IA sur des documents longs ou techniques. Voici pourquoi PageIndex mérite une place dans votre stack 2026.

Temps de lecture : 13 min

À retenir

  • PageIndex remplace les bases vectorielles par un index arborescent et un raisonnement LLM en deux étapes : génération de l’arbre, puis tree search.
  • Performance record : 98,7 % sur FinanceBench, contre environ 50 % pour les approches RAG vectorielles traditionnelles.
  • Pas de chunking arbitraire, pas d’embedding, pas de base vectorielle à maintenir : la structure naturelle du document fait office d’index.
  • Disponible en open source (MIT), en service cloud, en MCP serveur compatible Claude et Cursor, et en déploiement on-premise pour les entreprises.

Pourquoi le RAG vectoriel atteint ses limites

Le RAG vectoriel s’est imposé comme la mécanique standard pour donner du contexte aux LLMs sur des bases documentaires. Découpage en chunks, calcul d’embeddings, stockage dans une base vectorielle (Pinecone, Weaviate, FAISS, pgvector), recherche par similarité top-k. Cette architecture fonctionne raisonnablement sur des questions simples, mais elle s’effondre sur les documents longs et structurés.

Similarité n’est pas pertinence

Quand un analyste demande « quel a été le changement de chiffre d’affaires entre Q2 et Q3 2024 ? », les chunks les plus similaires sémantiquement à cette question sont rarement ceux qui contiennent la réponse exacte. Les sections les plus proches en embedding évoquent souvent le concept de « changement de revenu » en général, sans contenir les chiffres précis recherchés. Cette dissociation entre similarité et pertinence est la limite fondamentale du RAG vectoriel sur les documents professionnels.

Le chunking détruit la structure

Les fenêtres glissantes de 512 ou 1024 tokens découpent un rapport annuel en fragments arbitraires. Une réponse qui dépend de la lecture conjointe de l’introduction d’un chapitre et d’un tableau placé six pages plus loin est presque impossible à reconstruire avec une recherche top-k. Le contexte hiérarchique (titre de section, position dans le rapport, place dans la table des matières) disparaît au moment du chunking.

Le coût de maintenance d’une base vectorielle

Maintenir une base vectorielle en production a un coût souvent sous-estimé. Mises à jour incrémentales, gestion des versions de documents, ré-embedding lors d’un changement de modèle, monitoring de la dérive des distributions, optimisation des paramètres de recherche approchée. Pour beaucoup d’entreprises, l’infrastructure vectorielle représente entre 30 et 50 % du coût total d’un projet RAG selon la complexité.

Comment fonctionne PageIndex en deux étapes

L’idée fondatrice est simple : reproduire la manière dont un expert humain consulte un livre. Personne n’embedde un manuel avant de chercher une réponse. On ouvre la table des matières, on identifie le chapitre pertinent, on consulte l’index, on lit la section, on remonte aux références si nécessaire. PageIndex code exactement ce comportement.

Étape 1 : génération de l’arbre hiérarchique

À l’ingestion d’un document, PageIndex construit un arbre où chaque nœud représente une section avec trois attributs : un titre, un résumé concis, et une plage de pages. Pour les fichiers Markdown bien structurés, l’arbre se déduit directement des niveaux de titres (##, ###, etc.). Pour les PDFs, le moteur OCR avancé de PageIndex préserve la hiérarchie native, à la différence des conversions classiques qui aplatissent la structure.

Étape 2 : tree search avec raisonnement LLM

Quand une question arrive, un LLM lit la racine de l’arbre et raisonne sur les nœuds enfants les plus prometteurs. Il descend dans l’arbre comme un humain feuilletterait une table des matières, en justifiant chaque choix. Le contenu des nœuds finaux retenus est extrait et injecté dans le LLM final qui produit la réponse. Aucun calcul d’embedding, aucune comparaison vectorielle, aucune base de données externe.

Comparaison RAG vectoriel classique vs PageIndex
CritèreRAG vectoriel classiquePageIndex
Représentation documentaireChunks d’embeddingsArbre hiérarchique structuré
Méthode de rechercheSimilarité top-kTree search avec raisonnement LLM
Infrastructure requiseBase vectorielle (Pinecone, FAISS)Stockage standard JSON ou SQL
ExplicabilitéFaible (scores de similarité)Élevée (chemin de raisonnement traçable)
Précision FinanceBench≈50 %98,7 %
Coût d’inférenceFaible par requêtePlus élevé (raisonnement LLM)

Inspiré d’AlphaGo

L’analogie revendiquée par les auteurs est celle d’AlphaGo : plutôt que d’explorer toutes les positions possibles, le moteur utilise une stratégie apprise pour naviguer intelligemment dans l’espace de recherche. PageIndex transpose cette logique au domaine documentaire. La table des matières joue le rôle d’arbre de jeu, et le LLM joue celui de l’algorithme MCTS (Monte Carlo Tree Search), avec un critère de pertinence appris pour guider la descente.

Performances mesurées : 98,7 % sur FinanceBench

La preuve de concept publiée par VectifyAI s’appelle Mafin 2.5, un système de RAG dédié à l’analyse de documents financiers (rapports annuels SEC, filings 10-K, prospectus). Le benchmark FinanceBench a été conçu pour mesurer la difficulté réelle du question-answering sur ces documents.

Le contexte de FinanceBench

FinanceBench teste des questions à plusieurs étapes de raisonnement, avec des références croisées entre sections, des chiffres exacts à extraire et des comparaisons inter-périodes. C’est l’un des bancs d’essai les plus exigeants du domaine. Les approches RAG vectorielles classiques plafonnent autour de 50 % de précision sur ce benchmark, malgré des optimisations parfois élaborées.

Pourquoi 98,7 % et pas 100 %

Mafin 2.5 atteint 98,7 % de précision, ce qui place le système presque au niveau d’un analyste financier expérimenté sur ces tâches. Les rares erreurs résiduelles concernent souvent des cas où la structure native du document est ambiguë, ou des questions qui demandent un calcul mathématique complexe au-delà de la simple extraction. Cette barre est documentée dans le guide vectorless RAG de buildfastwithai.

Les compromis à connaître

L’amélioration de précision a un coût : chaque requête déclenche plusieurs appels LLM pour la traversée de l’arbre, alors que le RAG vectoriel se contente d’une recherche dans la base. Sur des volumes très élevés et des documents simples, le RAG vectoriel reste plus économique. PageIndex s’impose quand la précision et l’explicabilité dépassent en valeur le coût d’inférence supplémentaire, ce qui est le cas dans la plupart des contextes professionnels exigeants.

Trois modes de déploiement pour s’adapter à chaque contexte

VectifyAI propose une distribution graduée du framework, depuis l’auto-hébergement gratuit jusqu’au déploiement on-premise en entreprise. Cette flexibilité permet à chaque équipe d’évaluer la technologie sans engagement avant de monter en charge.

Self-host : le repo open source

Le dépôt GitHub VectifyAI/PageIndex est publié sous licence MIT. Il fournit le code de génération d’arbre et le moteur de tree search. Les équipes l’installent via pip et l’intègrent à leurs workflows existants. Le PDF parsing utilise les outils standards de l’écosystème Python, ce qui peut limiter la qualité de l’arbre sur des PDFs scannés mal structurés. Cette option convient aux POCs et aux usages internes.

Cloud Service : pipeline production

PageIndex Cloud fournit un pipeline industrialisé avec un OCR amélioré spécifiquement entraîné pour préserver la hiérarchie documentaire, une construction d’arbre optimisée et un moteur de retrieval ajustés sur des cas d’usage réels. Cette option est facturée à l’usage et donne les meilleurs résultats sur des PDFs complexes (scans, multicolonnes, tableaux denses).

Enterprise : déploiement privé ou on-premise

Pour les institutions soumises à des contraintes de souveraineté ou de confidentialité (banque, défense, santé), VectifyAI propose un déploiement on-premise du pipeline complet. Cette option couvre l’OCR, l’index, le moteur de retrieval et les MCPs associés, sans aucune sortie de données vers le cloud public. Elle s’inscrit dans la même logique que les déploiements de LLMs locaux Qwen et DeepSeek.

En pratique

Pour évaluer PageIndex avant un engagement, le chat platform officiel (chat.pageindex.ai) permet de tester instantanément la qualité de retrieval sur vos propres PDFs. Les résultats observés en chat correspondent à ce que vous obtiendrez en API, ce qui facilite la prise de décision sans investir en intégration.

Intégrations MCP, API et frameworks d’agents

PageIndex va au-delà de la bibliothèque Python en proposant des intégrations natives qui s’inscrivent dans les architectures d’agents modernes. Cette compatibilité large explique l’adoption rapide auprès des équipes qui pilotent déjà Claude, Cursor ou des agents OpenAI.

PageIndex MCP : l’index dans Claude et Cursor

Le repo VectifyAI/pageindex-mcp expose le moteur via un serveur MCP (Model Context Protocol). Une simple configuration dans claude_desktop_config.json suffit pour que Claude puisse interroger l’arbre PageIndex. Cette mécanique permet à l’utilisateur de discuter avec un PDF long sans saturer la fenêtre de contexte. La logique rejoint celle que nous avons documentée dans notre guide n8n MCP avec Claude et notre analyse MCP par secteur.

API REST et SDK

L’API PageIndex (api.pageindex.ai) accepte un upload de document et retourne un identifiant d’arbre. Les requêtes ultérieures interrogent cet arbre via reasoning. L’authentification se fait par clé API simple, sans flux OAuth, ce qui simplifie l’intégration dans des pipelines automatisés. Le SDK officiel couvre Python et JavaScript.

Compatibilité framework agents

PageIndex s’intègre nativement avec Claude Agent SDK, Vercel AI SDK, OpenAI Agents SDK, LangChain et tout client compatible MCP. Cette portabilité s’aligne avec l’esprit du catalogue LLM apps open source. Une cookbook officielle (examples/agentic_vectorless_rag_demo.py) montre une intégration end-to-end avec OpenAI Agents SDK en moins de 50 lignes de code.

Cas d’usage en finance, juridique et industrie

Le profil de force de PageIndex (précision élevée, explicabilité, traçabilité par page) le rend particulièrement pertinent dans trois domaines où les hallucinations vectorielles sont coûteuses et difficiles à détecter.

Finance et investissement

L’analyse de rapports annuels, de prospectus et de comptes consolidés est le cœur de cible historique. Mafin 2.5 montre qu’on peut atteindre une précision quasi humaine sur des extractions de chiffres et des comparaisons inter-périodes. Pour les fonds d’investissement et les directions financières, ce gain change l’économie de la production de notes de recherche. La compatibilité avec les workflows présentés dans notre guide Dexter agent financier est immédiate.

Juridique et conformité

Les contrats longs, les jugements et les corpus réglementaires ont une structure hiérarchique forte (titres, articles, alinéas) que l’arbre PageIndex épouse parfaitement. La traçabilité de la réponse jusqu’à la page exacte du document source répond aux exigences de validation imposées aux avocats et aux DPO. Aucun RAG vectoriel ne fournit cette qualité d’audit native.

Industrie et documentation technique

Les manuels de maintenance, les normes techniques et les notices de produits possèdent une structure documentaire dense que les agents IA doivent respecter pour donner des réponses fiables aux opérateurs. PageIndex permet à un technicien de poser une question en langage naturel et de recevoir une réponse traçable jusqu’au paragraphe d’origine, ce qui sécurise les interventions sur le terrain.

Mise en pratique : un POC en deux semaines

Le retour d’expérience de plusieurs équipes que nous accompagnons converge sur un parcours de proof-of-concept en deux semaines. Le découpage suit trois étapes pratiques.

Semaine 1 : sélection du corpus et indexation

Choisir cinq à dix documents représentatifs du cas d’usage cible. Tester d’abord via le chat platform pour vérifier la qualité de l’arbre généré. Si la structure est correcte, basculer vers l’API et indexer le corpus complet. Préparer une liste de 30 à 50 questions de référence couvrant les types de requêtes attendus en production.

Semaine 2 : évaluation et comparaison

Faire passer les 30 à 50 questions à PageIndex et à votre stack RAG actuelle (si elle existe). Comparer la précision, l’explicabilité et le coût par requête. Pour chaque erreur de PageIndex, identifier si elle vient de la structure du document, du raisonnement LLM ou d’une ambiguïté de la question. Cette analyse oriente le choix d’industrialisation.

Critères de décision

Trois questions structurent la décision finale. Premièrement, le gain de précision justifie-t-il le coût d’inférence supplémentaire ? Sur des documents critiques, la réponse est presque toujours oui. Deuxièmement, les documents source ont-ils une structure exploitable ? Si les PDFs sont des scans dégradés, le mode OCR cloud devient nécessaire. Troisièmement, les contraintes de souveraineté imposent-elles un déploiement on-premise ? Si oui, le contrat enterprise est la voie. Notre Diagnostic IA gratuit intègre cette grille pour les équipes qui veulent un avis externe en cinq minutes.

En pratique

Une équipe de cabinet juridique qui pilote 200 contrats par mois peut basculer vers PageIndex en gardant son SaaS de gestion documentaire actuel. Il suffit d’ajouter le pipeline d’indexation PageIndex en parallèle et d’exposer son MCP aux assistants Claude utilisés par les avocats. Le ROI se mesure dès le deuxième mois sur la qualité des réponses.

Méthodologie HDVMA pour adopter PageIndex

Notre démarche en cabinet s’articule en quatre phases. Phase 1 : audit du corpus documentaire et des cas d’usage prioritaires. Phase 2 : POC sur deux semaines avec un sous-ensemble représentatif. Phase 3 : industrialisation sur le mode déploiement adapté (cloud ou on-premise). Phase 4 : optimisation continue et formation des utilisateurs métier. Cette méthode s’adresse aux directions juridiques, financières et techniques qui veulent dépasser les limites du RAG vectoriel sans réécrire leur écosystème SI.

Vous voulez évaluer PageIndex sur votre corpus ? Appelez Eric au 06 25 34 34 25 ou réservez un Diagnostic IA gratuit.

Questions fréquentes

Qu’est-ce que PageIndex et qui l’a développé ?

PageIndex est un framework de RAG sans vecteurs développé par VectifyAI, mené par Mingtian Zhang, Yu Tang et l’équipe PageIndex. Le projet a été publié en septembre 2025 sous licence MIT. Il transforme les documents en arbre hiérarchique et utilise un raisonnement LLM pour naviguer dans cet arbre, en s’inspirant directement de la logique d’AlphaGo. Le code est disponible sur GitHub (VectifyAI/PageIndex) et le service cloud sur pageindex.ai.

Pourquoi PageIndex obtient 98,7 % sur FinanceBench ?

Le RAG vectoriel atteint environ 50 % sur FinanceBench parce que la similarité sémantique ne coïncide pas avec la pertinence réelle. PageIndex remplace la recherche vectorielle par un raisonnement LLM sur la structure du document, ce qui reproduit la démarche d’un analyste humain. Cette approche capture mieux les références croisées, les chiffres précis et les comparaisons inter-périodes typiques de l’analyse financière, d’où le bond de précision documenté dans le benchmark officiel.

PageIndex remplace-t-il complètement les bases vectorielles ?

Pas dans tous les cas. PageIndex excelle sur les documents longs, structurés et professionnels (rapports financiers, contrats, normes). Pour des bases courtes, des FAQ ou des contenus très hétérogènes, le RAG vectoriel reste compétitif et moins coûteux. La règle empirique : si vos documents ont une table des matières naturelle ou une structure hiérarchique forte, PageIndex apporte un gain significatif. Sinon, l’avantage est plus marginal.

Quel est le coût d’inférence comparé au RAG vectoriel ?

PageIndex consomme plus de tokens LLM par requête car il raisonne en plusieurs étapes sur l’arbre. Le surcoût varie de 30 à 100 % selon la profondeur de l’arbre et la complexité de la question. Ce surcoût est largement compensé par l’absence de coûts d’infrastructure vectorielle (Pinecone, Weaviate, FAISS) et par la qualité supérieure des réponses, ce qui réduit les itérations humaines aval. Sur des cas d’usage à fort enjeu, le ROI global est presque toujours favorable.

Comment PageIndex gère-t-il les documents scannés ou les PDFs complexes ?

Le mode self-host utilise un parsing PDF standard, ce qui peut limiter la qualité de l’arbre sur des scans dégradés. Le service cloud propose un OCR avancé spécifiquement entraîné pour préserver la hiérarchie documentaire native. Pour les PDFs multicolonnes, les tableaux denses ou les scans de qualité variable, le mode cloud donne nettement de meilleurs résultats. Une cookbook vision RAG existe aussi, qui utilise un modèle multimodal pour répondre directement à partir des images de pages.

Quels frameworks d’agents IA sont compatibles avec PageIndex ?

PageIndex s’intègre nativement avec Claude Agent SDK, Vercel AI SDK, OpenAI Agents SDK, LangChain et tout client MCP. Le serveur PageIndex MCP (VectifyAI/pageindex-mcp) expose l’index aux agents Claude et Cursor en quelques lignes de configuration. L’API REST classique permet de connecter n’importe quel pipeline custom. La compatibilité MCP en fait un complément naturel pour les équipes qui pilotent déjà Claude Code ou Cursor.

PageIndex est-il adapté aux exigences de conformité européennes ?

Oui, dans le mode enterprise on-premise. Le pipeline complet (OCR, index, retrieval, MCP) peut être déployé sur l’infrastructure interne de l’entreprise, sans aucune sortie de données vers le cloud public. Cette option est particulièrement pertinente pour les banques européennes, les directions juridiques et les acteurs de la défense soumis à des contraintes RGPD strictes ou à des exigences de souveraineté nationale. Les détails contractuels se négocient avec VectifyAI directement.

Combien de temps faut-il pour évaluer PageIndex sur son corpus ?

Le chat platform officiel permet une évaluation qualitative en quelques heures sur cinq à dix documents représentatifs. Pour une évaluation rigoureuse avec métriques chiffrées, comptez deux semaines : une pour préparer le corpus et la liste de questions de référence, une pour faire passer les requêtes, comparer avec votre stack actuelle et analyser les écarts. Cette grille suffit pour engager ou non une industrialisation.

Quelle différence avec les approches de retrieval avancées comme HyDE ou ColBERT ?

HyDE génère un document hypothétique pour améliorer la recherche vectorielle, et ColBERT calcule des similarités au niveau des tokens. Les deux restent dans la logique vectorielle. PageIndex s’en distingue radicalement car il abandonne complètement les embeddings au profit du raisonnement structurel. Cette différence d’approche explique pourquoi PageIndex bat ces approches sur les documents longs et structurés, où la cohérence hiérarchique compte plus que la similarité locale.

Comment PageIndex évolue-t-il et quelles sont les perspectives ?

Le projet est très actif sur GitHub avec des contributions hebdomadaires. VectifyAI annonce des évolutions sur la gestion des documents très volumineux (au-delà de 1000 pages), l’optimisation du coût d’inférence via du caching d’arbre, et l’extension à des formats spécialisés (CAD techniques, présentations PowerPoint, transcripts vidéo). La feuille de route s’oriente clairement vers une plateforme universelle de retrieval structurel, indépendante du format source.

À propos de l’auteur

Carte auteur
Eric Christophe, dirigeant HDVMAEric Christophe
Dirigeant HDVMA, Eric accompagne les directions juridiques, financières et techniques dans l’évaluation et l’industrialisation des architectures RAG nouvelle génération. LinkedIn