MemPalace : mémoire IA 96 % LongMemEval

Un système de mémoire IA open source atteint 96,6 % de rappel sur le benchmark LongMemEval en stockant les conversations brutes sans résumé ni extraction par LLM. MemPalace, créé par Milla Jovovich et Ben Sigman, a franchi 35 000 étoiles GitHub en moins d’une semaine après sa publication le 6 avril 2026. Son architecture hiérarchique en palais mental organise la mémoire en ailes, salles et couloirs, et fonctionne entièrement en local sans API cloud.

Temps de lecture : 14 min

À retenir

MemPalace stocke les conversations en verbatim dans ChromaDB sans résumé LLM, obtenant 96,6 % sur LongMemEval sans aucune clé API
L’architecture en palais mental améliore la précision de recherche de 34 % par rapport à une base vectorielle plate
Le chargement progressif en 4 niveaux démarre avec seulement 170 tokens, préservant le budget de contexte pour le travail de l’agent

Pourquoi la mémoire reste le maillon faible des agents IA en 2026

La mémoire persistante pour agents IA désigne la capacité d’un LLM à retenir et retrouver les informations de conversations passées lors de sessions ultérieures. En avril 2026, la majorité des assistants IA perdent tout contexte entre les sessions, limitant leur utilité sur les projets longs et les interactions récurrentes.

Le coût de l’oubli pour les utilisateurs professionnels

Un utilisateur professionnel qui interagit quotidiennement avec un LLM pendant 6 mois accumule l’équivalent de 500 à 2 000 pages de conversations. Ces échanges contiennent des décisions, des préférences, des contextes métier et des informations personnelles. Le temps perdu en re-contextualisation représente 20 à 30 % de chaque session pour les utilisateurs réguliers, soit 1 à 2 heures par jour pour un usage intensif.

Les solutions commerciales (Mem0 à 19-249 dollars/mois, Zep à 25 dollars/mois+) utilisent un LLM pour extraire les souvenirs importants et jeter le reste. Cette approche introduit un biais de sélection : le LLM qui décide quoi retenir peut ignorer des informations critiques. MemPalace prend le parti inverse : tout conserver et laisser la recherche sémantique retrouver ce qui est pertinent au moment voulu.

Les études sur la rétention d’information montrent que les LLM d’extraction perdent en moyenne 23 % des détails factuels lors du processus de résumé. Pour les conversations techniques (choix d’architecture, comparaisons de frameworks, négociations commerciales), cette perte dépasse 35 %. Parmi les informations fréquemment perdues par l’extraction LLM figurent les justifications de décisions, les alternatives rejetées et les conditions contextuelles, exactement les éléments qu’un utilisateur cherche à retrouver 3 mois plus tard.

Le marché de la mémoire IA en expansion rapide

Le segment de la mémoire persistante pour agents IA connaît une croissance rapide en 2026, porté par l’adoption massive des agents de code et des assistants IA en entreprise. Les projets open source captent une part croissante du marché face aux solutions commerciales. MemPalace, avec 35 000 étoiles GitHub en une semaine, confirme la demande pour des solutions locales, gratuites et performantes. Le marché de la mémoire persistante pour agents IA devrait atteindre 2,1 milliards de dollars en 2027, porté par l’augmentation du nombre d’agents déployés en entreprise. Les architectures de mémoire locale comme MemPalace répondent aux exigences de souveraineté des données imposées par le RGPD en Europe et les régulations sectorielles (santé, finance, défense). Les entreprises qui stockent les conversations IA en cloud s’exposent à des risques de conformité que le stockage local élimine structurellement.

Pour les entreprises qui explorent l’IA au quotidien, notre Diagnostic IA personnalisé identifie les meilleurs points d’entrée.

Comment l’architecture en palais mental organise-t-elle la mémoire IA

Le palais mental (method of loci) est une technique mnémotechnique de la Grèce antique qui associe des informations à des lieux dans un bâtiment imaginaire. MemPalace transpose cette métaphore au stockage de données IA avec une hiérarchie en quatre niveaux : ailes (projets ou personnes), salles (sous-thèmes), couloirs (types de mémoire) et placards (résumés avec liens vers le contenu brut).

La hiérarchie structurée et ses gains de performance

Niveau	Fonction	Exemple
Aile (Wing)	Catégorie principale	Projet « Driftwood », collègue « Soren »
Salle (Room)	Sous-thème	Auth, billing, deploy
Couloir (Hall)	Type de mémoire partagé	Décisions, bugs, conversations
Placard (Closet)	Résumé + tiroirs de contenu brut	Résumé de session avec accès au verbatim

Cette structure améliore la précision de recherche de 34 % par rapport à une base vectorielle plate (GitHub MemPalace, 2026). La recherche en deux passes classifie d’abord la question dans un couloir, puis recherche dans ce couloir avec un second passage sur le corpus complet en bonus de score. Ce mécanisme produit des résultats hiérarchisés et contextuels. Les tests internes montrent que la recherche en deux passes réduit les faux positifs de 41 % par rapport à une recherche vectorielle unique, tout en maintenant un temps de réponse inférieur à 200 millisecondes sur des corpus de 100 000 observations.

Le chargement progressif en 4 niveaux

MemPalace divise la mémoire en quatre couches chargées de manière incrémentale. Le démarrage ne charge que L0 (identité, 50 tokens) et L1 (index du palais, 120 tokens), soit environ 170 tokens au total, une fraction minuscule de la fenêtre de contexte des LLM modernes. Un fichier CLAUDE.md classique charge plusieurs milliers de tokens à chaque session. Les niveaux L2 (résumés des placards pertinents) et L3 (contenu brut des tiroirs avec le verbatim complet) sont chargés à la demande, uniquement quand l’agent en a besoin. Cette architecture préserve le budget de contexte pour le travail réel de l’agent. Un agent Claude Code avec une fenêtre de 200 000 tokens peut consacrer 199 830 tokens à l’analyse de code au lieu de les gaspiller en contexte historique statique. Ce gain de budget contextuel se traduit directement en qualité de réponse : l’agent dispose de plus d’espace pour raisonner sur le problème en cours.

MemPalace s’intègre avec Claude Code, ChatGPT et Cursor via MCP (Model Context Protocol). L’import supporte les conversations Claude, les exports ChatGPT, les exports Slack et les fichiers de code. Pour les équipes qui automatisent d’autres processus, notre guide sur l’automatisation SEO et GEO montre les mêmes principes appliqués au marketing.

En pratique

Pour importer vos conversations : mempalace mine ~/.claude/projects/ --mode convos pour Claude, mempalace mine ~/exports/slack/ --mode convos --wing driftwood pour Slack. La recherche avec mempalace search "Clerk decision" retrouve qui a recommandé Clerk, pourquoi, et à quelle date.

Quels résultats MemPalace obtient-il sur les benchmarks de mémoire

LongMemEval est un benchmark standard qui évalue la mémoire IA sur 500 questions réparties en 6 types : extraction, raisonnement multi-session, raisonnement temporel, mises à jour, abstention et inférence temporelle. MemPalace atteint 96,6 % en mode brut sans aucun appel LLM pendant le stockage, le score le plus élevé publié pour un outil gratuit sans API cloud.

Scores brut et hybride

Mode	Score	Méthode	Coût API
Raw (brut)	96,6 %	Verbatim + embeddings ChromaDB	Zéro
Hybride v4 + rerank	100 %	Brut + reranker Haiku ou Sonnet	Faible

MemPalace surpasse Mem0 de plus de 2x sur LongMemEval. L’explication est structurelle : Mem0 utilise un LLM pour extraire les souvenirs, perdant le contexte quand l’extraction est incorrecte. MemPalace conserve l’intégralité des conversations et laisse les embeddings ChromaDB retrouver les passages pertinents par similarité sémantique.

Le raisonnement temporel comme point fort

Le raisonnement temporel (temporal-inference) est historiquement le type de question le plus difficile en mémoire IA. Sur LoCoMo, MemPalace passe de 46 % en baseline à 100 % avec le reranker Sonnet. Les indices temporels présents dans les conversations originales sont préservés intégralement par le stockage brut, là où un résumé LLM les supprime fréquemment.

La métrique utilisée par LongMemEval est recall_any@5, qui mesure si la bonne information apparaît quelque part dans les 5 premiers résultats récupérés. Cette métrique évalue la capacité de récupération, pas la qualité de la réponse finale. Un développeur a rapporté que les réponses correctes chutent à 17 % quand on connecte MemPalace à un LLM pour répondre aux questions, un écart qui illustre la différence entre récupérer l’information et l’exploiter correctement. Ce constat ne diminue pas la valeur du stockage brut, mais rappelle que la mémoire n’est qu’un composant dans un pipeline d’agent complet.

Évaluez votre maturité IA en 5 minutes avec notre Diagnostic IA gratuit.

Pourquoi le stockage brut surpasse-t-il l’extraction par LLM

Le stockage brut verbatim consiste à enregistrer les conversations complètes sans résumé, extraction ni transformation par un LLM intermédiaire. Cette approche contredit l’intuition dominante en ingénierie IA selon laquelle le résumé est nécessaire pour gérer les gros volumes de données conversationnelles. MemPalace démontre que cette approche simple surpasse les systèmes d’extraction sophistiqués sur les benchmarks de mémoire IA, un résultat contre-intuitif qui remet en question les hypothèses dominantes du domaine de la mémoire IA.

La perte d’information par extraction

Quand un LLM extrait « l’utilisateur préfère PostgreSQL » et jette la conversation, il perd le contexte : pourquoi PostgreSQL a été choisi, quelles alternatives ont été évaluées, quels compromis ont été acceptés. Si 3 mois plus tard l’utilisateur demande « pourquoi PostgreSQL plutôt que MongoDB ? », le système d’extraction ne peut pas répondre. MemPalace retrouve la conversation originale complète avec tous les arguments et la date de la décision.

Les embeddings modernes de ChromaDB suffisent pour retrouver les passages pertinents dans le texte brut par similarité sémantique. Le résumé LLM ajoute une étape de traitement coûteuse (en tokens et en temps) qui détruit de l’information sans améliorer la recherche. Cette découverte est la contribution principale de MemPalace au domaine. Les chercheurs avaient surestimé la complexité nécessaire au niveau du stockage et sous-estimé la puissance des embeddings modernes pour la recherche dans du texte brut. MemPalace prouve qu’un pipeline simple (stockage verbatim + bons embeddings + structure hiérarchique) surpasse des architectures complexes (extraction LLM + graphe de connaissances + résumés multi-niveaux) sur les benchmarks standards.

Cette approche a des implications pour d’autres domaines que la mémoire conversationnelle. Le stockage brut avec recherche sémantique peut s’appliquer aux bases de connaissances d’entreprise, aux archives d’emails, aux transcriptions de réunions et aux notes de recherche. Partout où la perte d’information par résumé est inacceptable, le pattern MemPalace offre une alternative viable et peu coûteuse.

Le graphe de connaissances temporel et AAAK

MemPalace inclut un graphe de connaissances temporel en SQLite local, inspiré de Graphiti (Zep) mais sans Neo4j. Chaque fait est associé à une fenêtre de validité. Les requêtes temporelles (« quel framework utilisais-je en janvier ? », « quand avons-nous migré de REST à GraphQL ? ») consultent le graphe directement, sans parcourir l’intégralité des conversations archivées. Le système AAAK (expérimental) compresse les entités répétées en un dialecte lisible par tout LLM. En mode AAAK, le rappel descend à 84,2 % contre 96,6 % en brut, un compromis en cours d’optimisation (MemPalace.tech, 2026).

En pratique

Installation : pip install mempalace, puis mempalace init ~/projects/monprojet. Import : mempalace mine ~/projects/monprojet pour le code, mempalace mine ~/chats/ --mode convos pour les conversations. Recherche : mempalace search "votre question".

Comment installer et utiliser MemPalace avec Claude Code

MemPalace s’installe via pip et se connecte aux agents IA via des serveurs MCP. L’ensemble fonctionne en local sur la machine de l’utilisateur sans aucune dépendance cloud.

Guide d’installation en 5 étapes

Étape 1 : installer MemPalace. Exécutez pip install mempalace dans un environnement Python 3.10+.

Étape 2 : initialiser le palais. Lancez mempalace init ~/projects/monprojet pour créer la structure hiérarchique.

Étape 3 : importer vos données. Utilisez mempalace mine pour ingérer code, documents, exports Slack et conversations IA. Les fichiers volumineux multi-sessions se découpent automatiquement avec mempalace split.

Étape 4 : connecter à votre agent IA. Configurez le serveur MCP pour Claude Code, ChatGPT ou Cursor.

Étape 5 : interroger la mémoire. Posez des questions en langage naturel. MemPalace retourne les observations avec les références aux conversations originales. La recherche utilise le système en deux passes : classification de la question par couloir, puis recherche ciblée avec bonus de score. Les résultats incluent le texte source complet avec la localisation exacte dans la conversation originale, permettant une vérification instantanée.

Compatibilité et intégrations futures

L’import depuis Cursor, Copilot, Codex et Windsurf est en développement (issue #59). La recherche multilingue (issue #50) est prévue pour les mémoires non anglaises. L’issue #100 recommande de pinner ChromaDB à une version testée pour la stabilité. Pour une création de site web qui exploite la mémoire IA, MemPalace peut alimenter des systèmes de personnalisation basés sur l’historique des interactions client.

Quelles sont les limites et controverses autour de MemPalace

MemPalace a suscité un débat significatif dans la communauté des développeurs dès sa publication. Plusieurs aspects du projet méritent une analyse critique pour une adoption éclairée.

La controverse sur les benchmarks et le marketing

Le score de 100 % sur LongMemEval a été obtenu après des corrections ciblées sur des questions spécifiques (issue #27). Les critiques qualifient cette méthode de surajustement au benchmark. L’équipe de développement a reconnu certaines imprécisions dans la documentation initiale et publié des corrections détaillées le 7 avril 2026, montrant une réactivité positive face aux retours de la communauté. Le score brut de 96,6 % est considéré comme plus représentatif. Le score LoCoMo de 100 % est aussi critiqué : les sessions contiennent 19 à 32 items et MemPalace utilise top_k=50, récupérant tout par défaut.

L’implication technique de Milla Jovovich (7 commits, 2 jours d’historique GitHub) a été questionnée. Le projet a été principalement développé par Ben Sigman. L’équipe a publié une note de correction le 7 avril 2026 reconnaissant les imprécisions initiales dans le README (Danilchenko.dev, 2026).

Limites techniques et recommandations

Le stockage verbatim consomme plus d’espace (200 à 500 Mo par mois d’usage intensif). Le bug macOS ARM64 (issue #74) et les incompatibilités ChromaDB (issue #100) peuvent poser problème. MemPalace prend tout son sens sur les projets longs et multi-plateformes. Pour les besoins simples, un fichier CLAUDE.md reste plus adapté. Le temps de configuration initial (installation Python, setup MCP, import des données) représente 30 à 60 minutes, un investissement justifié uniquement pour les projets de plus d’une semaine. Les développeurs Python expérimentés rapportent une mise en route en 15 minutes, tandis que les utilisateurs moins techniques peuvent nécessiter 45 à 60 minutes avec la documentation.

La vitesse de croissance du projet (35 000 étoiles en 48 heures) a soulevé des interrogations sur un possible gonflement artificiel des étoiles, un phénomène observé dans d’autres projets viraux. L’analyse des ratios étoiles/forks et des patterns de contribution suggère cependant une croissance organique portée par la couverture médiatique et la personnalité de Milla Jovovich. L’attention médiatique, amplifiée par les réseaux sociaux et la couverture de Cybernews et Hacker News, a aussi accéléré l’identification des bugs et des imprécisions documentaires, avec plus de 100 issues ouvertes dans les 5 premiers jours. Les secteurs d’activité qui gèrent de gros volumes de conversations client bénéficient le plus de cette approche.

Méthodologie

Cet article s’appuie sur GitHub MemPalace, MemPalace.tech et Danilchenko.dev, consultées en avril 2026.

📞 Appelez Eric au 06 25 34 34 25

Diagnostic IA gratuit · Nous contacter · SEO & GEO automatisé

Questions fréquentes sur MemPalace et la mémoire IA

MemPalace est-il gratuit ?

MemPalace est publié sous licence MIT, entièrement gratuit. Le mode brut (96,6 % LongMemEval) ne consomme aucun token LLM. Le mode hybride avec reranker nécessite une clé API Claude pour un coût marginal lors des recherches. Le projet comptait plus de 35 000 étoiles GitHub en avril 2026.

Quelle différence entre MemPalace et Mem0 ?

Mem0 utilise un LLM pour extraire et résumer les souvenirs, décidant ce qui vaut la peine d’être retenu. MemPalace stocke en verbatim sans résumé. MemPalace surpasse Mem0 de plus de 2x sur LongMemEval. Mem0 coûte 19 à 249 dollars par mois, MemPalace est gratuit et fonctionne en local.

MemPalace fonctionne-t-il avec Claude Code ?

MemPalace se connecte à Claude Code via un serveur MCP (Model Context Protocol). L’import des conversations Claude existantes se fait avec la commande mempalace mine ~/.claude/projects/ –mode convos. L’agent accède aux outils de recherche du palais depuis le terminal.

Comment MemPalace atteint-il 96,6 % sans LLM ?

MemPalace stocke les conversations complètes dans ChromaDB avec les embeddings par défaut. La qualité des embeddings modernes suffit pour la recherche sémantique. L’architecture hiérarchique améliore la précision de 34 % par rapport à une recherche vectorielle plate.

Qu’est-ce que le système AAAK ?

AAAK est un dialecte d’abréviation expérimental qui compresse les entités répétées en moins de tokens. Lisible par tout LLM sans décodeur, AAAK obtient 84,2 % sur LongMemEval contre 96,6 % en brut. L’optimisation est en cours pour réduire cet écart.

MemPalace est-il stable en production ?

MemPalace est un projet récent (avril 2026) avec des issues techniques identifiées (segfault macOS ARM64, compatibilité ChromaDB). L’équipe publie des correctifs activement. Le projet est utilisable avec les précautions d’un logiciel en maturation rapide.

Combien d’espace disque MemPalace utilise-t-il ?

Le stockage verbatim consomme 200 à 500 Mo par mois d’usage intensif. ChromaDB et SQLite stockent les données localement. L’espace disque est le principal compromis du stockage brut par rapport à l’extraction résumée par LLM.

MemPalace peut-il importer des conversations ChatGPT ?

MemPalace supporte les exports ChatGPT, Claude, Slack et le code source. La commande mempalace mine traite les fichiers. Les fichiers volumineux multi-sessions se découpent automatiquement avec mempalace split pour un import propre session par session.

Comment MemPalace se compare-t-il à Claude-Mem ?

Claude-Mem compresse les observations à 500 tokens via des hooks Claude Code. MemPalace stocke en brut sans compression. Claude-Mem excelle pour la mémoire de session de développement. MemPalace excelle pour la mémoire long terme multi-plateformes.

Les benchmarks sont-ils fiables ?

Le score brut de 96,6 % est reproductible sans optimisation ciblée. Le score hybride de 100 % a été obtenu après corrections sur des questions spécifiques, s’apparentant à un surajustement. Les critiques recommandent le score brut comme référence fiable.

Diag IA gratuit Nous contacter Parler à Eric