
Déployer un LLM chinois en local : guide technique Qwen, DeepSeek et MiMo en 2026
En 2026, les modèles de langage chinois open source dominent le classement mondial des LLM accessibles à tous. 7 des 10 meilleurs modèles open source sont chinois — Qwen, DeepSeek, MiMo, MiniCPM, GLM — et ils tournent sur du matériel grand public. Plus besoin de serveurs cloud coûteux ni d’API facturées au token : avec une simple commande ollama pull, vous déployez une IA performante en local, 100 % privée, sans aucune donnée envoyée à l’extérieur. Ce guide technique détaille chaque étape pour installer, configurer et exploiter ces modèles sur votre propre machine.
Qu’est-ce qu’un LLM local et pourquoi les modèles chinois dominent l’open source en 2026
Un LLM local est un modèle de langage dont l’inférence s’exécute entièrement sur votre machine. Aucune requête n’est envoyée vers un serveur distant. Aucune donnée ne quitte votre réseau. C’est l’antithèse des API cloud comme ChatGPT ou Claude, et c’est devenu une réalité accessible grâce aux progrès de la quantification et des runtimes comme Ollama.
En 2026, les laboratoires chinois ont pris une avance décisive dans l’open source. Qwen 3.5 d’Alibaba propose une famille complète de 0.8B à 397B paramètres, avec 256K tokens de contexte et le support de 201 langues. DeepSeek R1 excelle en raisonnement chaîne-de-pensée avec des déclinaisons distillées de 1.5B à 671B. MiMo de Xiaomi, avec MiMo-V2-Pro classé 8e mondial sur l’Artificial Analysis Intelligence Index, propose 1T de paramètres totaux pour seulement 42B actifs. Tous sont sous licence MIT ou Apache 2.0, autorisant l’usage commercial, la modification et le fine-tuning sans restriction. Cette ouverture contraste avec les modèles occidentaux souvent fermés ou sous licences restrictives, et explique pourquoi de plus en plus d’entreprises françaises explorent ces alternatives, comme le détaille notre analyse de l’avenir de l’IA et des modèles chinois légers en 2026.
Panorama des LLMs chinois disponibles : Qwen, DeepSeek, MiMo, MiniCPM, GLM
Cinq familles de modèles chinois se distinguent en 2026 par leur performance, leur accessibilité et la diversité de leurs déclinaisons. Chacune répond à des cas d’usage différents, du chatbot sur smartphone au serveur d’inférence multi-GPU en production.
| Modèle | Éditeur | Paramètres | Spécialité | Licence |
|---|---|---|---|---|
| Qwen 3.5 | Alibaba | 0.8B à 397B | Multimodal, 201 langues, 256K contexte | Apache 2.0 |
| DeepSeek R1 | DeepSeek | 1.5B à 671B | Raisonnement chaîne-de-pensée, maths, code | MIT |
| MiMo-V2-Flash | Xiaomi | 309B total / 15B actifs | Agents, coding, raisonnement rapide | MIT |
| MiniCPM4 | OpenBMB / Tsinghua | 0.5B à 8B | Ultra-léger, tourne sur smartphone | Apache 2.0 |
| GLM-5 | Zhipu AI | 744B / 40B actifs | Coding agentic, benchmarks proches des modèles fermés | Open Source |
Qwen 3.5 est la famille la plus complète. Le modèle 35B-A3B utilise une architecture Mixture-of-Experts avec seulement 3B de paramètres actifs, ce qui lui permet de tourner sur un Mac avec 22 Go de mémoire unifiée. L’architecture Hybrid Attention combine Gated Delta Networks et MoE pour un débit d’inférence élevé avec une latence minimale.
DeepSeek R1 se distingue par son raisonnement visible : le modèle expose sa réflexion étape par étape avant de donner sa réponse. Le 14B est le sweet spot pour la plupart des développeurs — il tourne sur 16 Go de RAM avec une quantification Q4_K_M recommandée. Les versions distillées basées sur Qwen et Llama offrent des performances compétitives avec les modèles propriétaires sur les benchmarks de maths et de code.
MiMo-V2-Pro de Xiaomi a surpris la communauté IA en se classant 8e mondial. Avec 1T de paramètres totaux mais seulement 42B actifs et un contexte de 1M de tokens, il approche les performances de Claude Opus 4.6 sur les tâches agentic. Pour notre propre pipeline automatisée, nous explorons l’intégration de ces modèles dans nos workflows SEO et GEO automatisés.
Choisir le bon modèle selon votre hardware
Le choix du modèle dépend directement de votre matériel disponible. La mémoire vive (RAM ou VRAM) est la contrainte principale : le modèle entier doit tenir en mémoire pour une inférence rapide. Un modèle qui déborde sur le swap peut voir sa vitesse chuter d’un facteur 10.
| Modèle | Params actifs | RAM minimum | GPU recommandé | Commande Ollama |
|---|---|---|---|---|
| DeepSeek R1 1.5B | 1.5B | 4 Go | Aucun (CPU) | ollama pull deepseek-r1:1.5b |
| Qwen 3.5 4B | 4B | 8 Go | Optionnel | ollama pull qwen3.5:4b |
| DeepSeek R1 7B | 7B | 8 Go | Optionnel | ollama pull deepseek-r1:7b |
| Qwen 3.5 9B | 9B | 16 Go | RTX 3060+ | ollama pull qwen3.5:9b |
| DeepSeek R1 14B | 14B | 16 Go | RTX 3060+ | ollama pull deepseek-r1:14b |
| Qwen 3.5 27B | 27B | 22 Go | Mac M-series / RTX 4070+ | Via llama.cpp |
| DeepSeek R1 32B | 32B | 32 Go | RTX 4090 | ollama pull deepseek-r1:32b |
| DeepSeek R1 70B | 70B | 48-64 Go | RTX 5090 / dual 4090 | ollama pull deepseek-r1:70b |
Pour un poste développeur standard avec 16 Go de RAM et une carte graphique NVIDIA milieu de gamme, DeepSeek R1 14B ou Qwen 3.5 9B représentent le meilleur compromis performance/accessibilité. Le Qwen 3.5 9B génère entre 80 et 120 tokens par seconde sur les GPU Blackwell et Hopper, ce qui rend les conversations quasi instantanées. Sur Mac avec Apple Silicon (M1/M2/M3/M4), Metal est automatiquement activé pour l’accélération GPU. Les machines avec 22 Go ou plus de mémoire unifiée peuvent faire tourner confortablement le Qwen 3.5 27B ou le 35B-A3B en MoE. Pour comparer ces modèles aux alternatives propriétaires, consultez notre comparatif GPT-5.4 vs Gemini 3.1 Pro vs Claude 4.6.
Guide pas-à-pas : déployer via Ollama
Ollama est le runtime le plus simple pour déployer un LLM en local. Une ligne de commande installe le logiciel, une autre télécharge le modèle. Aucune configuration Docker, aucun environnement Python complexe.
Installation
Sur Linux, une seule commande suffit : curl -fsSL https://ollama.com/install.sh | sh. Sur macOS, téléchargez le DMG depuis ollama.com. Sur Windows, utilisez l’installeur ou WSL2. Après installation, vérifiez la version avec ollama --version. Pour Qwen 3.5, la version 0.17 minimum est requise.
Téléchargement et premier prompt
Lancez le téléchargement du modèle : ollama pull deepseek-r1:14b ou ollama pull qwen3.5:9b. Le téléchargement est interruptible et reprend automatiquement là où il s’est arrêté. Une fois le modèle prêt, démarrez une session de chat : ollama run deepseek-r1:14b. Vous pouvez immédiatement interagir avec le modèle. Tapez /exit pour quitter la session.
API REST locale
Ollama expose automatiquement une API REST compatible OpenAI sur http://localhost:11434. Cette API permet d’intégrer le LLM local dans n’importe quelle application. L’endpoint /v1/chat/completions accepte le même format que l’API OpenAI, ce qui signifie que tout outil existant peut basculer vers un modèle local en changeant simplement l’URL du endpoint. C’est le même type d’intégration que nous utilisons chez HDVMA pour connecter nos outils à des modèles via les serveurs MCP et les pipelines IA.
| Outil | Rôle | Cas d’usage principal |
|---|---|---|
| Ollama | Runtime simple, une ligne | Expérimentation, développement, usage personnel |
| LM Studio | Interface graphique locale | Utilisateurs non techniques, tests visuels |
| Unsloth Studio | Web UI locale + fine-tuning | Fine-tuning, modèles Qwen 3.5 multimodaux |
| vLLM + Docker | Production haute performance | Serveur d’inférence multi-utilisateurs |
| llama.cpp | Moteur d’inférence fondation | Performance maximale CPU/GPU, quantification avancée |
| Open WebUI | Interface chat locale | Expérience type ChatGPT en local |
Déploiement production : vLLM, Docker et GPU
Pour un usage en production avec plusieurs utilisateurs simultanés, Ollama ne suffit plus. Il faut passer à vLLM ou SGLang, des frameworks d’inférence conçus pour maximiser le débit sur GPU.
Configuration Docker Compose avec vLLM
Le déploiement production type repose sur Docker avec le NVIDIA Container Toolkit. La commande de base pour servir un Qwen 3.5 en production est : vllm serve Qwen/Qwen3.5-35B-A3B --tensor-parallel-size 4 --port 8000. Pour DeepSeek R1, la commande équivalente utilise le même endpoint compatible OpenAI. Le tensor parallelism permet de distribuer le modèle sur plusieurs GPU pour des modèles plus grands.
Quantification : GGUF vs AWQ vs GPTQ
La quantification réduit la précision des poids du modèle pour diminuer la mémoire requise. Q4_K_M (GGUF) est le format recommandé pour la plupart des configurations avec Ollama et llama.cpp — c’est le meilleur compromis entre taille et qualité. AWQ est optimisé pour l’inférence GPU-only avec vLLM. GPTQ reste une alternative viable mais tend à être remplacé par AWQ en 2026. La quantification 4-bit est considérée comme le sweet spot : elle réduit la mémoire requise de 75 % avec une perte de qualité minimale sur les tâches de coding et de raisonnement.
Monitoring et optimisation
Surveillez la consommation mémoire avec nvidia-smi pour les GPU NVIDIA. Si l’inférence est anormalement lente (moins de 3 tokens/seconde), vérifiez avec free -h que le swap n’est pas saturé. L’activation de Flash Attention avec OLLAMA_FLASH_ATTENTION=1 améliore significativement les performances sur les contextes longs. Pour un audit complet de votre infrastructure technique, notre page création de site web détaille les bonnes pratiques de performance.
Interfaces graphiques, fine-tuning et intégration dans vos outils
Au-delà du terminal, plusieurs interfaces graphiques rendent les LLMs locaux accessibles aux non-développeurs. Et le fine-tuning permet d’adapter ces modèles à vos données métier spécifiques.
Interfaces graphiques
LM Studio offre une interface graphique complète pour télécharger, tester et comparer des modèles. Recherchez « Qwen3.5 » ou « DeepSeek R1 » dans l’onglet recherche, téléchargez le GGUF souhaité, et lancez une session de chat. Open WebUI se connecte au backend Ollama et fournit une expérience identique à ChatGPT, mais entièrement locale. Unsloth Studio est la solution recommandée pour les modèles Qwen 3.5 multimodaux, car les GGUF Qwen 3.5 nécessitent des fichiers mmproj séparés qui ne sont pas encore supportés nativement par Ollama.
Fine-tuning : LoRA, QLoRA et GRPO
Le fine-tuning local est l’avantage stratégique ultime des modèles open source. Avec LoRA (Low-Rank Adaptation), vous pouvez adapter un modèle de 14B paramètres à vos données métier avec seulement 8 Go de VRAM. QLoRA ajoute la quantification pendant le fine-tuning pour réduire encore la mémoire requise. Pour le fine-tuning orienté raisonnement, la technique GRPO (Group Relative Policy Optimization) utilisée par Xiaomi pour MiMo permet d’améliorer les capacités logiques du modèle sur des problèmes spécifiques à votre domaine.
Intégration dans les outils de développement
Les LLMs locaux s’intègrent nativement dans les IDE modernes. Dans Cursor, pointez l’endpoint sur http://localhost:11434/v1 et définissez le modèle comme deepseek-r1:14b pour des suggestions de code sans latence réseau et à coût zéro. VS Code avec l’extension Continue permet la même intégration. Pour les workflows IA plus complexes, LangChain se connecte à Ollama via la classe ChatOllama, permettant de construire des applications RAG (Retrieval-Augmented Generation) entièrement locales. Si vous souhaitez déployer un agent IA dans votre entreprise, la combinaison LLM local + RAG + serveur MCP constitue une architecture souveraine et performante.
Questions fréquentes sur le déploiement de LLMs chinois en local
Faut-il un GPU pour faire tourner un LLM en local ?
Non. Les modèles jusqu’à 7B paramètres fonctionnent correctement sur CPU seul avec 8 Go de RAM. Un GPU accélère considérablement l’inférence : un RTX 3060 avec 12 Go de VRAM permet de faire tourner des modèles 14B à bonne vitesse. Les Mac avec Apple Silicon utilisent Metal automatiquement pour l’accélération GPU.
Les données sont-elles envoyées en Chine quand on utilise Ollama avec DeepSeek ?
Non. Quand vous exécutez un modèle localement via Ollama, les poids sont téléchargés une fois depuis Hugging Face ou le registre Ollama, puis toute l’inférence se fait sur votre machine. Aucune connexion aux serveurs de DeepSeek, aucune télémétrie, aucun envoi de données. Le risque de transfert de données vers la Chine ne concerne que l’API cloud et le site chat.deepseek.com.
Quel modèle choisir pour le coding ?
Pour le coding, DeepSeek R1 14B excelle en raisonnement étape par étape et en résolution de bugs. Qwen3-Coder-Next (80B total / 3B actifs, MoE) est spécialisé pour les agents de code avec un contexte de 256K tokens. MiMo-V2-Pro approche les performances de Claude Opus 4.6 sur les benchmarks agentic. Le choix dépend de votre VRAM disponible et du type de tâches (génération, refactoring, debugging).
Peut-on utiliser plusieurs modèles simultanément ?
Oui, mais chaque modèle consomme de la mémoire. La plupart des configurations permettent 1 à 2 modèles en parallèle. Ollama gère le chargement/déchargement automatiquement. Pour libérer la VRAM, utilisez ollama stop nom-du-modele après usage.
Comment mettre à jour un modèle dans Ollama ?
Relancez simplement la commande ollama pull nom-du-modele. Si une mise à jour est disponible, Ollama télécharge uniquement le différentiel. DeepSeek R1 a notamment reçu une mise à jour R1-0528 avec des améliorations significatives du raisonnement et de l’inférence.
Combien coûte le déploiement d’un LLM local vs une API cloud ?
Le LLM local est gratuit après le téléchargement initial — aucun coût par token, aucun abonnement. Le seul coût est l’électricité et l’amortissement du matériel. Pour une PME qui consomme 10 millions de tokens par mois, l’économie par rapport aux API cloud peut dépasser 1 000 € par mois. Notre Diagnostic IA vous aide à évaluer le retour sur investissement pour votre cas spécifique.
Diag IA gratuit
Nous contacter
Parler à Eric



