L'IA locale – enfin expliquée, sans bullshit marketing
Le rêve est séduisant\u202f: votre propre IA sur votre propre machine. Pas d'abonnement mensuel, pas de dilemme vie privée, contrôle total. On installe Ollama, on charge un modèle – et on attend la magie.
Ce qui se passe vraiment\u202f: la souris rame, le navigateur se fige, le disque dur passe à 100\u202f% de charge. L'ordinateur bipe. Bienvenue dans la réalité.
Cet article montre ce qui est vraiment faisable avec 32 Go de RAM, quels modèles valent la peine – et pourquoi le DDR5-6000 n'est pas une mise à niveau judicieuse.
Le rêve est séduisant\u202f: votre propre IA sur votre propre machine. Pas d'abonnement mensuel, pas de dilemme vie privée, contrôle total sur le code et le contexte. On installe Ollama, on charge un modèle – et on attend la magie.
Le choc
Dès que ollama run llama3.3:70b se lance, ça arrive\u202f: la souris rame, le navigateur se fige, le SSD passe définitivement à 100\u202f% de charge. Pourquoi\u202f? Le modèle ne rentre plus en RAM – Windows commence à paginer des gigaoctets vers le fichier d'échange.
Le swap n'est pas un filet de sécurité pour les LLM. C'est une pénalité de temps\u202f: au lieu de 20 tokens par seconde, on en obtient 0,3 – si tant est qu'on en obtienne.
La réalité\u202f: qu'est-ce qui tourne vraiment sur 32 Go de RAM\u202f?
Règle générale\u202f: un LLM nécessite environ ~0,5 Go par milliard de paramètres en quantification 4 bits (Q4), environ ~1 Go en pleine précision FP16. À cela s'ajoutent l'OS, le navigateur, l'IDE et les outils de développement – au minimum 6–8 Go de surcharge sur une machine Windows de développeur.
Tableau des modèles (Ollama, avril 2026)
Colonnes
Gemma 3:1b
1 Md.
~1,5 Go
~8 Go
~2 Go
✓ OK
Nano-modèle, idéal pour les tests edge/hors-ligne
Phi-4-mini
3,8 Md.
~3 Go
~9 Go
~4 Go
✓ OK
Le poids lourd du code de Microsoft en format mini
Llama 3.2:3b
3 Md.
~2,5 Go
~9 Go
~3 Go
✓ OK
Tourne en arrière-plan, bon pour les ébauches rapides
Gemma 3:4b
4 Md.
~3,5 Go
~10 Go
~4 Go
✓ OK
La finesse linguistique de Google en format compact
Mistral 7b
7 Md.
~5 Go
~12 Go
~6 Go
✓ OK
Classique, robuste, extrêmement polyvalent
Llama 3.1:8b
8 Md.
~6 Go
~13 Go
~6 Go
✓ OK
Le point idéal pour les systèmes 32 Go
CodeLlama:7b
7 Md.
~5 Go
~12 Go
~6 Go
✓ OK
Complétion de code, bonne couverture PHP/JS
DeepSeek-R1:7b
7 Md.
~5 Go
~12 Go
~6 Go
✓ OK
Modèle de raisonnement, plus fort que sa taille le laisse penser
Qwen2.5-Coder:7b
7 Md.
~5 Go
~12 Go
~6 Go
✓ OK
Spécialiste code d'Alibaba, excellent pour PHP/Python
Gemma 3:12b
12 Md.
~9 Go
~16 Go
~10 Go
✓ OK
Bon équilibre – encore à l'aise sur 32 Go
CodeLlama:13b
13 Md.
~9 Go
~17 Go
~10 Go
✓ OK
Plus de contexte, meilleur refactoring
Llama 3.1:13b
13 Md.
~9 Go
~17 Go
~10 Go
✓ OK
Sensiblement plus fort que le 8b en raisonnement
DeepSeek-R1:14b
14 Md.
~10 Go
~18 Go
~12 Go
✓ OK
Puissance de raisonnement, encore faisable sur 32 Go
Qwen2.5:14b
14 Md.
~10 Go
~18 Go
~12 Go
✓ OK
Force multilingue (allemand bien supporté)
Gemma 3:27b
27 Md.
~18 Go
~26 Go
~20 Go
⚠ Limite
Juste sur 32 Go, mais possible sans swap
DeepSeek-R1:32b
32 Md.
~22 Go
~30 Go
~24 Go
⚠ Limite
À la limite sur 32 Go – presque plus de place pour les autres applis
Mixtral 8×7b
~47 Md. eff.
~30 Go
~40 Go+
~32 Go
✗ Swap
Architecture MoE – nécessite quand même beaucoup de RAM
Llama 3.3:70b
70 Md.
~43 Go
~55 Go+
~48 Go
✗ Swap
Tueur de système sur 32 Go – enfer du swap
Qwen2.5:72b
72 Md.
~47 Go
~60 Go+
~48 Go
✗ Swap
Seulement sensé à partir de 64 Go
DeepSeek-R1:70b
70 Md.
~45 Go
~58 Go+
~48 Go
✗ Swap
Monstre de raisonnement – seulement avec 64 Go+
RAM flux de travail = Modèle + ~6–8 Go de surcharge OS/IDE/navigateur sur Windows.
GPU VRAM = Nécessaire pour l'inférence GPU complète (sans déchargement CPU).
Valeurs pour la quantification Q4 (par défaut dans Ollama). Q8 double approximativement les besoins.
🛠️ Checklist matériel & système\u202f: optimisation IA
Avec 32 Go de RAM, on est dans le « haut du milieu de gamme » – suffisant pour travailler efficacement, mais trop peu pour être prodigue avec les modèles IA.
[ ] Forcer le fichier de pagination sur NVMe\u202f: Assurez-vous que le fichier d'échange Windows se trouve exclusivement sur le SSD NVMe. Si Windows pagine des fragments d'un modèle IA sur le HDD, la génération de tokens tombe à une vitesse d'escargot.
[ ] Minimiser la charge en arrière-plan\u202f: Fermez tous les mangeurs de mémoire inutiles avant de démarrer Ollama ou LM Studio. Un navigateur avec 20 onglets et quatre espaces de travail VS Code occupe déjà ~10–12 Go – cela réduit de moitié la place pour le modèle.
[ ] Prioriser le déchargement GPU\u202f: Utilisez des modèles qui tiennent dans la VRAM de la carte graphique. 32 Go de RAM système c'est bien, mais 8–12 Go de VRAM comptent 10× plus pour la vitesse de réponse (latence).
[ ] Choisir la quantification\u202f: Pour les modèles 8b, Q4_K_M ou Q5_K_M est recommandé. Cela réduit massivement l'utilisation de RAM avec une perte de qualité minimale.
🧠 Stratégie de modèles pour 32 Go de RAM
[ ] Le modèle « valeur sûre » (8b)\u202f: ~5–8 Go RAM – tient parfaitement, même avec VS Code en arrière-plan.
[ ] L'option « borderline » (14b–20b)\u202f: ~12–18 Go – fermer les applications ouvertes pour éviter les ralentissements.
[ ] La « zone à éviter » (70b+)\u202f: ~40 Go+ de RAM – force le système au swap et pousse le HDD à 100\u202f% de charge.
📈 Stratégie de mise à niveau\u202f: capacité avant fréquence
[ ] Capacité (Go) avant vitesse (MT/s)\u202f: Le passage de DDR5-5200 à DDR5-6000 apporte au mieux 3–5\u202f% de tokens/seconde supplémentaires sur les charges IA. 64 Go à 5200 MT/s écrasent 32 Go à 6000 MT/s.
[ ] Dual-channel obligatoire\u202f: Les calculs IA sont extrêmement gourmands en bande passante mémoire. Un seul barrette divise par deux la bande passante effective. Toujours utiliser deux ou quatre barrettes symétriquement.
Astuce pro\u202f: Les « bips » quand un système 32 Go est sous charge sont la preuve acoustique que Windows tente de compenser le manque de RAM par des accès disque excessifs.
La grande question prix\u202f: mettre à niveau ou attendre\u202f?
DDR5-5200 vs. DDR5-6000 – le remplacement vaut-il le coup\u202f?
Réponse courte\u202f: non.
Le goulot d'étranglement pour les modèles paginés vers le disque, c'est la bande passante vers le CPU – et les deux classes de vitesse sont proches là-dessus. La meilleure stratégie\u202f: garder ses barrettes 5200 actuelles, en acheter deux autres, passer à 64 Go. Plus de swap, plus de bips, plus de tombeau de données.
💶 Le bilan financier réel\u202f: étendre ou remplacer\u202f?
Scénario de départ\u202f: 32 Go (2× 16 Go) DDR5-5200 installés, objectif\u202f: 64 Go, pour arrêter le swap.
Option A – Speed Freak (remplacer)
Option B – Pragmatique (étendre)
Quoi
Vendre l'ancien kit, acheter un nouveau kit 64 Go DDR5-6000 CL30
Racheter le même kit 32 Go DDR5-5200, remplir les slots libres
Coût
~220 € (neuf) − 50 € (vente ancien) = ~170 €
~90 €
Effort
Démonter, vendre, installer
Ouvrir le capot, enficher, c'est fait
Résultat
64 Go DDR5-6000 (très rapide)
64 Go DDR5-5200 (assez rapide)
La prime de ~80 € pour l'option A vaut-elle le coup\u202f?
La différence entre 5200 et 6000 MT/s se traduit en pratique par 5–8\u202f% de tokens/seconde supplémentaires – donc au lieu de 10 mots par seconde, l'IA en produit 10,8. Vous le remarquez en lisant\u202f? À peine. Vous remarquez avoir payé presque le double\u202f? Absolument.
La règle d'or\u202f: Investissez les 80 € économisés avec l'option B dans un SSD NVMe plus grand. Pour l'IA locale, peu importe si la RAM tourne à 5200 ou 6000 MT/s – l'essentiel est que le modèle tienne entièrement en mémoire et que le disque dur soit tranquille.
Géopolitique et prix\u202f: attendre que ça se calme\u202f?
Souhait\u202f:« J'attends que les tensions commerciales Chine–États-Unis s'apaisent et que la DRAM baisse de 20–30\u202f%. »
Réalité\u202f: Le boom IA a structurellement relevé la demande mondiale de puces mémoire. Historiquement\u202f: ceux qui attendent une détente géopolitique pour acheter du matériel attendent souvent 18 mois – et finissent par acheter au même prix ou plus cher, un an plus tard.
Le face-à-face technique\u202f: HDD vs. SSD pour l'IA
Quand un LLM local démarre, un énorme transfert de données a lieu. Pourquoi un disque reste silencieux et l'autre « crie » se résume à l'architecture.
Le goulot d'étranglement\u202f: IOPS
Les modèles IA sont constitués de milliards de poids qui doivent être entièrement chargés en RAM\u202f:
HDD\u202f: ~80–120 IOPS. La tête de lecture doit se déplacer physiquement. Si le modèle n'est pas stocké de façon contiguë, le HDD passe plus de temps à chercher qu'à lire.
Quand le CPU demande des données mais que le HDD est bloqué à 100\u202f% de temps actif, la file d'attente d'E/S se remplit. Les OS modernes priorisent les processus système critiques – un HDD bloqué empêche même la souris et le clavier d'être traités. La carte mère accuse réception du timeout d'E/S avec de courts bips. C'est la preuve acoustique d'un embouteillage système.
Le swap\u202f: le coup de grâce pour le HDD
Fonctionnalité
HDD (mécanique)
SSD NVMe (électrique)
Temps d'accès
~10–15 ms
~0,05 ms
Comportement à 100\u202f% de charge
Gel système & bips
Lag perceptible, mais stable
Compatibilité IA
Archive uniquement (stockage froid)
Indispensable pour les modèles actifs
Usure mécanique
Élevée (stress de tête de lecture)
Aucune (électrique)
Faire tourner une IA sur un HDD, c'est forcer un marathonien à sprinter dans de la boue jusqu'aux hanches. Les bips, c'est le cri pour de l'air.
💾 Quel SSD\u202f? Ancien SATA ou nouveau NVMe\u202f?
Scénario\u202f: le HDD part à la retraite – qu'est-ce qui le remplace\u202f?
Ancien SSD SATA 500 Go
Nouveau NVMe M.2 (1–2 To)
Nouveau SSD SATA (1–2 To)
Vitesse
~500 Mo/s
3 000–7 000 Mo/s
~550 Mo/s
IOPS
~50 000
500 000–1 000 000
~90 000
Chargement modèle 8b (~5 Go)
~10 s
~1–2 s
~9 s
Capacité
500 Go (se remplit vite)
1 To ~65–80 € / 2 To ~110–140 €
1 To ~70–80 € / 2 To ~120–140 €
Installation
Câble (comme HDD)
Slot M.2 directement sur la carte
Câble (comme HDD)
Coût
0 € (déjà en votre possession)
à partir de ~65 €
à partir de ~70 €
Recommandation en deux étapes\u202f:
Mesure immédiate (0 €)\u202f: Installer l'ancien SSD SATA 500 Go, déplacer les dépôts actifs et modèles dessus. Les ralentissements et bips s'arrêtent immédiatement – le bond en IOPS de HDD vers SSD SATA est énorme.
Long terme (~120 €)\u202f: Quand les 500 Go se remplissent de modèles Ollama\u202f: 2 To NVMe M.2 (ex. WD Blue SN580, Lexar NM710). C'est le point idéal absolu pour le développement IA local.
Les SSD SATA sont à peine moins chers que les NVMe désormais – l'ancienne technologie n'est plus produite dans les mêmes volumes. Si la carte a un slot M.2 libre\u202f: toujours NVMe.
Question légitime. Le stockage flash s'use non pas par la lecture (charger un modèle ne dérange pas du tout le SSD), mais par l'écriture. La durée de vie se mesure en TBW (Téraoctets écrits).
Le facteur RAM intervient ici à nouveau\u202f: quand la mémoire vive est trop petite pour le modèle choisi, Windows commence à swapper massivement – paginant en permanence des gigaoctets vers le SSD et les relisant quelques secondes plus tard. Ce cycle d'écriture constant grignote mesurément la durée de vie des puces.
La réalité rassurante\u202f: les SSD 2 To milieu de gamme modernes supportent souvent plus de 1 000 TBW sans problème. Avant qu'un bon SSD soit mort à force de swap IA, vous aurez probablement de toute façon acheté une nouvelle machine.
Conclusion\u202f: Un SSD est une bête de somme, pas un œuf cru. Mais le meilleur protecteur de durée de vie pour n'importe quel disque reste\u202f: suffisamment de RAM – pour que le swap ne soit jamais nécessaire.
♻️ Que faire de mon ancien matériel\u202f?
Une mise à niveau ne signifie pas forcément des déchets électroniques. L'ancien matériel a souvent une belle seconde vie\u202f:
Matériel
Réutilisation sensée
Ancien HDD (mécanique)
Sauvegarde stockage froid\u202f: photos, archives de projets, images VM – tout ce qui est rarement consulté. Jamais pour les dépôts actifs ou modèles.
Ancien SSD SATA (500 Go)
Second disque pour les dépôts actifs, modèles Ollama ou espace de travail temporaire. Le bond en IOPS de HDD → SSD SATA est énorme – gain immédiat à coût zéro.
Ancienne RAM (trop lente ou insuffisante)
Marché de l'occasion (eBay, leboncoin)\u202f: les barrettes DDR5 se vendent encore 40–60 € la barrette de 16 Go. Préciser le timing et la fréquence.
Ancien laptop avec SSD NVMe 1 To
Serveur homelab pour Ollama, instance Git locale ou agent CI/CD – un Samsung 980 1 To est une excellente base pour cela.
La mise à niveau la moins chère est souvent celle qu'on possède déjà – il suffit de l'utiliser intelligemment.
Conclusion\u202f: cris numériques au secours et régimes de barrettes RAM
Quand le PC commence à biper comme R2-D2 avec le hoquet, ce n'est pas une fonctionnalité de la nouvelle « expérience IA » – c'est un cri au secours du matériel.
Le rêve de l'IA locale est séduisant, mais le choc arrive quand le modèle 70b essaie de se glisser dans 32 Go de RAM comme un éléphant dans une Smart cabriolet. La réalité\u202f: le HDD a officiellement mérité le statut de pièce de musée à l'ère de l'IA.
Résumé rapide pour tous les aventuriers IA locaux\u202f:
Le SSD est obligatoire. Les projets et modèles appartiennent au NVMe, pas dans le tombeau de données mécanique.
La RAM est la monnaie. Rien ne remplace la cylindrée – sauf plus de cylindrée, ou 64 Go DDR5.
La capacité bat la fréquence. 64 Go à 5200 MT/s écrasent 32 Go à 6000 MT/s – et coûtent ~90 € au lieu de ~170 €.
Le HDD peut rester – comme archive. Sauvegardes, photos, anciens projets\u202f: pas de problème. Modèles IA\u202f: jamais.
Réutiliser avant d'acheter neuf. Un ancien SSD SATA sauve le système aujourd'hui ; un NVMe 2 To le sauvera à long terme.
GitHub est votre sauvegarde, le cloud n'est pas chez vous. Les développeurs locaux ont besoin de fer dans la machine.
L'IA locale n'est pas de la sorcellerie – mais elle a besoin de la bonne scène. Un NVMe pour les modèles, assez de RAM pour que le HDD reste tranquille, et la volonté de réutiliser l'ancien matériel intelligemment plutôt que de mettre à niveau à l'aveugle. Alors l'IA tourne fluidement, le portefeuille dit merci, et la carte mère arrête enfin de biper.
🔬 Simulateur interactif\u202f: combien de temps votre système se fige-t-il\u202f?
Choisissez un modèle et votre RAM libre – le simulateur montre ce qui se passe sur votre disque.
Simulateur de temps de chargement IA
Combien de temps votre stockage met-il pour charger le modèle en RAM – ou le paginer vers le swap\u202f?
Go = taille fichier Q4 (téléchargement Ollama)
⚠️ Avertissement swap\u202f: Le modèle ne tient pas entièrement dans la RAM libre.
⚡ SSD NVMe (5 000 Mo/s · 700 000 IOPS)–
💿 SSD SATA (550 Mo/s · 90 000 IOPS)–
🐌 HDD (mécanique) (120 Mo/s · 120 IOPS)–
Les temps de chargement sont des approximations simplifiées (accès séquentiel, quantification Q4). La surcharge de swap et la dégradation des IOPS en accès aléatoire sont déjà intégrées dans le temps HDD (facteur ×8).
Support the Journey & Development! 🚀
If my IT guides or the Snapmaker Wiki saved your project (or your hardware), I'd appreciate a coffee! ☕ Your support doesn't just cover hosting and testing costs—it also fuels the development of my apps and tools. Every donation helps me dedicate more time to coding solutions that make our tech-life easier. Thank you for being part of this!