ready-4 IT

Lokale KI – Wunsch, Schock und Wirklichkeit: Wenn der RAM-Hunger die Festplatte frisst

Zur Blog-Uebersicht

Lokale KI – endlich erklärt, ohne Marketingblasen

Der Traum ist verlockend: Eine eigene KI auf dem eigenen Rechner. Kein Monatsabo, kein Datenschutz-Dilemma, volle Kontrolle. Man installiert Ollama, lädt ein Modell – und erwartet Magie.

Was dann wirklich passiert: Die Maus stockt, der Browser friert ein, die Festplatte springt auf 100 % Last. Das Betriebssystem piept. Willkommen in der Wirklichkeit.

Dieser Artikel zeigt, was mit 32 GB RAM wirklich machbar ist, welche Modelle sich lohnen – und warum DDR5-6000 kein sinnvolles Upgrade ist.

Der Wunsch

Der Traum ist verlockend: Eine eigene KI auf dem eigenen Rechner. Kein Monatsabo, kein Datenschutz-Dilemma, volle Kontrolle über Code und Kontext. Man installiert Ollama, lädt ein Modell – und erwartet Magie.

Der Schock

Sobald ollama run llama3.3:70b losläuft, passiert es: Die Maus stockt, der Browser friert ein, die SSD springt dauerhaft auf 100 % Last. Warum? Das Modell passt nicht mehr in den RAM – Windows fängt an, Gigabytes in die Auslagerungsdatei zu schieben.

Swap ist bei LLMs kein Sicherheitsnetz. Es ist Zeitstrafe: Statt 20 Tokens pro Sekunde bekommt man 0,3 – wenn überhaupt.

Die Wirklichkeit: Was läuft wirklich auf 32 GB RAM?

Faustregel: Ein LLM braucht ca. ~0,5 GB pro Milliarde Parameter bei 4-Bit-Quantisierung (Q4), ca. ~1 GB bei voller FP16-Präzision. Dazu kommen Betriebssystem, Browser, IDE und Dev-Tools – mindestens 6–8 GB Overhead auf einem Windows-Entwicklungsrechner.

Modelltabelle (Ollama, Stand April 2026)



Gemma 3:1b	1 Mrd.	~1,5 GB	~8 GB	~2 GB	✓ Gut	Nano-Modell, ideal für Edge/Offline-Tests
Phi-4-mini	3,8 Mrd.	~3 GB	~9 GB	~4 GB	✓ Gut	Microsofts Coding-Schwergewicht im Mini-Format
Llama 3.2:3b	3 Mrd.	~2,5 GB	~9 GB	~3 GB	✓ Gut	Flüssig nebenher, gut für schnelle Drafts
Gemma 3:4b	4 Mrd.	~3,5 GB	~10 GB	~4 GB	✓ Gut	Googles Sprach-Feinheit in kompakt
Mistral 7b	7 Mrd.	~5 GB	~12 GB	~6 GB	✓ Gut	Klassiker, robust, extrem breit einsetzbar
Llama 3.1:8b	8 Mrd.	~6 GB	~13 GB	~6 GB	✓ Gut	Der Sweetspot für 32-GB-Systeme
CodeLlama:7b	7 Mrd.	~5 GB	~12 GB	~6 GB	✓ Gut	Für Code-Completion, gute PHP/JS-Abdeckung
DeepSeek-R1:7b	7 Mrd.	~5 GB	~12 GB	~6 GB	✓ Gut	Reasoning-Modell, stärker als die Größe vermuten lässt
Qwen2.5-Coder:7b	7 Mrd.	~5 GB	~12 GB	~6 GB	✓ Gut	Alibabas Code-Spezialist, top für PHP/Python
Gemma 3:12b	12 Mrd.	~9 GB	~16 GB	~10 GB	✓ Gut	Gute Balance – auf 32 GB noch komfortabel
CodeLlama:13b	13 Mrd.	~9 GB	~17 GB	~10 GB	✓ Gut	Mehr Kontext, besseres Refactoring
Llama 3.1:13b	13 Mrd.	~9 GB	~17 GB	~10 GB	✓ Gut	Spürbar stärker als 8b bei Reasoning
DeepSeek-R1:14b	14 Mrd.	~10 GB	~18 GB	~12 GB	✓ Gut	Reasoning-Stärke, noch auf 32 GB machbar
Qwen2.5:14b	14 Mrd.	~10 GB	~18 GB	~12 GB	✓ Gut	Multilinguale Stärke (auch Deutsch gut)
Gemma 3:27b	27 Mrd.	~18 GB	~26 GB	~20 GB	⚠ Eng	Auf 32 GB eng, aber möglich ohne Swap
DeepSeek-R1:32b	32 Mrd.	~22 GB	~30 GB	~24 GB	⚠ Eng	Grenzwert auf 32 GB – kaum noch andere Apps
Mixtral 8×7b	~47 Mrd. eff.	~30 GB	~40 GB+	~32 GB	✗ Swap	MoE-Architektur – braucht trotzdem viel RAM
Llama 3.3:70b	70 Mrd.	~43 GB	~55 GB+	~48 GB	✗ Swap	Systemkiller auf 32 GB – Swap-Hölle
Qwen2.5:72b	72 Mrd.	~47 GB	~60 GB+	~48 GB	✗ Swap	Erst ab 64 GB sinnvoll
DeepSeek-R1:70b	70 Mrd.	~45 GB	~58 GB+	~48 GB	✗ Swap	Reasoning-Monster – nur mit 64 GB+

Work-Flow RAM = Modell + ~6–8 GB OS/IDE/Browser-Overhead auf Windows. GPU-VRAM = Bedarf für vollständige GPU-Inferenz (ohne CPU-Offload). Werte bei Q4-Quantisierung (Standard in Ollama). Q8 verdoppelt den Bedarf annähernd.

🛠️ Hardware & System-Checkliste: KI-Optimierung

Mit 32 GB RAM befindet man sich im „gehobenen Mittelfeld" – genug für effizientes Arbeiten, aber zu wenig, um bei KI-Modellen verschwenderisch zu sein.

[ ] Swap-File auf NVMe erzwingen: Stelle sicher, dass die Windows-Auslagerungsdatei ausschließlich auf der NVMe-SSD liegt. Wenn Windows Fragmente eines KI-Modells auf die HDD auslagert, bricht die Token-Generierung auf Schneckentempo ein.
[ ] Hintergrundlast minimieren: Beende vor dem Start von Ollama oder LM Studio alle unnötigen Speicherfresser. Ein Browser mit 20 Tabs und vier VS Code Workspaces belegt bereits ~10–12 GB – das halbiert den Platz für das Modell.
[ ] GPU-Offloading priorisieren: Nutze Modelle, die in den VRAM der Grafikkarte passen. 32 GB System-RAM sind gut, aber 8–12 GB VRAM sind für die Antwortgeschwindigkeit (Latenz) 10× wichtiger.
[ ] Quantisierung wählen: Für 8b-Modelle empfiehlt sich Q4_K_M oder Q5_K_M. Das reduziert den RAM-Bedarf massiv bei minimalem Qualitätsverlust.

🧠 Modell-Strategie für 32 GB RAM

[ ] Das „Safe Bet"-Modell (8b): ~5–8 GB RAM – passt perfekt, auch mit VS Code im Hintergrund.
[ ] Der „Grenzgänger" (14b–20b): ~12–18 GB – aktiv Anwendungen schließen, um Ruckler zu vermeiden.
[ ] Die „No-Go"-Zone (70b+): ~40 GB+ RAM-Anforderung – zwingt das System ins Swapping und treibt die HDD auf 100 % Last.

📈 Upgrade-Strategie: Kapazität vor Taktung

[ ] Kapazität (GB) vor Geschwindigkeit (MT/s): Der Sprung von DDR5-5200 auf DDR5-6000 bringt bei KI-Workloads bestenfalls 3–5 % mehr Token/Sekunde. 64 GB mit 5200 MT/s schlagen 32 GB mit 6000 MT/s um Längen.
[ ] Dual-Channel beachten: KI-Berechnungen sind extrem bandbreitenintensiv. Ein einzelner Riegel halbiert die effektive Bandbreite. Immer zwei oder vier Riegel symmetrisch nutzen.

Pro-Tipp: Das „Piepen" bei ausgelastetem 32-GB-System ist der akustische Beweis dafür, dass Windows gerade versucht, den RAM-Mangel durch exzessive Festplattenzugriffe auszugleichen.

Die große Preis-Frage: Upgraden oder Warten?

DDR5-5200 vs. DDR5-6000 – lohnt sich der Tausch?

Kurze Antwort: Nein.

Der Flaschenhals bei Modellen, die in den RAM ausgelagert werden, ist die Bandbreite zur CPU – und da liegen beide Geschwindigkeitsklassen nah beieinander. Die bessere Strategie: Die vorhandenen 5200er Riegel behalten, zwei weitere kaufen, auf 64 GB gehen. Kein Swap mehr, kein Piepen, kein Datengrab.

💶 Der finanzielle Realitätscheck: Erweitern vs. Ersetzen

Ausgangsscenario: 32 GB (2× 16 GB) DDR5-5200 verbaut, Ziel: 64 GB, damit das Swapping aufhört.

	Option A – Speed-Freak (ersetzen)	Option B – Pragmatiker (erweitern)
Was	Altes Kit verkaufen, neues 64 GB DDR5-6000 CL30 kaufen	Gleiches 32 GB DDR5-5200 Kit nochmal kaufen, freie Slots befüllen
Kosten	~220 € (neu) − 50 € (Verkauf alt) = ~170 €	~90 €
Aufwand	Ausbauen, verkaufen, einbauen	Deckel auf, reinstecken, fertig
Ergebnis	64 GB DDR5-6000 (sehr schnell)	64 GB DDR5-5200 (schnell genug)

Lohnt sich der Aufpreis von ~80 € für Option A?

Der Unterschied von 5200 auf 6000 MT/s bringt in der Praxis 5–8 % mehr Token/Sekunde — also statt 10 Wörtern pro Sekunde generiert die KI dann 10,8. Fällt das beim Lesen auf? Kaum. Fällt auf, dass man fast das Doppelte bezahlt hat? Definitiv.

Die goldene Regel: Investiere die gesparten 80 € lieber in eine größere NVMe-SSD. Für lokale KI ist es völlig egal, ob der RAM mit 5200 oder 6000 MT/s taktet — Hauptsache, das Modell passt vollständig hinein und die Festplatte hat Ruhe.

Geopolitik und Preise: Auf Entspannung warten?

Wunsch: „Ich warte, bis die Handelsspannungen zwischen China und den USA sich legen und DRAM wieder 20–30 % günstiger wird."

Wirklichkeit: Der KI-Boom hat die globale Nachfrage nach Speicherchips strukturell nach oben verschoben. Historisch gilt: Wer bei Hardware auf geopolitische Entspannung wartet, wartet oft 18 Monate – und kauft am Ende zum gleichen oder höheren Preis, nur ein Jahr später.

Der technische Showdown: HDD vs. SSD im KI-Einsatz

Wenn ein lokales LLM startet, findet ein gigantischer Datentransfer statt. Warum das eine Laufwerk schweigt und das andere „schreit", liegt an der Architektur.

Das Nadelöhr: IOPS

KI-Modelle bestehen aus Milliarden von Gewichten, die vollständig in den RAM geladen werden müssen:

HDD: ~80–120 IOPS. Der Lesekopf muss sich physisch bewegen. Ist das Modell nicht am Stück gespeichert, verbringt die HDD mehr Zeit mit Suchen als mit Lesen.
NVMe-SSD: 500.000–1.000.000 IOPS. Elektrischer Zugriff, keine mechanische Verzögerung.

Warum das System bei der HDD piept

Wenn die CPU Daten anfordert, die HDD aber bei 100 % Active Time feststeckt, füllt sich die I/O-Warteschlange. Moderne Betriebssysteme priorisieren kritische Systemprozesse – eine blockierte HDD führt dazu, dass selbst Maus- und Tastatureingaben nicht mehr verarbeitet werden können. Das Mainboard quittiert den I/O-Timeout mit kurzen Pieptönen. Es ist der akustische Beweis für einen Systemstau.

Swapping: Der Todesstoß für die HDD

Feature	HDD (mechanisch)	NVMe-SSD (elektrisch)
Zugriffszeit	~10–15 ms	~0,05 ms
Verhalten bei 100 % Last	System-Freeze & Pieptöne	Spürbare Verzögerung, aber stabil
KI-Tauglichkeit	Nur als Archiv (Cold Storage)	Absolute Pflicht für aktive Modelle
Mechanischer Verschleiß	Hoch (Lesekopf-Stress)	Keiner (elektrisch)

Wer eine KI auf einer HDD betreibt, zwingt einen Marathonläufer dazu, durch hüfthohen Schlamm zu rennen. Das Piepen ist der Schrei nach Luft.

💾 Welche SSD? Alte SATA oder neue NVMe?

Scenario: Die HDD soll in Rente, was kommt rein?

	Alte 500 GB SATA-SSD	Neue NVMe M.2 (1–2 TB)	Neue SATA-SSD (1–2 TB)
Geschwindigkeit	~500 MB/s	3.000–7.000 MB/s	~550 MB/s
IOPS	~50.000	500.000–1.000.000	~90.000
8b-Modell laden (~5 GB)	~10 s	~1–2 s	~9 s
Kapazität	500 GB (schnell voll)	1 TB ~65–80 € / 2 TB ~110–140 €	1 TB ~70–80 € / 2 TB ~120–140 €
Einbau	Kabel (wie HDD)	M.2-Slot direkt aufs Board	Kabel (wie HDD)
Kosten	0 € (vorhanden)	ab ~65 €	ab ~70 €

Empfehlung in zwei Schritten:

Sofortmaßnahme (0 €): Alte 500 GB SATA-SSD einbauen, aktive Repos und Modelle drauf schieben. Das Ruckeln und Piepen hört sofort auf — der IOPS-Sprung von HDD auf SATA-SSD ist gigantisch.
Langfristig (~120 €): Sobald die 500 GB durch Ollama-Modelle voll laufen: 2 TB NVMe M.2 (z. B. WD Blue SN580, Lexar NM710). Das ist der absolute Sweetspot für lokale KI-Entwicklung.

SATA-SSDs sind kaum noch günstiger als NVMe — alte Technik wird nicht mehr in den gleichen Massen produziert. Wenn das Board einen freien M.2-Slot hat: immer NVMe.

🔬 Der heimliche Verschleiß: Zerstört lokale KI meine SSD?

Eine berechtigte Frage. Flash-Speicher verschleißen nicht durch Lesen (das Laden eines Modells juckt die SSD gar nicht), sondern durch Schreiben. Die Lebensdauer wird in TBW (Terabytes Written) gemessen.

Der RAM-Faktor kommt hier wieder ins Spiel: Wenn der Arbeitsspeicher zu klein für das gewählte Modell ist, beginnt Windows massiv zu swappen — es lagert permanent Gigabytes auf die SSD aus und fragt sie Sekunden später wieder ab. Dieser ständige Schreib-Zyklus knabbert messbar an der Chip-Lebensdauer.

Die beruhigende Wirklichkeit: Moderne 2-TB-Mittelklasse-SSDs stecken oft über 1.000 TBW problemlos weg. Bevor eine vernünftige SSD durch lokales KI-Swapping totgeschrieben ist, kauft man sich wahrscheinlich ohnehin einen neuen Rechner.

Fazit: Eine SSD ist ein Arbeitstier, kein rohes Ei. Aber der günstigste Lebensretter für jede Festplatte bleibt: ausreichend Arbeitsspeicher — damit gar nicht erst geswapt werden muss.

♻️ Was mache ich mit meiner alten Hardware?

Ein Upgrade bedeutet nicht zwingend Elektroschrott. Altes Equipment hat oft noch einen sinnvollen zweiten Lebensabschnitt:

Hardware	Sinnvolle Weiterverwendung
Alte HDD (mechanisch)	Cold-Storage-Backup: Fotos, Projektarchive, VM-Images — alles, was selten gebraucht wird. Nur nie für aktive Repos oder Modelle.
Alte SATA-SSD (500 GB)	Zweites Laufwerk für aktive Repos, Ollama-Modelle oder Scratch-Space. Der IOPS-Sprung von HDD → SATA-SSD ist gigantisch — sofortiger Gewinn ohne Kosten.
Alter RAM (zu langsam oder zu wenig)	Gebrauchtmarkt (eBay, Kleinanzeigen): DDR5-Riegel erzielen noch 40–60 € je 16-GB-Riegel. Timing und Taktung genau angeben.
Altes Laptop mit 1 TB NVMe	Homelab-Server für Ollama, lokale Git-Instanz oder CI/CD-Agent — eine Samsung 980 1 TB ist dafür eine hervorragende Basis.

Die günstigste Aufrüstung ist oft die, die man bereits zuhause hat — man muss sie nur richtig einsetzen.

Fazit: Von digitalen Hilfeschreien und RAM-Riegel-Diäten

Wenn der PC anfängt zu piepen wie ein R2-D2 mit Schluckauf, ist das kein Feature der neuen „AI-Experience" – es ist ein Hilfeschrei der Hardware.

Der Wunsch nach lokaler KI ist verlockend, aber der Schock kommt spätestens dann, wenn das 70b-Modell versucht, sich in 32 GB RAM zu quetschen wie ein Elefant in ein Smart-Cabrio. Die Wirklichkeit ist: Die HDD hat im KI-Zeitalter offiziell den Status eines Museumsstücks verdient.

Kurzfassung für alle lokalen KI-Abenteurer:

SSD ist Pflicht. Projekte und Modelle gehören auf die NVMe, nicht ins mechanische Datengrab.
RAM ist die Währung. Hubraum ist durch nichts zu ersetzen, außer durch mehr Hubraum – oder 64 GB DDR5.
Kapazität schlägt Taktung. 64 GB mit 5200 MT/s schlagen 32 GB mit 6000 MT/s — und kosten ~90 € statt ~170 €.
Die HDD darf bleiben — als Archiv. Backups, Fotos, alte Projekte: kein Problem. KI-Modelle: niemals.
Altes weiterverwenden vor Neukaufen. Eine alte SATA-SSD rettet heute das System; eine 2 TB NVMe rettet es langfristig.
GitHub ist dein Backup, die Cloud ist nicht dein Zuhause. Wer lokal entwickelt, braucht Eisen im Gehäuse.

Lokale KI ist kein Hexenwerk — aber sie braucht die richtige Bühne. Eine NVMe für die Modelle, genug RAM damit die HDD schweigt, und den Mut, das alte Eisen sinnvoll weiterzuverwenden statt blind aufzurüsten. Dann läuft die KI flüssig, der Geldbeutel dankt es, und das Mainboard hört endlich auf zu piepen.

🔬 Interaktiver Simulator: Wie lange friert dein System ein?

Wähle ein Modell und deinen freien RAM – der Simulator zeigt, was auf deinem Laufwerk passiert.

KI-Ladezeit-Simulator

Wie lange braucht dein Speicher, um das Modell in den RAM zu laden – oder in den Swap auszulagern?

KI-Modell GB = Dateigröße Q4 (Ollama-Download)

Freier RAM

⚡ NVMe SSD (5 000 MB/s · 700 000 IOPS) –

💿 SATA SSD (550 MB/s · 90 000 IOPS) –

🐌 HDD (mechanisch) (120 MB/s · 120 IOPS) –

Ladezeiten sind vereinfachte Näherungswerte (sequentieller Zugriff, Q4-Quantisierung). Swap-Overhead und IOPS-Degradierung bei zufälligem Zugriff sind in der HDD-Zeit bereits eingerechnet (Faktor ×8).

Support the Journey & Development! 🚀

If my IT guides or the Snapmaker Wiki saved your project (or your hardware), I'd appreciate a coffee! ☕
Your support doesn't just cover hosting and testing costs—it also fuels the development of my apps and tools. Every donation helps me dedicate more time to coding solutions that make our tech-life easier. Thank you for being part of this!

☕ Donate via PayPal