KI Tool Ollama
Ollama MLX – KI direkt auf dem Mac, doppelt so schnell
Was ist Ollama überhaupt?
Ollama ist eine Open-Source-Laufzeitumgebung für große Sprachmodelle (LLMs). Es läuft lokal auf dem eigenen Rechner, ohne Internetverbindung, ohne API-Kosten, ohne dass Daten das Unternehmen verlassen. Modelle von Meta, Google, Mistral, Alibaba und anderen lassen sich mit einem einzigen Befehl herunterladen und direkt nutzen – ob im Terminal, über eine lokale HTTP-API oder eingebunden in Entwicklerwerkzeuge wie Claude Code oder andere KI-Agenten. Seit 2023 hat Ollama über 166.000 GitHub-Sterne gesammelt und wird monatlich rund 52 Millionen Mal heruntergeladen.
Was steckt hinter Ollama MLX?
Bislang nutzte Ollama auf allen Plattformen das Backend GGML beziehungsweise llama.cpp – einen bewährten, aber nicht speziell für Apple Silicon optimierten Ansatz. Mit Version 0.19, im März 2026 als Vorschau veröffentlicht, wechselt Ollama auf dem Mac zu MLX, Apples eigenem Machine-Learning-Framework. Der Unterschied: MLX wurde von Grund auf für die Unified-Memory-Architektur der Apple-Silicon-Chips entwickelt. CPU und GPU teilen sich dabei denselben Arbeitsspeicher, was kostspielige Datenkopien zwischen Prozessoren entfallen lässt. Das Ergebnis sind spürbar kürzere Wartezeiten und deutlich höhere Verarbeitungsgeschwindigkeiten.
Wie groß ist der Unterschied in der Praxis?
Die Messwerte sprechen eine klare Sprache. Im Benchmark mit Alibabas Modell Qwen3.5-35B auf einem M5-Max-Chip stieg die Prefill-Geschwindigkeit – also wie schnell das Modell eine Eingabe verarbeitet – von 1.154 auf 1.810 Tokens pro Sekunde, ein Zuwachs von 57 Prozent. Die Decode-Geschwindigkeit, also die eigentliche Textgenerierung, verdoppelte sich nahezu: von 58 auf 112 Tokens pro Sekunde. Mit int4-Quantisierung sind sogar 1.851 Tokens pro Sekunde bei der Verarbeitung und 134 Tokens pro Sekunde bei der Ausgabe erreichbar. Für den Alltag bedeutet das: Antworten kommen deutlich schneller, lange Prompts werden flüssig verarbeitet, und KI-gestützte Coding-Werkzeuge fühlen sich endlich reaktionsschnell an.
Wer profitiert am meisten?
Alle Mac-Nutzer mit Apple Silicon – also M1 bis M5 – profitieren von der MLX-Integration durch bessere Speichernutzung und schnellere Verarbeitung. Den größten Sprung machen jedoch die neuen M5-Chips, weil sie über dedizierte GPU-Neural-Acceleratoren verfügen, die für Matrixmultiplikation ausgelegt sind – genau das, was Sprachmodelle intensiv benötigen. Auf Linux und Windows bleibt Ollama beim bewährten llama.cpp-Backend.
Weitere Neuerungen in Version 0.19
Neben dem MLX-Backend bringt die neue Version zwei weitere nennenswerte Änderungen mit sich. Erstens einen verbesserten KV-Cache, der den Arbeitsspeicher effizienter nutzt und intelligente Checkpoints setzt – relevant für Anwendungen, die Modelle dauerhaft im Hintergrund laufen lassen. Zweitens Unterstützung für NVIDIAs neues NVFP4-Quantisierungsformat, das Modellqualität und Speicherbedarf besser ausbalanciert als bisherige Formate und außerdem Kompatibilität mit Cloud-Inferenzanbietern schafft, die denselben Standard verwenden.
Für Entscheider: Was bedeutet das konkret?
Ollama MLX macht lokale KI auf dem Mac erstmals ernsthaft produktionstauglich. Wer in seinem Unternehmen KI-Modelle datenschutzkonform lokal betreiben möchte – etwa für interne Assistenten, Codereviews oder Dokumentenanalyse – hat mit Ollama 0.19 auf Apple-Silicon-Hardware eine Plattform, die leistungsmäßig mit professionellen Anforderungen mithalten kann. Die Einrichtung erfordert keinen Cloud-Vertrag, keine API-Schlüssel und keine monatlichen Kosten pro Token. Die Herausforderung bleibt die Modellauswahl und -bewertung – doch das Fundament ist mit dieser Version deutlich stabiler geworden.
Technischer Überblick: Vergleich der Backends
| Merkmal | Ollama (llama.cpp) | Ollama MLX (v0.19) |
|---|---|---|
| Backend | GGML / llama.cpp | Apple MLX |
| Plattform | Mac, Linux, Windows | Mac (Apple Silicon) |
| Prefill-Geschwindigkeit | 1.154 Tokens/s | 1.810–1.851 Tokens/s |
| Decode-Geschwindigkeit | 58 Tokens/s | 112–134 Tokens/s |
| Unified Memory Nutzung | Teilweise | Vollständig |
| M5 Neural Accelerator | Nein | Ja |
| NVFP4-Quantisierung | Nein | Ja |
Benchmarkwerte: M5 Max, Modell Qwen3.5-35B-A3B, gemessen von Ollama am 29. März 2026.
