Přiznám se rovnou: ještě v roce 2023 jsem si myslel, že lokální LLM na Macu je spíš hračka pro nadšence. Stáhl jsem Ollamu, spustil llama-2-7b, koukal na ~20 tokenů za sekundu a říkal si “OK, hezké”. Pak přišel M3, pak M4, pak MLX 0.18 s Metal 4 backendem, a najednou jsem pochopil, že se něco fundamentálního změnilo.
Fiskální rok 2025 to potvrdil daty. Mac segment vygeneroval 33,71 miliardy dolarů — meziročně o 12,42 % více z předchozích 29,98 miliard. Apple prodal přibližně 25,6 milionu Maců, o 11,1 % více než rok předtím. Q1 2025 zaznamenal 16% meziroční růst tržeb — nejvyšší od roku 2022. MacBook Air M3 se stal nejprodávanějším notebookem na americkém vzdělávacím trhu.
Apple i analytici to říkají otevřeně: AI schopnosti hardwaru táhnou prodeje. Poprvé od FaceTimu dostávají kupující funkcionálně novou třídu možností, ne jen rychlejší verzi toho samého.
Proč unified memory mění všechno
Aby tohle dávalo smysl, musím se zastavit u architektury. Tohle není zbytečná technická odbočka — tohle je jádro věci.
Na běžném PC žijí v zásadě dva oddělené světy. CPU má systémovou RAM, GPU má vlastní VRAM. Model, který chcete spustit, musí být nahrán do VRAM grafické karty. RTX 4090 má 24 GB VRAM. Zní to jako hodně. Ale model se 13 miliardami parametrů ve formátu FP16 potřebuje přibližně 26 GB. Nevejde se. Řešení přes PCIe sběrnici — přesouvat data mezi systémovou RAM a VRAM — sice existuje, ale inference klesá na 0,5 tokenu za sekundu. To je pro reálné použití k ničemu.
Apple Silicon tohle elegantně eliminoval. CPU, GPU a Neural Engine sdílejí jednu paměťovou oblast — fyzicky, na úrovni čipového pouzdra. Žádný přenos přes sběrnici. Všechny výpočetní jednotky přistupují ke stejné paměti přes stejnou high-bandwidth sběrnici najednou.
Prakticky to znamená:
- Mac Mini M4 Pro se 24 GB pojme a GPU-akceleruje model, k čemuž by PC potřeboval 24 GB VRAM kartu — která v spotřebitelském segmentu neexistuje.
- Mac se 64 GB unified memory zvládne 70B modely, pro což by PC potřeboval NVIDIA A100 80 GB za desítky tisíc dolarů.
- Paměťová šířka pásma M4 Pro dosahuje 273 GB/s, M4 Max až 546 GB/s — a tato šířka je dostupná všem výpočetním jednotkám najednou.
LLM inference je memory-bandwidth bound operace: pro každý vygenerovaný token musí systém přečíst z paměti celou sadu vah. Čím větší šířka pásma, tím rychlejší inference. M4 Max s 546 GB/s vs RTX 4090 s ~1 000 GB/s — GPU sice vyhraje na raw rychlosti, ale jen do 24 GB. Nad tím Mac nemá v tomhle cenovém segmentu konkurenci.
MLX: framework o kterém se málo mluví
Apple vydal v roce 2023 MLX — open-source ML framework navržený od základů pro Apple Silicon. Mě tohle tehdy zaujalo. Většina frameworků (PyTorch, TensorFlow) jsou porty na macOS přidané jako afterthought. MLX míří přímo na UMA architekturu.
Co to konkrétně znamená: v MLX pole (arrays) žijí v unified memory, operace mohou běžet na CPU nebo GPU bez instrukce “zkopíruj na zařízení”. Metal backend plně využívá Apple-nativní Metal API. API je NumPy-like, takže vstupní bariéra pro výzkumníky zvyklé na Python je nízká.
Benchmarky jsou zajímavé. Persistent Systems testovali Mac Studio M2 Ultra (192 GB unified memory) a naměřili ~230 tokenů za sekundu se 7B modelem při latenci 5–7 ms. Ollama 0.19 z března 2026 přešla na MLX jako primární backend pro Apple Silicon a okamžitě přinesla 1,6× rychlejší prefill a 2× rychlejší decode oproti verzi 0.18.
Na M5 Neural Accelerators — dedikovaných maticových operacích zavedených v M5 — Apple publikoval benchmarky ukazující až 4× rychlejší time-to-first-token ve srovnání s M4 (testováno na Qwen3-14B-4bit). Samotný prefill test Ollamy 0.19 vs 0.18 na M5 Max ukázal na modelu Qwen3.5-35B-A3B nárůst z 1 154 na 1 810 tokenů za sekundu — to je efekt přechodu na MLX backend, ne samotný hardware upgrade.
Apple na WWDC 2025 věnoval MLX tři přednášky a označil ho za preferovaný framework pro LLM inference na Apple Silicon. Framework má přes 25 000 GitHub hvězd a 72 vydání. To není hype — to je komunita, která to reálně používá.
Apple Intelligence: on-device AI bez cloudu
Apple přistupuje k AI jinak než Google nebo Microsoft. Cloud-first vs privacy-first — to je reálná strategická volba, ne jen marketingová fráze.
Apple Intelligence byl představen na WWDC 2024 jako součást iOS 18, iPadOS 18 a macOS Sequoia. Jádrem je ~3 miliardový parametrový on-device model s konkrétními optimalizacemi:
- KV-cache sharing: sdílí key-value cache mezi bloky modelu, snižuje spotřebu paměti pro KV-cache o 37,5 %
- 2-bit quantization-aware training: model je trénován s vědomím budoucí kvantizace, ztráty přesnosti jsou minimální
- Architekturální dělení 5:3: model je rozdělen do dvou bloků (Block 1 = 62,5 % vrstev, Block 2 = 37,5 % vrstev), přičemž Block 2 nemá vlastní KV projekce a reusuje celou KV cache generovanou Block 1
Pro složitější úlohy, které přesahují lokální kapacity, Apple vytvořil Private Cloud Compute — serverová infrastruktura, kde ani Apple sám nemůže přistupovat k obsahu uživatelských dotazů. Tohle je technicky zajímavé tvrzení. Apple ho podpořil tím, že zveřejnil binárky pro nezávislý audit. Jestli je to 100% pravda, ověřit nedokážu — ale aspoň to není jen PR řeč.
Na WWDC 2025 přišel Foundation Models framework — Swift-nativní API pro přímý přístup k on-device LLM. Sumarizace, extrakce informací, klasifikace, strukturovaná generace — bez cloud závislosti, bez nákladů na API volání.
Ekosystém: od niche po mainstream
Paralelně se dělo něco zajímavého v software ekosystému. Ollama zaznamenal meziroční nárůst o 180 %. Měsíční stahování vzrostla ze 100 tisíc v Q1 2023 na 52 milionů v Q1 2026 — 520× za tři roky. Počet GGUF modelů na HuggingFace vzrostl ze 200 na 135 000 za stejné období.
Ollama je na macOS nativně optimalizovaný přes Metal, ve verzi 0.19 přešel na MLX backend. LM Studio nabízí grafické rozhraní pro méně technicky zdatné uživatele, s prohlížečem modelů a vizuálním monitoringem paměti — podporuje MLX modely, které jsou paměťově efektivnější než GGUF varianty. llama.cpp — nízkoúrovňový inference engine pod kapotou většiny nástrojů — plně podporuje Metal akceleraci od verze 2023.
Tohle je docela silná kombinace. Hardware s UMA, MLX jako základ, Ollama jako high-level rozhraní, LM Studio pro grafické rozhraní. Stack je kompletní a na Macu funguje bez komplikací s nastavením.
Mac vs NVIDIA: kde to stojí
| Aspekt | Mac Mini M4 Pro 64 GB | RTX 4090 24 GB |
|---|---|---|
| Cena | ~2 199 USD | ~1 600 USD |
| Efektivní “VRAM” pro LLM | 64 GB | 24 GB |
| Maximální model bez offloadu | ~70B (Q4) | ~13B |
| Výkon při 7B modelu | ~50–80 tok/s | ~120–150 tok/s |
| Spotřeba při inference | 15–30 W | 300–450 W |
| Hluk | 0 dB (pasivní) | 40–50 dB |
Raw throughput na malých modelech vyhraje NVIDIA. Jednoznačně. Ale pro 20B–70B modely bez offloadu v spotřebitelském segmentu Mac nemá alternativu.
Jedna věc, která mě trochu dráždí: cena RAM upgradů. Přechod z 24 GB na 64 GB unified memory je nápadně drahý v porovnání s tržní cenou LPDDR5. Apple to nezakrývá ani neomlouvá. Komunita lokálního AI to přesto konzistentně přehlíží, protože funkcionálně alternativa neexistuje.
M5 a co dál
M5 (2025) přinesl dedikované Neural Accelerators — specializovaný hardware pro maticové operace kritické pro LLM inference. MLX s Metal 4 backendem je plně využívá. M5 dosahuje o 19–27 % vyššího výkonu oproti M4 pro inference workloady, primárně díky vyšší šířce pásma paměti (120 GB/s u M4 → 153 GB/s u M5).
Apple cílí na 250 milionů zařízení s plnými AI schopnostmi do konce roku 2025. To je obrovská install base pro on-device AI aplikace. Foundation Models framework otevírá vývojářům přímý přístup k on-device LLM bez cloud závislosti.
A pak je tu regulační kontext. GDPR a zpřísňující se požadavky na zpracování dat dělají z on-device AI reálný argument pro enterprise segment. Žádná data neopouštějí zařízení — žádné API klíče, žádné logování dotazů, žádná závislost na třetí straně. To není jenom hezká funkce. Pro některé use cases to je blocker nebo enabler, záleží na perspektivě.
Závěr
Andrej Karpathy, bývalý ředitel AI v Tesle, v přednášce na Y Combinator (červen 2025) zmiňoval Mac Mini jako přirozené zařízení pro LLM inference a mluvil o Macu v kontextu “inference-first” přístupu. Myslím, že to vystihl přesně. Mac v roce 2026 není nejrychlejší stroj pro LLM. Ale je to nejdostupnější a nejpraktičtější zařízení, které zvládne 70B model lokálně, tiše, s 15–30 W spotřebou, bez nutnosti enterprise GPU za desetinásobek ceny.
Unified memory architecture z roku 2020 se ukázala jako architektonické rozhodnutí, které nikdo v té době plně neocenil. Já určitě ne. Výsledkem je, že Mac se stal standardním vývojářským hardwarem pro lokální AI — a trh to reflektuje: 25,6 milionu prodaných Maců v roce 2025, 12,4% meziroční růst tržeb, rekordní Q1.
Pro experimentování s lokálními modely — ať jde o Ollamu, LM Studio, nebo přímo MLX — je Apple Silicon nejpraktičtější volba v spotřebitelském segmentu. To není marketing. To je architektura.
Zdroje: Apple Machine Learning Research (machinelearning.apple.com), Apple Q4 FY2025 earnings report, Persistent Systems — Production-Grade Local LLM Inference on Apple Silicon (arxiv.org/abs/2511.05502), Apple Intelligence Foundation Language Models Tech Report 2025, Ollama blog, MLX GitHub (25 100+ hvězd, 72 vydání)