AirLLM: 70B model i na 4GB GPU

AirLLM je open-source Python knihovna, která se snaží obejít jeden z hlavních limitů velkých jazykových modelů: potřebu obří VRAM. Místo toho, aby se celý model držel najednou v paměti GPU, načítá vrstvy postupně z disku, vždy spočítá aktuální krok a paměť zase uvolní. Právě díky tomu autoři tvrdí, že 70B model lze spustit i na jedné 4GB GPU bez kvantizace, distilace nebo pruningu. V novějších updatech repo zmiňuje také podporu pro Llama 3.1 405B na 8GB VRAM, CPU inference a 4bit/8bit kvantizaci.

Za projektem stojí Gavin Li pod účtem lyogavin. AirLLM je dostupný jako balíček pro Python a na GitHubu si drží výrazný zájem komunity, což je vidět i na desítkách tisíc hvězdiček. Projekt míří hlavně na situace, kde je důležitější dostat velký model na slabší hardware než mít co nejnižší latenci. README i doprovodný text na Hugging Face ukazují jednoduché použití přes AutoModel.from_pretrained(...), takže z pohledu vývojáře připomíná běžný transformer workflow víc, než by se u podobně extrémního memory hacku čekalo.

Základ celé věci je v tom, že inference u transformeru stejně běží po vrstvách sekvenčně. AirLLM toho využívá naplno: model nejdřív rozseká po vrstvách, ukládá je zvlášť a do GPU přesouvá jen to, co je právě potřeba. Autor v popisu vysvětluje, že u 70B modelu tak místo zhruba 130 GB pro celý model řešíte jen paměť jedné vrstvy, přibližně 1,6 GB, plus menší cache navíc. Projekt k tomu kombinuje layer-wise inference, Flash Attention, ukládání po vrstvách přes safetensors a meta device z Hugging Face Accelerate. Výsledek není mířený na rychlý chat v reálném čase, ale spíš na offline generování, dávkové zpracování nebo experimentování na hardwaru, kde by podobně velký model normálně vůbec nešel spustit.

Zdroje:

Trending News

Recent Posts

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Reviews

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

Rubriky

Subscribe Now

Trending News

AirLLM: 70B model i na 4GB GPU

Related posts

Beads jako paměť pro coding agenty

Caveman jednoduchý framework pro AI agenty

Context7 správa kontextu pro LLM aplikace

Gas Town: workspace pro AI agenty

TrueCourse AI generování personalizovaných kurzů

Taste Skill pro lepší AI frontend

Recent Posts

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code