Subscribe Now

* You will receive the latest news and updates on your favorite celebrities!

Trending News
Shorts

AirLLM: 70B model i na 4GB GPU

AirLLM: 70B model i na 4GB GPU

AirLLM je open-source Python knihovna, která se snaží obejít jeden z hlavních limitů velkých jazykových modelů: potřebu obří VRAM. Místo toho, aby se celý model držel najednou v paměti GPU, načítá vrstvy postupně z disku, vždy spočítá aktuální krok a paměť zase uvolní. Právě díky tomu autoři tvrdí, že 70B model lze spustit i na jedné 4GB GPU bez kvantizace, distilace nebo pruningu. V novějších updatech repo zmiňuje také podporu pro Llama 3.1 405B na 8GB VRAM, CPU inference a 4bit/8bit kvantizaci.

Za projektem stojí Gavin Li pod účtem lyogavin. AirLLM je dostupný jako balíček pro Python a na GitHubu si drží výrazný zájem komunity, což je vidět i na desítkách tisíc hvězdiček. Projekt míří hlavně na situace, kde je důležitější dostat velký model na slabší hardware než mít co nejnižší latenci. README i doprovodný text na Hugging Face ukazují jednoduché použití přes AutoModel.from_pretrained(...), takže z pohledu vývojáře připomíná běžný transformer workflow víc, než by se u podobně extrémního memory hacku čekalo.

Základ celé věci je v tom, že inference u transformeru stejně běží po vrstvách sekvenčně. AirLLM toho využívá naplno: model nejdřív rozseká po vrstvách, ukládá je zvlášť a do GPU přesouvá jen to, co je právě potřeba. Autor v popisu vysvětluje, že u 70B modelu tak místo zhruba 130 GB pro celý model řešíte jen paměť jedné vrstvy, přibližně 1,6 GB, plus menší cache navíc. Projekt k tomu kombinuje layer-wise inference, Flash Attention, ukládání po vrstvách přes safetensors a meta device z Hugging Face Accelerate. Výsledek není mířený na rychlý chat v reálném čase, ale spíš na offline generování, dávkové zpracování nebo experimentování na hardwaru, kde by podobně velký model normálně vůbec nešel spustit.

Zdroje:

Related posts

www.airevue.cz