Tokenmaxxing: když se z tokenu stane KPI

Jensen Huang to řekl úplně napřímo: jestli váš inženýr bere 500 tisíc dolarů ročně a nespálí aspoň polovinu za AI tokeny, děláte něco špatně. CEO Nvidie to prohlásil veřejně. Bez ironie. Polovina Silicon Valley to brala jako rozumný benchmark pro rok 2026. Druhá polovina si myslela že to nemůže myslet vážně.

Jenže myslí. A má to jméno: tokenmaxxing.

Co to vlastně je

Když jsem poprvé narazil na termín “tokenmaxxing”, myslel jsem že je to vtip. Není.

Tokenmaxxing je když lidi maximalizují kolik AI tokenů spotřebují – ne proto že by jim to pomohlo dělat lepší práci, ale proto že firma měří produktivitu podle spotřeby tokenů. A když firma něco měří a zobrazuje v přehledech, lidi to začnou optimalizovat. To je prostě lidská povaha.

Název přišel z kryptosvěta, kde “maxxing” znamená dotlačit nějakou metriku na maximum. V kontextu LLM jsou tokeny palivo. A spotřeba paliva se stala metrikou výkonu. Což je… problematický přístup, řekněme.

Jak to vypadá v praxi? Inženýr nespustí jeden prompt, spustí deset paralelních agentů. Produktový manažer negeneruje jednu roadmapu, ale patnáct variant. Marketing překládá obsah ne do jednoho stylu, ale do pěti najednou. Výsledek práce? Skoro totožný. Počet tokenů v přehledu? Mnohem vyšší.

Proč to vůbec vzniklo

Firmy mají základní problém: nasadit AI je snadné. Změřit jestli to má smysl je těžké.

Když vývojář opraví chybu s pomocí Claude za hodinu místo za den, je produktivnější – to je jasné. Ale jak tohle změříte přes celý tým? Přes kvartál? Přes různé projekty a oddělení? Jak to dáte do tabulky v Excelu aby to šéf firmy chápal?

Počet tokenů je jednoduchá odpověď. Vyexportuje se z přehledu jedním kliknutím, dá se seřadit, dá se z toho udělat žebříček. A žebříčky milujou všichni. Hlavně manažeři.

Meta tenhle mechanismus dotáhla do absurdního extrému. Postavili interní systém pojmenovaný – a teď se připrav – “Claudeonomics”. Sleduje spotřebu AI tokenů přes víc než 85 tisíc zaměstnanců. Za 30 dní v březnu 2026 jich společně spotřebovali 60 biliónů tokenů. Nejlepší uživatel měl průměr 281 miliard tokenů denně. Denně.

Za výkon dostávají odznáčky jako v nějaké hře: “Token Legend”, “Model Connoisseur”, “Cache Wizard”.

Ten “Cache Wizard” titul mě nejdřív pobavil. Pak jsem si uvědomil že to myslí vážně a už to přestalo být vtipné.

Andrew Bosworth, CTO Meta, to všechno prezentoval jako pozitivní trend. Tvrdí že jeden jejich nejlepší inženýr utrácí za tokeny ekvivalent svého platu a dosáhl “desetinásobné produktivity”. Garry Tan z Y Combinatoru to ještě podpořil: “We’ve been tokenmaxxing longer than most people.”

Žádný z nich ale nepředložil konkrétní data, která by ten přímý vztah mezi tokeny a produktivitou dokazovala. Jsou to tvrzení. Ne důkazy.

Čísla která jsou trochu děsivá

Ramp – platební platforma pro firemní výdaje – publikoval v únoru 2026 zajímavý report. Firemní výdaje za AI se za rok zčtyřnásobily. U největších spotřebitelů rostou náklady o 50 % nebo víc každé čtvrtletí. Přes 50 % podnikových zákazníků už AI aktivně používá.

A teď přichází ta nepříjemná fáze: ukázat že to má návratnost.

Tokenmaxxing tohle dost komplikuje. Nafukuje spotřebu, ale výsledky práce neposouvá nijak zásadně.

AT&T to zjistilo tvrdou cestou. Jejich týmy spalovaly 8 miliard tokenů denně. Denně. Výsledkem nebyla revoluční produktivita – byla nucená přestavba celé AI infrastruktury s cílem snížit náklady o 90 %. Což je… brutální číslo.

Jeden inženýr v OpenAI spotřeboval za týden 210 miliard tokenů. Pro představu, to zhruba odpovídá přečtení celé anglické Wikipedie několikrát za sebou. Za týden.

Pak je tady ještě tohle: jeden uživatel přes Figma integraci nakumuloval 70 tisíc dolarů útrat za Claude. Z účtu co normálně stojí 20 dolarů měsíčně.

Tohle číslo mě zaujalo víc než ty miliardové hodnoty, protože tady je vidět co se děje. Teď tu dotaci doplácí Anthropic. A Anthropic momentálně nabízí výpočetní výkon v hodnotě 1000 dolarů v předplatném za 200 dolarů – pětinásobná dotace.

Ten model funguje jako získávání zákazníků. Získáš lidi, udělají si na tobě závislost, pak časem zvedneš ceny. Je to legitimní byznysová strategie, ale lidi by si měli uvědomit že tahle čísla jsou dočasná. Jednou se trh srovná a pak budou muset firmy platit plnou cenu.

Parasail: kdo na tom vydělává

Když firmy spalují miliardy tokenů a účty rostou o 50 % každé čtvrtletí, někdo na tom vydělává.

Parasail získal 15. dubna 2026 investici 32 milionů dolarů (Series A). Touring Capital a Kindred Ventures vedli kolo, přidaly se Samsung NEXT, Flume Ventures a Banyan Ventures. Celkem mají 42 milionů financování.

Co dělají? Provozují distribuovanou síť GPU, která agreguje výpočetní kapacitu od různých poskytovatelů. Slibují deployment za 5 minut, 5 řádků kódu, cenu 30× nižší než AWS nebo GCP.

Zpracovávají přes 500 miliard tokenů denně. Měsíční růst příjmů: 30 %.

Steve Jang z Kindred Ventures to řekl jasně: “These agents will require massive amounts of tokens.” Parasail neřeší jestli je tokenmaxxing dobrý nebo špatný. Řeší jak na něm postavit byznys. Staví infrastrukturu pro firmy, které potřebují zpracovat obrovské objemy tokenů levněji.

A nejsou v tom sami. Nvidia prodává GPU. AWS, Azure, GCP účtují za výpočetní čas. Anthropic a OpenAI mají obchodní model postavený na tom, že firmy každý měsíc spotřebují víc tokenů než ten předchozí.

Tokenmaxxing není problém, který by tento ekosystém řešil. Je to trh, na kterém všichni staví byznys.

Otázka není jestli firmy budou spalovat víc tokenů. Otázka je za kolik – a kdo to nakonec zaplatí.

Goodhartův zákon v praxi

Celý tokenmaxxing je učebnicová ukázka Goodhartova zákona. Ekonomové to citujou od 70. let: když se z metriky stane cíl, přestane být užitečná.

Jakmile je počet tokenů náhradní metrikou produktivity, lidi přestanou optimalizovat produktivitu. Místo toho optimalizují počet tokenů. A to není morální selhání – je to racionální reakce na nastavené pobídky systému. Dělají přesně to, za co jsou odměňováni.

The Decoder to popsal dokonale: měřit produktivitu podle tokenů je jako hodnotit řidiče kamionu podle spotřeby paliva. Vidíš že motor běží. Nevíš jestli někam něco doručuje.

Některé firmy tohle už pochopily a mění přístup. Místo “dolarů na milion tokenů” začínají sledovat “dolary na úspěšně dokončený úkol”. Co stála opravená chyba? Vygenerovaný testovací scénář? Vyřešený incident zákazníka?

Je to složitější na implementaci. Ale aspoň měříš to, na čem skutečně záleží.

Co bude dál

Trh se teď polarizuje. Na jedné straně máš firmy, kde počet tokenů je oficiální KPI a management si myslí že to funguje skvěle. Na druhé straně máš AT&T, kde museli projít bolestivým snížením nákladů o 90 % poté, co si konečně sáhli do vlastních dat a zjistili co se děje.

To co mě na celé věci fascinuje – a zároveň trochu znepokojuje – je tohle: tokenmaxxing není technický problém. Je to problém špatného měření.

A problémy špatného měření jsou ty nejhůř řešitelné. Protože k tomu, abys je vyřešil, musíš nejdřív přiznat že jsi měřil špatně. Což je pro každého manažera nepříjemné přiznání. Nikdo nechce jít za vedením a říct “hele, ten přehled co jsme sledovali poslední dva kvartály vlastně nic neznamená”.

Pořád se mi vrací jedna otázka: jsou ti největší spotřebitelé tokenů v týmu opravdu nejproduktivnější? Nebo jsou prostě nejlepší v tom, jak obejít systém a vypadat produktivně v přehledu?

Protože to je zásadní rozdíl. A málokdo má odvahu si tu otázku opravdu položit.

Zdroje: PR Newswire (15. 4. 2026), The Decoder (7. 4. 2026), Ramp Leading Indicators (únor 2026), Business Insider, tisram.ai (březen 2026), The Information, Forbes

Trending News

Recent Posts

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

OpenAI Codex ovládne váš počítač a vygeneruje i obrázky

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Reviews

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Rubriky

Subscribe Now

Trending News

Tokenmaxxing: když se z tokenu stane KPI

Co to vlastně je

Proč to vůbec vzniklo

Čísla která jsou trochu děsivá

Parasail: kdo na tom vydělává

Goodhartův zákon v praxi

Co bude dál

Related posts

Claude Mythos nahradí penetrační testery. Za hodiny vytvoří exploity na míru

Time-LLM propojení LLM a časových řad

Gemma 4: Google bere otevřené modely vážně a staví je přímo proti DeepSeeku a Qwenu

Caveman jednoduchý framework pro AI agenty

Beads jako paměť pro coding agenty

TrueCourse AI generování personalizovaných kurzů

Recent Posts

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

OpenAI Codex ovládne váš počítač a vygeneruje i obrázky

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness