Google 15. dubna 2026 vydal Gemini 3.1 Flash TTS, text-to-speech model nové generace s lepší kvalitou hlasu, přesnější kontrolou a podporou více než 70 jazyků.
Model se ihned zpřístupnil ve třech kanálech: vývojářům v preview přes Gemini API a Google AI Studio, firmám na Vertex AI a uživatelům Google Workspace přes aplikaci Google Vids.
Skóre a pozice na trhu
Na Artificial Analysis TTS leaderboardu, který sbírá slepé preference tisíců hodnotitelů, dosáhl model Elo skóre 1 211. Artificial Analysis ho zároveň zařadil do tzv. “most attractive quadrant” – kategorie modelů s kombinací vysoké kvality a nízké ceny.
Nativní multi-speaker dialogy jsou součástí bez nutnosti doplňků.
Audio tagy a nástroje pro vývojáře
Hlavní přírůstek jsou audio tagy: přirozené jazykové příkazy vložené přímo do textu, které řídí styl, tempo a přízvuk hlasu. Vývojář může změnit tón konkrétního mluvčího uprostřed věty bez zásahu do kódu.
Google AI Studio dostalo k tagům sadu nástrojů označenou jako “director’s chair”:
- Scene direction – nastavení kontextu a prostředí scény pro udržení charakteru mluvčího přes více promtů
- Speaker-level specificity – přiřazení hlasových profilů s poznámkami ředitele, změna tónu a přízvuku per-mluvčí
- Export konfigurace jako Gemini API kód pro konzistentní nasazení napříč projekty
SynthID a bezpečnost
Veškerý zvuk generovaný modelem je automaticky vodoznačen technologií SynthID. Vodoznak je vtkán přímo do audio výstupu a umožňuje spolehlivou detekci AI-generovaného obsahu – krok, který má zamezit šíření deepfake zvukových nahrávek. Google zároveň zveřejnil model card s detaily o přístupu k bezpečnosti.
Gemini 3.1 Flash TTS je od 15. dubna 2026 dostupný v Google AI Studio Playground.
