Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Google 15. dubna 2026 vydal Gemini 3.1 Flash TTS, text-to-speech model nové generace s lepší kvalitou hlasu, přesnější kontrolou a podporou více než 70 jazyků.

Model se ihned zpřístupnil ve třech kanálech: vývojářům v preview přes Gemini API a Google AI Studio, firmám na Vertex AI a uživatelům Google Workspace přes aplikaci Google Vids.

Skóre a pozice na trhu

Na Artificial Analysis TTS leaderboardu, který sbírá slepé preference tisíců hodnotitelů, dosáhl model Elo skóre 1 211. Artificial Analysis ho zároveň zařadil do tzv. “most attractive quadrant” – kategorie modelů s kombinací vysoké kvality a nízké ceny.

Nativní multi-speaker dialogy jsou součástí bez nutnosti doplňků.

Audio tagy a nástroje pro vývojáře

Hlavní přírůstek jsou audio tagy: přirozené jazykové příkazy vložené přímo do textu, které řídí styl, tempo a přízvuk hlasu. Vývojář může změnit tón konkrétního mluvčího uprostřed věty bez zásahu do kódu.

Google AI Studio dostalo k tagům sadu nástrojů označenou jako “director’s chair”:

Scene direction – nastavení kontextu a prostředí scény pro udržení charakteru mluvčího přes více promtů
Speaker-level specificity – přiřazení hlasových profilů s poznámkami ředitele, změna tónu a přízvuku per-mluvčí
Export konfigurace jako Gemini API kód pro konzistentní nasazení napříč projekty

SynthID a bezpečnost

Veškerý zvuk generovaný modelem je automaticky vodoznačen technologií SynthID. Vodoznak je vtkán přímo do audio výstupu a umožňuje spolehlivou detekci AI-generovaného obsahu – krok, který má zamezit šíření deepfake zvukových nahrávek. Google zároveň zveřejnil model card s detaily o přístupu k bezpečnosti.

Gemini 3.1 Flash TTS je od 15. dubna 2026 dostupný v Google AI Studio Playground.

Trending News

Recent Posts

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Reviews

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

Rubriky

Subscribe Now

Trending News

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Skóre a pozice na trhu

Audio tagy a nástroje pro vývojáře

SynthID a bezpečnost

Related posts

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude Mythos: Anthropic poslal svoji AI k psychiatrovi

Deepl spouští překlad hlasu v realném čase

Anthropic přepracoval Claude Code pro desktop.

Gemma 4: Google bere otevřené modely vážně a staví je přímo proti DeepSeeku a Qwenu

Anthropic spustil Claude Design, AI nástroj pro rychlé vizuály

Recent Posts

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code