AiRevue
News

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Google 15. dubna 2026 vydal Gemini 3.1 Flash TTS, text-to-speech model nové generace s lepší kvalitou hlasu, přesnější kontrolou a podporou více než 70 jazyků.

Model se ihned zpřístupnil ve třech kanálech: vývojářům v preview přes Gemini API a Google AI Studio, firmám na Vertex AI a uživatelům Google Workspace přes aplikaci Google Vids.

Skóre a pozice na trhu

Na Artificial Analysis TTS leaderboardu, který sbírá slepé preference tisíců hodnotitelů, dosáhl model Elo skóre 1 211. Artificial Analysis ho zároveň zařadil do tzv. “most attractive quadrant” – kategorie modelů s kombinací vysoké kvality a nízké ceny.

Nativní multi-speaker dialogy jsou součástí bez nutnosti doplňků.

Audio tagy a nástroje pro vývojáře

Hlavní přírůstek jsou audio tagy: přirozené jazykové příkazy vložené přímo do textu, které řídí styl, tempo a přízvuk hlasu. Vývojář může změnit tón konkrétního mluvčího uprostřed věty bez zásahu do kódu.

Google AI Studio dostalo k tagům sadu nástrojů označenou jako “director’s chair”:

SynthID a bezpečnost

Veškerý zvuk generovaný modelem je automaticky vodoznačen technologií SynthID. Vodoznak je vtkán přímo do audio výstupu a umožňuje spolehlivou detekci AI-generovaného obsahu – krok, který má zamezit šíření deepfake zvukových nahrávek. Google zároveň zveřejnil model card s detaily o přístupu k bezpečnosti.

Gemini 3.1 Flash TTS je od 15. dubna 2026 dostupný v Google AI Studio Playground.

Related posts

Gemma 4: Google bere otevřené modely vážně a staví je přímo proti DeepSeeku a Qwenu

Valentino Hesse
6 dny ago

NVIDIA spustila Ising — první open-source AI modely navržené přímo pro kvantové procesory

Valentino Hesse
2 dny ago

OpenAI přidává do Agents SDK sandbox a model-native harness

Valentino Hesse
20 hodin ago
Exit mobile version