Subscribe Now

* You will receive the latest news and updates on your favorite celebrities!

Trending News
News

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Google 15. dubna 2026 vydal Gemini 3.1 Flash TTS, text-to-speech model nové generace s lepší kvalitou hlasu, přesnější kontrolou a podporou více než 70 jazyků.

Model se ihned zpřístupnil ve třech kanálech: vývojářům v preview přes Gemini API a Google AI Studio, firmám na Vertex AI a uživatelům Google Workspace přes aplikaci Google Vids.

Skóre a pozice na trhu

Na Artificial Analysis TTS leaderboardu, který sbírá slepé preference tisíců hodnotitelů, dosáhl model Elo skóre 1 211. Artificial Analysis ho zároveň zařadil do tzv. “most attractive quadrant” – kategorie modelů s kombinací vysoké kvality a nízké ceny.

Nativní multi-speaker dialogy jsou součástí bez nutnosti doplňků.

Audio tagy a nástroje pro vývojáře

Hlavní přírůstek jsou audio tagy: přirozené jazykové příkazy vložené přímo do textu, které řídí styl, tempo a přízvuk hlasu. Vývojář může změnit tón konkrétního mluvčího uprostřed věty bez zásahu do kódu.

Google AI Studio dostalo k tagům sadu nástrojů označenou jako “director’s chair”:

  • Scene direction – nastavení kontextu a prostředí scény pro udržení charakteru mluvčího přes více promtů
  • Speaker-level specificity – přiřazení hlasových profilů s poznámkami ředitele, změna tónu a přízvuku per-mluvčí
  • Export konfigurace jako Gemini API kód pro konzistentní nasazení napříč projekty

SynthID a bezpečnost

Veškerý zvuk generovaný modelem je automaticky vodoznačen technologií SynthID. Vodoznak je vtkán přímo do audio výstupu a umožňuje spolehlivou detekci AI-generovaného obsahu – krok, který má zamezit šíření deepfake zvukových nahrávek. Google zároveň zveřejnil model card s detaily o přístupu k bezpečnosti.

Gemini 3.1 Flash TTS je od 15. dubna 2026 dostupný v Google AI Studio Playground.

Related posts

www.airevue.cz