Ötlet: Olaszy Gábor (BME TMIT) 2013.

Megvalósítás: Abari Kálmán (Debreceni Egyetem), Olaszy Gábor, Csapó Tamás Gábor, Tóth Bálint (BME TMIT) 2013-2015

Cél: Olyan új eljárás kifejlesztése, amelyik képes szövegből formánsmeneteket (text-to-formants, TTF) meghatározni a magyar beszéd általános jellemzésére az F1 és az F2 vonatkozásában. A formánsmenetek alakulása minden esetben függ magától a beszédhangtól és annak a közvetlen, és a távolabbi hangkörnyezetétől. Az eljárás újdonsága, hogy nem a hanghullámra támaszkodik, hanem egy párhuzamos beszédadatbázisból kialakított formáns adatbázisra és az azzal tanított HMM alapú parametrikus formáns jóslóra. A lényeg nem a formánsok Hz értékeinek meghatározása, hanem a hangon belüli jellemző formánsmozgások megvalósítása általános modellezéssel, nem az egyénre, hanem inkább a nyelvre jellemző adatokkal. A hangon belüli formánsmozgások sorozata adja ki a formáns vonulat képet a mondatot felépítő hangsorozatra. Ez lesz a mondat formáns térképe, amely minden mondatnál más képi formát eredményez. A mondat formáns térképe áttételesen az artikulációs mozgásokat mutatja be, ami nagy vonalakban egyéntől független, hiszen mindannyian magyarul beszélünk és ugyanazt a mondatot közel azonos artikulációs mozgás sorozattal hozzuk létre. Ezért lehet az hogy egy mondat formáns térképe hasonló képi formát mutat minden beszélőnél. A TTF eljárás ilyen formánsmenet térképet hoz létre a mondat szövegéből.

Annotálás, címkézés, formáns adatok kézi javítása: Olaszy Gábor (BME TMIT) és Abari Kálmán (Debreceni Egyetem Pszichológiai Intézet) 2014-2015.

Formáns adatbázis HMM tanításhoz. A párhuzamos beszédadatbázis (PPBA, lásd részletesen: https://www.magyarbeszed.hu/mb-speech-acoustics-beszedadatbazisok/beszedadatbazisok_ppba_05/) minden mondatának minden hangjára meghatároztuk az F1, F2, F3 formáns adatokat (mintegy 7 millió formánsérték). Az eljárás során a Praat formáns-meghatározó algoritmusát használtuk, majd minden hangban vizuális ellenőrzést hajtottunk végre. A géppel hibásan meghatározott formáns adatokat javítottuk. Mindezekből adódik, hogy a formáns adatbázis fonetikailag korrekt adatokat tartalmaz, tehát referenciaként használható. Ezt a formáns adatbázist használtuk fel a HMM modell tanítására.

HMM alapú formáns jósló szöveg bemenetből: A HTS eszközrendszert használtuk a HMM-ek tanítása során. A formáns adatbázis F1 és F2 formánsának értékei szerepeltek a tanító halmazban. Külön 5 beszélős modellt készítettünk a férfi hangokból és külön 5 beszélőst a női hangokból. A jósló bemenete magyar szöveg, a kimenete az F1 és az F2 vonulata a hangsor függvényében. Az eredmény személyfüggetlen, a magyar beszédre általánosan jellemző. Külön női és külön férfi adatok kérhetők le.

Ellenőrzés: Az ellenőrzés során a jósolt adatokat vetettük össze ugyanazon mondat természetes ejtésű F1 és F2 adataival. A Trajectory Matching Rate (TMR) értéket vezettük be az összehasonlítás jóságának kifejezésére. Az összehasonlítást korreláció számítással végeztük. Minél közelebb áll a jósolt formáns menet a természetes ejtésűhöz (ugyanabban a mondatban) annál közelebb van a TMR értéke a +1-hez. Az összehasonlítás mindkét modellre jobb, mint 0,8. Részletek a publikációban.

Bemutatás ezen a honlapon: Mintamondatok formáns térképeit mutatjuk be (ADATOK VIZUÁLIS MEGJELENÍTÉSE) amelyeken egyrészről  TTF modell jósolt formáns menetei láthatók (férfi=5sp.m és női=5sp.f), valamint az 5-5 beszélő ejtésének egyéni formáns menetei ugyanarra a mondatra. Az 5 beszélős modell és az adott egyéni ejtés közötti hasonlóságot kifejező TMR értékek is láthatók az ábrákon. A formánsok mozgási tendenciái ugyanazok mind a jósolt, mind a természetesen ejtett adatok tekintetében.

Élő demo: Ez az első szöveg-formáns konverter modell, amit közvetlenül is kipróbálhat. Pontossága jó. A modell az 5 férfi beszélő és az 5 női beszélő hangjából tanulta meg a formánsmenetek jóslását nemek szerint. Gépeljen be egy mondatot (hangsorozatot) és adja meg a beszélő nemét is. Az eredményt grafikusan és adatok formájában is megkapja (le is töltheti). Meglátja, hogy a TTF modellünk milyen formánsadatokat hoz létre a begépelt mondat szövegéből. Az adatok nem köthetők személyhez, csak a beszélő neméhez, illetve a magyar beszédre (közvetetten az artikulációra) jellemzőek. A kapott eredmények letölthetők.
A szöveg-formáns indításához haladjon végig a megadott 3 lépésen. A szintézis eredménye grafikus és szöveges formában is rendelkezésére áll.

Az eredmény értelmezéséhez kapcsolódó információk:

  • KÉP
    A hangidőtartamok azonos hosszúságúak. Nem a nyelvi időtartamoknak felelnek meg.
  • TÁBLÁZAT
    címke: SAMPA jelölés
    sorsz.: a hang sorszáma a mondatban 2-esel kezdődően (1-es a mondat eleji szünet*)
    idő: másodpercben a nyelvi jellegű szintetizált időcímkék
    poz: a időcímke hangon belüli pozíciója százalékosan
    F1: első jósolt formáns értéke Hz-ben
    F2: második jósolt formáns értéke Hz-ben


    * szünet címke sehol sem szerepel

Hivatkozás: A honlaphoz kapcsolódó kutatásról az alábbi cikkben számoltunk be.
Kálmán Abari, Tamás Gábor Csapó , Bálint Pál Tóth, Gábor Olaszy: From text to formants - indirect model for trajectory prediction based on a multi-speaker parallel speech database. Proc. of Interspeech 2015, Dresden, Germany. 623-627. cikk