Kutatásaink részben alapkutatási, részben alkalmazott kutatási témájúak.


VUK: Visionless sUpporting frameworK

A VUK (Visionless sUpporting frameworK, azaz Látássérülteket támogató keretrendszer) projekt célja, hogy a vakok és gyengénlátók mindennapi életét elősegítse olyan kihívásokkal teli feladatokban, mint például a közösségi közlekedésben részvétel. Emellett a projekt egy egyszerű, hatékony és megfizethető ajtótól-ajtóig navigáló asszisztens alkalmazást is tervez nyújtani.

A szokásos eszközökkel szemben, amelyek csak kültéri navigációra használhatóak, a projektben olyan helyzetekre is készülünk, amikor a vak személy ismeretlen beltéri környezetben (pl. földalatti, vasútállomás, buszmegálló) is utazik, vagy amikor az utazás célja komplex épületek (pl. pláza, üzletközpont, irodaház) meglátogatása.

Amellett, hogy a projekt segíteni fogja a vak és gyengénlátó emberek mindennapjait, az elképzelt szolgáltatás cégeknek, irodáknak és infrastruktúra szolgáltatóknak (pl. helyi kormányzat) is érdekes lehet, hiszen a vakok itt is dolgozhatnak vagy megfordulhatnak – a projekt pedig segítheti integrálódásukat a közösségbe.

Partnerek:
  • Budapesti Műszaki és Gazdaságtudományi Egyetem, Magyarország
  • Bay Zoltán Alkalmazott Kutatási Közhasznú Nonprofit Kft., Magyarország
  • Informatika a látássérültekért Alapítvány, Magyarország
  • Microsoft Corporation, Portugália
  • Transdanubia Nikolai GesmbH, Ausztria
  • HI Iberia: HI-IBERIA Ingenieria y Proyectos SL, Spanyolország
  • Erlang Solutions, Egyesült Királyság
  • Hilfsgemeinschaft der Blinden und Sehschwachen Osterreich, Ausztria

SP2: SCOPES Project on Speech Prosody

Az SP2: SCOPES Project on Speech Prosody (SP2: Beszédprozódia kutatás) projektben résztvevő négy partner célja, hogy a beszéd prozódiájának elemzése során jobban megismerjük a kutatásban részt vevők eszközeit és erőforrásait. A prozódia alatt az emberi beszéd dallamát, időtartamát és intenzitását értjük, melyeket analízis és szintézis kísérletekben vizsgálunk.

A prozódia a beszédnek fontos része, működését azonban még nem értjük teljes mértékben. Fontosságát mutatja, hogy ezzel fejezhetünk ki érzéseket, érzelmeket és különböző szándékokat is. A gépi szövegfelolvasás során fontos, hogy a beszédszintetizátor prozódiája természetes legyen, és a megfelelő szándékot közvetítse. Beszédfelismerésben a prozódiát tipikusan nem veszik figyelembe, mert a szöveges tartalmat nem befolyásolja.

A kutatás négy partnere különböző szempontok szerint foglalkozik a beszéd prozódiájának vizsgálatával. A projekt során a kutatócsoportok megosztják egymással eddigi eredményeiket és eszközeiket, és hatékonyabb módszereket dolgoznak ki a prozódia kezelésére a kutatásban érintett nyelveken (szerb, macedón, magyar, francia).

Partnerek:
  • Budapesti Műszaki és Gazdaságtudományi Egyetem, Magyarország
  • Idiap Research Institute, Martigny, Svájc
  • Ss. Cyril and Methodius University of Skopje, Skopje, Macedónia
  • University of Novi Sad, Novi Sad, Szerbia

magyarbeszed.tmit.bme.hu

A honlap célja, hogy hozzáférhető adatokat biztosítson mindazoknak, akik érdeklődnek a beszéd és beszédtechnológia témaköre iránt. A honlap szorosan kapcsolódik az Akadémiai Kiadó gondozásában megjelent könyvhöz, amelynek címe: A MAGYAR BESZÉD - beszédkutatás, beszédtechnológia, beszédinformációs rendszerek. A beszédnek, mint irányfüggetlen, hangos információközlő eszköznek egyre nagyobb szerep jut az információs, digitális társadalomban. Ez főleg olyan megoldásokat kíván, amelyekben az emberek hangos szóval is beszélgethetnek a géppel. Az ilyen irányú kutatás, valamint szakoktatás támogatásához kívánunk hozzájárulni a honlapon közzétett adatokkal, programokkal. Ez az első nyilvános honlap, amelyen a magyar beszéd elemzésével kapcsolatos adatok szabadon hozzáférhetők.

Honlap: magyarbeszed.tmit.bme.hu

Aloldalak:
  • Letölthető programok, adatok
  • Interaktív anyagok
  • Hangszimbólumok
  • Kiejtési szótár
  • Ismertető a könyvről
  • A könyv tartalomjegyzéke
  • A könyv szerzői

NAO robot a gyermekek szolgálatában

A kutatócsoportunk a Szent László Kórház Hematológiai és Őssejt-transzplantációs Osztályával kezdett együttműködést. Az innovatív orvoscsoporttal közösen dolgozva vizsgáljuk, hogy a beteg gyerekek miképp reagálnak a robotra, milyen játéklehetőségeket látnak benne.

Kutatási projekt indulhat arra, hogy a robot interraktívan tudjon reagálni, ismerje föl kivel áll szemben, fizikai paraméterek alapján adaptálódjon a gyerekek állapotához és annak megfelelően kommunikáljon vele. A robot nagy segítség lehet azon gyerekek gyógyításában, akik hónapokat töltenek steril szobában. (Forrás, Videó)

Kutatásvezető: Dr. Zainkó Csaba

Deep Learning

Az adatmennyiség robbanásszerű növekedésével, a GPU-k technológiai fejlődésével és a tudományterület új eredményeinek köszönhetően az elmúlt években a mélytanuló rendszerek, azon belül pedig a mély neurális hálózatok (Deep Neural Networks, DNN) a gépi tanulás egyik legjobban kutatott tématerületévé vált. A neuronháló mély rétegei a modellezni kívánt adatok különböző absztrakcióinak kinyerésére és osztályozására, predikciójára képesek. Ennek köszönhetően a mély neurális hálózatok a gépi látáson és beszéden túl már alkalmasak fordításra, zenei stílus automatikus osztályozására, felhasználói preferencia jóslására, felhasználó azonosítására, sőt, akár rajzolni és zenét komponálni is tudnak.

Laboratóriumunkban aktív kutatás folyik mind az alkalmazott, mind pedig az elméleti deep learning területén.

Kutatásvezető: Dr. Tóth Bálint Pál

Kérdőmondatok intonációjának modellezése

A mai rejtett Markov-modelleken (Hidden Markov-model, HMM) alapuló statisztikai parametrikus beszédszintézis rendszerekkel érthető, természetes hangzású, jó minőségű szintetikus beszédet tudunk előállítani. Ezek a rendszerek sikeresen képesek modellezni kijelentő mondatokat, azonban kérdő modalitású mondatok prozódiai modellezése nem megfelelő. Magyar nyelv esetén kérdő mondatok prozódiájának modellezése egy kihívást jelentő feladat a különböző típusú kérdő mondatok (eldöntendő, kiegészítendő, ellenőrző, választó, befejezetlen típusok) következtében. Minden típus sajátos dallammenettel rendelkezik, valamint ez a dallammenet a mondat szótagszámának függvényében is változik.

A kutatás célja HMM alapú szintetikus beszéd minőségének javítása kérdő mondatok esetén. A kutatás során tisztán statisztikai alapú megközelítést, szabály alapú megközelítést, valamint ezek kombinációjával hibrid megoldásokat is vizsgálunk. A kutatás eredményei és az elvégzett szubjektív meghallgatásos tesztek eredményei alapján kijelenthető, hogy a különböző megközelítések mindegyikével növelhető az interrogatív mondatok prozódiájának természetessége a HMM keretrendszeren belül. A tisztán statisztikai parametrikus megoldás előnye, hogy képes a célbeszélő hangkarakterének sajátosságainak modellezésére, beszélőfüggetlenül alkalmazható, azonban limitált tanító anyag megléte esetén a szintetikus prozódia minősége romlik. Tisztán szabály alapú megközelítés kiküszöböli a limitált tanító anyag esetén fellépő problémát, azonban nem alkalmazkodik a célbeszélő hangkarakteréhez, így a célbeszélő hangjának felismerhetősége romolhat. Előbbiek miatt célszerű hibrid megoldások alkalmazása, mely alkalmas lehet a különböző megoldások előnyeinek ötvözésére az esetleges hiányosságok kiküszöbölésére.

Kutatásvezető: Nagy Péter

Vokóder: hangszalagrezgés modellezése a beszédszintézisben

A beszédtechnológiában sokszor az informatikától távolabb álló ismeretekre is szükség van: a beszéd modellezéséhez elengedhetetlen a hangképző szervek működésének áttekintése. A beszélő szervek közül a gége kitüntetett szerepet játszik, hiszen itt történik az alaphang képzése a tüdőből kiáramló levegő által, amely megrezegteti a hangszalagokat. Bizonyos beszédstílusokban (pl. levegős beszéd, suttogás, rekedtes beszéd) azonban a hangszalagok rezgése a normáltól eltérő is lehet. A gége rezgése mérhető a beszédjelből, de emellett speciális eszközzel, az ún. elektroglottográffal lehetőség van a hangszalagmozgás közvetlen mérésére is.

Kutatásunk során vokódert (más néven gerjesztési modellt) készítünk, mely használható 1) beszédstílus automatikus módosítására és 2) statisztikai parametrikus beszédszintézisre (pl. HMM alapú beszédszintézis). Vokóderen alapuló transzformációs eljárással lehetőség van a beszédjel módosítására (pl. rekedtesből normál beszéd). A HMM alapú beszédszintézisben a legújabb kutatási alkérdés, hogy a hangszalagok rezgését hogyan lehet folytonos, statisztikai modellezésre alkalmas paraméterekkel leírni.

Kutatásvezető: Dr. Csapó Tamás Gábor

Mély neurális hálózat alapú szövegfelolvasó (Deep Neural Network based TTS)

Az elmúlt évtizedben a gépi szövegfelolvasó egyik meghatározó ága a statisztikai parametrikus beszédszintézis. Ekkor nem hullámformákat fűzünk össze, hanem a hangot beszédkódoló eljárásokkal (mint amilyen a mobiltelefonokban is van, vagy mint amit a Skype használ) paraméterekre bontjuk (ettől lesz parametrikus!) és ezeket modellezzük statisztikai, gépi tanuló eljárásokkal.

A mély neurális hálózatok az elmúlt években minden korábbi módszernél hatékonyabbnak bizonyultak. Laboratóriumunkban a nemzetközi tudományos és ipari megoldásokat követve, hazánkban egyedülálló aktív kutatás folyik mély neurális hálózat alapú beszédszintézis témakörben.

A mély MLP-től (Multi Layer Perceptron) kezdve, a modern rekurrens neuronhálózatokon át (Long Short Term Memory – LSTM, Gated Recurrent Unit – GRU) az autoencoderekig kísérleteket végzünk a sokrétű paraméterfolyamok pontos modellezésére. A modelleket nagykapacitású Nvidia Titan X-en és GTX 980-as GPU-kon tanítjuk, C, Python és LUA nyelven. Célunk minden korábbinál természetesebb és változatosabb gépi beszéd előállítása!

Kutatásvezető: Dr. Tóth Bálint Pál

Ultrahang és beszéd: hogyan táncol a nyelv?

A szájüregről készült ultrahangos felvételek elemzésével láthatóvá tehetjük, hogyan "táncol" a nyelv beszéd közben! Az újabb ultrahangos technológiákat (nagyfelbontású és nagysebességű 2D / 3D / valós idejű 3D) azonban korábban nem alkalmazták beszédkutatási célokra. Részproblémák, amikkel foglalkozunk: nyelvkontúr követő algoritmusok tesztelése és megvalósítása, a nyelvmozgás és a beszédjel összehasonlítása, és annak vizsgálata, hogy ezek beszédtechnológiában hogyan használhatóak fel. A kutatás során párhuzamos beszéd és ultrahangos videó adatbázist elemzünk és dolgozunk fel.

Kutatásvezető: Dr. Csapó Tamás Gábor

Mobil szenzoradatok elemzése (mély) tanuló algoritmusokkal

Laboratóriumunkban aktív kutatás folyik az okostelefonok szenzoradatainak gépi tanuló módszerekkel történő osztályozására és predikciójára. Általános célunk az felhasználó viselkedési szokásainak elemzése és előrejelzése.

Az adott eszközön elérhető összes szenzoradatot (pl. gyorsulás, orientációs, fényérzékelő szenzor, hőmérséklet, WiFi hálózatok, Bluetooth hálózatok, stb.) dedikált alkalmazás segítségével gyűjtjük be és adatbázisban tároljuk el. Ezt követően az adatokat jellemzővektorokká alakítjuk klasszikus jelfeldolgozó eljárásokkal (pl. autokorreláció, kovariancia, Fourier transzformáció), majd modern algoritmusokkal osztályozzuk és becsüljük őket (pl. Support Vector Machine - SVM, K-Nearest Neightbors - KNN, Random Forrest, Deep Neural Network - DNN).

A kutatás legújabb iránya, hogy a szenzoradatok jellemzőit nem kinyerjük, hanem tanuljuk magukból az adatokból (feature learning) konvolúciós mély neurális hálózatokkal majd modern rekurrens neuronháló architektúrákon tanítjuk a modellünket (pl. LSTM – Long Short Term Memory, GRU – Gated Recurrent Unit). A számításokat nagykapacitású Nvidia Titan X-en és GTX 980-as GPU-kon végezzük Python és LUA nyelven.

Kutatásvezető: Dr. Tóth Bálint Pál