A BME Távközlési és Médiainformatikai Tanszék Beszédkommunikáció és Intelligens Interakciók Laboratóriuma a következő kiemelkedő kompetenciákkal rendelkezik: felsőoktatás (OTDK I. helyezések, DAAD és Fulbright ösztöndíjak), hazai és nemzetközi szinten kiemelkedő kutatás, technológia és alkalmazás fejlesztés a következő területeken: infokommunikációs technológia és szolgáltatások, mobil információs rendszerek, ember-gép interakció, ember-jármű interakció, ember-robot interakció, rehabilitációs és egészségügyi szolgáltatások és alkalmazások, nyelv- és beszédtechnológia, multimodális interakciók, beszédinformációs rendszerek, „okos” eszközök és platformok (smartphone, smartTV, smartwatch…).

A Laboratórium nemzetközi szinten is jelentős kutatási infrastruktúrával bír a következő területeken: beszédszintézis, beszédfelismerés, beszédinformációs rendszerek, automatikus beszédről -beszédre fordító rendszerek, érzelem kifejezés és felismerés, kommunikációs kontextus elemzés, hangos ikonok, ügyfélszolgálat automatizálás, üzleti és beszédbányászat/analitika, intelligens információs szolgáltatások, okostelefon alkalmazások, okosTV alkalmazások, okos otthon alkalmazások, multimodális alkalmazások, egészségügyi alkalmazások, stroke rehabilitáció, látássérült emberek rehabilitációja, beszédsérült emberek rehabilitációja, depresszió előrejelzés és detekció, hangminőség detekció és kifejezés, torokrák előrejelzés és detekció, kísérleti pszichológiai kísérletek támogatása.

Az alábbi gyakorlatban is használt eredményeket érték el: többféle gépi beszédkeltési és beszédfelismerési technológia különböző platformokon (Windows, Android, Linux, ...), specializált alkalmazások (pl. pályaudvari hangos menetrend információ felolvasó rendszer, személy- és cégnév felolvasó rendszer, árlista felolvasó rendszer, látássérülteknek automatikus szövegfelolvasó rendszer, beszédsérülteknek kommunikációs rendszer (stroke és afáziás rehabilitációra is használható), nagyszótárú telefonos magyar nyelvű beszédfelismerő különböző platformokon és célokra (utcanév felismerő, név-szerinti tudakozó dialógus rendszer, távközlési, banki és biztosítási területeken beszédbányászati megoldások), referencia beszédtechnológiai adatbázisok, szoftver eszközök és egyéb infrastruktúrák, mobil, okosTV, okosóra és robot mintaalkalmazások.

Laboratóriumunkban aktív kutatás folyik az elméleti és alkalmazott mély tanulás (deep learning) területén. Az alap mély tauló architektúrákon (előrecsatolt, konvolúciós, rekurrens - LSTM, GRU) túl foglalkozunk autoencoderekkel, szintetikus gradienssel, ellenséges és sziámi neurális hálózatokkal. Laboratóriumunkban a deep learning alapú hang- és beszédfeldolgozás, osztályozás, generálás mellett a szöveg értés és értelmezés, ember-gép interakció és idősor osztályozás és előrejelzés témákban is alkalmazunk mély neurális hálózatokat. Laboratóriumunk 2016 nyarán elnyerte a hivatalos NVidia GPU oktatási központ címet.

GPU Education Center

Ismert meg a csapatunkat!

Szakértő csapatunk otthonosan mozog mind az elméleti tudományok, mind a gyakorlatias alkalmazások területén.

Munkatársaink