Csoportunk "régi motoros", jelen vagyunk a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszékén a kezdetektől fogva. Fő kompetenciáink a magyar nyelvű beszédszintézis (női és férfi hangon), ember-gép, ember-robot interfészek, kisegítő interfészek vak-, látás- és beszédsérült felhasználóknak, továbbá az általános statisztikai és modern gépi tanuló algoritmusok. Nagy hangsúlyt fektetünk a deep learning kutatásra és oktatásra, mely eredményeként laboratóriumunk 2016 nyarán elnyerte a hivatalos NVidia GPU oktatási központ címet.
Laboratóriumunk hazánkban egyedülálló magyar nyelvű gépi szövegfelolvasó (Text-to-Speech, TTS) technológiák kutatásában, fejlesztésében. Mit is jelent ez? Tetszőleges gépelt szöveget természetes hangzású emberi beszéddé alakítunk! Női és férfi hangon egyaránt! Megoldásaink a beágyazott rendszerektől kezdve, okostelefonokon át, a nagyteljesítményű szerverekig elérhetőek Linux, Windows és Android rendszereken.
A technológia egyre inkább mindannapi életünk részese, ezért kiemelten fontosnak tartjuk az ember-gép és ember-robot kapcsolat kutatását. Többek között foglalkozunk humanoid robot vezérléssel, multimodális interfészek kialakításával, okostelefonos alkalmazások felhasználói élményének növelésével, továbbá vak-, látássérült és beszédsérült felhasználóknak speciális felületek kialakításával.
Laboratóriumunkban aktív kutatás folyik a mély neurális hálózatok területén. A gépi tanulás legmodernebb módszerével minden korábbinál pontosabb modelleket tudunk készíteni. A mély tanulás segítségével lehetséges beszélő és látó gépeket, robotokat, okostelefonokat létrehozni, nagymennyiségű adatot elemezni, idősort előrejelezni, szövegek tartalmát értelmezni, osztályozni. Bővebben...
Ipari rendszerekben sikeresen alkalmazott, skálázható Text-to-Speech (TTS) megoldások.
Válassza ki az adott scenárióhoz legjobban illeszkedő szövegfelolvasó motorunkat. Mindegyik elérhető női és férfi hangokon.
A korpuszos magyar szövegfelolvasó rendszerünk nyújtja a legtermészetesebb gépi beszédhangot – szinte összetéveszthető a természetes beszéddel. Ez a rendszerünk szól például a Keleti Pályaudvaron. A legmagasabb minőséget előre meghatározott tématerületen nyújtja (pl. árlista felolvasás, menetrend, időjárás jelentés). Új tématerületek esetén szükség lehet a rendszer finomhangolására. A Profivox korpuszos TTS elfut egy átlagos asztali számítógépen.
Ez a típusú szövegfelolvasó rendszerünk a legflexibilisebb. A mesterséges intelligencia legerősebb technikáját, a mély tanulást használjuk benne. A természetes beszédhez jelentősen hasonlító gépi beszédhang általános tématerületeken közel azonos minőséget nyújt. Akár már 10 perc hangfelvétel segítségével bárkinek a hangkarakterét visszaadó gépi hangot tudunk vele készíteni legyen szó akár női, akár férfi beszélőről! A megoldás asztali számítógépes és szerver környezetben érhető el.
Ez a típusú szövegfelolvasó rendszerünk a DNN alapú után a legflexibilisebb. A természetes beszédhez hasonlító, de néha erősen gépi beszédhang általános tématerületeken közel azonos minőséget nyújt. Rövid hangfelvétel segítségével tetszőleges hangkaraktert visszaadó gépi hangot tudunk vele készíteni. A hangmagasság és a beszéd sebessége széles tartományban állítható. A megoldás elérhető okostelefonokon és asztali számítógépes környezetben.
A legrégebbi technológiánk, mely már számos ipari alkalmazásban bizonyított! A megoldás az alacsony erőforrású beágyazott rendszerektől kezdve, az okostelefonokon keresztül, a többszáz szálas szerverig elfut szinte bármilyen konfiguráción. Speciális igényeket is ki tudunk szolgálni! Zajos környezetben is rendkívül jól érthető, nagy tartományban tudjuk állítani a hangmagasságot és sebességet! Többek között a Profivox diád/triád TTS szól a JAWS for Windows képernyőfelolvasóban, beszélő bankautomatákban és számos telefonos ügyfélszolgálati rendszerben.
A kutatócsoportunk a Szent László Kórház Hematológiai és Őssejt-transzplantációs Osztályával kezdett együttműködést. Az innovatív orvoscsoporttal közösen dolgozva vizsgáljuk, hogy a beteg gyerekek miképp reagálnak a robotra, milyen játéklehetőségeket látnak benne.
Kutatási projekt indulhat arra, hogy a robot interraktívan tudjon reagálni, ismerje föl kivel áll szemben, fizikai paraméterek alapján adaptálódjon a gyerekek állapotához és annak megfelelően kommunikáljon vele. A robot nagy segítség lehet azon gyerekek gyógyításában, akik hónapokat töltenek steril szobában. (Forrás, Videó)
A szájüregről készült ultrahangos felvételek elemzésével láthatóvá tehetjük, hogyan "táncol" a nyelv beszéd közben! Az újabb ultrahangos technológiákat (nagyfelbontású és nagysebességű 2D / 3D / valós idejű 3D) azonban korábban nem alkalmazták beszédkutatási célokra. Részproblémák, amikkel foglalkozunk: nyelvkontúr követő algoritmusok tesztelése és megvalósítása, a nyelvmozgás és a beszédjel összehasonlítása, és annak vizsgálata, hogy ezek beszédtechnológiában hogyan használhatóak fel. A kutatás során párhuzamos beszéd és ultrahangos videó adatbázist elemzünk és dolgozunk fel.
Az elmúlt évtizedben a gépi szövegfelolvasó egyik meghatározó ága a statisztikai parametrikus beszédszintézis. Ekkor nem hullámformákat fűzünk össze, hanem a hangot beszédkódoló eljárásokkal (mint amilyen a mobiltelefonokban is van, vagy mint amit a Skype használ) paraméterekre bontjuk (ettől lesz parametrikus!) és ezeket modellezzük statisztikai, gépi tanuló eljárásokkal.
A mély neurális hálózatok az elmúlt években minden korábbi módszernél hatékonyabbnak bizonyultak. Laboratóriumunkban a nemzetközi tudományos és ipari megoldásokat követve, hazánkban egyedülálló aktív kutatás folyik mély neurális hálózat alapú beszédszintézis témakörben.A mély MLP-től (Multi Layer Perceptron) kezdve, a modern rekurrens neuronhálózatokon át (Long Short Term Memory – LSTM, Gated Recurrent Unit – GRU) az autoencoderekig kísérleteket végzünk a sokrétű paraméterfolyamok pontos modellezésére. A modelleket nagykapacitású Nvidia Titan X-en és GTX 980-as GPU-kon tanítjuk, C, Python és LUA nyelven. Célunk minden korábbinál természetesebb és változatosabb gépi beszéd előállítása!
A VUK (Visionless sUpporting frameworK) projekt célja, hogy a vakok és gyengénlátók mindennapi életét elősegítse olyan kihívásokkal teli feladatokban, mint például a közösségi közlekedésben részvétel. Emellett a projekt egy egyszerű, hatékony és megfizethető ajtótól-ajtóig navigáló asszisztens alkalmazást is tervez nyújtani.
A szokásos eszközökkel szemben, amelyek csak kültéri navigációra használhatóak, a projektben olyan helyzetekre is készülünk, amikor a vak személy ismeretlen beltéri környezetben (pl. földalatti, vasútállomás, buszmegálló) is utazik, vagy amikor az utazás célja komplex épületek (pl. pláza, üzletközpont, irodaház) meglátogatása.
Amellett, hogy a projekt segíteni fogja a vak és gyengénlátó emberek mindennapjait, az elképzelt szolgáltatás cégeknek, irodáknak és infrastruktúra szolgáltatóknak (pl. helyi kormányzat) is érdekes lehet, hiszen a vakok itt is dolgozhatnak vagy megfordulhatnak – a projekt pedig segítheti integrálódásukat a közösségbe.
A PaeLife (Personal Assistant to Enhance the Social Life of the Seniors) projekt 8 partnert fog össze Portugáliából, Franciaországból, Magyarországról, és Lengyelországból és azokra fókuszál, akik nemrégiben vonultak vissza, valamilyen szinten hozzászoktak a technológia használatához, és szeretnének aktívak, produktívak, és szociálisan elkötelezettek maradni. A projekt fő célja, hogy harcoljon az elszigeteltség és kirekesztettség ellen, hogy lehetőséget teremtsen az idősek számára egy hatékonyabb, független, társadalmilag aktívabb és kiteljesedettebb életre egy személyes életvezetési asszisztens segítségével, amely társadalmi kommunikációt, tanulást és szórakozást támogató virtuális jelenléten alapul.