Human
Computer
Interaction

study about visual,
gesture and
speech interface technologies.Details

Speech Technology and Smart Interactions Laboratory

This laboratory has ever since been active in practically all the important fields of speech processing. It is one of the outstanding speech research groups of Central-Europe, hosting the Eurospeech conference in 1999. The acting leaders of STL are Dr. Géza Németh and Dr. Gábor Olaszy.

The Laboratory is active in the whole scale of the innovation chain: from basic research through experimental prototypes to industrial grade software development. Approximately 70% of its' funding comes from international and national research projects, and industrial contracts.

Human Computer Interacion

The objective of the course is to study about visual, gesture and speech interface technologies within Human-Computer Interaction (HCI). There will be a specific focus on the personalized, location- and context-aware interfaces for intelligent environments (smart city, smart home, smart workplace).

Beszédszintézis

Laboratóriumunk hazánkban egyedülálló magyar nyelvű gépi szövegfelolvasó (Text-to-Speech, TTS) technológiák kutatásában, fejlesztésében. Mit is jelent ez? Tetszőleges gépelt szöveget természetes hangzású emberi beszéddé alakítunk! Női és férfi hangon egyaránt! Megoldásaink a beágyazott rendszerektől kezdve, okostelefonokon át, a nagyteljesítményű szerverekig elérhetőek Linux, Windows és Android rendszereken.

Intelligens interakciók

A technológia egyre inkább mindannapi életünk részese, ezért kiemelten fontosnak tartjuk az ember-gép és ember-robot kapcsolat kutatását. Többek között foglalkozunk humanoid robot vezérléssel, multimodális interfészek kialakításával, okostelefonos alkalmazások felhasználói élményének növelésével, továbbá vak-, látássérült és beszédsérült felhasználóknak speciális felületek kialakításával.

Deep Learning

Laboratóriumunkban aktív kutatás folyik a mély neurális hálózatok területén. A gépi tanulás legmodernebb módszerével minden korábbinál pontosabb modelleket tudunk készíteni. A mély tanulás segítségével lehetséges beszélő és látó gépeket, robotokat, okostelefonokat létrehozni, nagymennyiségű adatot elemezni, idősort előrejelezni, szövegek tartalmát értelmezni, osztályozni. Bővebben...

353 Publikáció
28 Sikeres projekt
103 Végzett hallgató
18 TDK helyezés
143 Nemzetközi előadás
7 Szabadalom
7678 Kávé
6 OTDK
helyezés

MAGYAR NYELVŰ SZÖVEGFELOLVASÓ

Ipari rendszerekben sikeresen alkalmazott, skálázható Text-to-Speech (TTS) megoldások.
Válassza ki az adott scenárióhoz legjobban illeszkedő szövegfelolvasó motorunkat. Mindegyik elérhető női és férfi hangokon.

Profivox korpuszos TTS

A korpuszos magyar szövegfelolvasó rendszerünk nyújtja a legtermészetesebb gépi beszédhangot – szinte összetéveszthető a természetes beszéddel. Ez a rendszerünk szól például a Keleti Pályaudvaron. A legmagasabb minőséget előre meghatározott tématerületen nyújtja (pl. árlista felolvasás, menetrend, időjárás jelentés). Új tématerületek esetén szükség lehet a rendszer finomhangolására. A Profivox korpuszos TTS elfut egy átlagos asztali számítógépen.

Bővebben

Érthetőség 100%

Természetesség 90%

Beszédhangok száma 12

Méret 5+ GB

Profivox HMM TTS

A harmadik típusú szövegfelolvasó rendszerünk a legflexibilisebb. A természetes beszédhez hasonlító gépi beszédhang általános tématerületeken közel azonos minőséget nyújt. Akár már 10 perc hangfelvétel segítségével bárkinek a hangkarakterét visszaadó gépi hangot tudunk vele készíteni legyen szó akár női, akár férfi beszélőről! A hangmagasság és a beszéd sebessége széles tartományban állítható. A megoldás elérhető okostelefonokon és asztali számítógépes környezetben.

Bővebben

Érthetőség 80%

Természetesség 90%

Beszédhangok száma 30+

Méret 2-100 MB

Profivox diád/triád TTS

A legrégebbi technológiánk, mely már számos ipari alkalmazásban bizonyított! A megoldás az alacsony erőforrású beágyazott rendszerektől kezdve, az okostelefonokon keresztül, a többszáz szálas szerverig elfut szinte bármilyen konfiguráción. Speciális igényeket is ki tudunk szolgálni! Zajos környezetben is rendkívül jól érthető, nagy tartományban tudjuk állítani a hangmagasságot és sebességet! Többek között a Profivox diád/triád TTS szól a JAWS for Windows képernyőfelolvasóban, beszélő bankautomatákban és számos telefonos ügyfélszolgálati rendszerben.

Bővebben

Érthetőség 100%

Természetesség 40%

Beszédhangok száma 6

Méret ~1 MB

Legújabb projektek

NAO robot a gyermekek szolgálatában

A kutatócsoportunk a Szent László Kórház Hematológiai és Őssejt-transzplantációs Osztályával kezdett együttműködést. Az innovatív orvoscsoporttal közösen dolgozva vizsgáljuk, hogy a beteg gyerekek miképp reagálnak a robotra, milyen játéklehetőségeket látnak benne.

Kutatási projekt indulhat arra, hogy a robot interraktívan tudjon reagálni, ismerje föl kivel áll szemben, fizikai paraméterek alapján adaptálódjon a gyerekek állapotához és annak megfelelően kommunikáljon vele. A robot nagy segítség lehet azon gyerekek gyógyításában, akik hónapokat töltenek steril szobában. (Forrás, Videó)

Ultrahang és beszéd: hogyan táncol a nyelv?

A szájüregről készült ultrahangos felvételek elemzésével láthatóvá tehetjük, hogyan "táncol" a nyelv beszéd közben! Az újabb ultrahangos technológiákat (nagyfelbontású és nagysebességű 2D / 3D / valós idejű 3D) azonban korábban nem alkalmazták beszédkutatási célokra. Részproblémák, amikkel foglalkozunk: nyelvkontúr követő algoritmusok tesztelése és megvalósítása, a nyelvmozgás és a beszédjel összehasonlítása, és annak vizsgálata, hogy ezek beszédtechnológiában hogyan használhatóak fel. A kutatás során párhuzamos beszéd és ultrahangos videó adatbázist elemzünk és dolgozunk fel.

Deep learning alapú szövegfelolvasó

Az elmúlt évtizedben a gépi szövegfelolvasó egyik meghatározó ága a statisztikai parametrikus beszédszintézis. Ekkor nem hullámformákat fűzünk össze, hanem a hangot beszédkódoló eljárásokkal (mint amilyen a mobiltelefonokban is van, vagy mint amit a Skype használ) paraméterekre bontjuk (ettől lesz parametrikus!) és ezeket modellezzük statisztikai, gépi tanuló eljárásokkal.

A mély neurális hálózatok az elmúlt években minden korábbi módszernél hatékonyabbnak bizonyultak. Laboratóriumunkban a nemzetközi tudományos és ipari megoldásokat követve, hazánkban egyedülálló aktív kutatás folyik mély neurális hálózat alapú beszédszintézis témakörben.

A mély MLP-től (Multi Layer Perceptron) kezdve, a modern rekurrens neuronhálózatokon át (Long Short Term Memory – LSTM, Gated Recurrent Unit – GRU) az autoencoderekig kísérleteket végzünk a sokrétű paraméterfolyamok pontos modellezésére. A modelleket nagykapacitású Nvidia Titan X-en és GTX 980-as GPU-kon tanítjuk, C, Python és LUA nyelven. Célunk minden korábbinál természetesebb és változatosabb gépi beszéd előállítása!

Látássérülteket támogató keretrendszer

A VUK (Visionless sUpporting frameworK) projekt célja, hogy a vakok és gyengénlátók mindennapi életét elősegítse olyan kihívásokkal teli feladatokban, mint például a közösségi közlekedésben részvétel. Emellett a projekt egy egyszerű, hatékony és megfizethető ajtótól-ajtóig navigáló asszisztens alkalmazást is tervez nyújtani.

A szokásos eszközökkel szemben, amelyek csak kültéri navigációra használhatóak, a projektben olyan helyzetekre is készülünk, amikor a vak személy ismeretlen beltéri környezetben (pl. földalatti, vasútállomás, buszmegálló) is utazik, vagy amikor az utazás célja komplex épületek (pl. pláza, üzletközpont, irodaház) meglátogatása.

Amellett, hogy a projekt segíteni fogja a vak és gyengénlátó emberek mindennapjait, az elképzelt szolgáltatás cégeknek, irodáknak és infrastruktúra szolgáltatóknak (pl. helyi kormányzat) is érdekes lehet, hiszen a vakok itt is dolgozhatnak vagy megfordulhatnak – a projekt pedig segítheti integrálódásukat a közösségbe.

Szociális életet támogató személyes eszköz időseknek

A PaeLife (Personal Assistant to Enhance the Social Life of the Seniors) projekt 8 partnert fog össze Portugáliából, Franciaországból, Magyarországról, és Lengyelországból és azokra fókuszál, akik nemrégiben vonultak vissza, valamilyen szinten hozzászoktak a technológia használatához, és szeretnének aktívak, produktívak, és szociálisan elkötelezettek maradni. A projekt fő célja, hogy harcoljon az elszigeteltség és kirekesztettség ellen, hogy lehetőséget teremtsen az idősek számára egy hatékonyabb, független, társadalmilag aktívabb és kiteljesedettebb életre egy személyes életvezetési asszisztens segítségével, amely társadalmi kommunikációt, tanulást és szórakozást támogató virtuális jelenléten alapul.

További folyamatban lévő projektek Befejezett projektek

Akadémiai partnereink

Ipari partnereink