Human
Computer
Interaction

study about visual,
gesture and
speech interface technologies.Details

Speech Technology and Smart Interactions Laboratory

This laboratory has ever since been active in practically all the important fields of speech processing. It is one of the outstanding speech research groups of Central-Europe, hosting the Eurospeech conference in 1999. The acting leaders of STL are Dr. Géza Németh and Dr. Gábor Olaszy.

The Laboratory is active in the whole scale of the innovation chain: from basic research through experimental prototypes to industrial grade software development. Approximately 70% of its' funding comes from international and national research projects, and industrial contracts.

Introduction to BME TMIT SmartLabs

Dear Colleagues, My name is Géza NÉMETH. I am the Head of Speech Communication and Smart Interactions Laboratories, Department of Telecommunications and Media Informatics, at the Budapest University of Technology and Economics. We live in Hungary which is a 1000 year old country in Central-Europe with about 10 million citizens. Our University is one of the oldest engineering schools worldwide. The foundation date is 1782 so we are currently running the 240th schoolyear. Our research group was founded more than 40 years ago. Currently there are about 20 full time members in the three component laboratories. In addition we work together with several BSc and MSc students. About 80% of our funding comes from competitive national and international research grants and licence fees from commercial entities. Our fields cover speech information systems, multimodal and mobile human-machine interfaces in the wider context of artificial intelligence. Our activity extends from basic research, through technology development to applications embedded in the information society. In education we have started at our University the BSc level course on Speech Information Systems 20 years ago. At MSc level the course on Human-Computer Interaction about 10 years ago and Practical Deep Learning education 5 years ago. Personally I am the International Relations Workgroup Leader of the Hungarian Artificial Intelligence Coalition which includes more than 340 legal entities. I am also the Hungarian National Contact Point for the Artificial Intelligence Platform of the European Union. We look forward to join forces with all of you who are interested in creating innovative AI solutions in Human-Computer Interaction with a special focus on speech communication! You can reach me at nemeth@tmit.bme.hu !

APH-ALARM

APH-ALARM: Comprehensive safety solution for people with Aphasia
Aphasia is an impairment of language, affecting the production or comprehension of speech and the ability to read or write. People with aphasia can have a longer reaction time and are often not able to express their needs or ask for help whenever it is needed. APH-ALARM aims to create an alarm system for older people (55+) after stroke with aphasia in order to regain and keep their independence, abilities and dignity while feeling safe and supported. APH-ALARM is a comprehensive safety solution, offers an universal monitoring system with an alerting (including automatic alerting) ability for people after stroke. It works with a manual, gesture and the automatic alert triggering for older people with communication difficulties after stroke. The solution can be used in the most sudden and critical safety or medical emergency situation (including sleeping) in which they would not be able to express themselves. The solution is based on the worldwide unique technology and process of SoleCall Ltd that can assist and monitor people whole day long. The system is based on collecting all necessary end-user data through the mobile app and bed sensor for training and optimizing the models. The alert system can be controlled manually by using pictograms, through gestures even if the smartphone is in the pocket or bag and has an automatic alert triggering feature as well. Technical and end-user partners from three countries (Hungary, Austria and Portugal) will be involved in defining and evaluating the system. Moreover, end-users will also take an important role in creating a reliable algorithm trained by and based on the anonymous end-user data collection.

Human Computer Interacion

The objective of the course is to study about visual, gesture and speech interface technologies within Human-Computer Interaction (HCI). There will be a specific focus on the personalized, location- and context-aware interfaces for intelligent environments (smart city, smart home, smart workplace).

Beszédszintézis

Laboratóriumunk hazánkban egyedülálló magyar nyelvű gépi szövegfelolvasó (Text-to-Speech, TTS) technológiák kutatásában, fejlesztésében. Mit is jelent ez? Tetszőleges gépelt szöveget természetes hangzású emberi beszéddé alakítunk! Női és férfi hangon egyaránt! Megoldásaink a beágyazott rendszerektől kezdve, okostelefonokon át, a nagyteljesítményű szerverekig elérhetőek Linux, Windows és Android rendszereken.

Intelligens interakciók

A technológia egyre inkább mindannapi életünk részese, ezért kiemelten fontosnak tartjuk az ember-gép és ember-robot kapcsolat kutatását. Többek között foglalkozunk humanoid robot vezérléssel, multimodális interfészek kialakításával, okostelefonos alkalmazások felhasználói élményének növelésével, továbbá vak-, látássérült és beszédsérült felhasználóknak speciális felületek kialakításával.

Deep Learning

Laboratóriumunkban aktív kutatás folyik a mély neurális hálózatok területén. A gépi tanulás legmodernebb módszerével minden korábbinál pontosabb modelleket tudunk készíteni. A mély tanulás segítségével lehetséges beszélő és látó gépeket, robotokat, okostelefonokat létrehozni, nagymennyiségű adatot elemezni, idősort előrejelezni, szövegek tartalmát értelmezni, osztályozni. Bővebben...

353 Publikáció
28 Sikeres projekt
103 Végzett hallgató
18 TDK helyezés
143 Nemzetközi előadás
7 Szabadalom
27952 Kávé
6 OTDK
helyezés

MAGYAR NYELVŰ SZÖVEGFELOLVASÓ

Ipari rendszerekben sikeresen alkalmazott, skálázható Text-to-Speech (TTS) megoldások.
Válassza ki az adott scenárióhoz legjobban illeszkedő szövegfelolvasó motorunkat. Mindegyik elérhető női és férfi hangokon.

Profivox korpuszos TTS

A korpuszos magyar szövegfelolvasó rendszerünk nyújtja a legtermészetesebb gépi beszédhangot – szinte összetéveszthető a természetes beszéddel. Ez a rendszerünk szól például a Keleti Pályaudvaron. A legmagasabb minőséget előre meghatározott tématerületen nyújtja (pl. árlista felolvasás, menetrend, időjárás jelentés). Új tématerületek esetén szükség lehet a rendszer finomhangolására. A Profivox korpuszos TTS elfut egy átlagos asztali számítógépen.

Bővebben

Érthetőség 100%

Természetesség 90%

Beszédhangok száma 12

Méret 5+ GB

Profivox HMM TTS

A harmadik típusú szövegfelolvasó rendszerünk a legflexibilisebb. A természetes beszédhez hasonlító gépi beszédhang általános tématerületeken közel azonos minőséget nyújt. Akár már 10 perc hangfelvétel segítségével bárkinek a hangkarakterét visszaadó gépi hangot tudunk vele készíteni legyen szó akár női, akár férfi beszélőről! A hangmagasság és a beszéd sebessége széles tartományban állítható. A megoldás elérhető okostelefonokon és asztali számítógépes környezetben.

Bővebben

Érthetőség 80%

Természetesség 90%

Beszédhangok száma 30+

Méret 2-100 MB

Profivox diád/triád TTS

A legrégebbi technológiánk, mely már számos ipari alkalmazásban bizonyított! A megoldás az alacsony erőforrású beágyazott rendszerektől kezdve, az okostelefonokon keresztül, a többszáz szálas szerverig elfut szinte bármilyen konfiguráción. Speciális igényeket is ki tudunk szolgálni! Zajos környezetben is rendkívül jól érthető, nagy tartományban tudjuk állítani a hangmagasságot és sebességet! Többek között a Profivox diád/triád TTS szól a JAWS for Windows képernyőfelolvasóban, beszélő bankautomatákban és számos telefonos ügyfélszolgálati rendszerben.

Bővebben

Érthetőség 100%

Természetesség 40%

Beszédhangok száma 6

Méret ~1 MB

Legújabb projektek

NAO robot a gyermekek szolgálatában

A kutatócsoportunk a Szent László Kórház Hematológiai és Őssejt-transzplantációs Osztályával kezdett együttműködést. Az innovatív orvoscsoporttal közösen dolgozva vizsgáljuk, hogy a beteg gyerekek miképp reagálnak a robotra, milyen játéklehetőségeket látnak benne.

Kutatási projekt indulhat arra, hogy a robot interraktívan tudjon reagálni, ismerje föl kivel áll szemben, fizikai paraméterek alapján adaptálódjon a gyerekek állapotához és annak megfelelően kommunikáljon vele. A robot nagy segítség lehet azon gyerekek gyógyításában, akik hónapokat töltenek steril szobában. (Forrás, Videó)

Ultrahang és beszéd: hogyan táncol a nyelv?

A szájüregről készült ultrahangos felvételek elemzésével láthatóvá tehetjük, hogyan "táncol" a nyelv beszéd közben! Az újabb ultrahangos technológiákat (nagyfelbontású és nagysebességű 2D / 3D / valós idejű 3D) azonban korábban nem alkalmazták beszédkutatási célokra. Részproblémák, amikkel foglalkozunk: nyelvkontúr követő algoritmusok tesztelése és megvalósítása, a nyelvmozgás és a beszédjel összehasonlítása, és annak vizsgálata, hogy ezek beszédtechnológiában hogyan használhatóak fel. A kutatás során párhuzamos beszéd és ultrahangos videó adatbázist elemzünk és dolgozunk fel.

Deep learning alapú szövegfelolvasó

Az elmúlt évtizedben a gépi szövegfelolvasó egyik meghatározó ága a statisztikai parametrikus beszédszintézis. Ekkor nem hullámformákat fűzünk össze, hanem a hangot beszédkódoló eljárásokkal (mint amilyen a mobiltelefonokban is van, vagy mint amit a Skype használ) paraméterekre bontjuk (ettől lesz parametrikus!) és ezeket modellezzük statisztikai, gépi tanuló eljárásokkal.

A mély neurális hálózatok az elmúlt években minden korábbi módszernél hatékonyabbnak bizonyultak. Laboratóriumunkban a nemzetközi tudományos és ipari megoldásokat követve, hazánkban egyedülálló aktív kutatás folyik mély neurális hálózat alapú beszédszintézis témakörben.

A mély MLP-től (Multi Layer Perceptron) kezdve, a modern rekurrens neuronhálózatokon át (Long Short Term Memory – LSTM, Gated Recurrent Unit – GRU) az autoencoderekig kísérleteket végzünk a sokrétű paraméterfolyamok pontos modellezésére. A modelleket nagykapacitású Nvidia Titan X-en és GTX 980-as GPU-kon tanítjuk, C, Python és LUA nyelven. Célunk minden korábbinál természetesebb és változatosabb gépi beszéd előállítása!

Látássérülteket támogató keretrendszer

A VUK (Visionless sUpporting frameworK) projekt célja, hogy a vakok és gyengénlátók mindennapi életét elősegítse olyan kihívásokkal teli feladatokban, mint például a közösségi közlekedésben részvétel. Emellett a projekt egy egyszerű, hatékony és megfizethető ajtótól-ajtóig navigáló asszisztens alkalmazást is tervez nyújtani.

A szokásos eszközökkel szemben, amelyek csak kültéri navigációra használhatóak, a projektben olyan helyzetekre is készülünk, amikor a vak személy ismeretlen beltéri környezetben (pl. földalatti, vasútállomás, buszmegálló) is utazik, vagy amikor az utazás célja komplex épületek (pl. pláza, üzletközpont, irodaház) meglátogatása.

Amellett, hogy a projekt segíteni fogja a vak és gyengénlátó emberek mindennapjait, az elképzelt szolgáltatás cégeknek, irodáknak és infrastruktúra szolgáltatóknak (pl. helyi kormányzat) is érdekes lehet, hiszen a vakok itt is dolgozhatnak vagy megfordulhatnak – a projekt pedig segítheti integrálódásukat a közösségbe.

Szociális életet támogató személyes eszköz időseknek

A PaeLife (Personal Assistant to Enhance the Social Life of the Seniors) projekt 8 partnert fog össze Portugáliából, Franciaországból, Magyarországról, és Lengyelországból és azokra fókuszál, akik nemrégiben vonultak vissza, valamilyen szinten hozzászoktak a technológia használatához, és szeretnének aktívak, produktívak, és szociálisan elkötelezettek maradni. A projekt fő célja, hogy harcoljon az elszigeteltség és kirekesztettség ellen, hogy lehetőséget teremtsen az idősek számára egy hatékonyabb, független, társadalmilag aktívabb és kiteljesedettebb életre egy személyes életvezetési asszisztens segítségével, amely társadalmi kommunikációt, tanulást és szórakozást támogató virtuális jelenléten alapul.

További folyamatban lévő projektek Befejezett projektek

Akadémiai partnereink

Ipari partnereink