Magyar TTS - gépi szövegfelolvasó, deep learning, gépi tanulás, ember-gép interfész

Felhasználói élmény
UX és interakció
Mellékspecializáció

A mellékspecializáció a mesterséges intelligencia
és a felhasználói élmény
területén nyújt gyakorlat orientált képzést. Bővebben...

DEEP LEARNING
AZ ÖNLAB-TÓL
A PHD-IG

Tanulj bele az egyik legmenőbb
tudományágba és építsük együtt
a jövő algoritmusait. Bővebben...

OKTATÁS + KUTATÁS
TUDOMÁNY ÉS
INNOVÁCIÓ

Az alaptechnológiáktól
az ipari termékekig.
Több, mint 30 év tapasztalat.

MAGYAR NYELVŰ
SZÖVEGFELOLVASÓ
TÖBB, MINT 30 ÉVE

Folyamatosan fejlesztjük szövegfelolvasó technológiáink,
Windows, Linux, Android rendszereken.Bővebben...

Korpuszos szövegfelolvasó

HMM szövegfelolvasó

Diádos / triádos szövegfelolvasó

DEEP LEARNING
"MILYEN MÉLY A NYÚL
ÜREGE ALICE?"

Mély neurális hálózatokkal
nagyteljesítményű GPU-kon a jövő osztályozó
és predikciós modelljeit építjük.Bővebben...

LÉGY A CSAPATUNK TAGJA!
BARÁTSÁGOS LÉGKÖR,
FOLYAMATOS KIHÍVÁS

Várjuk a szorgalmas, proaktív hallgatók jelentkezését
önállólabor, szakdolgozat-, diplomatervezés
és PhD témákban. Bővebben...

SZAKMAI GYAKORLAT
ANDROID ÉS WINDOWS
ALKALMAZÁS FEJLESZTÉS

Motivált hallgatókat keresünk a laboratóriumunkba
3-6 hónapos szakmai gyakorlatra
jól körülhatárolt, célrendszerek fejlesztésére.Bővebben...

UTI-SSI-DNN: DNN alapú
némabeszéd-interfész
nyelvultrahanggal

Nyelvmozgás és beszéd vizsgálata
deep learning alapon
nemzetközi partnerekkel!Bővebben...

Beszédtechnológia és Intelligens Interakciók Laboratórium

Csoportunk "régi motoros", jelen vagyunk a Budapesti Műszaki és Gazdaságtudományi Egyetem Távközlési és Médiainformatikai Tanszékén a kezdetektől fogva. Fő kompetenciáink a magyar nyelvű beszédszintézis (női és férfi hangon), ember-gép, ember-robot interfészek, kisegítő interfészek vak-, látás- és beszédsérült felhasználóknak, továbbá az általános statisztikai és modern gépi tanuló algoritmusok. Nagy hangsúlyt fektetünk a deep learning kutatásra és oktatásra, mely eredményeként laboratóriumunk 2016 nyarán elnyerte a hivatalos NVidia GPU oktatási központ címet.

Tudj meg többet

Beszédszintézis

Laboratóriumunk hazánkban egyedülálló magyar nyelvű gépi szövegfelolvasó (Text-to-Speech, TTS) technológiák kutatásában, fejlesztésében. Mit is jelent ez? Tetszőleges gépelt szöveget természetes hangzású emberi beszéddé alakítunk! Női és férfi hangon egyaránt! Megoldásaink a beágyazott rendszerektől kezdve, okostelefonokon át, a nagyteljesítményű szerverekig elérhetőek Linux, Windows és Android rendszereken.

Intelligens interakciók

A technológia egyre inkább mindannapi életünk részese, ezért kiemelten fontosnak tartjuk az ember-gép és ember-robot kapcsolat kutatását. Többek között foglalkozunk humanoid robot vezérléssel, multimodális interfészek kialakításával, okostelefonos alkalmazások felhasználói élményének növelésével, továbbá vak-, látássérült és beszédsérült felhasználóknak speciális felületek kialakításával.

Deep Learning

Laboratóriumunkban aktív kutatás folyik a mély neurális hálózatok területén. A gépi tanulás legmodernebb módszerével minden korábbinál pontosabb modelleket tudunk készíteni. A mély tanulás segítségével lehetséges beszélő és látó gépeket, robotokat, okostelefonokat létrehozni, nagymennyiségű adatot elemezni, idősort előrejelezni, szövegek tartalmát értelmezni, osztályozni. Bővebben...

353 Publikáció

28 Sikeres projekt

103 Végzett hallgató

18 TDK helyezés

143 Nemzetközi előadás

7 Szabadalom

31187 Kávé

6 OTDK
helyezés

MAGYAR NYELVŰ SZÖVEGFELOLVASÓ

Ipari rendszerekben sikeresen alkalmazott, skálázható Text-to-Speech (TTS) megoldások.
Válassza ki az adott scenárióhoz legjobban illeszkedő szövegfelolvasó motorunkat. Mindegyik elérhető női és férfi hangokon.

Profivox korpuszos TTS

A korpuszos magyar szövegfelolvasó rendszerünk nyújtja a legtermészetesebb gépi beszédhangot – szinte összetéveszthető a természetes beszéddel. Ez a rendszerünk szól például a Keleti Pályaudvaron. A legmagasabb minőséget előre meghatározott tématerületen nyújtja (pl. árlista felolvasás, menetrend, időjárás jelentés). Új tématerületek esetén szükség lehet a rendszer finomhangolására. A Profivox korpuszos TTS elfut egy átlagos asztali számítógépen.

Bővebben

Érthetőség 100%

Természetesség 90%

Beszédhangok száma 12

Méret 5+ GB

Profivox DNN TTS

Ez a típusú szövegfelolvasó rendszerünk a legflexibilisebb. A mesterséges intelligencia legerősebb technikáját, a mély tanulást használjuk benne. A természetes beszédhez jelentősen hasonlító gépi beszédhang általános tématerületeken közel azonos minőséget nyújt. Akár már 10 perc hangfelvétel segítségével bárkinek a hangkarakterét visszaadó gépi hangot tudunk vele készíteni legyen szó akár női, akár férfi beszélőről! A megoldás asztali számítógépes és szerver környezetben érhető el.

Bővebben

Érthetőség 80%

Természetesség 95%

Beszédhangok száma 30+

Méret 10-200 MB

Profivox HMM TTS

Ez a típusú szövegfelolvasó rendszerünk a DNN alapú után a legflexibilisebb. A természetes beszédhez hasonlító, de néha erősen gépi beszédhang általános tématerületeken közel azonos minőséget nyújt. Rövid hangfelvétel segítségével tetszőleges hangkaraktert visszaadó gépi hangot tudunk vele készíteni. A hangmagasság és a beszéd sebessége széles tartományban állítható. A megoldás elérhető okostelefonokon és asztali számítógépes környezetben.

Bővebben

Érthetőség 80%

Természetesség 90%

Beszédhangok száma 30+

Méret 2-100 MB

Profivox diád/triád TTS

A legrégebbi technológiánk, mely már számos ipari alkalmazásban bizonyított! A megoldás az alacsony erőforrású beágyazott rendszerektől kezdve, az okostelefonokon keresztül, a többszáz szálas szerverig elfut szinte bármilyen konfiguráción. Speciális igényeket is ki tudunk szolgálni! Zajos környezetben is rendkívül jól érthető, nagy tartományban tudjuk állítani a hangmagasságot és sebességet! Többek között a Profivox diád/triád TTS szól a JAWS for Windows képernyőfelolvasóban, beszélő bankautomatákban és számos telefonos ügyfélszolgálati rendszerben.

Bővebben

Érthetőség 100%

Természetesség 40%

Beszédhangok száma 6

Méret ~1 MB

Legújabb projektek

NAO robot a gyermekek szolgálatában

A kutatócsoportunk a Szent László Kórház Hematológiai és Őssejt-transzplantációs Osztályával kezdett együttműködést. Az innovatív orvoscsoporttal közösen dolgozva vizsgáljuk, hogy a beteg gyerekek miképp reagálnak a robotra, milyen játéklehetőségeket látnak benne.

Kutatási projekt indulhat arra, hogy a robot interraktívan tudjon reagálni, ismerje föl kivel áll szemben, fizikai paraméterek alapján adaptálódjon a gyerekek állapotához és annak megfelelően kommunikáljon vele. A robot nagy segítség lehet azon gyerekek gyógyításában, akik hónapokat töltenek steril szobában. (Forrás, Videó)

Ultrahang és beszéd: hogyan táncol a nyelv?

A szájüregről készült ultrahangos felvételek elemzésével láthatóvá tehetjük, hogyan "táncol" a nyelv beszéd közben! Az újabb ultrahangos technológiákat (nagyfelbontású és nagysebességű 2D / 3D / valós idejű 3D) azonban korábban nem alkalmazták beszédkutatási célokra. Részproblémák, amikkel foglalkozunk: nyelvkontúr követő algoritmusok tesztelése és megvalósítása, a nyelvmozgás és a beszédjel összehasonlítása, és annak vizsgálata, hogy ezek beszédtechnológiában hogyan használhatóak fel. A kutatás során párhuzamos beszéd és ultrahangos videó adatbázist elemzünk és dolgozunk fel.

Deep learning alapú szövegfelolvasó

Az elmúlt évtizedben a gépi szövegfelolvasó egyik meghatározó ága a statisztikai parametrikus beszédszintézis. Ekkor nem hullámformákat fűzünk össze, hanem a hangot beszédkódoló eljárásokkal (mint amilyen a mobiltelefonokban is van, vagy mint amit a Skype használ) paraméterekre bontjuk (ettől lesz parametrikus!) és ezeket modellezzük statisztikai, gépi tanuló eljárásokkal.

A mély neurális hálózatok az elmúlt években minden korábbi módszernél hatékonyabbnak bizonyultak. Laboratóriumunkban a nemzetközi tudományos és ipari megoldásokat követve, hazánkban egyedülálló aktív kutatás folyik mély neurális hálózat alapú beszédszintézis témakörben.

A mély MLP-től (Multi Layer Perceptron) kezdve, a modern rekurrens neuronhálózatokon át (Long Short Term Memory – LSTM, Gated Recurrent Unit – GRU) az autoencoderekig kísérleteket végzünk a sokrétű paraméterfolyamok pontos modellezésére. A modelleket nagykapacitású Nvidia Titan X-en és GTX 980-as GPU-kon tanítjuk, C, Python és LUA nyelven. Célunk minden korábbinál természetesebb és változatosabb gépi beszéd előállítása!

Látássérülteket támogató keretrendszer

A VUK (Visionless sUpporting frameworK) projekt célja, hogy a vakok és gyengénlátók mindennapi életét elősegítse olyan kihívásokkal teli feladatokban, mint például a közösségi közlekedésben részvétel. Emellett a projekt egy egyszerű, hatékony és megfizethető ajtótól-ajtóig navigáló asszisztens alkalmazást is tervez nyújtani.

A szokásos eszközökkel szemben, amelyek csak kültéri navigációra használhatóak, a projektben olyan helyzetekre is készülünk, amikor a vak személy ismeretlen beltéri környezetben (pl. földalatti, vasútállomás, buszmegálló) is utazik, vagy amikor az utazás célja komplex épületek (pl. pláza, üzletközpont, irodaház) meglátogatása.

Amellett, hogy a projekt segíteni fogja a vak és gyengénlátó emberek mindennapjait, az elképzelt szolgáltatás cégeknek, irodáknak és infrastruktúra szolgáltatóknak (pl. helyi kormányzat) is érdekes lehet, hiszen a vakok itt is dolgozhatnak vagy megfordulhatnak – a projekt pedig segítheti integrálódásukat a közösségbe.

Szociális életet támogató személyes eszköz időseknek

A PaeLife (Personal Assistant to Enhance the Social Life of the Seniors) projekt 8 partnert fog össze Portugáliából, Franciaországból, Magyarországról, és Lengyelországból és azokra fókuszál, akik nemrégiben vonultak vissza, valamilyen szinten hozzászoktak a technológia használatához, és szeretnének aktívak, produktívak, és szociálisan elkötelezettek maradni. A projekt fő célja, hogy harcoljon az elszigeteltség és kirekesztettség ellen, hogy lehetőséget teremtsen az idősek számára egy hatékonyabb, független, társadalmilag aktívabb és kiteljesedettebb életre egy személyes életvezetési asszisztens segítségével, amely társadalmi kommunikációt, tanulást és szórakozást támogató virtuális jelenléten alapul.

További folyamatban lévő projektek Befejezett projektek

Akadémiai partnereink

Aalto University
Fraunhofer IESE
Grenoble University
Idiap Research
Indiana University
KIIT
M.I.T.
MTA SZTAKI
NICT Japan
Novi Sad University
Oregon University
Trinity College
Kaisers- lautern University

Ipari partnereink

Aitia
Algotech
Avaya
Bay Zoltán alapítvány
Conexis
Digital Natives
Ericsson
Freedom Scientific
G4S
Generali
Geomant
InfoAlap
Interton
IT Ware Hungary
OTP Bank
MA Film Audio
Magyar Könyvklub
MÁV
MetNet.hu
Microsoft
MIT Systems
MohaNet
Morpho Logic
NCR
NNG
NVidia GPU Education Center
OCR
Robo Braille
SAMSUNG
SIEMENS NIXDORF
TCT
T-Mobile Hungary
T-Systems Hungary
Vodafone
YGOMI

Laboratóriumunk magyar és idegennyelvű gépi szövegfelolvasó fejlesztésével, az ember-gép kapcsolat vizsgálatával és modern gépi tanulóalgoritmusok kutatásával foglalkozik.

Akadémiai és ipari partnereink sikeresen alkalmazzák megoldásainkat.

Kiemelt tartalmak

Hallgatóknak

Kapcsolat

Magyar tudósok krt. 2.
1117 Budapest, HUNGARY
Telefon: +36-1-463-3883
Fax: +36-1-463-3107
Email: smartlab@tmit.bme.hu

2025 © Minden jog fenntartva. A honlap minden tartalma és a honlapról letölthető dokumentumok (cikkek, bemutatók, diasorok, szoftverek, könyvek, stb.) a szerzői jog védelme alatt állnak. Ezek egészének vagy bármilyen részének újra felhasználása, terjesztése, megjelenítése csak a szerző(k) írásbeli beleegyezése esetén megengedett. (v914)

Felhasználói élmény UX és interakció Mellékspecializáció

DEEP LEARNING AZ ÖNLAB-TÓL A PHD-IG

OKTATÁS + KUTATÁS TUDOMÁNY ÉS INNOVÁCIÓ

MAGYAR NYELVŰ SZÖVEGFELOLVASÓ TÖBB, MINT 30 ÉVE

DEEP LEARNING "MILYEN MÉLY A NYÚL ÜREGE ALICE?"

LÉGY A CSAPATUNK TAGJA! BARÁTSÁGOS LÉGKÖR, FOLYAMATOS KIHÍVÁS

SZAKMAI GYAKORLAT ANDROID ÉS WINDOWS ALKALMAZÁS FEJLESZTÉS

UTI-SSI-DNN: DNN alapú némabeszéd-interfész nyelvultrahanggal

Beszédszintézis

Intelligens interakciók

Deep Learning

MAGYAR NYELVŰ SZÖVEGFELOLVASÓ

Profivox korpuszos TTS

Érthetőség 100%

Természetesség 90%

Beszédhangok száma 12

Méret 5+ GB

Profivox DNN TTS

Érthetőség 80%

Természetesség 95%

Beszédhangok száma 30+

Méret 10-200 MB

Profivox HMM TTS

Érthetőség 80%

Természetesség 90%

Beszédhangok száma 30+

Méret 2-100 MB

Profivox diád/triád TTS

Érthetőség 100%

Természetesség 40%

Beszédhangok száma 6

Méret ~1 MB

Legújabb projektek

NAO robot a gyermekek szolgálatában

Ultrahang és beszéd: hogyan táncol a nyelv?

Deep learning alapú szövegfelolvasó

Látássérülteket támogató keretrendszer

Szociális életet támogató személyes eszköz időseknek

Akadémiai partnereink

Aalto University

Fraunhofer IESE

Grenoble University

Idiap Research

Indiana University

KIIT

M.I.T.

MTA SZTAKI

NICT Japan

Novi Sad University

Oregon University

Trinity College

Kaisers- lautern University

Ipari partnereink

Aitia

Algotech

Avaya

Bay Zoltán alapítvány

Conexis

Digital Natives

Ericsson

Freedom Scientific

G4S

Generali

Geomant

InfoAlap

Interton

IT Ware Hungary

OTP Bank

MA Film Audio

Magyar Könyvklub

MÁV

MetNet.hu

Microsoft

MIT Systems

MohaNet

Morpho Logic

NCR

NNG

NVidia GPU Education Center

OCR

Felhasználói élmény
UX és interakció
Mellékspecializáció

DEEP LEARNING
AZ ÖNLAB-TÓL
A PHD-IG

OKTATÁS + KUTATÁS
TUDOMÁNY ÉS
INNOVÁCIÓ

MAGYAR NYELVŰ
SZÖVEGFELOLVASÓ
TÖBB, MINT 30 ÉVE

DEEP LEARNING
"MILYEN MÉLY A NYÚL
ÜREGE ALICE?"

LÉGY A CSAPATUNK TAGJA!
BARÁTSÁGOS LÉGKÖR,
FOLYAMATOS KIHÍVÁS

SZAKMAI GYAKORLAT
ANDROID ÉS WINDOWS
ALKALMAZÁS FEJLESZTÉS

UTI-SSI-DNN: DNN alapú
némabeszéd-interfész
nyelvultrahanggal