A ProfiVox volt az első emberi hangú magyar szövegfelolvasó, amelyik teljesítette azt a négy alapkövetelményt, amellyel egy korszerű beszédszintetizátort jellemezni
lehetett 2000-ben.
Az első, hogy emberi hangszínezettel beszéljen, amely tiszta, érthető kiejtést hordoz,
a szintetizátor beszéde dallamos, és ritmikailag is változatos. Más szóval a beszéd
első hallásra is megérthető, és a hosszabb szövegek hallgatása sem fárasztja
nagyon a hallgatót.
A második tulajdonság, hogy illeszkedjen a korszerű, általános technikai háttérhez,
ezen megszólaltatható legyen, azaz csak szoftvereszközökkel állítsuk elő a beszédet.
A harmadik fontos jellemző, hogy jól kiépített háttértámogatás (szoftver eszközrendszer)
álljon rendelkezésre a fejlesztéshez, a módosításokhoz, a rugalmas adaptáláshoz,
valamint a rendszerfelügyelethez.
A negyedik a minőségbiztosítás, ami annyit jelent, hogy a rendszer beszédminőségét
kialakító algoritmusok helyességét percepciós tesztek jó eredményei támasztják
alá.
A szövegfelolvasót a BME TMIT beszédtechnológiai laboratóriumának kutatói fejlesztették ki. A szövegfelolvasó szoftver elkülönített blokkokból áll, amelyek között az adatáramlást a keretrendszer biztosítja.
A beszédépítés alapelemei rövid hullámforma szintű hangkapcsolatok (diádok, azaz két fél hangnyi elemek), amelyeket élő beszédből vágnak ki. A későbbi változatokban alkalmaztak CVC szerkezetű triádokat is, a hangminőség javítására. A tetszőleges tartalmú beszédjel előállítására 1600 féle diádot használ a rendszer.