Ezek a rendszerek máris kezdik megváltoztatni az ember és környezete egymásra hatásának módját, valamint a technológiáról alkotott elképzeléseinket. Végül is eddig csak egymással beszéltünk. Mi lesz, ha beszélni kezdünk mindenféle géphez is, és azok emberi módon válaszolnak?
Vlad Sejnoha beszél a televíziójához. Lehet, hogy ezt más is megteszi, csak éppen az övé hallgat is arra, amit mond. „Dragon (Sárkány) TV! – mondja a képernyőnek Sejnoha. „Keress Meryl Streep-filmeket!” Egy-két másodperc, és legördül egy lista, amelyen az Első szerelemtől az Egyszerűen bonyolultig számos filmcím szerepel. „Dragon TV! Kapcsolj a CNN-re!” – hangzik a következő utasítás, és megjelenik a hírcsatorna.
Sejnoha egy lakás nappalijának látszó helyiségben ül, amely valójában a hangtechnológia vezető cégének, az Apple IPhone 4S virtuális személyi asszisztense, a Siri hangfelismerő rendszerét is kifejlesztő Nuance Communicationsnek egyfajta laboratóriuma. Sejnoha, a cég technológiai főnöke és más vezetők itt tervezik a „felhangosított” jövőt, amelyben már nemcsak okostelefonok és televíziók, gépkocsik és számítógépek reagálnak az emberi hangra, hanem kávéfőzők, hűtőgépek, termosztátok, riasztórendszerek, s egyéb okos berendezések és szerkezetek.
Komoly kihívást jelenthetnek majd
Tény, hogy az emberek Thomas Edison fonográfja óta beszélnek gépekbe. Az 1980-as évekre a kereskedelmi beszédfelismerő rendszerek elég fejletté váltak ahhoz, hogy képesek legyenek írott szövegbe áttenni a beszédet. Ma a hangtechnológia sok vállalat ügyfélszolgálatának elengedhetetlen része, igaz, néha őrjítő része.
A verseny azonban most már annak eldöntéséért zajlik,hogy ki tudja először a közénk és technológiánk közé építhető, keresett új közvetítő elemmé tenni a hangot. Az eredmények olyan újításokkal vetekednek, mint a számítógépes egér és a grafikus ikon, és egyes szakértők szerint idővel komoly kihívást jelentenek majd olyan óriásoknak is, mint a Google, mert helyettesíteni tudják a hagyományos keresőmotorokat.
A hangtechnológiában a massachusettsi Burlingtonban működő, az ágazat úttörőjének számító Nuance-é a vezető szerep, amely több mint 40, ezen a területen működő vállalatot olvasztott magába, és jelenleg 7300 embernek ad munkát. Egyike azoknak a cégeknek, amelyek segítettek megtenni a nagy technológiai ugrást a diktálást fogadó programoktól azokhoz a rendszerekhez, amelyek kihámozzák a szavak értelmét, és válaszolnak rájuk.
A Nuance néhány technológiája ma már több mint 50 nyelven beszerezhető. Ügyfélszolgálati rendszerét olyanok cégek alkalmazzák, mint az Air France, a US Airwas, a Deutsche Bank és az ABN Amro. Gépkocsiba épített hangrendszerei megtalálhatók Fordokban, Toyotákban és Nissanokban. A cég hangpostaüzenetet írott szöveggé változtató programját használják egyebek mellett telekommunikációs óriások, köztük a Telefónica, a Vodafone és a Telstra. „A Microsoft, a Google vagy az Amazon megfelelői egy nagyon szűk technológiai területen” – magyarázta Andrew Rosenberg, a Queens College komputertudomány adjunktusa.
Egy napon felforgathatja a piacot
Mint sok új technológiának, a fejlett hangrendszernek is vannak hátrányos vonásaik. Néhány szakértő aggódik a privát szférába történő behatolás miatt, mások azért, mert attól tartanak, hogy egyre inkább a rabjaivá válunk olyan eszközöknek, mint az okostelefonok.
„Az emberek hajlamosak rá, hogy a beszélő berendezéseknek úgy válaszoljanak, mintha rokonlelkek volnának – érzékeltette Sherry Turkle, a Massachusettsi Műszaki Egyetem (MIT) professzora, aki a tudomány és a technika társadalmi vonatkozásaival foglalkozik. – Nem azt mondom, hogy a hangfelismerés rossz. Csupán arra akarok figyelmeztetni, hogy nem árt óvatosan bánni a tárgyakhoz való kötődésünkkel, mert különben sok darwini gombot nyomhatunk meg a pszichénkben.”
Mindössze egy évtizeddel ezelőtt a hanggal vezérelt virtuális asszisztens inkább a tudományos-fantasztikus irodalom világába tartozott, mintsem hogy üzleti tény lett volna. 2000-ben azonban Paul Ricci, a Xerox korábbi vezetője már azt jósolta, hogy a hangszoftver egy napon úgy felforgathatja a piacot, ahogy az egér és az számítógép képernyőjén megjelenő ikonok tették az 1980-as években. „Idejében el kellett döntenünk, hogy melyek azok a piacok, amelyeken sikeresen bevezethetjük a technológiát” – húzta alá Ricci, aki ma a Nuance vezérigazgatója.
A Nuance, illetve akkor még a ScanSoft agresszív felvásárlásba kezdett. Megszerezte a Dragon NaturallySpeaking nevű asztali diktálórendszert és tucatnyi, a hangtechnológia különböző területein működő kis céget. Legértékesebb szerzeménye a versenytárs Nuance volt, amely a kaliforniai Menlo Parkban működő Stanfordi Kutatóintézetből (S.R.I.) vált ki. Az egyesült vállalat Nuance néven működött tovább. (Az S.R.I. később kifejlesztette a Sirit, amelyet 2010-ben az Apple vett meg.)
A Nuance jövedelme 2011-ben 1,3 milliárd dollár volt, és úgy tűnik, hogy a tőzsde is elégedett a működésével: részvényeinek ára februárban 31,15 dolláros rekordot ért el, ami mintegy a kétszerese a tavaly augusztusi 15,59 árfolyamnak.
Problémákat vet fel
Nem mindenki rajong azonban a hangtechnológiáért. A magánszféra érinthetetlenségének védelmezői amiatt aggódnak, hogy ezután az ember nemcsak digitális nyomot hagy maga után – az internet és más alkalmazások használatával -, hanem hangnyomot is, és ezzel még inkább ki lesz téve az adatlopással foglalkozók támadásának.
A hangfelismerő szoftver úgy működik, hogy a beszédet olyan processzorokhoz továbbítja, amelyek a kimondott szavakat hanghullámokra bontják le, és speciális algoritmusokkal azonosítják a hangokból összeállítható legvalószínűbb szót. A rendszer rögzíti és tárolja a beszédet, úgyhogy képes tanítani magát, hogy az idő múlásával egyre pontosabbá váljon
A Nuance által adott biztosítékok ellenére a hangfelismerő szoftver elegendő kockázatot jelent az emberek magánszférájára számára ahhoz, hogy a használatának szabályozásáért felelősök odafigyeljenek rá. „Ahogy az arcfelismerés alkalmazási lehetőségei miatt aggódunk, úgy más biometrikus azonosításokról, köztük a hangfelismerésről is az a véleményünk, hogy problémákat vet fel” – szögezte le David C. Vladeck, a Szövetségi Kereskedelmi Hivatal (FTC) Fogyasztóvédelmi Irodájának vezetője általában a hangtechnológiáról, nem kifejezetten a Nuance által alkalmazott megoldásról.
A felhasználók gyorsabban jutnak célba
„Dragon Go! – szól bele iPhone-jába Sejnoha. – Három személyre akarok helyet foglalni holnap estére a Craigie-ben, a Mainen.” A Dragon Go a Nuance saját virtuális asszisztense, az az alkalmazás, amelyet bevezetése óta több milliószor töltöttek le. A Siritől eltérően azonban a Dragon Go nem válaszol. Sejnoha azt közölte vele, hogy helyet akar foglalni a massachusettsi Cambridge egyik éttermébe: az alkalmazás azonnal felvette a kapcsolatot az OpenTable-lel, és megjelenítette a lehetőségeket.
A legegyszerűbb keresések esetén a Dragon Go rendszerint megkerüli a keresőmotorokat, és egyenesen olyan vállalatok internetes oldalára irányítja a felhasználókat, mint a Nuance partnerei, az Emazon, az Expedia és az OpenTable. Ha ott nem találják meg azt, amit keresnek, akkor a Dragon Go felajánlja a hagyományos internetes keresés lehetőségét.
A felhasználók így kevesebb lépésben, gyorsabban jutnak célhoz. Sok esetben, ha például éttermi helyfoglalásról vagy vásárlásról van szó, a Nuance mérsékelt díjat számít fel a partneroldalaknak. Az alkalmazás kihívást jelent a Google-nak és a Microsoftnak, amelyeknek van saját hangtermékük – a Google Voice Actions és a Microsoft Tellme -, valamint a keresőmotoroknak is.
Christopher Katsaros, a Google szóvivője nem volt hajlandó nyilatkozni erről a kérdésről. A cég nemrég korszerűsítette az Android telefonoknál használatos hangutasítási rendszert, a Google Voice Actionst: képessé tette arra, hogy az emberi beszédet folyamatosan írott szöveggé alakítsa át, és ezzel gyorsabbá és egyszerűbbé vált a szöveges üzenetek diktálása és küldése, a Google hangos keresése vagy útbaigazítások kérése.
Lezli Goheen, a Microfost szóvivője elmondta, hogy cége a fogyasztók elvárásának megfelelően többféle módon is könnyített az információk megszerzésén. A minden Windows-termékben szereplő Tellme programon kívül, amely lehetővé teszi üzenetek diktálását és alkalmazások hangvezérlését, bevezették a Bing Voice Search programot is a keresések beszéddel történő irányítására.
Illúziókeltő, de könnyű a használata
A US Airways törzsutasprogramjának azokat a résztvevőit, akik regisztrálták mobiltelefonjukat, név szerint üdvözli a Wally, a Nuance által a légitársaságnak kifejlesztett interaktív hangrendszer.
A Wallyt tavaly nyáron vezették be annak az átalakításnak a részeként, amelynek során a US Airway telefonos ügyfélszolgálatát külföldről visszatelepítik az Egyesült Államokba. A rendszer képes például megmondani a törzsutasoknak, hogy milyen helyre szól a jegyük, egyszersmind jelenteni, ha magasabb szintre kerültek a programban. Az emberi beszédet írott szöveggé alakítja át, úgyhogy ha egy ügyfél úgy dönt, hogy élő személlyel kíván tovább tárgyalni, az eredeti kérdést nem kell megismételnie.
A hangrendszer – amelyhez Wally Wingert, a Jay Leno vezette népszerű televíziós showműsor bemondója kölcsönözte a hangját – nemcsak azoknak a számát csökkentette, akik ragaszkodnak az élő munkatárshoz, hanem az ügyfélhívások átlagos hosszát is. Kerry Hester, a légitársaság alelnöke szerint ha nincs a rendszer, több száz új ügyfélszolgálati munkatársat kellett volna felvenniük. A Wally – amely nem árulja el, hogy automatizált rendszer – annyira élőnek tűnik, hogy sok ügyfél „Köszönöm”-mel köszön el tőle, mielőtt lerakja a kagylót.
Ez az anonimitás azonban nem mindenkinek tetszik. Sherry Turkle, az MIT professzora szerint ahogy a hangfelismerő rendszerek kifinomultabbá válnak, megteremtik annak az illúzióját, hogy nem gépekkel, hanem más emberekkel kommunikálunk. Szerinte hosszú távon a rendszerek illúziókeltő volta és könnyű használata miatt háttérbe szorulnak a lassúbb, rendezetlenebb, valódi emberi kapcsolatokat. Ha emlékeztetik a felhasználókat, hogy egy géppel beszélnek, akkor talán jobban tudatosodik bennük, hogy mennyire felszínes a kapcsolat. „Kultúránkat érintő döntést kell hoznunk. El kell határoznunk, megmondjuk-e az embereknek, hogy géppel beszélnek vagy sem” – húzta alá a professzor.
Netes hangfelismerő magyarul
Magyarországon is le lehet tölteni a Nuance Dragon Dictation és a Dragon Search, magánembereknek ingyenes hangfelismerő szolgáltatásokat csütörtöktől. Így a magyar nyelvű felhasználók is diktálhatnak mostantól emaileket, szöveges üzeneteket, akár ötször gyorsabban, mintha gépelve vinnék azt be telefonjukba vagy táblagépükbe.
Reszler Ákos, a Nuance-Recognita Zrt. vezérigazgatója Budapesten sajtótájékoztatón elmondta, a több mint 25 országban és nyelven elérhető ingyenes alkalmazásokat az amerikai Nuance Communications Inc. iPhone-ra, iPod Touchra és iPadre fejlesztette ki. A magyarországi megjelenés az oroszországi és lengyelországi megjelenését követi. Reszler Ákos úgy vélte, hamarosan hangalapú lesz a legnépszerűbb mobil kommunikációs felület. Ezek az alkalmazások Kelet-Európában is gyorsan terjednek: segítségükkel bárki gyorsan és egyszerűen írhat közösségi hálózatokra, vagy indíthat mobilnetes kereséseket is.
A Dragon Search alkalmazással a felhasználónak csak be kell mondania a keresett kifejezést, s a gép megmutatja az információkat és válaszokat a mobilneten keresztül. Az alkalmazás másodpercek alatt, egyszerre több forrásból képes gyorsabb és pontosabb eredményeket megjeleníteni. A Nuance beszéd-feldolgozási megoldásai több mint 60 nyelvet és dialektust támogatnak, képfeldolgozási megoldásai pedig több mint 100 nyelvet.
Az üzleti modell szerint a Nuance bevétele alapvetően a nagyvállalati alkalmazásokból, illetve abból származik, hogy a mobilcégek megveszik a technológiát azért, hogy beépíthessék készülékeikbe, és ne maradjanak el a versenyben.