Met zijn snelgroeiende start-up ONSEI – spreek uit als ‘bonsai’ – staat de Berlijnse voice tech developer Jochen Emig in pole position om zijn stempel te drukken op de aanzwellende golf spraaktechnologie in huis en daarbuiten. De Duitse ondernemer is zowel Google Developer Expert voor Assistant als Alexa Skills-ontwikkelaar. Samen met zijn team bedenkt hij slimme toepassingen met de technologie van dé twee voice techreuzen van het moment. Bloovi vroeg Emig naar zijn ondernemersverhaal, de toekomst van voice tech en het belang van de Berlijnse voice tech community.
“Eigenlijk ben ik door een stom toeval in dit domein gerold”, zegt Jochen Emig. “Alles begon met mijn gaminggekte. Ik werkte als back-end developer met een focus op infrastructuur. In 2010 bouwde ik een android app. Echt leuk om te doen, vond ik. Alleen waren design en gebruiksvriendelijkheid een ramp, de knoppen zaten niet goed, en zo kan ik nog wel even doorgaan. Dat werd dus niks. Maar ik had de smaak te pakken en bleef louter voor mijn plezier games ontwikkelen.”
Praten tegen de kerstboom
In 2016 was Emig net zijn Master of Liberal Arts aan Harvard aan het afronden, toen hij een uitnodiging kreeg van Amazon Robotics. “Ze wilden Amazon onder de aandacht van studenten brengen met een minihackathon waar ze ons toepassingen lieten bouwen voor hun nieuwe spraakassistentiedevice Echo. Voor die Amazon Robotics Hackathon ontwikkelde ik met ‘mijn’ team een game, dat we Color Game doopten. Je moet de juiste volgorde van kleuren memoriseren en opsommen. Het wordt vandaag nog steeds gespeeld.”
“Die ervaring opende een wereld voor mij: ik zag plots het grote potentieel van voice tech in. Ik begon Skills te bedenken en te publiceren. Voor alle ideeën die ik had om van mijn huis een smart home te maken – net als Iron Man’s J.A.R.V.I.S – begon ik IoT devices te bouwen op basis van voice om mijn tv en mijn stereo aan te sturen. Ook mijn cv-ketel kon ik gaandeweg gesproken commando’s geven, waarna ik mijn lichtschakelaars begon te programmeren. In 2016 postte ik een video op Facebook waarop ik mijn kerstboom aansteek met spraakcommando’s. Maar als we gasten over de vloer kregen, wilden die toch liever de lichtschakelaars gebruiken (grinnikt). Tijdens elke hackathon waar ik heen ging, bouwde ik iets met voice tech. Het begon dus heel hard vanuit mijn eigen passie.”
De IBM Watson AI hackathon
Jochen Emig werkte als developer, maar begeleidde als technical lead ook start-ups bij hun eerste stappen als ondernemer. Zo werkte hij in Singapore en Japan voor verschillende start-ups, in de VS overzag hij de ontwikkeling van traceability software – en leerde hij intussen de Amerikaanse markt voor voice héél goed kennen. En toen won hij in 2016 de IBM Watson AI hackathon in Berlijn.
“Daar maakte ik opnieuw met Alexa Skills het verschil” vertelt hij. “Ik won omdat ik vanuit een persoonlijke behoefte schrijf. Ik wil altijd iets verbeteren waar ik me persoonlijk aan erger. En omdat ik in de VS gewoond had, zag ik dat er in Europa nog heel wat applicaties braakliggend terrein zijn. Eén ervan is absoluut openbaar vervoer: ik wil exact weten wanneer mijn trein vertrekt of bus aankomt. BVG, de Berlijnse openbaarvervoersmaatschappij was cosponsor van de hackathon: ik kreeg toegang tot hun API’s en dus hun interne winkel – wat niet voor de hand lag – en daarmee kon ik aan de slag. We staken er een beetje logica achter met IBM Watsontechnologie, om de app vlotter de namen van de stations te leren. Na amper 24 uur was het resultaat alweer verschrikkelijk (lacht), maar iedereen zag wel het potentieel. En dus wonnen we die hackathon.”
Daar stopte het verhaal dit keer niet. Emig bouwde vele nachten en weekends aan een verbeterde versie. V1 werd gelanceerd in januari 2017. “Daar was ik wel blij mee. Mensen begonnen het echt te gebruiken. Amazon toonde belangstelling. Ook al was de eerste versie erg beperkt, je kon wel succesvol vragen wanneer de volgende bus naar Berlin Alexanderplatz vertrekt.”
Japans voor 'stem'
De tijd was rijp om eigen rekening voice toepassingen te ontwikkelen voor commerciële doeleinden. Na de experimentele fase voor de Berlijnse vervoersmaatschappij bleek mobiliteit ook de directe reden waarom Jochen Emig zijn bedrijf ONSEI oprichtte.
“Car2Go is een autodeelbedrijf van Daimler. We overtuigden hen dat onze oplossing om snel een auto te vinden en te reserveren via voice de juiste was. Ik werd in het aankoopteam van Daimler geparachuteerd, maar moest ook in 30 dagen een bedrijf opzetten omdat Daimler niet met freelancers werkt. Daarom richtte ik ONSEI op, wat Japans is voor ‘stem’. Voor Car2Go hebben we voor het eerst echt ingezet op design. Je kan vragen stellen over je reservatie en de tijd die nodig is om de auto te bereiken. Of je auto annuleren. Maar we beslisten ook dat we voor functies als de portieren ontgrendelen om veiligheidsredenen géén voice zouden steken. Dat zou kunnen in de toekomst, maar we zijn er nog niet.”
Met ONSEI richt Jochen Emig zich naast openbaar vervoer ook op e-commerce en entertainment. Verzekeraar Allianz is een grote klanten. Verzekeringen en voice tech? “Voor Allianz wonnen we een HR Excellency Award”, zegt Emig. “Ze zochten een innovatieve manier om aansluiting te vinden bij studenten. Het idee achter onze oplossing is dat het intimiderend kan zijn om naar groot bedrijf te komen voor je eerste jobinterview. We bouwden dus een interviewtrainer op basis van de bedrijfscultuur van Allianz en de vragen die je er kan verwachten. Allianz wilde daarmee vermijden de perfecte kandidaat te hebben en die toch door de mazen van het net te zien glippen.”
De klank van de slager
In 2019 werd Jochen Emig de 36e Google Development Expert in de Assistant categorie. “Ook Google vindt wat we bouwen best interessant”, zegt de ondernemer uit Berlijn met enige fierheid. “We maakten een applicatie voor de EDEKA winkelketen, waarmee we voor het eerst een volledige supermarkt on voice gemaakt hebben. Je kan alle 35.000 producten in de winkel gesproken bestellen. Een groot project dat ons een jaar en drie versies gekost heeft. We zijn nog altijd aan het finetunen. Een e-commerce stemtechnologie geven is dan ook een enorme klus.”
“Onze tagline is ‘We give brands a voice’, maar als het aankomt op branding is voice heel anders dan een logo of een huisstijl. Daarom vragen we klanten hoe zij zich voorstellen hoe ze klinken. EDEKA heeft vriendelijke, hoogopgeleide winkelmedewerkers. Eén bepaalde bediende viel ons enorm op: een slager in de winkel waar ik zelf altijd naartoe ga. We probeerden om zijn persoonlijkheid te recreëren in een digitale stem. Dingen die hij zou zeggen, intonatie, uitspraak,… Hij vraagt je bijvoorbeeld welke boter je precies wil als je ‘boter’ bestelt. En hij is enthousiast als je je keuze maakt – mooi, dat zou ik ook gekozen hebben. Dat wordt een essentieel onderdeel van voice tech, want zo geef je je bedrijf een menselijke stem. De meeste merken denken daar nog niet eens over na.”
Turks en Maleisisch
“We zijn nu ook aan het vertalen naar andere talen”, vervolgt Emig zijn verhaal. “Voor de Berlijnse vervoersmaatschappij bouwden een meertalige versie, maar we waren niet blij met het herkenningsniveau van de stationsnamen wanneer die niet in het Duits werd uitgesproken. Buitenlandse accenten zijn een harde noot om te kraken en Engels blijft het meest voor de hand liggend in spraaktechnologie. Maar Allianz wil meerdere talen integreren. Dat brengt training en grammaticale issues met zich mee.”
“We vinden binnen Europa vlot native speakers die kunnen helpen met de andere talen, maar we krijgen ook aanvragen voor Turks en Maleisisch. Sowieso hebben we een erg internationaal salesteam. De VS is de grootste markt voor voice en daar is alles ook begonnen, maar bijvoorbeeld uit Frankrijk zien we opvallend weinig aanvragen binnenkomen.”
Wat ik mensen vertel over voice is dat ze geen voice app moeten ontwikkelen, maar hun probleem moeten oplossen
Naar hackathons gaat hij nu eerder als mentor en om te netwerken. “Wat ik mensen vertel over voice is dat ze geen voice app moeten ontwikkelen, maar hun probleem moeten oplossen. Overweeg altijd of voice wel dé technologie is die jij nodig hebt. Is het wel de juiste interface? Je moet je telkens afvragen of een use case voor voice zin heeft. Voor veel zaken is voice een eenvoudige en snelle oplossing.”
“Openbaar vervoer is een goed voorbeeld. Wil je van A naar B op een bepaald uur, dan heb je heel wat lange namen in te tikken, terwijl je je scherm ook gewoon kan vragen wanneer de bus er aankomt. Je bankrekening snel raadplegen, daar heeft voice ook zin. Je belastingen moeten invullen dan weer niet: een complex proces, je moet de hele tijd praten,… Potentiële klanten stellen we daarom drie mogelijkheden voor. Ja, dit heeft nu zin. Of ja, maar we denken niet dat de technologie al op punt staat. Of tenslotte: sorry, we zien geen toepassing.”
Alexa zette de standaard
Amazon Echo en Google Home zijn de start van een veel grotere toekomst waarin consumenten een natuurlijke manier gebruiken om in interactie te gaan met machines. Conversational computing wordt de norm. Over de toekomst van voice tech is Jochen Emig duidelijk.
“Op veel vlakken is Alexa voor voice wat de iPhone was voor de smartphone”, zegt hij. “Kijk, over de iPhone zei Microsoft ooit dat die niet zou doorbreken omdat hij geen keyboard heeft, maar drie jaar na de lancering had elke manager er een. Daarmee was het de eerste smartphone die echt zorgde voor een doorbraak na heel wat zus-en-zo probeersels. Smartphones bestonden al lang voor de iPhone. In voice zie je nu hetzelfde. Spraakcontrole over je auto was nooit écht goed. Siri had tekortkomingen. Alexa zette de standaard als voice interface en bracht de tweede revolutie op gang. Voice breekt nu echt door buiten de privésfeer en daarmee ook voorbij de personal assistants die door jou ‘getraind’ worden.”
“Voice gaat nu naar bredere publieke interfaces. We hebben pilootprojecten lopen en krijgen steeds meer aanvragen voor business cases van grote bedrijven – net zoals elk groot bedrijf nu interne apps ontwikkelt. Daarmee gaat voice tech naar one purpose use business cases die op verschillende devices geïntegreerd worden. Professionele keukenmakers. Vervoersbewijsautomaten. Tablets die vrachtwagenchauffeurs gebruiken als logboek of als communicatiekanaal met de dispatching. Tikken op een touchscreen behoort binnenkort in veel gevallen tot het verleden.”
Berlijn als voice hub
ONSEI is nu nog een klein bedrijfje met Berlijn als vestiging van zes medewerkers. “Ik vermoed dat het er tegen eind 2019 acht zullen zijn. Onze klanten beginnen nu echt het potentieel van voice in te zien. Momenteel werkt ONSEI met partners aan on-premises devices, apparaten op locatie bij klanten met software die niet cloud-based is. Om veiligheidsredenen is daar vraag naar: smart speakers zoals Echo kunnen ook gesprekken registreren. Hospitality wordt ook groot. Daarin werken we nu aan twee pilots, een met Alexa en een met een on-premises oplossing. Nieuwe businessgebieden en markten zijn er in overvloed.”
Het ecoysteem in Berlijn voor voice tech maakt de Duitse hoofdstad tot een ideale uitvalsbasis voor ONSEI. “Er beweegt heel veel”, zegt Emig. “Tegen de personal assistants van Google en Amazon kunnen we niet op, maar omdat voice overal zal zijn, opent dat grote mogelijkheden voor ons allemaal. Verkoopautomaten, ATM’s, industriële ovens,… dat doe je niet alleen als bedrijf. Denk aan microfoons op maat, beam technologie, Wake-up-Word recognition,… Ik denk niet dat big tech dat allemaal gaat kapen. Er is dus veel ruimte voor voice tech start-ups. Het is niet te laat. Tja, en zelfs Alexa is voor verbetering vatbaar.”
“Berlijn heeft één van de grootste voice communities buiten de VS. Ik denk niet dat ONSEI zou staan waar het nu zou staan zonder die community. We deelden onze coworkingplekken. Op onze eerste meet-ups kwamen vijftien mensen opdagen, nu al honderd. Voor een groot project als EDEKA gaan we eerst bij onze community te rade. Onze open source projecten voor voicetoepassingen kunnen zij dan weer gebruiken. En ik kom het graag overal uitleggen. Laat me weten als er bij jullie een hackathon doorgaat: ik kom er met plezier in één adem een goeie developer of een tester oppikken (lacht).”