Mon ami Bret Kinsella, de voicebot.ai m’a récemment demandé quelles sont mes prédictions pour l’IA et la Vocalisation. Vous pourrez trouver ma contribution dans le post 2017 Predictions From Voice-first Industry Leaders (« 2017, Prédictions de leaders du secteur des technologies vocales »). Dans cet article, je mentionne la notion de métadonnées du discours (speech metadata), sur laquelle j’aimerais ici revenir. Â
En tant que développeur d’Applications Vocalisées, lorsque vous devez gérer des commandes vocales sur une enceinte Amazon Echo ou Google Home, le mieux que vous puissiez avoir aujourd’hui c’est la transcription du texte prononcé par l’utilisateur.
Certes, avoir enfin accès à des fonctionnalités efficaces de conversion de texte par synthèse vocale est pas mal ; mais il est assez dommage que, ce faisant, tant d’informations précieuses soient perdues !
Il faut savoir qu’une commande vocale c’est plus qu’une simple séquence de mots, c’est également :
• des personnes – est-ce John ou Emma qui parle ?
• des émotions – Emma est-elle heureuse ? en colère ? excitée ? fatiguée ? en train de rire ?
• un environnement – se promène-t-elle sur la plage, ou est-elle bloquée dans les bouchons ?
• des sons environnants – une porte qui claque ? une alarme incendie ? le chant des oiseaux ?
Imaginez un peu les possibilités, la classe de ces conversations si on pouvait avoir accès à toutes ces informations… Énorme !
Mais nous pourrions aller encore plus loin. Dans la communication, tout le monde sait que lorsqu’on échange avec quelqu’un, le non verbal est tout aussi important que le verbal.
Alors pourquoi donc nous limiter à l’aspect verbal de la communication dans nos interactions avec des Applis Vocalisées ?
Les métadonnées du discours concernent justement les informations non verbales, qui représentent selon moi la face cachée de l’iceberg, et donc la plus intéressante à explorer !
Un bon exemple de métadonnées du discours est la combinaison image/voix dans le film Her.
L’ajout de la caméra fait que de nouvelles conversations peuvent avoir lieu, comme par exemple parler d’un coucher de soleil, de l’origine d’une œuvre d’art, ou encore de la composition d’une barre chocolatée !
Asteria est l’une des nombreuses startups qui commence à offrir de type d’interactions riches.
Je pense que c’est une voie à suivre, et qu’avec la présence des métadonnées conversationnelles, un nombre conséquent d’applis innovantes verront le jour.
Et j’espère surtout qu’Amazon, Google & Microsoft vont diffuser une partie de ces données en 2017, afin que nous, les développeurs, puissions plancher sur un agent conversationnel pleinement conscient de son environnement.