Apparu bien avant l’écrit, la voix est probablement le média le plus ancien. C’est donc l’interface la plus naturelle et son couplage avec l’intelligence artificielle est une évidence, en particulier lorsqu’il s’agit de dialoguer avec des clients ou prospects. Les interactions vocales robotisées prennent alors de multiples formes : voicebot (déployé sur un site web, une app mobile ou une messagerie instantanée supportant la voix), callbot (robot sur un centre d’appels), moteur de recherche vocale ou encore, application vocale déployée sur une enceinte ou un objet connecté. Les usages sont sensiblement ceux des chatbots : commerce en ligne, service client, recherche vocale, analyse des interactions en temps réel ou en différé. Voici cinq pistes permettant de réussir ce mariage entre voix et IA.

1 - Mutualiser l’IA entre tous les canaux vocaux et écrits

Le développement d’un robot écrit ou vocal consiste en amont à identifier des intentions (par exemple une demande d’horaires de train) et à programmer leur traitement (par exemple, l’achat d’un billet). En production, on met en correspondance les intentions et les questions formulées librement par les clients, puis on déclenche les traitements associés à ces intentions, en se connectant éventuellement à des applications internes ou tierces. Ce matching questions/intentions peut être amélioré par apprentissage assisté, par deep learning ou par règles explicites. Les bots modernes permettent désormais des interactions complexes, avec détection d’intentions multiples dans une même question, va-et-vient entre deux intentions ou retour en arrière. En somme, ces bots savent potentiellement mener une véritable conversation.

Afin de réduire coûts et délais de développement, il est pertinent de mutualiser ce moteur entre tous les robots et canaux écrits et vocaux : chatbot, voicebot, callbot, enceintes connectées… Toutes les plates-formes de développement de bots ne le permettent pas. Certaines se cantonnent au vocal, d’autres à l’écrit. Et certaines sont même spécialisées sur le canal téléphonique, ne permettant donc que le déploiement d’un callbot.

2 - Prendre en compte les spécificités de la voix

En théorie, on peut construire une IA vocale sur la base d’un chatbot sur lequel on aurait greffé une fonction speech-to-text (reconnaissance de la parole et retranscription) et une fonction text-to-speech (synthèse vocale). Dès lors, le moteur d’IA proprement-dit est commun aux médias écrit et vocal. La dimension omnicanale découlant de cette mutualisation des développements ne doit toutefois pas faire oublier les spécificités du média voix. En effet, on ne s’exprime pas forcément à l’oral comme à l’écrit. Le matching questions/intentions devra alors être adapté, de même que les réponses délivrées sur le média voix. Là encore, seuls certains outils permettent de différencier le dialogue en fonction du média – écrit ou vocal. Le volet synthèse vocale impose aussi un effort spécifique. Pour réduire les coûts, on peut se contenter d’une voix standard et d’une prosodie sans nuances. Mais si le budget le permet, on construira une identité vocale sur mesure et on adaptera la prosodie au contexte. Par exemple, une mauvaise nouvelle ne sera pas annoncée sur un ton enjoué.

3 - Commencer par remplacer le SVI par un callbot

Le SVI (serveur vocale interactif) peut-être considéré comme l’ancêtre du callbot. Même lorsqu’il intègre la reconnaissance vocale, le SVI se limite à de fastidieuses listes de choix, avec une structure arborescente figée. Même s’il est encore fonctionnel, il est aujourd’hui déceptif pour des utilisateurs désormais habitués à la richesse des interactions vocales du monde digital. On le remplacera donc avantageusement par un callbot, qui offre une expérience plus interactive. Un tel projet constitue un bon point d’entrée dans le monde de l’IA vocale.

4 - Analyser les conversations en différé ou en temps réel

Le speech analytics permettait déjà d’analyser de grandes quantités de conversations pour en extraire des informations pertinentes, comme les questions récurrentes ou les irritants. Peu importait si la retranscription n’était pas très fiable puisque l’objectif était simplement de dégager des tendances. Depuis deux ou trois ans, le taux de fiabilité se rapproche de 100 % même lorsqu’il s’agit de différencier deux locuteurs. Et les coûts ont fortement baissé. Si bien que l’on peut désormais envisager de généraliser des applications comme la rédaction de comptes-rendus de conversations et leur indexation exhaustive. Ces données d’origine vocale viennent notamment enrichir la connaissance client, naguère presque exclusivement alimentée par des données textuelles.

L’amélioration des performances permet également d’analyser en temps réel les conversations. On savait le faire pour identifier des mots-clés traduisant une émotion ou un risque d’attrition. On peut désormais exploiter cette possibilité pour aider en temps réel le conseiller, par exemple en lui poussant des propositions de produits et de services – c’est la notion d’agent augmenté. On peut aussi vérifier en temps réel le respect de la réglementation ou du processus de vente.

5 - Détecter les émotions et autres informations non verbales

Comme l’écrit, la voix permet d’identifier des émotions par une simple analyse textuelle. Mais elle apporte davantage d’informations grâce aux intonations, à la vitesse d’élocution ou encore à la texture vocale. Elle permet ainsi de différencier finement des émotions négatives comme le simple agacement, la colère, le regret ou l’anxiété. L’enjeu est alors de les détecter très tôt afin d’adapter le ton ou d’opter pour un parcours adapté. Par exemple, on aiguillera un client en colère vers un humain ou un téléconseiller plus compétent. L’analyse de la voix permet également de déduire des caractéristiques paralinguistiques comme l’âge (ce qui permet par exemple d’adapter le débit de parole ou le niveau sonore) ou le sexe (ce qui permet éventuellement de choisir le sexe du conseiller ou d’adapter le type de recommandation). À l’inverse, si la voix ne trahit aucune émotion lors d’une conversation avec un bot, il sera peut-être opportun d’orienter le client vers des canaux digitaux de type self-service.

Conclusion

En 2023, les performances et les coûts des technologies de l’IA permettent enfin de faire avec la voix, tout ce que l’on faisait depuis 20 ans avec l’écrit, aussi bien en termes de dialogue que de collecte et d’analyse de données. Dès lors, la voix n’est plus cette boîte noire qu’elle a longtemps été et devient une mine d’informations désormais à ciel ouvert.

Florian Lamboley, Directeur Technique chez Almavia CX