Aujourd’hui, les assistants vocaux comprennent en moyenne 90% des requêtes qui leur sont adressées. © DR
Siri, Google Assistant, Cortana ou encore Alexa… Les assistants intelligents font leur grande entrée sur le marché. La technologie de reconnaissance vocale sur laquelle ils s’appuient n’est pourtant pas nouvelle. IBM développait déjà les premiers outils de ce type dans les années 70. Mais les récents devices, tels les smartphones et enceintes connectées, auxquels elle est désormais intégrée, tendent à la démocratiser. Couplée à de l’intelligence artificielle, la technologie arrive également à maturité. Selon le cabinet spécialisé comScore, la moitié des recherches sur Internet pourraient être vocales d’ici à 2020. Pour être massivement adoptée, la reconnaissance vocale devra néanmoins encore surmonter quelques difficultés.
Entraîner manuellement les bots
Aujourd’hui, les assistants vocaux comprennent en moyenne 90% des requêtes qui leur sont adressées. Le cap des 95%, synonyme d’une adoption massive, devrait être franchi en 2020, selon une étude réalisée par Mindmeld. Mais pour certaines entreprises, c’est encore insuffisant : « Chaque entreprise vise un taux final d’erreur de 1%« , relève dans un livre blanc la société américaine Yext, spécialisée dans la gestion globale des données.
Pour parvenir à ce résultat, les entreprises redoublent d’efforts en vue d’améliorer la fiabilité de leurs assistants. Il arrive encore souvent que ces derniers ne comprennent pas la question ou se trompent dans la réponse apportée. En effet, il peut être difficile pour le voice bot de distinguer la voix humaine dans un environnement bruyant. Ou de reconnaître une phrase prononcée avec un accent, rapporte la société de développement de bots Yext dans son livre blanc sur la recherche vocale.
Afin de nourrir et d’entraîner leurs voice bots, des entreprises comme Microsoft n’hésitent donc pas à louer des appartements pour y enregistrer des personnes de différentes nationalités dans un environnement recréant de toute pièce les bruits ambiants locaux (sirènes, bus, circulation..). Quand le géant chinois Baidu s’attache à collecter des gigaoctets de données dans les différents dialectes parlés en Chine, rapporte Yext.
Gérer les requêtes inédites
Le problème se pose aussi lorsque les utilisateurs emploient un registre spécifique. « Amazon et Google ont déjà intégré un grand nombre de phrases à leurs assistants vocaux. Si bien que le bot par défaut va comprendre que vous lui parlez de la météo par exemple. Mais si vous vous adressez à lui avec un vocabulaire spécialisé (vocabulaire métier, noms de marques…), il ne comprendra pas. Il faut donc que l’entreprise qui souhaite concevoir un voice bot en s’appuyant sur ces briques technologiques l’entraîne manuellement et cela prend du temps », explique Louis-Clément Schiltz, CEO de la société de conception de bots Webotit. Afin de préparer au mieux le voicebot de l’enseigne Parashop, les développeurs de Webotit se sont ainsi rendus en magasin pour recueillir les principales questions posées par les clients et les différentes manières dont ils étaient susceptibles de les formuler.
“Mais il y aura toujours des requêtes inédites”, note le responsable. Comment les gérer ? “Le bot ne répond que s’il estime qu’il a compris à 99%. En-deçà, il ne prend pas le risque. Il reconnaît qu’il ne saisit pas et une alerte est envoyée en back-office. Nous recevons la phrase avec les différentes interprétations émises par le bot et nous validons nous-même la réponse.” Afin de réduire les coûts et délais de ce traitement humain, “Alexa permet à l’utilisateur de renseigner directement si le bot a bien compris ou non la question. Ces données vont nourrir les algorithmes de machine learning qui eux, sont auto-apprenants”, explique Louis-Clément Schiltz.
Détecter les émotions
Une fois que les échanges avec le voice bot se seront fluidifiés, celui-ci pourrait encore gagner en acuité et améliorer ses services. Des outils d’analyse de la parole (speech analytics) pourraient permettre au bot de détecter les émotions de son interlocuteur au moment de l’échange. Et non plus seulement analyser le message adressé. « Un bot officiant en service après-vente pourrait par exemple choisir de basculer l’appel d’un client qui commence à s’énerver car le bot le comprend mal vers un télé-opérateur. Ou répondre en priorité aux requêtes exprimant un certain degré d’urgence. Ou encore simplement adapter son ton à celui de son interlocuteur… « , avance Louis-Clément Schiltz.
D’autres technologies, comme la reconnaissance d’empreinte vocale, lui permettraient d’identifier directement ses interlocuteurs. Pratique, lorsque l’assistant est intégré à une enceinte connectée partagée entre les différents membres de la famille. Amazon et Google, qui proposent tous deux ce produit, planchent actuellement sur le sujet.