Les assistants vocaux, tout le monde en parle, mais comment ça marche ? Les assistants vocaux, tout le monde en parle, mais comment ça marche ?

L’enceinte connectée Amazon Echo permet à son utilisateur d’intéragir via l’assistant vocal Alexa. © Amazon

A lire aussi

Capables de saisir 161 mots par minute contre 53 pour le clavier, les interfaces vocales promettent à leurs utilisateurs des échanges rapides et fluidifiés. Mais comment ? Petite explication sur le fonctionnement de cette technologie appelée à révolutionner notre manière de chercher et de consommer.

une batterie de technos finement orchestrées

Simples à l’usage, les assistants vocaux s’appuient néanmoins sur une batterie de technologies finement orchestrées pour opérer. Toujours en éveil, ils mènent une écoute passive de leur environnement et s’activent dès qu’ils repèrent le mot clé indiquant qu’un interlocuteur souhaite exprimer une requête. Celui-ci doit être prononcé par l’utilisateur avant toute demande. Il peut s’agir, par exemple, de « OK Google » pour éveiller le Google Assistant. Ou plus simplement d’ »Alexa » pour entamer un échange avec l’assistant d’Amazon.

Ensuite seulement, l’utilisateur peut formuler sa demande. Une technologie vocale de reconnaissance de mots retranscrit alors les sons entendus à l’écrit. La phrase recomposée sera ensuite étudiée par un processus d’analyse sémantique, le natural language understanding, afin d’en extraire les intentions – ce que souhaite savoir ou faire l’utilisateur (acheter un produit, connaître les prévisions météo…) – et les entités permettant de préciser la demande (le lieu, le temps…). De quoi déterminer l’intention de l’utilisateur.

Une fois la question comprise, les assistants vocaux peuvent s’appuyer sur les moteurs de recherche pour trouver la réponse. Ainsi, Google Assistant interrogera Google Search quand Alexa se tournera vers Bing de Microsoft. C’est aussi dans les moteurs de recherche que les assistants iront puiser des éléments de langage afin de verbaliser le plus naturellement possible leur retour à l’utilisateur.

REContextualiser la question pour affiner la compréhension

Afin de d’assurer une meilleure compréhension de la question, les assistants peuvent également s’appuyer sur d’autres éléments. Soit de contextualisation (par rapport à nos demandes passées, aux phrases précédentes…), soit de personnalisation (par rapport à notre historique dans le cas d’une commande par exemple, grâce à la géolocalisation…).

Aujourd’hui, les assistants vocaux comprennent en moyenne 90% des requêtes qui leur sont adressées. Le cap des 95%, synonyme d’une adoption massive, devrait être franchi en 2020, selon une étude réalisée par Mindmeld. Mais pour certaines entreprises, c’est encore insuffisant : « Chaque entreprise vise un taux final d’erreur de 1%« , relève dans un livre blanc la société américaine Yext, spécialisée dans la gestion globale des données.

Floriane Leclerc