Interface utilisateur vocal
Une interface vocale (VUI) rend possible l'interaction humaine orale avec les ordinateurs, en utilisant la reconnaissance vocale pour comprendre les commandes et répondre aux questions, et utilise généralement le text-to-speech pour lancer une réponse. Un dispositif de commande vocale (VCD) est un appareil doté d'une interface utilisateur vocale.
Des interfaces utilisateur vocales sont ajoutées aux automobiles, à la domotique, aux systèmes d'exploitation des ordinateurs, aux appareils ménagers comme les machines à laver et les fours à micro-ondes, et aux télécommandes des télévisions. Elles constituent le principal moyen d'interaction avec les assistants virtuels sur les smartphones et les enceintes connectées. Les anciens assistants automatiques (qui acheminent les appels téléphoniques vers le bon numéro) et les systèmes de réponse vocale interactive (qui effectuent des transactions plus complexes par téléphone) peuvent répondre à la pression des touches du clavier par des tonalités multifréquence, mais ces systèmes dotés d'une interface utilisateur entièrement vocale permettent aux appelants de formuler des demandes et des réponses sans avoir à appuyer sur aucun bouton.
Les nouveaux dispositifs de commande vocales sont indépendants du locuteur, ils peuvent donc répondre à plusieurs voix, indépendamment de l'accent ou des influences linguistiques. Ils sont également capables de répondre à plusieurs commandes à la fois, de séparer les messages vocaux et de fournir un retour d'information approprié, en imitant avec précision une conversation naturelle.
Aperçu
Un VUI est l'interface de toute application vocale. Contrôler une machine simplement en lui parlant était de la science-fiction il y a peu de temps. Jusqu'à récemment, ce domaine était considéré comme l' intelligence artificielle. Cependant, les avancées dans des technologies telles que la synthèse vocale, la synthèse vocale, le traitement du langage naturel et les services cloud, en général, ont contribué à l'adoption massive de ces types d'interfaces. Les VUI sont devenues plus courantes et les gens profitent de la valeur que ces interfaces mains libres et yeux libres offrent dans de nombreuses situations.
Les VUI doivent répondre aux entrées de manière fiable, sinon elles seront rejetées et souvent ridiculisées par leurs utilisateurs. Concevoir une bonne VUI requiert des talents interdisciplinaires en informatique, en linguistique et en psychologie des facteurs humains, autant de compétences coûteuses et difficiles à acquérir. Même avec des outils de développement avancés, la construction d'une VUI efficace nécessite une compréhension approfondie des tâches à effectuer, ainsi que du public cible qui utilisera le système final. Plus le VUI correspond au modèle mental de l'utilisateur de la tâche, plus il sera facile à utiliser avec peu ou pas de formation, ce qui se traduira à la fois par une plus grande efficacité et une plus grande satisfaction des utilisateurs.
Histoire
Les premières applications de l'interface utilisateur virtuelle comprenaient la numérotation vocale des téléphones, soit directement, soit via un casque (généralement Bluetooth) ou un système audio de véhicule.
En 2007, un article de CNN a rapporté que des entreprises comme Google et Apple essayaient de créer des fonctionnalités de reconnaissance vocale. Cela fait des années que l'article n'a pas été publié, et depuis lors, le monde a été témoin d'une variété de dispositifs de commande vocale. En outre, Google a créé un moteur de reconnaissance vocale appelé Pico TTS et Apple a publié Siri. Les dispositifs de commande vocale sont de plus en plus disponibles et des moyens innovants pour utiliser la voix humaine sont toujours en cours de création. Par exemple, Business Week suggère que la future télécommande sera la voix humaine. Actuellement, Xbox Live autorise de telles fonctionnalités et tâches fait allusion à une telle fonctionnalité sur la nouvelle Apple TV .
Une VUI conçue pour le grand public devrait mettre l'accent sur la facilité d'utilisation et fournir beaucoup d'aide et de conseils aux nouveaux appelants. En revanche, une VUI conçue pour un petit groupe d' utilisateurs avec pouvoir (y compris les travailleurs des services sur le terrain), devrait se concentrer davantage sur la productivité et moins sur l'aide et les conseils. Ces applications devraient rationaliser les flux d'appels, minimiser les invites, éliminer les itérations inutiles et permettre des " dialogues d' initiatives mixtes" élaborés, qui permettent aux appelants d'entrer plusieurs informations en un seul énoncé et dans n'importe quel ordre ou combinaison. En bref, les applications vocales doivent être soigneusement conçues pour le processus métier spécifique qui est automatisé.
Tous les processus métier ne se rendent pas aussi bien pour l'automatisation de la parole. En général, plus les demandes de renseignements et les transactions sont complexes, plus elles seront difficiles à automatiser et plus elles seront susceptibles d'échouer auprès du grand public. Dans certains scénarios, l'automatisation n'est tout simplement pas applicable, l'assistance d'assistance en direct est donc la seule option. Une hotline de conseil juridique, par exemple, serait très difficile à automatiser. D'un autre côté, la parole est parfaite pour gérer des transactions rapides et de routine, comme changer le statut d'un ordre de travail, terminer une saisie de temps ou de dépenses, ou transférer des fonds entre des comptes.
Produits logiciels de commande vocale
Apple et Windows fournissent des fonctionnalités de reconnaissance vocale intégrées pour leurs derniers systèmes d'exploitation.
Microsoft windows
![](../I/Microsoft_Cortana_transparent.svg.png.webp)
Deux systèmes d'exploitation Microsoft, Windows 7 et Windows Vista, offrent des capacités de reconnaissance vocale. Microsoft a intégré des commandes vocales dans ses systèmes d'exploitation pour fournir un mécanisme aux personnes qui souhaitent limiter leur utilisation de la souris et du clavier, mais qui souhaitent néanmoins maintenir ou augmenter leur productivité globale.
Windows Vista
Avec la commande vocale de Windows Vista, un utilisateur peut dicter des documents et des e-mails dans les applications courantes, démarrer et basculer entre les applications, contrôler le système d'exploitation, formater des documents, enregistrer des documents, modifier des fichiers, corriger efficacement les erreurs et remplir des formulaires sur le Web . Le logiciel de reconnaissance vocale apprend automatiquement chaque fois qu'un utilisateur l'utilise et la reconnaissance vocale est disponible en anglais (États-Unis), anglais (Royaume-Uni), allemand (Allemagne), français (France), espagnol (Espagne), japonais, chinois (traditionnel) et chinois (simplifié). De plus, le logiciel est livré avec un didacticiel interactif, qui peut être utilisé pour former à la fois l'utilisateur et le moteur de reconnaissance vocale.
Windows 7
En plus de toutes les fonctionnalités fournies dans Windows Vista, Windows 7 fournit un assistant pour configurer le microphone et un sur l'utilisation de la fonctionnalité.
Mac Os X
Tous les ordinateurs Mac OS X sont pré-installés avec le logiciel de reconnaissance vocale. Le logiciel est indépendant de l'utilisateur et permet à un utilisateur de naviguer dans les menus et d'entrer des raccourcis clavier; énoncer les noms des cases à cocher, les noms des boutons radio, les éléments de liste et les noms des boutons; et ouvrir, fermer, contrôler et basculer entre les applications. Cependant, le site Web d'Apple recommande à un utilisateur d'acheter un produit commercial appelé Dictate .
Produits commerciaux
Si un utilisateur n'est pas satisfait du logiciel de reconnaissance vocale intégré ou s'il n'a pas de logiciel de reconnaissance vocale intégré pour son système d'exploitation, un utilisateur peut expérimenter avec un produit commercial tel que Braina Pro ou DragonNaturallySpeaking pour Windows PC, et Dictate, le nom du même logiciel pour Mac OS.
Appareils mobiles à commande vocale
Tout appareil mobile exécutant Androïde OS, Microsoft WindowsPhone, iOS 9 ou version ultérieure ou Blackberry OS offre des capacités de commande vocale. En plus du logiciel de reconnaissance vocale intégré pour le système d'exploitation de chaque téléphone mobile, un utilisateur peut télécharger des applications de commande vocale tierces à partir du magasin d'applications de chaque système d'exploitation: Apple App Store, Google Play, Windows Phone Marketplace (initialement Windows Marketplace pour Mobile ), ou BlackBerry App World .
Android
![](../I/Google_Assistant_logo_circle.png.webp)
Google a développé un système d'exploitation open source appelé Android, qui permet à un utilisateur d'exécuter des commandes vocales telles que: envoyer des SMS, écouter de la musique, obtenir des itinéraires, appeler des entreprises, appeler des contacts, envoyer des e-mails, afficher une carte, aller sur des sites Web, rédiger une note et rechercher sur Google. Le logiciel de reconnaissance vocale est disponible pour tous les appareils depuis Android 2.2 "Froyo", mais les paramètres doivent être définis sur l'anglais. Google permet à l'utilisateur de changer la langue et l'utilisateur est invité à utiliser la fonction de reconnaissance vocale pour la première fois s'il souhaite que ses données vocales soient jointes à son compte Google. Si un utilisateur décide d'opter pour ce service, cela permet à Google d'entraîner le logiciel à la voix de l'utilisateur.
Google a présenté l' Assistant Google avec Android 7.0 "Nougat" . Il est beaucoup plus avancé que l'ancienne version.
Amazon a Echo qui utilise la version personnalisée d'Amazon d'Android pour fournir une interface vocale.
Microsoft Windows
Windows Phone est Microsoft du système d' exploitation de votre appareil mobile d ». Sur Windows Phone 7.5, l'application vocale est indépendante de l'utilisateur et peut être utilisée pour: appeler quelqu'un de votre liste de contacts, appeler n'importe quel numéro de téléphone, recomposer le dernier numéro, envoyer un SMS, appeler votre messagerie vocale, ouvrir une application, lire des rendez-vous, interrogez l'état du téléphone et recherchez sur le Web. En outre, la parole peut également être utilisée pendant un appel téléphonique et les actions suivantes sont possibles pendant un appel téléphonique: appuyez sur un numéro, allumez le haut-parleur ou appelez quelqu'un, ce qui active l'appel en cours tenir.
Windows 10 présente Cortana, un système de commande vocale qui remplace la commande vocale précédemment utilisée sur les téléphones Windows.
iOS
Apple a ajouté le contrôle vocal à sa famille d'appareils iOS en tant que nouvelle fonctionnalité de l' iPhone OS 3 . L' iPhone 4S, l' iPad 3, l' iPad Mini 1G, l' iPad Air, l' iPad Pro 1G, l' iPod Touch 5G et les versions ultérieures sont tous livrés avec un assistant vocal plus avancé appelé Siri. Le contrôle vocal peut toujours être activé via le menu Paramètres des nouveaux appareils. Siri est une fonction de reconnaissance vocale intégrée indépendante de l'utilisateur qui permet à un utilisateur d'émettre des commandes vocales. Avec l'aide de Siri, un utilisateur peut émettre des commandes telles que, envoyer un SMS, vérifier la météo, définir un rappel, rechercher des informations, planifier des réunions, envoyer un e-mail, rechercher un contact, définir une alarme, obtenir des itinéraires, suivre vos stocks, définir une minuterie et demander des exemples d'exemples de requêtes de commandes vocales. De plus, Siri fonctionne avec Bluetooth et un casque filaire.
Amazon Alexa
![](../I/Amazon_Alexa_blue_logo.svg.png.webp)
En 2014, Amazon a présenté l' appareil intelligent pour la maison Alexa . Son objectif principal était juste un haut-parleur intelligent, qui permettait au consommateur de contrôler l'appareil avec sa voix. Finalement, il s'est transformé en un appareil de nouveauté qui avait la capacité de contrôler l'appareil électroménager avec la voix. Maintenant, presque tous les appareils sont contrôlables avec Alexa, y compris les ampoules et la température. En permettant le contrôle vocal, Alexa peut se connecter à la technologie de la maison intelligente vous permettant de verrouiller votre maison, de contrôler la température et d'activer divers appareils. Cette forme d'IA permet à quelqu'un de simplement lui poser une question, et en réponse, Alexa recherche, trouve et récite la réponse.
Reconnaissance vocale dans les voitures
Au fur et à mesure que la technologie automobile s'améliore, plus de fonctionnalités seront ajoutées aux voitures et ces fonctionnalités distrairont très probablement un conducteur. Les commandes vocales pour les voitures, selon CNET, devraient permettre au conducteur d'émettre des commandes et de ne pas être distrait. CNET a déclaré que Nuance suggérait qu'à l'avenir ils créeraient un logiciel qui ressemblerait à Siri, mais pour les voitures. La plupart des logiciels de reconnaissance vocale sur le marché en 2011 n'avaient que 50 à 60 commandes vocales, mais Ford Sync en avait 10 000 Cependant, CNET a suggéré que même 10 000 commandes vocales n'étaient pas suffisantes compte tenu de la complexité et de la variété des tâches qu'un utilisateur peut vouloir effectuer en conduisant. La commande vocale pour les voitures est différente de la commande vocale pour les téléphones portables et les ordinateurs, car un conducteur peut utiliser la fonction pour rechercher des restaurants à proximité, rechercher de l'essence, des itinéraires, des conditions routières et l'emplacement de l'hôtel le plus proche. Actuellement, la technologie permet à un conducteur d'émettre des commandes vocales sur un GPS portable comme un Garmin et un système de navigation de constructeur automobile.
Communication non-verbale
Alors que la plupart des interfaces utilisateur vocales sont conçues pour prendre en charge l'interaction à travers le langage humain oral, il y a également eu des explorations récentes dans la conception d'interfaces prenant des sons humains non verbaux en entrée. Dans ces systèmes, l'utilisateur contrôle l'interface en émettant des sons non vocaux tels que des bourdonnements, des sifflements ou des souffles dans un microphone.
Un tel exemple d'une interface utilisateur vocale non verbale est Blendie, une installation artistique interactive créée par Kelly Dobson. La pièce comprenait un mélangeur classique des années 1950 qui a été adapté pour répondre à l'entrée du microphone. Pour contrôler le mélangeur, l'utilisateur doit imiter les sons mécaniques vrombissants qu'un mélangeur produit généralement: le mélangeur tournera lentement en réponse au grondement grave de l'utilisateur, et augmentera sa vitesse à mesure que l'utilisateur émet des sons vocaux plus élevés.
Un autre exemple est VoiceDraw, un système de recherche qui permet le dessin numérique pour les personnes ayant des capacités motrices limitées. VoiceDraw permet aux utilisateurs de «peindre» des traits sur un canevas numérique en modulant les sons de voyelle, qui sont mappés sur les directions du pinceau. La modulation d'autres caractéristiques para linguistiques (par exemple le volume de leur voix) permet à l'utilisateur de contrôler différentes caractéristiques du dessin, telles que l'épaisseur du coup de pinceau.
D'autres approches incluent l'adoption de sons non verbaux pour augmenter les interfaces tactiles (par exemple sur un téléphone mobile) pour prendre en charge de nouveaux types de gestes qui ne seraient pas possibles avec la seule saisie des doigts.
Défis de conception
Les interfaces vocales posent un nombre important de défis pour l'utilisabilité. Contrairement aux interfaces utilisateur graphiques (GUI), les meilleures pratiques pour la conception d'interfaces vocales sont toujours émergentes.
Accessibilité
Avec une interaction purement audio, les interfaces utilisateur vocales ont tendance à souffrir d'une faible accessibilité: il est difficile pour les utilisateurs de comprendre l'étendue des capacités d'un système. Pour que le système transmette ce qui est possible sans affichage visuel, il devrait énumérer les options disponibles, qui peuvent devenir fastidieuses ou irréalisables. Une faible accessibilité se traduit souvent par des utilisateurs signalant une confusion sur ce qu'ils sont «autorisés» à dire, ou un décalage dans les attentes concernant l'étendue de la compréhension d'un système.
Transcription
Alors que la technologie de reconnaissance vocale s'est considérablement améliorée ces dernières années, les interfaces utilisateur vocales souffrent toujours d'erreurs d'analyse ou de transcription dans lesquelles la parole d'un utilisateur n'est pas interprétée correctement. Ces erreurs ont tendance à être particulièrement répandues lorsque le contenu de la parole utilise un vocabulaire technique (par exemple la terminologie médicale) ou des orthographes non conventionnelles telles que des artistes musicaux ou des noms de chansons.
Comprendre
La conception d'un système efficace pour maximiser la compréhension conversationnelle reste un domaine de recherche ouvert. Les interfaces utilisateur vocales qui interprètent et gèrent l'état conversationnel sont difficiles à concevoir en raison de la difficulté inhérente à intégrer des tâches complexes de traitement du langage naturel telles que la résolution de la coréférence, la reconnaissance d'entités nommées, la récupération d'informations et la gestion des dialogues. La plupart des assistants vocaux sont aujourd'hui capables d'exécuter très bien des commandes simples mais limités dans leur capacité à gérer le dialogue au-delà d'une tâche étroite ou de quelques virages dans une conversation.
Incidences sur la confidentialité
Les problèmes de confidentialité sont soulevés par le fait que les commandes vocales sont disponibles pour les fournisseurs d'interfaces voix-utilisateur sous forme non cryptée, et peuvent donc être partagées avec des tiers et être traitées de manière non autorisée ou inattendue. Outre le contenu linguistique de la parole enregistrée, le mode d'expression et les caractéristiques vocales d'un utilisateur peuvent contenir implicitement des informations sur son identité biométrique, ses traits de personnalité, sa forme corporelle, son état de santé physique et mentale, son sexe, son genre, humeurs et émotions, statut socio-économique et origine géographique.
Articles connexes
Références
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Voice user interface » (voir la liste des auteurs).
- "Commande vocale de machine à laver" . Magazine Appliance .
- Borzo, Jeanette (8 février 2007). "Maintenant tu parles" . CNN Money . Récupéré le 25 avril 2012 .
- "Contrôle vocal, la fin de la télécommande du téléviseur?" . Semaine d'affaires . Récupéré le 1er mai 2012 .
- "Windows Vista construit dans le discours" . Windows Vista . Récupéré le 25 avril 2012
- Journal Le monde
- https://designinteractif.gobelins.fr/tag/vocal-user-interface/
- "Speech Operation On Vista". Microsoft
- "L'installation de Reconnaissance vocale" . Microsoft
- "Compétences physiques et motrices". Apple.
- "DragonNaturallySpeaking PC" . Nuancer.
- "Actions vocales". Google.
- "Google Voice Search pour Android peut maintenant être" formé "à votre voix" . Récupéré le 24 avril 2012.
- "Utilisation de la commande vocale" . Microsoft . Récupéré le 24 avril 2012.
- "Siri, l'iPhone 3GS & 4, iPod 3 & 4, ont la commande vocale comme un Siri express, il joue de la musique, met la musique en pause, suffle, Facetime et appelle les fonctionnalités" . Apple . Récupéré le 27 avril 2012.
- Faq Siri Apple
- "Siri Like Voice". CNET.
- "GPS portable avec voix" . CNET.
- "La manipulation augmentée de Voix | Les actes de la 15ème conférence internationale sur l'interaction Homme-ordinateur avec les appareils et les services mobiles" . dlnext.acm.org. Récupéré le 27-02-2019.
- "Blendie | Actes de la 5ème conférence sur la conception de systèmes interactifs: processus, pratiques, méthodes et techniques" . dlnext.acm.org. Récupéré le 27-02-2019.
Liens externes
- Voice Interfaces: Assessing the Potential de Jakob Nielsen
- The Rise of Voice: A Timeline
- Voice First Glossary of Terms
- Voice First A Reading List
- Portail des technologies
- Portail de l’informatique