webleads-tracker

La recherche conversationnelle, nouvel eldorado du capitalisme linguistique ?

Temps de lecture : 5 minute(s)

L’histoire de Google, telle que nous la connaissons aujourd’hui, pourrait se résumer à deux systèmes bien distincts, de l’un et de l’autre. Le premier est son fameux algorithme qui est de trouver des pages répondant à certains mots et le deuxième fut de mettre une valeur marchande sur ces mêmes mots. Le premier l’a rendu célèbre et le deuxième, très riche. Dans un tout nouveau environnement technologique, quelle est l’ambition de Google dans la recherche conversationnelle ?

En proposant aux marques ce simple système d’enchères, qui lui rapportent des milliards chaque année, Google a exploré et rendu visible un champ du capitalisme jusqu’alors invisible, celui de la linguistique. Il s’en est suivi une nouvelle bataille économique où la langue est devenue un enjeu de conquête de parts de marché.

Avec l’arrivée de l’intelligence artificielle, elle prend une nouvelle tournure et se concentre désormais sur un domaine bien particulier : la voix et son corollaire technique, la recherche vocale.

Aux origines de la recherche vocale

La reconnaissance vocale a été inventée par Bell Labs en 1952. Sa technologie proposait de reconnaître une suite de 10 chiffres par un dispositif électronique câblé. Depuis lors, les évolutions technologiques se sont fortement accélérées, sous l’impulsion notamment du scientifique Fred Jelinek chez IBM de 1972 à 1993. L’article de Wikipédia étant assez exhaustif sur le sujet, nous vous conseillons de le lire si vous désirez connaître le contexte historique.

Le dur apprentissage du langage naturel

La longue marche vers l’initiation aux robots du langage naturel est pavée d’embûches. Google l’a appris à des dépens lorsqu’en 2007, il se lança sur avec Google Voice Search. Son périmètre d’action était alors réduit : il devait permettre aux internautes de dicter leur requête à la voix. Le search voice n’était alors qu’une oreille qui devait comprendre les mots prononcés par un utilisateur pour être traitée normalement par le moteur de recherche.

Google a rencontré plusieurs problèmes lors du développement de son outil. Apprendre le langage naturel à une AI est un long chemin compliqué.

  • L’une des premières difficultés concerne le bruit ambiant qui entoure une personne lorsqu’elle prononce à voix haute sa requête. Techniquement, c’est facile à faire mais le rendu est dégradé, baissant le taux de reconnaissance. Sur un smartphone, la probabilité d’un bruit ambiant étant forte, on mesure ici toute la complexité du problème.
  • Créer un système de langage naturel demande des ressources financières et humaines dont on ne mesure pas réellement l’ampleur. A savoir, la reconnaissance vocale doit être effective dans toutes les langues et lorsqu’une personne mélange des termes de plusieurs langues (exemple avec un Français qui intègre de l’anglais ou de l’italien dans ses énoncés vocaux), ça complexifie l’apprentissage.
  • De même, le défi repose aussi sur la prononciation. Il faut donc prendre en compte les différents types d’accent (l’accent du nord de la France est différent de l’accent marseillais) et les différences de timbre et d’intonations (mezzo, aigü, etc.).
  • Puis, la reconnaissance de la syntaxe est primordiale. Comme on l’a vu, chaque personne s’exprime différemment et il en est de même avec la connaissance syntaxique des utilisateurs.
  • Et enfin, la dernière difficulté consiste au traitement des données reçues simultanément par l’IA.

Vers la recherche conversationnelle ?

Depuis que Google s’est lancé dans l’aventure de la recherche vocale, il n’a jamais caché l’ambition de pousser l’expérience jusqu’à la recherche conversationnelle. Améliorer son moteur de recherche est l’obsession de la firme américaine et l’idée que l’utilisateur puisse entamer une conversation avec le moteur de recherche est le nerf de la guerre depuis quelques années. Le projet a un nom, que les fans de la marque connaissent déjà : Google Now.

Depuis 2010, Google a toujours cherché à ajouter des fonctionnalités de recherche conversationnelle à son assistant vocal, mais comme pour l’apprentissage du langage naturel, ça demande énormément de ressources. D’abord, il faut avoir suffisamment d’espace de stockage pour enregistrer l’historique de la conversation et ensuite, être capable d’analyser le contenu pour réaliser une « résolution des anaphores », à savoir reconnaître les éléments de contexte répétitifs et d’autres figures de style.

On pourrait croire que le chemin vers la recherche conversationnelle est un long et difficile chemin. En fait, il n’en est rien.

Si Google était en effet seul, ça prendrait du temps, en effet. Or, depuis 2014, de nouveaux acteurs se sont emparés de la problématique et proposent d’autres assistants vocaux très avancés. C’est le cas de Siri, de Cortona, d’Alexa, de Jibo et de Facebook M. Pour tous, la voix est devenue « la nouvelle frontière » à conquérir et les moyens engagés pour réussir sont colossaux.

Le transfert de connaissances et le Machine 2 Machine

La voix est un outil imparfait et le langage, l’épicentre de la tour de Babel. Mais à l’aube de l’intelligence artificielle, les géants de l’Internet sont en train de la récréer. Contrôler de la voix une interface quelconque est un des problèmes les mieux documentés et connus qui soient. Pourtant, parfois ça ne marche pas. Vous aurez beau hurler au milieu de nulle part à votre smartphone, il vous répondra laconiquement : « Désolé, je n’ai pas compris votre requête » ou « Je ne suis pas sûr de pouvoir faire cela ». De dépit, vous aurez envie de jeter votre mobile aux orties. Nous avons tous essayé avec Siri ou Google Assistant, et nous avons tous connu une expérience similaire aussi décevante.

Mais la recherche avance tellement vite qu’aujourd’hui, nos appareils nous comprennent mieux que nous nous comprenons.

Le transfert des connaissances a toujours évolué dans des contextes différents. Actuellement, il se parfait dans un double paradigme : d’homme à homme et d’homme à machine. Mais pour la première fois de l’histoire, un nouveau paradigme, sans l’homme, apparaît : l’apprentissage de machine à machine (M2M). Cette technologie permet le transfert d’informations d’un outil connecté à un autre, sans l’intervention manuelle de l’homme. C’est, par exemple, Amazon Echo qui commande à votre place un chauffeur VTC chez Uber.

Les objets connectés sont une des clefs de la recherche conversationnelle

Les assistants virtuels comme Siri ou Cortona ont embarqué leur technologie dans les OS. D’ici 2020, ils espèrent générer un volume de plus de 200 milliards de recherche via la voix. L’objectif est de construire du matériel utilisant de moins en moins de clavier pour impacter toute notre sphère interactive. De votre voiture à la gestion de votre facture d’eau, la voix sera au centre de toutes vos prérogatives quotidiennes à venir.

Rappelez-vous du lapin Nabaztag qui énonçait à voix haute la météo du jour. Amazon Echo fait aujourd’hui la même chose mais en mieux. Il est capable de vous lire un audiobook, d’annoncer l’actualité, de répondre à vos diverses questions, d’organiser le planning de votre journée, de contrôler votre thermostat… en utilisant uniquement la voix, la vôtre et la sienne.

Notre dépendance à notre smartphone et d’une manière plus large, aux plateformes et aux objets connectés facilitent de plus en plus la communication entre les machines. Ça aura certainement des répercussions sur le futur du commerce et des moyens de paiement. L’avenir du sans-contact n’est plus dans le NFC ou la puce RFID, mais bien dans la voix.