Comment les grands modèles linguistiques changent la donne pour l’IA vocale

La plupart des Américains utilisent une forme d’assistant vocal (VA) depuis plusieurs années et ont une bonne idée des limites de ces outils. À tel point que « Hey Siri », « Alexa… » et « Hey Google » font désormais partie de l’air du temps. Nous avons adopté la commodité de l’interaction mains libres, en déplacement ou dans la cuisine, et avons fini par accepter que parfois, ils ne nous comprennent tout simplement pas.

Entrez dans Chat GPT, alimenté par l’un des principaux modèles de langage étendu (LLM), et nous entrons dans une nouvelle ère de la voix. Celui où les capacités des assistants vocaux, tant en matière de compréhension que de recommandation, connaissent un changement radical. Qu’est-ce que cela signifie pour les utilisateurs finaux ?

Plus d’assistants, plus d’applications, de meilleures expériences utilisateur et plus de valeur.

Le chemin vers cette destination dépendra de la rapidité avec laquelle les développeurs et les acteurs du paysage de la voix et de l’IA adopteront les LLM dans leurs cycles de développement de produits.

Nous considérons déjà les LLM comme un tournant dans la manière dont les services vocaux sont développés en tant qu’interface avec l’intelligence – une véritable IA conversationnelle – à la fois en améliorant les performances et en accélérant le développement, tout en réduisant les coûts.

IMAGE : UNSPlash

Que sont les LLM ?

Un LLM est un modèle basé sur l’apprentissage automatique, capable de traiter le langage naturel pour extraire l’intention d’un texte libre, puis d’y répondre de manière conversationnelle.

Certains des LLM les plus importants disposent de milliards de paramètres à partir desquels apprendre et évoluer dans leur capacité à prédire le prochain jeton ou mot dans une phrase, en fonction du contexte qui l’entoure.

Le modèle répète cette tâche encore et encore jusqu’à ce que la précision soit optimale, avant de passer au mot suivant.

Même si la technologie existe depuis des années et continue de s’améliorer, le déclencheur du battage médiatique actuel autour des LLM a été l’introduction d’interfaces plus faciles d’accès intégrées dans les outils destinés aux consommateurs à partir du Chat GPT d’Open.ai, la mise à jour de Microsoft pour son moteur de recherche Bing. (basé sur Chat GPT) et Google

De plus, les modèles eux-mêmes sont devenus plus grands et plus performants.

Qu’est-ce qui ne sont pas des LLM ?

Les LLM sont formidables pour résumer du texte en langage naturel et générer de nouvelles données à partir d’un ensemble de données existant, mais ils ne sont pas des « applications phares » en soi et ont une capacité limitée à effectuer des tâches. Les LLM sont également sujets aux « hallucinations », où le modèle génère des informations incorrectes ou contradictoires en fonction de la multitude de sources dont il tire.

Cela va changer rapidement car l’écosystème des « plugins » ou des « extensions » est relativement immature mais connaît une croissance rapide, augmentant la capacité des LLM à accéder à des informations à jour, à exécuter des calculs et à exploiter des services tiers. À mesure que ces connexions avec les API en direct se développent, la gamme de cas d’utilisation que les assistants d’IA conversationnels basés sur les LLM pourront exécuter augmentera également.

Aujourd’hui, par exemple, Chat GPT est intégré à Expedia afin que les utilisateurs puissent planifier et réserver un itinéraire de voyage, ou discuter avec Instacart pour commander des courses. De même, Google Bard déploie des « extensions » qui permettent aux utilisateurs de faire des achats, de créer des images personnalisées ou d’écouter de la musique de marques leaders dans leur catégorie.

Alors, comment les LLM aident-ils les développeurs de services d’IA conversationnelle ?

Les services vocaux comme Siri et Alexa s’appuient sur la reconnaissance automatique de la parole (ASR) pour traduire les commandes vocales des utilisateurs finaux en chaînes de texte à traiter. Rien ne change ici, ces outils sont généralement précis à plus de 90 %.

Mais ce qui change, avec l’ajout des LLM, c’est la capacité de déduire le sens des phrases en fonction du contexte et d’extraire plus précisément l’intention de l’utilisateur. Une plus grande précision signifie de meilleures réponses.

Pensez à la dernière fois que vous avez affronté un centre d’appels IVR en essayant de naviguer dans une structure de menu énigmatique pour obtenir l’aide dont vous aviez besoin.

Imaginez maintenant passer une commande à emporter pour une famille qui aime personnaliser les options de nourriture et de boissons et modifier la commande en cours de route… pas de problème pour les LLM, il suffit de voir le récent changement de Wendy pour adopter la technologie dans ce contexte.

Un nouveau cadre émerge qui utilise des LLM, une recherche vectorielle, des capteurs vectoriels et des modèles de langage formés pour décider quelles API appeler en réponse à une commande délivrée par ASR.

Le modèle décide de manière autonome d’appeler différentes API pour obtenir des informations utiles pour compléter une instruction ou une requête et la réponse est ensuite délivrée à l’utilisateur en langage naturel à l’aide d’un LLM, puis convertie en audio à l’aide d’un moteur de synthèse vocale.

Les LLM peuvent même être utilisés pour générer automatiquement du code permettant d’accéder aux données des API.

Pour les cas d’utilisation qui nécessitent de trouver le meilleur résultat à partir d’un grand ensemble de données, une recherche vectorielle peut être utilisée et s’avère très efficace. La recherche vectorielle augmente la qualité de la recherche en attribuant des représentations numériques au texte à l’aide d’OpenAI (« intégration de mots »), ce qui facilite la compréhension des relations entre les concepts et produit des résultats de recherche plus précis, qui reposent généralement sur la correspondance de mots clés.

Ceci est plus précis que les approches précédentes reposant sur la correspondance de mots clés où les intentions et les entités sont identifiées à l’aide d’une programmation et d’une formation spécifiques ainsi que de synonymes ou d’une table de recherche (par exemple, être capable d’identifier LA comme Los Angeles en tant que nom de ville). Au lieu de cela, le LLM s’appuie sur un ensemble de demandes similaires et des milliards de points de données pour comprendre comment répondre, et conserve même la mémoire des interactions antérieures pour affiner les résultats.

La recherche vectorielle peut fournir des résultats précis et nuancés. Si un utilisateur demandait : « Je veux écouter de la musique qui ressemble à Pink Floyd, Led Zeppelin et Tool et qui provient d’une station de radio de la région de Snoqualmie », nous pouvons nous attendre à ce que la réponse localise une station de rock locale dans la région. et renvoie le résultat instantanément.

C’est la capacité du LLM à savoir que certains artistes apparaissent souvent à proximité de certains genres, et que certains lieux apparaissent à côté d’autres lieux, qui lui permet de restituer le résultat. La base de données vectorielles n’a pas besoin d’être structurée selon ces dimensions pour que l’énoncé soit converti dans un format utile à l’appel de l’API, et c’est ce qui distingue les LLM.

Des capteurs vectoriels sont utilisés pour catégoriser les demandes, par exemple pour déterminer si un utilisateur demande des informations sur la météo ou souhaite écouter des médias. Ils peuvent également être utilisés pour déterminer quelle API appeler pour une requête particulière. Cela élimine une grande partie de la formation manuelle dont un assistant vocal avait auparavant besoin pendant le développement.

Le « capteur » recherche ici le sentiment qui sous-tend une requête et, lorsqu’il est combiné avec des vecteurs d’incorporation de mots enchaînés, nous pouvons déterminer la pondération relative des différentes parties d’une phrase pour répondre correctement aux requêtes contenant plusieurs actions. Par exemple, « jouez du rock classique et augmentez le volume jusqu’au niveau 5 ».

Qu’est-ce que cela signifie pour les développeurs ?

Les LLM ont la capacité d’analyser des problèmes complexes, de générer ou de réviser un codage complexe, de dépanner les erreurs et de déboguer en quelques secondes – l’assistant ultime des programmeurs (sans parler de la qualité de la documentation).

Pas plus tard que l’année dernière, nous avons constaté que l’écriture de code, la génération de données et l’optimisation de l’intelligence d’un nouvel assistant vocal pouvaient prendre plus de six mois, et l’optimisation des performances était le résultat de plusieurs cycles de tests et d’affinement.

En utilisant les approches ci-dessus, nous obtenons les mêmes résultats en quelques semaines seulement et obtenons un taux de réussite des tâches de 80 à 90 % pour permettre des lancements plus précoces et une itération plus rapide.

Alors, qu’est-ce qui vient ensuite ?

ChatGPT est l’application grand public qui connaît la croissance la plus rapide de l’histoire, avec plus de 100 millions d’utilisateurs au cours de ses deux premiers mois de mise à disposition publique.

Un changement tectonique dans la sensibilisation des consommateurs est déjà en cours et aussi rapidement que les LLM sont adoptés, les attentes des consommateurs vont croître également… » Mon mebot vient de planifier mon mariage en 74 minutes – génial – mais il a programmé le dîner de répétition à 15 heures. Comme c’est frustrant !!”

Pour les entreprises, les LLM permettent d’innover rapidement, ce qui signifie que davantage de marques vocales arriveront plus tôt sur le marché avec des services vocaux capables de rechercher et de comprendre plus rapidement et de répondre avec plus de précision aux demandes nuancées.

Avec l’adoption des LLM, nous pouvons nous attendre à ce que les IA vocales augmentent en nombre et en pertinence, de sorte que la voix/le langage naturel puissent devenir une interface principale, laissant derrière elles la déception des premières années des assistants généraux. L’« assistant tout » est plus proche que nous ne le pensons, et la course à la création et à la distribution d’une IA vocale est lancée.

Biographie de l’auteur : John Goscha, fondateur et PDG de Native Voice.

IMAGE : UNSPlash

Si vous êtes intéressé par encore plus d’articles et d’informations liés à la technologie de notre part chez Bit Rebels, nous avons l’embarras du choix.

Comment les grands modèles linguistiques changent la donne pour l’IA vocale

IMAGE : UNSPlash

Que sont les LLM ?

Qu’est-ce qui ne sont pas des LLM ?

Alors, comment les LLM aident-ils les développeurs de services d’IA conversationnelle ?

Qu’est-ce que cela signifie pour les développeurs ?

Alors, qu’est-ce qui vient ensuite ?

IMAGE : UNSPlash

Articles similaires

Conseils lors de l'achat de meubles de patio extérieur Watson's à Ann Arbor

Entreprises de fenêtres et sécurité domestique : ce que vous devez savoir

17 façons simples de surmonter la dépendance émotionnelle

Améliorez votre expérience de streaming de films Netflix hors ligne avec le téléchargeur de vidéos Netflix 4kFinder