août 28, 2024

Le saviez-vous : que sont les Grands Modèles de Langage (LLM) ?

Explorez cette technologie grâce à des exemples concrets appliqués au secteur de l'hôtellerie.

Dans la série d’articles de blog Le saviez-vous, nous décortiquons les technologies complexes incorporées dans notre IA, Aplysia. En l’occurrence, nous plongeons dans les Grands Modèles de Langage (LLM). Poursuivez votre lecture selon l’aperçu accessible ou rendez-vous directement à la section expliquant comment les LLM sont intégrés à notre solution.

Qu’est-ce qu’un Grand Modèle de Langage (LLM) ?
Comment les LLMs sont intégrés dans la solution HiJiffy ?
- Comment notre IA répond aux limitations des LLM
- L’IA de HiJiffy et les LLM en pratique – exemples

Qu’est-ce qu’un Grand Modèle de Langage (LLM) ?

Un Grand Modèle de Langage (LLM) est un algorithme d’apprentissage profond capable de reconnaître et d’interpréter le langage humain ou d’autres types de données complexes. Le terme « grand » signifie que ces modèles sont entraînés avec d’énormes quantités de données. Souvent, ces données proviennent d’Internet et peuvent représenter des milliers, voire des millions, de gigaoctets de texte.

À quel point sont-ils « grands » ?

La Bibliothèque du Congrès des États-Unis est l’une des plus grandes bibliothèques du monde, avec plus de 170 millions d’articles dans sa collection. On pense que la collection de la bibliothèque contient à elle seule 20 téraoctets de données. Aussi surprenant que cela puisse paraître, cette quantité de données peut être dépassée quand il s’agit de LLM. Les données d’entraînement d’un grand modèle de langage peuvent dépasser de plusieurs ordres de grandeur la collection de la Bibliothèque du Congrès, ce qui donne un bon exemple de l’énorme quantité de données que ces modèles d’IA traitent au cours de la phase du développement.

Comment fonctionnent les LLM ?

Llms 01 le saviez-vous : que sont les grands modèles de langage (llm) ?

Tout comme le cerveau humain est composé de neurones interconnectés qui s’envoient des signaux, un modèle d’apprentissage profond utilise un réseau de nœuds connectés, connu sous le nom de Réseau de Neurones Artificiels (ANN). Les réseaux de neurones artificiels apprennent à reconnaître les formes de données en ajustant le poids des connexions entre les neurones.
Ces connexions pondérées relient les neurones à des couches adjacentes, qui transmettent des signaux d’une couche à la suivante. La force de ces connexions, représentée en poids, détermine l’influence de la sortie d’un neurone sur l’entrée d’un autre neurone. Pendant l’entraînement, le réseau ajuste ses poids en fonction d’exemples tirés de l’ensemble de données.

Llms 02 le saviez-vous : que sont les grands modèles de langage (llm) ?

Les LLM utilisent des réseaux neuronaux plus complexes, de type « transformers », qui diffèrent des réseaux neuronaux traditionnels par leur capacité à traiter des séquences entières de données simultanément plutôt que étape par étape. Cela permet aux transformers de capturer plus efficacement les dépendances à longue distance et les relations contextuelles. Pour mieux comprendre le fonctionnement de ces modèles, examinons un exemple étape par étape.

Un exemple illustratif

Pour mieux comprendre le fonctionnement de ces modèles, nous allons analyser un exemple étape par étape en utilisant la phrase « Aujourd’hui il fait très ». La phrase semble inachevée, mais nous allons voir cela plus loin.

Étape 1 : Tokenisation

La phrase est d’abord tokenisée. La tokenisation est le process de décomposition du texte en unités plus petites, souvent des mots ou des sous-mots.

Tokens : [« Aujourd’hui », « il », « fait », « très »]

Étape 2 : Word embedding ou plongement lexical

Chaque token est ensuite converti en plongement lexical. Ici, le process commence à devenir plus complexe. Ce plongement est un vecteur de haute dimension qui représente le token dans un espace vectoriel continu, saisissant les significations sémantiques et syntaxiques, souvent dans un contexte spécifique.

Par exemple :

« Il » pourrait être représenté comme un vecteur : [0.1, 0.3, …, 0.2]
« fait » pourrait être représenté comme un vecteur : [0,7, 0,5, …, 0,8]
…

Chacun de ces vecteurs peut avoir des centaines ou des milliers de dimensions. Les mots liés sont spatialement plus proches les uns des autres ; les mots ayant des significations ou des modèles d’utilisation similaires sont positionnés les uns près des autres dans l’espace vectoriel. Laissons cet exemple de côté pour l’instant pour tenter une illustration avec une autre série de mots :

Llms 03 le saviez-vous : que sont les grands modèles de langage (llm) ?

Étape 3 : Architecture de type transformateur

La complexité du process ne cesse d’augmenter. Ces plongements sont introduits dans un modèle de type transformateur. Un transformer a plusieurs couches de mécanismes d’auto-attention (self-attention) et de réseaux neuronaux à action directe. Le mécanisme d’auto-attention aide le modèle à se concentrer sur différentes parties de la phrase d’entrée pour comprendre le contexte.

Auto-attention : Elle calcule la pertinence de chaque mot pour chaque autre mot de la phrase. Par exemple, elle détermine le degré d’attention à accorder à « fait » lorsqu’on prend en considération le mot « très ».

Étape 4 : Comprendre le contexte

Voyons maintenant comment on aborde la partie apparemment manquante de la phrase que nous utilisons comme exemple. Pendant que la phrase traverse les couches du transformer, le modèle développe une compréhension contextuelle. Cela signifie qu’il ajuste les plongements lexicaux en fonction de leur contexte dans la phrase.

Pour le mot « très », le contexte est compris en fonction de « Aujourd’hui il fait », indiquant qu’il a probablement besoin d’un adjectif qui décrit « fait ».

Étape 5 : Générer le mot suivant

Après avoir traité l’entrée, le modèle prédit le mot suivant. Pour ce faire, il génère une distribution de probabilité sur le vocabulaire pour le token suivant.

Distribution de probabilité : Le modèle peut produire des probabilités comme : [« beau » : 0,4, « mauvais » : 0.2, « chaud » : 0.1, …]

Le mot avec la probabilité la plus élevée est alors choisi comme mot suivant dans la phrase. Dans ce cas, le mot sélectionné serait « beau ».

Étape 6 : Compléter la phrase

Le mot sélectionné « beau » est ajouté à la phrase et le process peut être répété pour d’autres mots, si nécessaire.

Phrase complétée : « Aujourd’hui il fait très beau. »

Avantages des grands modèles de langage

Polyvalence : Les LLM peuvent être adaptés à diverses applications, de la traduction à la génération de contenu, offrant ainsi une flexibilité dans tous les secteurs.
Apprentissage continu : Les LLM peuvent être améliorés au fil du temps grâce à l’ajout de données supplémentaires qui aident à les optimiser en permanence.

LLM : Études de cas

Création de contenu : Générer des articles, des stories et des rapports.
Traduction : Adaptation d’un texte d’une langue à une autre.
Enseignement : Support d’apprentissage consistant à expliquer et à répondre à des questions sur divers sujets.
Aide à la programmation : Écriture et code de débogage.
Résumés : Traitement de longs articles ou documents pour créer un aperçu.
Chatbots et assistants virtuels : Communiquer avec des gens, répondre à des questions, fournir des informations et aider à l’exécution de tâches.

Limites des LLM

Data bias : Les LLM sont aussi fiables que les données qui sont utilisées pour les alimenter. Si on leur fournit de fausses informations, ils donneront des réponses incorrectes aux utilisateurs.

Hallucinations : Il se peut parfois que les LLM « hallucinent » ; ils génèrent donc de fausses informations lorsqu’ils sont incapables de produire une réponse précise.
Sécurité : Les applications d’interface utilisateur basées sur les LLM sont aussi sujettes aux bugs que toute autre application. Les LLM peuvent être manipulés via des entrées malveillantes pour fournir certains types de réponses plutôt que d’autres, y compris des réponses dangereuses ou contraires à l’éthique.
Vie privée : Les utilisateurs peuvent télécharger des données sécurisées et confidentielles pour augmenter leur productivité. Cependant, les LLM utilisent les entrées qu’ils reçoivent pour entraîner davantage leurs modèles et ils ne sont pas conçus pour être des coffres-forts sécurisés ; ils peuvent exposer des données confidentielles lorsqu’ils répondent à des questions d’autres utilisateurs.

Comment les LLM sont-ils intégrés à la solution HiJiffy ?

Pour mieux explorer la réponse à cette question, il est important de comprendre la capacité plus large de notre solution, qui va au-delà d’un simple chatbot. Voici certaines fonctionnalités à prendre en compte :

Une série d’intégrations avec divers outils de l’hôtellerie, y compris des moteurs de réservation, des systèmes de gestion des hôtels, des logiciels de gestion de la maintenance, des CRM, des passerelles de paiement et de financement, l’automatisation des services, et bien plus encore.
Élaboration de rapports de performance pour le chatbot et l’équipe de l’hôtel.
Organisation des demandes introduites via plusieurs canaux, y compris un webchat, les réseaux sociaux, les applications de messagerie instantanée, et autres.

Llms 04 le saviez-vous : que sont les grands modèles de langage (llm) ?

L’aspect chatbot de notre solution est plus complexe qu’une simple rédaction de requêtes dans GPT, bien qu’il soit souvent tentant de suivre ce raccourci simpliste lors des explications. Nous apprenons à partir des données que nous fournissent nos clients, puis nous organisons l’ensemble du process pour remédier aux limites des LLM.

Comment notre IA, Aplysia, répond-elle aux limitations des grands modèles de langage ?

Reconnaissance des schémas pour éviter les hallucinations : En utilisant des algorithmes qui identifient les modèles de texte souvent liés à des erreurs ou à des informations inventées, on aide le modèle à détecter quand il dépasse ses connaissances fiables. Cela permet de prévenir les LLM de générer des réponses incorrectes ou inventées, ce qui pourrait nuire à la fois aux clients et aux marques hôtelières.

Évaluation de la fiabilité du contenu généré : En utilisant des méthodes pour mesurer la confiance du modèle dans ses réponses, comme la probabilité des mots ou expressions générés, des indicateurs d’incertitude, ou d’autres outils. Cela permet à notre IA de s’auto-évaluer pour déterminer si ce qu’elle produit est suffisamment fiable pour être partagé.

Plus de chances de répondre : Même lorsqu’Aplysia n’est pas sûre d’une réponse, elle peut quand même en proposer une. Cela peut se produire dans les situations suivantes :
- Si la réponse à la question fréquente pertinente est vide mais que d’autres questions similaires existent, la solution affichera les 3 FAQ les plus proches.
- Si la réponse à la FAQ concernée est disponible mais qu’Aplysia reste incertaine, la solution utilisera l’ancienne version d’Aplysia (sans LLM) pour tenter de répondre. Si aucune des solutions n’est suffisamment fiable, nous afficherons les 3 FAQ les plus similaires.
Validation avec une base de connaissances : Cette étape consiste à comparer les réponses du modèle avec une base de connaissances fiable de l’hôtel. Cela aide à détecter et corriger les informations incorrectes.

Vérificateur de point de vue : Une fonctionnalité qui s’assure que le contenu généré reste aligné avec des perspectives crédibles et bien établies, garantissant ainsi son exactitude et sa pertinence.

Garde-fous : Des mesures pour empêcher l’injection de code, le « jailbreaking », les fuites de données, et le traitement de contenus illisibles ou flous. En d’autres termes, ils veillent à ce que notre solution soit utilisée uniquement dans son cadre prévu.

Exemples illustrant comment notre solution vérifie les réponses des LLM

Questions hors contexte : ayant été conçue pour l’hôtellerie, Aplysia ne répond pas à des sujets non pertinents.

Llms 05 le saviez-vous : que sont les grands modèles de langage (llm) ?

2. Mécanismes anti-hallucination : parfois, le LLM génère une réponse qui n’est pas alignée sur ce que fournissent nos clients. Pour y faire face, nous avons des mécanismes anti-hallucination tels qu’un correcteur de point de vue, qui maintiennent le point de vue utilisé dans la question fréquemment posée. Voici un exemple pratique :

Question : L’hôtel dispose-t-il d’un parking ?

La réponse fournie par l’hôtel à la question : « Nous n’avons pas de parking dans le bâtiment. Vous pouvez contacter la réception pour vérifier les places disponibles dans un parking à proximité. »

Réponse générée : « L’hôtel ne dispose pas de parking dans le bâtiment, mais vous pouvez contacter la réception pour vérifier les places disponibles dans un parking à proximité. »

Réponse affichée : « Nous n’avons pas de parking disponible sur place, mais nous serions heureux de vous aider à vérifier les places de stationnement disponibles à proximité. Veuillez contacter notre réception pour plus d’informations. »

Pour utiliser un exemple précis, voici les différences entre la réponse générée par GPT et une réponse contrôlée par Aplysia lorsqu’on lui demande « Savoy Palace tarifs parking » :

Llms 06 le saviez-vous : que sont les grands modèles de langage (llm) ?

La réponse apportée par la solution Aplysia de HiJiffy est la plus précise puisqu’elle correspond aux informations fournies par l’hôtel. La réponse de GPT pourrait se baser sur d’autres établissements de Savoy Signature, se référer à un parking avec des services supplémentaires (comme un voiturier, par exemple) ou être une information inventée.

Dans un autre exemple, GPT a donné une réponse inventée à une question sur « Contacts presse et partenariats de Savoy Palace » :

Llms 07 le saviez-vous : que sont les grands modèles de langage (llm) ?

En savoir plus sur notre IA

Si vous souhaitez en savoir plus sur les différentes technologies utilisées dans Aplysia, consultez notre section dédiée à notre intelligence artificielle, suivez HiJiffy sur LinkedIn et abonnez-vous à notre newsletter en pied de page.

Sources

Cet article est basé sur les contributions techniques de Vanda Azevedo de l’équipe IA chez HiJiffy.

Maciej Czajka

Brand, Content & Internal Communications Lead

Derniers Articles

Bleisure : quand les voyages d’affaires se transforment en expériences

Prenez une longueur d’avance sur la concurrence

Abonnez-vous à notre newsletter mensuelle et recevez gratuitement des ressources et des actualités sur les applications les plus innovantes de l’IA dans l’hôtellerie.

Le saviez-vous : que sont les Grands Modèles de Langage (LLM) ?

Qu’est-ce qu’un Grand Modèle de Langage (LLM) ?