Quand l’IAG génère du texte

Qu’est-ce qu’un grand modèle de langage ?

Mis à jour le dimanche 25 août 2024

Les grands modèles de langage (ou LLM en anglais pour « Large Language Model »), couplés à l’explosion de la puissance de calcul des cartes graphiques, ont révolutionné le domaine de l’intelligence artificielle en offrant la possibilité aux machines de comprendre et générer du langage humain de manière naturelle et fluide. Ces modèles, tels que GPT et BERT, ont ouvert un vaste univers des possibles au niveau de la création automatique de textes ou de dialogues conversationnels par exemple. En tant qu’enseignant, utiliser l’IA dans ses pratiques professionnelles nécessite d’en comprendre les grands principes de fonctionnement afin d’en faire un usage éclairé au service de la pédagogie et de la réussite de tous les élèves. Quel est le principe de fonctionnement des LLM ?

Une définition

Un grand modèle de langage ou LLM est une architecture d’intelligence artificielle conçue pour comprendre et générer du langage humain de manière fluide et naturelle. Ces modèles font souvent appel à des réseaux de neurones [1] profonds (deep learning) et sont pré-entraînés sur de vastes corpus de textes (big data) afin d’analyser les structures linguistiques d’un point de vue syntaxique et sémantique pour les modéliser.

Modélisation d’un neurone artificiel (perceptron)

Modélisation d’un neurone artificiel (perceptron) - Transciption

Schéma de la modélisation d’un neurone artificiel (perceptron).
Un neurone artificiel effectue la somme pondérée de toutes les entrées affectées d’un coefficient appelé poids. La fonction d’activation renvoie 1 si cette somme est supérieure ou égale à 1 et 0 sinon.

Réseau de neurones artificiels

Réseau de neurones artificiels - Transciption

Schéma d’un réseau de neurones artificiels.
Celui-ci est constitué d’une couche d’entrée, de plusieurs couches cachées et d’une couche de sortie. Chaque neurone d’une couche est relié à tous les neurones de la couche suivante.

Les réseaux de neurones sont des modèles informatiques inspirés du fonctionnement du cerveau humain. Ils sont composés de neurones artificiels qui traitent les informations en les faisant passer à travers des couches de connexion. Chaque connexion a un « poids » qui ajuste la force du signal entre les neurones. Lors de l’apprentissage, ces poids sont modifiés pour que le réseau de neurones puisse mieux effectuer une tâche spécifique, comme reconnaître des images ou comprendre du texte en minimisant l’erreur entre ses prédictions et les valeurs réelles. Avec suffisamment de données d’entraînement, le réseau de neurones peut faire des prédictions précises sur des nouvelles données qu’il n’a jamais vues auparavant.

D’une manière simplifiée les réseaux de neurones peuvent effectuer principalement deux types de tâches :

  • Régression linéaire
    La régression linéaire est une méthode statistique utilisée dans les réseaux de neurones pour prédire une valeur continue en fonction d’une ou plusieurs variables indépendantes. C’est un peu comme trouver la meilleure ligne droite qui passe à travers un nuage de points de données dans un graphique. Par exemple, elle peut être utilisée pour prédire le prix d’une maison en fonction de sa taille ou de son emplacement.
  • Classification
    La classification, est une tâche où le réseau de neurones est entraîné pour identifier à quelle catégorie appartient une entrée spécifique. Par exemple, un réseau de neurones peut être entraîné pour reconnaître si une image contient un chat ou un chien. Contrairement à la régression linéaire qui prédit des valeurs continues, la classification prédit des catégories discrètes.
Si vous avez envie de tester le principe de fonctionnement d’un réseau simplifié de neurones, rendez sur le « playground » de « tensorflow »

Les deux grandes familles

On distingue principalement deux grandes familles de grands modèles de langage (LLM).

En premier lieu, les autorégressifs, tels que GPT (Generative Pre-trained Transformer) qui prédisent statistiquement le mot suivant en s’appuyant sur ceux qui les précèdent, ce qui les rend particulièrement bien adaptés à la génération de texte.

En second lieu, on trouve les modèles dits bidirectionnels, comme BERT (Bidirectional Encoder Representations from Transformers) qui analysent la phrase entière, de gauche à droite et réciproquement, afin de compléter les « trous ».

Dans le cadre de la génération créative de textes, nous nous intéresserons par la suite aux modèles autorégressifs.

Voici quelques-uns des grands modèles de langage les plus performants au moment d’écrire cet article :

  • LLAMA3 (Meta ; Etats-Unis)
  • CLAUDE 3 (Anthropic ; Etats-Unis)
  • GPT-4 (Open AI ; Etats-Unis) ;
  • BARD (Google ; Etats-Unis)
  • MISTRAL Large (Mistral AI ; France)

[1Un neurone artificiel est une unité de base qui reçoit des entrées pondérées, les combine à l’aide de fonctions de sommation et d’activation, puis produit une sortie binaire de type 0 ou 1. Ils sont organisés en couches dans des réseaux de neurones profonds, permettant ainsi de modéliser des relations complexes entre les données d’entrées en apprenant, à partir des exemples fournis lors de la phase d’entraînement, à fournir en sortie la réponse non linéaire la plus probable.

Dans la même rubrique