Quand l’IAG génère du texte

Qu’est-ce qu’un grand modèle de langage ?

Mis à jour le lundi 25 août 2024

Les grands modèles de langage (ou LLM en anglais pour « Large Language Model »), couplés à l’explosion de la puissance de calcul des cartes graphiques, ont révolutionné le domaine de l’intelligence artificielle en offrant la possibilité aux machines de comprendre et générer du langage humain de manière naturelle et fluide. Ces modèles, tels que GPT et BERT, ont ouvert un vaste univers des possibles au niveau de la création automatique de textes ou de dialogues conversationnels par exemple. En tant qu’enseignant, utiliser l’IA dans ses pratiques professionnelles nécessite d’en comprendre les grands principes de fonctionnement afin d’en faire un usage éclairé au service de la pédagogie et de la réussite de tous les élèves. Quel est le principe de fonctionnement des LLM ?

Une définition

Un grand modèle de langage ou LLM est une architecture d’intelligence artificielle conçue pour comprendre et générer du langage humain de manière fluide et naturelle. Ces modèles font souvent appel à des réseaux de neurones [1] profonds (deep learning) et sont pré-entraînés sur de vastes corpus de textes (big data) afin d’analyser les structures linguistiques d’un point de vue syntaxique et sémantique pour les modéliser.

Modélisation d’un neurone artificiel (perceptron)

Réseau de neurones artificiels

Les réseaux de neurones sont des modèles informatiques inspirés du fonctionnement du cerveau humain. Ils sont composés de neurones artificiels qui traitent les informations en les faisant passer à travers des couches de connexion. Chaque connexion a un « poids » qui ajuste la force du signal entre les neurones. Lors de l’apprentissage, ces poids sont modifiés pour que le réseau de neurones puisse mieux effectuer une tâche spécifique, comme reconnaître des images ou comprendre du texte en minimisant l’erreur entre ses prédictions et les valeurs réelles. Avec suffisamment de données d’entraînement, le réseau de neurones peut faire des prédictions précises sur des nouvelles données qu’il n’a jamais vues auparavant.

D’une manière simplifiée les réseaux de neurones peuvent effectuer principalement deux types de tâches :

Régression linéaire
La régression linéaire est une méthode statistique utilisée dans les réseaux de neurones pour prédire une valeur continue en fonction d’une ou plusieurs variables indépendantes. C’est un peu comme trouver la meilleure ligne droite qui passe à travers un nuage de points de données dans un graphique. Par exemple, elle peut être utilisée pour prédire le prix d’une maison en fonction de sa taille ou de son emplacement.
Classification
La classification, est une tâche où le réseau de neurones est entraîné pour identifier à quelle catégorie appartient une entrée spécifique. Par exemple, un réseau de neurones peut être entraîné pour reconnaître si une image contient un chat ou un chien. Contrairement à la régression linéaire qui prédit des valeurs continues, la classification prédit des catégories discrètes.

Si vous avez envie de tester le principe de fonctionnement d’un réseau simplifié de neurones, rendez sur le « playground » de « tensorflow »

Les deux grandes familles

On distingue principalement deux grandes familles de grands modèles de langage (LLM).

En premier lieu, les autorégressifs, tels que GPT (Generative Pre-trained Transformer) qui prédisent statistiquement le mot suivant en s’appuyant sur ceux qui les précèdent, ce qui les rend particulièrement bien adaptés à la génération de texte.

En second lieu, on trouve les modèles dits bidirectionnels, comme BERT (Bidirectional Encoder Representations from Transformers) qui analysent la phrase entière, de gauche à droite et réciproquement, afin de compléter les « trous ».

Dans le cadre de la génération créative de textes, nous nous intéresserons par la suite aux modèles autorégressifs.

Voici quelques-uns des grands modèles de langage les plus performants au moment d’écrire cet article :

LLAMA3 (Meta ; Etats-Unis)
CLAUDE 3 (Anthropic ; Etats-Unis)
GPT-4 (Open AI ; Etats-Unis) ;
BARD (Google ; Etats-Unis)
MISTRAL Large (Mistral AI ; France)

[1] Un neurone artificiel est une unité de base qui reçoit des entrées pondérées, les combine à l’aide de fonctions de sommation et d’activation, puis produit une sortie binaire de type 0 ou 1. Ils sont organisés en couches dans des réseaux de neurones profonds, permettant ainsi de modéliser des relations complexes entre les données d’entrées en apprenant, à partir des exemples fournis lors de la phase d’entraînement, à fournir en sortie la réponse non linéaire la plus probable.

Les acteurs

Une équipe à vos cotés

Les ressources à votre disposition

Un réseau fait pour vous

Des partenaires à vos côtés

Les enjeux

2 priorités

S’informer

Évènements

Évènements

Les brèves nationales

Les brèves nationales

Les news des éditeurs

Les news des éditeurs

Les pépites pédagogiques

Les pépites pédagogiques

Se former

L’offre de formation

En autoformation

Les mini séries de la Drane

Recherche

Enseigner

Au quotidien

Au quotidien

En projet

En projet

En expérimentation

Quand l’IAG génère du texte

Qu’est-ce qu’un grand modèle de langage ?

Une définition

Les deux grandes familles

Dans la même rubrique

Qu’est-ce qu’un token ?

Interprétation des mots par une IA générative

Les IA génératives sont-elles dotées d’intelligence ou pas ?

AB

AB

Les enjeux

2 priorités

S’informer

Enseigner

En expérimentation

Quand l’IAG génère du texte

Qu’est-ce qu’un grand modèle de langage ?

Une définition

Modélisation d’un neurone artificiel (perceptron) - Transciption

Réseau de neurones artificiels - Transciption

Les deux grandes familles

Dans la même rubrique

AB

AB