IA générative : l’art du prompt

Lutter contre les biais de l’entraînement

Reflet de la culture anglo-saxonne

Mis à jour le dimanche 25 août 2024

Les grands modèles de langage (LLM) les plus populaires (ChatGPT, Copilot, Gemini, Llama 3) proposés par les GAFA sont quasiment tous entraînés sur des données anglo-saxonnes. Les réponses générées par ce type d’IA sont donc le reflet de la culture anglo-saxonne ce qui induit un biais lorsque le prompt est formulé en français par exemple...


La plateforme gouvernementale Compar:IA est une arène française de classement de modèles selon les préférences humaines. Elle permet d’interroger deux modèles de langage conversationnel pour des tâches exprimées en français et de comparer les résultats. Les utilisateurs posent des questions en français et reçoivent des réponses de deux LLM anonymes. Ils votent alors pour le modèle qui fournit la réponse la plus adaptée, apprenant ainsi l’identité du modèle.

Compar:IA, répond à un double objectif :
  • Améliorer la qualité des modèles de langage conversationnels sur les usages francophones ;
  • Faciliter l’accès aux IA génératives et encourager l’esprit critique des utilisateurs en rendant effectif un droit au « pluralisme des modèles ».
Tableau comparant l’impact énergétique de deux modèles d’IA - www.comparia.beta.gouv.fr

Tableau comparant l’impact énergétique de deux modèles d’IA - Transciption

OpenAI/GPT-4o mini
Le plus petit des deux modèles sur lesquels repose ChatGPT d’OpenAI, lancé en juillet 2024.
Impact énergétique de la discussion :
 Taille du modèle : 35 milliards paramètres
 Taille du texte : 396 tokens
 Energie consommée : 1.83 Wh
Ce qui correspond à :
 1.83 g de CO2 émis
 35 min de fonctionnement d’une ampoule LED
 3 min de fonctionnement d’une vidéo en ligne

Meta/Llama 3.1 405B
Sorti en juillet 2024, ce modèle est le plus grand modèle de la série Llama de Meta, optimisé pour des tâches complexes de programmation, de mathématique et de raisonnement.
Impact énergétique de la discussion :
 Taille du modèle : 405 milliards paramètres
 Taille du texte : 377 tokens
 Energie consommée : 55 Wh
Ce qui correspond à :
 55 g de CO2 émis ;
 17h00 de fonctionnement d’une ampoule LED ;
 1h00 de fonctionnement d’une vidéo en ligne.

Cette plateforme permet également d’accéder à l’impact énergétique de la requête en fonction du modèle d’IA utilisé et du nombre de « tokens », c’est-à-dire le nombre d’unités de texte (mot entier, partie de mot, caractère ou espace) utilisées pour le traitement et la génération de langage.

Dans la même rubrique