LLM – Large Language Model
Dans cette vidéo sont présentés les LLMs, ou grands modèles de langue. Ce sont notamment ces outils qui font fonctionner ChatGPT. Pensez à la façon dont un enfant apprend à parler. Dans un premier temps, il va énormément écouter ce qui se dit autour de lui. Et dans un second temps, par mimétisme, il va se mettre à parler. Les LLM ont une approche très similaire. Ce sont des réseaux de neurones qui imitent le fonctionnement du cerveau. Ils vont être formés ou entraînés en lisant d’importantes quantités de textes, issus en grande majorité d’Internet.
L’un des principaux challenges est de garder le même niveau de performance tout en réduisant considérablement le nombre de paramètres.
Vous pouvez penser à des sites comme Wikipedia ou des grands sites d’actualité.
Donc on écrit un texte, il va chercher à générer plusieurs séquences possibles qui sont plusieurs suites possibles. Il va utiliser ce qu’il a appris pour déterminer la suite la plus probable. Concrètement, si on écrit « donner », le champ des possibles est extrêmement vaste. Mais si l’on donne plus de contexte, et que l’on écrit « donner sa langue », le champ des possibles se réduit énormément et il est très probable que l’on obtienne « donner sa langue au chat ».
Les LLM sont donc des modèles mathématiques et probabilistes qui reposent sur beaucoup de paramètres. Par exemple, GPT 3, qui faisait tourner la première version de ChatGPT, reposait sur 175 milliards de paramètres et GPT 4, leur dernier modèle en date, repose sur 1000 fois plus de paramètres.
L’un des principaux challenges, relatif au développement, de ces LLM, est de garder le même niveau de performance tout en réduisant considérablement le nombre de paramètres. En effet, le coût écologique et énergétique de l’entrainement de ces modèles est très important.
Wassym Kalouache
A lire aussi sur Hello Future

Deepfakes : des méthodes de détection en progrès, mais limitées
Découvrir
IA générative : une menace croissante sur les SI
Découvrir
Les agents IA pourraient automatiser davantage certains métiers
Découvrir
Devoxx France : « L’IA marque une deuxième révolution dans le monde du test »
Découvrir
Biodiversité des lacs : l’IA multimodale permet d’exploiter l’ADNe pour suivre la pollution
Découvrir
Manipulation, défiance et adoption : les paradoxes de l’IA en entreprise
Découvrir
Contrefaçon : un modèle d’IA capable de voir les anomalies dans les conteneurs
Découvrir