LLM

Un LLM (Large Language Model) est un modèle de langage de grande taille.

Il est capable de générer du texte et d'effectuer des tâches de traitement du langage naturel telles que :

Le plus connu des LLM propriètaires est GPT-4, développé par OpenAI.

Il existe aussi des LLM open-source comme Mistral de Mistral.ai ou LLama3 de Meta.

Chaque modèle a une taille différente (7B, 13B, 34B, 70B, 110B, 400B), qui correspond au nombre de milliards de paramètres qu'il possède.

Pour vulgariser, le nombre de paramètres est l'équivalent du QI d'un modèle.

Plus le modèle est grand et plus cela demande de ressources GPU/RAM pour l'utiliser.

Aussi, chaque LLM a une fenêtre de contexte (Context window) qui correspond au nombre de tokens que peut prendre le modèle en entrée.

Par exemple :

Grâce à une fenêtre de contexte plus grande, le modèle peut par exemple prendre un livre entier en entrée et générer un texte qui a du sens.

Références :