Trop d’entraînement est néfaste pour les LLM : Une Réévaluation Nécessaire

Dans le domaine des modèles de langage, la sagesse conventionnelle a souvent prôné l’idée que plus nous entraînons un modèle sur des données, meilleures seront ses performances. Cependant, une étude récente met cette croyance en question, révélant que le surentraînement peut en réalité dégrader les performances des modèles de langage de grande taille (LLM).

Un groupe de chercheurs de Carnegie Mellon, Stanford, Harvard et Princeton a mené une analyse approfondie sur les effets du pré-entraînement prolongé des LLM. Leurs résultats, repris d’un rapport publié sur arXiv, montrent que le surentraînement catastrophique peut survenir lorsque les modèles sont formés sur des quantités excessives de données, ce qui les rend plus difficiles à affiner lors de la phase de « fine tuning ». Ce phénomène contredit l’idée largement répandue qui considère que l’augmentation des données d’entraînement est synonyme d’amélioration des performances.

Prenons l’exemple d’Anthropic-HH : le modèle OLMo-1B, lorsqu’il est pré-entraîné sur 3 trillions de tokens, a démontré des performances inférieures de plus de 2 % par rapport à sa version entraînée sur 2,3 trillions de tokens lors d’évaluations sur des benchmarks standards. Les chercheurs concluent que ce déclin des performances résulte d’une sensibilité excessive des paramètres pré-entraînés aux modifications apportées durant le fine tuning, ce qui nuit à leur efficacité générale.

Cette étude appelle à une réévaluation critique des méthodes de conception du pré-entraînement, en soulignant la nécessité de considérer comment les modèles s’adaptent lorsqu’ils sont soumis à des affinements. En somme, la notion que trop c’est trop s’applique ici, et les concepteurs de LLM doivent désormais tenir compte de ce nouvel éclairage pour améliorer leurs processus d’entraînement.

Pour plus de détails, vous pouvez consulter l’article complet sur Le Monde Informatique.

Cet article met en lumière un aspect crucial du développement des modèles d’IA, et incite à réfléchir sur la manière dont nous préparons ces systèmes intelligents pour qu’ils soient à la fois performants et efficaces.