TransferEngine : L’outil de Perplexity qui redéfinit l’exécution des LLM sur d’anciens GPU

Perplexity, un fournisseur novateur dans le domaine de l’intelligence artificielle, a récemment lancé un outil open source nommé TransferEngine. Cet outil permet l’exécution de modèles de langage à grande échelle (LLM) sur des GPU relativement anciens comme les Nvidia H100 et H200, marquant ainsi une avancée significative dans la gestion des ressources matérielles pour les applications d’IA.

Un défi majeur sur le marché de l’IA

Le principal problème auquel sont confrontées de nombreuses entreprises est la dépendance à un unique fournisseur de cloud pour leurs capacités d’IA, ainsi que la nécessité de déployer des matériels coûteux de dernière génération. TransferEngine se positionne comme une solution pour rompre ce verrouillage, permettant aux entreprises de faire fonctionner des modèles complexes sans avoir à investir dans des infrastructures prohibitivement coûteuses.

Ce logiciel joue un rôle crucial dans la facilitation d’une communication rapide et efficace entre différents GPU de différents fournisseurs cloud. En effet, les dernières avancées dans les LLM requièrent une communication flexible et rapide, notamment avec des techniques telles que l’inférence désagrégée et le routage de mélanges d’experts.

Une technologie d’avant-garde

TransferEngine fonctionne comme un « traducteur universel » pour la communication entre GPU, établissant une interface commune qui simplifie les interactions entre divers composants réseau. En exploitant la méthode RDMA (Remote Direct Memory Access), il permet le transfert direct de données entre les cartes graphiques, réduisant considérablement les besoins de traitement par des processeurs centraux.

En utilisant plusieurs cartes réseau pour chaque GPU, TransferEngine agrège également la bande passante, aboutissant à une vitesse de communication exceptionnelle de 400 gigabits par seconde sur des systèmes spécifiques, ce qui est crucial pour le bon fonctionnement des LLM.

Des résultats prometteurs en pratique

Perplexity ne se limite pas à proposer une solution théorique : la société déploie déjà TransferEngine dans des environnements de production, optimisant l’inférence désagrégée et l’apprentissage par renforcement. Ce système permet une mise à jour rapide des modèles de plusieurs trillions de paramètres, réduisant le temps de latence à des niveaux remarquablement bas.

En utilisant cet outil, Perplexity a démontré des gains de performance notables lors de l’exécution de modèles complexes sur des instances AWS, avec des résultats impressionnants en matière de répartition de charge.

L’ouverture à la communauté comme stratégie

L’une des décisions les plus marquantes de Perplexity a été de rendre TransferEngine open source, contrastant avec la stratégie plus fermée de certains de ses concurrents majeurs, tels qu’OpenAI. Cette approche vise non seulement à établir un standard industriel, mais également à encourager l’innovation à travers la collaboration communautaire.

Pour plus de détails, vous pouvez lire l’article complet sur le site de Le Monde Informatique ici.

Cet outil révolutionnaire pourrait transformer la manière dont les entreprises traitent les tâches d’intelligence artificielle, en rendant plus accessible l’exécution de modèles complexes sans les coûts prohibitifs associés aux technologies de pointe. L’avenir de l’IA pourrait bien dépendre de solutions comme TransferEngine.

TransferEngine : L’outil de Perplexity qui redéfinit l’exécution des LLM sur d’anciens GPU