Amazon présente de nouvelles puces pour former et exécuter des modèles d'IA

Il y a une pénurie de GPU à mesure que la demande d’IA générative pour la formation et l’exécution augmente. Les puces les plus performantes de Nvidia, selon les rapports, sont en rupture de stock jusqu'en 2024. Le PDG du fabricant de puces TSMC s'est montré moins optimiste récemment, indiquant que la pénurie de GPU chez Nvidia, ainsi que chez ses concurrents, pourrait se prolonger jusqu'en 2025.

Pour réduire leur dépendance aux GPU, les entreprises qui peuvent se le permettre (c'est-à-dire les géants de la technologie) développent (et dans certains cas mettent à la disposition des clients) des puces personnalisées conçues pour créer, itérer et produire des modèles d'IA. L'une de ces sociétés est Amazon, qui, lors de sa conférence annuelle re:Invent, a dévoilé la dernière génération de ses puces pour la formation et l'inférence de modèles, c'est-à-dire l'exécution de modèles formés.

Le premier des deux, AWS Trainium2, est conçu pour offrir des performances jusqu'à 4 fois supérieures et une efficacité énergétique 2 fois supérieure à celles du Trainium de première génération, introduit en décembre 2020, prédit Amazon. Tranium2, qui sera disponible sur les instances EC Trn2 par groupes de 16 puces dans le cloud AWS, peut évoluer jusqu'à 100.000 2 puces dans le produit AWS ECXNUMX UltraCluster.

Selon Amazon, 100.000 65 puces Trainium offrent 650 exaflops de calcul, ce qui équivaut à 2 téraflops pour une seule puce. Les « exaflops » et les « téraflops » mesurent le nombre d'opérations informatiques par seconde qu'une puce peut effectuer. Il existe probablement des facteurs complexes qui font que ces calculs simples ne sont pas nécessairement aussi précis. Mais en supposant qu'une seule puce Tranium200 puisse fournir environ XNUMX téraflops de performances, cela signifie sont au-dessus de la capacité des puces de formation IA personnalisées de Google à partir de 2017 environ.

Amazon affirme qu'un cluster de 100.000 300 puces Trainium peut former un grand modèle de langage d'IA avec 1,75 milliards de paramètres en quelques semaines au lieu de plusieurs mois. (« Les paramètres » sont les parties d'un modèle apprises à partir des données d'entraînement et définissent essentiellement la capacité du modèle à résoudre un problème, tel que la génération de texte ou de code.) Cela représente environ 3 fois la taille du GPT-4 d'OpenAI, le prédécesseur du générateur de texte GPT-XNUMX.

"Le silicium sous-tend chaque charge de travail client, ce qui en fait un domaine d'innovation critique pour AWS", a déclaré David Brown, vice-président de l'informatique et des réseaux d'AWS, dans un communiqué de presse. "Avec l'intérêt croissant pour l'IA générative, Tranium2 aidera les clients à former leurs modèles ML plus rapidement, à moindre coût et avec une meilleure efficacité énergétique."

Amazon n'a pas précisé quand les instances Trainium2 seraient disponibles pour les clients AWS, sauf "au cours de l'année prochaine".

La deuxième puce annoncée par Amazon, la basé sur ARM Graviton4, est destiné à l'inférence. La quatrième génération de la famille de puces Graviton d'Amazon (comme l'indique le « 4 » attaché à « Graviton ») est distincte de l'autre puce d'inférence d'Amazon, Inferentia.

Amazon affirme que Graviton4 offre jusqu'à 30 % de performances informatiques en plus, 50 % de cœurs en plus et 75 % de bande passante mémoire en plus qu'un processeur Graviton de génération précédente, Graviton3 (mais pas le plus récent Graviton3E), qui fonctionne sur Amazon EC2. Dans une autre mise à jour de Graviton3, toutes les interfaces matérielles physiques de Graviton4 sont « cryptées », déclare Amazon, protégeant apparemment mieux les charges de travail d'IA et les données de formation pour les clients ayant des exigences de cryptage plus élevées.

"Graviton4 marque la quatrième génération que nous livrons en seulement cinq ans et constitue la puce la plus puissante et la plus économe en énergie que nous ayons jamais construite pour un large éventail de charges de travail", a poursuivi Brown dans un communiqué. En concentrant nos conceptions de puces sur des charges de travail réelles qui comptent pour nos clients, nous pouvons leur offrir le infrastructure cloud plus avancé.

Graviton4 sera disponible sur les instances Amazon EC2 R8g, déjà disponibles en avant-première et dont la disponibilité générale est prévue dans les mois à venir.

article précédent

AWS vous permet de louer des GPU Nvidia pour des projets d'IA rapides

suivant >>

Spotify supprime 17% d'emplois alors que les coûts d'investissement augmentent

S'INSCRIT

Laisser une réponse Annuler la réponse

S'il vous plaît entrez votre commentaire!

Veuillez entrer votre nom ici

Vous avez entré une adresse e-mail incorrecte !

Veuillez entrer votre adresse e-mail ici

La modération des commentaires est activée. Votre commentaire peut mettre un certain temps à apparaître.

Ce site utilise Akismet pour réduire les spams. Découvrez comment vos données de commentaire sont traitées.

Amazon présente de nouvelles puces pour former et exécuter des modèles d'IA

Laisser une réponse Annuler la réponse

ABONNEZ-VOUS SUR TRPLANE.COM

Publier sur TRPlane.com

PLUS DE PUBLICATIONS