Intelligence Artificielle

Rencontrez Groq, un accélérateur d'IA ultra-rapide qui bat ChatGPT et Gemini

Juin 27, 2024

En utilisant ChatGPT, en particulier avec le modèle GPT-4, vous avez dû remarquer la lenteur avec laquelle le modèle répond aux requêtes. Sans oublier que les assistants vocaux basés sur de grands modèles de langage comme la fonctionnalité de chat vocal de ChatGPT ou la récente Gemini AI, qui a remplacé Google Assistant sur les téléphones Android, sont encore plus lents en raison de la latence élevée des LLM. Mais tout cela va probablement changer bientôt, grâce au nouveau puissant moteur d'inférence LPU (Language Processing Unit) de Groq.

Groq a pris le monde par surprise. Attention, il ne s'agit pas du Grok d'Elon Musk, qui est un modèle d'IA disponible sur X (anciennement Twitter). Le moteur d'inférence LPU de Groq peut générer un énorme 500 jetons par seconde lors de l'exécution d'un modèle 7B. Cela revient à environ 250 jetons par seconde lors de l’exécution d’un modèle 70B. On est loin du ChatGPT d'OpenAI, qui fonctionne sur des puces Nvidia alimentées par GPU et offrant environ 30 à 60 jetons par seconde.

Groq est construit par d'anciens ingénieurs TPU de Google

Groq n'est pas un chatbot IA mais une puce d'inférence IA, et il est en concurrence avec des géants de l'industrie comme Nvidia dans le domaine du matériel IA. C'était co-fondé par Jonathan Ross en 2016qui, alors qu'il travaillait chez Google, a cofondé l'équipe chargée de créer la première puce TPU (Tensor Processing Unit) de Google pour l'apprentissage automatique.

Plus tard, de nombreux employés ont quitté l'équipe TPU de Google et ont créé Groq pour construire du matériel pour l'informatique de nouvelle génération.

Qu'est-ce que le LPU de Groq?

La raison pour laquelle le moteur LPU de Groq est si rapide par rapport à des acteurs établis comme Nvidia est qu'il repose entièrement sur un type d'approche différent.

Selon le PDG Jonathan Ross, Groq d'abord créé la pile logicielle et le compilateur puis conçu le silicium. Il s'est appuyé sur l'état d'esprit axé sur le logiciel pour rendre les performances « déterministes » – un concept clé pour obtenir des résultats rapides, précis et prévisibles dans l'inférence de l'IA.

Lire  Google Bard AI est désormais ouvert à tous; Essayez-le dès maintenant!

Quant à l'architecture LPU de Groq, elle est similaire à la façon dont un Puce ASIC (Circuit intégré spécifique à une application) fonctionne et est développé sur un nœud de 14 nm. Ce n'est pas une puce à usage général pour toutes sortes de tâches complexes, c'est conçu sur mesure pour une tâche spécifique, qui, dans ce cas, traite des séquences de données dans de grands modèles de langage. Les CPU et les GPU, en revanche, peuvent faire bien plus, mais entraînent également des retards de performances et une latence accrue.

Et grâce au compilateur sur mesure qui sait exactement comment fonctionne le cycle d’instructions dans la puce, la latence est considérablement réduite. Le compilateur prend les instructions et les affecte au bon endroit, réduisant encore davantage la latence. Sans oublier, chaque puce Groq LPU est livré avec 230 Mo de SRAM intégrée pour offrir des performances élevées et une faible latence avec une bien meilleure efficacité.

En ce qui concerne la question de savoir si les puces Groq peuvent être utilisées pour entraîner des modèles d'IA, comme je l'ai dit ci-dessus, elles sont spécialement conçues pour l'inférence d'IA. Il ne dispose pas de mémoire à large bande passante (HBM), nécessaire à la formation et au réglage fin des modèles.

Groq déclare également que la mémoire HBM conduit à une non-détermination de l'ensemble du système, ce qui ajoute à une latence accrue. Alors non, tu je ne peux pas entraîner de modèles d'IA sur les LPU Groq.

Lire  15 meilleurs plugins ChatGPT que vous devriez utiliser dès maintenant

Nous avons testé le moteur d'inférence LPU de Groq

Vous pouvez vous rendre sur le site Web de Groq (visite) pour découvrir des performances ultra-rapides sans nécessiter de compte ou d'abonnement. Actuellement, il héberge deux modèles d'IA, dont Llama 70B et Mixtral-8x7B. Pour vérifier les performances LPU de Groq, nous avons exécuté quelques invites sur le Mixtral-8x7B-32K modèle, qui est l’un des meilleurs modèles open source.

Rencontrez Groq, un accélérateur d'IA ultra-rapide qui bat ChatGPT et Gemini

Le LPU de Groq a généré un excellent rendement à un vitesse de 527 jetons par seconde, ne prenant que 1,57 seconde pour générer 868 jetons (3846 caractères) sur un modèle 7B. Sur un modèle 70B, sa vitesse est réduite à 275 jetons par seconde, mais elle reste bien supérieure à celle de la concurrence.

jetons chatgpt par seconde

Pour comparer les performances de l'accélérateur d'IA de Groq, nous avons effectué le même test sur ChatGPT (GPT-3.5, un modèle 175B) et nous avons calculé les mesures de performances manuellement. ChatGPT, qui utilise les GPU Tensor-core de pointe de Nvidia, a généré une sortie à une vitesse de 61 jetons par secondeprenant 9 secondes pour générer 557 jetons (3090 caractères).

jetons Gémeaux par seconde

Pour une meilleure comparaison, nous avons fait le même test sur la version gratuite de Gemini (propulsée par Gemini Pro) qui fonctionne sur l'accélérateur Cloud TPU v5e de Google. Google n'a pas divulgué la taille du modèle Gemini Pro. Sa vitesse était 56 jetons par secondeprenant 15 secondes pour générer 845 jetons (4428 caractères).

En comparaison avec d'autres prestataires de services, le projet Ray a réalisé un vaste travail Test LLMPerf et a constaté que Groq fonctionnait bien mieux que les autres fournisseurs.

jetons par seconde vitesse de groq
Image fournie avec l'aimable autorisation: Ray-project / GitHub.com

Bien que nous ne l'ayons pas testé, les LPU Groq travailler avec des modèles de diffusion, et pas seulement des modèles de langage. Selon la démo, il peut générer différents styles d'images à 1024 pixels en moins d'une seconde. C'est assez remarquable.

Lire  12 meilleurs générateurs de headshots IA que vous devriez essayer en 2024

Groq contre Nvidia : que dit Groq ?

Dans un rapport, Groq affirme que ses LPU sont évolutif et peuvent être reliés entre eux à l'aide d'une interconnexion optique sur 264 jetons. Il peut encore être mis à l'échelle à l'aide de commutateurs, mais cela augmentera la latence. Selon le PDG Jonathan Ross, la société développe des clusters pouvant évoluer sur 4 128 puces qui seront commercialisées en 2025, et sont développés sur le nœud de processus 4 nm de Samsung.

Dans un test de référence effectué par Groq en utilisant 576 LPU sur un modèle 70B Llama 2, il a effectué l'inférence de l'IA en un dixième du temps pris par un cluster de GPU Nvidia H100.

De plus, les GPU Nvidia ont besoin de 10 à 30 joules d'énergie pour générer des jetons en réponse alors que Groq ne fait que cela. a pris 1 joule à 3 joules. En résumé, la société affirme que les LPU Groq offrent une vitesse 10 fois supérieure, pour les tâches d'inférence d'IA, à 1/10ème du coût des GPU Nvidia.

Qu'est-ce que cela signifie pour les utilisateurs finaux ?

Dans l’ensemble, il s’agit d’un développement passionnant dans le domaine de l’IA, et avec l’introduction des LPU, les utilisateurs vont expérimenter des interactions instantanées avec les systèmes d’IA. La réduction significative du temps d'inférence permet aux utilisateurs de jouez instantanément avec les systèmes multimodaux tout en utilisant la voix, en alimentant des images ou en générant des images.

Groq offre déjà un accès API aux développeurs, alors attendez-vous bientôt à de bien meilleures performances des modèles d'IA. Alors, que pensez-vous du développement des LPU dans le domaine du matériel IA? Faites-nous part de votre opinion dans la section commentaires ci-dessous.

Laisser un Commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *