Intelligence Artificielle

Anthropic annonce les modèles d'IA Claude 3; Bat GPT-4 et Gemini 1.0 Ultra

Juin 29, 2024

Une autre semaine, un autre modèle d'IA a dépassé GPT-4, du moins sur les benchmarks. Cette fois, il s'agit d'Anthropic, la société formée par Daniela et Dario Amodei, anciens membres d'OpenAI, frères et sœurs. La société a lancé une famille de modèles Claude 3 comprenant les modèles Opus (le plus grand et le plus performant), Sonnet (de taille moyenne) et Haiku (le plus petit). Anthropic affirme que le modèle Claude 3 Opus bat GPT-4 et Gemini 1.0 Ultra sur tous les benchmarks populaires.

Claude 3 Repères

Anthropic a testé les trois modèles sur des benchmarks populaires tels que MMLU, GPQA, GSM8K, MATH, HumanEval, HellaSwag, etc. Sur MMLU, Claude 3 Opus a obtenu 86,8% tandis que GPT-4 a un score déclaré de 86,4 %. Gemini 1.0 Ultra a obtenu 83,7 % sur la même technique d'invite à 5 coups.

claude 3 vs gpt-4 vs gemini ultra benchmarks
Courtoisie d’image: Anthropique

Sur le benchmark HumanEval qui teste la capacité de codage, le plus grand modèle Opus a obtenu 84,9%, bien supérieur aux 67% de GPT-4 et aux 74,4% de Gemini 1.0 Ultra. Le modèle Clade 3 Opus a même battu le GPT-4 lors du test HellaSwag mais avec une légère marge. Il a obtenu un score de 95,4%, tandis que GPT-4 a obtenu un score de 95,3% et Gemini 1.0 Ultra un score de 87,8%.

Capacités de Claude 3

Dans l'ensemble, le plus grand modèle Claude 3 Opus semble très prometteur et nous allons certainement le tester avec GPT-4, Gemini 1.5 Pro et Mistral Large, alors restez à l'écoute avec nous. En dehors de cela, Anthropic affirme que les trois modèles ont de grandes capacités d'analyse et de prévision, de création de contenu nuancé, de génération de code et de maîtrise de langues internationales telles que Espagnol, japonais et français.

capacité de vision de l'opus
Courtoisie d’image: Anthropique

Les modèles Claude 3 ont également une capacité de vision, cependant, Anthropic ne les commercialise pas en tant que modèles multimodaux. Anthropic affirme que la capacité de vision de Claude 3 peut aider les entreprises clientes à traiter des tableaux, des graphiques et des diagrammes techniques. Sur les benchmarks, il fait mieux que GPT-4V mais est légèrement en retard par rapport à Gemini 1.0 Ultra.

Longueur du contexte 200000

En termes de longueur de contexte, Anthropic indique que les trois modèles offriront initialement une fenêtre contextuelle de 200 000 jetons, ce qui est assez grand, je dois le dire. De plus, l'entreprise affirme que les modèles de la famille Claude 3 peuvent traiter plus d'un million de jetonsToutefois, cette fonctionnalité ne sera disponible que pour certains clients.

test opus niah
Courtoisie d’image: Anthropique

Lors du test Needle In A Haystack (NIAH) avec plus de 200 000 jetons, le modèle Opus s'est exceptionnellement bien comporté avec Récupération précise à plus de 99%, tout comme Gemini 1.5 Pro. Claude a été l'un des meilleurs modèles d'IA pour la récupération de contexte long, et les performances se sont considérablement améliorées avec Claude 3.

Performances et prix

En ce qui concerne les performances, Anthropic déclare que les modèles Claude 3 sont assez rapides et que le plus grand modèle Opus offre les mêmes performances que Claude 2 et 2.1, mais avec une meilleure intelligence. Le modèle Sonnet de taille moyenne est presque 2x plus rapide que Claude 2 et 2.1. En plus de cela, Anthropic mentionne que les modèles Claude 3 sont nettement moins susceptibles de refuser de répondre, ce qui était un problème dans les modèles précédents.

Lire  15 meilleurs plugins ChatGPT que vous devriez utiliser dès maintenant

Vous pouvez commencer à utiliser le modèle phare Opus en vous abonnant à Claude Pro qui coûte 23,60 $ après impôts. Et le Claude 3 Sonnet intermédiaire est déjà déployé sur la version gratuite de claude.ai (visite). Enfin, les développeurs peuvent accéder immédiatement aux API des modèles Opus et Sonnet.

tarification de l'API Claude3
Courtoisie d’image: Anthropique

Quant au prix de l'API, Claude 3 Opus avec une fenêtre contextuelle de 200 Ko coûte 15 $ par million de jetons (entrée) et 75 $ par million de jetons (sortie). En comparaison avec GPT-4 Turbo (10 $ d'entrée / 30 $ de sortie avec un contexte de 128 Ko), le prix semble assez cher.

Néanmoins, que pensez-vous de la nouvelle famille de modèles lancée par Anthropic, notamment le modèle Opus ? Faites-nous savoir dans la section commentaire ci-dessous.

Laisser un Commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *