Intelligence Artificielle

ChatGPT 4o vs Gemini 1.5 Pro: ce n'est même pas proche

Juin 14, 2024

OpenAI a présenté son modèle phare GPT-4o lors de l'événement Spring Update et l'a rendu gratuit pour tout le monde. Juste après une journée, lors de l'événement Google I/O 2024, Google a lancé le modèle Gemini 1.5 Pro destiné aux consommateurs via Gemini Advanced. Maintenant que deux modèles phares sont disponibles pour les consommateurs, comparons ChatGPT 4o et Gemini 1.5 Pro et voyons lequel fait le meilleur travail. Sur cette note, commençons.

Note: Pour garantir la cohérence, nous avons effectué tous nos tests sur Google AI Studio et Gemini Advanced. Tous deux hébergent le dernier modèle Gemini 1.5 Pro.

1. Calculer le temps de séchage

Nous avons effectué le test de raisonnement classique sur ChatGPT 4o et Gemini 1.5 Pro pour tester leur intelligence. ChatGPT 4o d'OpenAI a réussi tandis que le modèle amélioré Gemini 1.5 Pro avait du mal à comprendre la question piège. Il s’est lancé dans des calculs mathématiques et est parvenu à une conclusion erronée.

If it takes 1 hour to dry 15 towels under the Sun, how long will it take to dry 20 towels?

Gagnant: ChatGPT 4o

  • test de raisonnement sur chatgpt 4o
  • calculer le test de temps de séchage au soleil sur gemini 1.5 pro

2. Test d'ascenseur magique

Lors du test de l'ascenseur magique, le modèle précédent ChatGPT 4 n'avait pas réussi à deviner correctement la réponse. Cependant, cette fois, le modèle ChatGPT 4o a répondu avec la bonne réponse. Gemini 1.5 Pro a également généré la bonne réponse.

There is a tall building with a magic elevator in it. When stopping on an even floor, this elevator connects to floor 1 instead.
Starting on floor 1, I take the magic elevator 3 floors up. Exiting the elevator, I then use the stairs to go 3 floors up again.
Which floor do I end up on?

Gagnant: ChatGPT 4o et Gemini 1.5 Pro

  • test d'ascenseur magique sur chatgpt 4o
  • test d'ascenseur magique sur gemini 1.5 pro

3. Localisez la pomme

Dans ce test, Gemini 1.5 Pro n’a absolument pas réussi à comprendre les nuances de la question. Il semble que le modèle Gémeaux ne soit pas attentif et néglige de nombreux aspects clés de la question. D'un autre côté, ChatGPT 4o dit à juste titre que les pommes sont dans la boîte au sol. Félicitations à OpenAI!

There is a basket without a bottom in a box, which is on the ground. I put three apples into the basket and move the basket onto a table. Where are the apples?

Gagnant: ChatGPT 4o

  • un autre test de raisonnement sur chatgpt 4o
  • test de raisonnement sur gemini 1.5 pro

4. Qu'est-ce qui est le plus lourd ?

Dans ce test de raisonnement de bon sens, Gemini 1.5 Pro donne une mauvaise réponse et affirme que les deux pèsent le même poids. Mais ChatGPT 4o souligne à juste titre que les unités sont différentes, par conséquent, un kg de n'importe quel matériau pèsera plus d'une livre. Il semble que le modèle Gemini 1.5 Pro amélioré soit devenu plus stupide avec le temps.

What's heavier, a kilo of feathers or a pound of steel?

Gagnant: ChatGPT 4o

  • retrouvez le test des matériaux les plus lourds sur chatgpt 4o
  • retrouver le test de poids sur gemini 1.5 pro

5. Suivez les instructions de l'utilisateur

J'ai demandé à ChatGPT 4o et Gemini 1.5 Pro de générer 10 phrases se terminant par le mot « mangue ». Devinez quoi? ChatGPT 4o a généré correctement les 10 phrases, mais Gemini 1.5 Pro n'a pu générer que 6 de ces phrases.

Lire  L'IA générative de Google peut désormais résumer les articles pour vous

Avant GPT-4o, seul Llama 3 70B était capable de suivre correctement les instructions de l'utilisateur. L'ancien modèle GPT-4 était également en difficulté plus tôt. Cela signifie qu'OpenAI a effectivement amélioré son modèle.

Generate 10 sentences that end with the word "mango"

Gagnant: ChatGPT 4o

  • suivre les instructions de l'utilisateur tester chatgpt 4o
  • suivre le test des instructions utilisateur sur gemini 1.5 pro

6. Test d'images multimodales

François Fleuret, auteur du Petit Livre du Deep Learning, a réalisé un simple test d'analyse d'image sur ChatGPT 4o et a partagé les résultats sur X (anciennement Twitter). Il a maintenant supprimé le tweet pour éviter d'exagérer le problème, car il dit qu'il s'agit d'un problème général lié aux modèles de vision.

test d'image multimodale sur chatgpt 4o

Cela dit, j'ai effectué le même test sur Gemini 1.5 Pro et ChatGPT 4o de mon côté pour reproduire les résultats. Gemini 1.5 Pro a obtenu des résultats bien pires et a donné de mauvaises réponses à toutes les questions. ChatGPT 4o, en revanche, a donné une bonne réponse mais a échoué sur d'autres questions.

test multimodal sur gemini 1.5 pro

Il montre ensuite qu’il existe de nombreux domaines dans lesquels les modèles multimodaux doivent être améliorés. Je suis particulièrement déçu par la capacité multimodale de Gemini car elle semble loin d'être les bonnes réponses.

Gagnant: Aucun

7. Test de reconnaissance de caractères

Dans un autre test multimodal, j'ai téléchargé les spécifications de deux téléphones (Pixel 8a et Pixel 8) au format image. Je n'ai pas divulgué les noms de téléphone, et aucune des captures d'écran ne contenait de noms de téléphone. Maintenant, j'ai demandé à ChatGPT 4o de me dire quel téléphone dois-je acheter.

  • test de vision multimodal sur chatgpt 4o
  • test de vision multimodal sur chatgpt 4o

Il a réussi à extraire les textes des captures d'écran, à comparer les spécifications et à me dire correctement d'obtenir le téléphone 2, qui était en fait le Pixel 8. De plus, je lui ai demandé de deviner le téléphone, et encore une fois, ChatGPT 4o a généré la bonne réponse : Pixel 8. .

test de reconnaissance de caractères sur gemini 1.5 pro

J'ai fait le même test sur Gemini 1.5 Pro via Google AI Studio. À propos, Gemini Advanced ne prend pas encore en charge le téléchargement d’images par lots. En ce qui concerne les résultats, eh bien, il n’a tout simplement pas réussi à extraire les textes des deux captures d’écran et a continué à demander plus de détails. Dans des tests comme ceux-ci, vous constatez que Google est très en retard sur OpenAI lorsqu'il s'agit de faire avancer les choses de manière transparente.

Gagnant: ChatGPT 4o

Lire  Google Bard vs Microsoft Bing Chat : quelle IA est la plus intelligente ?

8. Créez un jeu

Maintenant, pour tester la capacité de codage de ChatGPT 4o et Gemini 1.5 Pro, j'ai demandé aux deux modèles de créer un jeu. J'ai téléchargé une capture d'écran du jeu Atari Breakout (bien sûr, sans divulguer le nom) et j'ai demandé à ChatGPT 4o de créer ce jeu en Python. En quelques secondes seulement, il a généré l’intégralité du code et m’a demandé d’installer une bibliothèque « pygame » supplémentaire.

  • créer un jeu python en utilisant chatgpt 4o
  • créer un jeu python en utilisant chatgpt 4o
  • créer un jeu python en utilisant chatgpt 4o
  • créer un jeu python en utilisant chatgpt 4o

J'ai installé la bibliothèque et exécuté le code avec Python. Le jeu s'est lancé avec succès sans aucune erreur. Incroyable! Aucun débogage aller-retour n’est nécessaire. En fait, j'ai demandé à ChatGPT 4o d'améliorer l'expérience en ajoutant un raccourci clavier Reprendre et il a rapidement ajouté la fonctionnalité. C'est plutôt cool.

créer un jeu avec gemini 1.5 pro

Ensuite, j'ai téléchargé la même image sur Gemini 1.5 Pro et lui ai demandé de générer le code pour ce jeu. Il a généré le code, mais lors de son exécution, la fenêtre a continué à se fermer. Je n'ai pas pu jouer du tout au jeu. En termes simples, pour les tâches de codage, ChatGPT 4o est beaucoup plus fiable que Gemini 1.5 Pro.

Gagnant: ChatGPT 4o

Le verdict

Il est évidemment clair que Gemini 1.5 Pro est loin derrière ChatGPT 4o. Même après avoir amélioré le modèle 1.5 Pro pendant des mois en avant-première, il ne peut pas rivaliser avec le dernier modèle GPT-4o d'OpenAI. Du raisonnement de bon sens aux tests multimodaux et de codage, ChatGPT 4o fonctionne intelligemment et suit attentivement les instructions. À ne pas manquer, OpenAI a rendu ChatGPT 4o gratuit pour tout le monde.

Lire  15 meilleures applications d'IA pour Android et iOS (gratuites et payantes)

La seule chose qui va avec Gemini 1.5 Pro est la fenêtre contextuelle massive prenant en charge jusqu'à 1 million de jetons. De plus, vous pouvez également télécharger des vidéos, ce qui constitue un avantage. Cependant, comme le modèle n'est pas très intelligent, je ne suis pas sûr que beaucoup aimeraient l'utiliser uniquement pour une fenêtre contextuelle plus large.

Lors de l'événement Google I/O 2024, Google n'a annoncé aucun nouveau modèle frontière. La société est coincée avec son modèle incrémentiel Gemini 1.5 Pro. Il n'y a aucune information sur Gemini 1.5 Ultra ou Gemini 2.0. Si Google doit rivaliser avec OpenAI, un bond substantiel est nécessaire.

Laisser un Commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *