Tout le monde s’attendait à ce que Google dévoile un jour une IA capable de surpasser ChatGPT. Google Bard n’était qu’un brouillon : voici Gemini, le nouveau modèle de langage de grande taille (LLM) qui risque de faire parler de lui dans les prochains mois. On vous dit tout à son sujet.
Google ne cesse d’innover dans le domaine de l’intelligence artificielle (IA). Après avoir lancé Google Bard, son agent conversationnel basé sur le moteur LaMDA, la firme de Mountain View vient de dévoiler Gemini, son nouveau modèle de langage (LLM) qui bat ChatGPT sur presque tous les plans, avec en plus une compréhension impressionnante de son environnement.
🤔 L’IA Gemini de Google : qu’est-ce que c’est ?
Gemini, c’est le nom du nouveau modèle de langage conçu par Google. Une IA pensée pour être multimodale, c’est-à-dire capable d’analyser, de traiter et de combiner différents types d’informations, comme le texte, le code, l’audio, l’image et la vidéo.
Ainsi, Gemini ne se contente pas de manipuler des mots, mais peut aussi comprendre le contexte, les concepts, les émotions, les intentions et les relations qui se cachent derrière les données.
« Les capacités sophistiquées de raisonnement de Gemini 1.0 lui permettent d’interpréter des informations écrites et visuelles complexes, ce qui le rend singulièrement apte à isoler des connaissances difficiles à discerner dans des volumes considérables de données », explique Google dans son communiqué de presse.
L’IA excelle notamment sur les problèmes de mathématiques et de physique, mais il est aussi efficace sur des tâches plus simples, moins logiques.
🧐 Quelles sont les capacités de Gemini face à GPT-4 ?
Gemini se distingue par ses performances exceptionnelles. Sur 30 des 32 référentiels académiques, elle dépasse GPT-4, le modèle d’OpenAI, ainsi que tous les meilleurs résultats actuellement disponibles chez la concurrence. Si GPT-4 peut essayer de rivaliser sur le texte, Gemini s’impose largement dès qu’il s’agit de gérer du multimédia.
Pour chaque tâche multimodale, il existe un référentiel académique qui permet de mesurer la performance d’un modèle d’IA. Par exemple, pour la compréhension des images naturelles, le référentiel est VQAv2, qui consiste à répondre à des questions sur des images. Pour la traduction automatique de la parole, le référentiel est CoVoST 2, qui consiste à traduire des phrases prononcées dans différentes langues.
Les données ci-dessus présentent les scores obtenus par Gemini, contre GPT-4V (le modèle d’IA d’OpenAI) et le précédent modèle le plus performant sur chaque référentiel. Les scores sont exprimés en pourcentage de réussite, sauf indication contraire. Par exemple, sur VQAv2, Gemini a réussi à répondre correctement à 77,8 % des questions, contre 77,2 % pour GPT-4V.
Elles montrent bien que Gemini dépasse GPT-4V sur 30 des 32 référentiels, et qu’il dépasse aussi tous les autres modèles existants. C’est donc le modèle d’IA le plus performant sur les tâches multimodales, ce qui témoigne de sa capacité à traiter et à combiner différents types d’informations avec fluidité.
Google a publié une vidéo pour montrer les compétences époustouflantes de Gemini. On peut y voir l’IA répondre à des questions variées. Il donne des réponses précises, claires et pertinentes. Précisons quand même que Google a admis que cette vidéo était partiellement faite pour inspirer les développeurs ; les résultats de Gemini sont donc en partie gonflés.
Gemini peut aussi générer des images, des graphiques, des sons ou des vidéos à partir de descriptions textuelles, comme « Uu chat qui joue du piano » ou « une explosion nucléaire ». Gemini peut même créer des poèmes, des chansons, des histoires ou des blagues, en fonction du style et du thème demandés.
👉 Comment utiliser Gemini ?
Google a pour ambition de rendre Gemini accessible à tous, et cherche à optimiser la première version de son modèle, sur trois tailles :
- Gemini Pro : un modèle polyvalent, adapté à de nombreuses tâches, déjà intégré à Bard ;
- Gemini Ultra : le modèle le plus complet, celui qui est présenté dans la vidéo ;
- Gemini Nano : un modèle capable de fonctionner en local.
Le plus accessible est Gemini Pro qui est dès à présent intégré à Google Bard. Mais pour l’instant, il n’est disponible qu’en anglais. Hélas, l’Europe n’est pas encore concernée, sans doute pour des raisons de RGPD, comme lors du lancement de Bard. Autrement dit, vous ne pouvez pas encore tester Gemini en France.
Plus tard, Gemini Ultra rejoindra quant à lui une version « Advanced », de Google Bard, au début de l’année 2024. Avant cela, le modèle doit encore subir des « tests de confiance et de sûreté avant son déploiement », dit la société.
Enfin, Gemini Nano est déjà disponible sur le Pixel 8 Pro. Il vous permet de produire des réponses automatiques dans vos conversations WhatsApp (en anglais pour le moment) en un seul clic depuis votre clavier Gboard, et plus encore.
À l’avenir, Gemini devrait pouvoir fonctionner sur les puces récentes comme le Dimensity 9300, l’Exynos 2400 ou le Snapdragon 8 Gen 3, qui équipe le Xiaomi 14 ou le OnePlus 12. L’une de ces deux dernières puces devrait aussi être présente sur le Samsung Galaxy S24. Autrement dit, en théorie, la nouvelle IA de Google devrait débarquer sur de nombreux smartphones dès l’année prochaine.
Dans les prochains mois, Gemini sera aussi disponible dans plus de produits et de services Google, comme la recherche, les annonces, Google Chrome et même, Duet AI.
🤔 Gemini, la meilleure alternative à ChatGPT ?
Bien qu’il ne soit pas encore vraiment disponible, Gemini semble, sans conteste, être en passe de devenir la meilleure alternative à ChatGPT, le modèle d’IA d’OpenAI, qui était jusqu’à présent considéré comme le plus performant dans le domaine du langage naturel, aux côtés de Claude 2.
Sur le papier, l’IA Gemini surpasse ChatGPT sur tous les aspects, que ce soit la compréhension, la génération, la multimodalité, l’adaptabilité ou la personnalisation. Elle est aussi plus rapide, plus fiable et plus sécurisée que ChatGPT. Mais pour vérifier tout ça, il faudra attendre qu’elle soit plus largement disponible.
Quoi qu’il en soit, Gemini semble être le fruit d’un travail acharné pour Google, qui devrait enfin s’affirmer dans le domaine déjà très concurrentiel de l’IA. Peut-être que cette nouvelle IA arrivera à modifier l’interaction homme-machine que nous connaissons, notre façon de communiquer, de travailler, de nous divertir et de nous informer. Réponse dans les prochains mois.
Source : Google