Google annonce la sortie de Gemini, sa nouvelle IA multimodale

La firme de Mountain View avait clairement été piquée au vif par la sortie de ChatGPT il y’a un an, et par sa rapide intégration sur Bing, ainsi que par l’intégration rapide de l’IA dans les produits Microsoft.

C’est vrai que jusqu’en 2022, Google avait largement démontré une certaine avance technologique sur les modèles de langage préentrainés. Ses chercheurs sont en plus à l’origine de la plupart des concepts qui ont permis d’en arriver aux Large Language Models d’aujourd’hui.

Le projet Gemini est donc né de cette prise de conscience en interne de la nécessité de sortir rapidement quelque chose de plus avancé. Le premier LLM utilisé pour Bard était un cran en dessous des possibilités de GPT4. Il a depuis été remplacé par PaLM2, qui est un LLM plus à même de restituer correctement des connaissances ou de fonctionner à base de règles que les outils GPT d’OpenAI. Mais ce n’était pas suffisant selon Google.

Sundar Pichai a donc décidé en avril 2023 de fusionner les équipes de l’entreprise Deepmind et ses équipes internes travaillant sur l’IA. Deepmind est à présent le nom du département qui produit les outils d’IA chez Google, ce n’est plus une entreprise différente.

Et Deepmind, depuis le printemps dernier, travaille sur deux projets :

MAGI : un outil de recherche à base d’IA, capable de « disrupter » les moteurs de recherche traditionnels (dont Google Search). La SGE n’en est probablement à son dernier stade de développpement aujourd’hui
et Gemini, une IA multimodale avancée

Gemini : une avancée spectaculaire

Si Google voulait avoir son moment « Wow », cette fois-ci c’est réussi. Rien à voir avec le lancement calamiteux de Bard au début de l’année.

Le lancement a néanmoins été repoussé de quelques jours, et sous une forme moins risquée qu’une conférence de presse où l' »effet demo » aurait pu produire un nouveau bad buzz.

Voici la principale video de démo publiée par Google Deepmind :

En terme de performances pures, Gemini n’a pas l’air de faire des choses incroyables par rapport à certains outils d’IA spécialisés. Mais ce qui frappe, c’est la fluidité et la rapidité de l’intéraction avec l’outil qui prend n’importe quel format d’information en entrée pour produire un résultat également multimodal, et ceci sans prompts compliqués.

Quelques caractéristiques innovantes de Gemini

Gemini est un outil « nativement » multimodal. Jusqu’ici, les outils « à la ChatGPT-4V » fonctionnaient comme un assemblage de fonctionnalités pour arriver à gérer un mode conversationnel comme la possibilité de manipuler les images ou les sons ou les videos.

Mais surtout, Gemini 1.0 embarque des capacités de raisonnement multimodales. Cela signifie que l’outil est capable de donner un sens à des données visuelles complexes, comme un dessin, une série de points, et en déduire de nouvelles informations. Les LLMs classiques en sont incapables aujourd’hui.

Gemini 1.0 a été entrainé également pour comprendre des contenus complexes ayant trait aux mathématiques ou à la physique.

Et l’outil est également capable de comprendre, expliquer et générer du code de bonne qualité en Python, Javan C++ et GO. Une nouvelle version d’Alphacode : Alphacode 2, a été réalisée grâce à une version spécialisée de Gemini.

Des performances impressionnantes sur les principaux benchmarks IA

Les principaux développeurs d’IA et de LLM annoncent à chaque lancement qu’ils ont créé l’outil avec le plus de paramètres, et les plus performants sur leurs tâches. Mais évidemment, personne n’est obligé de les croire.

Les chercheurs en IA ont donc établi quelques outils pour passer au banc d’essai les IA et obtenir des résultats normalisés.

Voici les résultats de Gemini sur les tests de manipulation des textes :

Derniers événements

Derniers Articles