Google dévoile Gemini 2.5 Computer Use : l’agent IA qui veut maîtriser le web

Gemini 2.5 Computer Use est la toute dernière avancée de Google dans le domaine des agents IA capables d’interagir pleinement avec les interfaces web, ouvrant la voie à des assistants numériques vraiment autonomes. Le modèle exploite la compréhension visuelle et le raisonnement avancé pour naviguer, cliquer, remplir des champs et automatiser toutes sortes de processus en ligne, révolutionnant l’usage des navigateurs et la productivité des développeurs comme des utilisateurs.

Ce qu'il faut retenir :

Gemini 2.5 Computer Use exécute des actions sur le web comme un humain (clics, saisies, soumissions…) sans passer par des APIs.
Ce modèle, accessible publiquement en preview sur l’API Gemini, surpasse la concurrence en rapidité et précision sur des benchmarks web et mobiles.
Google limite pour l’instant son périmètre au navigateur pour garantir sécurité et fiabilité, évitant le contrôle direct du système d’exploitation.
Des usages concrets : tests UI, automatisation de formulaires, assistants autonomes et intégration dans des projets Google comme Project Mariner ou Firebase Testing Agent.

Qu’est-ce que Gemini 2.5 Computer Use ?

Gemini 2.5 Computer Use est un modèle d’intelligence artificielle conçu pour piloter un navigateur web de façon totalement autonome. Contrairement aux outils classiques qui s’appuient sur des APIs pour interagir avec les services en ligne, ce modèle agit « à la souris » et « au clavier », manipulant l’interface comme le ferait un internaute. Il s’appuie sur la vision par ordinateur et une compréhension poussée du langage naturel pour analyser capture d’écran, interface graphique et historique d’actions, puis pour décider des étapes à effectuer en boucle jusqu’à l’aboutissement de la tâche demandée.

Comment fonctionne ce nouvel agent Google ?

L’agent reçoit une requête utilisateur, une capture d’écran et l’historique récent des actions dans l’environnement web concerné. Ensuite, le modèle Gemini 2.5 analyse visuellement la situation et propose une action (écrire, cliquer, défiler…) sous forme de fonction à exécuter côté client. Chaque fois qu’une action est réalisée, une nouvelle capture d’écran accompagne la réponse et relance la boucle, jusqu’à la finalisation du process ou l’arrêt volontaire, que ce soit après succès, erreur ou décision de sécurité.

Fonctionnement du modèle Computer Use - Source : Google

Google met à disposition cette capacité via l’API Gemini, intégrable dans Google AI Studio et Vertex AI, pour les développeurs souhaitant bâtir des agents automatisés. L’architecture privilégie la rapidité avec des latences réduites et une fiabilité supérieure aux alternatives existantes sur plusieurs benchmarks comme Online-Mind2Web et WebVoyager.

Cas d’usage et exemples concrets

Les démonstrations proposées par Google illustrent la puissance du modèle : collecte automatisée de données sur des sites web, organisation de tâches sur des boards visuels, commande d’actions sur des interfaces SaaS, ou encore tests d’interfaces utilisateur. Dès maintenant, l’outil s’intègre dans des produits internes comme Project Mariner ou le Firebase Testing Agent, qui accélèrent le développement logiciel et multiplient les capacités d’automatisation dans l’environnement Google.

Les premiers utilisateurs mettent en avant la rapidité, l’autonomie et la réduction des erreurs : Gemini 2.5 Computer Use réalise des workflows complexes...

Derniers événements

Derniers Articles