Le géant des moteurs de recherche Google a lancé mercredi Gemini 2.0, un modèle expérimental capable d'utiliser des sites web de manière autonome et qui est fondamentalement un modèle « pour tout »
Selon Sundar Pichai, PDG de Google, ce dernier modèle permettra aux utilisateurs de créer de nouveaux agents IA qui « nous rapprochent de notre vision d'un assistant universel ». L'entreprise décrit son modèle comme étant le plus performant qu'elle ait jamais conçu pour l'ère des agents.
Ces initiatives s'inscrivent dans le cadre des efforts déployés par l'entreprise face à la concurrence accrue du secteur technologique, notamment avec des acteurs comme Meta, Microsoft et Meta.
Google déploiera ce modèle sur l'ensemble de ses produits
Pichai a également dévoilé le dernier modèle, doté de capacités multimodales qui seront déployées sur l'ensemble de ses produits, notamment la sortie native d'images et d'audio. Le géant des moteurs de recherche a lancé Gemini 1.0 en décembre dernier ; Google le présentait comme le premier modèle « nativement multimodal », ce qui signifie qu'il pouvait traiter et répondre aux requêtes textuelles, vidéo, d'images, audio et de code.
Cette dernière version représente les derniers efforts de Google dans la course à l'IA, de plus en plus concurrentielle, qui caractérise le secteur technologique.
« Si Gemini 1.0 visait à organiser et à comprendre l’information, Gemini 2.0 vise à la rendre beaucoup plus utile. »
Pichai.
Gemini 2.0 arrive près de 10 mois après le lancement initial de la version 1.5 par Google. Le modèle est toujours en phase de prévisualisation expérimentale, selon Google, avec une seule version du modèle, la 2.0 Flash, plus petite et d'entrée de gamme, commercialisée.
Demis Hassabis, PDG de Google DeepMind et responsable des efforts de l'entreprise en matière d'IA, a déclaré que cela restait un grand jour pour le géant technologique.
« Il est aussi performant que le modèle Pro actuel. On peut donc le considérer comme un cran au-dessus, pour un rapport coût-efficacité, des performances et une vitesse identiques. Nous en sommes vraiment ravis », a expliqué Hassabis.
Actuellement, seuls les développeurs et les testeurs sont les premiers à obtenir la version 2.0, tandis que les autres utilisateurs de Gemini ont accès au modèle expérimental Flash 2.0, qui s'appuie sur la version Flash 1.5, lancée comme le modèle le plus rapide et le plus rentable.
Google a annoncé une série de nouvelles fonctionnalités
D'après l'entreprise, les capacités de raisonnement du nouveau modèle devraient être intégrées à la fonctionnalité « Vues d'ensemble IA », désormais accessible à un milliard d'utilisateurs, selon Pichai. Ce dernier a indiqué que cette fonctionnalité est en passe de devenir l'une des plus populaires du groupe.
Avec ce nouveau modèle, Pichai a également souligné que les aperçus d'IA seront désormais capables de traiter des requêtes complexes en plusieurs étapes, par exemple des équationsmaticet des questions multimodales.
Bien que des tests limités du nouveau modèle aient débuté cette semaine, la fonction de raisonnement ne sera accessible à un plus grand nombre d'utilisateurs qu'au début de l'année prochaine.
Selon Google, ce modèle de raisonnement repose sur la puce d'IA de 6e génération du géant des moteurs de recherche , Trillium, qui est également devenue disponible pour les clients de Google Cloud mercredi.
Dans un article publié , Google a révélé que la nouvelle puce offre des performances quatre fois supérieures et une efficacité énergétique 67 % inférieure à celle de son prédécesseur.
Nous lançons l'ère Gemini 2.0 avec Gemini 2.0 Flash, qui surpasse la version 1.5 Pro sur les principaux tests de performance, avec une vitesse deux fois supérieure (voir graphique ci-dessous). Je suis particulièrement enthousiaste face aux progrès rapides réalisés en matière de programmation, et ce n'est que le début.
Les développeurs peuvent tester une version expérimentale en IA… pic.twitter.com/iEAV8dzkaW
– Sundar Pichai (@sundarpichai) 11 décembre 2024
Le PDG de Google a également annoncé d'autres fonctionnalités, notamment la nouvelle fonction Gemini appelée Deep Research, qui peut servir d'assistant de recherche grâce à des capacités de raisonnement avancé et d'analyse de contexte étendu. Disponible dans Gemini Advanced, cette nouvelle fonction permet de rédiger des rapports de recherche pour le compte de l'utilisateur.
Hassabis a déclaré que Gemini 2.0 jetait les bases d'une excellente année 2025.
« Nous considérons vraiment 2025 comme le véritable début de l'ère des agents immobiliers. »
Hassabis.
Cette annonce intervient alors que la société a également annoncé le lancement d'un autre produit, Project Mariner , une nouvelle extension Chrome expérimentale capable d'utiliser un navigateur web pour les utilisateurs.
Par ailleurs, Google a également annoncé Jules – un agent créé spécifiquement pour aider les développeurs à trouver et corriger les erreurs de code – et un nouvel agent basé sur Gemini 2.0 capable d'analyser les écrans des utilisateurs et de les aider à mieux jouer aux jeux vidéo.
Selon Hassabis, l'agent de jeu qu'il qualifie d'« œuf de Pâques » indique qu'il est véritablement multimodal.

