Google DeepMind presentó el martes un nuevo modelo de lenguaje llamado Gemini Robotics On-Device. La empresa reveló que el modelo puede ejecutar tareas localmente en robots sin conexión a internet.
El nuevo modelo, basado en el modelo de IA Gemini Robotics de la compañía, lanzado en marzo, puede controlar los movimientos de un robot. Google también reconoció que el modelo de visión-lenguaje-acción (VLA) es lo suficientemente pequeño y eficiente como para ejecutarse directamente en un robot. Según la compañía, los desarrolladores pueden controlar y ajustar el modelo para adaptarlo a diversas necesidades mediante indicaciones de lenguaje natural.
La robótica en el dispositivo supera a otros modelos de Google
Llevamos inteligencia artificial potente directamente a los robots con Gemini Robotics On-Device. 🤖
Es nuestro primer modelo de visión-lenguaje-acción para ayudar a que los robots sean más rápidos, altamente eficientes y adaptables a nuevas tareas y entornos, sin necesidad de una conexión constante a Internet. 🧵 pic.twitter.com/1Y21D3cF5t
— Google DeepMind (@GoogleDeepMind) 24 de junio de 2025
Carolina Parada, directora de robótica de Google DeepMind, sostuvo que el modelo original de Gemini Robotics utiliza un enfoque híbrido, lo que le permite operar en el dispositivo y en la nube. Añadió que, con el nuevo modelo exclusivo para dispositivos, los usuarios pueden acceder a funciones sin conexión casi con la misma calidad que en el modelo insignia.
La compañía tecnológica afirma que el modelo tiene un rendimiento similar al del modelo Gemini Robotics basado en la nube en las pruebas de rendimiento. Google también afirmó que supera a otros modos integrados en el dispositivo en las pruebas de rendimiento generales, aunque no especificó los nombres de esos modelos.
El modelo híbrido de Gemini Robotics es aún más potente, pero nos sorprende bastante sutron. Lo consideraría un modelo básico o para aplicaciones con poca conectividad
-Carolina Parada, Jefa de Robótica en Google DeepMind.
La empresa ilustró en la demostración robots que ejecutaban el modelo local, abriendo bolsas y doblando ropa. Google reconoció que, si bien el modelo fue entrenado para robots ALOHA, posteriormente lo adaptó para funcionar en un robot bibrazo Franka FR3 y en el robot humanoide Apollo detronik.
La compañía tecnológica afirma que el bibrazo Franka FR3 logró abordar con éxito escenarios y objetos desconocidos, como el ensamblaje en una cinta transportadora industrial. La firma mencionó que los desarrolladores pueden mostrar a los robots entre 50 y 100 demostraciones de tareas para entrenarlos en nuevas tareas utilizando los modelos del simulador de física MuJoCo.
Google DeepMind también mencionó el lanzamiento de un kit de desarrollo de software llamado Gemini Robotics SDK. La compañía reveló que su SDK de robótica proporciona herramientas completas para el ciclo de vida del uso de los modelos de Gemini Robotics, incluyendo el acceso a puntos de control, la gestión de un modelo, la evaluación del modelo en el robot y en el simulador, la carga de datos y su ajuste. La empresa reveló que su modelo de Gemini Robotics en el dispositivo y su SDK estarán disponibles para un grupo de evaluadores de confianza mientras Google continúa trabajando para minimizar los riesgos de seguridad.
Las empresas tecnológicas se suman a la carrera de la robótica
Otras empresas que utilizan modelos de IA también muestran interés en la robótica. Nvidia está desarrollando una plataforma para crear modelos básicos para humanoides. El director ejecutivo de la empresa, Jensen Huang, señaló que la creación de modelos básicos para robots humanoides en general es uno de los problemas más apasionantes que se plantean en la IA actual.
Huang argumentó que el factor humanoide es uno de los temas más controvertidos en el mundo de la robótica actualmente. Reconoció que está generando una gran cantidad de capital de riesgo, al tiempo que genera un gran escepticismo.
Nvidia también ha impulsado la innovación robótica con iniciativas como Isaac y Jetson. El año pasado, en marzo, en su conferencia anual para desarrolladores GTC, la compañía se unió a la carrera humanoide con el Proyecto GROOT.
Nvidia se refirió a la nueva plataforma como un modelo básico de propósito general para robots humanoides. La empresa afirmó que GROOT también será compatible con el nuevo hardware de Nvidia.
Hugging Face no solo desarrolla modelos abiertos y conjuntos de datos para robótica, sino que también trabaja en robots. La empresa reveló a principios de este mes un modelo OpenAI para robótica llamado SmolVLA.
La compañía afirma que el modelo se entrena con conjuntos de datos compartidos por la comunidad y supera a modelos robóticos mucho más grandes, tanto en entornos virtuales como reales. Hugging Face también reveló que SmolVLA busca democratizar el acceso a los modelos de visión-lenguaje-acción (VLA) y acelerar la investigación hacia agentes robóticos generalistas.
El año pasado, la empresa lanzó LeRobot, una colección de modelos, conjuntos de datos y herramientas enfocados en la robótica. Más recientemente, Hugging Face adquirió Pollen Robotics, una startup de robótica con sede en Francia, y puso a la venta varios sistemas robóticos económicos, incluyendo humanoides.

