Na terça-feira, o Google DeepMind apresentou um novo modelo de linguagem chamado Gemini Robotics On-Device. A empresa revelou que o modelo pode executar tarefas localmente em robôs sem conexão com a internet.
O novo modelo, que se baseia no modelo de IA Gemini Robotics lançado em março, consegue controlar os movimentos de um robô. O Google também reconheceu que o modelo de visão-linguagem-ação (VLA) é pequeno e eficiente o suficiente para ser executado diretamente em um robô. Segundo a empresa, os desenvolvedores podem controlar e ajustar o modelo para atender a diversas necessidades usando comandos em linguagem natural.
A tecnologia Robotics On-Device supera os outros modelos do Google
Estamos integrando inteligência artificial poderosa diretamente aos robôs com o Gemini Robotics On-Device. 🤖
É o nosso primeiro modelo de visão-linguagem-ação para ajudar a tornar os robôs mais rápidos, altamente eficientes e adaptáveis a novas tarefas e ambientes – sem a necessidade de uma conexão constante com a internet. 🧵 pic.twitter.com/1Y21D3cF5t
— Google DeepMind (@GoogleDeepMind) 24 de junho de 2025
Carolina Parada, chefe da área de robótica do Google DeepMind, afirmou que o modelo original da Gemini Robotics utiliza uma abordagem híbrida, permitindo sua operação tanto no dispositivo quanto na nuvem. Ela disse que, com o novo modelo exclusivo para dispositivos móveis, os usuários podem acessar recursos offline quase tão bem quanto os do modelo principal.
A empresa de tecnologia afirma que o modelo tem um desempenho próximo ao do modelo Gemini Robotics baseado em nuvem em testes de benchmark. O Google também disse que ele supera outros modos integrados ao dispositivo em benchmarks gerais, embora não tenha mencionado quais modelos.
“O modelo híbrido da Gemini Robotics ainda é mais poderoso, mas estamos bastante surpresos com atrondeste modelo integrado ao dispositivo. Eu o consideraria um modelo inicial ou um modelo para aplicações com conectividade precária.”
-Carolina Parada, Chefe de Robótica do Google DeepMind.
A empresa ilustrou a demonstração com robôs executando o modelo local, abrindo zíperes de bolsas e dobrando roupas. O Google reconheceu que, embora o modelo tenha sido treinado para robôs ALOHA, posteriormente o adaptou para funcionar em um robô bi-braço Franka FR3 e no robô humanoide Apollo, datron.
A empresa de tecnologia afirma que o robô bi-braço Franka FR3 teve sucesso ao lidar com cenários e objetos nunca antes vistos, como a montagem em uma esteira industrial. A empresa mencionou que os desenvolvedores podem mostrar aos robôs de 50 a 100 demonstrações de tarefas para treiná-los em novas tarefas usando os modelos do simulador de física MuJoCo.
O Google DeepMind também mencionou o lançamento de um kit de desenvolvimento de software chamado Gemini Robotics SDK. A empresa revelou que seu SDK de Robótica fornece todas as ferramentas necessárias para o ciclo de vida completo do uso dos modelos Gemini Robotics, incluindo acesso a pontos de verificação, disponibilização do modelo, avaliação do modelo no robô e na simulação, upload de dados e ajustes finos. A empresa informou que seu modelo Gemini Robotics para dispositivos e seu SDK estarão disponíveis para um grupo de testadores confiáveis, enquanto o Google continua trabalhando para minimizar os riscos de segurança.
Empresas de tecnologia entram na corrida da robótica
Outras empresas que utilizam modelos de IA também estão demonstrando interesse em robótica. A Nvidia está construindo uma plataforma para criar modelos fundamentais para humanoides. O CEO da empresa, Jensen Huang, observou que construir modelos fundamentais para robôs humanoides em geral é um dos problemas mais empolgantes a serem resolvidos na área de IA atualmente.
Huang argumentou que o fator humanoide é um dos tópicos mais controversos no mundo da robótica atualmente. Ele reconheceu que o tema está atraindo enormes investimentos de capital de risco, ao mesmo tempo que gera um enorme ceticismo.
A Nvidia também tem defendido a inovação robótica por meio de iniciativas como Isaac e Jetson. Em março do ano passado, durante sua conferência anual para desenvolvedores, a GTC, a empresa entrou na corrida dos robôs humanoides com o Projeto GROOT.
A Nvidia descreveu a nova plataforma como um modelo básico de uso geral para robôs humanoides. A empresa afirmou que o GROOT também será compatível com novos hardwares da Nvidia.
A Hugging Face não está apenas desenvolvendo modelos e conjuntos de dados abertos para robótica, mas também trabalhando em robôs. A empresa revelou no início deste mês um modelo OpenAI para robótica chamado SmolVLA.
A empresa afirma que o modelo é treinado em conjuntos de dados compartilhados pela comunidade e supera modelos muito maiores para robótica, tanto em ambientes virtuais quanto reais. A Hugging Face também revelou que o SmolVLA visa democratizar o acesso a modelos de visão-linguagem-ação (VLA) e acelerar a pesquisa em direção a agentes robóticos generalistas.
No ano passado, a empresa lançou o LeRobot, uma coleção de modelos, conjuntos de dados e ferramentas focados em robótica. Mais recentemente, a Hugging Face adquiriu a Pollen Robotics, uma startup de robótica com sede na França, e revelou diversos sistemas robóticos de baixo custo, incluindo robôs humanoides, para venda.

