Un avance de Microsoft aborda las limitaciones de los robots con un sistema de detección táctil

- Microsoft lanzó Rho-alpha a finales de enero de 2026, un modelo de robot que utiliza sensores de visión, lenguaje y tacto para tareas con dos brazos.
- El sistema ajusta el agarre en función de la información física que las cámaras no pueden detectar, lo que resulta útil para insertar enchufes y ajustar piezas.
- Disponible a través de Microsoft Foundry para que los fabricantes lo personalicen para tareas de manipulación repetitiva.
Microsoft Researchlanzóa finales de enero de 2026 un nuevo sistema de control robótico que permite a las máquinastrabajarcon sus manos mientras procesan comandos de voz y retroalimentación física. El sistema, llamado Rho-alpha, marca la entrada de la compañía en el desarrollo de modelos básicos diseñados para robots que utilizan dos brazos simultáneamente.
La tecnología llegará primero a grupos selectos a través de un Programa de Acceso Anticipado antes de que Microsoft distribuya la forma más amplia en su plataforma Foundry. Las empresas podrán entonces adaptar el sistema a sus necesidades específicas utilizando sus propios datos.
Añadiendo tacto a la inteligencia robótica
Las fábricas y los almacenes buscan robots capaces de adaptarse a condiciones cambiantes en lugar de repetir indefinidamente los mismos movimientos programados. Los hospitales necesitan máquinas quese adaptena diferentes situaciones. Las líneas de producción, donde los artículos varían de un lote a otro, generan problemas que la automatización tradicional no puede resolver de manera eficiente. Microsoft creó Rho-alpha para cubrir esta necesidad, procesando lo que los robots ven y oyen, además de lo que sienten físicamente a través de sensores.
La mayoría de los sistemas robóticos actuales dependen de cámaras y micrófonos para comprender su entorno y recibir instrucciones. Rho-alpha añade una capa adicional al considerar el tacto como igualmente importante. Cuando una pinza robótica incorpora sensores de presión, el sistema obtiene información que las cámaras no captan. Esto es crucial al intentar conectar algo a un enchufe o ensamblar piezas, donde la vista por sí sola no proporciona suficiente detalle para saber si las piezas están bien alineadas.
Microsoft demostró estas capacidades utilizando dos brazos robóticos Universal Robots UR5e equipados con sensores de presión y contacto. Durante las pruebas con el conjunto de tareas BusyBox, se le indicó al robot que realizara acciones como colocar una bandeja dentro de una caja de herramientas y cerrar la tapa. El sistema tradujo esas instrucciones en movimientos coordinados entre ambos brazos y realizó ajustes en función de las señales de los sensores. Cuando los intentos de insertar un enchufe fallaban al primer intento, un operador humano podía guiar al robot mediante un dispositivo de entrada 3D, y el sistema aprendía de esas correcciones.
Obtener suficientes datos de entrenamiento sigue siendo el mayor desafío para construir robots competentes. Los modelos de lenguaje pueden aprender de cantidades masivas de texto disponible en línea, pero el entrenamiento de robots requiere demostraciones físicas reales, cuya grabación requiere tiempo y dinero. Microsoft abordó este problema entrenando Rho-alpha con tres tipos de información: grabaciones de demostraciones físicas reales, tareas de práctica simuladas y grandes conjuntos de datos de imágenes con preguntas y respuestas de la web. La empresa utiliza Nvidia Isaac Sim, que se ejecuta en servidores de Azure, para crear escenarios sintéticos realistas mediante un proceso de aprendizaje por refuerzo.
Esta configuración de simulación produce situaciones prácticas físicamente precisas que complementan las demostraciones reales. El enfoque combinado permite al modeloenfrentarsea casos inusuales y situaciones de fallo que, de otro modo, requerirían miles de horas de operación real para capturarlas.
El método de entrenamientosigueun patrón similarElsistemaGeminiRobotics que utilizan otras empresas de robótica. de Google DeepMind, el modelo Helix de Figure AI para robots humanoides y el Pi-zero de Physical Intelligence emplean enfoques similares para superar el problema de la escasez de datos. Esta técnica ayuda a estos sistemasa aprenderhabilidades generales de manipulación sin necesidad de demostraciones específicas para cada tarea .
Competir en un mercado en maduración
Microsoft se une a unmercado de modelos básicos de robótica que ha crecido considerablemente durante el último año y medio. Nvidia lanzó GR00T N1.6 , dirigido a robots humanoides, con un enfoque en el control corporal completo y la comprensión del contexto. Google DeepMind expandió Gemini a la robótica con habilidades que van desde doblar papel en formas de origami hasta manejar naipes. Physical Intelligence presenta Pi-zero como un sistema multipropósito entrenado con diferentes tipos de robots.
Rho-alpha destaca en tresaspectos. Primero, su énfasis en la detección táctil aborda situaciones en las que los sistemas que dependen únicamente de la visión tienen dificultades. Segundo, el modelo proviene de la serie Phi de Microsoft, que la compañía ha optimizado para funcionar eficientemente en hardware de consumo común. Este antecedente sugiere que podría ejecutarse en dispositivos locales sin necesidad de una conexión constante a servidores en la nube. Tercero, su enfoque en el aprendizaje a partir de correcciones humanas durante el funcionamiento real lo distingue de los modelos que requieren un reentrenamiento completo para adquirir nuevos comportamientos.
El enfoque comercial de Microsoft también se diferencia del desuscompetidores. La compañía planea ofrecer Rho-alpha a través de su plataforma Foundry como una infraestructura que los fabricantes e integradores de sistemas pueden personalizar con su propia información propietaria. Esto refleja el enfoque de la compañía con Azure OpenAI Service y está dirigido a organizaciones que desean crear versiones especializadas en lugar de utilizar un modelo genérico.
Para los fabricantes y las empresas de logística, la oportunidad reside en identificar tareas de manipulación repetitivas donde la automatización actual resulta insuficiente. Las estaciones de inspección de calidad, las operaciones de ensamblaje de kits y las líneas de ensamblaje de lotes pequeños representan situaciones en las que la combinación de comprensión del lenguaje y detección táctil de Rho-alpha podría reducir los requisitos de programación.
El programa de acceso anticipado anunciado por Microsoft ofrece a las organizacionesla posibilidad de comprobar si el sistema se ajusta a sus necesidades antes de invertir en infraestructura de implementación. Las empresas deben participar en estas evaluaciones previendo la necesidad de supervisión humana y planificar flujos de trabajo donde los operadores corrijan y guíen a los robots durante los periodos iniciales de aprendizaje.
física La IA representa una transición de robots como herramientas programadas a robots como colaboradores flexibles. Esta transición llevará años en lugar de meses, pero los modelos base de Microsoft, Nvidia y Google establecen los patrones básicos que definirán defirobótica empresarial durante los próximos diez años.
Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)















