La inteligencia artificial generativa ha revolucionado múltiples campos, desde la creación de textos hasta la depuración de código. Sin embargo, entrenar robots para tareas complejas del mundo real requiere algo más que datos textuales: necesita práctica en entornos diversos y realistas.
El desafío del entrenamiento robótico
Tradicionalmente, el entrenamiento de robots se basa en:
- Recopilación de demostraciones con robots reales (proceso lento y no siempre replicable).
- Simulaciones generadas por IA (a menudo carecen de realismo físico).
- Creación manual de entornos digitales (laborioso y costoso).
Un nuevo enfoque, desarrollado por investigadores del MIT y el Toyota Research Institute, promete superar estas limitaciones.
‘Generación de Escenas Orientables’: El nuevo campo de juego virtual
La técnica, llamada ‘generación de escenas orientables’ (steerable scene generation), utiliza IA generativa para construir escenas 3D detalladas de entornos cotidianos como cocinas, salones y restaurantes. Estos entornos sirven como campos de entrenamiento virtuales donde los robots pueden interactuar con objetos y practicar tareas en condiciones realistas.
El sistema fue entrenado con más de 44 millones de habitaciones 3D, repletas de modelos de objetos como mesas y platos. La herramienta coloca los objetos existentes en nuevas escenas, y luego refina cada una para crear un entorno físicamente preciso y realista.
¿Cómo funciona? “Dirigiendo” el Ruido hacia la Realidad
El proceso se basa en un modelo de difusión, un sistema de IA que genera imágenes a partir de ruido aleatorio. Los investigadores “dirigen” este modelo hacia escenas de la vida cotidiana, rellenando elementos específicos en el entorno.
Imagina un lienzo en blanco que se transforma gradualmente en una cocina llena de objetos 3D, cuidadosamente dispuestos para imitar la física del mundo real. Por ejemplo, el sistema se asegura de que un tenedor no atraviese un plato sobre la mesa, evitando el problema conocido como “clipping” en gráficos 3D.
Monte Carlo Tree Search (MCTS): La estrategia clave
La principal estrategia utilizada es la “búsqueda de árbol de Monte Carlo” (MCTS). El modelo crea una serie de escenas alternativas, rellenándolas de diferentes maneras para lograr un objetivo particular (por ejemplo, aumentar el realismo físico o incluir la mayor cantidad posible de alimentos). Esta técnica, utilizada por el programa AlphaGo para vencer a humanos en el juego de Go, permite al sistema considerar múltiples secuencias de acciones antes de elegir la más ventajosa.
Nicholas Pfaff, investigador del CSAIL y autor principal del estudio, explica: “Somos los primeros en aplicar MCTS a la generación de escenas, planteando la tarea como un proceso secuencial de toma de decisiones. Construimos sobre escenas parciales para producir escenas mejores o más deseadas con el tiempo. Como resultado, MCTS crea escenas más complejas de lo que el modelo de difusión fue entrenado originalmente.”
En un experimento, MCTS logró añadir hasta 34 objetos a una escena de restaurante, ¡incluyendo enormes pilas de platos de dim sum!, cuando el entrenamiento original se basaba en escenas con un promedio de 17 objetos.
Aprendizaje por Refuerzo y Personalización
La generación de escenas orientables también permite crear escenarios de entrenamiento diversos mediante el aprendizaje por refuerzo. El sistema aprende a crear escenas que maximizan una “recompensa” definida por el usuario (un resultado deseado con una puntuación que indica qué tan cerca se está de ese objetivo). Esto produce escenarios muy diferentes a los del entrenamiento inicial.
Además, los usuarios pueden dar indicaciones directas al sistema mediante descripciones visuales específicas (por ejemplo, “una cocina con cuatro manzanas y un tazón sobre la mesa”). La herramienta cumple estas solicitudes con alta precisión, alcanzando tasas de éxito del 98% en la creación de estanterías de despensa y del 86% en mesas de desayuno desordenadas. Estas cifras representan una mejora significativa con respecto a otros métodos comparables.
Llenando los Espacios en Blanco
El sistema también puede completar escenas existentes, añadiendo elementos a espacios vacíos mientras preserva el resto de la escena. Por ejemplo, se le puede pedir que coloque manzanas en varios platos sobre una mesa de cocina o que ponga juegos de mesa y libros en un estante.
El Futuro del Entrenamiento Robótico
Los investigadores destacan que la clave del proyecto reside en su capacidad para generar una gran cantidad de escenas útiles para los roboticistas. Pfaff señala: “Una idea clave de nuestros hallazgos es que está bien que las escenas con las que pre-entrenamos no se parezcan exactamente a las escenas que realmente queremos. Usando nuestros métodos de dirección, podemos ir más allá de esa amplia distribución y muestrear de una ‘mejor’. En otras palabras, generar las escenas diversas, realistas y alineadas con la tarea en las que realmente queremos entrenar a nuestros robots.”
Aunque el sistema es prometedor, los investigadores lo consideran una prueba de concepto. En el futuro, planean utilizar la IA generativa para crear objetos y escenas completamente nuevos, en lugar de depender de una biblioteca fija de elementos. También quieren incorporar objetos articulados que el robot pueda abrir o girar (como armarios o tarros llenos de comida) para aumentar la interactividad de las escenas.
Para hacer los entornos virtuales aún más realistas, Pfaff y sus colegas podrían incorporar objetos del mundo real utilizando una biblioteca de objetos y escenas extraídas de imágenes de Internet y su trabajo anterior en “Scalable Real2Sim”. Al expandir la diversidad y el realismo de los campos de prueba robóticos construidos con IA, el equipo espera construir una comunidad de usuarios que creen muchos datos, que luego podrían utilizarse como un conjunto de datos masivo para enseñar a los robots diestros diferentes habilidades.
Opiniones de la Industria
Jeremy Binagia, científico aplicado de Amazon Robotics, que no participó en el estudio, comenta: “Hoy en día, crear escenas realistas para la simulación puede ser una tarea bastante desafiante; la generación procedimental puede producir fácilmente un gran número de escenas, pero es probable que no sean representativas de los entornos que el robot encontraría en el mundo real. La creación manual de escenas a medida es a la vez lenta y costosa. La generación de escenas orientables ofrece un mejor enfoque: entrenar un modelo generativo en una gran colección de escenas preexistentes y adaptarlo (utilizando una estrategia como el aprendizaje por refuerzo) a aplicaciones específicas posteriores. En comparación con trabajos anteriores que aprovechan un modelo de visión-lenguaje estándar o se centran sólo en la disposición de objetos en una cuadrícula 2D, este enfoque garantiza la viabilidad física y considera la traslación y rotación completas en 3D, lo que permite la generación de escenas mucho más interesantes.”
Rick Cory SM ’08, PhD ’10, roboticista del Toyota Research Institute, que tampoco participó en el estudio, añade: “La generación de escenas orientables con post-entrenamiento y búsqueda en tiempo de inferencia proporciona un marco novedoso y eficiente para automatizar la generación de escenas a escala. Además, puede generar escenas ‘nunca vistas’ que se consideran importantes para las tareas posteriores. En el futuro, la combinación de este marco con vastos datos de Internet podría desbloquear un hito importante hacia el entrenamiento eficiente de robots para su despliegue en el mundo real.”
Conclusión: Un paso adelante en la robótica
La ‘generación de escenas orientables’ representa un avance significativo en el campo del entrenamiento robótico. Al permitir la creación de entornos virtuales realistas y personalizables, esta técnica allana el camino para el desarrollo de robots más adaptables, eficientes y capaces de desenvolverse en el complejo mundo real.
Fuente: MIT News – AI
Leave a Comment