Es comprensible que la mayor parte de la cobertura sobre robótica humanoide se haya centrado en el diseño de hardware. Dada la frecuencia con la que sus desarrolladores utilizan la frase “humanoides de propósito general”, se debería prestar más atención a la primera parte. Después de décadas de sistemas de propósito único, el salto a sistemas más generalizados será grande. Simplemente aún no hemos llegado a ese punto.
El impulso para producir una inteligencia robótica que pueda aprovechar plenamente la amplia gama de movimientos abiertos por el diseño humanoide bípedo ha sido un tema clave para los investigadores. El uso de la IA generativa en robótica también ha sido un tema candente recientemente. Nueva investigación del MIT señala cómo esto último podría afectar profundamente a lo primero.
Uno de los mayores desafíos en el camino hacia los sistemas de propósito general es la capacitación. Tenemos un conocimiento sólido de las mejores prácticas para capacitar a los seres humanos sobre cómo realizar diferentes trabajos. Los enfoques de la robótica, aunque prometedores, están fragmentados. Hay muchos métodos prometedores, incluido el aprendizaje por refuerzo y por imitación, pero las soluciones futuras probablemente implicarán combinaciones de estos métodos, complementadas con modelos generativos de IA.
Uno de los principales casos de uso sugerido por el equipo del MIT es la capacidad de recopilar información relevante a partir de estos pequeños conjuntos de datos para tareas específicas. El método ha sido denominado composición de políticas (PoCo). Las tareas incluyen acciones útiles del robot, como clavar un clavo y voltear cosas con una espátula.
“[Researchers] entrenar un modelo de difusión separado para aprender una estrategia o política para completar una tarea utilizando un conjunto de datos específico”, señala la escuela. “Luego combinan las políticas aprendidas por los modelos de difusión en una política general que permite a un robot realizar múltiples tareas en diversos entornos”.
Según el MIT, la incorporación de modelos de difusión mejoró el rendimiento de las tareas en un 20%. Eso incluye la capacidad de ejecutar tareas que requieren múltiples herramientas, así como aprender/adaptarse a tareas desconocidas. El sistema es capaz de combinar información pertinente de diferentes conjuntos de datos en una cadena de acciones necesarias para ejecutar una tarea.
“Uno de los beneficios de este enfoque es que podemos combinar políticas para obtener lo mejor de ambos mundos”, afirma el autor principal del artículo, Lirui Wang. “Por ejemplo, una política formada con datos del mundo real podría lograr una mayor destreza, mientras que una política formada con simulación podría lograr una mayor generalización”.
El objetivo de este trabajo específico es la creación de sistemas de inteligencia que permitan a los robots intercambiar diferentes herramientas para realizar diferentes tareas. La proliferación de sistemas multipropósito acercaría a la industria un paso más al sueño de uso general.