Los modelos de IA que juegan se remontan a décadas atrás, pero generalmente se especializan en un juego y siempre juegan para ganar. Los investigadores de Google Deepmind tienen un objetivo diferente con su última creación: un modelo que aprendió a jugar múltiples juegos 3D como un humano, pero que también hace todo lo posible para comprender y actuar según sus instrucciones verbales.
Por supuesto, hay “IA” o personajes de computadora que pueden hacer este tipo de cosas, pero son más como características de un juego: NPC que puedes usar comandos formales en el juego para controlar indirectamente.
El SIMA (agente multimundo escalable e instructable) de Deepmind no tiene ningún tipo de acceso al código interno o a las reglas del juego; en cambio, fue entrenado con muchas, muchas horas de video que mostraban juegos realizados por humanos. A partir de estos datos (y de las anotaciones proporcionadas por los etiquetadores de datos), el modelo aprende a asociar ciertas representaciones visuales de acciones, objetos e interacciones. También grabaron vídeos de jugadores indicándose unos a otros cómo hacer cosas en el juego.
Por ejemplo, podría aprender de cómo se mueven los píxeles en un determinado patrón en la pantalla que se trata de una acción llamada “avanzar”, o cuando el personaje se acerca a un objeto parecido a una puerta y utiliza el objeto que parece un pomo, eso es “abrir”. una puerta.” Cosas simples como esa, tareas o eventos que toman unos segundos pero que son más que simplemente presionar una tecla o identificar algo.
Los videos de capacitación se tomaron en múltiples juegos, desde Valheim hasta Goat Simulator 3, cuyos desarrolladores participaron y dieron su consentimiento para este uso de su software. Uno de los objetivos principales, dijeron los investigadores en una llamada con la prensa, era ver si entrenar una IA para jugar un conjunto de juegos la hace capaz de jugar otros que no ha visto, un proceso llamado generalización.
La respuesta es sí, con salvedades. Los agentes de IA entrenados en múltiples juegos obtuvieron mejores resultados en juegos a los que no habían estado expuestos. Pero, por supuesto, muchos juegos implican mecánicas o términos específicos y únicos que obstaculizarán a la IA mejor preparada. Pero no hay nada que impida que el modelo los aprenda, excepto la falta de datos de entrenamiento.
Esto se debe en parte a que, aunque hay mucha jerga en el juego, en realidad hay un número limitado de “verbos” que los jugadores tienen y que realmente afectan el mundo del juego. Ya sea que estés armando un cobertizo, montando una tienda de campaña o convocando un refugio mágico, en realidad estás “construyendo una casa”, ¿verdad? Por lo tanto, es realmente interesante leer este mapa de varias docenas de primitivas que el agente reconoce actualmente:
La ambición de los investigadores, además de hacer avanzar la pelota fundamentalmente en la IA basada en agentes, es crear un compañero de juego más natural que los rígidos y codificados que tenemos hoy.
“En lugar de tener un agente sobrehumano contra el que jugar, puedes tener jugadores SIMA a tu lado que sean cooperativos, a los que puedas dar instrucciones”, dijo Tim Harley, uno de los líderes del proyecto.
Como cuando juegan, lo único que ven son los píxeles de la pantalla del juego, tienen que aprender a hacer las cosas de forma muy parecida a como lo hacemos nosotros, pero eso también significa que pueden adaptarse y producir comportamientos emergentes.
Es posible que sienta curiosidad por saber cómo se compara esto con un método común para crear IA de tipo agente, el enfoque del simulador, en el que un modelo, en su mayoría sin supervisión, experimenta salvajemente en un mundo simulado en 3D que se ejecuta mucho más rápido que en tiempo real, lo que le permite aprender las reglas de forma intuitiva. y diseñar comportamientos a su alrededor sin tanto trabajo de anotación.
“El entrenamiento de agentes tradicional basado en simulador utiliza el aprendizaje reforzado para el entrenamiento, lo que requiere que el juego o el entorno proporcione una señal de ‘recompensa’ para que el agente aprenda; por ejemplo, ganar/perder en el caso de Go o Starcraft, o ‘puntuación’. para Atari”, dijo Harley a TechCrunch, y señaló que este enfoque se utilizó para esos juegos y produjo resultados fenomenales.
“En los juegos que utilizamos, como los juegos comerciales de nuestros socios”, continuó, “no tenemos acceso a dicha señal de recompensa. Además, estamos interesados en agentes que puedan realizar una amplia variedad de tareas descritas en texto abierto; no es factible que cada juego evalúe una señal de ‘recompensa’ para cada objetivo posible. En cambio, capacitamos a los agentes mediante el aprendizaje por imitación del comportamiento humano, teniendo en cuenta objetivos en el texto”.
En otras palabras, tener una estructura de recompensa estricta puede limitar al agente en lo que persigue, ya que si se guía por la puntuación nunca intentará nada que no maximice ese valor. Pero si valora algo más abstracto, como qué tan cerca está su acción de otra que ha observado antes, se le puede entrenar para que “quiera” hacer casi cualquier cosa, siempre y cuando los datos del entrenamiento lo representen de alguna manera.
Otras empresas están investigando este tipo de colaboración y creación abiertas también; Las conversaciones con NPC se están analizando con bastante atención como oportunidades para poner en funcionamiento un chatbot tipo LLM, por ejemplo. Y la IA también simula y rastrea acciones o interacciones simples improvisadas en algunas investigaciones realmente interesantes sobre agentes.
Por supuesto, también están los experimentos con juegos infinitos como MarioGPT, pero eso es otra cuestión completamente diferente.