OpenAI es nuevo y ¡primero! — El modelo generador de videos, Sora, puede lograr algunas hazañas cinematográficas realmente impresionantes. Pero el modelo es parejo. más capaz de lo que OpenAI inicialmente hizo ver, al menos a juzgar por un análisis técnico papel publicado esta tarde.
El artículo, titulado “Modelos de generación de video como simuladores mundiales”, en coautoría de una serie de investigadores de OpenAI, revela aspectos clave de la arquitectura de Sora; por ejemplo, revela que Sora puede generar videos con una resolución y relación de aspecto arbitrarias ( hasta 1080p). Según el documento, Sora es capaz de realizar una variedad de tareas de edición de imágenes y videos, desde crear videos en bucle hasta extender videos hacia adelante o hacia atrás en el tiempo y cambiar el fondo de un video existente.
Pero lo más intrigante para este escritor es la capacidad de Sora para “simular mundos digitales”, como lo expresaron los coautores de OpenAI. En un experimento, OpenAI soltó a Sora en Minecraft y le pidió que renderizara el mundo (y su dinámica, incluida la física) mientras controlaba simultáneamente al jugador.
Entonces, ¿cómo puede Sora hacer esto? Así como observado por el investigador senior de Nvidia Jim Fan (vía cuarzo), Sora es más un “motor de física basado en datos” que un creativo también. No se trata solo de generar una sola foto o video, sino de determinar la física de cada objeto en un entorno y renderizar una foto o video (o un mundo interactivo en 3D, según sea el caso) en base a estos cálculos.
“Estas capacidades sugieren que la ampliación continua de los modelos de vídeo es un camino prometedor hacia el desarrollo de simuladores altamente capaces del mundo físico y digital, y de los objetos, animales y personas que viven en ellos”, escriben los coautores.
Ahora, las limitaciones habituales de Sora se aplican en el ámbito de los videojuegos. El modelo no puede aproximarse con precisión a la física de interacciones básicas como la rotura de cristales. E incluso con interacciones poder modelo, Sora a menudo es inconsistente; por ejemplo, muestra a una persona comiendo una hamburguesa pero no muestra marcas de mordiscos.
Aún así, si estoy leyendo el artículo correctamente, parece que Sora podría allanar el camino para juegos generados procedimentalmente más realistas, tal vez incluso fotorrealistas. Esto es a partes iguales emocionante y aterrador (considere, por ejemplo, las implicaciones de los deepfake), razón por la cual OpenAI decidió encerrar a Sora detrás de un muy Programa de acceso limitado por ahora.
Esperamos que aprendamos más lo antes posible.