OpenAI está lanzando un nuevo modelo de generación de vídeo y se llama Sora. El La empresa de inteligencia artificial dice Sora “Puede crear escenas realistas e imaginativas a partir de instrucciones de texto”. El modelo de texto a video permite a los usuarios crear videos fotorrealistas de hasta un minuto de duración, todo ello basado en indicaciones que hayan escrito.
Sora es capaz de crear “escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del tema y el fondo”, según la publicación introductoria del blog de OpenAI. La compañía también señala que el modelo puede comprender cómo “existen los objetos en el mundo físico”, así como “interpretar con precisión los accesorios y generar personajes convincentes que expresan emociones vibrantes”.
El modelo también puede generar un vídeo basado en una imagen fija, así como completar fotogramas faltantes en un vídeo existente o ampliarlo. Las demostraciones generadas por Sora incluidas en la publicación del blog de OpenAI incluyen una escena aérea de California durante la fiebre del oro, un video que parece haber sido filmado desde el interior de un tren de Tokio, y otros. Muchos tienen algunos signos reveladores de IA, como un piso que se mueve sospechosamente en un video de un museo, y OpenAI dice que el modelo “puede tener dificultades para simular con precisión la física de una escena compleja”, pero los resultados son en general bastante impresionantes.
Hace un par de años, fueron los generadores de texto a imágenes como Midjourney los que estuvieron a la vanguardia de la capacidad de los modelos para convertir palabras en imágenes. Pero recientemente, el video ha comenzado a mejorar a un ritmo notable: compañías como Runway y Pika han mostrado sus propios modelos impresionantes de texto a video, y Lumiere de Google figura como uno de los principales competidores de OpenAI en este espacio también. Al igual que Sora, Lumiere ofrece a los usuarios herramientas de conversión de texto a vídeo y también les permite crear vídeos a partir de una imagen fija.
Actualmente, Sora solo está disponible para los “equipos rojos” que están evaluando el modelo en busca de posibles daños y riesgos. OpenAI también ofrece acceso a algunos artistas visuales, diseñadores y cineastas para recibir comentarios. Señala que es posible que el modelo existente no simule con precisión la física de una escena compleja y que no interprete adecuadamente ciertos casos de causa y efecto.