OpenAI, siguiendo los pasos de startups como Runway y gigantes tecnológicos como Google y Meta, se está adentrando en la generación de vídeos.
OpenAI presentado hoy sora, un modelo GenAI que crea videos a partir de texto. Dada una descripción breve (o detallada) o una imagen fija, Sora puede generar escenas similares a películas de 1080p con múltiples personajes, diferentes tipos de movimiento y detalles de fondo, afirma OpenAI.
Sora también puede “ampliar” videoclips existentes, haciendo todo lo posible para completar los detalles que faltan.
“Sora tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes que expresan emociones vibrantes”, escribe OpenAI en una publicación de blog. “El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, sino también cómo existen esas cosas en el mundo físico”.
Ahora, hay mucha grandilocuencia en la página de demostración de OpenAI para Sora; la declaración anterior es un ejemplo. Pero las muestras cuidadosamente seleccionadas del modelo hacer Parece bastante impresionante, al menos en comparación con las otras tecnologías de texto a video que hemos visto.
Para empezar, Sora puede generar vídeos en una variedad de estilos (por ejemplo, fotorrealistas, animados, en blanco y negro, etc.) de hasta un minuto, mucho más que la mayoría de los modelos de conversión de texto a vídeo. Y estos videos mantienen una coherencia razonable en el sentido de que no siempre sucumben a lo que me gusta llamar “rarezas de la IA”, como objetos que se mueven en direcciones físicamente imposibles.
Echa un vistazo a este recorrido por una galería de arte, todo generado por Sora (ignora la granulosidad, compresión de mi herramienta de conversión de video-GIF):
O esta animación de una flor floreciendo:
Diré que algunos de los videos de Sora con un sujeto humanoide (un robot parado frente a un paisaje urbano, por ejemplo, o una persona caminando por un sendero nevado) tienen una calidad de videojuego, tal vez porque no están sucediendo muchas cosas. en el fondo. Además, la rareza de la IA logra colarse en muchos clips, como autos que conducen en una dirección y luego dan marcha atrás de repente o brazos que se derriten en una funda nórdica.
OpenAI, a pesar de todos sus superlativos, reconoce que el modelo no es perfecto. Escribe:
“[Sora] Puede tener dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco. El modelo también puede confundir los detalles espaciales de un mensaje, por ejemplo, mezclando izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica”.
OpenAI está posicionando a Sora como una vista previa de la investigación, revelando poco sobre qué datos se usaron para entrenar el modelo (menos de ~10,000 horas de video de “alta calidad”) y absteniéndose de hacer que Sora esté disponible de manera generalizada. Su fundamento es el potencial de abuso; OpenAI señala correctamente que los malos actores podrían hacer mal uso de un modelo como Sora de innumerables maneras.
OpenAI dice que está trabajando con expertos para probar el modelo en busca de exploits y crear herramientas para detectar si Sora generó un video. La compañía también dice que, si decide convertir el modelo en un producto público, se asegurará de que los metadatos de procedencia se incluyan en los resultados generados.
“Involucraremos a formuladores de políticas, educadores y artistas de todo el mundo para comprender sus preocupaciones e identificar casos de uso positivos para esta nueva tecnología”, escribe OpenAI. “A pesar de investigaciones y pruebas exhaustivas, no podemos predecir todas las formas beneficiosas en que las personas utilizarán nuestra tecnología, ni todas las formas en que abusarán de ella. Es por eso que creemos que aprender del uso en el mundo real es un componente crítico para crear y lanzar sistemas de IA cada vez más seguros con el tiempo”.