OpenAI cautivó al mundo de la tecnología hace unos meses con un modelo de IA generativa, Sora, que convierte descripciones de escenas en videos originales, sin necesidad de cámaras ni equipos de filmación. Pero hasta ahora Sora ha estado muy cerca y la firma parece estar apuntando a creativos bien financiados como directores de hollywood – no necesariamente aficionados o vendedores de poca monta.
Alex Mashrabov, exjefe de IA generativa de Snap, percibió una oportunidad. Así que lanzó IA de Higgsfielduna plataforma de creación y edición de videos basada en inteligencia artificial diseñada para aplicaciones más personalizadas y adaptadas.
Impulsada por un modelo personalizado de texto a video, la primera aplicación de Higgsfield, Diffuse, puede generar videos desde cero o tomar una selfie y generar un clip protagonizado por esa persona.
“Nuestro público objetivo son creadores de todo tipo”, dijo Mashrabov a TechCrunch en una entrevista, “desde usuarios habituales que quieren crear contenido divertido con sus amigos hasta creadores de contenido social que buscan probar un nuevo formato de contenido y especialistas en marketing de redes sociales que quieren su marca”. para destacar.”
Mashrabov llegó a Snap a través de AI Factory, su startup anterior, que Snap adquirió en 2020 por 166 millones de dólares. Mientras estuvo en Snap, Mashrabov ayudó a crear productos como efectos AR y filtros para Snapchat, incluidos Cameos, así como el controvertido chatbot MyAI de Snapchat.
Higgsfield, que Mashrabov colanzó hace varios meses con Yerzat Dulat, un investigador de inteligencia artificial especializado en videos generativos, ofrece un conjunto seleccionado de clips pregenerados, una herramienta para cargar medios de referencia (es decir, imágenes y videos) y un editor rápido que permite a los usuarios describir los personajes, acciones y escenas que desean representar. Con Diffuse, los usuarios pueden insertarse directamente en una escena generada por IA o hacer que su imagen digital imite cosas, como movimientos de baile, capturados en otros videos.
Créditos de imagen: Higgsfield
“Nuestro modelo admite movimientos y expresiones muy realistas”, dijo Mashrabov. “Somos pioneros en ‘modelos mundiales’ para consumidores, lo que nos permitirá crear la mejor generación y edición de video de su clase con un gran nivel de control”.
Higgsfield no es la única startup de video generativo que se enfrenta a OpenAI. Runway fue uno de los primeros en llegar a escena y sus herramientas continúan mejorando. También está Haiper, que cuenta con el respaldo de dos alumnos de DeepMind y más de 13 millones de dólares en efectivo de riesgo.
Mashrabov sostiene que Diffuse se destacará gracias a su estrategia de salida al mercado centrada en los dispositivos móviles y las redes sociales.
“Al priorizar las aplicaciones de iOS y Android en lugar de los flujos de trabajo de escritorio, permitimos a los creadores crear contenido atractivo para las redes sociales en cualquier momento y en cualquier lugar”, dijo Mashrabov. “De hecho, al desarrollar dispositivos móviles, podemos priorizar la facilidad de uso y las funciones amigables para el consumidor desde el primer día”.
Higgsfield también está funcionando magro. Mashrabov dice que los modelos generativos que sustentan la plataforma fueron desarrollados por un equipo de 16 personas en menos de nueve meses y entrenados en un grupo de 32 GPU. (32 GPU pueden parecer muchas, pero considerando que OpenAI usa decenas de miles, no lo es). en realidad.) Y Higgsfield solo ha recaudado $8 millones hasta la fecha, la mayor parte de los cuales provino de un reciente tramo de financiación inicial liderado por Menlo Ventures.
![Higgsfield](https://techcrunch.com/wp-content/uploads/2024/03/ezgif-1-1b5ecc9bd2.gif)
Créditos de imagen: Higgsfield
Para mantenerse un paso por delante de sus rivales, Higgsfield planea destinar el dinero inicial a la construcción de un editor de video mejorado que permitirá a los usuarios modificar personajes y objetos en videos, y a entrenar modelos de generación de video más potentes específicamente para casos de uso de redes sociales. De hecho, Mashrabov considera que las redes sociales (y el marketing en redes sociales) son el principal nicho de Higgsfield para generar dinero.
Si bien Diffuse es actualmente de uso gratuito, Mashrabov imagina un futuro en el que los especialistas en marketing paguen algún tipo de tarifa o suscripción por funciones premium, o por campañas de volumen o a gran escala.
“Creemos que Higgsfield desbloquea un nivel increíble de realismo y casos de uso de producción de contenido para los especialistas en marketing de redes sociales”, dijo. “Constantemente escuchamos a los CMO y directores creativos decir que necesitan optimizar los presupuestos de producción de contenido y acortar los plazos sin dejar de ofrecer contenido impactante. Por eso creemos que las soluciones de inteligencia artificial generativa de video serán una solución fundamental para ayudarlos a lograrlo”.
Por supuesto, Higgsfield no es inmune a los desafíos más amplios que enfrentan las nuevas empresas de IA generativa.
Está bien establecido que los modelos de IA generativa como el que impulsa Diffuse pueden “regurgitar” datos de entrenamiento. ¿Por qué es eso problemático? Bueno, si los modelos fueran entrenados en contenido protegido por derechos de autor sin permiso o sin algún tipo de acuerdo de licencia vigente, los usuarios de esos modelos podrían generar sin saberlo un trabajo que infrinja los derechos de autor, exponiéndolos a demandas.
![Higgsfield](https://techcrunch.com/wp-content/uploads/2024/03/ezgif-1-0ce2b14fb6.gif)
Créditos de imagen: Higgsfield
Mashrabov no reveló la fuente de los datos de entrenamiento de Higgsfield (aparte de decir que provienen de “múltiples lugares disponibles públicamente”) y tampoco dijo si Higgsfield conservaría los datos de los usuarios para entrenar modelos futuros, lo que podría no sentar bien a algunos. clientes empresariales. Señaló que los usuarios de Diffuse pueden solicitar que se eliminen sus datos en cualquier momento a través de la aplicación.
Las plataformas de “clonación” digital como Higgsfield también son propicias para el abuso, como lo ha demostrado la proliferación de deepfakes en las redes sociales en los últimos meses.
De manera similar, Higgsfield podría facilitar el robo de contenido de los creadores. Por ejemplo, sólo es necesario subir un vídeo de la coreografía de alguien para generar un vídeo de ellos mismos interpretando esa misma coreografía.
Le pregunté a Mashrabov qué salvaguardas o protecciones podría estar usando Higgsfield para intentar prevenir el abuso y, aunque no entró en detalles, afirmó que la plataforma emplea una combinación de moderación manual y automatizada.
“Hemos decidido implementar gradualmente el producto y probarlo primero en mercados selectos, para poder monitorear dónde existe el potencial de abuso y evolucionar el producto según sea necesario”, agregó Mashrabov.
Tendremos que esperar y ver qué tan bien funciona en la práctica.