tavusun niño de cuatro años La startup de IA generativa que ayuda a las empresas a crear “réplicas” digitales de individuos para campañas de video personalizadas automatizadas, ha confirmado una nueva financiación de $ 18 millones y reveló que está abriendo su plataforma para que terceros integren su tecnología en su propio software.
Informes surgió en agosto que Tavus había recaudado “alrededor de 18 millones de dólares”, pero los detalles eran escasos. La compañía ahora ha confirmado a TechCrunch que efectivamente ha recaudado 18 millones de dólares en una ronda Serie A liderada por Socios de riesgo de escala – un capital de riesgo en etapa inicial que anteriormente respaldó a empresas como Box, HubSpot y DocuSign. Otros inversores notables incluyen a Sequoia, que lideró la ronda inicial de 6,1 millones de dólares de Tavus el año pasado, que participó junto con Y Combinator (YC) y HubSpot.
El vídeo ocupa un lugar central
El movimiento de IA generativa se ejemplifica mejor con los motores de búsqueda basados en texto como ChatGPT y los modelos de texto a imagen como DALL-E, que OpenAI está a punto de combinar en una única plataforma que canta exclusivamente. Pero si nos guiamos por los últimos meses, la IA generativa podría estar en la cúspide de otra revolución menor, con el vídeo ocupando un lugar central.
OpenAI presentó recientemente Sora, un modelo de texto a video que podría transformar la industria creativa tal como la conocemos. Pero está lejos de ser el único actor en la ciudad, con gigantes tecnológicos como Google trabajando en herramientas similares durante varios años, sin mencionar una gran cantidad de nuevas empresas que han recaudado cantidades considerables de cambios de capital de riesgo durante el año pasado para diversas realizaciones de cómo la IA generativa podría cruzarse con el vídeo.
Tavus, por su parte, trabaja con sus clientes para crear réplicas de individuos mediante la clonación de voz y rostro. La idea es que los equipos de ventas y marketing puedan usar Tavus para enviar videos personalizados a clientes potenciales a escala, o tal vez un equipo de producto pueda crear videos tutoriales individualizados para incorporar nuevos clientes, todo a través de simples indicaciones basadas en texto que aprovechan la réplica digital creada previamente. Y al integrar Tavus con sistemas de terceros como Salesforce o Mailchimp, las empresas pueden automatizar gran parte de esto; por ejemplo, un cliente que completa un formulario en línea solicitando más información sobre un producto puede recibir un video por correo electrónico al instante, y un representante de ventas se dirige a él. prospecto por su nombre y explicando los siguientes pasos.
Tavus ha logrado conseguir algunos clientes de renombre en su corta vida hasta el momento, incluidos Salesforce y Meta, la empresa matriz de Facebook, cuyo cofundador y director ejecutivo Hassan Raza dijeron que están utilizando la plataforma para aumentar las ventas a sus respectivos clientes B2B a través de videos de demostración personalizados.
Tavus como plataforma
Hasta ahora, Tavus ha funcionado a través de una aplicación SaaS, a través de la cual los clientes crean sus propias plantillas de vídeo de IA. El proceso de incorporación requiere que una persona, como el director ejecutivo o el ejecutivo de ventas, grabar un vídeo de 15 minutos basado en un guión proporcionado por Tavus.
Luego, esto se utiliza para entrenar la IA, después de lo cual el usuario va a un editor web y selecciona qué partes del video desea personalizar definiendo las variables, como ubicación, nombre del ejecutivo, empresa o producto. Al vincular Tavus a su sistema CRM, las empresas pueden modificar cada una de estas variables para adaptarlas a un segmento de clientes en particular, como aquellos que han expresado interés en un producto en particular.
Las empresas pueden crear cientos de estas réplicas con diferente personal involucrado, repletas de diferentes antecedentes para diferentes mercados objetivo.
A través del editor de la aplicación, es posible generar cualquier cantidad de scripts diferentes para adjuntarlos a cada caso de uso, sin tener que volver a grabar ninguno de los videos originales.
Si bien este producto SaaS principal no va a desaparecer, Tavus hoy está levantando la tapa de una nueva versión turbo de su tecnología junto con la primera entrega de un conjunto de API para desarrolladores que permiten a terceros integrar Tavus en sus propias aplicaciones.
Reproducir exactamente
La primera faceta de la nueva plataforma de desarrollo de Tavus que llega es su “API de réplica”, que se trata de crear réplicas digitales “fotorrealistas” repletas de generación de texto a video. Con esto, una empresa puede replicar a una persona (por ejemplo, jefe de marketing o director ejecutivo) utilizando un nuevo modelo patentado creado por Tavus denominado “Phoenix” que se basa en un método de aprendizaje profundo llamado campo de radiación neuronal (NeRF). Esto puede generar una construcción 3D de una persona a partir de imágenes 2D en sólo un par de minutos.
“Básicamente, te permite crear videos completos con solo dos minutos de datos de entrenamiento, lo cual es un gran avance con respecto a cómo hacíamos anteriormente la personalización a escala”, dijo Raza a TechCrunch. “Y ahora todo lo que tienes que hacer es registrar dos minutos de datos de entrenamiento y se creará una réplica completa de ti. Y una vez que tengas la réplica, podrás hacer tantos vídeos como quieras, a partir de uno, dos o mil guiones”.
La réplica inaugural de API se basa en toda la funcionalidad del modelo Phoenix y captura los movimientos faciales de un individuo, incluidas las mejillas, la nariz, las cejas y los labios.
“Mover toda la cara genera realismo, naturalidad y calidad; cuando hablas, tu cara expresa emoción más allá del movimiento de tus labios”, explicó Raza. “Si desea generar un video completo a partir de un guión (en el que usted habla, uno que se vea natural y tenga una calidad increíblemente alta), querrá utilizar la réplica de la API”.
Sin embargo, Tavus también está desarrollando una serie de API adicionales, incluida una específicamente para sincronización de labios; uno para doblaje; y otro para ejecutar campañas de vídeo masivas y personalizadas.
La API de sincronización de labios tendrá un “costo de entrada menor”, según Raza, y es mejor para situaciones en las que “no es necesario un alto grado de calidad y realismo”.
Mientras tanto, la API de doblaje también utiliza el modelo de sincronización de labios, pero también incluye clonación de voz en varios idiomas, lo que significa que un usuario monolingüista puede enviar campañas de vídeo en cualquier número de idiomas utilizando su propia voz. En este caso, dado que la mayor parte del vídeo seguirá siendo el mismo, la API permite una simple sustitución de los movimientos de los labios para alinearlos con los diferentes sonidos que salen de la boca del usuario. Esto podría resultar útil para los creadores de un paquete de software de edición de video, por ejemplo, cuando desean permitir a sus usuarios agregar sincronización de labios, edición y doblaje a sus videos.
Y luego, la API de la campaña de video básicamente incluye la réplica de la API junto con una serie de herramientas adicionales, como alojamiento, mapeo de variables, miniaturas y análisis, para aquellos que buscan lanzar campañas de video a gran escala.
“Estamos brindando a cualquier desarrollador la capacidad de brindar una experiencia de campaña de video de extremo a extremo lista para usar, dentro de sus propias soluciones”, dijo Raza. “Mientras que las API de réplica y sincronización de labios son más un ‘modelo como servicio’, la API de campaña le brinda herramientas para crear fácilmente una plataforma de campaña de video con IA”.
Raza se mantuvo tímido sobre algunos de los primeros usuarios de la plataforma Tavus, pero dijo que está “trabajando con una de las plataformas de video más grandes” para la participación del cliente. “Están buscando llevar esto a sus millones de clientes que ya utilizan su plataforma para crear videos a diario”, dijo Raza.
Dilema falso
Instintivamente, plataformas como Tavus están propicias para un mal uso; después de todo, ¿qué impide que alguien cargue un vídeo preexistente para crear una réplica digital? De hecho, los deepfakes son una preocupación creciente en el floreciente movimiento de la IA, pero Raza dice que cuentan con controles para evitar trampas. Por ejemplo, cuando un usuario envía sus dos minutos de metraje de entrenamiento, también debe enviar una declaración de consentimiento verbal específica que luego se alinea con el audio del metraje de entrenamiento para garantizar que haya una coincidencia.
“Realizamos estas comprobaciones automáticamente y luego hacemos una verificación humana para cada réplica que pasa por las comprobaciones automáticas para garantizar la seguridad”, dijo Raza.
Es fácil ver cómo esto podría funcionar con Tavus como una aplicación SaaS independiente, pero ahora que es una plataforma a la que acceden cualquier cantidad de empresas a través de una API, ¿quién tiene entonces el control de la verificación? Bueno, resulta que Tavus sí lo es: la compañía quiere mantener sus manos en la rueda de verificación, incluso cuando simplemente proporciona el motor para desarrolladores externos.
“Realizamos los mismos controles y asumimos la responsabilidad de las verificaciones con [the] API también”, continuó Raza.
Ampliando la realidad
Si bien OpenAI se ha convertido casi en la cara pública de la IA generativa, hay espacio más que suficiente para que diferentes jugadores aporten algo diferente a la mezcla. De hecho, si bien el modelo Sora lanzado recientemente por DALL-E y OpenAI tiene como objetivo principal ayudar a las personas a crear imágenes a partir de indicaciones de texto, Raza dice que el modelo de Tavus razón de ser Se trata más de “extender” la propia realidad de una persona.
“Vemos un futuro en el que todos quieren tener una réplica digital de sí mismos, lo controlan y tienen plena autoridad sobre ello”, dijo Raza. “Y será importante que termine capturando más y más de tu personalidad, más y más de tus gestos y rasgos. Así es como vemos las cosas en el futuro: habrá modelos que crearán cosas que no existen, y luego estarán los modelos que extenderán tu realidad”.
Con 18 millones de dólares en el banco, Raza dijo que la reciente inyección de efectivo se utilizará para “alimentar el fuego que ya está ardiendo” en las torres Tavus.
“Somos una empresa de investigación de IA, por lo que queremos poder continuar con el desarrollo de modelos más nuevos como Phoenix”, dijo Raza. “Pero también para mantener nuestro crecimiento, hemos tenido una gran demanda continuamente. Y queremos poder contratar continuamente a nuestros equipos de ingeniería y aprendizaje automático para apoyar a nuestros desarrolladores y clientes de SaaS”.