gramo profundo se ha hecho un nombre como una de las startups preferidas para el reconocimiento de voz. Hoy, la empresa bien financiada anunció el lanzamiento de Aura, su nueva API de conversión de texto a voz en tiempo real. Aura combina modelos de voz muy realistas con una API de baja latencia para permitir a los desarrolladores crear agentes de IA conversacionales en tiempo real. Respaldados por modelos de lenguaje grande (LLM), estos agentes pueden luego sustituir a los agentes de servicio al cliente en centros de llamadas y otras situaciones de cara al cliente.
Como me dijo el cofundador y director ejecutivo de Deepgram, Scott Stephenson, durante mucho tiempo ha sido posible acceder a excelentes modelos de voz, pero eran costosos y tomaban mucho tiempo calcularlos. Mientras tanto, los modelos de baja latencia tienden a parecer robóticos. Aura de Deepgram combina modelos de voz similares a los humanos que se reproducen extremadamente rápido (generalmente en menos de medio segundo) y, como Stephenson señaló repetidamente, lo hace a un precio bajo.
“Ahora todo el mundo dice: ‘oye, necesitamos robots de inteligencia artificial de voz en tiempo real que puedan percibir lo que se dice y que puedan comprender y generar una respuesta, y luego puedan responder'”, dijo. En su opinión, se necesita una combinación de precisión (que describió como algo en juego para un servicio como este), baja latencia y costos aceptables para que un producto como este valga la pena para las empresas, especialmente cuando se combina con el costo relativamente alto de acceder a los LLM. .
Deepgram sostiene que el precio de Aura actualmente supera a prácticamente todos sus competidores con 0,015 dólares por 1.000 caracteres. Eso no está tan lejos del precio que Google ofrece por su Voces WaveNet a 0,016 por 1.000 caracteres y Polly’s de Amazon Neural voces al mismo precio de 0,016 dólares por cada 1.000 caracteres, pero, por supuesto, es más barato. Sin embargo, el nivel más alto de Amazon es significativamente más caro.
“Tienes que alcanzar un precio realmente bueno en todos [segments], pero también debes tener latencias y velocidades asombrosas, y también una precisión asombrosa. Así que es algo realmente difícil de lograr”, dijo Stephenson sobre el enfoque general de Deepgram para desarrollar su producto. “Pero esto es en lo que nos enfocamos desde el principio y es por eso que construimos durante cuatro años antes de lanzar algo, porque estábamos construyendo la infraestructura subyacente para hacerlo realidad”.
Aura ofrece alrededor una docena modelos de voz en este punto, todos los cuales fueron entrenados por un conjunto de datos que Deepgram creó junto con actores de voz. El modelo Aura, al igual que todos los demás modelos de la empresa, fue entrenado internamente. Así es como suena:
Puedes probar una demostración de Aura aquí. Lo he estado probando durante un tiempo y, aunque a veces te encontrarás con algunas pronunciaciones extrañas, la velocidad es realmente lo que destaca, además del modelo de voz a texto de alta calidad existente de Deepgram. Para resaltar la velocidad a la que genera respuestas, Deepgram observa el tiempo que le tomó al modelo comenzar a hablar (generalmente menos de 0,3 segundos) y cuánto tiempo le tomó al LLM terminar de generar su respuesta (que generalmente es poco menos de un segundo).