Investigadores de Amazon han entrenado el modelo de conversión de texto a voz más grande jamás creado hasta el momento y, según afirman, exhibe cualidades “emergentes” que mejoran su capacidad para pronunciar incluso oraciones complejas de forma natural. El avance podría ser lo que la tecnología necesita para escapar del valle inquietante.
Estos modelos siempre iban a crecer y mejorar, pero los investigadores esperaban específicamente ver el tipo de salto en la capacidad que observamos una vez que los modelos de lenguaje superaban cierto tamaño. Por razones que desconocemos, una vez que los LLM superan cierto punto, comienzan a ser mucho más robustos y versátiles, capaces de realizar tareas para las que no fueron capacitados.
Eso no quiere decir que estén ganando sensibilidad ni nada por el estilo, solo que pasado cierto punto su desempeño en ciertas tareas conversacionales de IA se vuelve palo de hockey. El equipo de Amazon AGI (no es ningún secreto a qué apuntan) pensó que podría suceder lo mismo a medida que crecieran los modelos de conversión de texto a voz, y su investigación sugiere que, de hecho, este es el caso.
El nuevo modelo se llama Gran TTS adaptable y transmitible con habilidades emergentes, que han transformado en la abreviatura BASE TTS. La versión más grande del modelo utiliza 100.000 horas de discurso de dominio público, el 90% de las cuales es en inglés y el resto en alemán, holandés y español.
Con 980 millones de parámetros, BASE-large parece ser el modelo más grande en esta categoría. También entrenaron modelos de parámetros de 400M y 150M basados en 10,000 y 1,000 horas de audio respectivamente, para comparar; la idea es que, si uno de estos modelos muestra comportamientos emergentes pero otro no, tienes un rango donde comienzan esos comportamientos. para emerger.
Resulta que el modelo de tamaño mediano mostró el salto en la capacidad que el equipo estaba buscando, no necesariamente en la calidad del habla ordinaria (se revisa mejor pero solo por un par de puntos), sino en el conjunto de habilidades emergentes que observaron y midieron. . Aquí hay ejemplos de texto complicado. mencionado en el periódico:
- Nombres compuestos: Los Beckham decidieron alquilar una encantadora casa de vacaciones en el campo, construida en piedra.
- Emociones: “¡Oh Dios mío! ¿Realmente vamos a las Maldivas? ¡Eso es increíble!” Jennie chilló, saltando sobre las puntas de sus pies con alegría incontenida.
- Palabras extranjeras: “Señor. Henry, famoso por su mise en place, orquestó una comida de siete platos, cada uno de los cuales era una pieza de resistencia.
- Paralingüística (es decir, no palabras legibles): “Shh, Lucy, shhh, no debemos despertar a tu hermanito”, susurró Tom, mientras pasaban de puntillas por la guardería.
- puntuaciones: Recibió un extraño mensaje de texto de su hermano: ‘Emergencia en casa; llama lo antes posible! Mamá y papá están preocupados…#asuntosfamiliares.’
- Preguntas: Pero la pregunta sobre el Brexit persiste: después de todas las pruebas y tribulaciones, ¿encontrarán los ministros las respuestas a tiempo?
- Complejidades sintácticas: La película que protagonizó De Moya, recientemente galardonado con el premio a la trayectoria, en 2022 fue un éxito de taquilla, a pesar de las críticas mixtas.
“Estas oraciones están diseñadas para contener tareas desafiantes: analizar oraciones de senderos de jardín, poner énfasis en sustantivos compuestos largos, producir un habla emocional o susurrada, o producir los fonemas correctos para palabras extranjeras.
palabras como “qi” o puntuaciones como “@”, ninguna de las cuales BASE TTS está explícitamente entrenada para realizar”, escriben los autores.
Estas características normalmente hacen tropezar los motores de conversión de texto a voz, que pronuncian mal, se saltan palabras, usan entonaciones extrañas o cometen algún otro error garrafal. BASE TTS todavía tuvo problemas, pero lo hizo mucho mejor que sus contemporáneos: modelos como Tortoise y VALL-E.
Hay un montón de ejemplos de estos textos difíciles pronunciados con bastante naturalidad por el nuevo modelo. en el sitio que le hicieron. Por supuesto, estos fueron elegidos por los investigadores, por lo que necesariamente son seleccionados cuidadosamente, pero de todos modos es impresionante. Aquí hay un par, si no tiene ganas de hacer clic:
Debido a que los tres modelos BASE TTS comparten una arquitectura, parece claro que el tamaño del modelo y la extensión de sus datos de entrenamiento parecen ser la causa de la capacidad del modelo para manejar algunas de las complejidades anteriores. Tenga en cuenta que esto sigue siendo un modelo y un proceso experimentales, no un modelo comercial ni nada por el estilo. Investigaciones posteriores tendrán que identificar el punto de inflexión para la capacidad emergente y cómo entrenar e implementar el modelo resultante de manera eficiente.
En particular, este modelo es “transmitible”, como su nombre lo indica, lo que significa que no necesita generar oraciones completas a la vez, sino que avanza momento a momento a una tasa de bits relativamente baja. El equipo también intentó empaquetar los metadatos del habla, como la emotividad, la prosodia, etc., en una secuencia separada de bajo ancho de banda que podría acompañar al audio básico.
Parece que los modelos de conversión de texto a voz pueden tener un momento decisivo en 2024, ¡justo a tiempo para las elecciones! Pero no se puede negar la utilidad de esta tecnología, en particular para la accesibilidad. El equipo señala que se negó a publicar la fuente del modelo y otros datos debido al riesgo de que los malos actores se aprovechen de él. Sin embargo, el gato eventualmente saldrá de esa bolsa.