Ha habido muchos intentos de crear asistentes de voz de código abierto impulsados por IA (ver Rhasspy, Mycroft y Jasper, por nombrar algunos), todos establecidos con el objetivo de crear experiencias fuera de línea que preserven la privacidad y que no comprometan la funcionalidad. Pero se ha demostrado que el desarrollo es extraordinariamente lento. Esto se debe a que, además de todos los desafíos habituales que conllevan los proyectos de código abierto, programar un asistente es duro. Tecnologías como el Asistente de Google, Siri y Alexa tienen años, si no décadas, de I+D a sus espaldas y, además, una enorme infraestructura.
Pero eso no disuade a la gente de Large-scale Artificial Intelligence Open Network (LAION), la organización sin fines de lucro alemana responsable de mantener algunos de los conjuntos de datos de entrenamiento de IA más populares del mundo. Este mes, LAION anunció una nueva iniciativa, BUD-E, que busca construir un asistente de voz “totalmente abierto” capaz de ejecutarse en hardware de consumo.
¿Por qué lanzar un proyecto de asistente de voz completamente nuevo cuando hay innumerables en distintos estados de abandono? Wieland Brendel, miembro del Instituto Ellis y colaborador de BUD-E, cree que no existe un asistente abierto con una arquitectura lo suficientemente extensible como para aprovechar al máximo las tecnologías GenAI emergentes, en particular los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) similares a ChatGPT de OpenAI.
“La mayoría de las interacciones con [assistants] confiar en interfaces de chat con las que es bastante complicado interactuar, [and] los diálogos con esos sistemas se sienten forzados y antinaturales”, dijo Brendel a TechCrunch en una entrevista por correo electrónico. “Esos sistemas están bien para transmitir comandos para controlar la música o encender la luz, pero no son la base para conversaciones largas y atractivas. El objetivo de BUD-E es proporcionar la base para un asistente de voz que se sienta mucho más natural para los humanos y que imite los patrones naturales del habla de los diálogos humanos y recuerde conversaciones pasadas”.
Brendel agregó que LAION también quiere garantizar que cada componente de BUD-E pueda eventualmente integrarse con aplicaciones y servicios sin licencia, incluso comercialmente, lo que no es necesariamente el caso de otros esfuerzos de asistente abierto.
Una colaboración con el Instituto Ellis de Tubinga, la consultora tecnológica Collabora y el Centro de IA de Tubinga, BUD-E (abreviatura recursiva de “Buddy for Understanding and Digital Empathy”) tiene una hoja de ruta ambiciosa. en un entrada en el blogel equipo de LAION expone lo que esperan lograr en los próximos meses, principalmente incorporar “inteligencia emocional” en BUD-E y garantizar que pueda manejar conversaciones que involucren a varios oradores a la vez.
“Existe una gran necesidad de un asistente de voz natural que funcione bien”, dijo Brendel. “LAION ha demostrado en el pasado que es excelente para construir comunidades, y el Instituto ELLIS de Tübingen y el Centro de IA de Tübingen se comprometen a proporcionar los recursos para desarrollar el asistente”.
BUD-E está en funcionamiento: usted puede descargar e instálelo hoy desde GitHub en una PC con Ubuntu o Windows (macOS está por llegar), pero está muy claramente en las primeras etapas.
LAION reunió varios modelos abiertos para ensamblar un MVP, incluido Phi-2 LLM de Microsoft, StyleTTS2 de conversión de texto a voz de Columbia y FastConformer de Nvidia para conversión de voz a texto. Como tal, la experiencia está un poco optimizada. Para lograr que BUD-E responda a comandos en aproximadamente 500 milisegundos (en el rango de asistentes de voz comerciales como Google Assistant y Alexa) se requiere una GPU robusta como la de Nvidia. RTX 4090.
Collabora está trabajando pro bono para adaptar sus modelos de reconocimiento de voz y texto a voz de código abierto, WhisperLive y WhisperSpeech, para BUD-E.
“Construir nosotros mismos las soluciones de texto a voz y reconocimiento de voz significa que podemos personalizarlas hasta un punto que no es posible con modelos cerrados expuestos a través de API”, Jakub Piotr Cłapa, investigador de IA en Collabora y miembro del equipo BUD-E, dijo en un correo electrónico. “Al principio, Collabora empezó a trabajar en [open assistants] en parte porque tuvimos dificultades para encontrar una buena solución de conversión de texto a voz para un agente de voz basado en LLM para uno de nuestros clientes. Decidimos unir fuerzas con la comunidad de código abierto más amplia para hacer que nuestros modelos sean más accesibles y útiles”.
En el corto plazo, LAION dice que funcionará para hacer que los requisitos de hardware de BUD-E sean menos onerosos y reducir la latencia del asistente. Una tarea a más largo plazo es crear un conjunto de datos de diálogos para ajustar BUD-E, así como un mecanismo de memoria que permita a BUD-E almacenar información de conversaciones anteriores y un proceso de procesamiento de voz que pueda realizar un seguimiento de varias personas hablando. En seguida.
Le pregunté al equipo si accesibilidad era una prioridad, considerando que históricamente los sistemas de reconocimiento de voz no han funcionado bien con idiomas que no son el inglés y acentos que no son transatlánticos. Un Stanford estudiar descubrió que los sistemas de reconocimiento de voz de Amazon, IBM, Google, Microsoft y Apple tenían casi el doble de probabilidades de escuchar mal a los hablantes negros que a los blancos de la misma edad y género.
Brendel dijo que LAION no ignora la accesibilidad – pero que no es un “enfoque inmediato” para BUD-E.
“El primer objetivo es redefinir realmente la experiencia de cómo interactuamos con los asistentes de voz antes de generalizar esa experiencia a acentos e idiomas más diversos”, dijo Brendel.
Con ese fin, LAION tiene algunas ideas bastante extravagantes para BUD-E, que van desde un avatar animado para personificar al asistente hasta soporte para analizar los rostros de los usuarios a través de cámaras web para tener en cuenta su estado emocional.
La ética de esta última parte (el análisis facial) es un poco incierta, por decir lo menos. Pero Robert Kaczmarczyk, cofundador de LAION, destacó que LAION seguirá comprometida con la seguridad.
“[We] Cumplir estrictamente con las pautas éticas y de seguridad formuladas por la Ley de IA de la UE”, dijo a TechCrunch por correo electrónico, refiriéndose al marco legal que rige la venta y el uso de IA en la UE. La Ley de IA de la UE permite a los países miembros de la Unión Europea adoptar normas y salvaguardias más restrictivas para la IA de “alto riesgo”, incluidos los clasificadores de emociones.
“Este compromiso con la transparencia no sólo facilita la identificación temprana y la corrección de posibles sesgos, sino que también ayuda a la causa de la integridad científica”, añadió Kaczmarczyk. “Al hacer que nuestros conjuntos de datos sean accesibles, permitimos que la comunidad científica en general participe en investigaciones que mantengan los más altos estándares de reproducibilidad”.
Trabajo anterior de LAION no ha sido prístino en el sentido ético, y en este momento está llevando a cabo un proyecto separado algo controvertido sobre la detección de emociones. Pero quizás BUD-E sea diferente; Tendremos que esperar y ver.