Stability AI, la startup detrás del generador de arte impulsado por IA Stable Diffusion, ha lanzado un modelo de IA abierto para generar sonidos y canciones que, según afirma, fue entrenado exclusivamente en grabaciones libres de derechos.
Llamado Stable Audio Open, el modelo generativo toma una descripción de texto (por ejemplo, “ritmo de rock tocado en un estudio tratado, sesión de batería en un kit acústico”) y genera una grabación de hasta 47 segundos de duración. El modelo se entrenó utilizando alrededor de 486.000 muestras de las bibliotecas de música gratuitas FreeSound y Free Music Archive.
Stability AI dice que el modelo se puede utilizar para crear ritmos de batería, riffs de instrumentos, ruidos ambientales y “elementos de producción” para videos, películas y programas de televisión, así como para “editar” canciones existentes o aplicar el estilo de una canción (por ejemplo, suave jazz) a otro.
“Un beneficio clave de esta versión de código abierto es que los usuarios pueden ajustar el modelo con sus propios datos de audio personalizados”, Stability AI escribió en una entrada en su blog corporativo. “Por ejemplo, un baterista podría afinar muestras de sus propias grabaciones de batería para generar nuevos ritmos”.
Sin embargo, Stable Audio Open tiene sus limitaciones. No puede producir canciones, melodías o voces completas, al menos no buenas. Stability AI dice que no está optimizado para esto y sugiere que los usuarios que buscan esas capacidades opten por el servicio premium Stable Audio de la compañía.
Stable Audio Open tampoco se puede utilizar comercialmente; sus términos de servicio lo prohíben. Y no funciona igual de bien en todos los estilos musicales y culturas o con descripciones en idiomas distintos del inglés: sesgos que Stability AI atribuye a los datos de entrenamiento.
“La fuente de datos potencialmente carece de diversidad y no todas las culturas están igualmente representadas en el conjunto de datos”, escribe Stability AI en un descripción del modelo. “Las muestras generadas por el modelo reflejarán los sesgos de los datos de entrenamiento”.
IA de estabilidad, que tiene luchó durante mucho tiempo para revertir su decaído negocio, se convirtió recientemente en tema de controversia después de que su vicepresidente de audio generativo, Ed Newton-Rex, renunció por desacuerdo con la postura de la compañía de que entrenar modelos de IA generativa en obras protegidas por derechos de autor constituye un “uso justo”. Stable Audio Open parecería ser un intento de cambiar esa narrativa y, al mismo tiempo, publicitar de manera no tan sutil los productos pagos de Stability AI.
A medida que los generadores de música, incluido Stability, ganan popularidad, los derechos de autor (y las formas en que algunos creadores de generadores podrían estar abusando de ellos) se están convirtiendo en un punto central de atención.
En mayo, Sony Music, que representa a artistas como Billy Joel, Doja Cat y Lil Nas X, envió una carta a 700 empresas de IA advierten contra el “uso no autorizado” de su contenido para entrenar generadores de audio. Y en marzo, se aprobó la primera ley de Estados Unidos destinada a frenar los abusos de la IA en la música. firmado en ley en Tennesse.