Stable Audio 2.0, un modelo de generación de audio para Stability AI, ahora permite a los usuarios cargar sus propias muestras de audio que luego pueden transformar mediante indicaciones y crear canciones generadas por AI. Pero las canciones aún no ganarán ningún Grammy.
La primera versión de Stable Audio se lanzó en septiembre de 2023 y solo ofrecía hasta 90 segundos para algunos usuarios pagos, lo que significaba que solo podían crear clips de sonido cortos para experimentar. Stable Audio 2.0 ofrece un clip de sonido completo de tres minutos, la duración de la mayoría de las canciones de radio. Todo el audio cargado debe estar libre de derechos de autor.
A diferencia del modelo de generación de audio de OpenAI, Voice Engine, que solo está disponible para un grupo selecto de usuarios, Stability AI hizo que Stable Audio fuera gratuito y estuviera disponible públicamente a través de su sitio web y, pronto, su API.
Una gran diferencia entre Stable Audio 2.0 y su versión anterior es la capacidad de crear canciones que suenan como canciones, completas con una introducción, una progresión y una salida, dice Stability AI.
La compañía me dejó jugar un poco con Stable Audio para ver cómo funciona, y digamos que todavía queda un largo camino por recorrer antes de que pueda canalizar mi Beyoncé interior. Con el mensaje “canción folk pop con vibraciones americanas” (por cierto, me refiero a la americana), Stable Audio generó una canción que, en algunas partes, suena como si perteneciera a mi lista de reproducción de Spotify Mountain Vibes Listening Wednesday Morning. ¿Pero también agregó lo que supongo que son voces? Otro Borde El periodista afirma que suena como sonidos de ballenas. Me preocupa más haber convocado accidentalmente a una entidad a mi casa.
En teoría, podría modificar el audio para adaptarlo más a mi estilo de escucha, ya que las nuevas funciones de Stable Audio 2.0 permiten a los usuarios personalizar su proyecto ajustando la intensidad del mensaje (es decir, cuánto se debe seguir el mensaje) y cuánto del audio cargado se modificará. . Los usuarios también pueden agregar efectos de sonido como el rugido de una multitud o toques de teclado.
Dejando a un lado los extraños ruidos gregorianos de las ballenas, no es una sorpresa que las canciones generadas por IA todavía parezcan extrañas y sin alma. Mi colega Wes Davis reflexionó sobre esto después de escuchar una canción generada por Suno. Otras empresas, como Meta y Google, también han estado incursionando en la generación de audio mediante IA, pero no han lanzado sus modelos públicamente mientras recopilan comentarios de los desarrolladores para responder al desalmado problema del sonido.
Stability AI dijo en un comunicado de prensa que Stable Audio se entrena con datos de AudioSparx, que tiene una biblioteca de más de 800.000 archivos de audio. Stability AI sostiene que a los artistas de AudioSparx se les permitió optar por no recibir su material para entrenar el modelo. La capacitación sobre audio protegido por derechos de autor fue una de las razones por las que el ex vicepresidente de audio de Stability AI, Ed Newton-Rex, dejó la empresa poco después del lanzamiento de Stable Audio. Para esta versión, Stability AI dice que se asoció con Audible Magic para usar su tecnología de reconocimiento de contenido para rastrear y bloquear la entrada de material con derechos de autor a la plataforma.
Stable Audio 2.0 es mejor que su versión anterior en hacer que las canciones suenen como canciones, pero aún no ha llegado a ese punto. Si el modelo insiste en agregar algún tipo de voz, tal vez la próxima versión tenga un lenguaje más discernible.