La batalla legal de OpenAI con The New York Times por los datos para entrenar sus modelos de IA aún podría estar gestándose. Pero OpenAI está avanzando en acuerdos con otros editores, incluidos algunos de los editores de noticias más grandes de Francia y España.
OpenAI el miércoles Anunciado que firmó contratos con Le Monde y Prisa Media para llevar contenido de noticias en francés y español al chatbot ChatGPT de OpenAI. En una publicación de blog, OpenAI dijo que la asociación pondrá la cobertura de eventos actuales de las organizaciones (de marcas como El País, Cinco Días, As y El Huffpost) frente a los usuarios de ChatGPT cuando tenga sentido, además de contribuir al progreso de OpenAI. -Volumen en expansión de datos de entrenamiento.
OpenAI escribe:
Durante los próximos meses, los usuarios de ChatGPT podrán interactuar con contenido de noticias relevante de estos editores a través de resúmenes seleccionados con atribución y enlaces mejorados a los artículos originales, brindando a los usuarios la posibilidad de acceder a información adicional o artículos relacionados desde sus sitios de noticias… Estamos continuamente mejorando ChatGPT y apoyando el papel esencial de la industria de las noticias en la entrega de información autorizada en tiempo real a los usuarios.
Entonces, los acuerdos de licencia revelados de OpenAI con un puñado de proveedores de contenido en este momento. Ahora me pareció una buena oportunidad para hacer un balance:
- Biblioteca multimedia de stock Shutterstock (para imágenes, vídeos y datos de formación musical)
- La Prensa Asociada
- Axel Springer (propietario de Politico y Business Insider, entre otros)
- El mundo
- Prisa Medios
¿Cuánto paga OpenAI a cada uno? Bueno, no lo dice, al menos no públicamente. Pero podemos estimar.
La información reportado En enero, OpenAI ofrecía a los editores entre 1 y 5 millones de dólares al año para acceder a archivos para entrenar sus modelos GenAI. Eso no nos dice mucho sobre la asociación con Shutterstock. Pero en el frente de las licencias de artículos, suponiendo que los informes de The Information sean precisos y que esas cifras no hayan cambiado desde entonces, OpenAI está desembolsando entre 4 y 20 millones de dólares al año en noticias.
Eso podría ser unos centavos para OpenAI, cuyo fondo de operaciones asciende a más de 11.000 millones de dólares y cuyos ingresos anualizados recientemente superaron los 2.000 millones de dólares (por Tiempos financieros). Pero como reflexionó recientemente Hunter Walk, socio de Homebrew y cofundador de Screendoor, es lo suficientemente sustancial como para superar potencialmente a los rivales de IA que también buscan acuerdos de licencia.
Caminar escribe en su blog:
[I]Si la experimentación está limitada por acuerdos de licencia por valor de nueve cifras, no le estamos haciendo ningún favor a la innovación… Los controles que se imponen a los “propietarios” de los datos de capacitación están creando una enorme barrera de entrada para los rivales. Si Google, OpenAI y otras grandes empresas tecnológicas pueden establecer un costo lo suficientemente alto, implícitamente impiden la competencia futura.
Ahora bien, hoy en día es discutible si existe una barrera de entrada. Muchos (si no la mayoría) proveedores de IA han optado por arriesgarse a la ira de los titulares de propiedad intelectual, optando por no licenciar los datos con los que están entrenando modelos de IA. Hay pruebas de que la plataforma generadora de arte Midjourney, por ejemplo, está capacitación en fotogramas de películas de Disney, y Midjourney no tiene ningún acuerdo con Disney.
La pregunta más difícil de abordar es: ¿las licencias deberían ser simplemente el costo de hacer negocios y experimentar en el espacio de la IA?
Caminar diría que no. Aboga por un “puerto seguro” impuesto por los reguladores que protegería a cualquier proveedor de IA (así como a las nuevas empresas e investigadores de poca monta) de responsabilidad legal, siempre y cuando respeten ciertas normas éticas y de transparencia.
Curiosamente, el Reino Unido recientemente intentó codificar algo en ese sentido, eximiendo el uso de texto y minería de datos para el entrenamiento de IA de consideraciones de derechos de autor siempre que sea para fines de investigación. Pero esos esfuerzos terminaron fracasando.
Yo, no estoy seguro de ir tan lejos como Walk en su propuesta de “puerto seguro”, considerando el impacto que la IA amenaza tener en una industria de noticias ya desestabilizada. Un modelo reciente de The Atlantic encontró que, si un motor de búsqueda como Google integrase la IA en la búsqueda, respondería a la consulta de un usuario el 75% de las veces sin necesidad de hacer clic en su sitio web.
Pero tal vez haya es espacio para carve-outs.
A los editores se les debe pagar, y de manera justa. Sin embargo, ¿no hay un resultado en el que se les pague y los rivales de los titulares de la IA, así como los académicos, tengan acceso a los mismos datos? Como esos titulares? Debería pensarlo. Las subvenciones son unidireccionales. Los cheques de capital de riesgo más grandes son otra.
No puedo decir que tengo la solución, especialmente teniendo en cuenta que los tribunales aún tienen que decidir si (y en qué medida) el uso legítimo protege a los proveedores de IA de reclamaciones de derechos de autor. Pero es vital que descubramos estas cosas. De lo contrario, la industria bien podría terminar en una situación en la que la “fuga de cerebros” académica continúe sin disminuir y sólo unas pocas empresas poderosas tengan acceso a vastos conjuntos de valiosos conjuntos de capacitación.