Las perspectivas de Reddit a medida que avanza hacia una cotización en el mercado de valores tienen mucho más que ver con las relaciones con proveedores de inteligencia artificial como OpenAI de lo que cabría esperar.
En su prospecto de IPO presentado hoy ante la Comisión de Bolsa y Valores de EE. UU., Reddit enfatizó repetidamente cuánto cree que puede ganar (y ha ganado) de los acuerdos de licencia de datos con las empresas que entrenan modelos de IA en sus más de mil millones de puestos y más de 16 mil millones. comentarios.
“En enero de 2024, celebramos ciertos acuerdos de licencia de datos con un valor de contrato agregado de 203,0 millones de dólares y plazos que oscilan entre dos y tres años”, se lee en el prospecto. “Esperamos que se reconozca un mínimo de 66,4 millones de dólares de ingresos durante el año que finaliza el 31 de diciembre de 2024 y el resto a partir de entonces”.
Ahora, es un misterio qué proveedores de IA están otorgando licencias de datos de Reddit hasta ahora. A principios de esta semana, Bloomberg y Reuters reportado que una “gran empresa de inteligencia artificial anónima” – posiblemente Google – había celebrado un acuerdo de licencia por valor de unos 60 millones de dólares sobre una base anualizada. Pero OpenAI tampoco sería un cliente sorprendente, especialmente considerando que el CEO de OpenAI, Sam Altman, tiene un 8,7%. apostar en Reddit (lo que lo convierte en el tercer mayor accionista) y una vez fue miembro de la junta directiva de la empresa.
¿Por qué son valiosos los datos de Reddit? Como explica Reddit, los modelos de IA “aprenden” de ejemplos para elaborar ensayos, códigos, correos electrónicos, artículos y más, y proveedores como OpenAI buscan en la web millones o miles de millones de estos ejemplos para agregarlos a sus conjuntos de capacitación. Algunos ejemplos son de dominio público. Otros no lo son o, en el caso del contenido de Reddit, están sujetos a licencias restrictivas que requieren citación o formas específicas de compensación.
Reddit anteriormente no impedía el acceso a sus datos con fines de entrenamiento de IA. Pero el año pasado cambió de rumbo, argumentando que sus datos no deberían ser (en palabras del CEO Steve Huffman) “[given] a algunas de las empresas más grandes del mundo de forma gratuita”.
“Los datos de Reddit son una pieza fundamental para la construcción de la tecnología de inteligencia artificial actual y muchos modelos de lenguaje importantes”, continúa el prospecto. “Creemos que el enorme corpus de datos y conocimientos conversacionales de Reddit seguirá desempeñando un papel en la formación y mejora de grandes modelos lingüísticos. A medida que nuestro contenido se actualiza y crece diariamente, esperamos que los modelos quieran reflejar estas nuevas ideas y actualizar su capacitación utilizando datos de Reddit”.
Los productores de contenido, desde bibliotecas de medios hasta editores de noticias, están recurriendo cada vez más a acuerdos de licencia de datos con proveedores de inteligencia artificial a medida que chatbots como ChatGPT de OpenAI amenazan con minar el tráfico. Un modelo reciente de The Atlantic encontró que, si un motor de búsqueda como Google integrase la IA en la búsqueda, respondería a la consulta de un usuario el 75% de las veces sin necesidad de hacer clic en su sitio web.
Los proveedores, a su vez, se han visto alentados a buscar acuerdos de licencia mientras enfrentan una avalancha de demandas que alegan que no tienen base legal para entrenar sus modelos con datos sin permiso o pago. Recientemente, The New York Times acusó a OpenAI de crear efectivamente competidores en los editores de noticias utilizando sus trabajos, perjudicando su negocio.
OpenAI tiene acuerdos con Shutterstock, así como con editores, incluido Axel Springer, propietario de Politico y Business Insider. Las licencias son reportado Sin embargo, es bastante pequeño: alcanza un máximo de 5 millones de dólares al año.