Los conjuntos de datos de entrenamiento masivos son la puerta de entrada a potentes modelos de IA, pero a menudo también son la ruina de esos modelos.
Los sesgos surgen de patrones prejuiciosos ocultos en grandes conjuntos de datos, como fotografías de directores ejecutivos, en su mayoría blancos, en un conjunto de clasificación de imágenes. Y los grandes conjuntos de datos pueden ser confusos y presentarse en formatos incomprensibles para un modelo: formatos que contienen mucho ruido e información superflua.
En un informe reciente de Deloitte encuesta De las empresas que adoptan IA, el 40% dijo que los desafíos relacionados con los datos, incluida la preparación y limpieza exhaustiva de los datos, se encontraban entre las principales preocupaciones que obstaculizaban sus iniciativas de IA. Una separacion encuesta de los científicos de datos descubrieron que alrededor del 45% del tiempo de los científicos se dedica a tareas de preparación de datos, como “cargar” y limpiar datos.
Ari Morcos, que ha trabajado en la industria de la IA durante casi una década, quiere abstraer muchos de los procesos de preparación de datos relacionados con el entrenamiento de modelos de IA, y fundó una startup para hacer precisamente eso.
La empresa de Morcos, DatologíaAI, crea herramientas para seleccionar automáticamente conjuntos de datos como los utilizados para entrenar ChatGPT de OpenAI, Gemini de Google y otros modelos GenAI similares. La plataforma puede identificar qué datos son más importantes dependiendo de la aplicación de un modelo (por ejemplo, escribir correos electrónicos), afirma Morcos, además de las formas en que el conjunto de datos se puede aumentar con datos adicionales y cómo se deben agrupar o dividir en partes más manejables. durante el entrenamiento del modelo.
“Los modelos son lo que comen: los modelos son un reflejo de los datos con los que están entrenados”, dijo Morcos a TechCrunch en una entrevista por correo electrónico. “Sin embargo, no todos los datos son iguales y algunos datos de entrenamiento son mucho más útiles que otros. Entrenar modelos con los datos correctos y de la manera correcta puede tener un impacto dramático en el modelo resultante”.
Morcos, que tiene un Ph.D. en neurociencia de Harvard, pasó dos años en DeepMind aplicando técnicas inspiradas en la neurología para comprender y mejorar los modelos de IA y cinco años en el laboratorio de IA de Meta descubriendo algunos de los mecanismos básicos que subyacen a las funciones de los modelos. Junto con sus cofundadores Matthew Leavitt y Bogdan Gaza, ex líder de ingeniería en Amazon y luego en Twitter, Morcos lanzó DatologyAI con el objetivo de simplificar todas las formas de curación de conjuntos de datos de IA.
Como señala Morcos, la composición de un conjunto de datos de entrenamiento afecta casi todas las características de un modelo entrenado en él, desde el desempeño del modelo en las tareas hasta su tamaño y la profundidad de su conocimiento del dominio. Los conjuntos de datos más eficientes pueden reducir el tiempo de entrenamiento y producir un modelo más pequeño, ahorrando costos de computación, mientras que los conjuntos de datos que incluyen una gama especialmente diversa de muestras pueden manejar solicitudes esotéricas con mayor habilidad (en términos generales).
Con interés en GenAI, que tiene un reputación por ser costoso: en su punto más alto, los costos de implementación de IA están en la mente de los ejecutivos.
Muchas empresas están optando por ajustar los modelos existentes (incluidos los modelos de código abierto) para sus propósitos u optar por servicios de proveedores administrados a través de API. Pero algunos (por razones de gobernanza y cumplimiento o de otro tipo) están creando modelos a partir de datos personalizados desde cero y gastando decenas de miles o millones de dólares en computación para entrenarlos y ejecutarlos.
“Las empresas han recopilado tesoros de datos y quieren entrenar modelos de IA especializados, eficaces y eficientes que puedan maximizar el beneficio para sus negocios”, dijo Morcos. “Sin embargo, hacer un uso eficaz de estos conjuntos de datos masivos es increíblemente desafiante y, si se hace incorrectamente, conduce a modelos de peor rendimiento que requieren más tiempo para entrenarse y [are larger] de lo necesario”.
DatologyAI puede escalar hasta “petabytes” de datos en cualquier formato (ya sea texto, imágenes, video, audio, tabulares o modalidades más “exóticas” como genómicas y geoespaciales) y se implementa en la infraestructura de un cliente, ya sea en las instalaciones o a través de un nube privada virtual. Esto lo distingue de otras herramientas de preparación y curación de datos como CleanLab, Lilac, Labelbox, YData y Galileo, afirma Morcos, que tienden a ser más limitadas en el alcance y los tipos de datos que pueden procesar.
DatologyAI también puede determinar qué “conceptos” dentro de un conjunto de datos (por ejemplo, conceptos relacionados con la historia de EE. UU. en un conjunto de entrenamiento de chatbot educativo) son más complejos y, por lo tanto, requieren muestras de mayor calidad, así como qué datos podrían hacer que un modelo comportarse de manera no deseada.
“Resolviendo [these problems] requiere identificar automáticamente los conceptos, su complejidad y cuánta redundancia es realmente necesaria”, dijo Morcos. “El aumento de datos, que a menudo utiliza otros modelos o datos sintéticos, es increíblemente poderoso, pero debe realizarse de manera cuidadosa y específica”.
La pregunta es: ¿qué tan efectiva es la tecnología de DatologyAI? Hay motivos para ser escépticos. La historia ha demostrado que la curación automatizada de datos no siempre funciona como se esperaba, por muy sofisticado que sea el método o por diversos que sean los datos.
LAION, una organización alemana sin fines de lucro que encabeza varios proyectos GenAI, fue forzado para eliminar un conjunto de datos de entrenamiento de IA curado algorítmicamente después de que se descubrió que el conjunto contenía imágenes de abuso sexual infantil. En otros lugares, se ha demostrado que modelos como ChatGPT, que se entrenan con una combinación de conjuntos de datos filtrados manualmente y automáticamente en busca de toxicidad, generan contenido tóxico si se les dan indicaciones específicas.
Algunos expertos argumentarían que no se puede escapar de la curación manual, al menos no si se espera lograr resultados sólidos con un modelo de IA. Los proveedores más importantes de la actualidad, desde AWS hasta Google y OpenAI, confiar en los equipos de expertos humanos y (a veces mal pagado) anotadores para dar forma y refinar sus conjuntos de datos de entrenamiento.
Morcos insiste en que las herramientas de DatologyAI no están destinadas a reemplazar curación manual por completo, sino que ofrece sugerencias que quizás no se les ocurran a los científicos de datos, en particular sugerencias tangenciales al problema de recortar el tamaño de los conjuntos de datos de entrenamiento. Es algo así como una autoridad: el recorte de conjuntos de datos y al mismo tiempo preservar el rendimiento del modelo fue el tema central de un estudio. artículo académico Morcos fue coautor con investigadores de Stanford y la Universidad de Tübingen en 2022, que obtuvo el premio al mejor artículo en la conferencia de aprendizaje automático NeurIPS de ese año.
“Identificar los datos correctos a escala es extremadamente desafiante y un problema de investigación de vanguardia”, dijo Morcos. “[Our approach] conduce a modelos que se entrenan dramáticamente más rápido y al mismo tiempo aumentan el rendimiento en tareas posteriores”.
La tecnología de DatologyAI era evidentemente lo suficientemente prometedora como para convencer a los titanes de la tecnología y la IA para que invirtieran en la ronda inicial de la startup, incluido el científico jefe de Google, Jeff Dean, el científico jefe de IA de Meta, Yann LeCun, el fundador de Quora y miembro de la junta directiva de OpenAI, Adam D’Angelo, y Geoffrey Hinton, quien es Se le atribuye el desarrollo de algunas de las técnicas más importantes en el corazón de la IA moderna.
Otros inversores ángeles en la semilla de 11,65 millones de dólares de DatologyAI, que fue liderada por Amplify Partners con la participación de Radical Ventures, Conviction Capital, Outset Capital y Quiet Capital, fueron los cofundadores de Cohere, Aidan Gomez e Ivan Zhang, el fundador de Contextual AI, Douwe Kiela, ex-Intel. El vicepresidente de IA, Naveen Rao, y Jascha Sohl-Dickstein, uno de los inventores de los modelos de difusión generativa. Es una lista impresionante de luminarias de la IA, por decir lo menos, y sugiere que podría haber algo en las afirmaciones de Morcos.
“Los modelos son tan buenos como los datos con los que se entrenan, pero identificar los datos de entrenamiento correctos entre miles de millones o billones de ejemplos es un problema increíblemente desafiante”, dijo LeCun a TechCrunch en un comunicado enviado por correo electrónico. “Ari y su equipo en DatologyAI son algunos de los expertos mundiales en este problema, y creo que el producto que están creando para que la curación de datos de alta calidad esté disponible para cualquiera que quiera entrenar un modelo es de vital importancia para ayudar a que la IA funcione. para todo el mundo.”
DatologyAI, con sede en San Francisco, tiene actualmente diez empleados, incluidos los cofundadores, pero planea expandirse a alrededor de 25 empleados para fin de año si alcanza ciertos hitos de crecimiento.
Le pregunté a Morcos si los hitos estaban relacionados con la adquisición de clientes, pero se negó a decirlo y, de manera bastante misteriosa, no reveló el tamaño de la base de clientes actual de DatologyAI.