Es de conocimiento común que el aprendizaje automático consume una lote de energía. Todos esos modelos de IA que impulsan los resúmenes por correo electrónico, chatbots regicidas, y los videos de Homer Simpson cantando nu-metal están acumulando una factura de servidor considerable medida en megavatios por hora. Pero al parecer nadie, ni siquiera las empresas detrás de la tecnología, puede decir exactamente cuál es el costo.
Existen estimaciones, pero los expertos dicen que esas cifras son parciales y contingentes, y ofrecen sólo un vistazo del uso total de energía de la IA. Esto se debe a que los modelos de aprendizaje automático son increíblemente variables y pueden configurarse de maneras que alteran drásticamente su consumo de energía. Además, las organizaciones mejor situadas para presentar un proyecto de ley (empresas como Meta, Microsoft y OpenAI) simplemente no comparten la información relevante. (Judy Priest, directora de tecnología de operaciones e innovaciones en la nube de Microsoft, dijo en un correo electrónico que la compañía está actualmente “invirtiendo en el desarrollo de metodologías para cuantificar el uso de energía y el impacto de carbono de la IA mientras trabaja en formas de hacer que los sistemas grandes sean más eficientes, en tanto capacitación como aplicación”. OpenAI y Meta no respondieron a las solicitudes de comentarios).
Un factor importante que podemos identificar es la diferencia entre entrenar un modelo por primera vez e implementarlo para los usuarios. La capacitación, en particular, requiere mucha energía y consume mucha más electricidad que las actividades tradicionales de los centros de datos. Entrenar un modelo de lenguaje grande como GPT-3, por ejemplo, es estimado utilizar poco menos de 1.300 megavatios hora (MWh) de electricidad; aproximadamente tanta potencia como consumido anualmente por 130 hogares estadounidenses. Para poner esto en contexto, transmitir una hora de Netflix requiere alrededor de 0,8 kWh (0,0008 MWh) de electricidad. Eso significa que tendrías que mirar 1.625.000 horas para consumir la misma cantidad de energía que se necesita para entrenar GPT-3.
Pero es difícil decir cómo se aplica una cifra como ésta a los sistemas más modernos actuales. El consumo de energía podría ser mayor, porque los modelos de IA han tenido una tendencia creciente en tamaño durante años y los modelos más grandes requieren más energía. Por otro lado, las empresas podrían estar utilizando algunas de las métodos probados hacer que estos sistemas sean más eficientes energéticamente, lo que frenaría la tendencia al alza de los costos de la energía.
El desafío de hacer estimaciones actualizadas, dice Sasha Luccioni, investigadora de la firma franco-estadounidense de IA Hugging Face, es que las empresas se han vuelto más reservadas a medida que la IA se ha vuelto rentable. Si retrocediéramos unos pocos años, empresas como OpenAI publicarían detalles de sus regímenes de entrenamiento: qué hardware y durante cuánto tiempo. Pero la misma información simplemente no existe para los últimos modelos, como ChatGPT y GPT-4, dice Luccioni.
“Con ChatGPT no sabemos qué tan grande es, no sabemos cuántos parámetros tiene el modelo subyacente, no sabemos dónde se ejecuta… Podrían ser tres mapaches con una gabardina porque simplemente no saber lo que hay debajo del capó”.
“Podrían ser tres mapaches con una gabardina porque simplemente no sabes qué hay debajo del capó”.
Luccioni, autor de varios artículos que examinan el uso de energía de la IA, sugiere que este secreto se debe en parte a la competencia entre empresas, pero también es un intento de desviar las críticas. Las estadísticas sobre el uso de energía de la IA (especialmente en sus casos de uso más frívolos) naturalmente invitan a hacer comparaciones con el despilfarro de las criptomonedas. “Existe una conciencia cada vez mayor de que todo esto no es gratuito”, afirma.
Entrenar un modelo es sólo una parte del panorama. Una vez creado un sistema, se implementa para los consumidores que lo utilizan para generar resultados, un proceso conocido como “inferencia”. En diciembre pasado, Luccioni y sus colegas de Hugging Face y la Universidad Carnegie Mellon publicó un artículo (actualmente en espera de revisión por pares) que contenía las primeras estimaciones del uso de energía de inferencia de varios modelos de IA.
Luccioni y sus colegas realizaron pruebas en 88 modelos diferentes que abarcaban una variedad de casos de uso, desde responder preguntas hasta identificar objetos y generar imágenes. En cada caso, ejecutaron la tarea 1000 veces y estimaron el costo de energía. La mayoría de las tareas que probaron utilizan una pequeña cantidad de energía, como 0,002 kWh para clasificar muestras escritas y 0,047 kWh para generar texto. Si utilizamos nuestra hora de streaming de Netflix como comparación, estas equivalen a la energía consumida viendo nueve segundos o 3,5 minutos, respectivamente. (Recuerde: ese es el costo de realizar cada tarea 1000 veces). Las cifras fueron notablemente mayores para los modelos de generación de imágenes, que utilizaron un promedio de 2,907 kWh por cada 1000 inferencias. Como señala el artículo, el teléfono inteligente promedio utiliza 0,012 kWh para cargar, por lo que generar una imagen utilizando IA puede Utiliza casi tanta energía como cargar tu teléfono inteligente.
Sin embargo, el énfasis está en “puede”, ya que estas cifras no necesariamente se generalizan en todos los casos de uso. Luccioni y sus colegas probaron diez sistemas diferentes, desde modelos pequeños que producían imágenes diminutas de 64 x 64 píxeles hasta modelos más grandes que generaban imágenes 4K, y esto dio como resultado una enorme variedad de valores. Los investigadores también estandarizaron el hardware utilizado para comparar mejor diferentes modelos de IA. Esto no refleja necesariamente la implementación en el mundo real, donde el software y el hardware a menudo están optimizados para la eficiencia energética.
“Definitivamente esto no es representativo de los casos de uso de todos, pero ahora al menos tenemos algunas cifras”, dice Luccioni. “Quería poner una bandera en el suelo, diciendo ‘Empecemos desde aquí’”.
“La revolución de la IA generativa tiene un coste planetario que desconocemos por completo”.
Por tanto, el estudio proporciona datos relativos útiles, aunque no cifras absolutas. Muestra, por ejemplo, que los modelos de IA requieren más potencia para generar resultados que cuando clasifican los insumos. También muestra que cualquier cosa que involucre imágenes consume más energía que el texto. Luccioni dice que aunque la naturaleza contingente de estos datos puede resultar frustrante, esto cuenta una historia en sí misma. “La revolución de la IA generativa tiene un coste planetario que desconocemos por completo y, para mí, su propagación es especialmente indicativa”, afirma. “La cuestión es que simplemente no lo sabemos”.
Así que intentar determinar el coste energético de generar un solo papa Balenciaga es complicado debido a la maraña de variables. Pero si queremos comprender mejor el costo planetario, hay otros caminos a seguir. ¿Qué pasa si, en lugar de centrarnos en la inferencia del modelo, nos alejamos?
Este es el enfoque de Alex de Vries, un candidato a doctorado en VU Amsterdam que se curtió calculando el gasto energético de Bitcoin para su blog. Digiconomistay quién ha utilizado las GPU de Nvidia (el estándar de oro del hardware de IA) para estimar el uso global de energía del sector. Como explica de Vries en el comentario publicado en Joule El año pasado, Nvidia representó aproximadamente el 95 por ciento de las ventas en el mercado de la IA. La compañía también publica especificaciones energéticas para su hardware y proyecciones de ventas.
Combinando estos datos, de Vries calcula que para 2027 el sector de la IA podría consumir entre 85 y 134 teravatios hora cada año. Esto es aproximadamente lo mismo que la demanda anual de energía del país de origen de De Vries, los Países Bajos.
“Estamos hablando de que el consumo de electricidad de la IA representará potencialmente el medio por ciento del consumo mundial de electricidad para 2027”, dice de Vries. El borde. “Creo que es un número bastante significativo”.
Un informe reciente de la Agencia Internacional de Energía ofreció estimaciones similares, sugiriendo que el uso de electricidad en los centros de datos aumentará significativamente en el futuro cercano gracias a las demandas de la inteligencia artificial y las criptomonedas. La agencia dice que el uso actual de energía del centro de datos ronda los 460 teravatios hora en 2022 y podría aumentar a entre 620 y 1.050 TWh en 2026, equivalente a las demandas de energía de Suecia o Alemania, respectivamente.
Pero de Vries dice que es importante poner estas cifras en contexto. Señala que entre 2010 y 2018, el uso de energía de los centros de datos ha sido bastante estable y representa alrededor del 1 al 2 por ciento del consumo global. (Y cuando decimos “centros de datos” aquí nos referimos a todo lo que constituye “Internet”: desde los servidores internos de las corporaciones hasta todas las aplicaciones que no puedes usar sin conexión en tu teléfono inteligente). La demanda ciertamente aumentó durante este período, dice de Vries, pero el hardware se volvió más eficiente, compensando así el aumento.
Su temor es que las cosas puedan ser diferentes para la IA precisamente debido a la tendencia de las empresas a simplemente lanzar modelos más grandes y más datos en cualquier tarea. “Esa es una dinámica realmente letal para la eficiencia”, dice de Vries. “Porque crea un incentivo natural para que la gente siga añadiendo más recursos computacionales, y tan pronto como los modelos o el hardware se vuelvan más eficientes, la gente hará esos modelos aún más grandes que antes”.
Es imposible responder a la pregunta de si las ganancias en eficiencia compensarán el aumento de la demanda y el uso. Al igual que Luccioni, de Vries lamenta la falta de datos disponibles, pero dice que el mundo no puede simplemente ignorar la situación. “Ha sido un poco complicado determinar en qué dirección va esto y ciertamente no es un número perfecto”, dice. “Pero es base suficiente para dar una pequeña advertencia”.
Algunas empresas involucradas en la IA afirman que la tecnología en sí misma podría ayudar con estos problemas. Priest, hablando en nombre de Microsoft, dijo que la IA “será una herramienta poderosa para promover soluciones de sostenibilidad” y enfatizó que Microsoft estaba trabajando para alcanzar “objetivos de sostenibilidad de ser carbono negativo, agua positiva y cero desperdicio para 2030”.
Pero los objetivos de una empresa nunca pueden abarcar toda la demanda de toda la industria. Es posible que se necesiten otros enfoques.
Luccioni dice que le gustaría que las empresas introdujeran calificaciones de estrellas energéticas para los modelos de IA, lo que permitiría a los consumidores comparar la eficiencia energética de la misma manera que lo harían con los electrodomésticos. Para de Vries, nuestro enfoque debería ser más fundamental: ¿necesitamos siquiera utilizar la IA para tareas particulares? “Porque, considerando todas las limitaciones que tiene la IA, probablemente no será la solución adecuada en muchos lugares, y vamos a perder mucho tiempo y recursos averiguándolo de la manera más difícil”, afirma.