Los modelos de IA más poderosos contaminan hasta 50 veces más que los pequeños

El boom de la inteligencia artificial (IA) ha disparado el consumo de energía y las emisiones de carbono de las grandes tecnológicas, en tanto que su existencia implica procesar inmensas cantidades de datos con máquinas de alta capacidad. Pero no todos los modelos de IA generativa tienen el mismo consumo. Un grupo de investigadores ha tratado de saber cuáles son las más contaminantes y cuáles los más eficientes. La conclusión: los modelos más pequeños (los que han sido entrenados con menos parámetros) pueden llegar a contaminar 50 veces menos que los grandes, pero sus respuestas son menos precisas, y viceversa. A mayor precisión, más polución.

Seguir leyendo

 Un estudio concluye que los chatbots entrenados con mayor cantidad de parámetros emiten mayores cantidades de carbono que las versiones modestas, pese a que arrojan resultados similares en tareas poco complejas  

El boom de la inteligencia artificial (IA) ha disparado el consumo de energía y las emisiones de carbono de las grandes tecnológicas, en tanto que su existencia implica procesar inmensas cantidades de datos con máquinas de alta capacidad. Pero no todos los modelos de IA generativa tienen el mismo consumo. Un grupo de investigadores ha tratado de saber cuáles son las más contaminantes y cuáles los más eficientes. La conclusión: los modelos más pequeños (los que han sido entrenados con menos parámetros) pueden llegar a contaminar 50 veces menos que los grandes, pero sus respuestas son menos precisas, y viceversa. A mayor precisión, más polución.

Los resultados de esta investigación, que se publica hoy en la revista Frontiers, se extraen de la comparación de 14 modelos de IA generativa de código abierto, los que permiten a los investigadores manipular sus tripas. Se tomaron modelos de distintos tamaños, incluyendo algunos que incorporan la opción de “razonamiento”: los que, más allá de predecir las siguientes palabras en una oración, como hacen los grandes modelos de lenguaje (LLM, por sus siglas inglesas), analizan y hacen inferencias.

Otra conclusión relevante: para resolver una tarea sencilla, mejor optar por un modelo pequeño, porque el resultado será muy similar al arrojado por el modelo grande, pero contaminará por lo general cuatro veces menos.

¿Para qué puede servir la información que aporta este trabajo? Idealmente, para que los usuarios elijan qué modelo utilizar en función de la complejidad de la tarea que quieran realizar. De la misma manera que los desplazamientos cortos los podemos hacer andando o en bicicleta, pero para los largos preferimos transporte público o coche, los modelos de IA más potentes los podríamos reservar, por ejemplo, para programación avanzada y los más pequeños para hacer pequeñas traducciones.

Pero escoger el modelo más adecuado para cada tarea es muy complicado. Por eso, Dauner y su equipo preparan una herramienta automática que lo indique. “Estamos trabajando en un planificador que seleccione el modelo adecuado en función de la solicitud del usuario, de manera que se minimicen las emisiones de CO₂ equivalente”, apunta el investigador.

Por ejemplo, hacer que el modelo chino DeepSeek R1 responda a 600.000 preguntas generaría unas emisiones de CO₂ equivalentes a un vuelo de ida y vuelta de Londres a Nueva York. En cambio, Qwen 2.5, del mismo tamaño, puede responder a más del triple de preguntas (alrededor de 1,9 millones) con tasas de precisión similares y generando las mismas emisiones.

Si se usara cada vez el modelo menos contaminante, se contribuiría a reducir la huella ambiental de la IA, que cada vez es más grande. El último informe de la Unión Internacional de Telecomunicaciones, la agencia de Naciones Unidas especializada en tecnologías digitales, revela que el consumo eléctrico de los centros de datos (que dan apoyo a los modelos de IA) ha crecido un 12% al año entre 2017 y 2023, cuatro veces más rápido que la media del consumo mundial. Las cuatro mayores empresas enfocadas en el desarrollo de IA (Amazon, Microsoft, Alphabet y Meta) vieron aumentar sus emisiones en un 150% de media desde 2020

Así lo asegura la agencia de Naciones Unidas tras analizar la información pública aportada en 2023, el último año del que hay datos completos, por las 200 mayores empresas tecnológicas del mundo sobre emisiones de gases de efecto invernadero, consumo energético y cumplimiento de los compromisos medioambientales. “A pesar de los avances logrados, las emisiones de gases de efecto invernadero siguen aumentando, lo que confirma que es más urgente que nunca que las empresas digitales adopten estrategias climáticas alineadas con la ciencia, transparentes y responsables”, dijo Cosmas Luckyson Zavazava, uno de los responsables del informe, durante la presentación del mismo. Según estos datos, las diez tecnológicas que más consumen (China Mobile, Amazon, Samsung, China Telecom, Alphabet, Microsoft, TSMC, China Unicom, SK Hynix y Meta) gastan en un año más energía que toda España.

Modelos más y menos contaminantes

“Nuestros resultados revelan fuertes correlaciones entre el tamaño de los grandes modelos de lenguaje, la versión de razonamiento, la generación de tokens y las emisiones”, escriben los autores del estudio, Maximilian Dauner y Gudrun Socher, de la Universidad de Ciencias Aplicadas de Múnich. “Aunque los modelos más grandes y con capacidad de razonamiento logran una mayor precisión, de hasta un 84,9%, también generan emisiones considerablemente más altas, impulsadas en gran medida por un mayor volumen de tokens generados. Un análisis de las materias tratadas muestra, además, que los dominios simbólicos y abstractos, como el álgebra abstracta, exigen consistentemente más capacidad de cómputo y presentan una menor precisión”.

Humo de la combustión de carbón en la central eléctrica de Eggborough, en Inglaterra.

Los investigadores pusieron a prueba tres modelos Llama de Meta, de entre 8.000 y 70.000 millones de parámetros; cuatro versiones de Qwen, de Alibaba, de entre 7.000 y 72.000 millones de parámetros; otros tres de Deep Cogito de entre 8.000 y 70.000 millones de parámetros y tres más de DeepSeek de entre 7.000 y 70.000 millones de parámetros. Los autores advierten desde un primer momento que estos resultados no se pueden extrapolar a otros modelos más conocidos, como GPT, Gemini o Copilot, que no se usaron en el experimento al no ser de código abierto.

A los 14 modelos puestos a prueba se les pidió responder a las mismas 500 preguntas sobre distintos temas. Se le lanzó a cada modelo 100 preguntas sobre cada una de estas cinco temáticas: filosofía, historia universal, derecho internacional, álgebra abstracta y matemáticas, con un nivel de dificultad equivalente al exigido para entrar en la universidad. La prueba se realizó en dos fases. En la primera, se optó por el tipo test, dándole al modelo cuatro posibles respuestas entre las que elegir la correcta. En la segunda, la pregunta fue abierta, sin orientaciones en el prompt, y se usó como corrector el modelo OpenAI o4-mini, “que es rápido y más pequeño que otros modelos GPT, lo que significa que emite menos CO₂”, indica Dauner.

Todos los experimentos se llevaron a cabo en un procesador GPU Nvidia A100 con 80 GB de memoria, lo que permitió una medición precisa del consumo energético, del uso de memoria y del tiempo de respuesta. “Descartamos considerar en el estudio el agua consumida porque no podíamos medirla directamente, sino a través de estimaciones”, explica Dauner. El agua se usa para refrigerar los procesadores de alta densidad en los que se desarrollan los cálculos que hacen posible la IA.

Los modelos más grandes arrojaron mejores resultados, tanto en las preguntas con respuesta abierta como en las de tipo test.

Cómo medir la huella ambiental

Los investigadores han tenido en cuenta en el cálculo todo el ciclo de vida de la IA, desde la extracción de minerales y materiales necesarios para construir las GPU hasta los recursos empleados en manufacturar los equipos, generar las bases de datos y en procesarlas, pasando por el proceso de diseño y entrenamiento de los modelos y por el uso final de la herramienta. “Debido a la limitada transparencia que hay en estas fases, los estudios suelen recurrir a estimaciones (…) o enfocarse en cantidades medibles, como el consumo de energía durante las fases de entrenamiento e inferencia”, explican los autores. La mayoría de análisis, añaden, se centran en las emisiones producidas tras el lanzamiento de la propia herramienta. No es el caso de este trabajo.

Para hacer los cálculos, se han convertido todos los gases de efecto invernadero (dióxido de carbono, metano y óxido nitroso) en equivalentes del dióxido de carbono, usando como medida el potencial de calentamiento global (GWP, por sus siglas inglesas) de cada gas con relación al CO₂.

“El estudio es muy interesante para entender mejor la huella de carbono de los LLM”, opina Shaolei Ren, profesor asociado de ingeniería eléctrica y computacional de la Universidad de California, Riverside y especialista en sostenibilidad de la IA. “Pero lo hubiera sido más todavía si los autores hubieran usado intensidades de carbono específicas por país o región, ya que hay diferencias importantes”.

 Tecnología en EL PAÍS

Te Puede Interesar