Publicado el Deja un comentario

Sostenible por diseño: Innovación para la eficiencia energética en IA, parte 1

septiembre 30, 2024

Sostenible por diseño: Innovación para la eficiencia energética en IA, parte 1

Por: Mark Russinovich, director de tecnología, director de seguridad de la información adjunto y miembro técnico de Microsoft Azure

Obtengan más información sobre nuestros avances hacia nuestros compromisos de sostenibilidad a través de la serie de blogs Sostenible por diseño, que comienza con Sostenible por diseño: Avanzando en la sostenibilidad de la IA.

A principios de este verano, mi colega Noelle Walsh publicó un blog en el que detallaba cómo trabajamos para conservar el agua en nuestras operaciones de centros de datos: Sostenible por diseño: Transformación de la eficiencia del agua en los centros de datos, como parte de nuestro compromiso con nuestros objetivos de sostenibilidad de convertirnos en carbono negativo, agua positiva, cero residuos y proteger la biodiversidad.

En Microsoft, diseñamos, construimos y operamos una infraestructura de computación en la nube que abarca toda la pila, desde centros de datos hasta servidores y silicio personalizado. Esto crea oportunidades únicas para orquestar cómo funcionan los elementos juntos para mejorar tanto el rendimiento como la eficiencia. Consideramos que el trabajo para optimizar la energía y la eficiencia energética es un camino crítico para cumplir nuestra promesa de ser carbono negativo para 2030, junto con nuestro trabajo para avanzar en la electricidad libre de carbono y la eliminación de carbono.

El rápido crecimiento de la demanda de innovación en IA para impulsar las próximas fronteras del descubrimiento nos ha brindado la oportunidad de rediseñar nuestros sistemas de infraestructura, desde los centros de datos hasta los servidores y el silicio, con la eficiencia y la sostenibilidad a la vanguardia. Además de abastecernos de electricidad libre de carbono, innovamos en todos los niveles de la pila para reducir la intensidad energética y los requisitos de energía de las cargas de trabajo en la nube y de IA. Incluso antes de que los electrones ingresen a nuestros centros de datos, nuestros equipos se centran en cómo podemos maximizar la potencia de cómputo que podemos generar a partir de cada kilovatio-hora (kWh) de energía eléctrica.

En este blog, me gustaría compartir algunos ejemplos de cómo avanzamos en el poder y la eficiencia energética de la IA. Esto incluye un enfoque de sistemas completos para la eficiencia y la aplicación de la IA, en específico el aprendizaje automático, a la gestión de las cargas de trabajo en la nube y la IA. Obtengan más información sobre cómo llevamos la investigación de eficiencia del laboratorio a las operaciones comerciales en Sostenible por diseño: innovación para la eficiencia energética en IA, parte 2.

Impulsar la eficiencia de los centros de datos a los servidores y al silicio

Maximización de la utilización del hardware a través de la gestión inteligente de la carga de trabajo

Fiel a nuestras raíces como empresa de software, una de las formas en que impulsamos la eficiencia energética dentro de nuestros centros de datos es a través de software que permite la programación de cargas de trabajo en tiempo real, de modo que podamos maximizar la utilización del hardware existente para satisfacer la demanda de servicios en la nube. Por ejemplo, podríamos ver una mayor demanda cuando las personas comienzan su jornada laboral en una parte del mundo, y una menor demanda en todo el mundo donde otras se relajan por la noche. En muchos casos, podemos alinear la disponibilidad para las necesidades de recursos internos, como la ejecución de cargas de trabajo de entrenamiento de IA durante las horas de menor actividad, a través de la utilización del hardware existente que, de otro modo, estaría inactivo durante ese período de tiempo. Esto también nos ayuda a mejorar la utilización de la energía.

«Utilizamos el poder del software para impulsar la eficiencia energética en todos los niveles de la pila de infraestructura, desde centros de datos hasta servidores y silicio.»

A nivel histórico, en todo el sector, la ejecución de cargas de trabajo de IA y computación en la nube se ha basado en la asignación de unidades centrales de procesamiento (CPU, por sus siglas en inglés), unidades de procesamiento gráfico (GPU, por sus siglas en inglés) y potencia de procesamiento a cada equipo o carga de trabajo, lo que ofrece una tasa de utilización de CPU y GPU de alrededor del 50% al 60%. Esto deja a algunas CPU y GPU con capacidad infrautilizada, capacidad potencial que, de manera ideal, podría aprovecharse para otras cargas de trabajo. Para abordar el desafío de la utilización y mejorar la administración de la carga de trabajo, hemos realizado la transición de las cargas de trabajo de entrenamiento de IA de Microsoft a un único grupo administrado por una tecnología de aprendizaje automático llamada Project Forge.

El programador global de Project Forge utiliza el aprendizaje automático para programar de manera virtual las cargas de trabajo de entrenamiento e inferencia para que puedan ejecutarse durante los períodos de tiempo en los que el hardware tiene capacidad disponible, lo que mejora las tasas de utilización entre el 80% y el 90% a escala.

En la actualidad en producción en todos los servicios de Microsoft, este software utiliza la IA para programar de manera virtual las cargas de trabajo de entrenamiento e inferencia, junto con puntos de control transparentes que guardan una instantánea del estado actual de una aplicación o modelo para que pueda pausarse y reiniciarse en cualquier momento. Ya sea que se ejecute en silicio de socios o en silicio personalizado de Microsoft, como Maia 100, Project Forge ha aumentado de manera constante nuestra eficiencia en Azure hasta un 80 a 90% de utilización a escala.

Recolección segura de energía no utilizada en toda nuestra flota de centros de datos

Otra forma de mejorar la eficiencia energética consiste en colocar las cargas de trabajo de forma inteligente en un centro de datos para recolectar de forma segura la energía no utilizada. La recolección de energía se refiere a las prácticas que nos permiten maximizar el uso de nuestra energía disponible. Por ejemplo, si una carga de trabajo no consume toda la cantidad de energía asignada a ella, ese exceso de energía puede ser tomado prestado o incluso reasignado a otras cargas de trabajo. Desde 2019, este trabajo ha recuperado alrededor de 800 megavatios (MW, por sus siglas en inglés) de electricidad de los centros de datos existentes, suficiente para alimentar cerca de 2.8 millones de millas conducidas por un automóvil eléctrico.1

Durante el último año, incluso cuando las cargas de trabajo de IA de los clientes han aumentado, nuestra tasa de mejora en el ahorro de energía se ha duplicado. Continuamos con la implementación de estas mejores prácticas en toda nuestra flota de centros de datos para recuperar y reasignar la energía no utilizada sin afectar el rendimiento o la confiabilidad.

Impulsar la eficiencia del hardware de TI a través de la refrigeración líquida

Además de la administración de energía de las cargas de trabajo, nos centramos en reducir los requisitos de energía y agua para enfriar los chips y los servidores que los alojan. Con el potente procesamiento de las cargas de trabajo de IA modernas, se produce una mayor generación de calor, y el uso de servidores refrigerados por líquido reduce de manera significativa la electricidad necesaria para la gestión térmica en comparación con los servidores refrigerados por aire. La transición a la refrigeración líquida también nos permite obtener más rendimiento de nuestro silicio, ya que los chips funcionan de manera más eficiente dentro de un rango de temperatura óptimo.

Un importante desafío de ingeniería al que nos enfrentamos al implementar estas soluciones fue cómo adaptar los centros de datos existentes diseñados para servidores refrigerados por aire para adaptarse a los últimos avances en refrigeración líquida. Con soluciones personalizadas como el «sidekick», un componente que se encuentra junto a un rack de servidores y hace circular el fluido como el radiador de un automóvil, incorporamos soluciones de refrigeración líquida a los centros de datos existentes, lo que reduce la energía necesaria para el enfriamiento y aumenta la densidad del rack. Esto, a su vez, aumenta la potencia de cómputo que podemos generar a partir de cada pie cuadrado dentro de nuestros centros de datos.

Obtengan más información y exploren recursos para la eficiencia de la nube y la IA

Estén atentos para obtener más información sobre este tema, incluida la forma en que trabajamos para llevar la investigación prometedora de eficiencia del laboratorio a las operaciones comerciales. También pueden obtener más información sobre cómo promovemos la sostenibilidad a través de nuestra serie de blogs Sostenible por diseño, que comienza con Sostenible por diseño: Avances en la sostenibilidad de la IA y Sostenible por diseño: Transformación de la eficiencia del agua del centro de datos.

Para los arquitectos, los desarrolladores principales y los responsables de la toma de decisiones de TI que deseen obtener más información sobre la eficiencia de la nube y la IA, se recomienda explorar la guía de sostenibilidad en el Marco de buena arquitectura de Azure. Este conjunto de documentación se alinea con los principios de diseño de Green Software Foundation y está diseñado para ayudar a los clientes a planificar y cumplir con los requisitos y regulaciones de sostenibilidad en evolución en torno al desarrollo, la implementación y las operaciones de las capacidades de TI.  

Lean la siguiente publicación de la serie

1Supuestos de equivalencia basados en estimaciones de que un automóvil eléctrico puede viajar en promedio alrededor de 3.5 millas por kilovatio hora (kWh) x 1 hora x 800.

The post Sostenible por diseño: Innovación para la eficiencia energética en IA, parte 1 appeared first on Source LATAM.

 

​The post Sostenible por diseño: Innovación para la eficiencia energética en IA, parte 1 appeared first on Source LATAM.  

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *