Доклады Российской академии наук. Математика, информатика, процессы управления, 2023, T. 514, № 2, стр. 318-332
ОБЪЕДИНЯЯ ПРОГНОСТИЧЕСКОЕ ПЛАНИРОВАНИЕ И ОБЛАЧНЫЕ ВЫЧИСЛЕНИЯ ДЛЯ СНИЖЕНИЯ ВЫБРОСОВ УГЛЕКИСЛОГО ГАЗА ПРИ ОБУЧЕНИИ МОДЕЛЕЙ МАШИННОГО ОБУЧЕНИЯ
М. Тютюльников 1, В. Лазарев 1, А. Коровин 1, Н. Захаренко 2, И. Дорощенко 2, С. Буденный 1, 2, *
1 Научно-исследовательский институт
искусственного интеллекта (AIRI)
Москва, Россия
2 Сбер
Москва, Россия
* E-mail: sanbudenny@sberbank.ru
Поступила в редакцию 02.09.2023
После доработки 15.09.2023
Принята к публикации 18.10.2023
- EDN: GZNHIC
- DOI: 10.31857/S2686954323700248
Аннотация
Мы представляем eco4cast1, пакет с открытым исходным кодом, предназначенный для снижения углеродного следа моделей машинного обучения с помощью прогностического планирования облачных вычислений. Пакет интегрируется в модели машинного обучения и использует разработанную временную сверточную нейронную сеть (TCN) для прогнозирования суточной углеродоемкости электроэнергии. Высокая точность прогнозирования модели достигается за счет учета погодных условий, обладающих устойчивой корреляцией с углеродоемкостью. Задачей eco4cast является способность определять временные периоды минимальной углеродоемкости электроэнергии. Это позволяет пакету назначать задачи облачных вычислений только на эти периоды, снижая воздействие моделей на окружающую среду. Роль пакета в уменьшении эмиссии состоит в сочетании экологичности вычислений и их вычислительной эффективности. Код и документация пакета размещены на Github под лицензией Apache 2.0.
1. ВВЕДЕНИЕ
Эмиссия углерода, связанная с производством электроэнергии, оказывает значительное влияние на проблемы связанные с экологией, социальной сферой и управлением (ESG) [1]. C генерацией электроэнергии связан значительный объем глобальных выбросов углерода, и сокращение этих выбросов необходимо для достижения глобальных целей устойчивого развития [2]11. Снижение же выбросов углерода при производстве электроэнергии способствует решению ряда задач в области устойчивого развития.
С точки зрения экологии, она может помочь смягчить последствия изменения климата, такие как повышение уровня моря, проявления экстремальных погодных явлений и утрата биоразнообразия. Это также может способствовать улучшению качества воздуха и воды и защите окружающей среды.
С социальной точки зрения эта цель может способствовать улучшению уровня здоровья населения за счет снижения уровня загрязнения воздуха и связанных с ним последствий для здоровья [3]. Кроме того, она может способствовать повышению энергетической безопасности и снижению зависимости от ископаемого топлива.
С точки зрения управления, это может способствовать повышению прозрачности и подотчетности в секторе электроэнергетики. Кроме того, усилия по снижению эмиссии могут способствовать привлечению инвестиций в низкоуглеродные технологии и созданию новых экономических возможностей.
В последние годы обучение больших моделей искусственного интеллекта (ИИ) вносит заметный вклад в углеродный след, поскольку оно требует значительных вычислительных ресурсов и потребления энергии [4–6]. Управление обучением таких моделей с точки зрения влияния на экологию, т.е. минимизации потребления электроэнергии и эквивалентной эмиссии CO2, становится важным фактором устойчивого развития. Возможность повышения экологической эффективности обучения моделей ИИ заключается в том, что углеродоемкость электроэнергии, обычно выражаемая в кгCO2э/кВт-ч, подвержена значительным суточным колебаниям, а также существенно различается в разных регионах мира [7].
Можно запланировать обучение моделей ИИ только на определенные периоды или в регионах с более низкой углеродоемкостью, чтобы уменьшить общий углеродный след ИИ, сохраняя при этом желаемую производительность.
Например, если в соответствии с прогнозом эмиссия углерода от выработки электроэнергии будет низкой в ночное время, то это будет подходящим временем для обучения больших моделей ИИ. При наличии нескольких доступных для выбора географических регионов в облачных вычислениях, можно обучать ИИ-модели, используя вычислительные мощности каждого региона, перенося обучение из одного региона с меньшей прогнозируемой интенсивностью выбросов CO2 в другой. Таким образом, обучение модели ИИ может осуществляться непрерывно, без перерывов, за исключением только времени перераспределения вычислительных мощностей.
Для реализации этой концепции необходимо точное и надежное прогнозирование углеродоемкости электроэнергии в режиме реального времени. При этом такое прогнозирование должно быть само экологически эффективным.
В данной работе представлен программный комплекс eco4cast, позволяющий снизить эквивалентные выбросы углекислого газа (до 90% в некоторых сценариях) при выполнении ресурсоемких вычислений на языке Python, таких как обучение больших моделей искусственного интеллекта. Эффект достигается за счет динамического прогнозирования углеродоемкости электроэнергии и планирования вычислений, назначая их на временные интервалы или вычислительные зоны с наименьшей прогнозируемой углеродоемкостью. Прогнозирование осуществляется с помощью разработанной нейронной сети, анализирующей данные об эмиссии и 20 погодных показателей в рассматриваемых регионах. Для точного расчета снижения углеродного следа в eco4cast используется пакет eco2ai [8] Python-пакет. Планировщик может работать как в локальном, так и многозонном режиме с выбором оптимального региона для вычислений, который в настоящее время реализуется путем интеграции с Google Cloud API.
Работа построена следующим образом. В разделе “Связанные исследования” представлены обзоры моделей, использовавшихся для прогнозирования энергопотребления и выбросов углерода, которые послужили основой для настоящей работы. Далее описываются данные, использованные для разработки модели прогнозирования. В разделе Методы представлен обзор архитектуры и характеристик разработанной модели прогнозирования углеродоемкости. В разделе Результаты рассматриваются примеры реального применения модели eco4cast и прирост экологической эффективности, достигнутый при различных сценариях использования. В заключение даются заключение и обсуждение дальнейшей работы.
2. РЕЛЕВАНТНЫЕ РАБОТЫ
В работе [9] приведен подробный обзор применения методов машинного обучения (ML) и глубокого обучения (DL) в сфере энергетических систем, таких как: прогноз потребления энергии и спроса на нее [10, 11], прогнозирование выходной мощности систем солнечной энергетики [12], прогнозирование выходной мощности систем ветроэнергетики [13, 14], оптимизация, обнаружение неисправностей и дефектов, нарушение качества питания [15], энергоэффективность [16], прогноз цен на рынке электроэнергии [17], экономия энергии, прогнозирование выброса углекислого газа в энергосистемах и другие. В данном статье рассматривается тема прогнозирования выбросов CO2 и ставится задача выявления периодов времени, в которых обучение моделей искусственного интеллекта будет сопровождаться наименьшими выбросами CO2. Несложно найти работы по схожей тематике, так, например, в работе [9] описываются различные алгоритмы и модели, которые используются для прогнозирования, оптимизации, обнаружения неисправностей определения критических областей и пробелов в исследованиях. Авторы подчеркивают сильные и слабые стороны моделей и предлагают использовать новые алгоритмы DL, такие как RBM (ограниченная машина Больцмана), DBN (сеть глубокого доверия), CNN (сверточная нейронная сеть), LSTM (длинная кратковременная память), ANFIS (Адаптивная сеть на основе системы нечеткого вывода) и WNN (невесомая нейронная сеть), все они могут помочь решать сложные энергетические задачи.
Существует множество исследований, посвященных прогнозированию выбросов CO2, связанных с различными источниками и регионами мира. Одной из тем таких работ является задача снижения выбросов. Так, в работе [18] рассматривается использование нелинейной модели Бернулли (NGBM) для прогнозирования выбросов углекислого газа и потребления энергии в Китае, и предлагается численный, итеративный метод оптимизации параметров NGBM. С учетом оптимально подобранных параметров модели (NGBM-OP) ее прогнозирующая способность оказалась значительно выше по сравнению с GM и ARIMA. Средняя абсолютная процентная ошибка (MAPE) NGBM-OP на тестовом периоде (2004–2009 гг.) варьировалась от 1.10 до 6.26. В другой работе [19] применяются статистические модели, модели машинного обучения и модели временных рядов на основе глубокого обучения для анализа структуры выбросов CO2 в Индии и оценивается их эффективность. Исследование показало, что LSTM, SARIMAX (сезонное авторегрессионное интегрированное скользящее среднее с экзогенными факторами) и модель Холта-Винтерса оказались наиболее эффективными для прогнозирования выбросов CO2, причем более подходящей оказалась модель LSTM. Результаты наблюдений, основанных на показателях производительности для LSTM, составили 3.101% MAPE, 60.635 RMSE (среднеквадратическая ошибка) и 28.898 MedAE (Медианная абсолютная ошибка). В статье предлагаются различные меры по сокращению выбросов CO2, включая повышение налогов на экологически вредные виды использования, введение налогов на выбросы углерода, системы ограничения и торговли квотами и продвижение экологически чистых технологий. Исследование ограничивается прогнозированием одномерным данных о выбросах CO2 и предлагает будущие исследования по учету экзогенных факторов, таких как рост населения, экономический рост, развитие технологий, переход на возобновляемые источники энергии и действия правительства для более точного определения выбросов CO2. В некоторых работах рассматриваются алгоритмы предсказания глобальных выбросов CO2 с учетом влияния COVID-19, одна из них [20]. В исследовании используются четыре модели SARIMA (SARIMAX), основанные на ARIMA, для прогнозирования глобальных выбросов CO2 на период с 2022 по 2072 г., а точность моделей сравнивается с использованием метрики MAPE. В результате исследования оказалось, что модель, обученная после COVID-19, показала более высокую точность с метрикой MAPE, равной 0.09. Также модель предсказывает глобальную эмиссию на ближайшие 2022–2027 гг. В [21] авторы объединяют модели LSTM и STIRPAT (стохастическое воздействие регрессии на население, благосостояние и технологии) для прогнозирования выбросов CO2 в 30 провинциях Китая и определения влияющих на них факторов. Исследования показали, что в 8 провинциях Китая рост эмиссии продолжится и после 2030 г. Так же было выявлено, что ускорению темпов выбросов CO2 будет способствовать увеличение таких факторов, как: плотность населения, энергоемкость, энергопотребление и ВВП. Последствия применяемой политики в разных регионах различны, и в исследовании представлены рекомендации по дальнейшему сокращению выбросов CO2 и содействию скорейшему достижению пика выбросов CO2 для Китая. В исследовании [22] была представлена новая модель ARIMA Бокса-Дженкинса прогнозирования выбросов углекислого газа, обученная на датасете временных рядов эмиссии CO2 в Индии за период с 1960 по 2017 г. Результаты исследования показывают, что выбросы CO2 в Индии, вероятно, возрастут, что чревато климатическими проблемами. Согласно прогнозу, к 2025 г. общий годовой объем выбросов CO2 в Индии составит примерно 3.89 миллиона тонн. Аналогичный подход к прогнозированию загрязнителей воздуха на основе исторических данных с использованием ARIMA был предложен в [23]. Для учета многочисленных факторов и их нелинейных взаимосвязей с выбросами авторы [24] предложили модель прогнозирования SSA-LSSVM, использующую алгоритм Salp Swarm (SSA) для оптимизации параметров LSSVM. В качестве входных данных для модели SSA-LSSVM используются: валовой внутренний продукт (ВВП), население, потребление энергии, экономическая структура, энергетическая структура, уровень урбанизации и энергоемкость. В работе было показано, что модель имеет лучшую производительность прогнозирования по сравнению с одиночной моделью LSSVM, моделью LSSVM, оптимизированной алгоритмом оптимизации роя частиц (PSO-LSSVM), и моделью нейронной сети обратного распространения ошибки (BP) для прогнозирования выбросов CO2 в Китае с 2014 по 2016 г.
Одной из основных причин выбросов углекислого газа в атмосферу является производство электроэнергии. В связи с этим существует множество исследований, посвященных прогнозированию выбросов CO2, связанных с производством электроэнергии, и методологиям преобразования производства электроэнергии в выбросы CO2. Например, в работе [25] было показано использование различных методов для прогнозирования выбросов CO2 в результате производства электроэнергии в Бахрейне с целью снижения загрязнения окружающей среды. В их числе были нелинейная авторегрессия временных рядов нейронной сети, регрессия гауссовского процесса и методы Холта. Оценка производительности каждого метода показала, что модель нейронной сети имеет наименьшую среднеквадратическую ошибку 0.21. Модель рациональной квадратичной регрессии гауссовского процесса (GPR-RQ) имеет 1.02 RMSE, а метод Холта – 1.41. Таким образом, нелинейная авторегрессионная модель временных рядов нейронной сети показала себя наиболее эффективно в задаче прогнозирования выбросов CO2 в Бахрейне. Целью другого исследования [26] был прогноз выбросов парниковых газов (ПГ), включая CO2, CH4, N2O, F-газы и общее количество ПГ, на электроэнергетическом секторе Турции с использованием алгоритмов DL, SVM и искусственных нейронных сетей (ANN). Набор данных охватывает 1990–2018 гг., из которых последние четыре были отведены под прогноз. В исследовании оценивалась производительность алгоритмов с использованием пяти показателей (RMSE, MBE, rRMSE, R2 и MAPE), и все алгоритмы показали удовлетворительные результаты для прогнозирования выбросов парниковых газов в Турции. Исследование показало, что на долю CO2 приходилось 69.05% от общего объема выбросов парниковых газов Турции в 1990 г., а в 2018 г. этот показатель увеличился на 80.48%. Общие выбросы парниковых газов, связанные с производством электроэнергии, с 1990 по 2018 г. увеличились на 429.7%. Таким образом, хотя выбросы парниковых газов в последнее время увеличились высокими темпами, этот рост значительно превышает рост производства энергии в Турции. В статье [27] приводится прогноз выбросов углекислого газа с использованием метода опорных векторов. Он использует в качестве анализируемых данных информацию об использованном угле в процессе производства электроэнергии. Данные, использованные в исследовании, были получены от алкогольной промышленности, 90% данных составляют обучающую выборку и 10% данные валидации. RMSE составила 0.004, что является неплохим результатом для модели прогнозирования. В заключение авторы рассуждают о том, что мониторинг энергопотребления может помочь менеджерам принимать эффективные решения и разрабатывать политику по снижению негативного воздействия на окружающую среду. Дальнейшие исследования предлагают интеграцию методов оптимизации, таких как генетические алгоритмы или оптимизация роя частиц, для автоматического выбора параметров SVM. В статье [28] авторы представили алгоритм машинного обучения, который может прогнозировать интенсивность выбросов CO2 в электросетях в датской тендерной зоне DK2. Анализ был основан на большом наборе данных, включающем информацию о производстве электроэнергии, спросе, импорте, погодные условиях и т.д., их количество было сокращено до менее чем 30 с помощью LASSO и алгоритма прямого выбора признаков. Были созданы три модели линейной регрессии, входивших в ансамбль моделей (ARIMAX). Исследование выявило важность взаимодействия между исследуемыми переменными, при том что предельные эмиссии оказались независимыми от условий в зоне DK2, что подразумевает, что предельные источники находятся в соседних зонах. Исследование направлено на создание инструмента для потребителей электроэнергии для планирования своей нагрузки и минимизации выбросов CO2. Прогностическую модель можно применять к любой зоне в европейской электрической сети, не требуя подробных знаний о данной зоне. Исследование указывает на необходимость дальнейших исследований для включения генераторов, зависящих от погоды, в качестве предельных.
Обучение и использование сложных моделей машинного обучения потребляют значительное количество электроэнергии, что приводит к значительным выбросам углекислого газа. С момента их появления сложность моделей глубокого обучения возрастала в геометрической прогрессии: количество обучаемых параметров удваивалось каждые 3–4 мес с 2012 г. и к 2022 г. превысило один триллион. Например, было подсчитано, что на обучение модели GPT-3 потребовалось 1287 МВтч, что соответствует выбросу в атмосферу 552 т CO2e [29]. Был разработан ряд решений с открытым исходным кодом для оценки энергопотребления во время обучения моделей искусственного интеллекта, а также соответствующих выбросов углекислого газа: Eco2AI22 [8] и другие. Кроме того, проводятся исследования, посвященные умному прогнозированию и планированию энергопотребления. В статье [30] предлагается метод прогнозирования энергопотребления в различных ситуациях с использованием модели глубокого обучения на основе автоэнкодера. Эксперименты проводились с данными потребления электроэнергии в домашних хозяйствах, собранными за пять лет. Они показали, что предложенная модель превосходит традиционные модели по производительности прогнозирования и улучшает способность объяснять результаты прогнозирования за счет визуализации состояния с помощью алгоритма t-SNE. В [31] авторы предложили новую модель, которая улучшает еженедельный прогноз краткосрочного прогнозирования нагрузки (STLF) с интервалом в 72 ч. Данные предоставила энергосистема Панамы. Алгоритм (XGBoost) превзошел другие модели. В результате использования модели Панаме удалось сократить расходы и значительно повысить производительность STLF. Также есть несколько статей, посвященных задачам умного планирования энергопотребления в облачных центрах обработки данных [32] и в интеллектуальных сетях [33, 34].
Среди большого количества работ, описывающих решение задач электроэнергетики, существует лишь несколько исследований, посвященных интеллектуальному планированию энергопотребления. В данной статье мы предлагаем умное решение, позволяющее определять наилучшие периоды времени для обучения моделей ML с наименьшими затратами на электроэнергию и выбросами CO2.
3. ДАННЫЕ
3.1. Данные об эмиссии
В качестве источника исторических данных по уровню углеродных выбросов в производстве электроэнергии мы использовали сервис Electricity Maps33. Этот сервис предоставляет доступ к мировым историческим данным (за 2021–2022 г.) с разрешением в один час, а также предоставляет API для получения данных в реальном времени за последние 24 ч для большинства стран. В нашей работе мы решили прогнозировать интенсивность выбросов CO2 для 13 областей, представленных в зонах Google Cloud. Google Cloud – это платформа, предоставляющая доступ к облачным вычислительным услугам. Среди них есть широкий спектр инфраструктурных и платформенных функций, позволяющих пользователям выбирать наиболее подходящие регионы для своих вычислительных задач. Полный список областей electricitymaps, зон Google Cloud и их соответствие можно найти в Приложении 8 . На рис. 1a показано распределение выбросов CO2 в 13 районах во второй половине 2022 г., а на рис. 1b представлены исторические данные о выбросах углерода для выбранных областей. В зависимости от структуры производства электроэнергии интенсивность выбросов углерода варьируется от 28.7 гCO2e/кВтч для региона Квебек в Канаде, где основной источник энергии – гидроэлектростанции, до 832 г CO2e/кВтч в Польше, где большая часть энергии производится на угольных электростанциях. Большинство стран имеют значительные суточные, месячные и сезонные колебания в интенсивности выбросов и тенденции из-за использования как возобновляемых источников энергии, в частности ветра, солнечной, гидро- и атомной энергии, так и ископаемого топлива. Эта изменчивость в выбросах CO2 является результатом неустойчивости возобновляемых источников энергии, которая может привести к колебаниям в предложении и спросе на энергию или изменениям в структуре энергоснабжения из-за изменений на рынке или технического обслуживания.
3.2. Данные о погоде
Однако полагаться исключительно на данные о выбросах CO2 недостаточно для точных прогнозов. В работе [35] авторы исследуют влияние прогноза погоды на потребление энергии в Европе, которое тесно связано с выбросами CO2. Для получения данных о погоде нами использовался API Open-Meteo.com [36], который предоставляет доступ как к историческим данным, так и к будущим прогнозам погоды. Для дальнейшей работы нами были выделены следующие 20 погодных параметров: температура, относительная влажность, точка росы, ощущаемая температура, атмосферное давление, общее облачное покрытие, облачность низких, средних и высоких облаков, скорость ветра, направление ветра, порывы ветра, коротковолновое излучение, прямое излучение, рассеянное излучение, дефицит насыщенности водяного пара, эвапотранспирация, осадки, снегопад и дождь.
В данном исследовании данные о погоде в определенной стране были получены с использованием географического пакета для Python под названием Cartopy [37]. Для сбора данных была создана сетка точек, наложенная на географический контур страны или региона, и затем были определены пересечения между сеткой и границей страны. Расстояние между отдельными точками в сетке было выбрано вручную для каждой страны, при этом количество точек в каждой стране не превышало 38. Как только сетка была построена, историческая информация о погоде, соответствующая каждой точке сетки, была получена с помощью API.
3.3. Набор данных
Общий набор данных для прогнозирования интенсивности эмиссии включает в себя историю за последние 24 ч, 23 характеристики (20 характеристик погоды, долготу, широту точки и значение интенсивности выбросов) и 38 точек для каждой страны. Если количество точек в стране меньше 38, оставшиеся точки дополнялись нулями. Целевой переменной является прогноз на 24 ч вперед от текущего момента.
Для обучения использовались данные о выбросах углерода из Electricity Maps за период 2021–2022 гг. Разделение на обучающую и валидационную выборки производилось в соотношении 80/20, т.е. данные за последние 217 дней 2022 г. использовались для валидации модели.
4. МЕТОДЫ
4.1. Умное планирование для концепции экологичного обучения
Мы представляем концепцию умного планирования для экологичного обучения, которая подразумевает предсказательное планирование сессий обучения моделей с минимальным углеродным следом. Этот подход особенно важен для регионов с высокой долей возобновляемых источников электроэнергии, так как они сопровождаются высокими колебаниями коэффициента эмиссии CO2.
Мы представляем два подхода к предсказательному планированию, оба основываются на использовании моделей ИИ для прогнозирования коэффициентов выбросов CO2 для конкретных регионов. Первый подход действует локально и ограничивается работой в пределах одного региона. После прогнозирования выбросов выбираются интервалы с минимальными выбросами для процесса обучения. Этот подход подходит для снижения выбросов CO2 от моделей искусственного интеллекта, но он занимает больше времени для завершения процесса обучения. Поэтому он может стать проблематичным, если у потенциального пользователя мало времени или процесс обучения должен быть завершен как можно быстрее. Кроме того, не все исследователи в области искусственного интеллекта и машинного обучения могут придавать высокий приоритет снижению своего углеродного следа, если это негативно влияет на их работу. Для преодоления этих ограничений мы представляем второй подход.
Другой подход предполагает прогноз коэффициента выбросов для множества регионов. Затем, после прогнозирования выбросов, интервалы выбираются непрерывным образом, обеспечивая, что в течение каждого интервала модель обучается с использованием вычислительных ресурсов из региона с наименьшим прогнозируемым коэффициентом выбросов. Этот подход эффективно устраняет недостаток увеличения времени обучения, который ограничивает первый подход. Единственное дополнительное время, необходимое в этом случае, – это время для переноса вычислительных ресурсов из одного региона в другой. В результате второй подход достигает практически того же времени обучения, что и первый, при этом значительно снижая выбросы углерода. Таким образом, этот подход позволяет более устойчиво и эффективно обучать модели искусственного интеллекта.
Оба этих подхода реализованы в пакете eco4cast, и пользователь может выбрать, какой из них использовать. Пакет также предоставляет возможность учитывать определенные регионы или исключать их из анализа в случае использования второго метода.
4.2. Предсказательная модель
Модель ИИ, используемая для задачи прогнозирования интенсивности выбросов углерода, представлена на рис. 2 . Основная часть модели представляет собой блок из пяти слоев TCN (Temporal Convolutional Network) [38] с размерами (512, 256, 256, 256, 256) каналов последовательно. Этот блок выполняет основную обработку входных данных и формирует одномерное пространство признаков. Затем вывод TCN (256 признаков) передается в блок, состоящий из полносвязных слоев, нормализации и дропаута. Этот блок обеспечивает дополнительную обработку признаков, преобразование их в требуемый размер выходных данных и предотвращает переобучение. Обучение проводилось с постепенным уменьшением коэффициента скорости обучения, когда значение функции потерь достигло плато.
Модель прогнозирования была обучена с использованием полного набора данных, включающего 13 зон, с целевой переменной – прогноз выбросов на будущие 24 ч для каждого региона.
Поскольку мы использовали несколько различных наборов данных (за 2020–2021 г. для каждой зоны) с различными распределениями целевой переменной, мы будем вычислять метрику MAPE (средняя абсолютная процентная ошибка) для каждой зоны. На рис. 3 показано, как MAPE меняется в зависимости от дальности прогноза (количества часов от текущего времени).
Исходя из результатов, представленных на рис. 3 , можно сделать вывод, что наименьшее значение метрики MAPE достигается при прогнозировании выбросов на следующий час. Но для всех зон, кроме CA-ON (Канада – Онтарио), MAPE немного увеличивается с увеличением диапазона прогнозирования. В зоне CA-ON модель имеет наибольшую ошибку, однако это не должно оказать существенное влияние на планирование, так как в этом регионе наблюдается наименьшая интенсивность выбросов углерода среди всех изученных регионов на основе исторических данных.
5. РЕЗУЛЬТАТЫ
В этом разделе представлены результаты работы библиотеки eco4cast. Первый подраздел посвящен процессу формирования временных интервалов для тренировки моделей ИИ. В нем представлено наглядное описание двух различных вариантов использования библиотеки: первый касается локального использования eco4cast, в рамках одного региона/зоны, а второй задействует несколько регионов. Для наглядности демонстрации работы многорегионного подхода мы выбрали пример с двумя и тремя регионами. Второй подраздел акцентирует внимание на результаты экспериментов симуляции по снижению выбросов CO2 в ходе процесса обучения модели ИИ при помощи планировщика eco4cast.
5.1. Временные интервалы: алгоритм создания и распределение
В алгоритме 1 изложен процедурный подход к созданию временных интервалов в многорегионном режиме.
Вначале модель, описанная в разделе 4.2, прогнозирует эмиссию CO2 для всех выбранных регионов. Следует отметить, что максимальное количество рассматриваемых регионов равно 13, однако пользователи имеют возможность выбрать любую комбинацию из этих регионов в пределах данного ограничения. Эта опция была внедрена для потенциальных ситуаций, когда некоторые регионы недоступны в определенные моменты времени. Затем, в соответствии с установленным пользователем верхним порогом выбросов, алгоритм выбирает только те регионы, уровень выбросов в которых ниже установленного порога. После этого каждому часу в последующие 24 ч устанавливается в соответствии регион с минимальным уровнем выбросов или значение “NaN” (“Не число”), если уровень выбросов во всех регионах выше установленного порога. По итогу формируются окончательные временные интервалы и соответствующие им зоны Google Cloud.
Algorithm 1. Схематическое описание алгоритма прогнозирования временных интервалов и соответствующих им зон. На практике в eco4cast используется более сложная логика с возможностью включать или исключать регионы, устанавливать минимальный порог различия эмиссии CO2 между зонами для перемещения вычислительных мощностей и минимальную продолжительность временных интервалов
emission_forecast ▷ Матрица с предсказанием эмиссии. Имеет размер (13, 24)
2: possible_slots = ThresholdEmissions(emission_forecast, threshold) ▷ булевая матрица размером
(13, 24), указывающая на то, что в определенных областях эмиссия меньше порогового значения
region_indices ▷ массив “NaN” размером (24), указывающий последовательность областей для
тренировки моделей
4: for time in range(24) do:
if possible_slots[:, time].sum() == 0 then ▷ Случай, когда в каждом регионе эмиссия превышает
пороговое значение
6: continue
else
8: region_indices[time] = emission_forecast[:, time].argmin() ▷ Выбирается регион с
наименьшей эмиссией CO2
end if
10: end for
return generate_intervals(region_indices)
Как только временные интервалы и соответствующие им зоны заданы, eco4cast может инициировать процесс обучения модели ИИ. Алгоритм работы планировщика, прогнозирующего временные интервалы для многозонного режима работы eco4cast, подробно описаны в Алгоритме 2. Обычно обучение моделей ИИ происходит по эпохам, но планировщик eco4cast выполняет обучение заданной пользователем модели по батчам. Это обусловлено тем, что обучение большой модели ИИ даже на протяжении одной эпохи может растянуться на несколько часов или дольше. Таким образом, чтобы облегчить динамическое распределение вычислительных ресурсов, было принято решение реализовать стратегию обучения, ориентированную на батчи.
Как только интервалы и соответствующие им зоны спрогнозированы, eco4cast перемещает вычислительные мощности в соответствующую зону, таким образом инициируя или продолжая процесс обучения. После завершения процесса обучения на определенном интервале времени eco4cast прогнозирует новые временные интервалы и соответствующие им зоны. Это происходит в зависимости от того, превышает ли время, прошедшее с момента начала обучения модели, заданное пользователем пороговое значение, обозначенное как prediction_time. Подобное действие направлено на достижение более высокой степени точности при оптимизации выбросов CO2. Более подробное объяснение работы планировщика приведено в алгоритме 2.
Algorithm 2. Схематическое описание алгоритма планировщика. Описанный ниже процесс выполняется итеративно до тех пор, пока не будет завершено обучение модели ИИ или не будет удовлетворен заданный пользователем критерий.
1: prediction_time = 0 ▷ prediction_time – это время с последнего предсказания интервалов. Значение
по умолчанию установлено равным 0, чтобы выполнить условие на первой итерации
2: while Training not finished do:
3: if time.time() − prediction_time >= intervals_prediction_period then: ▷ Условие для прогноза
новых интервалов: не чаще чем каждые intervals_prediction_period секунд
4: emission_forecast = CO2Predictor().predict()
5: zones, intervals = IntervalGenerator().generate(emission_forecast) ▷
интервалы – это массив из N тренировочных интервалов в хронологическом порядке. zone[i] – это зона
из Electricity Maps, соответствующая intervals[i]
6: prediction_time = time.time()
7: interval_idx = 0
8: end if
9: if current_zone! = zones[interval_idx] then:
10: move_virtual_machine(zones[interval_idx])
11: end if
12: start_ssh_execution(intervals[interval_idx])
13: interval_idx+ = 1
14: end while
На рис. 4 представлено распределение временных интервалов для различных сценариев использования eco4cast. Подграфик (а) показывает сценарий, в котором пользователь использует один регион/зону (BE – Бельгия), в то время как следующие подграфики (б-д) соответствуют сценариям, когда используются несколько зон Google Cloud. Чтобы продемонстрировать данный пример распределения временных интервалов, была выбрана одна случайная зона для первого сценария (а), затем были выбраны еще две случайные зоны из доступного пула из 13 зон для сценариев (б-д). Следует отметить, что проведенный нами процесс не ограничивается вышеупомянутыми вариантами, он может быть применен к любым комбинациям из 13 зон.
После процесса выбора зон мы смоделировали обучение встроенной в eco4cast модели для прогнозирования эмиссии CO2 в течение 150 ч. Временные интервалы и соответствующие зоны, прогнозируемые eco4cast, показаны на рисунке. Этот пример предназначен исключительно в качестве наглядной демонстрации для формирования понимания механизма работы планировщика. Для получения точной количественной оценки эффективности eco4cast в оптимизации процесса обучения читатель может обратиться к разделу 5.2.
Следует отметить, что для всех сценариев, рассмотренных на подрисунках (а-д), был выполнен расчет эмиссии углекислого газа. Это демонстрирует эффективность использования многозонного подхода с большим количеством зон перед использованием одиночной зоны или многозонного подхода, но с меньшим числом зон.
5.2. Результаты оптимизации эмиссии CO2
В качестве примера модели ИИ мы использовали нашу модель прогнозирования углеродной энергоемкости, представленную в разделе 4.2. Модель была обучена два раза: один с использованием графического процессора (GPU), а другой с использованием центрального процессора (CPU). Обучение выполнялось на сервере, оснащенном процессором Intel Xeon Gold 6278C (использовалось 8 процессорных ядер) и графическим процессором NVIDIA Tesla V100, продолжительность обучения модели составила 13 916 с при выполнении на центральном процессоре и 655 с при использовании графического процессора. Потребление электроэнергии в процессе обучения составило 0.447179 и 0.019752 кВт ⋅ ч соответственно. В целях демонстрации работы eco4cast мы будем проводить симуляцию обучения на центральном процессоре из-за его большей продолжительности, что способствует более полному представлению процесса работы eco4cast.
На рис. 5 эффективность использования библиотеки eco4cast продемонстрирована в контексте следующих сценариев: (а) локальный режим, в котором пользователь обучает модели ИИ в одной зоне Google Cloud, и (б, в) многозонный режим, когда используются несколько зон Google Cloud. Валидационные данные для обоих случаев охватывали временной интервал в 5209 ч.
На рис. 5a, описывающем однозонный режим работы eco4cast, предиктивная модель, подробно описанная в разделе 4.2, была использована для прогнозирования коэффициента интенсивности эмиссии CO2 в каждой из 13 зон. Затем алгоритмом 1 были предсказаны временные интервалы. Эти интервалы были использованы для симуляции обучения вышеупомянутой предиктивной модели на протяжении всего валидационного интервала времени. В результате симуляции была получена следующая количественная оценка эффективности оптимизации выбросов CO2: эффективность оптимизации эмиссии CO2 потенциально может достигать значения 70%, а среднее сокращение эмиссии в этом случае составляет около 12%.
Эффективность оптимизации углекислого газа при использовании eco4cast в многозоном режиме отображена на подрисунках 5б–в и оценивается с помощью значительно более сложной методологии. В этом сценарии использования рассматривается полное число сочетаний из 2, 3, 4, … 13 зон из 13. Это дает в общей сложности ${{2}^{{13}}}$ – 1 уникальных комбинаций зон Google CLoud. Для каждой конкретной комбинации предсказываются временные интервалы, затем проводится моделирование процесса обучения вышеупомянутой предиктивной модели. Итоговая эмиссия в результате этих симуляций сначала сравнивается с выбросами, полученными в случае, где модель обучается, используя вычислительные мощности исключительно одной зоны, на которой наблюдался исторически самый низкий уровень выбросов CO2 в рамках текущей комбинации 5б. Затем полученная эмиссия сравнивается со средним историческим значением эмиссии CO2 среди всех зон в конкретной их комбинации 5с. Таким образом, в сравнении с обучением на самом оптимальном с точки зрения эмиссии регионе, эффективность eco4cast в среднем может достигать 3.6%, иногда наблюдаются заметные пики в определенных комбинациях используемых зон – до 15–20%. Сокращение эмиссии CO2 в сравнении со средней эмиссией в комбинациях зон заметно выше и может достигать 90%, а в среднем составляет 77%.
Следует отметить, что, хотя эффективность библиотеки eco4cast при использовании в многозонном сценарии в случае (б) заметно снижается по сравнению с ее эффективностью в локальном сценарии (а) или случае (в), крайне важно подчеркнуть, что пользователь также может выбирать зону, обладающую минимальной углеродной энергоемкостью CO2 при помощи функционала eco4cast.
6. ВЫВОДЫ
В работе изучается применение возможности уменьшения косвенной эмиссии при выполнении ресурсоемких вычислений, таких как обучение больших моделей машинного обучения с помощью прогностического планирования запуска вычислений с помощью разработанного пакета eco4cast. Для удобства пользователей были разработаны два различных режима работы пакета: локальный, при котором пользователь использует только одну зону для обучения модели, и многозонный, при котором одновременно задействуется несколько зон Google Cloud. Использование локального режима является более простым для реализации CO2, но его использование может существенно увеличить время обучения моделей. Многозонный режим обеспечивает компромисс между временем обучения модели ИИ и снижением выбросов CO2. На основании результатов исследований можно утверждать, что eco4cast демонстрирует заметное снижение косвенной эмиссии CO2 как при локальном, так и при многозональном варианте использования, что может сделать его полезным компонентом повышения экологической эффективности обучения моделей ИИ.
Список литературы
Paris Agreement. Paris agreement. In Report of the Conference of the Parties to the United Nations Framework Convention on Climate Change (21st Session, 2015: Paris). Retrived December, volume 4, page 2017. HeinOnline, 2015.
Xiaoyuan Wang, Jiahaoran Wang, Weimin Guan, Farhad Taghizadeh-Hesary. Role of esg investments in achieving cop-26 targets. Energy Economics. 2023. V. 123. P. 106757.
Gibon T., Hertwich E.G., Arvesen A., Singh B., Verones F. Health benefits, ecological threats of low-carbon electricity. Environmental Research Letters. 2017. V. 12 (3). P. 034023.
Pesce M. Cloud computing’s coming energy crisis. IEEE Spectrum, 2021.
Henderson P., Hu J., Romoff J., Brunskill E., Jurafsky D., Pineau J. Towards the systematic reporting of the energy and carbon footprints of machine learning. Journal of Machine Learning Research. 2020. V. 21 (248). P. 1–43.
Patterson D., Gonzalez J., Le Q., Liang C., Munguia L.-M., Rothchild D., So D., Texier M., Dean J. Carbon emissions and large neural network training. arXiv preprint arXiv:2104.10350, 2021.
Yanchao Feng, Juan Zhang, Yong Geng, Shurui Jin, Ziyi Zhu, Zhou Liang. Explaining and modeling the reduction effect of low-carbon energy transition on energy intensity: Empirical evidence from global data. Energy. 2023. V. 281. P. 128276.
Budennyy S.A., Lazarev V.D., Zakharenko N.N., Korovin A.N., Plosskaya O.A., Dimitrov D.V., Akhripkin V.S., Pavlov I.V., Oseledets I.V., Barsola I.S., Egorov I.V., Kosterina A.A., Zhukov L.E. eco2ai: Carbon emissions tracking of machine learning models as the first step towards sustainable ai. Doklady Mathematics, 2023.
Mohammad Mahdi Forootan, Iman Larki, Rahim Zahedi, Abolfazl Ahmadi. Machine learning and deep learning in energy systems: A review. Sustainability. 2022. V. 14 (8).
Zhou Xuan, Zi Xuehui, Liang Liequan, Fan Zubing, Yan Junwei, Pan Dongmei. Forecasting performance comparison of two hybrid machine learning models for cooling load of a large-scale commercial building. Journal of Building Engineering. 2019. V. 21. P. 64–73.
Runge J., Radu Zmeureanu, Mathieu Le Cam. Hybrid short-term forecasting of the electric demand of supply fans using machine learning. Journal of Building Engineering. 2020. V. 29. P. 101144.
Hussein Sharadga, Shima Hajimirza, Balog R.S. Time series forecasting of solar power generation for large-scale photovoltaic plants. Renewable Energy. 2020. V. 150. P. 797–807.
Cunbin Li, Shuaishuai Lin, Fangqiu Xu, Ding Liu, Jicheng Liu. Short-term wind power prediction based on data mining technology and improved support vector machine method: A case study in northwest china. Journal of Cleaner Production. 2018. V. 205. P. 909–922.
Wendong Yang, Jianzhou Wang, Haiyan Lu, Tong Niu, Pei Du. Hybrid wind energy forecasting and analysis system based on divide and conquer scheme: A case study in china. Journal of Cleaner Production. 2019. V. 222. P. 942–959.
Dash P.K., Eluri N.V., Prasad D.V., Ravi Kumar Jalli, Mishra S.P. Multiple power quality disturbances analysis in photovoltaic integrated direct current microgrid using adaptive morphological filter with deep learning algorithm. Applied Energy. 2022. V. 309. P. 118454, 2022.
Elissaios Sarmas, Evangelos Spiliotis, Vangelis Marinakis, Themistoklis Koutselis, Haris Doukas. A meta-learning classification model for supporting decisions on energy efficiency investments. Energy and Buildings. 2022. V. 258. P. 111836.
L’eonard Tschora, Erwan Pierre, Marc Plantevit, C’eli-ne Robardet. Electricity price forecasting on the day-ahead market using machine learning. Applied Energy. 2022. V. 313. P. 118752.
Hsiao-Tien Pao, Hsin-Chia Fu, Cheng-Lung Tseng. Forecasting of co2 emissions, energy consumption and economic growth in china using an improved grey model. Energy. 2012. V. 40 (1). P. 400–409.
Surbhi Kumari, Sunil Kumar Singh. Machine learning-based time series models for effective co2 emission prediction in india. Environmental Science and Pollution Research, 2022.
Yang Meng, Hossain Noman. Predicting co2 emission footprint using ai through machine learning. Atmosphere. 2022. V. 13 (11).
Zhili Zuo, Haixiang Guo, Jinhua Cheng. An lstm-stripat model analysis of china’s 2030 co2 emissions peak. Carbon Management. 2020. V. 11 (6). P. 577–592, 2020.
Bonga Wellington Garikai, Thabani Nyoni. Prediction of co2 emissions in india using arima models. DRJ – Journal of Economics & Finance. 2019. V. 4. P. 01–10.
Pooja Gopu, Rama Ranjan Panda, Naresh Kumar Nagwani. Time series analysis using arima model for air pollution prediction in hyderabad city of india. In V. Sivakumar Reddy, V. Kamakshi Prasad, Jiacun Wang, K. T. V. Reddy, editors, Soft Computing and Signal Processing, pages 47–56, Singapore. Springer Singapore, 2021.
Huiru Zhao, Guo Huang, Ning Yan. Forecasting energy-related co2 emissions employing a novel ssa-lssvm model: considering structural factors in china. Energies. 2018. V. 11 (4). P. 781.
Mohammed Redha Qader, Shahnawaz Khan, Musta-fa Kamal, Muhammad Usman, Mohammad Haseeb. Forecasting carbon emissions due to electricity power generation in bahrain. Environmental Science and Pollution Research. 2022. V. 29 (12). P. 17346–17357.
Melahat Sevgül Bakay, Ümit Ağbulut. Electricity production based forecasting of greenhouse gas emissions in turkey with deep learning, support vector machine and artificial neural network algorithms. Journal of Cleaner Production. 2021. V. 285. P. 125324.
Chairul Saleh, Nur Rachman Dzakiyullah, Jonathan Bayu Nugroho. Carbon dioxide emission prediction using support vector machine. IOP Conference Series: Materials Science and Engineering. 2016. V. 114 (1). P. 012148.
Kenneth Leerbeck, Peder Bacher, Rune Gronborg Junker, Goran Goranovi’c, Olivier Corradi, Razgar Ebrahimy, Anna Tveit, Henrik Madsen. Short-term forecasting of co2 emission intensity in power grids by machine learning. Applied Energy. 2020. V. 277. P. 115527.
David Patterson, Joseph Gonzalez, Urs Hölzle, Quoc Le, Chen Liang, Lluis-Miquel Munguia, Daniel Rothchild, David So, Maud Texier, Jeff Dean. The carbon footprint of machine learning training will plateau, then shrink, 2022.
Jin-Young Kim, Sung-Bae Cho. Electric energy consumption prediction by deep learning with state explainable autoencoder. Energies. 2019. V. 12 (4).
Ernesto Aguilar Madrid, Nuno Antonio. Short-term electricity load forecasting with machine learning. Information. 2021. V. 12 (2).
Tahseen Khan, Wenhong Tian, Shashikant Ilager, Rajkumar Buyya. Workload forecasting and energy state estimation in cloud data centres: Ml-centric approach. Future Generation Computer Systems. 2022. V. 128. P. 320–332.
Ruilong Deng, Zaiyue Yang, Jiming Chen, Navid Rahbari Asr, and Mo-Yuen Chow. Residential energy consumption scheduling: A coupled-constraint game approach. IEEE Transactions on Smart Grid. 2014. V. 5 (3). P. 1340–1350.
Yuan Hong, Shengbin Wang, and Ziyue Huang. Efficient energy consumption scheduling: Towards effective load leveling. Energies. 2017. V. 10 (1).
Karin van der Wiel, Hannah C. Bloomfield, Robert W. Lee, Laurens P. Stoop, Russell Blackport, James A. Screen, and Frank M. Selten. The influence of weather regimes on european renewable energy production and demand. Environmental Research Letters. 2019. V. 14 (9). P. 094010.
Patrick Zippenfenig. Open-meteo.com weather api. July 2023.https://doi.org/10.5281/zenodo.8112599
Met Office. Cartopy: a cartographic python library with a Matplotlib interface. Exeter, Devon, 2010–2015.
Shaojie Bai, J. Zico Kolter, Vladlen Koltun. An empi-rical evaluation of generic convolutional and recur-rent networks for sequence modeling. arXiv preprint arXiv:1803.01271, 2018.
Дополнительные материалы отсутствуют.
Инструменты
Доклады Российской академии наук. Математика, информатика, процессы управления


