Google利用AI削减能源账单案例分析

机器学习在数据中心能源优化中的创新应用

能源节省

40%

总体能源账单降低

PUE优化

15%

PUE开销降低

预测准确率

99.6%

PUE预测准确率

一、案例背景

在2014年,谷歌数据中心面临着能源消耗成本高和传统节能方法效果达到瓶颈的问题。数据中心是容纳联网服务器的建筑,谷歌的数据中心为搜索、地图查询等服务提供支持。

能源消耗现状

  • 数据中心消耗了全球2%的电力
  • 能源消耗是数据中心成本的主要驱动因素
  • 随着网络服务需求的增加,这一数字还会上升

传统方法的局限性

在实施了最常用的节能措施后,数据中心的性能开始停滞不前,凸显了传统节能方法的局限性。

"需要一种新的方法来解决能源消耗问题"

二、案例起因

Jim Gao的创新想法

谷歌工程师Jim Gao负责让数据中心的大型空调系统尽可能平稳高效地运行。在采用了最常用的节能措施后,数据中心的性能达到了瓶颈。

Gao决定利用谷歌的20%政策,即员工可以将20%的时间用于他们认为最有利于谷歌的工作。他决定研究机器学习,并尝试构建模型来预测和提高数据中心的性能。

20%政策的价值

谷歌的创新文化允许员工将20%工作时间用于自主项目,这为突破性创新提供了空间。

三、案例过程

(一)数据中心能源消耗问题分析

数据中心的能源消耗主要用于服务器运行和冷却等方面。数据中心的效率通常通过电力使用效率(PUE)来衡量:

PUE = 总设施能源 / IT设备能源

理想的数据中心PUE为1,即所有能源都用于为计算机供电。PUE越高,用于其他系统(如冷却)的能源就越多。

谷歌的PUE表现

谷歌一直是PUE效率的领导者,2013年其PUE达到了1.12

性能瓶颈

但此后直到2017年都没有进一步改善

(二)机器学习方法的应用

1. 模型构建

Gao首先构建了一个简单的神经网络,用于预测PUE。他使用了19个特征,包括:

  • 总服务器IT负载
  • 运行的工艺水泵总数
  • 平均冷却塔出水温度设定点

监督学习问题的标签是PUE。Gao使用了184,435个五分钟分辨率的时间样本(约两年的运营数据)来训练模型。

最终模型能够在1.1的PUE下,以0.004 ± 0.0005(约0.4%的误差)预测数据中心的PUE。

2. 模型应用

自动性能警报

通过比较任何给定条件下数据中心的实际性能和预测性能

敏感性评估

评估PUE对运营参数的敏感性

数字模拟

进行不同配置的数字模拟,而无需进行物理更改

(三)项目推进与优化

Gao的工作成果对公司产生了重大影响,并得到了数据中心副总裁Joe Kava的公开认可。Gao和他的团队开始使用该模型来寻找提高效率的新方法。

例如,当服务器离线时,数据中心的性能通常会下降。借助Gao的模型,谷歌数据中心团队能够模拟数据中心的行为,并找到新的方法来控制性能损失,从而节省能源和资金。

跨职能团队

谷歌将Gao提升为领导一个跨职能团队,包括机器学习、软件、电气、机械、控制和运营工程师,以开发端到端的数据中心智能解决方案。

DeepMind的加入

该团队引入了DeepMind的机器学习专业知识,DeepMind是一家专门从事前沿AI算法的英国公司,于2014年被谷歌以5亿美元收购。

成果:

  • PUE开销降低了15%
  • 能源账单总体降低了40%

持续优化

2017年8月,DeepMind的模型被部署,最初实现了10%的能源节省。在运行过程中,模型通过使用额外的数据进行再训练,性能进一步提高,一年后能源节省提高到了30%。

四、案例结果

提高了PUE预测的准确性

模型能够以99.6%的准确率预测PUE,识别出人类难以发现的数据模式。

节省了能源和资金

通过模拟数据中心的行为,找到新的方法来控制性能损失,降低了能源消耗和成本。

推动了数据中心优化的发展

谷歌的数据中心项目为其他企业提供了借鉴,展示了机器学习在数据中心优化中的潜力。

五、核心经验、洞察和方法

(一)经验

数据的重要性

数据是开展机器学习项目的基础。谷歌的数据中心拥有大量的传感器,收集了大量的运营数据。Gao能够利用这些数据进行模型训练,这得益于公司灵活的数据治理,使得他能够轻松获取所需的数据。

开源工具的作用

开源编码框架使Gao能够快速构建概念验证(POC)模型,从而吸引了公司的关注和支持。这表明开源工具在推动创新和项目启动方面具有重要作用。

逐步推进的策略

项目从简单的步骤开始,由一名工程师在20%的工作时间内完成初步模型构建,证明了方法的潜力。然后逐步推进到更复杂的阶段,引入专业团队和技术,最终实现了高性能和显著的业务影响。

(二)洞察

传统方法的局限性

传统的基于热力学的方法在解决数据中心能源消耗问题时存在严重的局限性,无法突破一定的性能阈值。而机器学习能够处理复杂的变量关系,为解决这类问题提供了新的途径。

数据的潜在价值

数据不仅具有运营目的,还蕴含着巨大的潜在价值。谷歌的数据中心数据已经存在多年,但直到Gao利用机器学习挖掘其价值,才发现了其中隐藏的模式和规律。

(三)方法

1

识别关键绩效指标

明确与业务直接相关的关键指标,如PUE,以及影响该指标的一系列可测量参数。

2

构建机器学习模型

利用可用的数据和开源工具,构建能够映射参数与KPI之间关系的模型。

3

持续优化和改进

在模型应用过程中,不断收集新的数据,对模型进行再训练和优化,以提高性能和效果。