商业

谷歌 DeepMind 人工智能冷却系统:人工智能如何革新数据中心能效

谷歌 DeepMind 通过 5 层深度学习、50 个节点、19 个输入变量,在 184,435 个训练样本(2 年数据)上实现了数据中心冷却能耗-40%(但总能耗仅-4%,因为冷却能耗占总能耗的 10%)、准确率 99.6%、PUE 1.1 误差 0.4%。在 3 个设施中得到证实:新加坡(2016 年首次部署)、Eemshaven、Council Bluffs(投资 50 亿美元)。通过同时管理 IT 负载、天气和设备状态,模型预测控制可预测下一小时的温度/压力。安全性保证:两级验证,操作员可随时禁用人工智能。关键限制:审计公司/国家实验室的独立验证为零,每个数据中心都需要定制模型(8 年来从未商业化)。实施时间为 6-18 个月,需要多学科团队(数据科学、暖通空调、设施管理)。适用范围超出数据中心:工业厂房、医院、购物中心、企业办公室。2024-2025 年:谷歌将 TPU v5p 过渡到直接液体冷却,表明人工智能优化的实际限制。

L'智能 应用于数据冷却的人工智能 数据中心人工智能在 数据中心冷却领域的应用是工业能源优化领域最重要的创新之一。

由谷歌DeepMind 开发的自主系统自 2018 年起开始运行,展示了人工智能如何改变关键基础设施的热管理,在运行效率方面取得了具体成果。

创新改变数据中心

能源效率问题

全球能效专家乔纳森-库米(Jonathan Koomey)表示,现代数据中心耗电量巨大,冷却耗电量约占总耗电量的 10%。每隔五分钟,谷歌基于云的人工智能系统就会从数千个传感器中捕捉到冷却系统的快照。用于数据中心自主冷却和工业控制的安全第一人工智能--谷歌DeepMind,可以分析传统控制方法无法解决的操作复杂性。

谷歌的人工智能冷却系统利用深度神经网络预测不同行动组合对未来能源消耗的影响,确定哪些行动可以最大限度地降低能耗,同时满足稳健的安全约束DeepMind 人工智能将谷歌数据中心的冷却费用降低了 40% - Google DeepMind

具体和可衡量的成果

在冷却优化方面取得的成果非常显著:该系统能够持续减少 40% 的冷却能耗。然而,考虑到冷却能耗约占总能耗的 10%,这相当于为数据中心节省了约 4% 的总能耗。

根据Jim Gao 的原始技术论文,神经网络实现的平均绝对误差为 0.004,标准偏差为 0.005,相当于 PUE 为 1.1 时误差为 0.4%。

工作地点:已确认的数据中心

已验证的实施

人工智能系统的实施已在三个特定的数据中心得到正式确认:

新加坡:2016 年首次大规模部署,数据中心使用再生水进行冷却,冷却能耗减少了 40%。

荷兰埃姆沙文:该数据中心使用工业用水,2023 年的耗水量为 2.32 亿加仑。设施的现场负责人 Marco Ynema 负责监督这一先进设施的运行。

爱荷华州理事会布拉夫斯:《麻省理工科技评论》在讨论人工智能系统时,特别展示了理事会布拉夫斯数据中心。谷歌在理事会布拉夫斯的两个园区投资了 50 亿美元,2023 年的耗水量为 9.801 亿加仑。

基于云的人工智能控制系统现已投入使用,为多个谷歌数据中心节约了能源,但该公司尚未公布使用该技术的全部设施清单。

技术架构:如何运作

深度神经网络和机器学习

根据专利 US20180204116A1,该系统采用了具有精确技术特征的深度学习架构

  • 5 个隐藏层,每层 50 个节点
  • 19 个标准化输入变量,包括热负荷、天气条件、设备状态
  • 184 435 个5 分钟分辨率的训练样本(约 2 年的运行数据)
  • 正则化参数:0.001 以防止过度拟合

该架构采用模型预测控制,线性 ARX 模型与深度神经网络相集成。神经网络不需要用户预先定义模型中变量之间的相互作用。相反,神经网络会搜索特征之间的模式和相互作用,自动生成最佳模型。

电力使用效率 (PUE):关键指标

PUE 表示数据中心的基本能效

PUE = 数据中心总能耗/IT 设备能耗

  • 谷歌整个机群的 PUE:2024 年为 1.09(根据谷歌环境报告)
  • 工业平均值:1.56-1.58
  • 理想 PUE:1.0(理论上不可能实现)

谷歌拥有 ISO 50001 能源管理认证,该认证保证了严格的运行标准,但并不具体验证人工智能系统的性能。

模型预测控制(MPC)

创新的核心是预测性控制,它可以预测未来一小时内数据中心的温度和压力,模拟建议采取的措施,确保不超出运行限制。

人工智能在冷却领域的运行优势

卓越的预测准确性

经过反复试验,现在模型预测 PUE 的准确率达到 99.6%。这种准确性实现了传统方法无法实现的优化,同时处理了机械、电气和环境系统之间复杂的非线性相互作用。

不断学习和适应

一个重要的方面是进化学习能力。在九个月的时间里,该系统的性能从最初启动时的 12%提高到了约 30%

谷歌操作员丹-富恩芬格(Dan Fuenffinger)说:"看到人工智能学会利用冬季条件生产出比正常温度更低的水,真是令人惊叹。规则不会随着时间的推移而改进,但人工智能会"。

多变量优化

该系统可同时管理19 个关键运行参数

  • 服务器和网络的 IT 总负荷
  • 天气条件(温度、湿度、热焓)
  • 设备状态(冷却器、冷却塔、水泵)
  • 设定值和运行控制
  • 风扇转速和 VFD 系统

安全与控制:故障安全保证

多级验证

通过冗余机制确保运行安全。人工智能计算出的最佳操作会根据操作员定义的安全限制内部列表进行检查。发送到物理数据中心后,本地控制系统会重新检查指令DeepMind AI 可将谷歌数据中心的制冷能耗降低 40%

操作员始终保持控制权,可以随时退出人工智能模式,无缝切换到传统规则。

局限性和方法考虑

PUE 指标和限制

业界认识到电力使用效率这一指标的局限性。Uptime Institute 2014 年的一项调查发现,75% 的受访者认为行业需要一个新的效率指标。问题包括气候偏差(无法对不同气候进行比较)、时间操纵(在最佳条件下进行测量)和组件排除。

实施的复杂性

每个数据中心都有独特的架构和环境。为一个系统定制的模型可能不适用于另一个系统,这就需要一个通用的智能框架。

数据质量与验证

模型的准确性取决于输入数据的质量和数量。由于缺乏相应的训练数据,当 PUE 值超过 1.14 时,模型误差通常会增大。

没有发现由大型审计公司或国家实验室进行的独立审计,谷歌 "没有进行超出联邦最低要求的第三方审计"。

未来:向液体冷却发展

技术转型

2024-2025 年,谷歌将工作重点大幅转向:

  • 用于 1MW 机架的 +/-400 VDC 电源系统
  • "德舒特项目 "冷却分配装置
  • 用于 TPU v5p 的直接液冷系统,正常运行时间达 99.999%。

这一变化表明,对于现代人工智能应用的热负荷而言,人工智能优化已经达到了实用极限

新兴趋势

  • 边缘计算集成:减少延迟的分布式人工智能
  • 数字双胞胎:用于高级模拟的数字双胞胎
  • 可持续发展重点:优化可再生能源
  • 混合冷却:人工智能优化的液体/空气组合

企业的应用和机遇

应用领域

人工智能冷却优化技术的应用范围已超出数据中心:

  • 工业厂房:优化制造业暖通空调系统
  • 购物中心:智能气候管理
  • 医院:手术室和关键区域的环境控制
  • 企业办公室:智能楼宇和设施管理

投资回报率和经济效益

冷却系统的节能效果如下

  • 降低冷却子系统的运行成本
  • 提高环境的可持续性
  • 延长设备寿命
  • 提高运行可靠性

企业的战略实施

采用路线图

第 1 阶段--评估:对现有系统进行能源审计和绘图第2 阶段--试点:在受控环境中对有限的部分进行测试第3 阶段--部署:逐步推广并加强监控第4 阶段--优化:持续调整并扩大容量

技术考虑因素

  • 传感器基础设施:完整的监测网络
  • 团队技能:数据科学、设施管理、网络安全
  • 集成:与遗留系统兼容
  • 合规性:安全和环境法规

FAQ - 常见问题

1.人工智能系统到底在哪些谷歌数据中心运行?

三个数据中心已正式确认:新加坡(2016 年首次部署)、荷兰的 Eemshaven 和爱荷华州的 Council Bluffs。该系统已在多个谷歌数据中心运行,但从未公开过完整的名单。

2.它在总消耗量上到底能节省多少能源?

该系统可将用于冷却的能源减少 40%。考虑到冷却能耗约占总能耗的 10%,总体节能效果约占数据中心总能耗的 4%。

3.系统预测的准确度如何?

该系统预测 PUE 的准确率达到 99.6%,平均绝对误差为 0.004 ± 0.005,相当于 PUE 为 1.1‍时误差为 0.4%如果真实的 PUE 为 1.1,人工智能的预测值为 1.096 至 1.104。

4.如何确保运行安全?

它采用两级验证:首先,人工智能检查操作员定义的安全限制,然后本地系统再次检查指令。操作员可以随时关闭人工智能检查,返回传统系统。

5.实施这样一个系统需要多长时间?

实施通常需要 6-18 个月:3-6 个月用于数据收集和模型培训,2-4 个月用于试点测试,3-8 个月用于分阶段部署。复杂程度因现有基础设施的不同而有很大差异。

6.需要哪些技术技能?

需要一支具备数据科学/人工智能、暖通空调工程、设施管理、网络安全和系统集成等专业知识的多学科团队。许多公司选择与专业供应商合作。

7.系统能否适应季节变化?

是的,人工智能会自动学习利用季节性条件,例如在冬季生产较冷的水,以降低制冷能耗。该系统通过识别天气和气候模式不断改进。

8.为什么谷歌不将这项技术商业化?

每个数据中心都有独特的架构和环境,需要大量定制工作。实施的复杂性、对特定数据的需求以及所需的专业知识使得直复营销变得复杂。八年过去了,这项技术仍然只属于谷歌内部。

9.是否有独立的绩效审查?

没有发现大型审计公司(德勤、普华永道、毕马威)或国家实验室的独立审计。谷歌已获得 ISO 50001 认证,但 "不追求 "联邦最低要求之外的 "第三方审计"。

10.除数据中心外,它还适用于其他部门吗?

完全正确。人工智能冷却优化技术可应用于工业厂房、购物中心、医院、企业办公室以及任何拥有复杂暖通空调系统的设施。多变量优化和预测控制的原理普遍适用。

谷歌 DeepMind 人工智能冷却系统是一项工程创新,可在特定领域内实现渐进式改进。对于运营能源密集型基础设施的公司来说,这项技术为冷却优化提供了具体的机会,但也突出了规模的局限性。

主要资料来源 Jim Gao 谷歌研究论文DeepMind 官方博客《麻省理工学院技术评论》专利 US20180204116A1

促进业务增长的资源