L'智能 应用于数据冷却的人工智能 数据中心人工智能在 数据中心冷却领域的应用是工业能源优化领域最重要的创新之一。
由谷歌DeepMind 开发的自主系统自 2018 年起开始运行,展示了人工智能如何改变关键基础设施的热管理,在运行效率方面取得了具体成果。
全球能效专家乔纳森-库米(Jonathan Koomey)表示,现代数据中心耗电量巨大,冷却耗电量约占总耗电量的 10%。每隔五分钟,谷歌基于云的人工智能系统就会从数千个传感器中捕捉到冷却系统的快照。用于数据中心自主冷却和工业控制的安全第一人工智能--谷歌DeepMind,可以分析传统控制方法无法解决的操作复杂性。
谷歌的人工智能冷却系统利用深度神经网络预测不同行动组合对未来能源消耗的影响,确定哪些行动可以最大限度地降低能耗,同时满足稳健的安全约束DeepMind 人工智能将谷歌数据中心的冷却费用降低了 40% - Google DeepMind
在冷却优化方面取得的成果非常显著:该系统能够持续减少 40% 的冷却能耗。然而,考虑到冷却能耗约占总能耗的 10%,这相当于为数据中心节省了约 4% 的总能耗。
根据Jim Gao 的原始技术论文,神经网络实现的平均绝对误差为 0.004,标准偏差为 0.005,相当于 PUE 为 1.1 时误差为 0.4%。
人工智能系统的实施已在三个特定的数据中心得到正式确认:
新加坡:2016 年首次大规模部署,数据中心使用再生水进行冷却,冷却能耗减少了 40%。
荷兰埃姆沙文:该数据中心使用工业用水,2023 年的耗水量为 2.32 亿加仑。该设施的现场负责人 Marco Ynema 负责监督这一先进设施的运行。
爱荷华州理事会布拉夫斯:《麻省理工科技评论》在讨论人工智能系统时,特别展示了理事会布拉夫斯数据中心。谷歌在理事会布拉夫斯的两个园区投资了 50 亿美元,2023 年的耗水量为 9.801 亿加仑。
基于云的人工智能控制系统现已投入使用,为多个谷歌数据中心节约了能源,但该公司尚未公布使用该技术的全部设施清单。
根据专利 US20180204116A1,该系统采用了具有精确技术特征的深度学习架构:
该架构采用模型预测控制,线性 ARX 模型与深度神经网络相集成。神经网络不需要用户预先定义模型中变量之间的相互作用。相反,神经网络会搜索特征之间的模式和相互作用,自动生成最佳模型。
PUE 表示数据中心的基本能效:
PUE = 数据中心总能耗/IT 设备能耗
谷歌拥有 ISO 50001 能源管理认证,该认证保证了严格的运行标准,但并不具体验证人工智能系统的性能。
创新的核心是预测性控制,它可以预测未来一小时内数据中心的温度和压力,模拟建议采取的措施,确保不超出运行限制。
经过反复试验,现在模型预测 PUE 的准确率达到 99.6%。这种准确性实现了传统方法无法实现的优化,同时处理了机械、电气和环境系统之间复杂的非线性相互作用。
一个重要的方面是进化学习能力。在九个月的时间里,该系统的性能从最初启动时的 12%提高到了约 30%。
谷歌操作员丹-富恩芬格(Dan Fuenffinger)说:"看到人工智能学会利用冬季条件生产出比正常温度更低的水,真是令人惊叹。规则不会随着时间的推移而改进,但人工智能会"。
该系统可同时管理19 个关键运行参数:
通过冗余机制确保运行安全。人工智能计算出的最佳操作会根据操作员定义的安全限制内部列表进行检查。发送到物理数据中心后,本地控制系统会重新检查指令DeepMind AI 可将谷歌数据中心的制冷能耗降低 40%。
操作员始终保持控制权,可以随时退出人工智能模式,无缝切换到传统规则。
业界认识到电力使用效率这一指标的局限性。Uptime Institute 2014 年的一项调查发现,75% 的受访者认为行业需要一个新的效率指标。问题包括气候偏差(无法对不同气候进行比较)、时间操纵(在最佳条件下进行测量)和组件排除。
每个数据中心都有独特的架构和环境。为一个系统定制的模型可能不适用于另一个系统,这就需要一个通用的智能框架。
模型的准确性取决于输入数据的质量和数量。由于缺乏相应的训练数据,当 PUE 值超过 1.14 时,模型误差通常会增大。
没有发现由大型审计公司或国家实验室进行的独立审计,谷歌 "没有进行超出联邦最低要求的第三方审计"。
2024-2025 年,谷歌将工作重点大幅转向:
这一变化表明,对于现代人工智能应用的热负荷而言,人工智能优化已经达到了实用极限。
人工智能冷却优化技术的应用范围已超出数据中心:
冷却系统的节能效果如下
第 1 阶段--评估:对现有系统进行能源审计和绘图第2 阶段--试点:在受控环境中对有限的部分进行测试第3 阶段--部署:逐步推广并加强监控第4 阶段--优化:持续调整并扩大容量
三个数据中心已正式确认:新加坡(2016 年首次部署)、荷兰的 Eemshaven 和爱荷华州的 Council Bluffs。该系统已在多个谷歌数据中心运行,但从未公开过完整的名单。
该系统可将用于冷却的能源减少 40%。考虑到冷却能耗约占总能耗的 10%,总体节能效果约占数据中心总能耗的 4%。
该系统预测 PUE 的准确率达到 99.6%,平均绝对误差为 0.004 ± 0.005,相当于 PUE 为 1.1时误差为 0.4%。如果真实的 PUE 为 1.1,人工智能的预测值为 1.096 至 1.104。
它采用两级验证:首先,人工智能检查操作员定义的安全限制,然后本地系统再次检查指令。操作员可以随时关闭人工智能检查,返回传统系统。
实施通常需要 6-18 个月:3-6 个月用于数据收集和模型培训,2-4 个月用于试点测试,3-8 个月用于分阶段部署。复杂程度因现有基础设施的不同而有很大差异。
需要一支具备数据科学/人工智能、暖通空调工程、设施管理、网络安全和系统集成等专业知识的多学科团队。许多公司选择与专业供应商合作。
是的,人工智能会自动学习利用季节性条件,例如在冬季生产较冷的水,以降低制冷能耗。该系统通过识别天气和气候模式不断改进。
每个数据中心都有独特的架构和环境,需要大量定制工作。实施的复杂性、对特定数据的需求以及所需的专业知识使得直复营销变得复杂。八年过去了,这项技术仍然只属于谷歌内部。
没有发现大型审计公司(德勤、普华永道、毕马威)或国家实验室的独立审计。谷歌已获得 ISO 50001 认证,但 "不追求 "联邦最低要求之外的 "第三方审计"。
完全正确。人工智能冷却优化技术可应用于工业厂房、购物中心、医院、企业办公室以及任何拥有复杂暖通空调系统的设施。多变量优化和预测控制的原理普遍适用。
谷歌 DeepMind 人工智能冷却系统是一项工程创新,可在特定领域内实现渐进式改进。对于运营能源密集型基础设施的公司来说,这项技术为冷却优化提供了具体的机会,但也突出了规模的局限性。
主要资料来源 Jim Gao 谷歌研究论文、DeepMind 官方博客、《麻省理工学院技术评论》、专利 US20180204116A1