全球AI基础设施建设全景扫描:算力短缺成行业最大瓶颈,液冷、核能、国产芯片三路并进

一个所有巨头都在抱怨的问题

2026 年 4 月底,科技巨头们的财报季和信息发布季,有一个共同的主题:算力不够用。谷歌说 Google Cloud 的增长受到算力容量制约,OpenAI 说 Stargate 项目需要远超当前规划的算力规模,苹果说 Mac 供应紧张是因为 AI 需求激增,甚至连 Azure 和 AWS 也表示 AI 工作负载的增长速度远超预期。

当全球最大的几家科技公司,同时告诉你「我们不够用」的时候,你就知道这不是一个企业级的问题,而是一个行业级的问题。全球 AI 算力供给,正在经历一场前所未有的「供需失衡」。

这种失衡的根本原因在于:AI 算力需求的增长是指数级的(因为模型参数规模和训练数据量都在指数级增长),而算力供给的增长是线性的(因为芯片制造产能的扩张受限于物理极限和供应链约束)。当指数级的需求遇到线性的供给,差距只会越拉越大。

更令人担忧的是,这种失衡可能还会持续相当长的时间。台积电的先进制程产能,要到 2027 年才能大幅扩产;新一代 GPU(如英伟达 B300 系列)的量产时间也还没有确定;新建一座大型数据中心的周期通常是 2 - 3 年。在短期到中期内,AI 算力短缺的局面,可能不会得到根本缓解。

液冷技术:解决散热瓶颈的关键路径

AI 算力短缺的背后,还有一个经常被忽视的子问题:散热。AI 服务器的功率密度,已经远远超过了传统数据中心的散热能力。一台搭载 8 张 H100 GPU 的 AI 服务器,满载功耗超过 10 千瓦——这是传统机柜功率密度的 5 -10 倍。要把这么多热量从机房中排出,传统的风冷方案已经完全不够用了。

液冷技术因此成为了 AI 数据中心建设的关键路径。液冷的原理很简单:用液体(通常是去离子水或特殊冷却液)代替空气来带走服务器产生的热量。由于液体的比热容远大于空气,液冷的散热效率可以达到风冷的 10-20 倍。

目前,液冷技术主要有两种方案:冷板式液冷和浸没式液冷。冷板式液冷是将冷却液通过金属冷板输送到芯片表面,带走热量;浸没式液冷则是将整个服务器浸没在绝缘冷却液中,通过液体的自然对流或强制循环来散热。浸没式液冷的散热效率更高,但技术难度和成本也更高。

2026 年,液冷技术在 AI 数据中心中的应用正在加速普及。微软、谷歌、亚马逊等巨头,都在新建的数据中心中大规模部署液冷方案。中国的液冷技术也在快速成熟,曙光、华为、阿里等企业都推出了成熟的液冷产品。液冷从「可选方案」变为「必选方案」,标志着 AI 数据中心建设进入了一个新的技术阶段。

核能:AI 算力的终极能源解法?

散热解决了,能源怎么办?AI 数据中心的巨大电力需求,正在推动科技巨头们把目光投向一个曾经的「禁忌」领域:核能。

2026 年,微软、亚马逊、谷歌都宣布了与核能企业的合作计划。微软直接投资了一家小型模块化核反应堆(SMR)公司;亚马逊与一家核能初创公司签订了长期购电协议;谷歌则在评估在其数据中心园区内建设核电站的可行性。

核能对 AI 数据中心的吸引力,来自几个核心优势:第一,能量密度极高——一座小型核电站的发电量,足以支撑一个大型 AI 数据中心的需求;第二,碳排放为零——符合科技巨头们的碳中和承诺;第三,可提供稳定的基础负荷——不像风能和太阳能那样受天气影响。

但核能也面临着巨大的障碍。首先是安全风险——尽管现代核电站的安全性已经大幅提升,但公众对核能的恐惧仍然是一个现实问题。其次是监管审批——核电站的建设审批流程极其漫长,通常需要 5 -10 年,这与 AI 数据中心快速建设的需求形成了尖锐矛盾。第三是成本——SMR 的单位发电成本虽然低于传统核电站,但仍高于天然气和可再生能源。

尽管如此,核能作为 AI 算力的能源解法,正受到越来越多的关注。如果 SMR 技术能够在未来 3 - 5 年内实现商业化突破(降低成本、缩短审批、提升安全性),核能有可能成为 AI 数据中心的「终极能源解法」。

国产 AI 芯片:中国的差异化路径

在全球 AI 算力短缺的背景下,中国的国产 AI 芯片发展,走出了一条与欧美不同的差异化路径。

英伟达的 GPU,追求的是「单卡性能最大化」——通过不断提升芯片的晶体管数量和运行频率,来获得最高的计算性能。这种策略的代价是:芯片功耗持续攀升、成本居高不下、对先进制程的依赖越来越深。

中国的国产 AI 芯片,更多走的是「够用就好、成本优先」的路径。华为昇腾、寒武纪、海光等企业,虽然在单卡性能上与英伟达最新 GPU 还有差距,但在特定场景下的性能价格比,已经具备了竞争力。特别是随着 DeepSeek V4 等国产大模型在华为昇腾芯片上的适配优化,国产芯片的实用性正在快速提升。

这种差异化路径的优势在于:不依赖最先进的制程(14nm 甚至 28nm 制程就能满足很多 AI 推理场景的需求),不面临美国出口管制的直接影响(因为是自主设计和制造),成本更低(可以用更成熟、更便宜的制程来生产)。劣势在于:在需要最高算力的模型训练场景中,国产芯片的性能仍然有较大差距。

长期来看,中国的国产 AI 芯片发展,可能会沿着两条路径并行推进:一条是通过制程升级来提升单卡性能,逐步缩小与英伟达的差距;另一条是通过架构创新和系统级优化,在特定的应用场景中实现「以弱胜强」。两条路径的协同发展,将决定中国 AI 芯片产业的长远竞争力。

算力共享:中小企业的生存之道

在全球算力短缺的背景下,中小企业面临的挑战尤为严峻。大型科技公司可以通过自建数据中心、与芯片厂商签订长期供货协议来确保算力供应。但中小企业既没有足够的资金自建算力,也没有足够的议价能力来获得优先供应。

算力共享平台因此成为了中小企业获取 AI 算力的重要渠道。在中国,「东数西算」工程的建设,正在为中小企业提供越来越多的算力共享选项。华为的 ModelArts、百度的飞桨 AI Studio、阿里云的 PAI 等平台,都提供了按需付费的算力服务。

但算力共享平台也面临着成本和效率的平衡难题。共享算力的边际成本较低(增加一个用户只需要分配一部分已有资源),但固定成本很高(需要购买和维护大量的 GPU/TPU 服务器)。如果平台的利用率不够高,运营方就会面临亏损。而如果收费标准过高,又会抑制中小企业的使用需求。

未来,算力共享的模式可能会朝着更加多元化的方向发展。比如,一些大型企业可能会将自己闲置的算力资源,通过共享平台出租给中小企业;一些科研机构可能会在非工作时间,将实验室的算力资源开放给商业用途。这种多元化的共享模式,有助于更充分地利用现有的算力资源,缓解算力短缺的矛盾。

正文完
post-qrcode
 0
admin
版权声明:本站原创文章,由 admin 于2026-05-26发表,共计2590字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。