杰森·帕克,奥山大学数字内容设计系专职教授
【特稿】② 拆除横亘在AI高速路上的“三堵墙”
▶看不见的瓶颈
1970年7月,当人们参加京釜高速公路开通仪式时,没有人询问沥青的厚度。他们唯一关心的问题是:“这条路能否让我们更快、更便宜、更安全地抵达目的地?”
半个世纪后的今天,我们正站在另一条“高速公路”的起点——人工智能(AI)高速公路。但这一次,问题已悄然改变:
“谁能在上面跑?”
更重要的是:“是什么挡住了我们的去路?”
正如笔者在前篇专栏(2025年11月2日刊)中所指出的那样,AI时代的竞争力并不取决于GPU的数量,而在于基础设施的整体效率。然而深入观察现实场景便会发现,真正的瓶颈不在硬件本身,而在其背后三道无形之墙:电力与冷却、网络与存储、以及数据、人才与制度惯性。若不推倒这三堵墙,即便购置再多昂贵的GPU,也终将徒劳无功。
▲ 第一堵墙:电力与冷却——热能与能源的战场
走进现代数据中心现场,你会感受到两种时间的同时存在:一部分区域带宽充足,模型训练流畅推进;而一旦某个机架出现供电波动或冷却延迟,整个系统便瞬间停滞。
数字更能说明问题。一块最新的H100 GPU满载功耗高达700瓦——相当于一台家用空调持续运行一小时的能耗。而在一个典型的AI集群中,这样的GPU动辄部署十万块以上。总功耗可达70兆瓦,接近一座中小型城市的用电需求。
问题还远未结束。AI训练是全天候不间断的进程,尤其在深夜电网负荷高峰时段,计算需求反而激增。现有输配电网络难以承受如此集中的高密度负载。
全球领先企业早已采取行动。微软选择在美国亚利桑那州沙漠建设百兆瓦级数据中心,并通过太阳能实现自给自足;谷歌则将数据中心设于芬兰湾畔,利用冰冷海水作为天然冷却源。它们不是被动“购买”电力,而是主动“设计”能源系统。
那么我们呢?至今仍高度依赖韩国电力公司的电价体系,缺乏自主可控的能源布局能力。
冷却系统的挑战更为严峻。十万块GPU全速运转所产生的热量,堪比一座小型火力发电厂。如果不及时散热,芯片将面临熔毁风险——这不是比喻,而是真实发生的物理现象。传统的风冷技术已无法满足需求,液冷正成为新标准:直接向GPU注入冷却液,效率提升十倍,但成本也随之翻倍。
有趣的是,冷却方式的变化甚至会影响其他性能指标。有案例显示,仅更换为高效液冷系统后,存储路径的IOPS(每秒输入输出操作数)提升了近70%。为何冷却会影响I/O?答案很简单:发热、电压、时钟频率、错误重试与队列延迟,本就是环环相扣的技术链条。
PUE(电能使用效率)值为1.1的数据中心与1.5的中心之间,差距绝非仅仅是环保评分的不同。前者可将富余电力用于精密控制优化,后者却因冷却压力被迫牺牲峰值性能。因此,PUE < 1.3不应只是绿色口号,而应成为降低延迟波动性的核心运营KPI。
更进一步看,废热回收正在成为新的战略方向。瑞典斯德哥尔摩的数据中心已将其产生的废热接入区域供暖管网,为两万户家庭提供冬季采暖。我国北方地区同样面临巨大供暖需求,若能将数据中心废热并入城市供热系统,不仅可大幅降低冷却成本,还能减少传统能源消耗,实现双赢。但这需要从城市规划到能源政策的跨部门协同重构。
▲ 第二堵墙:网络与存储——尾部决定整体速度
AI的本质是一场大规模协同运算。数千颗GPU必须在同一节奏下精确交换数据。此时,网络的关键不再是平均延迟,而是延迟的一致性。
我们常设定目标RTT ≤ 10ms,但真正的胜负不在于是否达到这一数值,而在于流量高峰或初期故障发生时,能否持续维持该水平。
业内常用P95、P99等百分位指标衡量这一点——即最慢的5%或1%请求的响应时间。哪怕一次微突发(microburst),无论是InfiniBand还是以太网,只要引发尾部延迟延长,就会拖累整个集群的进度。GPU陷入空转,而我们往往看不到这些等待。
想象一下高速公路:应急车道上的轻微剐蹭,可能造成二十公里外的大堵车。在网络世界中亦然。丢包率必须控制在10⁻⁶以下,链路聚合、ECN/RED等拥塞控制机制应成为运维手册的首要章节。
存储则是这一切的镜像。参数服务器访问、样本预处理、检查点保存——每一项都不是顺序过程。海量小规模并发请求填满队列,缓存命中率对数据集版本和采样策略极为敏感。
一线工程师常说一句话:“买了快盘,服务怎么没变快?”原因在于,我们需要的不是“快速部件”,而是“快速通路”。
而这三大要素——电力冷却、网络、存储——并非孤立存在。
电力余量影响网络延迟一致性,
网络尾部延迟扰乱存储队列稳定性,
存储延迟波动又反过来降低学习调度器效率,增加GPU空闲率。
因此,最终胜出的组织,不是问“有多少GPU”,而是问“有多少条高效通路”。
▲ 第三堵墙:数据、人才与制度惯性——隐形的结构性壁垒
即使物理基础设施完美建成,第三堵墙依然矗立。它是关于人与制度的问题。
▷ 数据封建制的堡垒
AI高速公路上奔跑的车辆,其燃料是数据。然而当前中国的现状令人担忧:我们深陷“数据封建制”的泥潭。各级政府机构、大型医院、重点企业以“安全”和“合规”为名,将数据牢牢锁在各自领地之内。
当全球科技巨头整合全球网页信息、用户行为和科研数据,构建起浩瀚的数据海洋时,我们却忙于开挖数百个彼此割裂的小池塘。这些“池塘”水质各异、容量有限,根本无法支撑大模型训练所需的海量高质量数据。
我们必须转变观念:数据的价值不在存储,而在流通与融合。国家层面亟需建立高质量合成数据生成与共享平台,全面推广联邦学习技术,在不转移原始数据的前提下实现联合建模。唯有通过制度创新,在保障数据所有权的同时赋予合法“使用权”,才能打破壁垒,释放潜力。
▷ 系统架构师的稀缺
AI高速公路所需的人才,绝非普通程序员或IT管理员,而是具备HPC、分布式系统、网络协议、操作系统深层理解的基础设施架构师。他们是能让千万亿参数模型在数千张GPU上稳定运行、将P99延迟压缩至毫秒级的核心力量。
这类顶尖人才极度稀缺,且已被Google、NVIDIA、OpenAI等公司以天价薪酬争相吸纳。我们热衷于培养AI科学家,却忽视了真正让模型落地的“建造者”与“驾驶员”。再先进的自动驾驶汽车,若没有合格的道路设计师和维护团队,也无法发挥价值。
▷ 碎片化的文化惯性
最后一道障碍,是体制与文化的惰性。我国的科技投入模式偏好“分散试点”而非“统一平台”,热衷于各部门争抢预算、各自立项。
AI高速公路本应是一个国家级的统一骨干平台,现实中却被拆分为数十乃至上百个“局部试验项目”。这就像从首尔到釜山的路上,每个地方政府只修自己辖区内的短轨,互不连通。
试点越多,数据越碎片化,基础设施重复投资,规模效应荡然无存。追求极致效率的AI基础设施,反而陷入了极致低效的悖论。
▲ 谁将在路上奔驰?
1970年代京釜高速通车时,没人想到车流会如此汹涌。当时全国汽车注册量刚过十万,这条公路曾被批评为“过度投资”。但路一旦建成,车便随之而来;车多了,人流物流就活了;人动起来,经济就开始循环。
AI高速公路的真正价值,在于“共享”。美国建立了“AI研究资源平台”(AI Research Resource),允许全国高校与中小企业共用算力;中国实施“东数西算”工程,将东部数据送往西部廉价电力区集中处理,打造国家级AI基础设施。
我们也必须开启共享式设计。AI高速公路不应是“政府建、民间用”的单向通道,而应是政产学研用共同参与、共建共治的公共资产。
◈ 我们应当做什么?
第一,设立AI能源特区。打破现有监管束缚,创建集电力、冷却、网络于一体的综合试验区。沿海、山区乃至海上平台均可考虑,支持海水冷却、风电联动、废热回收一体化实验。
第二,制定统一设计标准。借鉴MLPerf理念,建立涵盖电力效率、冷却效能、网络延迟的综合性基准测试体系。只有达标的数据中心方可获得政府补贴与政策支持。
第三,组建民间主导联盟。推动三星电子、SK海力士、Naver、Kakao等企业联合成立“AI基础设施联盟”。这些企业在半导体、内存、云计算、搜索等领域均具世界级实力,整合后完全有能力打造全球领先的AI高速平台。
第四,构建数据流通生态。推动数据所有权与使用权分离,大力发展联邦学习与合成数据技术,彻底打破“数据孤岛”。
第五,启动基础设施架构师培养计划。将AI人才培养范式从“模型中心”转向“系统中心”,重点培育懂硬件、通软件、精调度的复合型人才。
第六,启动统一平台建设。停止数百个碎片化试点项目,集中资源打造覆盖全国的单一AI骨干平台,实现真正的资源整合与规模效应。
▲ 感知速度源于系统设计
或许有人会质疑:“这不还是钱的问题吗?”
没错,但这里的“钱”,不是设备采购费,而是时间成本。
提前一周上线模型,意味着抢占市场先机;
同等电力下处理更多请求,意味着单位成本下降;
高峰期仍能保持低延迟,意味着用户体验稳定——这些都是时间创造的竞争优势。
GPU只是压缩时间的工具,而真正浪费时间的地方,恰恰在GPU之外。如果说电力、网络、存储构成了高速公路的路面、车道与立交桥,那么GPU只是引擎。路面坑洼、车道混乱,再强大的引擎也只能带来更高的事故率。
感知速度,从来不是来自输出功率,而是源于系统设计。
回到我在上一篇文章中的核心观点:基础设施不应等待需求,而应引领需求。今天我依然坚信:只有当我们把电力、网络、存储整合在一张蓝图之下,把KPI作为硬性约束嵌入设计,同时拆除数据、人才与制度的高墙,高性能GPU才能真正释放其全部潜能。
50年前,京釜高速克服重重土地征收难题得以贯通;今天,我们也需要一场“数字征地”——征用那些阻碍发展的数据壁垒、人才鸿沟与官僚惯性。
现在是最后的机会窗口。全球领先者已领先三年。他们用一个月完成的事,我们要花三个月。这种差距将以复利形式扩大:三年后将是九年的代差,五年后则是二十五年的鸿沟。
在此,我再次恳请总统室AI首席顾问:将拆除AI高速公路“三堵墙”的任务上升为国家战略,协调各部委与民间力量,立即启动联合设计工作。
正如50年前我们用水泥铺就了那条改变国运之路,今天,我们应用硅基、电子与光子铺设一条全新的道路。
在这条路上,奔跑着的是整个韩国面向未来的每一位挑战者。
让他们跑起来,是我们这一代人的使命,也是时代赋予的荣光。
"谁将在AI高速公路上奔驰?”
答案很明确:所有志在突破、勇闯未来的韩国人。
而我们要做的,就是现在打开这条路。
这是AI时代的责任,更是历史的召唤。"
杰森·帕克博士毕业于加州大学圣地亚哥分校,曾任加利福尼亚州高中教师,后任职于伊利诺伊大学招生办公室。目前担任东伊利诺伊大学、西南明尼苏达州立大学及德国欧洲大学的招生顾问。同时,他运营着YouTube和TikTok频道“杰森频道”,并现任韩国奥山大学专职教授。

