【图片】什么是算力军备竞赛的「万全」之策？【拯救者go吧】

拯救者go吧关注：59贴子：183

6回复贴，共1页

什么是算力军备竞赛的「万全」之策？

在硬件的军备竞赛之后，企业已堆叠大量混合硬件基础设施，却很难充分为AI训练所用。GPU跨集群调度存在壁垒，更有一半算力仍消耗在网络传输中。企业必须意识到，从硬件堆叠向软件基础设施转变，才是当前大势所趋。如何让混合算力充分为企业AI所用，加速混合AI时代到来？

大模型技术的成熟，意味着无论你，或是企业，或是世界，都能获得在数字世界拥有超高智能的分身。这背后是对海量算力的无尽渴望，企业对「算力」这一崭新能源，开启了一场硬件的军备竞赛。

今天，形态各异的算力基础设施依旧被如火如荼地建造着，它们所交织出的巨大网络中，积蓄了难以估量的潜能，蓄势待发。星罗棋布的混合算力单元，渴望着像其他通用资源一样——被探索、挖掘、输送到地球每个角落。

送TA礼物

IP属地:湖北

1楼2024-05-28 16:40回复

即便算力基础设施的建设不断追赶 AI 爆发增长的计算需求，但是，距离我们真正应用如此庞大的算力，依然有着难以跨越的鸿沟。如果用 MFU 模型算力利用率来衡量我们对算力的驾驭能力，企业在训练大模型时，往往只能开发出现有算力潜能的 30%左右。

继续积累硬件，也难以追赶混合式人工智能的步伐，企业必须意识到，寻求出类拔萃的调度软件，释放全部混合算力资源，迫在眉睫。

IP属地:湖北

2楼2024-05-28 16:42

这是一张 GPU，数百、数千个计算核心，赋予了它超高速的并行计算能力。于是，将它们封装进服务器，再将服务器成群地列入机柜，加入存储，通过网络通讯，形成了计算集群——这便是人工智能大模型训练推理的基本力量。

今天，数据中心已经几乎完成了基建的原始积累阶段。但即使已经拥有大量 GPU，为什么依然无法释放所有算力？
当我们看到一家企业数据中心的常见形态，会发现，其中不仅有服务于 AI 的集群，还有以 CPU 为主的通用计算集群，和需要极高的计算精度的HPC 集群。

不同需求孕育出的集群间网络拓扑结构不同，无法同时调度，即便 AI 需求汹涌袭来，HPC 集群当中大量的 GPU 也难以参与。

IP属地:湖北

3楼2024-05-28 17:15

为了动员这些混合算力资源，联想集团推出HIMP（联想万全异构智算平台），它不仅是打通整个算力网络的大脑与控制平台，背后更是联想集团为人工智能打造的全局解决方案。

HIMP 第一步便构建了新的拓扑感知机制，它能够跨越集群间不同的网络结构，定位到所有节点中拥有最优训练速度的 GPU。

但在调度层面，HPC 和 AI 集群，采用的是两种不同的调度器，HPC 集群倾向于最大化计算资源，而 AI 集群则倾向于任务快速部署。最大的区别，是算力资源优先级不同，一旦同时使用，会导致资源争抢、调度冲突。

在 HIMP 的集成看板中，你可以看到联想集团率先采用的超级调度器，它有着 AI 调度器的特性，在计算资源充足时，高速部署运转，而在资源不足时，能优先将任务转移到其他节点上计算。

一个入口，便能盘活全局，将所有计算资源为 AI 所用。
即便如此，仍有一半响应时间在网络中被消耗，这是为什么？

IP属地:湖北

4楼2024-05-28 17:15

AI 训练，意味着整个任务的模型、数据、流程被切割成无数块，再分发给每个 GPU 进行运算。
当每个 GPU 计算完毕，可以通过广播、散射、聚集等形式将数据向其他 GPU 同步，并经过一次统一的操作汇总，这叫做归约。

只有完成全部归约，各个服务器才获得了完全一致的、包含原本所有服务器上计算参数的数据。
这是 GPU 间数据交互的全部，也是 GPU 能够协力完成同一目标的基石。
但它也带来了严重的木桶效应，由于每张都需要进行归约，那么某条速度较慢的网络，便会拖累整个集群。
一种发生在蚁群中的现象，带来了奇迹般的解决方案：蚂蚁在寻找食物时发现的最短路径，会释放出信息素供其他蚂蚁感知。联想集团，将庞大蚁群的生物特性变为参数，以数学逻辑，化身为 HIMP 当中的集群调度算法：百卡、千卡、甚至更为错综复杂的节点间，驾轻就熟地找出最佳路径。

大模型训练过程中，会夹杂推理任务，来验证训练效果，但推理任务占用资源极少，排队完成的过程中，不免造成GPU资源的浪费。
为了极致压榨整张算力网络，HIMP 甚至深入 GPU 的内部。它可以在 OS 层面创建 GPU 驱动，将 GPU 切分成若干个虚拟 GPU，任务间相互隔离，互不干扰，进行小规模运算的颗粒度甚至能达到 1% 。

这意味着 GPU 成为了一个「算力蜂巢」，几十张卡也能实现「千卡集群」。

IP属地:湖北

5楼2024-05-28 17:16

至此，HIMP 完全整合了混合算力的感知、调度与加速，这曾是智算领域复杂而待解的「哥德巴赫猜想」。而在完成了对当下高技术壁垒的突破后，HIMP 又拼上了最后一块版图——应用。

这个庞大集群训练 AI 最关键的是成功率。
任一节点故障，会导致整个集群停摆，即便采用自动化恢复续训，也要 2 小时起。这 AI 领域最令人头痛的状况，每月普遍发生次数高达 15 次。
联想集团，则以模型之力，拯救模型。HIMP 当中，有一个基于大量训练故障数据，所训练出的故障预测模型。面对数以千计的节点，它能精准预估故障节点，实现对故障节点的提前备份，有了它，断点续训时间可以被压缩到短短 1分钟。