拯救者go吧 关注:59贴子:183
  • 6回复贴,共1

什么是算力军备竞赛的「万全」之策?

只看楼主收藏回复

在硬件的军备竞赛之后,企业已堆叠大量混合硬件基础设施,却很难充分为AI训练所用。GPU跨集群调度存在壁垒,更有一半算力仍消耗在网络传输中。企业必须意识到,从硬件堆叠向软件基础设施转变,才是当前大势所趋。如何让混合算力充分为企业AI所用,加速混合AI时代到来?

大模型技术的成熟,意味着无论你,或是企业,或是世界,都能获得在数字世界拥有超高智能的分身。这背后是对海量算力的无尽渴望,企业对「算力」这一崭新能源,开启了一场硬件的军备竞赛。

今天,形态各异的算力基础设施依旧被如火如荼地建造着,它们所交织出的巨大网络中,积蓄了难以估量的潜能,蓄势待发。星罗棋布的混合算力单元,渴望着像其他通用资源一样——被探索、挖掘、输送到地球每个角落。


IP属地:湖北1楼2024-05-28 16:40回复
    即便算力基础设施的建设不断追赶 AI 爆发增长的计算需求,但是,距离我们真正应用如此庞大的算力,依然有着难以跨越的鸿沟。如果用 MFU 模型算力利用率来衡量我们对算力的驾驭能力,企业在训练大模型时,往往只能开发出现有算力潜能的 30%左右。

    继续积累硬件,也难以追赶混合式人工智能的步伐,企业必须意识到,寻求出类拔萃的调度软件,释放全部混合算力资源,迫在眉睫。


    IP属地:湖北2楼2024-05-28 16:42
    回复
      这是一张 GPU,数百、数千个计算核心,赋予了它超高速的并行计算能力。于是,将它们封装进服务器,再将服务器成群地列入机柜,加入存储,通过网络通讯,形成了计算集群——这便是人工智能大模型训练推理的基本力量。

      今天,数据中心已经几乎完成了基建的原始积累阶段。但即使已经拥有大量 GPU,为什么依然无法释放所有算力?
      当我们看到一家企业数据中心的常见形态,会发现,其中不仅有服务于 AI 的集群,还有以 CPU 为主的通用计算集群,和需要极高的计算精度的HPC 集群。

      不同需求孕育出的集群间网络拓扑结构不同,无法同时调度,即便 AI 需求汹涌袭来,HPC 集群当中大量的 GPU 也难以参与。


      IP属地:湖北3楼2024-05-28 17:15
      回复
        为了动员这些混合算力资源,联想集团推出HIMP(联想万全异构智算平台),它不仅是打通整个算力网络的大脑与控制平台,背后更是联想集团为人工智能打造的全局解决方案。

        HIMP 第一步便构建了新的拓扑感知机制,它能够跨越集群间不同的网络结构,定位到所有节点中拥有最优训练速度的 GPU。

        但在调度层面,HPC 和 AI 集群,采用的是两种不同的调度器,HPC 集群倾向于最大化计算资源,而 AI 集群则倾向于任务快速部署。最大的区别,是算力资源优先级不同,一旦同时使用,会导致资源争抢、调度冲突。

        在 HIMP 的集成看板中,你可以看到联想集团率先采用的超级调度器,它有着 AI 调度器的特性,在计算资源充足时,高速部署运转,而在资源不足时,能优先将任务转移到其他节点上计算。

        一个入口,便能盘活全局,将所有计算资源为 AI 所用。
        即便如此,仍有一半响应时间在网络中被消耗,这是为什么?


        IP属地:湖北4楼2024-05-28 17:15
        回复
          AI 训练,意味着整个任务的模型、数据、流程被切割成无数块,再分发给每个 GPU 进行运算。
          当每个 GPU 计算完毕,可以通过广播、散射、聚集等形式将数据向其他 GPU 同步,并经过一次统一的操作汇总,这叫做归约。

          只有完成全部归约,各个服务器才获得了完全一致的、包含原本所有服务器上计算参数的数据。
          这是 GPU 间数据交互的全部,也是 GPU 能够协力完成同一目标的基石。
          但它也带来了严重的木桶效应,由于每张都需要进行归约,那么某条速度较慢的网络,便会拖累整个集群。
          一种发生在蚁群中的现象,带来了奇迹般的解决方案:蚂蚁在寻找食物时发现的最短路径,会释放出信息素供其他蚂蚁感知。联想集团,将庞大蚁群的生物特性变为参数,以数学逻辑,化身为 HIMP 当中的集群调度算法:百卡、千卡、甚至更为错综复杂的节点间,驾轻就熟地找出最佳路径。

          大模型训练过程中,会夹杂推理任务,来验证训练效果,但推理任务占用资源极少,排队完成的过程中,不免造成GPU资源的浪费。
          为了极致压榨整张算力网络,HIMP 甚至深入 GPU 的内部。它可以在 OS 层面创建 GPU 驱动,将 GPU 切分成若干个虚拟 GPU,任务间相互隔离,互不干扰,进行小规模运算的颗粒度甚至能达到 1% 。

          这意味着 GPU 成为了一个「算力蜂巢」,几十张卡也能实现「千卡集群」。


          IP属地:湖北5楼2024-05-28 17:16
          回复
            至此,HIMP 完全整合了混合算力的感知、调度与加速,这曾是智算领域复杂而待解的「哥德巴赫猜想」。而在完成了对当下高技术壁垒的突破后,HIMP 又拼上了最后一块版图——应用。

            这个庞大集群训练 AI 最关键的是成功率。
            任一节点故障,会导致整个集群停摆,即便采用自动化恢复续训,也要 2 小时起。这 AI 领域最令人头痛的状况,每月普遍发生次数高达 15 次。
            联想集团,则以模型之力,拯救模型。HIMP 当中,有一个基于大量训练故障数据,所训练出的故障预测模型。面对数以千计的节点,它能精准预估故障节点,实现对故障节点的提前备份,有了它,断点续训时间可以被压缩到短短 1分钟。

            这一分钟的突破,宣告了全流程 AI 训练框架最终落成,MFU 将被大幅度提升。
            算力,即将被完全开发。


            IP属地:湖北6楼2024-05-28 17:16
            回复
              人工智能所带来的新工业革命,本身就是人类对算力这一资源的挖掘和应用。
              人类终于实现了资源的创造。那些遍布世界,代表着人类最高技术结晶的计算单元,将前所未有地融为一体,孕育出混合式人工智能。

              这一次,人类将未来的主宰权,更加牢固地紧握在了手中。


              IP属地:湖北7楼2024-05-28 17:16
              回复