释放算力潜力新华三布局在网计算

消息来源:baojiabao.com 作者: 发布时间：2024-11-24

报价宝综合消息释放算力潜力新华三布局在网计算

一个 AI 机器人有多会聊天？ChatGPT 实力"聊"出了史上增长最快的消费级应用，上线短短两个月，月活用户突破 1 亿，每天用约有 1300 万独立访客与之对话。敲代码、写论文、编剧本…… 这位多才多艺的"全能网友"，引爆了新一轮的人工智能热潮。

然而，当红的 ChatGPT 也正经历着"成长的烦恼"。从 GPT 到 GPT-3，优化迭代主要源自模型的增大，训练参数量从 1.17 亿增加到 1750 亿，模型训练使用的数据量高达 0.4 万亿 token，如此庞大的数据体量，对于分布式集群的运算效率提出了极高要求。事实上，不只是 ChatGPT，整个 AI 产业的大规模商用都在经历算力限制的阵痛。

如何在整体资源有限的条件下，让应用获取更多的计算资源，提升机器学习效率，人工智能和算网融合领域的前沿课题 -- 在网计算（In Network Computing）成为其中一种有效解决方案。

让网络设备参与计算突破集群计算效率瓶颈

数据显示，过去 5 年 GPU 算力增长近 90 倍，而网络带宽仅增长 10 倍。受网络通信能力的限制，分布式集群的运算效率无法随其规模线性增长，网络通信能力日渐成为人工智能模型训练成熟发展的瓶颈。

传统的计算集群，计算过程以计算节点为中心，网络仅用于节点间的互联。当各计算节点之间进行一对多或多对多的集合通信时，多次通信交互不仅会影响计算效率，也会增加网络负载，出现通信时延过大、通信效率降低等问题。

作为算网融合核心技术之一的"在网计算"技术，是通过在网络中部署对报文进行解析的算力，将部分计算任务从主机侧迁移至网络侧，由交换机、路由器、智能网卡、DPU 等设备或部件完成计算加速的技术。通过网络设备自身算力的共享，在不改变业务原有运行模式的前提下，在网计算将 HPC 和 AI 分布式计算的集合通信的操作卸载到网络设备上，让网络设备参与计算，减少计算节点之间的消息交互，降低通信延迟，从而提高网络带宽利用效率，加速 HPC 和 AI 分布式计算效率。

加速布局在网计算推动"网络计算化"演进

作为数字化解决方案领导者，紫光股份旗下新华三集团以科技创新为引领，基于在网络和计算领域深厚的技术积淀，主动担起在网计算技术的产业化探索职责，快速在网络设备端完成研发落地。

全面支持在网计算的 H3C P4 可编程交换机支持 Pytorch 框架和 DPDK UDP、RoCE 通信方式，能够将数据需求聚合统一操作，优化通信网络拥堵，减少主机的数据处理量。据新华三集团内部实验室测算，使用 H3C P4 可编程交换机加速数据并行训练，模型训练精度不受影响，计算节点间通信数据量平均减少 30%，最多可以减少 48% 的训练时间，可大幅提升分布式集群的整体训练效率，创造更加出色的应用价值。

在网计算作为计算、网络融合发展的关键技术，不仅有效解决了 HPC 和 AI 分布式计算的集合通信问题，为提升数据中心的集群规模带来了新的方案和思路，同时也将进一步加速算网融合"网络计算化"演进，推动网络从连接算力到感知、承载、调配算力的角色升级，助力算网融合纵深发展。

从 AlphaGo 击败围棋世界冠军，到 ChatGPT 火遍全球，人工智能时代正在加速到来。面向未来，在"云智原生"战略指引下，新华三集团将以前瞻视野精耕科技，深入数字科技的实际应用场景，为人工智能与经济社会的融合注入强大的创新动能，深度赋能百行百业的数字化转型和智能化升级。

2023-02-24 15:42:16