首页热门行业20245月罗森伯格-2024面向AI智算数据中心网络架构与连接技术的发展路线展望白皮书-20页
柒柒

文档

8734

关注

0

好评

0
PDF

罗森伯格-2024面向AI智算数据中心网络架构与连接技术的发展路线展望白皮书-20页

阅读 832 下载 0 大小 7.58M 总页数 0 页 2024-07-14 分享
价格:¥ 13.99
下载文档
/ 0
全屏查看
罗森伯格-2024面向AI智算数据中心网络架构与连接技术的发展路线展望白皮书-20页
还有 0 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
Rosenberger面向A!智算数据中心网络架构与连接技术的发展路线展望白皮书【解码行研报告】28万+研报库7x24微信机器人自助查询&下载白皮书Rosenberger目录1AIGC及智算网络简述31.1A1GC市场前景.…1.2A1网络架构对于AIGC应用发展的重要性1.3传统云计算数据中心网络架构…51.6A1计算网络中对于GPU与CPU的权衡2A智算网络两大主流架构介绍及差异…72.1 InfiniBand网络架构…2.1.1 InfiniBand网络流控机制.....2.2 RoCEv2网络架构…2.2.1R0CE2网络流控机制.…82.2.2 RoCEv2网络特点:强大兼容性与成本优化92.3 InfiniBand与RoCEv:2的技术差异.93A1智算网络800G/1.6T主流传输方案.…93.1800G主流传输方案与1.6T传输方案展望93.2实际应用环境对传输带宽的影响.103.3单模传输创新解决方案:基于EB0(Expanded Beam Optical)的扩束技术.l13.4室外超大芯数传输安全可靠解决方案:预端接技术…134A!智算网络降耗增效解决方案154.1创新光模块LP0与其他光模块的技术差异…….164.2应对A1数据中心高能耗高热量的问题一液冷解决方案4.2.1罗森伯格液冷解决方案—灵活安装的配线架..174.2.2罗森伯格液冷解决方案一半浸没式RJ45跳线174.2.3罗森伯格液冷解决方案一即插即拔防水连接器.…185结语.19参考文献19白皮书:面向A智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第2/19页白皮书Rosenberger1AIGC及智算网络简述2024年以来,全球Al市场热度不衰。Open Al旗下Sora的发布,再次拔高了Al内容创作的上限。同时,国内人工智能领域也迎来了新的焦点一Kimi,这款A1大模型产品凭着高达200万字的上下文窗口技术,将国产A!大模型“卷”出了新高度。业界普遍预测,2024年将成为A1大模型应用的爆发之年。1.1AIGC市场前景IDC的数据显示,全球企业对生成式人工智能(下文简称:“AIGC”)解决方案的投资热情不断上升,预计到2024年投资额将达到200亿美元,而到2027年,这一数字预计将激增至超过1400亿美元。这一趋势不仅凸显了AIGC技术的商业潜力,也预示着A将引领一个创新与增长的新时代。在这样的背景下,AIGC的未来增长需要坚实的支撑一而A!网络架构正是这一增长的“骨骼”,它正逐渐成为推动A!发展的关键力量。1.2AI网络架构对于AIGC应用发展的重要性AI网络架构的重要性在AIGC应用的发展中显得尤为突出。在A1GC工具方面,厂商正通过深度技术投资,挖掘大量数据并提升算力,使得这些工具从基础应用转变为强大的生产力工具。而在A1社交领域,大模型的发展重点在于融合技术与用户互动,创造富有情感和温度的互动体验,旨在重塑用户体验并探索新的商业模式。其中,自主研发能力和丰富的训练数据成为了打造有竞争力产品的关键。我们不难发现,这两个赛道的发展都依赖高效、可靠的网络架构,以支持大规模训练集群的算力和显存需求。白皮书:面向A智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第3/19页白皮书RosenbergerEvoLutionaryTreeChatGPTOpen-SourceClosed-SourceGPT-NecxCchereNT-NGEJurossic-1GPT-JGPT-NeoDeBERToELECTRAGBERT GDecoder-rlyLLM(大规模语言模型进化树(来源:Harnessing the Power of LLMs in Practice:ASurvey on ChatGPT and Beyond)1.3传统云计算数据中心网络架构传统的云数据中心网络架构较为成熟,但存在着诸多痛点,导致其无法完美适配A!网络架构需求。实际上,传统的云数据中心网络的设计基于对外提供服务的流量模型,以南北向流量为主导,云内部东西向流量作辅。承载智算业务时,传统云计算数据中心面临着如下挑战:带宽收敛比较高:Leaf交换机上下联带宽收敛比设计,导致上下联带宽比约为1:3;互访高时延:云内部服务器间互访都需经过Spine交换机,增加转发路径,提高时延;网卡带宽低:单台物理机通常只有一张网卡,带宽不超过200GbpS,限制了整体带宽。这些问题共同影响了智算业务的高效运行,需要通过构建新的网络架构来应对需求。传统云数据中心AI智算中心网络架构Spine-LeafFat-Tree单机对外带宽200Gbps6.4Tbps带宽收敛比1:31:1跨集群互访经过Spine交换机同资源池单跳传输方式TCP/IP通信RMDA直访传统云数据中心与A!智算中心网络架构对比图白皮书:面向A!智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第4/19页白皮书Rosenberger1.4智算中心网络架构A!智算网络采用Fat-Tree(胖树)架构,有效解决了传统云数据网络面临的挑战。这种架构通过1:1的无收敛配置,确保了网络的高性能和无阻塞传输。其次,为了降低时延,网络设计将8台交换机构成一个资源池,池内节点单跳通信,而跨集群通信则通过汇聚交换机,最多实现三跳传输,从而优化数据传输效率。此外,网络采用RDMA技术,绕过操作系统内核,允许主机之间直接内存访问,可显著降低同集群内部单跳可达场景的时延,相比TCP/IP网络提升了数十倍的时延性能。针对带宽需求,A!智算服务器通常配备8张GPU卡和8个网卡插槽,以应对多机GPU集群中可能出现的超过50Gbps的跨机GPU通信带宽需求。随着800Gbps网卡的商用化,单机对外带宽有潜力达到6.4Tbps,进一步满足了AI应用对高带宽的需求,为A!智算网络提供了强大的数据传输能力。NCNCNCFNCFPod-20Pod-19od-1840A1网络架构图(来源:锐捷)1.5A1网络架构所能容纳的最多GPU数量A!网络的性能和扩展性与其网络架构和交换机端口密度紧密相关,随着网络层次的增加,可接入的GPU卡数量也随之增长。在胖树网络架构中,例如端口数为P的交换机最多可连接P2台服务器和其他交换机,其最大容量可达P22张GPU卡。在更复杂的三层网络架构中,通过增加汇聚和核心交换机组,网络容量可以进一步扩展至P3/4张GPU卡。随着技术的进步,市场上已经出现了能够支持高达524k张GPU卡的网络解决方案,这展示了A1网络架构在扩展性和性能上的巨大潜力。白皮书:面向A!智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第5/19页白皮书Rosenberger两层胖树三层胖树Leaf-spineLeaf-spine-core800(P=40)16.000(P=40)65,535(P=64)8.192P=128)524.228(P=128)Nmx代表可支特的最大GPU卡数量,P代表单个交换机的端口数Nmax represents Maximum number of GPU and P represents the number of ports on a single switch不同网络架构可容纳的最大GPU节点数量(来源:2023智算中心网络架构白皮书)1.6AI计算网络中对于GPU与CPU的权衡A!服务器之所以更倾向于使用GPU而非CPU,原因在于GPU在处理AI任务时展现出的卓越性能。GPU拥有大量并行处理核心,能够同步执行众多计算线程,特别适合进行深度学习等A!算法中涉及的大规模矩阵和向量运算,这些运算对于A!模型的训练和推理过程至关重要。GPU的并行化特性显著提高了计算速度,而CPU虽然在处理复杂逻辑和单线程任务方面表现出色,但其核心数量较少,难以匹敌GPU在大规模并行处理方面的能力。此外,GPU拥有高达14MB的寄存器总量和80TB/s的高速数据传输能力,这使得GPU在处理A1应用中的大数据量时更为高效,进一步提升了整体的计算效率。因此,GPU不仅能够缩短A!模型的训练时间,还能提升推理性能,使得A1服务器能够处理更加复杂的模型,推动A1技术的发展。白皮书:面向A智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第6/19页白皮书Rosenberger2A!智算网络两大主流架构介绍及差异在深入探究A!智算网络的领域时,我们发现市场中主要存在两大主流架构:InfiniBand和RoCE2。这两种网络架构在性能、成本、通用性等多个关键维度上展现出各自的优势,相互竞争。我们将细致分析这两种架构的技术特性、它们在A!智算网络中的应用场景,以及各自的优势和局限性。通过这一全面的探讨,我们旨在评估并展望InfiniBand和RoCEv2在Al智算网络中的潜在应用价值和未来的发展方向,以期为行业提供深刻的洞察和专业的指导。2.1 InfiniBand网络架构InfiniBand网络主要通过子网管理器(Subnet Manager,.简称SM)来进行集中管理,SM通常部署在一台接入子网的服务器上,充当网络的中枢控制器。子网中可能存在多个配置为SM的设备,但仅有一个被指定为主SM,负责通过管理数据报文(MAD)的内部下发和上传来管理所有交换机和网卡。每个网卡端口和交换芯片都通过由SM分配的唯一身份标识(L0 cal ID,LID)进行识别,确保网络内设备的唯一性和准确性。SM的核心职责包括维护网络的路由信息和计算更新交换芯片的路由表。网卡内部的SM Agent(SMA)功能使得网卡能够独立处理SM下发的报文,无需所在服务器的干预,而提高了网络的自动化和效率。StandbyInfiniBand网络架构示意图(来源:2023智算中心网络架构白皮书)2.1.1 InfiniBand网络流控机制InfiniBand网络基于信用令牌(credit)机制,在每条链路都配备了一个预置缓冲区。发送端仅在确认接收端有足够的缓冲区后,才会启动数据发送,并且发送的数据量都不可超过接收端当前可用的预置缓冲区的最大容量。当接收端接收完报文,会释放缓冲区,并向发送端通报当前可用的预置缓冲区大小,从而维持了网络的流畅运行和数据传输的连续性。白皮书:面向A智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第7/19页白皮书Rosenberger2.l.2 InfiniBand网络特点:链路级流控与自适应路由InfiniBand网络依靠链路级的流控机制,防止发送过量数据,从而避免了缓冲区溢出或是数据丢包的问题。同时InfiniBand网络的自适应路由技术可根据每个数据包的具体情况进行动态路由选择,在超大规模的网络环境中实现了网络资源的实时优化和最佳负载均衡利用。2.2 RoCEv2网络架构RoCE(RDMA over Converged Ethernet)协议是一种能在以太网上进行RDMA(Remote DirectMemory Access远程内存直接访问)的集群网络通信协议。该协议有两个主要版本:RoCEv1和RoCEv2。Ro CEv.1作为链路层协议,要求通信双方位于同一二层网络内。而RoCEv2则为网络层协议,它采用以太网网络层和UDP传输层,取代了InfiniBand的网络层,从而提供了更优的可扩展性。与InfiniBand网络的集中管理方式不同,RoCEv2采用的是纯分布式架构,通常由两层构成,在扩展性和部署灵活性方面具有显著优势。Spine LayerRoCEv2Switch FabricLeaf LayerRoCEv2 NICServersRoCEv22网络架构示意图(来源:2023智算中心网络架构白皮书)2.2.1 RoCEv22网络流控机制优先流控制(P阡。是一种逐跳流控策略,通过合理配置水位标记来充分利用交换机的缓存,以实现以太网络中的无丢包传输。当下游交换机端口的缓存过载时,该交换机就会向上游设备请求停止传输。已发送的数据侧会存储在下游交换机的缓存中,等到缓存恢复正常,端口将会请求恢复数据包的发送,从而维持网络的流畅运行。显式拥塞通知(EC)定义了一种基于P层和传输层的流量控制和端到端拥塞通知机制。通过在交换机上向服务器端传递特定拥塞信息,然后服务器端再发送至客户端通知源端都降速从而实现拥塞控制的目的。数据中心量化拥塞通知(DCQCN)是显式拥塞通知(EC)和优先流控制(PFC)两种机制的结合,旨在支持端到端的无损以太网通信。其核心理念是在网络拥塞发生时,优先使用ECN来通知发送端都降低传输速率,防止P℉℃的不必要激活,同时也要避免拥塞严重导致缓冲区溢出的情况。通过这种精细的流量控制,DCQCN能够在保持网络高效运行的同时,避免因拥塞造成的数据丢失。白皮书:面向A智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第8/19页白皮书Rosenberger2.2.2 RoCEv2网络特点:强大兼容性与成本优化RoCE网络利用RDMA技术实现了高效的数据传输,不必占用远程服务器的CPU周期,从而充分利用带宽并增强了网络的可伸缩性。这种方法显著降低了网络延迟并提升了吞吐量,整体上提高了网络性能。RoCE方案的另一个显著优势是它能够无缝地融入现有的以太网基础设施,这意味着企业无需额外投资于新设备或进行设备更换,就能实现性能的飞跃。这种成本效益高的网络升级方式对于降低企业的资本支出至关重要,使得RoCE成为提升智算中心网络性能的优选方案。2.3 InfiniBand与RoCEv2的技术差异市场中对网络的多样化需求促成了InfiniBand和RoCEv2两种网络架构的共同发展。InfiniBand网络凭借其高级技术,如高效的转发性能、快速的故障恢复时间和增强的扩展性,以及运维效率,在应用层业务性能上展现出显著优势,特别是在大规模场景下,能够提供卓越的网络吞吐性能。而RoCEv.2网络则以其强大的通用性和较低的成本受到青睐,不仅适用于构建高性能RDMA网络,还能无缝兼容现有的以太网基础设施,这使得RoCEv2在广泛性和适用性方面具有明显优势,能够满足不同规模和需求的网络应用。这两种架构各自的特性和优势,为A!智算中心的网络设计提供了丰富的选择,以满足不同用户的具体需求。对比项InfiniBandRoCEv2同集群端到端时延2us5us流控机制基于Credit的流控机制PFC/ECN,DCQCN等转发模式基于Local ID转发基于P转发负载均衡模式逐包的自适应路由ECMP方式路由故障恢复Self-Healing Interconnect Enhancementfor Intelligent Datacenters路由收敛网络配置通过UFM实现零配置手工配置InfiniBand网络与RoCEv2技术对比图(来源:2023智算中心网络架构白皮书)3AI智算网络800G/1.6T主流传输方案在设计A!网络的传输方案时,必须综合考虑多个关键因素以满足A应用的需求。首先,带宽必须足够高,以支持高速数据处理。其次,根据服务器与交换机之间的距离,选择适当的连接技术也至关重要。此外,成本效益分析是决策过程中不可或缺的一部分,需要在网络性能和预算之间找到怡当的平衡点。信号的稳定性和抗干扰能力也是保障网络可靠性的关键,而网络的扩展性和升级能力则确保了网络能够适应未来的技术发展和变革。综合这些要素,可以设计出一个高效的A!网络物理层架构,为系统的顺畅运行提供坚实的基础。3.1800G主流传输方案与1.6T传输方案展望800G技术正逐渐成为A网络构建的新标杆,以其超越400G解决方案的高速数据传输能力,满足了智算中心对速度的严苛要求。800G多模传输方案,如800 GBASE-SR8和800 GBase-VR8,适合白皮书:面向A!智算数据中心网络架构与连接技术的发展路线展望作者:万雨声,孙慧永,张德胜,何雯思,于素景,组丽云,王冬雪,陆友锋,卫嘉杰,邱怀兵第9/19页
文档评分
    请如实的对该文档进行评分
  • 0
发表评论


关于我们

活动&视频分享

体验中心

联系我们

  • 商务合作: 18035506795(工作日 9:00-17:00)
  • 微信客服交流: tyst2003

长治周一周科技有限公司 ( 晋ICP备2024039368号-1 )

)
返回顶部