阿里巴巴服务市场入口阿里巴巴服务器在哪里

文章插图
EFLOPS服务器架构传统服务器架构的瓶颈主要来自内部PCIe Fabric树形互连。首先，传统的数据中心服务器通常只配备一个网络接口（独立网卡或者Bond网卡），当该服务器配备多个加速部件（比如GPU）并通过网络接口并发传输数据时，就会面临很大的流量汇聚，使其成为系统的瓶颈。而这种同步式的网络访问，在分布式AI训练任务中非常常见。AI训练的数据集一般被划分为多个批次，每个批次的数据处理完成之后，所有参与计算的NPU加速器都要进行梯度的同步。跨服务器的NPU梯度同步操作都要通过网络接口进行通信。这种周期性的同步式网络接口访问，势必导致网络接口上的拥塞。类似的端口拥塞还会发生在PCIe树形拓扑的跟节点处。分布式AI训练业务在每个批次的数据处理完成之后，会同步载入下一批次数据，导致内存的并发访问。
其次，PCIe Switch端口上的拥塞可能导致整体通信效率的降低。当NPU1和NPU3同时向NPU2发送数据时，将会在与NPU2直接相连的PCIe Switch端口上形成拥塞。由于NPU1和NPU3到NPU2的通信距离不同，导致二者之间具有显著的带宽差异。而AI训练任务的梯度AllReduce是一个全局性的同步操作，其完成时间往往受限于最慢的链路，所以这种链路带宽的不公平性也会导致系统性能的下降。
最后，出于种种原因，PCIe交换芯片往往只会实现一个虚拟通道，导致QoS能力缺失，这就使得服务器内各种流量没有隔离能力，形成带宽的无序争抢。
EFLOP服务器架构重点解决上述互连问题，服务器配备了与加速器（NPU）等量的网卡（NIC），并将NPU和NIC进行绑定配对，每一对绑定的NPU和NIC处于同一PCIe Switch之下，约束NPU的网络通信只能经由自己绑定的NIC 。这样，NPU的网络通信流量全部被局限在PCIe Switch之内，避免了网络接口上的拥塞。针对PCIe Switch引入的拥塞问题，在PCIe流量较大的情况下，禁用NPU之间进行跨PCIe Switch通信，使其通过网络接口进行数据交换，利用网络协议栈的流量控制机制来降低系统的拥塞程度。值得强调的是，网络化服务器架构是一个开放的架构，可为各种加速器提供高速互连，对于自带直连总线（如英伟达的 NVLink）的加速器同样兼容，利用其直连总线实现更高带宽通信。
EFLOPS系统互连架构
系统互连架构数据中心大多采用Clos拓扑，提供了高对剖带宽、可扩展的基础通信能力，但由于路径选择的哈希算法总是存在碰撞的可能，使得网络中的拥塞无法避免。相比传统仅优化拥塞控制算法的思路，EFLOPS从更上层架构进行网络流量管理，以彻底解决网络的拥塞问题。
配合EFLOPS多网卡服务器结构，阿里巴巴工程师们出了BiGraph扁平化拓扑，分为上下两组，每组的交换机与另一组交换机全互连，同组交换机之间的数据交换需要另一组交换机转发，这样每一个交换机都扮演了Clos网络中的Spine和Leaf两个角色，最大跳步数仅为3，BiGraph拓扑具有如下两个重要的特性。
1.它在两层交换机之间提供了丰富的物理链路资源。在N个计算服务器的系统中，两层交换机之间至少存在着N/2个物理链路可供使用。这意味着我们有机会将 Halving-Doubling AllReduce算法的所有连接一一映射到可用的物理链路上，避免它们之间的链路争用，以彻底解决网络拥塞问题。
2.接入不同层次的任意两个计算服务器之间的最短路径具有唯一性。工程师可以充分利用这一特性，在通信库甚至更高层次进行服务器间通信模式的管理。比如，在建立连接的时候，选择合适源和目的服务器，来控制网络上的路径选择。

以上关于本文的内容，仅作参考！温馨提示：如遇健康、疾病相关的问题，请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容，希望对您有所帮助：

阿里巴巴服务市场入口 阿里巴巴服务器在哪里

阿里巴巴服务市场入口阿里巴巴服务器在哪里