400-025-7877

AI服务器的设计原理是什么?

点击量:19 发布时间:2022-09-21

AI服务器作为人工智能应用体系中不可或缺的一部分,其性能奠定着整个产业的基础,那么AI服务器究竟通过怎样精妙的设计,才能拥有超强的计算能力呢?

很明显,AI服务器的设计是一项系统化的工作,除了最核心的用于人工智能负载处理的计算芯片之外,还需要全面考虑通过对存储、通信、网络等相关领域的技术方案进行合理配置,使之与计算部件的计算能力相匹配,避免出现性能瓶颈。因此设计的关键在于以下几个方面:

1、计算芯片技术

CPU是传统的服务器中最核心的计算部件。考虑到计算通用性等因素,CPU需要处理多样化的数据类型,其计算指令也是遵循串行的执行方式并在进行程序逻辑判断时会引入大量的分支跳转和中断操作。这使得CPU的内部结构异常复杂,也使得它在计算并行度上存在不足。因此,在AI服务器中,常使用加速芯片来补齐人工智能负载处理的短板,比较常见有GPU、FPGA、ASIC等。

2、存储系统技术

海量数据处理是人工智能计算负载的典型特点。除了在计算芯片设计中对缓存、内存的访问进行综合考虑外,外存系统的性能也很关键。当下,固态盘的成本不断下降,逐渐成为高性能服务器的标配。因此,AI服务器也将重点考虑基于SSD的存储技术选型。

人工智能,AI服务器,塔式工作站

3、主板总线技术

在服务器中,总线是连接主板上各种组件的重要机制,PCIe(外围组件互联高速)是连接主板外围设备的主要技术。PCIe当前的主流版本是3.0版,采用点对点结构,通过Lane机制连接。在以CPU为核心计算组件的传统服务器设计中,PCIe 3.0总线上的数据传输与CPU处理能力相匹配。但是在AI服务器的设计中,因为要满足更大规模数据处理的要求,通常在主板上插入多个计算加速组件。例如,GPU服务器可以是4GPU、8GPU等形式。在这种情况下,PCIe将成为瓶颈。因此出现了NVlink技术,可以实现GPU和GPU之间以及GPU和CPU之间的高速、大带宽和直接连接通信。

4、网络I/O技术

随着AI服务器计算能力的提高,用于服务器间互联的网络也可能成为数据传输的性能瓶颈,影响到AI服务器集群的工作成效,传统的服务器网络环境中,通常采用的收10G/s的以太网传输技术,但在人工智能场景下,需要引入和应用更高速的网络技术,例如Infiniband技术。

5、其他相关技术

除了直接服务于人工智能负载计算的部件外,AI服务器还有很多设计要素需要注意,例如计算加速部件可能具有较高的功耗,因此在服务器机箱的电源设计和制冷散热等方面需要给予特别考虑;用于边缘节点部署的服务器可能会受到空间小、配电低、承重差等机房环境的影响,从而在服务器规格上需进行专门设计。这些对于一款AI服务器的成功设计同样至关重要。


返回顶部