|
随着大数据、云计算、人工智能等技术的发展成熟,企业级IT领域也迎来重大变革。聚焦到单个板块,如在服务器市场上,传统互联网时代,我们听到的更多是机架服务器、塔式服务器及刀片服务器。; t$ F2 D7 J% a
而在即将到来或者说已经到来的人工智能时代,我们更多的是听到AI服务器这一名词。那么,究竟什么是AI服务器,AI服务器又为何适用人工智能时代?在本文中,笔者也将解答AI服务器的这些困惑,主要涉及AI服务器的定义、优势及市场现状3方面。
' p8 O6 ~1 O; l$ L) {8 u4 z AI服务器的定义! C B" t& V; t* B
从硬件架构来看,AI服务器主要指的是采用异构形式的服务器,表现形态多为机架式。在异构方式上,可以为CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多种加速卡。
4 q0 R* ~' t3 w9 |5 _* s( _( X7 m 而在其他组成部件上,如内存模块、存储模块、网络模块与传统服务器差别不大,主要的提升便是支持更大容量的内存满足当下实时负载增加的需求,提供更多外置硬盘插槽,并广泛支持NVME/PCIE等SSD,满足数据洪流需求,网络模块主要表现为带宽增加。
5 A7 r' {1 ~& k6 h3 J/ y5 F$ t" w 尽管AI服务器可以采用多种异构形式,但目前广泛使用的是CPU+GPU。也因此,业界在谈到AI服务器时,往往将其默认为GPU服务器。因此,在第二部分中,笔者谈到的AI服务器优势也主要为GPU服务器。
5 Z/ P( e: T4 Q* J8 |: ]" O9 {/ s AI服务器的优势
( k/ S- q/ I( d3 K0 y8 J 我们都知道,传统服务器主要以CPU为算力提供者。而CPU为通用型处理器,采用串行架构,擅长逻辑计算,负责不同类型种类的数据处理及访问,同时逻辑判断又需要引入大量分支跳转中断处理,这使得CPU的内部结构复杂。也因此,CPU算力的提升主要靠堆核来实现。1 @1 _$ ?2 m! a+ x
随着云计算、大数据、AI、物联网等技术应用,数据在近几年呈指数型增长,IDC统计显示全球90%数据均在近几年产生,这便对CPU的处理能力提出考验,而目前CPU的物理工艺、核心数已接近极限,数据量却不会停止,服务器的处理能力必须提升。因此,在AI时代下,仅由CPU做算力提供者的传统服务器并不能满足需求。. ^* }# l4 V3 c# G" e0 C! ~
不同于CPU,GPU采用并行计算模式,单卡核心数达到上千个,擅长处理密集型运算应用,如图形渲染、计算视觉和机器学习。经过几年验证,搭载GPU的服务器也被证实的确适用这个时代。
( F7 Y# l$ d9 M, e* }$ Z AI服务器市场现状
7 t. Y# A4 f3 V5 B$ G# I) W+ \: [& L IDC全球半年度人工智能系统支出指南预测显示,2019年全球人工智能系统支出将达到358亿美元,相比2018年增加44.0%。同时,人工智能系统支出到2022年将翻一番达到792亿美元,2018年到2020年预测期内复合年增长率(CAGR)为38.0%。
4 C1 @$ } I4 V: n C 这一数值也意味着,AI服务器的市场有多广。也因此,全球几大服务器厂商均紧锣密鼓部署着AI服务器。" d! @( v# b3 {9 P
目前,在中国市场上,浪潮的市场占有率最大,且处于绝对领先地位,份额达到51.4%,曙光和新华三紧随其后。从行业分布来看,互联网当之无愧是AI服务器的主要用户。而在GPU上,NVIDIA具有明显优势,其Tesla系列产品在AI基础设施市场占据主导地位,尤其在线下训练场景中处于垄断地位。2 ^0 x( ]5 N) q( B' f M
而在AI服务器上,目前性能最强的为浪潮AI超级服务器AGX-5,AGX-5是专为深度学习和高性能计算的性能扩展设计,单机在8U空间里可以配置16颗NVIDIA Tesla V100 Tensor Core 32GB GPUs,拥有10240个张量计算核心,计算性能高达每秒2千万亿次。
6 u6 ]& }$ |1 @' J6 t; m0 h, S
' D+ q/ {& N, r( L0 P2 i |
|