NEWS

超级计算机用什么GPU 英特尔NV还是AMD

2012/11/22
在刚刚结束的超级计算机大会SC12上,最大的新闻就是在GPU加速领域上,AMD、英特尔以及英伟达越来越激烈的竞争。这三方都推出了新的产品,来提高并行加速计算的效果。英伟达和AMD都推出了新的GPU设计,而英特尔则是推出了多达60核心的x86的协同处理器。下面就来一一了解英特尔英伟达和AMD各自的并行加速处理器,来看看超级计算机采用的是什么GPU。

  在刚刚结束的超级计算机大会SC12上,最大的新闻就是在GPU加速领域上,AMD、英特尔以及英伟达越来越激烈的竞争。这三方都推出了新的产品,来提高并行加速计算的效果。英伟达和AMD都推出了新的GPU设计,而英特尔则是推出了多达60核心的x86的协同处理器。下面就来一一了解英特尔英伟达和AMD各自的并行加速处理器,来看看超级计算机采用的是什么GPU。
  在最新的第40期超级计算名单中,采用了GPU并行加速计算的有62套系统,例如Titan和中国的天河1号A都是采用NVIDIA的GPU,而戴尔的Stampede还有其他6套系统采用的是英特尔Xeon Phi处理器来并行加速。而在半年前的榜单中有58套系统采用了并行加速,可以预见超算领域中并行加速正越来越受关注。

超算加速计算应用
  除了英特尔、AMD、英伟达这三家外,超算并行加速还有的是采用ATI GPU以及IBM PowerXCell。

  另外从这份统计数据中,我们可以看到,采用GPU并行加速计算的超级计算机是逐年增多。在2010年还不足10台,两年之后的2012年翻到了6倍。而且各芯片厂家都进入了这一领域。

  GPU(Graphic Processing Unit),中文译名图形处理器,相当于CPU在电脑中的作用,GPU是显卡的“心脏”,它决定了该显卡的档次和大部分性能,为人所熟知的是作用是三维图像和特效处理功能,今天,GPU已经不再局限于3D图形处理了,GPU通用计算(GPGPU)技术发展已经引起业界不少的关注。

GPU通用计算
  GPU通用计算就是利用图形处理器(GPU)来进行通用科学与工程计算。事实也证明在浮点运算、并行计算等部分计算方面,GPU可以提供数十倍乃至于上百倍于CPU性能。这也就是为何超级计算机越来越多的采用GPU的原因。>>

  每秒近18千万亿次计算 全球超算发展趋势

  http://servers.pconline.com.cn/news/1211/3065275.html
  10万万亿次 Cray宣布最快超级计算机计划

  http://servers.pconline.com.cn/news/1211/3060196.html
  http://itbbs.pconline.com.cn/network/f768799.html
  我们来看GPU先驱英伟达对于GPU计算的描述:GPU计算的模式就是,在异构协同处理计算模型中将CPU与GPU结合起来加以利用。应用程序的串行部分在CPU上运行,而计算任务繁重的部分则由GPU来加速。

  GPU计算实际上涉及到CPU和GPU,将CPU与GPU整合或者融合在一起更有利于二者之间的协同发挥作用。美国著名计算机科学家、田纳西州大学计算机创新实验室主任Jack Dongarra博士曾经说过,将来的计算架构会是CPU和GPU的结合。

采用GPU计算的天河
  我国天河一号A超级计算机就是采用CPU和GPU的结合的计算架构,它使用了超过14000颗CPU,辅以7168颗Tesla M2050 GPU,总运算能力2.5PFLOPS,其计算能力在全球超级计算机当中名列前十。

  最新入围全球TOP500前十的戴尔超级计算机Stampede,则是采用英特尔Xeon Phi处理器来并行加速。接下来就来看看在SC12中,英特尔英伟达以及AMD各自发布的新品。

  虽然英特尔Xeon Phi带有至强的命名,但是实际上它更像是与CPU协同工作的GPU。英特尔推出这款处理器就是为了达到和英伟达AMD处理器一样的效果,提高软件的并行加速计算能力。

  英特尔公布了两个Xeon Phi系列,其中一个系列是Xeon Phi 5110P,现在已经上市,而另外一个系列Xeon Phi 3100需要到2013年第一季度上市。这两个系列处理器都是采用22nm的COMS制程工艺,拥有50亿个晶体管,采用的是英特尔Many-Integrated Core架构。

              
                Xeon Phi

  Xeon Phi 5110P拥有60个核心,每一个核心都有着4个线程,1.05GHz,2级缓存为30MB,最大支持8GB的GDDR5内存寻址,内存带宽高达320Gbps,双精度浮点计算能力能够达到1TFLOPS,在此次超级计算机TOP500中,戴尔的Stampede采用的是一个客户定制版本SE10,拥有着61个核心,2级缓存也比30M要大一点。
              
              Xeon Phi

  对于明年将要发布的Xeon Phi 3100,英特尔并没有透露具体细节,只是提到它的核心数要少一些,而主频则是会更高,功率为300瓦,这比 5110P的225瓦的功率要高。
  英伟达则是正式发布了Tesla K20以及Tesla K20X两款GPU,这两块GPU都是采用28nm制程工艺的Kepler架构,现在TOP500中排在第一的Titan就采用的是Tesla K20X,K20X拥有着2688个核心,主频为732MHz,双精度浮点计算能力能够达到1.31TFLOPS,而单精度则是能达到3.95TFLOPS。英伟达表示,相比此前一代的GPU,在双精度浮点计算能力提升到了两倍,单精度也是到了3倍。

              
               Tesla K20和Tesla K20X

  另外的Tesla K20则是有2496个核心,主频为706MHz,双精度浮点计算性能为1.17TFLOPS,单精度为3.52TFLOPS,据称Tesla K20和Tesla K20X拥有的总晶体管数位70亿。

               
               TOP500前八

  在第40期的超算TOP500中,采用英伟达GPU进行并行加速计算的有50套超级计算机系统。除了Titan采用的是Tesla K20X外,大多数采用的是NVIDIA 2090,NVIDIA 2070以及NVIDIA 2050。我国的天河1号A采用的就是NVIDIA 2050。
              
               NVIDIA

  早在2011年8月5日,摩根大通与NVIDIA就展示了在服务器中增加GPU的好处。投资银行是最看重计算速度的行业之一,摩根大通为了提高计算速度,将英伟达的GPU整合到服务器中,充当CPU的加速器。这两家公司表示,通过这种方式,在执行某些任务时,峰值性能可以达到只使用CPU的100倍。在更为典型的案例中,摩根大通的速度提升了40倍,而由于所需的服务器数量减少,使其成本降低了80%。>>

  英伟达GPU加速计算

  2011年年5月初,TYAN宣布与NVIDIA战略合作,在TYAN新推出的TYAN FT72-B7015和FT77-B7015 两款4U服务器平台,最多可支持8颗NVIDIA Tesla M2050 GPU处理器,从而提高更强大的集群并行运算能力,满足HPC和GPU的应用环境需求。

              
               NVIDIA Tesla M2050 GPU

  还是在11年5月,IBM宣布计划为iDataPlex dx360 M3服务器配备一对NVIDIA Tesla M2050 GPU处理器。戴尔也不甘落后,8月中旬推出的PowerEdge C410x,支持NVIDIA Tesla GPU模块,PowerEdge C410x原本是为戴尔数据中心解决方案部门(DCS)的油气客户设计,这些客户希望通过GPU为抗震设计加速,戴尔将GPU模块集成在服务器中,可以为C410x配置1到4颗GPU。

              
               K20X

  在2010年我国的天河1号A采用的就是NVIDIA Tesla M2050,现在在超算TOP500中共有112套系统采用NVIDIA Tesla M2050,而采用NVIDIA Tesla M2070以及2090的数量分别是7和30。此外还有2套超级计算机采用的是最新的K20X,无疑英伟达在超算领域的GPU加速计算上更有说服力。

              
               Xeon Phi对比 GPU

  在并行加速计算领域,似乎将要演变成为x86协同处理器与GPU加速器之间的竞争,英特尔区分这两者之间的区别是the Xeon Phi能够运行操作系统,而GPU加速器则不能, 据报道称Xeon Phi能够运行红帽Linux或者是SuSE Linux。
  不过更为重要的是这些并行加速处理器是怎样提高超级计算机的计算性能,在这些方面软件等方面起到的作用要比操作系统更重要。
  AMD此次发布了FirePro S10000,实际上拥有两个GPU,都是采用28nm的Tahiti设计架构。The S10000拥有着3594个核心(每个GPU拥有着1792个核心),主频为825MHz,双精度浮点计算性能达到1.48TFLOPS,单精度则是5.91TFLOPS。

              
               FirePro S10000参数

  此前AMD单独发布的S9000拥有着1792个核心,不过主频为900MHz。AMD还改进了"Graphics Core Next" (GCN)架构,这种架构使得S10000当中的两个GPU能够在同一个主板上进行计算任务。

              
               FirePro S10000/NVIDIA K10/NVIDIA2090 对比

  FirePro S10000理论上的核心数要比NVIDIA K20X要多,而且因为它实际上有两个GPU,因此功率也更高375瓦,NVIDIA K20X需235瓦。虽然LINPACK的跑分能一定程度上的反应GPU加速性能,不过实际应用的性能还是要根据开发的软件应用是怎样的设计。

              
               超算采用的GPU


除了英伟达、英特尔、AMD,IBM和ATI也有GPU被超级计算机采用。不过相比来说,英伟达的GPU在超算市场还是还是更有说服力,在第40期超算TOP500中有50套超算采用的都是英伟达GPU,其次则是被7套超级计算机采用的英特尔Xeon Phi,AMD和IBM各有两套超级计算机采用。随着大数据以及云计算的需求

  GPU并行加速现在是越来越受到重视。可以预见在今后的几年里,以英伟达为代表的独立GPU和英特尔主推的x86协同处理器之间竞争,将是GPU并行加速计算领域的主旋律。