Intel用来取代Infiniband的神秘技术原来是它!

原创内容,转载请注明:  [http://www.ssdfans.com]  谢谢!

1

Intel代号为Knights Landing的第二代Xeon Phi处理器配备了Omni Path高速互联接口。Intel在高速互联领域很在就开始布局,早在2012年就收购了QLogic Infiniband技术和Cray的互联技术。它的最终目标是开发Infiniband和True Scale的替代技术,能够更快,更好,更便宜。所以,Intel推出Omni-Path真是煞费苦心,不是简单的一个接口,而是完整的生态链。

 

互联芯片对超算的巨大作用

 

我们来看看美国田纳西大学计算机学教授杰克·唐加拉对中国超算的评价:虽然”天河一号”的处理器仍主要采用美国产品,但其互联芯片已全部替换为中国研究人员自主研制的产品。他说:”互联芯片主要涉及处理器之间的信息流动,对于超级计算机的整体性能起到关键作用。’天河一号’的互联芯片由中国研制,具有世界最先进的水平。”(《中国超级计算机运算速度夺冠 互联芯片自制》,http://info.ec.hc360.com/2010/11/171024365014.shtml)中国做出全球排名第一的天河一号超级计算机,自主研发的互联芯片立了大功。

2 3

 

为什么开发Omni-Path:一个字,钱!

 

Intel作为一家芯片公司,主要利润还是来自于卖CPU,所以它做很多产业链层次的事情,比如推广NVMe等,都是为了多卖CPU。在高性能计算领域,目前互联芯片和硬件的成本越来越高,每台超级计算机的预算都是固定的,所以在互联器件上投资变多,意味着Intel的CPU买的就少了。与此同时,互联网络的高成本直接推高了超级计算机的成本,购买超级计算机的门槛随之变高,买的人就少了,Intel的CPU也卖的少了。所以Intel要开发更便宜的互联网络架构——Omni Path。

 

下图是QLogic的True Scale控制器,以及True Scale和Omni-Path对比表。

4 5

 

 

 

Omni-Path为什么更便宜?

 

减少器件数

 

Intel把很多分立器件集成到一个芯片里面,同时把Omni-Path控制器芯片和Knights Landing CPU通过MCM封装技术封装在一起,共享PCIe接口,未来肯定是要把他俩做成同一块芯片。集成有两大优点:降低成本+增加可靠性。

 

PCIe 3.0版的Omni Path板卡

 

Intel对于那些不买Xeon Phi处理器的客户,也设计了PCIe 3.0 Omni Path转接卡,把卡插在主板上,就能让PC连接Omni-Path设备。通过PCIe 3.0 x16或x8支持一到两个Omni-Path接口,只有PCIe 3.0 x16才能达到100Gb/s的峰值带宽。一般衡量功耗的指标叫TDP,”Thermal Design Power”,即”热设计功耗”,是反应一颗处理器热量释放的指标,它的含义是当处理器达到负荷最大的时候,释放出的热量,单位为瓦(W)。板卡TDP功耗为8W,最大负载时12W。

 

6

 

 

除了上面那款适配卡,Intel还开发了其他Omni-Path互联架构中的组件,比如48口的交换机,这样就能互联更多的设备,要知道Infiniband交换机最多只有36口。看起来仅仅是多了33%的端口,但其实在实践中却会发挥巨大的优势。我们来简单计算一下就能明白。在一个1000个节点的互连网络中,理论上来讲,最佳情况下,Omni-path节点收到其他节点的通信要求(hop)不会超过3个,而Infiniband就会达到5个,hop越少意味着节点之间相互通信要通过的交换机就越少,延迟就越短,这对超级计算机性能提升太大了。

 

Omni-Path互连网络架构

 

7

 

 

我们要知道,OPA(Omni-Path Architecture)的设计出发点是在提升性能的同时降低成本,所以有一个特点就是容错率更高,容错率高,对硬件的精度要求就不高,成本就可以省下来。硬件可以差一点,互联线缆甚至不用光纤,铜线就可以了。目标容错率是一万亿分之一,说简单一点就是以100Gb/s传输,10秒钟出错一个bit是可以接受的。

 

容错率这么高,是不是纠错能力就能很强才行?Wrong!其实OPA并没有用什么牛逼的纠错技术,比如Forward Error Correction之类,用的就是简单的CRC和重发机制。因为Forward Error Correction在出错后,需要发送端重新经过互联网络的一个个节点把数据包重发给目标,延迟很长,而OPA只需要出错时的两个节点之间重发,延迟很短。

 

OSI模型

 

下图是OSI模型的例子,看看我们常见的各种协议处于哪一层次。

 

8

 

 

OPA并没有简单的使用OSI模型,类似于其他协议,它有个Fabric Packet (FP),是节点之间的包,但不同的是,发送的不是FP,而是下面一层Link Transfer Packet (LTP),OPA里面称为1.5层,出错的时候是在这一层完成重发。大部分工作也是在LTP层完成,1个LTP是1056 bit,其中1024 bit数据,16 bit FLIT,每个FLIT1个bit,FLIT其实就是一段数据。14bit CRC,还有2bit Intel叫做虚拟通道信用(virtual lane credit)。1024 bit的数据被拆成16个64bit的FLIT(Flow Control Digits),FLIT是数据的最小单位,一个LTP可以包含来自不同FP的FLIT,打包成一个LTP。

 

9

 

 

 

所以OPA的码率是1024/1056=64/66b,和其他互联架构类似。对于数据,Intel用了数据扰乱技术,使得奇偶校验能更好地发挥,同时也不用做额外的编码和冗余数据。扰乱其实就是把数据打乱,让有序的数据变得随机,0和1随机分布,而不是连续出现,出错的概率会降低。Martrixer的理解是频谱变宽了,噪声就降低了。

 

Intel还搞了个小小的超频,100Gb/s的时钟频率是25.78125Gbps,不知要求是不是25Gbps就够了。当LTP接收节点收到数据后通过CRC发现出错,就会在LTP转发给下一节点之前请求上一节点重发。如果很不幸,这一机制没起作用,那在FP层还会发现数据出错了,要求重发整个FP,相当于双保险啊!

 

不公平啊,数据还分高富帅和屌丝( ▼-▼ )

 

OPA还搞了个Traffic Flow Optimization技术,就是数据是分阶级的,高富帅数据和屌丝数据,怎么做到的呢?就是LTP里面有来自不同FP的FLIT,那么优先发送高富帅FP的FLIT,屌丝的优先级低。理论上分了32级优先级,其实一开始希望4-8级就够用了。

 

商业化程度

 

其实有很多厂家已经开始使用OPA了,Intel说已经有100个产业链厂商使用了OPA,装备了10万个节点了。当然,OPA还是和Xeon Phi处理器紧密绑定,今年我们估计就能看到产品了。

 

10

 

 

 

引用:

 

Ryan Smith, http://www.anandtech.com/show/9561/exploring-intels-omnipath-network-fabric

 


 

想要每天看一条SSD文章吗?扫一扫,微信关注我们!或者微信搜索公众号ssdfans关注。

 

11

 

分类目录 存储, 技术文章.
扫一扫二维码或者微信搜索公众号ssdfans关注(添加朋友->点最下面的公众号->搜索ssdfans),可以经常看到SSD技术和产业的文章(SSD Fans只推送干货)。
ssdfans微信群介绍
技术讨论群 覆盖2000多位中国和世界华人圈SSD以及存储技术精英
固件、软件、测试群 固件、软件和测试技术讨论
异构计算群 讨论人工智能和GPU、FPGA、CPU异构计算
ASIC-FPGA群 芯片和FPGA硬件技术讨论群
闪存器件群 NAND、3D XPoint等固态存储介质技术讨论
企业级 企业级SSD、企业级存储
销售群 全国SSD供应商都在这里,砍砍价,会比某东便宜20%
工作求职群 存储行业换工作,发招聘,要关注各大公司招聘信息,赶快来
高管群 各大SSD相关存储公司高管和创始人、投资人

想加入这些群,请微信扫描下面二维码,或搜索nanoarchplus,加阿呆为微信好友,介绍你的昵称-单位-职务,注明群名,拉你进群。SSD业界需要什么帮助,也可以找阿呆聊。