nvme-fabric-是你的未来吗?

原创内容,转载请注明:  [http://www.ssdfans.com]  谢谢!

作者简介

 
 

唐杰

目前在Xilinx从事DC架构,曾任职于Fusion-IOLSI,希捷等公司。本文是唐杰从NVMe工作组前线发回来的最新爆料,非常值得一看。

 

想要和唐大师还有全世界的大牛讨论SSD及存储相关技术?加nanoarch为微信好友,拉你进ssdfans微信群

 

写在协议发布之前(1

 

    NVMe工作组已经确定在201663号发布1.2.1NVMe的规范,其中包含了对NVMe over Fabric上的更加详细的定义。

 

    如何理解NVMe over Fabric,需要我们从NVMe的本质说起。目前的NVMe的方案都是PCIE的连接,而这种连接方式要从2007年的Fusion-ioPCIE SSD方案说起。在这种PCIE连接的方案中,摆脱了原有的SCSI的协议。主要的原因是:原有的SCSI协议的IO堆栈的延时代价和中断响应的代价的问题。

 

    NVMe协议替代了SCSI协议,在目前主流的操作系统中使用一个简单而快速的循环队列的方式实现了对大量的IO请求的处理能力。通过大量的IO请求队列,这个机制甚至可以提供和CPUCore和上层应用的衔接能力。NVMe自身是基于PCIE设计的,这种设计利用了PCIEDMA能力,PCIEEP的设备可以在自身资源有空闲的时候从队列中读取或写入。

 

    NVMe的另外的一个优势是中断的聚合。传统的中断机制需要有状态的切换,中断响应和状态恢复,带来了大量的系统开销。NVMe使用了completion queues这个机制,操作系统的驱动和服务可以一次性大量地从队列中读取数据。

 

    因此,从原生的角度,为NVMe增加连接性的第一步就是基于PCIEPCIE设备和SATASAS以及NIC都是用相同的物理层驱动,都是基于串行的Serdes。比如现有的U.2的接口,可以同时支持NVMeSATASAS设备。

 

    在下一步的演进中,如何将NVMe协议的优势在多主机的环境中得到应用,就提出了在多种Fabric上的实现,这一步不是一个小的改变。引用国内著名的NVMe设备供应商的技术VP的话:NVMe over Fabric的制定过程中,已经没有了NVMe 协议刚刚提出时对原有的SCSI协议那种无情抛弃的态度“, 原因在于使用更长的联接会带来对时钟信号以及交换机设备的处理能力的要求,这是一个系统级的改变。

 

    不可置疑的是,在Fabric的选择上的博弈已经开始。一种观点是PCIE fabric,可以带来比较低的延迟和开销。但是PCIEFabric目前的实现正在通过PCIE Gen4的协议实现对NVMe的支持。对于现有的PCIE Fabric来讲,最大的问题在于线缆。

    

    PCIE Fabric的线缆和SATA线缆对比,因为底层的物理特性类似,都是SerDes的传播,因为SATA线缆没有携带任何时钟信号,因此可以比较方便的做到2软妹币/
一下,而PCIE的连接线缆的成本至少在10软妹币/米以上,因为需要携带时钟信号。

 

PCIE Gen4规范中,PCI SIG以及提出了remoter reference clocker的实现,同时将PCIEppm从原来的600ppm扩大到了5600ppm。已经为PCIE Gen4的低成本线缆做准备。

 

但是,在数据中心的链接站统治地位的Ethernet已经做好了准备。使用RDMA的网卡可以在不改变现有数据中心架构的情况下直接使用NVMe。主流的RDMANIC供应上Mellanox已经实现了ROCEv2,使他的协议和现有的3层交换机全面兼容。

 

当然还有IB网络,因为Oracle的一体机的概念而从HPC领域进入企业计算领域的IB网络也可以实现NVMe的承载功能。同时Intel推出的omniPath技术也已经实现对NVMe的支持。

 

对于这些已有的连接和NVMe的设备商来讲,在今后的一年内推出NVMe Over Fabric的产品已经是计划中的事情。但是,这里面会带来很多的冲突,为什么?让我们看一下具体的应用。

 

毫无疑问,NVMe over Fabric的第一位的企业客户就是AFA,现有的企业存储客户首选的连接是FCEthernet,而现有的很多AFA都在SAN环境下做数据的加速功能。这里的问题是NVMe over Fabric不能越过FC,但是RDMA over FC是一个比较新的规范,
刚刚为NVMe协议提出。同时,FC面临一个链接的性能挑战,对于ethernet已经有了25Gbps的实现,对于40Gbps已经出了快10年,而FC的链接刚刚到达16Gbps。目前Ethernet联盟在规划50Gbps,因此在数据中心市场,没有意外的是Ethernet会继续统治地位。

 

同时,正在兴起的对象存储,在SandiskRedhat的努力下,Ceph已经在SSD上实现了规模部署。RDMA的网络会减低Ceph架构中后端跨节点的网络开销。而对象存储的链接是从Ethernet起步的,对象存储的兴起会进一步坚定Ethernet的统治地位。

 

在集群系统和存储的领域,一个新的Startup公司X-IO已经提出了NVMe over PCIe Fabric cluster的概念,和国内的天蝎计划一样,基于PCIe 交换机的方面的问题就是成本和可扩展性。

 

因此,对于希望使用NVMe over Fabric的客户来讲,目前已经看不到他们在新系统中不选择Ethernet而去选用PCIeIBFC,和omniPath的因素。因此,各位读者,请准备你的CCIE的认证吧。

 

对于NVMe over Fabric,故事还没有结束。对于Intel主推的3D Xpoint
它会是NVDIMM这样的产品,不再使用PCIE 通路,但是如何实现多机共享? DDR是并行协议,整个工业界在过去20年把大部分的并行协议串行化,如何对付DDR,可能基于PCIERDMA还是唯一的选择。

 

因此,在NVMe over Fabric的协议发布之前,我们先唱一下赞歌。之后的系列,我们一一道来中间的参与者和受益者。

 

谢谢大家关注。

分类目录 未分类.
扫一扫二维码或者微信搜索公众号ssdfans关注(添加朋友->点最下面的公众号->搜索ssdfans),可以经常看到SSD技术和产业的文章(SSD Fans只推送干货)。
ssdfans微信群介绍
技术讨论群 覆盖2000多位中国和世界华人圈SSD以及存储技术精英
固件、软件、测试群 固件、软件和测试技术讨论
异构计算群 讨论人工智能和GPU、FPGA、CPU异构计算
ASIC-FPGA群 芯片和FPGA硬件技术讨论群
闪存器件群 NAND、3D XPoint等固态存储介质技术讨论
企业级 企业级SSD、企业级存储
销售群 全国SSD供应商都在这里,砍砍价,会比某东便宜20%
工作求职群 存储行业换工作,发招聘,要关注各大公司招聘信息,赶快来
高管群 各大SSD相关存储公司高管和创始人、投资人

想加入这些群,请微信扫描下面二维码,或搜索nanoarchplus,加阿呆为微信好友,介绍你的昵称-单位-职务,注明群名,拉你进群。SSD业界需要什么帮助,也可以找阿呆聊。