英特尔推出神经网络处理器：AI Nervana

本周在拉斯维加斯举行的2019年国际消费电子展上，英特尔数据中心集团执行副总裁Navin Shenoy宣布英特尔Nervana神经网络推理处理器将于今年投入生产。早在2016年，英特尔就以4.08亿美元的价格从圣地亚哥收购了拥有48人的AI SAAS初创公司Nervana。 Nervana当时是一家软件公司，提供一个名为Nervana Cloud的全栈软件即服务平台，在一个名为Neon的开源框架基础上支持定制深度学习应用程序的开发。

据报道，Nervana当时正致力于开发用于神经网络处理的定制芯片，他们声称使用这种芯片AI加速器的性能至少会领先GPU10倍。当然，开发自定义处理器对于小型软件团队来说是一项艰巨的任务，但是在它被英特尔收购后，要实现这一想法就变得现实多了。现在，英特尔宣布推出第一款产品，用于推理的英特尔Nervana神经网络处理器，简称NNP-I。该公司还宣布将在今年下半年推出代号为“Spring Crest”的神经网络训练处理器。Nervana Engine最初是采用28nm技术开发的，计划在发布之前升级到14nm。英特尔目前还没有做出回应，但我们推断今年交付的设备将采用英特尔的14nm FinFET技术，未来或许会改用10nm。

英特尔表示Nervana正在与Facebook合作开发，这是一个很有意思的消息，因为Facebook是“超七”数据中心公司，其加速策略一直是不公开的。谷歌开发了自己的处理器，微软，亚马逊和AWS等公司也在基于FPGA的加速方面投入了大量资金。和Facebook成为开发合作伙伴，应该能让Nervana在今年下半年全面上市时获得可靠的端到端认证。

神经网络训练和推理是计算密集型的，涉及矩阵的张量乘法和卷积。多年来，图形处理单元（GPU）一直是人工智能训练加速的首选解决方案，而FPGA一直在努力开拓推理游戏中的竞争优势。就像现成的芯片一样，GPU可以充分利用其高度并行的矢量和线性代数功能，非常适合人工智能任务。但是，由于GPU并非专为人工智能而设计，所以当涉及到人工智能和深度学习的架构优化时，GPU仍然有很多问题需要解决。

类似地，FPGA可以通过精确的功率预算为推理任务提供极高的并行性和性能，而不同于训练的推理任务的功率非常有限，可以通过降低精度的定点计算来完成。大型数据中心和云安装已经开始利用FPGA集群来加速推理任务，在吞吐量、延迟和计算效率方面取得了显着成果。然而，与GPU类似，而且在典型的FPGA上有许多不涉及AI操作的硬件，以及许多架构假设使得FPGA作为通用设备非常棒，但作为AI处理器却不够理想。

Nervana是从GPU内核的深度学习开发人员的角度来解决这个问题的，这让他们深刻地认识到GPU对于AI任务的局限性。该公司表示，Nervana引擎是从头开始设计的，抛弃了GPU架构，重新开始。他们分析了许多深层神经网络，并提出了他们认为的最适合关键操作的架构。他们还提出了一种新的数字格式——FlexPoint，它试图最大化16位存储的精度。

由于人工智能计算可能非常耗费内存，因此Nervana需要能够快速移动大量数据。Nervana设备包括32GB的内置高带宽内存（HBM），可提供高容量速度。该公司声称每秒8太比特的内存访问带宽。HBM存储器通过模积实现高容量。一个HBM芯片栈可以存储8GB的数据，其中包含8个1GB的独立内存模块。Nervana引擎包括4个HBM栈，提供32GB的包内存储。英特尔的多模封装技术将HBM与处理器核心阵列连接起来。我们假设这是由英特尔的2.5D嵌入式多模互连桥(EMIB)技术而不是新宣布的FOVEROS 3D封装完成的，不过英特尔并没有给出明确答案。

Nervana引擎由一系列“Tensor Processing Cores”组成，这些核心由HBM基串、内存接口和高速IO组成，旨在将许多Nervana设备组合在一起，以提供超大规模的网络实施。英特尔尚未给出新设备的具体性能或功耗数据，只是说功耗将达到数百瓦，和Movidius和Mobileye等边缘目标AI设备相比，Nervana明显处于数据中心。

该设备包括六条双向高带宽链路，该公司表示该芯片能够在机箱内部或机箱之间无缝连接。该公司表示，这使用户能够通过简单地分配更多的计算，或者在不降低速度的情况扩展模型规模，从而在当前模型上获得线性加速。将多台设备连接在一起可以作为一个大处理器。

Nervana的目标似乎是让GPU和FPGA作为AI加速器在数据中心的地位越来越稳固。由于英特尔在其PSG部门（前身为Altera）拥有世界上最好的FPGA技术，因此它认为Nervana在推理和GPU训练方面比FPGA具有更明显的优势。特别是英伟达(NVIDIA)，它在AI训练的数据中心加速游戏领域占据着主导地位，显然是Nervana瞄准的目标。随着更多专用制造的人工智能设备进入市场，以挑战目前填补人工智能处理需求缺口的通用加速器，我们将拭目以待。

原文链接：https://www.eejournal.com/article/intel-achieves-ai-nervana/

技术讨论群	覆盖2000多位中国和世界华人圈SSD以及存储技术精英
固件、软件、测试群	固件、软件和测试技术讨论
异构计算群	讨论人工智能和GPU、FPGA、CPU异构计算
ASIC-FPGA群	芯片和FPGA硬件技术讨论群
闪存器件群	NAND、3D XPoint等固态存储介质技术讨论
企业级	企业级SSD、企业级存储
销售群	全国SSD供应商都在这里，砍砍价，会比某东便宜20%
工作求职群	存储行业换工作，发招聘，要关注各大公司招聘信息，赶快来
高管群	各大SSD相关存储公司高管和创始人、投资人