华为的麒麟NPU IP制造商寒武纪，生产出一个大AI芯片和PCIe卡

寒武纪科技公司与华为海思合作，为麒麟970智能手机芯片组提供AI芯片知识产权专利，并为数据中心创建了自己的系列芯片。

麒麟970内部的IP被称为Cambricon-1A，是该公司的第一个可授权IP。当时，查找寒武纪的信息非常困难：它的网站是一系列静态图像，中文嵌入图像本身。有趣的是，我们的AI加速翻译功能应用在华为Mate 10上来翻译网站内容。快进12-18个月，寒武纪网站现在可以互动并提供即将推出的产品的相关信息，包括一些最近发布的信息。

大芯片：走向数据中心

基于台积电16FF，MLU-100是一款80W芯片，在1.0 GHz，或’标准’模式下，使用机器学习算法中常用的8位整数度量，具有64 TFLOPS的传统半精度或128 TOPS功能。寒武纪的首席执行官陈天狮博士表示，他们的新芯片具有1.30 GHz的高性能模式，允许83.2 TFLOPS（16位浮点）或166.4 TOPS（ 8位整数），但上升到110W。这在技术上降低了性能效率，但是允许使用更快的芯片。所有这些数据都依赖于启用稀疏数据模式。

该芯片背后的技术是寒武纪最新的MLUv01架构，该架构被理解为是用于麒麟芯片组的Cambricon-1A的一种变体，但规模更大更快。显然，与移动IP相比，必须对数据和电源管理实施额外的规则。寒武纪也有它的1H架构和最新公布的1M架构，但是没有公开如何将数据传递到芯片。

WikiChip的David Schor（本文的主要来源）指出，如果提供给商业合作伙伴，这可能是NVIDIA的首次机器学习ASIC竞赛。为此，寒武纪还在制造PCIe卡。

很明显，NVIDIA在这方面拥有强大的用户群和多代人，以及利用其硬件优势的软件。 Cambricon没有详细说明他们计划如何支持新芯片的SDK，但是它的网站上有一系列的SDK，支持TensorFlow，Caffe和MXNet。

进入数据中心：PCIe

在数据中心中即插即用的最佳方式是通过PCIe卡。 Cambricon的MLU100加速器卡就是这样的：一个PCIe 3.0 x16实现在256位总线上使用16或32 GB DDR4-3200内存，这对于102.4 GB / s的带宽是有好处的。要在NVIDIA上获得大量内存，需要高端显卡，但这些显卡提供多倍的显存带宽。 MLU100卡上的存储器也启用了ECC。

迄今为止的报告称，联想将其卡作为ThinkSystem SR650双Intel Xeon服务器的附加产品; 每台机器最多两个。从联想网站上看，它目前并不能使用。鉴于华为在企业中的巨大影响力，我们很可能会看到这些系统中的芯片。

下一代：5TOPS/Watt

另外报道的是新的Cambricon-1M产品知识产权，尽管该公司没有提供细节。维基芯片公司表示，这款新IP主要针对7nm制造，所以当华为/海思开始发布7nm移动处理器，然后进入下一代面向服务器的产品时，我们很可能会看到它。与ARM的IP所宣传的3 TOPS /瓦特相比，这个IP的目标是达到5 TOPS /瓦特，。大卫还指出，Cambricon今年晚些时候会有一个培训和推理芯片计划，并在2019年再次进行更新。

原文链接：https://www.anandtech.com/show/12815/cambricon-makers-of-huaweis-kirin-npu-ip-build-a-big-ai-chip-and-pcie-card

技术讨论群	覆盖2000多位中国和世界华人圈SSD以及存储技术精英
固件、软件、测试群	固件、软件和测试技术讨论
异构计算群	讨论人工智能和GPU、FPGA、CPU异构计算
ASIC-FPGA群	芯片和FPGA硬件技术讨论群
闪存器件群	NAND、3D XPoint等固态存储介质技术讨论
企业级	企业级SSD、企业级存储
销售群	全国SSD供应商都在这里，砍砍价，会比某东便宜20%
工作求职群	存储行业换工作，发招聘，要关注各大公司招聘信息，赶快来
高管群	各大SSD相关存储公司高管和创始人、投资人