华为的麒麟NPU IP制造商寒武纪,生产出一个大AI芯片和PCIe卡

原创内容,转载请注明:  [http://www.ssdfans.com]  谢谢!

寒武纪科技公司与华为海思合作,为麒麟970智能手机芯片组提供AI芯片知识产权专利,并为数据中心创建了自己的系列芯片。

麒麟970内部的IP被称为Cambricon-1A,是该公司的第一个可授权IP。当时,查找寒武纪的信息非常困难:它的网站是一系列静态图像,中文嵌入图像本身。有趣的是,我们的AI加速翻译功能应用在华为Mate 10上来翻译网站内容。快进12-18个月,寒武纪网站现在可以互动并提供即将推出的产品的相关信息,包括一些最近发布的信息。

大芯片:走向数据中心

基于台积电16FF,MLU-100是一款80W芯片,在1.0 GHz,或’标准’模式下,使用机器学习算法中常用的8位整数度量,具有64 TFLOPS的传统半精度或128 TOPS功能。寒武纪的首席执行官陈天狮博士表示,他们的新芯片具有1.30 GHz的高性能模式,允许83.2 TFLOPS(16位浮点)或166.4 TOPS( 8位整数),但上升到110W。 这在技术上降低了性能效率,但是允许使用更快的芯片。 所有这些数据都依赖于启用稀疏数据模式。

该芯片背后的技术是寒武纪最新的MLUv01架构,该架构被理解为是用于麒麟芯片组的Cambricon-1A的一种变体,但规模更大更快。显然,与移动IP相比,必须对数据和电源管理实施额外的规则。 寒武纪也有它的1H架构和最新公布的1M架构,但是没有公开如何将数据传递到芯片。

WikiChip的David Schor(本文的主要来源)指出,如果提供给商业合作伙伴,这可能是NVIDIA的首次机器学习ASIC竞赛。为此,寒武纪还在制造PCIe卡。

很明显,NVIDIA在这方面拥有强大的用户群和多代人,以及利用其硬件优势的软件。 Cambricon没有详细说明他们计划如何支持新芯片的SDK,但是它的网站上有一系列的SDK,支持TensorFlow,Caffe和MXNet。

进入数据中心:PCIe

在数据中心中即插即用的最佳方式是通过PCIe卡。 Cambricon的MLU100加速器卡就是这样的:一个PCIe 3.0 x16实现在256位总线上使用16或32 GB DDR4-3200内存,这对于102.4 GB / s的带宽是有好处的。要在NVIDIA上获得大量内存,需要高端显卡,但这些显卡提供多倍的显存带宽。 MLU100卡上的存储器也启用了ECC。

迄今为止的报告称,联想将其卡作为ThinkSystem SR650双Intel Xeon服务器的附加产品; 每台机器最多两个。 从联想网站上看,它目前并不能使用。 鉴于华为在企业中的巨大影响力,我们很可能会看到这些系统中的芯片。

下一代:5TOPS/Watt

另外报道的是新的Cambricon-1M产品知识产权,尽管该公司没有提供细节。 维基芯片公司表示,这款新IP主要针对7nm制造,所以当华为/海思开始发布7nm移动处理器,然后进入下一代面向服务器的产品时,我们很可能会看到它。与ARM的IP所宣传的3 TOPS /瓦特相比,这个IP的目标是达到5 TOPS /瓦特,。 大卫还指出,Cambricon今年晚些时候会有一个培训和推理芯片计划,并在2019年再次进行更新。

原文链接:https://www.anandtech.com/show/12815/cambricon-makers-of-huaweis-kirin-npu-ip-build-a-big-ai-chip-and-pcie-card

分类目录 国外动态, 行业动态.
扫一扫二维码或者微信搜索公众号ssdfans关注(添加朋友->点最下面的公众号->搜索ssdfans),可以经常看到SSD技术和产业的文章(SSD Fans只推送干货)。
ssdfans微信群介绍
技术讨论群 覆盖2000多位中国和世界华人圈SSD以及存储技术精英
固件、软件、测试群 固件、软件和测试技术讨论
异构计算群 讨论人工智能和GPU、FPGA、CPU异构计算
ASIC-FPGA群 芯片和FPGA硬件技术讨论群
闪存器件群 NAND、3D XPoint等固态存储介质技术讨论
企业级 企业级SSD、企业级存储
销售群 全国SSD供应商都在这里,砍砍价,会比某东便宜20%
工作求职群 存储行业换工作,发招聘,要关注各大公司招聘信息,赶快来
高管群 各大SSD相关存储公司高管和创始人、投资人

想加入这些群,请微信扫描下面二维码,或搜索nanoarchplus,加阿呆为微信好友,介绍你的昵称-单位-职务,注明群名,拉你进群。SSD业界需要什么帮助,也可以找阿呆聊。