人工智能的发展

在过去一年左右的时间里，我们研究了几款人工智能产品，包括Cadence(不止一次)、Synopsys和Imagination Technologies。它们都以某种方式依赖于dsp或gpu等计算单元来处理进行推理所需的许多计算。

随着所有这些公司的发展，有一个关键的趋势:将神经网络从云转移到目前依赖云的“边缘”设备。延迟和隐私可以得到改善，拥有云连接的设备可以更加自给自足。

但是今天，我们要讨论两个不同的神经网络应用:视觉和语音识别。我们有来自Cadence的产品:他们几个月前发布了ten二氧化硅DNA 100加速器和他们最近发布的ten二氧化硅HiFi 5音频平台。

研究它们说明了我们正在看到的进化的一些驱动因素——这两个应用程序在需求方面并不相同，因此设计决策和权衡是不同的。

通用的处理

神经处理的第一阶段发生在处理元素中——通常是dsp或gpu。在事物的这个早期阶段，算法和应用以及性能和功率都处于实验阶段。而是要让它发挥作用，不一定要让它发挥最佳效果。

视觉在一段时间前就离开了进化的这个阶段，但是没有那么多的音频。在与Cadence讨论他们的HiFi 5 IP时，很明显他们之前的HiFi 4版本处理的是神经网络，但使用的dsp与其他版本相同。HiFi 5改变了这一点。

更严格的DSPs

下一个进化阶段是当您能够更好地处理需要多少处理时——换句话说，您可能需要访问多少dsp。这里我们注意到神经网络处理的两个关键事实:

你需要处理更小的数据单元。大数据负载包括网络节点的权重或系数，以及它们称为激活的输入数据(视觉图像、帧或音频流)。这些通常涉及最多16位的整数——有时会降到4位或更小。没有一个32位巨兽浮动周围的其他DSP应用程序。

你处理的是整数乘法。一个通用的DSP将拥有许多多积累单元(mac)，但是，由于它是通用的，这些单元可以被配置成许多不同的模式。神经网络手术不需要这些模式。您可以使用一个更简单的整数单元。

所以Cadence的HiFi 4和HiFi 5之间最大的区别之一就是最新的HiFi 4有一系列简化的dsp，这些dsp针对神经网络的使用进行了优化。

数据处理的新方式

下一个进化步骤涉及到一个令人惊讶的事实，即性能可能不受所有这些MAC计算的限制。瓶颈可能是一些更加普通的东西:移动数据。

当您为计算的不同部分重用一组mac时，您最终将权重矩阵移进移出。当然，在接收输入数据并将其传递到引擎的不同部分时，您需要移动输入数据。移动这些矩阵需要时间。

所以，你能做的第一件事就是优化架构，减少所需的数据移动次数，让移动远离mac电脑实际完成的工作。这是一个典型的对加速器的改变，你可以在视觉上看到。值得注意的是，HiFi 5还没有出现这种情况，原因我们稍后会讲到。

这些矩阵的另一个关键特征是它们往往是稀疏的。这意味着它们的大多数条目都是0，只有少数具有有用的非零数据元素。这就产生了一些机会(其中一个我们将推迟一会儿。

当您有大量的数据为零时，需要什么技术来减少数据量?压缩。因此，在存储之前可以对权重和输入进行压缩，以便在需要时更快地移动它们。在投入使用时，首先对矩阵进行解压。当然，这里的关键是您保存移动数据的时间不会因为压缩和解压缩时间而被占用。考虑到这在DNA 100和HiFi 5中都是一个被吹捧的特性，情况似乎是这样的。

Ignore the zeros

最后，这些稀疏矩阵一旦解压缩，就可以对这些零值元素进行大量计算。Cadence在他们的DNA 100中创造了一个优化的神经网络引擎，它只对非零元素有效。他们跳过零值的，获得更多的性能。

这和优化的架构是HiFi 5还没有采取的步骤，这两个步骤都是我们需要在下一步深入研究的原因。

软件或者是硬件？

我们现在有一组完全独立的决策要做，这取决于我们的算法有多成熟，以及我们需要从设备中挤出多少性能:我们是在软件中执行算法，还是在硬件中(或两者的某种组合)执行算法?

在这个行业中有一个一致的轨迹:尽可能多地在软件中做事，因为没有什么比软件更灵活的了。如果您处于一个陡峭的学习曲线上，并且必须经常进行更改，那么软件就是您最安全的选择。只要不超过内存占用，就可以在不影响硬件设计的情况下进行所需的所有更改。

但是，在某些时候，许多应用程序开始需要硬件实现。这可能是出于成本、速度或功耗的原因，但这些原因中的任何一个都可能导致算法的某些(如果不是全部的话)变得更硬。

视觉和听觉处理有非常不同的性能要求。即使是对静止图像的分析也涉及到一组百万像素的初始数据集(也就是很多兆比特)。是的，当你通过神经网络管道时，由于卷积和池化，这组比特会缩小，但一开始会变大。如果你在处理视频，那么你必须以帧速率处理这些帧，以便跟上实时性能。有很多数据需要处理。

与此同时，与视觉处理相比，音频具有一些特征差异。对于静态图像，您可以同时获得所有像素。卷积之所以被使用是因为它类似于我们大脑处理视觉的方式。但音频的工作方式不同。首先，不是一堆同时有效的位，而是音频流中的位的时间序列。所以你不仅仅是在处理同时捕获的数据;您捕获的是随时间推移而获得的数据集。这是使用递归神经网络(RNNs)而不是卷积神经网络(CNNs)的地方。

音频也处理相对低频的振动——那些在可听范围内的振动。这就限制了我们只能处理几十千赫的数据，从而产生几个兆赫/周期，而不是几百兆赫/周期，甚至是teraMACs/周期的视频。换句话说，总的来说，音频处理需要的性能要低得多。

因此，考虑到性能和软件灵活性之间的权衡，音频仍然可以使用全软件实现。这就是为什么Cadence在音频上使用优化的dsp，但是他们没有使用优化的架构或者加固的电路。他们仍然可以在不放弃任何软件灵活性的情况下获得所需的性能。

相比之下，DNA 100在这条加固路线上走得更远，它拥有专用的架构和非零价值的MAC电脑。

这就是结果。xNN演进管道——从所有通用的dsp到优化的硬件——以及视觉和音频处理是如何沿着这条路径进行的，这证明并非所有的神经网络都是相同的。我们的愿景是否已经走到了尽头?不太可能。但是在我们到达那里之前，我们不知道下一个阶段是什么。

原文链接：https://www.eejournal.com/article/watching-ai-evolve/

技术讨论群	覆盖2000多位中国和世界华人圈SSD以及存储技术精英
固件、软件、测试群	固件、软件和测试技术讨论
异构计算群	讨论人工智能和GPU、FPGA、CPU异构计算
ASIC-FPGA群	芯片和FPGA硬件技术讨论群
闪存器件群	NAND、3D XPoint等固态存储介质技术讨论
企业级	企业级SSD、企业级存储
销售群	全国SSD供应商都在这里，砍砍价，会比某东便宜20%
工作求职群	存储行业换工作，发招聘，要关注各大公司招聘信息，赶快来
高管群	各大SSD相关存储公司高管和创始人、投资人