上月,全志科技发布了新款智能语音专用处理器,这是 Arm 中国耗时两年研发的周易 AIPU 的落地首秀。近日,雷锋网与 Arm 中国产品研发副总裁刘澍和全志科技副总裁陈风进行了深度交流,了解到了 Arm 中国的产品进展以及 Arm 中国与全志科技定制周易 AIPU 的更多细节。

历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀-冯金伟博客园

  Arm 和 Arm 中国的 AI 产品冲突了吗?

  Arm 中国在 2018 年注册成立,中方投资团队占股 51%,Arm 公司占股 49%,接管 Arm 在国内的所有业务。同时,Arm 中国也会研发更符合中国市场需求的产品。据悉,Arm 中国从 2018 年开始就在推进 3 个产品线,分别是:周易 AIPU、山海平台安全解决方案、星辰处理器。

  刘澍透露:“这三个产品线从团队建立、到产品开发到发布客户、到客户芯片流片回来测试的工作,目前一切进展顺利。今年第一季度恰好都有客户的芯片返回而且工作正常。”

  周易 AIPU 属于当下最受关注的 AI 产品品类,也是 Arm 中国最先看到落地应用的产品。“与 Arm 不久前推出的配合 Arm Cortex-M 处理 Ethos-U55 和配合 Cortex-A 处理器的 Ethos N 系列 NPU 相比,Arm 中国周易 AIPU 更加通用,既可以跟 Cortex-M 或 Cortex-A 一起工作,也可以作为处理器进行独立工作。”刘澍对雷锋网(公众号:雷锋网)表示。

  历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀-冯金伟博客园

  也就是说,周易 AIPU 既不是 CPU 处理器,也不是神经网络加速器。这是因为,周易 AIPU 定义了一套新的适用于 AI 算法的指令集,通过指令来驱动里面的向量处理单元和固定的 AI 算法处理单元,从而完成各种复杂网络的组合的操作。

历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀-冯金伟博客园

  但作为一款 AI 处理器,周易 AIPU 也必须寻找通用性和效率的平衡点,以提升产品的竞争力。周易 AIPU 的做法是,用向量处理单元 Vector/Tensor Process 的并行的8-bit 向量阵列进行向量计算,Arm 中国为 Vector/Tensor Process 定义了一整套向量处理指令集,有点类似于 Arm 此前的 NEON 指令集。

  另外,周易 AIPU 中的 AI Fix Function 把常见的 AI 网络里所通用的部件和单元固化为硬件,通过指令就可以驱动硬件工作,提升效率。

  标量部分,周易 AIPU 也有标量单元,这个单元并非完成的 CPU,但有类似标量处理器的功能。

  因此,周易 AIPU 用标量处理单元 Scalar Unit、向量处理单元 TensoCre Ellxe.Cell,还有能提升 AI 效率的 AI Fix Function,最终实现通用性和效率的兼顾。

  除此之外,周易 AIPU 的架构中还有可扩展的安全架构和可扩展的用户定义架构。“可扩展的用户定义架构其实就是给像全志科技这样的战略合作伙伴准备的,因为有的客户可能很简单地把 AIPU 集成下来就可以了,但也有一些比较有深入研究的芯片公司,会对里面的算子有自己定制的理解和需要。”刘澍进一步指出,

  “我们开放了这样的接口,可以用特殊的指令来驱动用户定义的算子。因此,不同周易 AIPU 平台的产品最终的效能可能不同。”

  当然,周易 AIPU 也是一些列高度可配置的处理单元,开发者既可以配置通用的 Tensor 算力,也也已配置 AI Fix Function 专用算力。周易 AIPU 单核性能为 0.2TOPS-4TOPS,用多核配置组成系统最高可实现 64TOPS 的算力。

  历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀-冯金伟博客园

  全志科技最新发布的 R329 语音专用 SoC 中集成的正是定制的周易 AIPU。

  定制化是 AI 处理器提升竞争力的关键

  全志科技 R329 中集成了定制的周易 Z1-0701,1 代表的是 Arm 中国第一代周易 AIPU 架构,07 指它有 2 的 7 次方个硬件 MAC,01 表示还有一个通用的 Tensor 处理单元。刘澍说:“0701 是专门针对智能家居、智能楼宇、智能机器人这样的场景深度定制的,它可以非常高效地运行在本地的 ASR 的各种语音算法。同时,它也有相对比较简单的视觉的分析能力,比如说图像和人脸识别以及感知。”

历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀-冯金伟博客园

  刘澍也表示,Arm 中国是根据全志科技给出的市场定位,在周易 AIPU 的处理器上又花了数月的时间进行定制,最终做出全志科技所需要、在市场上具备竞争力的产品。这样,通过全志科技这个战略合作伙伴,不仅带来了准确的市场需求信息,更用顶实话的方式开发 IP 保证 Arm 中国的产品最切合客户需求。

  全志科技副总裁陈风也说:“当下仅仅把芯片做好还不够,在过去几年里,我们花了非常多时间进行市场信息搜集,涉及市场需求,实现方式、手段、技术细节等。所以,在我们双方探讨合作的时候,Arm 中国也发现全志科技拥有非常多有价值的市场需求信息和思考,这也促成了双方的迅速合作。”

  “通过跟非常多的友商和算法公司进行了大量的交流,发现大家对专用算力是有明确需求的,所以我们就推出了全志科技 R329 这样的芯片,经过了 10 个月左右的研发,这款新品已经有样片和样机。”陈风也透露。

  “各家知名的算法厂商,包括讯飞、思必驰还有其他的合作伙伴都已经开始做了算法的工作,他们的反馈现在都是非常好的。”

  对于算法公司而言,算法移植的难度以及与硬件匹配的软件的易用程度成为关键。据悉,通过 Arm 中国和全志科技的合作,可以实现 TensorFlow 模型的 24 小时移植。未来,周易 AIPU 还会支持更多的业界主流的 AI 框架。

  不过,在 AI 框架之下,还需要 Arm 的 Compute Library 或者是 Open AI Lab 的异构计算库,进一步去支持像 Arm NN、安卓 NN 比较流行的接口。像全志这样有实力的公司,则会有自研的 Tina OS 和 Runtime 的框架,只要把周易 AIPU 的驱动层接进去都可以正常工作。

历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀-冯金伟博客园

  陈风介绍,Tina OS 在全志科技内部使用已经有5、6 年的历史,它是一个轻量级的 Linux OS,使用 Tina OS 的名称后已经迭代了三个大的版本,整个 OS 完全开源,并且启动速度非常快,现在全球已经有累计超过 5 千万台的设备使用了 Tina OS,包括音箱、扫地机、冰箱和微波炉等。

  品质和靠谱是 AI 芯片落地的关键

  成立于 2007 年的全志科技,早在 2011 年就开始进入智能音箱产品,但那时的智能音箱是能连上 Wi-Fi 就叫智能,和 2013 年之后我们所说的智能音箱的概念还是有所不同。全志科技新发布的 AI 芯片会以智能音箱为切入点,然后渗入到智慧城市,包括智能楼宇、智慧工业以及智慧生活当中。

历经两年研发,Arm中国首款AI产品周易AIPU迎落地首秀-冯金伟博客园

  陈风预计,家电产品应该在 2020 年和 2021 年左右开始迎来第一波的智能化的普及浪潮。

  他指出,语音面板看起来不起眼,实际上量非常大的市场。因为工业控制器、电梯、汽车的驾驶平台以及一些专业的电子设备都会有控制面板,这个面板的语音化现在也已经开始全面启动了。

  谈及全志科技 AI 产品的核心竞争力,陈风说:“我们现在是有非常明确的答案和信心的,任何一个产品或者是技术的落地,需要的是非常可靠的一种实现方式。我所说的可靠,不仅来源于全志科技有实力,过去的经历也证明我们公司能够向客户提供极其持久的技术支持和产品支持。”

  另外就是品质,“电子产品是否可靠,在消费电子领域、工业电子领域,以及在智慧家庭领域有截然不同的等级要求。在家电领域,品质也是客户重点考量的对象,要求的级别可能是 99.9%,也可能是 99.99%,最高达到了 99.9999%,这么高的可靠性要求,背后也是客户精细化经营的要求。”陈风指出,“通过类似的场景大家可以感受到,语音技术在商品化的过程中,靠谱这两个字是有多么重要,它摆在了先进性之前。”

  雷锋网小结

  Arm 的 AI 产品的发布和落地进展在业界都并非最快,这其中很重要的原因就是 Arm 在权衡 NPU 的效率和灵活性花了更多时间。在 Arm 中国的产品中,周易 AIPU 作为 Arm 中国的首款 AI 产品,通过一套新的 AI 算法指令集适应 AI 处理器的需求,兼顾通用性和效率。并且,周易 AIPU 的指令集设计和架构设计都由 Arm 中国完成,因此这也是一个 Arm 中国自主可控的产品。

  Arm 中国与全志科技的合作,是周易 AIPU 的首秀,最终的竞争力到底如何,我们将保持关注。另外,Arm 中国除了将周易 AIPU 授权给智能家居领域的公司,还授权给了汽车应用领域、手机领域和安防监控等领域的芯片合作伙伴,周易 AIPU 的表现值得期待。

  还有一个值得关注的问题,周易 AIPU 和 Ethos NPU 在中国市场会如何协同发展?