有了 CPU 和 GPU,为什么还需要专门的 AI 芯片?-冯金伟博客园

  寒武纪所研发的芯片,更准确的描述其实是一类加快 AI 计算的“加速卡”,通常被称之为“AI 芯片”,本质上是 ASIC(特定用途集成电路,Application Specific Integrated Circuit)。

  这个拗口名词的意思是,专门为某种用途而设计的集成电路系统。比如,比特币挖矿热潮中诞生了专门为“挖矿”而生的 ASIC,而寒武纪的 ASIC 则是针对 AI 算法所设计,由于牺牲了通用性,因此其市场增长完全依赖于 AI 的应用前景。

  ASIC 好比专才,有某一方面的特长。而 CPU 和 GPU 更像通才,能干很多事,也有其专长领域,但和 ASIC 特长的方面比,是比不过的。

有了 CPU 和 GPU,为什么还需要专门的 AI 芯片?-冯金伟博客园

  具体到 AI 计算上,ASIC 胜在运行 AI 算法速度快,同时功耗(耗电量)低。而 CPU 由于最初设计思路的限制,在 AI 计算上速度极慢,要想加快速度,只能堆砌更多 CPU。

  CPU 速度不行,就有不少公司用 GPU 来加速 AI 计算,发现算得也挺快。但 GPU 毕竟不是专门为 AI 所设计,速度没到极限,还有提升空间,而且它的价钱可不便宜,功耗也高。

  Google 的围棋 AI 程序“AlphaGo”当时用了 1200 个 CPU 和 170 个 GPU 来计算,还需要一个专门的机房、大功率的制冷空调和专人维护。而采用 ASIC,则只需要一个盒子大小,功耗也大幅降低。

  说到底,CPU 和 GPU 都不是为 AI 计算而设计的,它们身上还肩负着其他任务,因此具备了大量其他的能力,而这些能力对 AI 算法来说根本用不上。各行各业都逐渐采用 AI 算法的同时,必定要找到一种速度快、功耗低且价格不贵的算力解决方案,ASIC 就是目前主流选择之一。

  AI 芯片如何落地?

  AI 芯片总要有个落地的载体,也就是说它总得用在什么地方,才能产生价值。目前,主流的落地载体无非三个:终端、云端(即数据中心)和边缘端。

  终端是指普通消费者可以直接使用的设备,比如手机和智能手表。云端通常说的是数据中心,计算在数据中心统一处理,再通过网络传输到终端设备上。

  边缘端介于云端和终端之间,简单理解,它是在靠近数据源头一侧的千千万万的神经末梢节点上完成计算,而无需传输到一个统一的处理中心进行集中处理。因此它可以缩短延迟时间。边缘计算一方面能弥补终端设备计算不足的短板,另一方面也可缓解云计算带来的数据安全、隐私保护、带宽和延时等潜在问题。

  寒武纪的 AI 芯片布局,涵盖了以上三个方面,并且研发了统一的基础系统软件平台。

有了 CPU 和 GPU,为什么还需要专门的 AI 芯片?-冯金伟博客园

  在终端,AI 芯片以被集成的方式存在。为了提升性能降低功耗,并且节省成本,终端 AI 芯片通常会通过授权 IP(知识产权)的方式,让客户将其集成到终端设备的 SoC(System on Chip,系统级芯片)上。

  2017 年,通过 IP 授权的方式,寒武纪 1A 被集成到麒麟 970 上。而后,寒武纪 1H 又搭载在麒麟 980 上。

  2018 年 5 月,寒武纪发布了思元 100,正式进军云端 AI 芯片领域。2019 年,又推出了思元 270。该系列的下一款产品思元 290,已经处于内部样品测试阶段。值得一提的是,据寒武纪称,这款产品基于 7nm 制造工艺设计。制造工艺是芯片制造的核心竞争力,数字越小表明性能越高且功耗越低。目前,世界上有能力设计 7nm 工艺的公司还比较少。

  2019 年 11 月,寒武纪发布了边缘 AI 芯片思元 220。自此,寒武纪完成了云边端完整的 AI 芯片布局。

  寒武纪所面临的竞争

  寒武纪在科创板上市后最大争议在于,其主营业务的不确定性,以及激烈的市场竞争。

  先看终端市场。寒武纪在终端 AI 芯片的切入点,主要是通过 IP 授权方式,嵌入到华为手机的 SoC 芯片里。据寒武纪招股书,2017 和 2018 年寒武纪终端智能处理器 IP 授权业务的收入,占主营业务收入的比例均超过 98%。

  2019 年,这一比例骤降为不到 16%。这明显的变化背后,是因为华为选择让旗下的半导体公司海思自研 AI 芯片,而寒武纪其他客户的订单规模远不如华为。

  拓展新的客户也十分困难。据 Counterpoint 统计,2020 年 Q1 全球智能手机市场出货量排名从高到低,分别是三星、华为、苹果、小米、OPPO、vivo。这些手机厂商里,三星、苹果和华为选择自研 AI 芯片,小米、OPPO 和 vivo 则直接采用高通、联发科或 Arm 的 AI 芯片。

  寒武纪在招股书中特别提到:国内知名智能手机厂商绝大多数产品,现阶段采用成熟手机芯片产品和方案,尚未大规模商用其自主研发的 SoC 芯片,该等厂商短期内不存在大规模采购公司处理器 IP 产品的需求。

  在终端领域进展不顺,云端 AI 芯片是寒武纪目前的主要收入支柱。云端 AI 芯片是一个巨头环伺的市场,高通、阿里巴巴、华为和 Google 都已经发布了产品,但占有绝对优势的却是英伟达的 GPU。

  虽然 GPU 不是最适合 AI 计算的芯片,但由于 AI 芯片研发需要时间,目前还处于开拓市场阶段,所以现阶段主流的 AI 训练(神经网络学习的过程)和推理(把神经网络投入使用的过程)芯片,依然是 GPU。

  在招股书中,寒武纪列出了同类产品的参数比较。可以看到,和寒武纪最新的思元 290 一样,英伟达 A100 和华为海思 Ascend 910,都已经用上了 7nm 工艺。并且,英伟达 A100 的峰值性能高于寒武纪和华为海思最新产品,一定程度上会影响思元 290 获取客户。

有了 CPU 和 GPU,为什么还需要专门的 AI 芯片?-冯金伟博客园

  所幸,随着 AI 芯片的逐渐成熟,GPU 在云端 AI 芯片的市场份额会越发减少。Gartner 的统计数据显示,全球 AI 服务器及 AI 芯片市场规模,自 2016 年到 2020 年都保持高速增长。而云端 AI 芯片当中 GPU 的市场份额呈持续下滑趋势,预计到 2022 年云端训练 GPU 占比将降至 60%,云端推理 GPU 占比更是只有 30%。

  边缘 AI 芯片方面,寒武纪在招股书中列出了和同类产品的比较。可以看到,寒武纪思元 220 的性能和功耗,并没有能和英伟达 Xavier、华为海思 3559A、Ascend 310 拉开多少差距。甚至,英伟达和华为产品的制造工艺都是 12nm,要领先于寒武纪思元 220。

有了 CPU 和 GPU,为什么还需要专门的 AI 芯片?-冯金伟博客园

  边缘计算被视为下一个兵家必争之地。几乎在云端和终端有积累的厂商,都会推出相应的边缘 AI 芯片。巨头方面,除了英伟达和华为,还有 Google、高通。自动驾驶专用边缘芯片领域有英特尔、地平线等,寒武纪面临的竞争不可谓不激烈。

  总的来看,AI 芯片是一个快速增长中的市场,不管是云端、边缘端还是终端,寒武纪处于一条足够长的“雪道”上。但这个市场里的竞争同样激烈,英伟达的 GPU 依然占据优势地位,华为、Google、高通、英特尔等巨头伺机争抢份额,还有一大批初创公司,寒武纪在“把雪球越滚越大”的过程中,阻力不小。