今天,中国最大AI单芯片邃思2.0在上海正式发布,这款芯片面向AI云端训练,尺寸为57.5毫米 x 57.5毫米(面积为3306mm2),达到了芯片采用的日月光2.5D封装的极限,与上代产品一样采用格罗方德12nm工艺,单精度FP32算力为40TFLOPS,单精度张量TF32算力为160TFLOPS,整数精度INT8算力为320TOPS。

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

E(Exascale)级计算也就是百万兆级的计算,是目前全球顶尖超算系统新的追逐目标。用一个不精确的说法来解释百万兆级计算,一个百万兆级计算机一瞬间进行的计算,相当于地球上所有人每天每秒都不停地计算四年。

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

那号称中国最大AI单芯片,有何特色?竞争力到底如何? 

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

燧原科技CEO赵立东(左)与 燧原科技COO张亚林(右)

2019年底,燧原科技发布了从启动项目研发到发布用时仅18个月的云端训练芯片邃思1.0,基于邃思1.0的云燧T10加速卡单精度算力高达20TFLOPS。时隔一年半,邃思2.0和云燧T20就推向市场。之所以说“就”,是因为云端训练这样复杂的超高算力芯片通常的迭代周期是两到三年一代,如果遇上特殊情况可能还会延迟半年。

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

想要在整个行业缺芯的大背景下精准执行产品路线图显然是一个巨大的挑战,雷锋网了解到,在2020年疫情开始的时候,燧原准备了两套方案,同时发挥团队成员超过15年以上行业经验的优势,以及第一代产品开发过程中建立的供应链关系,最终保证产品的如期推出。

在路线图精准下,为什么要把芯片面积做大?张亚林解释,燧原做芯片是高举高打,做大芯片和高端芯片是我们追求的目标,芯片的尺寸大小背后代表的是科技含量,对于中国芯片行业的贡献才是更大的价值体现。

但更大的芯片面积,就代表着更高成本。对此,张亚林表示:“一个成熟的产品必须考虑回报率(ROI)。我们需要做的是在定义产品时,计算好这个产品在市场上的整体收入和销量,从整个产品的成本角度和能够带给客户的价值定义产品。所以我们会持续关注前沿技术,但不会一味追求最新的技术,依然从芯片的性能、成本、功耗三方面考虑。”

AI业界一直在追求用更小的数据位宽实现更高的模型精度。因此,AI模型不断优化,数据类型不断推新,AI芯片作为底层支撑就需要在支持更多数据类型的同时消耗更低能耗。

TF32代表的是张量单精度32位数据类型,相比传统的FP32,TF32在位宽更大的同时,消耗的带宽以及计算资源显著更小,被业界视为能够取代全尺寸单精度数据的革新性数据精度。

目前业界的判断是,TF32对大部分AI场景都有应用潜力。我们紧跟国际创新者的步伐,很早就布局数据进度的研究和分析,所以才有了燧原第二代产品就支持TF32精度。”张亚林同时指出:“邃思2.0支持全精度AI精度范围,包括FP32、TF32、FP16、BF16和INT8。要用一个非常革命性的算力引擎囊括所有的精度,并且能够做到所有的精度的算力都有效,这是非常大的挑战。”

打破算力与存储之间的瓶颈,高效利用数据是AI芯片的另一大挑战。在国内最大的AI计算单芯片中,集成了4颗三星HBM2E,支持最高64 GB内存,内存带宽最高达1.8 TB/s。

“HBM2E是目前全球最快的存储芯片,通过集成4颗HBM2E,邃思2.0可以实现算力和存储带宽的匹配,实现更强算力。我们一直努力把理论算力和理论带宽匹配,有效控制整个产品的成本。采用最新的技术并不会使我们产品的整体拥有成本增加。”张亚林表示。

在燧原的产品理念中,更好的AI芯片只是构建AI系统的基础,客户最关心的并非底层AI芯片的参数。

客户并不会直接关心芯片层面的理论参数,AI落地的时候,他们更看重的是包括硬件、软件、互联的整体解决方案的有效利用率。所以我们已经从单芯片的维度升级到了更高的系统层面。这也是燧原推出整机多卡、多卡互联、分布式软件、云端部署的一整套交钥匙解决方案的原因。”张亚林说道,“我们也更强调通过低碳绿色化的云燧智算集群服务客户。”

既然是系统,互联技术非常关键。目前,业界通过不同的远程直接内存访问技术(RDMA)进行互联,比如InfiniBand、iWARP、RoCE。燧原采用的是自研GCU-LARE互联技术实现云燧AI加速卡的多卡集群互联,同时兼容业界其它RDMA技术便于与其它系统互连。

GCU-LARE具备两大特色,一个是不需要传统互联技术的连接卡或桥接卡,可以直接通过线缆的方式直连,降低成本。另一个是能够根据用户的需求和机房的实际情况,定制不同的拓扑结构,能够轻松构建4000卡以上的大型训练集训拓扑,实现定制化集群产品CloudBlazer Matrix。

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

“云燧的互联接口在单口速度保持不变的前提下,接口数量从T10的4个增加到T20的6个,带宽提升150%。用云燧T20可以打造中国E级单精度算力集群。”张亚林表示。

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

“在软件易用性和迁移成本方面,我们投入了大量精力。”

与云燧T20一起发布的还有软件平台驭算2.0,进行了多方面提升,包括:为用户提供高度契合业界标准的编程接口,以支持高性能自定义算子开发;全面优化的动态性模型支持;引入业界先进的MLIR编译框架;基于启发式自适应方法的算子泛化实现以及图优化策略,可以广泛支持更多标准模型和自定义模型训练。

如今第二代产品,同样采用热启动的方法,使用更多的用户反馈进一步降低迁移难度和成本。”

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

“在软件层面,现在业内比较通用的两个AI框架是TensorFlow和Pytorch,如果他们的模型完全基于框架开发,切换到燧原的产品只需要硬件切换,软件可以无缝切换。软硬件一定是一体化,也只有软硬一体化设计才对客户有更高价值。”张亚林进一步表示。

因此,驭算2.0还支持资源虚化、重组以及系统级设备虚拟化,使用户在业务部署和资源整合上可拥有更为灵活的方法;支持4000卡规模以上的集群分布式训练;升级系统兼容性方案、部署方案和RAS,支持主流操作系统最新发型版,开箱即用,简化客户定制系统集成,对客户的部署和运维更加友好。

实际上,芯片实力的比拼从来都不是单芯片的比拼,而是系统和生态实力的比拼。纵观目前全球前几大芯片巨头,持续迭代的芯片只是其保持竞争力的基础,围绕芯片的互联技术、软件栈以及不断拓展的生态才是竞争的护城河。

燧原既然已经从单芯片的能力拓展到系统层面,那如何挑战云端训练芯片的霸主英伟达?

作为一个追赶或者新生者,差异化竞争是必然的。燧原进行差异化竞争时一直注重三个部分,第一是我们提供的算力性价比一定要越来越好,第二是中国有最丰富的业务场景,也有最丰富业务场景使用者,所以我们与最丰富的业务场景做更多深入的结合,并进一步做业务场景的泛化,第三就是本土化、定制化、客户的服务开发。”张亚林说。

“我们在这三个业务线上不断发力,构筑整个业务群,三个业务群都已经实现客户接入,同时也拿到非常多的客户反馈。有了因第一代产品开拓的战略合作伙伴,利用第二代产品我们可以把这三个业务群的场景和客户群扩大,这也是燧原的生态护城河。”张亚林表示。

燧原科技CEO赵立东还宣布了燧原的异构计算生态——“燎原”计划,目标是以AI为起点构建通用异构计算生态,构建标准化技术体系,共建完整生态服务数字中国。

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

张亚林解释,燧原与商业客户一起打磨产品,建立原始创新生态。在传统行业客户端打磨端对端的场景生态。同时,燧原科技响应国家绿色化的号召,实现集群的功耗、能效进一步的优化,真正能够在新基建层面做出更加普惠的绿色算力,符合国家关于碳中和、碳达峰的政策导向。

“对于初创公司而言,刚开始需要尽快证明我们的执行力、产品以及商业化的价值,所以与一些战略伙伴展开了合作,但这并不代表我们的产品是专用的。随着我们第二代产品的推出,会进一步泛化场景和拓展客户,从一个点切开一条线最后达到一个面。并且,对于任何一家初创公司而言,智能计算的任何一个市场都已经足够庞大。”张亚林说。

除此之外,燧原还通过与之江实验室、上海交通大学、西安交通大学等高校的合作,构建生态的同时培养人才。

中国最大AI芯片问世!能组建一个顶级超算集群-冯金伟博客园

对于与国内和国际巨头的竞争,张亚林的态度是,“目前对国内芯片行业的发展是天时地利人和,我认为国内半导体和AI赛道百花齐放是好事,我们会坚持自己,志存高远、脚踏实地。追赶国际巨头,作为中国芯片公司有市场、政策和资金的优势,我们的普惠智能算力只是第一步,未来燧原会在异构计算领域不断拓展产品线,提供更多异构计算的整体解决方案。

芯片性能参数的提升是最容易感知和理解的产品升级,但这却不是芯片公司最强大的竞争力所在,围绕芯片构建的接口、标准、互联技术,以及软件栈、客户认可、合作伙伴生态才是以芯片为核心构建竞争力公司的终极目标。

这也是在AI时代众多芯片初创公司宣称的算力超越行业领导者,却未能获得大量订单的关键所在。很好的现象是,已经有以燧原为代表的AI芯片初创公司,开始去强调AI算力系统的价值。