11月16日消息,美国时间周三,微软发布了首款自研人工智能(AI芯片,可用于训练大语言模型,摆脱对英伟达昂贵芯片的依赖。微软还为云基础设施构建了基于Arm架构的CPU。这两款自研芯片旨在为Azure数据中心提供动力,并帮助该公司及其企业客户准备迎接AI时代的到来。

微软的Azure Maia AI芯片和Arm架构Azure Cobalt CPU将于2024年上市。今年,英伟达的H100 GPU需求激增,这些处理器被广泛用于训练和运行生成图像工具和大语言模型。这些GPU的需求非常高,甚至在eBay上的售价超过了4万美元。

微软Azure硬件系统和基础设施主管拉尼·博卡(Rani Borkar)在接受采访时解释说:“微软在芯片开发方面有着悠久的历史。”早在20多年前,微软就与人合作开发了Xbox的芯片,甚至还合作设计了Surface设备的芯片。博卡表示:“这些努力都是建立在这些经验基础之上的。2017年,我们开始构建云硬件堆栈,并开启了这段旅程,使我们走上了构建新自研芯片的轨道。”

新的Azure Maia AI芯片和Azure Cobalt CPU都是由微软内部构建的,并对其整个云服务器堆栈进行了深度检修,以优化性能、功耗和成本。博卡表示:“我们正在重新考虑人工智能时代的云基础设施,并真正优化该基础设施的每一层。”

Azure Cobalt CPU以元素“钴”(钴蓝是重要的蓝色颜料)命名,是一款128核芯片,基于Arm的Neoverse CSS设计,并为微软定制。它旨在为Azure上的通用云服务提供支持。博卡解释称:“我们花了很多心思,不仅要让它具有高性能,还要注意到电源管理。为此我们做了许多有意识的设计选择,包括控制每个内核和每台虚拟机上性能和功耗的能力。”

微软目前正在测试Cobalt CPU的工作负载,如Teams和SQL服务器,并计划明年为客户提供各种工作负载的虚拟机。虽然博卡没有直接将其与亚马逊在AWS上提供的Graviton 3服务器进行比较,但与微软目前用于Azure的基于Arm的服务器相比,应该会有一些明显的性能提升。博卡表示:“我们的初步测试表明,我们的性能比目前使用商用Arm服务器的数据中心提高了40%。” 微软还没有分享完整的系统规格或基准。

微软的Maia 100 AI加速器以“昴宿四”(一颗明亮的蓝色恒星,希腊神话中称为迈亚)命名,专为运行云端人工智能工作负载而设计,如大语言模型训练和推理。它将用于支持该公司在Azure上某些最大的人工智能工作负载,包括与OpenAI高达100多亿美元的合作。微软将为OpenAI的所有工作负载提供支持。这家软件巨头一直在与OpenAI在Maia的设计和测试方面进行合作。

OpenAI首席执行官萨姆·奥特曼(Sam Altman)说:“当微软第一次分享他们的Maia芯片设计时,我们感到非常兴奋。我们一起努力,利用我们的模型来改进和测试它。Azure的端到端人工智能架构现在通过Maia进行了优化,为训练更有能力的模型铺平了道路,并使这些模型对我们的客户来说变得更便宜。”

Maia采用台积电5纳米工艺制造,拥有1050亿个晶体管,比AMD的MI300X AI GPU(1530亿个晶体管)少了30%左右。博卡说:“MAIA支持我们的第一个8位数据类型,即MX数据类型,以便协同设计硬件和软件,这有助于我们支持更快的模型训练和推理时间。”

微软与AMD、Arm、英特尔、Meta、英伟达和高通等公司都加入了一个组织,该组织正在为人工智能模型的下一代数据格式制定标准。同时,微软正在以开放计算项目(OCP)的协作和开放工作为基础,以使整个系统适应人工智能的需求。

博卡透露:“Maia是微软制造的第一个完整的液冷服务器处理器,我们的目标是以更高的效率实现更高的服务器密度。因为我们正在重新构想整个堆栈,我们特意考虑到了每一层,所以这些系统实际上也适合我们目前的数据中心。”

这对微软来说非常关键,因为它可以更快地启动这些人工智能服务器,而不必在世界各地的数据中心重新为它们腾出空间。微软建造了独特的机架用来放置Maia服务器主板,并配有名为“助手”的液体冷却器。它的工作原理就像在汽车或高档游戏PC上搭载的散热器,可以冷却Maia芯片的表面。

除了共享MX数据类型,微软还与合作伙伴共享其机架设计,以便他们可以在内部有其他芯片的系统上使用它们。但Maia芯片的设计不会被更广泛地分享,微软将其保留在内部。

Maia 100目前正在GPT 3.5 Turbo上进行测试,该模型正在支持ChatGPT、Bing AI和GitHub Copilot等工具。微软正处于部署的早期阶段,就像Cobalt一样,该公司还不愿意发布确切的Maia规范或性能基准。

这使得我们很难准确解读Maia将如何与英伟达广受欢迎的H100 GPU、最近发布的H200,甚至AMD最新的MI300X进行比较。博卡也不想进行比较,而是重申,与英伟达和AMD的合作对于Azure人工智能云的未来仍然非常关键。博卡表示:“在云计算运营的规模下,优化和整合堆栈的每一层,以最大限度地提高性能,使供应链多样化,并为我们的客户提供基础设施选择,这真的非常重要。”

供应链的多样化对微软来说同样重要,尤其是考虑到英伟达目前是人工智能服务器芯片的主要供应商,而各家公司一直在竞相购买这些芯片。据估计,为了推进ChatGPT的商业化,OpenAI需要超过3万个英伟达的老款A100 GPU,而微软的自研芯片可以帮助其客户降低人工智能的成本。微软还为自己的Azure云工作负载开发了这些芯片,而不打算将其出售给英伟达、AMD、英特尔和高通等其他公司。

博卡解释称:“我认为这更像是一种互补,而不是与他们竞争。今天,我们在云计算领域同时使用英特尔和AMD的芯片。同样,在人工智能领域,我们也可以同时使用AMD和英伟达的芯片。这些合作伙伴对我们的基础设施非常重要,我们真的希望给我们的客户选择。”

Maia 100和Cobalt 100的命名表明微软已经在设计这些芯片的第二代版本。博卡说:“这是一个系列,不只是一代就结束了,但我们不会分享我们的路线图。”目前还不清楚微软多久会发布一次Maia和Cobalt的迭代,但考虑到人工智能的发展速度,如果Maia 100的继任者以与英伟达H200相似的速度发布(大约20个月),无需为此感到惊讶。

现在的关键是,微软将以多快的速度让Maia运行起来,加快推进其人工智能雄心,以及这些芯片将如何影响人工智能云服务的使用定价。微软还没有准备好谈论这款新服务器的定价,但我们已经看到该公司悄悄地推出了针对Microsoft 365的Copilot,每位用户每月收费30美元。

目前,Microsoft 365版的Copilot仅限于微软的大客户,企业用户必须承诺至少拥有300个用户,才能使用这款新的人工智能Office助手。随着微软本周推出更多的Copilot功能,并对Bing Chat进行了品牌重塑,Maia可能很快就会帮助弥补对支持这些新体验的人工智能芯片的需求。