AI芯片变局：各大门派 “围攻”英伟达

AI芯片变局：各大门派 “围攻”英伟达

2023-10-14 18:12

记者倪雨晴、实习生朱梓烨深圳报道

当ChatGPT在彼岸快速进化的同时，国内的大模型应用也如火如荼。

“我们最近刚购买了百度文心一言的标准通用接口服务，业内采购需求非常旺盛。”一家传统企业的数字化负责人告诉记者。

他介绍道：“标准接口之外，他们还提供云端部署（公有云）和本地化部署（私有云）两种服务。其中，云端部署的基本费用是一年一个并发20万，有需求的公司一年普遍会有10到20个并发，费用都是在百万级别，本地化的私有云部署则需要1000万部署费用。”

可见，大规模地使用生成式AI依然成本高昂。背后的两个事实是，AI订单持续增加、核心的硬件成本GPU水涨船高。

一位AI领域资深从业者甚至向记者直言：“你在为你没有见过的显卡付费。现在消费者使用的几乎所有AI类服务，全部都是由算法提供的，比如短视频的视频编辑系统、推荐系统都是由算法进行驱动，这些算法的底层全部都需要调用GPU。这就意味着，只要你刷抖音，你就在直接或间接地使用GPU。”

借着新东风，GPU代表者英伟达一举站上AI的“光明顶”。而AI江湖中的门派也在疯狂迭代，“围攻”光明顶。芯片巨头们蓄势待发，英特尔已经发布了Gaudi 2、即将推出Gaudi 3、正在研发Falcon Shores；AMD发布了MI300系列，MI400正在路上；国内的华为昇腾、以及AI芯片企业们也在提供算力新选择。

互联网大厂们也在加快自研步伐，亚马逊有机器学习训练芯片Trainium和推理芯片Inferentia；谷歌研发已久，今年发布了第五代定制张量处理器（TPU）芯片TPUv5e，用于大模型训练和推理；近日传微软将在下月发布AI芯片，代号“Athena”；甚至有消息称OpenAI也正在探索AI芯片的自研。

AI芯片的战场上，继续硝烟四起。

英特尔和AMD的猛攻

今年以来，英特尔和AMD带头“主攻”，在他们的年度大会，AI是绝对的主题词。从各自布局来看，其实两家都已有丰富的产品矩阵，AI芯片主要分为GPU、FPGA以及ASIC，英特尔和AMD通过收购和研发都覆盖了三种类型的芯片，但是两者侧重点有所不同。

从英特尔的动作看，今年最受关注的莫过于Gaudi系列，Gaudi属于ASIC类别。已经发布的Gaudi 2芯片是专为训练大语言模型而构建，采用7纳米制程，有24个张量处理器核心，并且英特尔还针对中国市场推出定制版的Gaudi 2，争夺市场的野心可见一斑。

值得注意的是，Gaudi系列芯片是基于英特尔之前收购的AI公司Habana，而规划中的AI新品Falcon Shores将在Habana的架构基础上，和英特尔原有的GPU等技术进行融合，因此Falcon Shores也备受业内关注。

对于FPGA业务，英特尔则在10月初宣布将其拆分，此前英特尔斥巨资收购了FPGA龙头Altera，数据中心一直是FPGA的重要发展市场，如今该业务即将“独立”并IPO。而负责英特尔FPGA的部门就是PSG（可编程解决方案事业部），英特尔表示，PSG预计将于2024年1月1日开始独立运营。

英特尔还预计，将在2024年第一季度财报中，将PSG作为一个独立的业务部门进行报告。在未来两到三年内，英特尔将保留多数股权，同时计划对PSG进行首次公开募股，并可能与私人投资者探讨加速业务增长的机会。

事实上，PSG的业绩颇为稳定，PSG团队预计在2023年推出15款新产品，目前已推出11款。FPGA产业也处于增长中，据第三方估计，FPGA市场将以复合年增长率（CAGR）超过9%的速度增长，从2023年的80亿美元收入增至2027年的115亿美元。剥离更多是因为英特尔在进行整体业务架构重组，欲通过此举让PSG更独立灵活地运作，获取更大的成长空间。

对于英特尔而言，其正在聚焦IDM新规划，重新回到制程节奏中，并在AI新空间上精进。在今年的on技术创新大会上，英特尔公司高级副总裁、英特尔中国区董事长王锐在接受记者等采访时谈道：“经常有人问我，谁是英特尔的竞争者？我一直说，英特尔的竞争对手是自己。任何一家大公司也都一样，当你不断前行的时候，经常就会自己把自己绊住。认识到问题后，然后找到一个策略去改变，到开始真正把这个引擎重新转起来，这是一个艰难的历程。”

她进一步表示：“Pat（英特尔CEO帕特·基辛格）回来之后，可以看到我们的里程碑说到做到，英特尔把自己的进度重新抓回了自己手中。外部的环境千变万化，我们有这么多的长处，只要把自己的执行力落实了，一定有机会。比如AI，我们希望跟自己的客户和生态系统一起去优化。”

在王锐看来，从Gaudi2、Gaudi3到Falcon Shores，再加上至强的AI应用，是英特尔未来加速器与AI计算发展的路线图，英特尔强调AI无所不在，就是在客户端、边缘端和云端也有AI。“几十年间大家都在推动AI发展，现在已经有很多到了梦已成真的时候。对于ChatGPT的热潮，我认为其实ChatGPT目前的这些应用只是一个非常短暂的中间步骤，以后会看到越来越多的应用。”王锐告诉记者。

再看AMD，今年6月，AMD发布用于训练大模型的GPU Instinct MI300系列，主要包括MI300A、MI300X两个版本。AMD CEO苏姿丰称，这是全球首款针对AI和高性能计算（HPC）的加速处理器（APU）加速器。同时，AMD正积极研发更为先进的MI400系列加速器。此外，在FPGA方面，AMD已经收购了赛灵思进行整合，来拓展数据中心市场。

日前，天风国际分析师郭明錤在社交平台上表示，AMD的AI芯片出货量预计在2024年、2025年快速增长。到2024年，AMD的AI芯片出货量（主要是MI300A）预计将达到英伟达出货量的约10%，微软有望成为 AMD AI 芯片的最大客户，紧随其后的是亚马逊。如果微软与AMD的合作进展顺利，AMD获得meta和谷歌的订单，预计2025年AMD的AI芯片出货量将达到英伟达（基于CoWoS封装技术）的30%或更多。

同时，AMD也在积极布局AI领域，今年8月连续收购了两家AI企业，分别是AI软件公司Nod.ai与来自法国的AI初创公司Mipsology，以增强其人工智能软件的开发能力。根据公开信息，Nod.ai主要为大型数据中心运营商和其他客户提供优化的AI解决方案，已经开发了一个由开发者工具、库和模型组成的软件生态系统。而Mipsology是AMD的长期合作伙伴，此前一直为AMD开发AI推理与优化解决方案和工具，其旗舰产品为Zebra AI软件。

AMD总裁Victor Peng在接受媒体采访时表示，最新的收购是为了执行AMD“建立用AMD芯片开发的AI软件集合”的战略。在AMD计划大力投资于将使用其人工智能芯片所需的关键软件，这也被业内视为AMD追赶英伟达的策略之一。

互联网自研芯片大军

互联网企业是GPU的核心用户，但与此同时，巨头们早已开启自研AI芯片的道路。一方面是出于成本和多渠道供应的考量，另一方面也是针对自身业务需求定制从而强化竞争力，其AI芯片也基本用于公司业务，并不在公开市场销售。

近期的热点莫过于微软和OpenAI。据媒体报道，微软正在开发自己的AI芯片，该芯片最早将于下个月推出，芯片代号为“雅典娜（Athena）”，类似于英伟达的图形处理器，旨在训练和运行大型语言模型的数据中心服务器。若该芯片顺利推出，将减少微软对英伟达芯片的依赖并降低成本，据悉“Athena”的竞争目标剑指英伟达的H100 GPU。

早在今年5月，就已经有消息传出微软正在提供财务支持，以加强AMD研发AI芯片，并与之合作开发代号为“Athena”的自研AI芯片。报道还称相关计划从2019年已经开始进行，目前微软内部至少有 300名员工在从事代号为“Athena”的芯片研究计划。也可以看到，芯片厂商和互联网厂商的合作模式更深入、也更多元化。

在英伟达一卡难求、一卡千金的情况下，特斯拉创始人马斯克在财报会上直言，投资超过10亿美元用于D1芯片的研发，是因为特斯拉无法得到足够的英伟达GPU。如今，OpenAI都可能成为AI自研芯片的新晋者。

据媒体报道，OpenAI至少从去年开始讨论各种解决方案，以解决AI芯片成本高昂、短缺等问题。包括自行研发AI芯片、与英伟达在内的芯片商更密切合作、也包括评估潜在收购目标来加速开发，从而使AI芯片供应来源更多元化，而不受限于英伟达。

从一组数据就能看出训练大模型的GPU需求量之大。TrendForce集邦咨询向记者提供的数据显示，由于生成式AI必须投入巨量数据进行训练，为缩短训练就得采用大量高效能GPU。以ChatGPT背后的GPT模型为例，其训练参数从2018年约1.2亿个到2020年已暴增至近1800亿个，预估GPU需求量约2万颗，未来迈向商用预计可达3万颗（以英伟达A100为主）。

事实上，以亚马逊和谷歌为代表的互联网巨头早已躬身入局。以谷歌为例，TPU的研发已久，最新推出的第五代芯片TPUv5e，用于大模型训练和推理，与上一代芯片相比，TPUv5e每一美元的训练性能提高2倍，每一美元的推理性能提高2.5倍。这一新品也被谷歌云形容为“超级计算机”，强调将性能与成本降低相结合，使更多的组织能够训练和部署更大更复杂的AI模型。

而TPU也和谷歌的云服务紧密结合，同时谷歌云还将推出由英伟达 H100 GPU提供动力的A3 VM，能够在前一代A2 上提供三倍的训练性能。作为AI老将，谷歌从云端、终端、芯片、大模型、平台工具等等，进行了全覆盖。它和微软一样，既是云计算的重要参与方，也是应用集大成者，在生成式AI的普及趋势下，先行者谷歌还将如何落地AI也是关注焦点。

再看亚马逊，作为全球的云计算王者，其也在持续迭代自研芯片。此前，亚马逊发布了基于自研的AI训练芯片Trainium和推理芯片Inferentia。亚马逊表示，采用了Trainium的云服务器将大模型训练成本降低了50%，最多可以将30000个Trainium芯片连接起来提供超过6 exaflops的算力集群，连接带宽可高达1600Gbps，与之相较目前AI服务器之间连接带宽最高水平约为3200Gbps，Inferentia2则针对大模型推理进行优化，将推理的性价比提高了40%。

亚马逊云科技全球产品副总裁Matt Wood在今年接受媒体采访时曾谈道，芯片仅是整个AI图景的一部分，一方面，客户可以在亚马逊云科技的云上使用英伟达等公司的芯片；另一方面，自研AI训练芯片Trainium在网络互联等领域仍有显著优势，并降低了成本。

再看国内，BAT等巨头均已入场，比如百度旗下的昆仑芯片，瞄准的是云端AI通用芯片；阿里已经推出高性能推理AI芯片含光系列；腾讯自研的AI推理芯片紫霄，已经量产并在多个头部业务落地，目前在腾讯会议实时字幕上已实现全量上线；字节跳动此前也表示在组建相关团队，在AI芯片领域做一些探索。

IDC亚太区研究总监郭俊丽向记者表示，近日互联网巨头通过自研AI芯片，与包括英伟达在内的其他芯片制造商更密切地合作，想要在英伟达之外实现供应商多元化，同时获得更好的控制权，提升产品适配性，更好匹配产品开发节奏。

她进一步分析道：“长期来看，这一趋势对英伟达的业务会造成影响，但不会太大。因为对于互联网企业来说，芯片设计生产将面临一些挑战。”

其一是芯片设计技术复杂，高算力芯片的结构非常复杂，计算单元、存储访问以及芯片互联都需要丰富的经验和慎重的考量；其二是软件生态非常关键，英伟达长时间建设的CUDA生态，是迄今为止最发达、最广泛的生态系统，也是深度学习库最有力的支持。要想撼动其地位，具有一定难度；其三是芯片生产具有挑战，获得产能、保持良率、先进封装技术等环节也是各大技术巨头要解决的问题。

“总体而言，想要撼动英伟达的垄断地位，并不是一朝一夕的事。各大科技巨头要想在AI算力芯片上突围，就必须在专利、核心技术、人才建设、生态建设等方面不断积累，并获得突破。采用自研+采购可能是一个更加合适的策略。”郭俊丽总结道。

英伟达的AI版图

当前，英伟达仍稳坐GPU王座。近日英伟达的最新路线图被曝光，Arm和x86架构的芯片都会更新。多位业内人士向记者表示，产品更加强大，代际的差距进一步拉大。

一方面，GPU的需求还在增加。集邦咨询预估到2025年，全球若以等同ChatGPT的超大型AIGC产品5款、Midjourney的中型AIGC产品有25款，以及 80款小型AIGC产品估算，上述所需的运算资源至少为145600~233700颗英伟达的A100 GPU。

目前主要由搭载NVIDIA A100、H100、AMD MI300，以及大型CSP业者如Google、AWS等自主研发ASIC的AI服务器成长需求较为强劲，2023年AI服务器出货量（包含搭载GPU、FPGA、ASIC等）出货量预估近120万台，年增率近38%，AI芯片出货量同步看涨，可望成长突破五成。

另据研究机构Omdia透露，英伟达在2023年第二季度出货了900吨 H100显卡，据估算一块 H100 显卡的重量大约是3公斤。因此，可以推算出英伟达在第二季度卖出了大约30万块H100显卡，这是一个巨大的数字。Omdia表示，预计英伟达在未来几个季度将销售大致相同数量的GPU，因此该公司预计今年将销售约3600吨的H100 GPU，也就是每年大约有120万个H100 GPU。

另一方面，除了硬件的供不应求，今年英伟达在AI领域的投资和云计算方面的布局同样瞩目。

英伟达为了保证自身在AI领域内持续领先，除了要在技术方面更新算力更强的芯片外，也在参与人工智能生态领域的其他环节。今年英伟达强化了收购投资之路，据记者不完全统计，今年以来英伟达已投资收购了十余家人工智能方面的初创企业，试图完善在AI领域产业链多个环节的布局。

随后英伟达又展开了多项投资，整体来看，英伟达的投资主要分为四个类别，一是云服务提供商，二是AI软件与应用企业，三是AI芯片公司，四是与“AI+”合作的其他领域企业。

在云服务商方面，英伟达在4月参与了CoreWeave公司2.21亿美元的B轮融资，同时又在7月被媒体报道将以3亿美元入股云提供商Lambda Labs，此项交易接近达成。

而在AI软件企业方面，英伟达的投资更是频繁多元。早在今年2月，英伟达就宣布收购了人工智能初创公司OmniML，主要产品是Omnimizer，一个旨在快速、轻松地大规模进行AI优化的平台。通过OmniML所提供的技术与产品，机器学习模型能够小型化，且能够在边缘设备上运行，而不是依赖云计算。

在3月英伟达参与了专注人工智能模型开发领域的Adept公司3.5亿美元的B轮融资；随后在6月到7月先后投资了三家大语言模型开发企业Cohere、Inflection AI与来自德国的Aleph Alpha，分别参与了这三家公司2.7亿美元的投资，13亿美元的融资，以及1.12亿美元的融资。

除此之外，英伟达也参与了AI视频编辑器企业Runway1.41亿美元的融资，OpenAI的知名对手以色列人工智能初创公司AI21 labs在今年1.55亿美元的C轮融资，以及一家试图构建AI代理工具平台的公司Imbue2亿美元的投资。

近来英伟达的投资方向也越发多元，参与了AI芯片初创公司Enfabrica1.25亿美元的融资之外，还投资了一家医药公司Recursion与一家机器人公司Recursion。可见在英伟达在AI生态中的布局积极关注软件与应用方面的企业，但同时也将棋子下在了更广阔的AI合作应用领域。

在原有的AI基础上，英伟达进一步拓宽护城河。尤其是在云计算领域，英伟达也在通过自己的方式进入到云服务市场。今年英伟达提出了云服务的解决方案NVIDIA AI foundations，企业可以通过在 NVIDIA DGX Cloud 快速采用生成式AI。英伟达创始人黄仁勋表示要做“AI界的台积电”。台积电为芯片设计公司大大降低了生产门槛，英伟达也要做代工厂的角色，通过和大模型厂商、云厂商合作提供高性价比的云服务。

英伟达在8月份的季度报告中表示，向开发人工智能或虚拟现实应用程序的公司出售软件是一个潜在的3000亿美元的收入机会。公司首席财务官Colette Kress也在季度财报电话会议上指出，软件业务每年创造数亿美元的收入，与芯片业务相比只是九牛一毛，但仍有望增长。

面对软硬件同样强大的英伟达，不论半导体还是互联网巨头，想要在短期内超越英伟达并非易事。

以英伟达和AMD的竞争为例，拓墣产业研究的报告就指出，2022年第四季以前英伟达、AMD Data Center营收趋势相当一致，营收规模也基本保持同样差距，然2023年英伟达显著受惠AI热潮，2023年第一季、第二季Data Center营收分别年增14%、171%，与AMD大幅拉开差距。

AMD在2023年第二季陷入衰退(-11%)，主要原因为AMD Data Center营收主要来自于一般服务器(以CPU为主)，反而受到A1服务器的排挤效应影响，若2023年第四季MI300系列产品能如期量产的话将有望改善。而2022年英伟达营收来源即以Data Center（数据中心）为主，2023年比重更进一步攀升至76%，2023下半年在AI芯片出货量持续增加下比重将进一步上升。

一次又一次穿越历史周期的英伟达，正在AI高峰上加固，AMD等多个阵营正在发起新攻势，攀登中的挑战者门派还在增加，AI变局也将继续。