NVIDIA
AI芯片变局:各大门派 “围攻”英伟达
2023-10-14 18:12

记者倪雨晴、实习生朱梓烨 深圳报道

当ChatGPT在彼岸快速进化的同时,国内的大模型应用也如火如荼。

“我们最近刚购买了百度文心一言的标准通用接口服务,业内采购需求非常旺盛。”一家传统企业的数字化负责人告诉记者。

他介绍道:“标准接口之外,他们还提供云端部署(公有云)和本地化部署(私有云)两种服务。其中,云端部署的基本费用是一年一个并发20万,有需求的公司一年普遍会有10到20个并发,费用都是在百万级别,本地化的私有云部署则需要1000万部署费用。”

可见,大规模地使用生成式AI依然成本高昂。背后的两个事实是,AI订单持续增加、核心的硬件成本GPU水涨船高。

一位AI领域资深从业者甚至向记者直言:“你在为你没有见过的显卡付费。现在消费者使用的几乎所有AI类服务,全部都是由算法提供的,比如短视频的视频编辑系统、推荐系统都是由算法进行驱动,这些算法的底层全部都需要调用GPU。这就意味着,只要你刷抖音,你就在直接或间接地使用GPU。”

借着新东风,GPU代表者英伟达一举站上AI的“光明顶”。而AI江湖中的门派也在疯狂迭代,“围攻”光明顶。芯片巨头们蓄势待发,英特尔已经发布了Gaudi 2、即将推出Gaudi 3、正在研发Falcon Shores;AMD发布了MI300系列,MI400正在路上;国内的华为昇腾、以及AI芯片企业们也在提供算力新选择。

互联网大厂们也在加快自研步伐,亚马逊有机器学习训练芯片Trainium和推理芯片Inferentia;谷歌研发已久,今年发布了第五代定制张量处理器(TPU)芯片TPUv5e,用于大模型训练和推理;近日传微软将在下月发布AI芯片,代号“Athena”;甚至有消息称OpenAI也正在探索AI芯片的自研。

AI芯片的战场上,继续硝烟四起。

英特尔和AMD的猛攻

今年以来,英特尔和AMD带头“主攻”,在他们的年度大会,AI是绝对的主题词。从各自布局来看,其实两家都已有丰富的产品矩阵,AI芯片主要分为GPU、FPGA以及ASIC,英特尔和AMD通过收购和研发都覆盖了三种类型的芯片,但是两者侧重点有所不同。

从英特尔的动作看,今年最受关注的莫过于Gaudi系列,Gaudi属于ASIC类别。已经发布的Gaudi 2芯片是专为训练大语言模型而构建,采用7纳米制程,有24个张量处理器核心,并且英特尔还针对中国市场推出定制版的Gaudi 2,争夺市场的野心可见一斑。

值得注意的是,Gaudi系列芯片是基于英特尔之前收购的AI公司Habana,而规划中的AI新品Falcon Shores将在Habana的架构基础上,和英特尔原有的GPU等技术进行融合,因此Falcon Shores也备受业内关注。

对于FPGA业务,英特尔则在10月初宣布将其拆分,此前英特尔斥巨资收购了FPGA龙头Altera,数据中心一直是FPGA的重要发展市场,如今该业务即将“独立”并IPO。而负责英特尔FPGA的部门就是PSG(可编程解决方案事业部),英特尔表示,PSG预计将于2024年1月1日开始独立运营。

英特尔还预计,将在2024年第一季度财报中,将PSG作为一个独立的业务部门进行报告。在未来两到三年内,英特尔将保留多数股权,同时计划对PSG进行首次公开募股,并可能与私人投资者探讨加速业务增长的机会。

事实上,PSG的业绩颇为稳定,PSG团队预计在2023年推出15款新产品,目前已推出11款。FPGA产业也处于增长中,据第三方估计,FPGA市场将以复合年增长率(CAGR)超过9%的速度增长,从2023年的80亿美元收入增至2027年的115亿美元。剥离更多是因为英特尔在进行整体业务架构重组,欲通过此举让PSG更独立灵活地运作,获取更大的成长空间。

对于英特尔而言,其正在聚焦IDM新规划,重新回到制程节奏中,并在AI新空间上精进。在今年的on技术创新大会上,英特尔公司高级副总裁、英特尔中国区董事长王锐在接受记者等采访时谈道:“经常有人问我,谁是英特尔的竞争者?我一直说,英特尔的竞争对手是自己。任何一家大公司也都一样,当你不断前行的时候,经常就会自己把自己绊住。认识到问题后,然后找到一个策略去改变,到开始真正把这个引擎重新转起来,这是一个艰难的历程。”

她进一步表示:“Pat(英特尔CEO帕特·基辛格)回来之后,可以看到我们的里程碑说到做到,英特尔把自己的进度重新抓回了自己手中。外部的环境千变万化,我们有这么多的长处,只要把自己的执行力落实了,一定有机会。比如AI,我们希望跟自己的客户和生态系统一起去优化。”

在王锐看来,从Gaudi2、Gaudi3到Falcon Shores,再加上至强的AI应用,是英特尔未来加速器与AI计算发展的路线图,英特尔强调AI无所不在,就是在客户端、边缘端和云端也有AI。“几十年间大家都在推动AI发展,现在已经有很多到了梦已成真的时候。对于ChatGPT的热潮,我认为其实ChatGPT目前的这些应用只是一个非常短暂的中间步骤,以后会看到越来越多的应用。”王锐告诉记者。

再看AMD,今年6月,AMD发布用于训练大模型的GPU Instinct MI300系列,主要包括MI300A、MI300X两个版本。AMD CEO苏姿丰称,这是全球首款针对AI和高性能计算(HPC)的加速处理器(APU)加速器。同时,AMD正积极研发更为先进的MI400系列加速器。此外,在FPGA方面,AMD已经收购了赛灵思进行整合,来拓展数据中心市场。

日前,天风国际分析师郭明錤在社交平台上表示,AMD的AI芯片出货量预计在2024年、2025年快速增长。到2024年,AMD的AI芯片出货量(主要是MI300A)预计将达到英伟达出货量的约10%,微软有望成为 AMD AI 芯片的最大客户,紧随其后的是亚马逊。如果微软与AMD的合作进展顺利,AMD获得meta和谷歌的订单,预计2025年AMD的AI芯片出货量将达到英伟达(基于CoWoS封装技术)的30%或更多。

同时,AMD也在积极布局AI领域,今年8月连续收购了两家AI企业,分别是AI软件公司Nod.ai与来自法国的AI初创公司Mipsology,以增强其人工智能软件的开发能力。根据公开信息,Nod.ai主要为大型数据中心运营商和其他客户提供优化的AI解决方案,已经开发了一个由开发者工具、库和模型组成的软件生态系统。而Mipsology是AMD的长期合作伙伴,此前一直为AMD开发AI推理与优化解决方案和工具,其旗舰产品为Zebra AI软件。

AMD总裁Victor Peng在接受媒体采访时表示,最新的收购是为了执行AMD“建立用AMD芯片开发的AI软件集合”的战略。在AMD计划大力投资于将使用其人工智能芯片所需的关键软件,这也被业内视为AMD追赶英伟达的策略之一。

互联网自研芯片大军

互联网企业是GPU的核心用户,但与此同时,巨头们早已开启自研AI芯片的道路。一方面是出于成本和多渠道供应的考量,另一方面也是针对自身业务需求定制从而强化竞争力,其AI芯片也基本用于公司业务,并不在公开市场销售。

近期的热点莫过于微软和OpenAI。据媒体报道,微软正在开发自己的AI芯片,该芯片最早将于下个月推出,芯片代号为“雅典娜(Athena)”,类似于英伟达的图形处理器,旨在训练和运行大型语言模型的数据中心服务器。若该芯片顺利推出,将减少微软对英伟达芯片的依赖并降低成本,据悉“Athena”的竞争目标剑指英伟达的H100 GPU。

早在今年5月,就已经有消息传出微软正在提供财务支持,以加强AMD研发AI芯片,并与之合作开发代号为“Athena”的自研AI芯片。报道还称相关计划从2019年已经开始进行,目前微软内部至少有 300名员工在从事代号为“Athena”的芯片研究计划。也可以看到,芯片厂商和互联网厂商的合作模式更深入、也更多元化。

在英伟达一卡难求、一卡千金的情况下,特斯拉创始人马斯克在财报会上直言,投资超过10亿美元用于D1芯片的研发,是因为特斯拉无法得到足够的英伟达GPU。如今,OpenAI都可能成为AI自研芯片的新晋者。

据媒体报道,OpenAI至少从去年开始讨论各种解决方案,以解决AI芯片成本高昂、短缺等问题。包括自行研发AI芯片、与英伟达在内的芯片商更密切合作、也包括评估潜在收购目标来加速开发,从而使AI芯片供应来源更多元化,而不受限于英伟达。

从一组数据就能看出训练大模型的GPU需求量之大。TrendForce集邦咨询向记者提供的数据显示,由于生成式AI必须投入巨量数据进行训练,为缩短训练就得采用大量高效能GPU。以ChatGPT背后的GPT模型为例,其训练参数从2018年约1.2亿个到2020年已暴增至近1800亿个,预估GPU需求量约2万颗,未来迈向商用预计可达3万颗(以英伟达A100为主)。

事实上,以亚马逊和谷歌为代表的互联网巨头早已躬身入局。以谷歌为例,TPU的研发已久,最新推出的第五代芯片TPUv5e,用于大模型训练和推理,与上一代芯片相比,TPUv5e每一美元的训练性能提高2倍,每一美元的推理性能提高2.5倍。这一新品也被谷歌云形容为“超级计算机”,强调将性能与成本降低相结合,使更多的组织能够训练和部署更大更复杂的AI模型。

而TPU也和谷歌的云服务紧密结合,同时谷歌云还将推出由英伟达 H100 GPU提供动力的A3 VM,能够在前一代A2 上提供三倍的训练性能。作为AI老将,谷歌从云端、终端、芯片、大模型、平台工具等等,进行了全覆盖。它和微软一样,既是云计算的重要参与方,也是应用集大成者,在生成式AI的普及趋势下,先行者谷歌还将如何落地AI也是关注焦点。

再看亚马逊,作为全球的云计算王者,其也在持续迭代自研芯片。此前,亚马逊发布了基于自研的AI训练芯片Trainium和推理芯片Inferentia。亚马逊表示,采用了Trainium的云服务器将大模型训练成本降低了50%,最多可以将30000个Trainium芯片连接起来提供超过6 exaflops的算力集群,连接带宽可高达1600Gbps,与之相较目前AI服务器之间连接带宽最高水平约为3200Gbps,Inferentia2则针对大模型推理进行优化,将推理的性价比提高了40%。

亚马逊云科技全球产品副总裁Matt Wood在今年接受媒体采访时曾谈道,芯片仅是整个AI图景的一部分,一方面,客户可以在亚马逊云科技的云上使用英伟达等公司的芯片;另一方面,自研AI训练芯片Trainium在网络互联等领域仍有显著优势,并降低了成本。

再看国内,BAT等巨头均已入场,比如百度旗下的昆仑芯片,瞄准的是云端AI通用芯片;阿里已经推出高性能推理AI芯片含光系列;腾讯自研的AI推理芯片紫霄,已经量产并在多个头部业务落地,目前在腾讯会议实时字幕上已实现全量上线;字节跳动此前也表示在组建相关团队,在AI芯片领域做一些探索。

IDC亚太区研究总监郭俊丽向记者表示,近日互联网巨头通过自研AI芯片,与包括英伟达在内的其他芯片制造商更密切地合作,想要在英伟达之外实现供应商多元化,同时获得更好的控制权,提升产品适配性,更好匹配产品开发节奏。

她进一步分析道:“长期来看,这一趋势对英伟达的业务会造成影响,但不会太大。因为对于互联网企业来说,芯片设计生产将面临一些挑战。”

其一是芯片设计技术复杂,高算力芯片的结构非常复杂,计算单元、存储访问以及芯片互联都需要丰富的经验和慎重的考量;其二是软件生态非常关键,英伟达长时间建设的CUDA生态,是迄今为止最发达、最广泛的生态系统,也是深度学习库最有力的支持。要想撼动其地位,具有一定难度;其三是芯片生产具有挑战,获得产能、保持良率、先进封装技术等环节也是各大技术巨头要解决的问题。

“总体而言,想要撼动英伟达的垄断地位,并不是一朝一夕的事。各大科技巨头要想在AI算力芯片上突围,就必须在专利、核心技术、人才建设、生态建设等方面不断积累,并获得突破。采用自研+采购可能是一个更加合适的策略。”郭俊丽总结道。

英伟达的AI版图

当前,英伟达仍稳坐GPU王座。近日英伟达的最新路线图被曝光,Arm和x86架构的芯片都会更新。多位业内人士向记者表示,产品更加强大,代际的差距进一步拉大。

一方面,GPU的需求还在增加。集邦咨询预估到2025年,全球若以等同ChatGPT的超大型AIGC产品5款、Midjourney的中型AIGC产品有25款,以及 80款小型AIGC产品估算,上述所需的运算资源至少为145600~233700颗英伟达的A100 GPU。

目前主要由搭载NVIDIA A100、H100、AMD MI300,以及大型CSP业者如Google、AWS等自主研发ASIC的AI服务器成长需求较为强劲,2023年AI服务器出货量(包含搭载GPU、FPGA、ASIC等)出货量预估近120万台,年增率近38%,AI芯片出货量同步看涨,可望成长突破五成。

另据研究机构Omdia透露,英伟达在2023年第二季度出货了900吨 H100显卡,据估算一块 H100 显卡的重量大约是3公斤。因此,可以推算出英伟达在第二季度卖出了大约30万块H100显卡,这是一个巨大的数字。Omdia表示,预计英伟达在未来几个季度将销售大致相同数量的GPU,因此该公司预计今年将销售约3600吨的H100 GPU,也就是每年大约有120万个H100 GPU。

另一方面,除了硬件的供不应求,今年英伟达在AI领域的投资和云计算方面的布局同样瞩目。

英伟达为了保证自身在AI领域内持续领先,除了要在技术方面更新算力更强的芯片外,也在参与人工智能生态领域的其他环节。今年英伟达强化了收购投资之路,据记者不完全统计,今年以来英伟达已投资收购了十余家人工智能方面的初创企业,试图完善在AI领域产业链多个环节的布局。

随后英伟达又展开了多项投资,整体来看,英伟达的投资主要分为四个类别,一是云服务提供商,二是AI软件与应用企业,三是AI芯片公司,四是与“AI+”合作的其他领域企业。

在云服务商方面,英伟达在4月参与了CoreWeave公司2.21亿美元的B轮融资,同时又在7月被媒体报道将以3亿美元入股云提供商Lambda Labs,此项交易接近达成。

而在AI软件企业方面,英伟达的投资更是频繁多元。早在今年2月,英伟达就宣布收购了人工智能初创公司OmniML,主要产品是Omnimizer,一个旨在快速、轻松地大规模进行AI优化的平台。通过OmniML所提供的技术与产品,机器学习模型能够小型化,且能够在边缘设备上运行,而不是依赖云计算。

在3月英伟达参与了专注人工智能模型开发领域的Adept公司3.5亿美元的B轮融资;随后在6月到7月先后投资了三家大语言模型开发企业Cohere、Inflection AI与来自德国的Aleph Alpha,分别参与了这三家公司2.7亿美元的投资,13亿美元的融资,以及1.12亿美元的融资。

除此之外,英伟达也参与了AI视频编辑器企业Runway1.41亿美元的融资,OpenAI的知名对手以色列人工智能初创公司AI21 labs在今年1.55亿美元的C轮融资,以及一家试图构建AI代理工具平台的公司Imbue2亿美元的投资。

近来英伟达的投资方向也越发多元,参与了AI芯片初创公司Enfabrica1.25亿美元的融资之外,还投资了一家医药公司Recursion与一家机器人公司Recursion。可见在英伟达在AI生态中的布局积极关注软件与应用方面的企业,但同时也将棋子下在了更广阔的AI合作应用领域。

在原有的AI基础上,英伟达进一步拓宽护城河。尤其是在云计算领域,英伟达也在通过自己的方式进入到云服务市场。今年英伟达提出了云服务的解决方案NVIDIA AI foundations,企业可以通过在 NVIDIA DGX Cloud 快速采用生成式AI。英伟达创始人黄仁勋表示要做“AI界的台积电”。台积电为芯片设计公司大大降低了生产门槛,英伟达也要做代工厂的角色,通过和大模型厂商、云厂商合作提供高性价比的云服务。

英伟达在8月份的季度报告中表示,向开发人工智能或虚拟现实应用程序的公司出售软件是一个潜在的3000亿美元的收入机会。公司首席财务官Colette Kress也在季度财报电话会议上指出,软件业务每年创造数亿美元的收入,与芯片业务相比只是九牛一毛,但仍有望增长。

面对软硬件同样强大的英伟达,不论半导体还是互联网巨头,想要在短期内超越英伟达并非易事。

以英伟达和AMD的竞争为例,拓墣产业研究的报告就指出,2022年第四季以前英伟达、AMD Data Center营收趋势相当一致,营收规模也基本保持同样差距,然2023年英伟达显著受惠AI热潮,2023年第一季、第二季Data Center营收分别年增14%、171%,与AMD大幅拉开差距。

AMD在2023年第二季陷入衰退(-11%),主要原因为AMD Data Center营收主要来自于一般服务器(以CPU为主),反而受到A1服务器的排挤效应影响,若2023年第四季MI300系列产品能如期量产的话将有望改善。而2022年英伟达营收来源即以Data Center(数据中心)为主,2023年比重更进一步攀升至76%,2023下半年在AI芯片出货量持续增加下比重将进一步上升。

一次又一次穿越历史周期的英伟达,正在AI高峰上加固,AMD等多个阵营正在发起新攻势,攀登中的挑战者门派还在增加,AI变局也将继续。

发表评论
0评