快捷搜索:  as  as and 1=1#  www.ymwears.cn  test

英伟达终于成为下一个百亿芯片市场掌舵者

作者:宇多田

出品:虎嗅科技组

封面来自谷歌

穿戴玄色羽绒马甲,顶着一头杂乱的白发。在今年英伟达最紧张的产品宣布会上,略显不修容貌的老黄,终于从烤箱里端出了一块让人等候太久,但却又让显卡迷们措手不及的GPU产品。

让人愉快的,是传闻已两年有余的新架构Ampere ,姗姗来迟的7nm制程,以及实现了大年夜飞跃的机能。对英伟达来说,A100,是一个有着跨期间意义的产品。

但它的目标用户,却并非是为英伟达供献了大年夜部分营收的游戏玩家。

此次,英伟达瞄准了一个更大年夜、更故意愿掏钱的企业级金主群体。

一统云办事巨子“后院”

此次的A100,是英伟达的企业级GPU产品 V100的继任者,专门为数据中间“玩家”而打造。

后者在2017年一经推出,就在两年内得到了伟大年夜成功,直接打入了包括亚马逊、微软、阿里以及腾讯等云办事巨子的数据中间核心地带,成为各家GPU谋略办事团队弗成缺少的芯片产品。

至于为何在这个市场一起通顺无阻。一方面,是GPU的并交运算布局对练习机械进修和深度进修模型有着天然上风。

云办事商早已集体默认,与人工智能相关的义务,从数据处置惩罚效率、功耗等多方面斟酌,应用GPU进行模型练习是最好的选择之一。

无论是阿里照样腾讯云,与GPU相关的产品页面,基础都涵盖了像英伟达V100与T4等热门型号的企业级GPU产品。

一位阿里工程师奉告虎嗅,今朝险些所有的感知类深度进修义务,都必要用到大年夜规模深度进修,必须基于多机多卡进行模型练习。

图片截自阿里云

而A100,据英伟达声称其在人工智能推理和练习方面比 V100要快近20倍。对此,自动驾驶公司文远之行技巧总监钟华给出了加倍细节化的解释。

实际上,人工智能开拓者最关心的主如果两个参数:

FP16(单精度浮点数)与int8(相称于一种AI数据类型,常用于推理模型)。“从两者的数据来看,其谋略力比拟V100前进了两倍不止。”

此外,在内存带宽这个指标上,A100比V100提升了40%以上。他觉得,这意味在高速模型的练习上面是异常有赞助的,分外是自动驾驶所必要的实时练习模型。

图片来自硬件评测媒体Tom’s hardware

而在许多GPU产品客户与喜欢者所关心的工艺制程方面,以前1年里黄仁勋在多个场合被诘责的“何时会缩短制程”这个问题,终于有了一个让人知足的谜底。

根据官方给出的这块A100尺寸,其相称于制造者在一块826平方毫米的模具上塞进了540亿个晶体管;而V100则是在一块大年夜约815平方毫米的模具上装有211亿个晶体管。

晶体管数量增长了2.5倍,但尺寸却仅大年夜了1.3%。这代表差不多的身段,却装了双倍能量。

没错,这恰是得益于芯片代工巨子台积电从12nm制程到7nm制程的技巧进级。

“这在很大年夜程度上让英伟达的显卡迷们松了一口气。终究两年前,英伟达在破费级市场的老对手AMD就推出了7nm GPU,而英伟达迟到了近2年。不过鉴于后者在2B商用领域的领先职位地方,这个光阴点并不算晚。”

一位芯片从业者觉得,英伟达近来预定台积电的5nm订单,也在必然程度上有了赶超对手制程的“朝上进步心”。

尺寸与制程,这尺寸切实着实大年夜,切实着实是迄今为止最大年夜的显卡

虽然外网芯片测评专家们对这块英伟达“新炸弹”机能做了详尽解析。但遗憾的是,或许是英伟达在游戏行业里拥有太大年夜的影响力,以至于没有太多人关注这块企业级芯片为云谋略技巧做了哪些奥妙的改善。

刚才我们提到,在数据中间的情况下,履行大年夜规模线上机械进修义务,必要多机多卡同时运行,拜见很多国内外大年夜学成立的超级谋略项目,以及各类电商与社交平台(淘宝、抖音等等)的个性化保举。

是以,若何有效分配这些“多机多卡”的算力,是云谋略工程师们特有的关注点:

“你会发明,A100新增了一个叫MIG的模式。这个功能容许在单块A100上做资本隔离,可以瓜分出7个自力GPU。”

正在研发基于异构谋略架构数据处置惩罚平台的开源技巧创业公司Zilliz合股人、高档架构师顾钧,首先留意到了这个面向云端利用的新功能。

“这可以看作是一种让更多人分享GPU能力的要领。换句话说,每小我分到的GPU资本都是相互隔离的。做义务时不会互关连扰,抢占算力,同时也能让GPU的使用率达到最大年夜化。我预计这也是为云端容器化供给便利。”

这里所说的云端容器化,是当前最为主流的云谋略技巧之一。

简单来说,这项技巧可以将每个可能会相互争抢算力资本的云端义务,隔离在一个个伶仃的“瓶子”里,做到互不打扰。

同时,又能根据义务的更迭,对其所必要的资本进行机动调整。

“举个例子,一块CPU假定有24个核(48线程),在容器化后,是可以把一个CPU的某个部分,譬如4个核8线程分配给一个容器。但之前GPU是没法子这么切分的。”顾钧解释。

是以,很多院校和企业此前大年夜多在使用英伟达供给的vGPU虚拟化技巧来“切分”GPU,分着给大年夜家用,主要目的就是为了前进应用效率,节约谋略资源。

譬如,VMware 中国研发先辈技巧中间的技巧总监张海宁曾给给一所大年夜学设计过vGPU切换规划:

日间门生做开拓演习的简单义务,就切成4块,让4小我一路应用GPU;到了晚上项目要做模型练习,算力需求加大年夜,就切换回1:1,确保100%算力。

当然,必要购买成千上万块企业级GPU的大年夜型云办事商,会加倍“吝啬”。用阿里工程师的一句玩笑话便是:“V100这么贵,当然要仔细琢磨怎么切得最划算,同时还能让使用率最大年夜化。”

不过也有人指出,这种GPU虚拟化技巧对机能有必然的损耗,同时也会让机械启动速率变慢。而容器技巧则会在必然程度上避免这些问题。

是以,让企业级GPU的设计对云端容器化加倍“友好”,或许是一种财产里乐见其成的趋势。

根据调研机构Grand View Research在2019年12月宣布的一份申报显示,到2025年,举世云端容器利用市场规模有望达到82亿美元,年增长率约为26.5% 。

而与此相呼应的一个论点,是硬件虚拟化(虚拟机)将会徐徐被容器技巧所取代。

如斯来看,英伟达切实其其实加大年夜对自己的新钱树子——企业级用户的“关切”。

不必非要英伟达?

实际上,早在A100正式宣布前,基础所有Top级云办事商都拿到了代价20万美元的新GPU系统(单个包孕8块A100)。

当然,即便拿的是折扣价,也有工程师也暗暗吐槽说,“真贵,V100就很贵了,A100就更别提了。”

拜见在外洋新闻社区Reddit上,曾有人晒出自己嵌着8块V100的基板,立马被网友群起而攻之,炮轰为“可耻晒富行径”的行业趣闻。我们就能够感想熏染到,云办事厂商为了大年夜规模深度进修练习而采购成千上万块企业级GPU的财务压力有多大年夜。

Reddit上有人用8块V100来“炫富”

昂贵,是所有英伟达客户可贵给出的统一不雅点。

有技巧专家向虎嗅指出,英伟达的企业级芯片,仍旧算是走“高端路线”的小众玩家。

譬如宣布的最高机能的芯片都是先“特供”给一些拥有大年夜规模人工智能练习项目的高校实验室,或者是做高档别自动驾驶的创业公司。单价高昂,但采购规模有限。

这又在必然程度上证实,谷歌、亚马逊、微软、阿里等云办事商自研云端AI练习或推理芯片是大年夜势所趋的;但今朝来看,自研产品发挥的感化照样有限的。

不过这至少意味着,只管英伟达职位地方牢固,但跌下神坛并非弗成想象。

“着实不仅仅是资源层面,跟着深度进修和音视频转码的场景越来越繁杂,纯真的GPU云办事器机型并不能满意所有需求。以是现在大年夜多云办事厂商都推出了基于FPGA、NPU等芯片的不合办事器机型。还有一些针对云游戏、推理等场景的轻量级vGPU。”

一位半导体行业人士觉得,跟着很多其他芯片巨子陆续推出不合的规划,英伟达并非是独一的选择。

此外,虽然理论上,GPU卡越多,整体算力越大年夜。然则跟着办事器数量的增添,不合机械的GPU之间共同难度也会越来越大年夜,单张GPU卡的使用率反而会下降。

“以是说,增添了几十倍的卡资源,但机能却很难随之线性增长。”

然而,英伟达的智慧之处,或许就在于“小”到在一块芯片上顺应主流技巧趋势,“大年夜”到也在试图让伶仃于不合办事器内的GPU卡之间有更多互动,发挥更好的集群效应。

没错,在历时1年击败英特尔、赛灵思等强大年夜竞争对手,终极完成对Mellanox的收购后,这家收集技巧隐形巨子正式成了英伟达在数据中间市场的第二条“护城河”。

犹如上面所说,处置惩罚海量数据和数据迁移所需的谋略能力必须异常强大年夜。而显而易见的问题是,这些数据平日存储在办事器无法急速造访的存储空间中。

假如收集不能有效使用这些数据,让数据之间孕育发生流动,那么天下上所有的谋略能力就不再紧张了。

是以,使用Mellanox最长于的通信技巧,理论上,便能够将数据中间数万个谋略节点上的GPU连接起来,汇聚成加倍宏大年夜的算力。

很显然,面对正在举世赓续扩建,数量正在急剧增长的数据中间,这无疑是英伟达一个异常紧张的竞争上风。

图片来自谷歌

腾讯云资本治理总监阮梦在前几天的一场小型数据中间交流会曾指出,从2019年数据中间扶植的走素来看,虽然比拟北美超大年夜型数据中间,我国在这个领域还有很多不够,但海内超大年夜型数据中间的扶植已悄然提速。

“跟着数据中间扶植速率加快,我们办事器量级会从100万台,往200万-400万这种级别去成长。

以是一方面办事器采购投入会持续加大年夜,另一方面,办事器之间异常必要好的收集质量和收集互联。”

需要的硬件与软件进级,当然就必要采纳更得当繁杂云上义务练习的企业级AI芯片,以及加倍机动和多样化的办事器布局。

“就今朝来看,在通用型办事器中,GPU的应用占比还异常小,相宜的义务还没有那么多。但GPU支配的增速是异常快的。”

不过腾讯云技巧中间资深技巧专家李典林也指出,对付数据中间扶植者来说,斟酌的毫不仅仅是办事器等硬件资源问题。

“譬如一线城市周边相宜的扶植地点就相对紧缺,但一些偏远地区的收集前提就没有那么好。

而且GPU模块的功耗比通俗办事器芯片要大年夜很多,以是要进行特殊的机房设计与收集设置,那电力方面是不是要争取更多的优惠……但从整体来看,这是一个弗成漠视的数据中间厘革趋势。”

而国家对新基建的推动浪潮,彷佛又在进一步催化这个趋势。

是以,不知跟着英伟达Ampere企业级GPU的宣布与量产,以及阿里等云谋略巨子们云端芯片在2020年商用速率的进一步加快,会不会给中国云谋略根基举措措施市场带来新一轮洗牌。

本钱市场的胜利者

由此来看,借着V100、T4等产品在数据中间打开的市场瘦语,英伟达推出这块被黄仁勋自嘲是“史上最大年夜显卡”的目的,便是自己在华尔街近1年来受到众星捧月般报酬的最大年夜来由:

新兴企业级市场——数据中间的伟大年夜商业前景,亟待英伟达的显卡来掘客。

是以,你暂时只会在微软、阿里、腾讯等云办事商的数据中间,或是有名高校的大年夜型实验室里,看到老黄端出来的那盘嵌着8块A100 GPU的DGX A100 办事器系统。

而单个系统价格,就高达20万美元。

这也可以解释,为何基于Ampere新架构的A100一宣布,大年夜部分破费级芯片评测网站的“神色”颇为繁杂:虽然A100很强大年夜,但跟我们似乎没什么关系。

然而,站在英伟达投资者与股价的角度来看,这个产品是一个让人异常知足的结果。

在2020年3月宣布的英伟达2020年Q1财报中,数据中间营业为公司整体收入供献了近1/3。

某种程度上,这是第一次用确实的财务数字,印证了企业级GPU产品在这个B端市场拥有伟大年夜的收益增长空间。

是以,“数据中间”也被越来越多的阐发师认定为下一个蕴藏着伟大年夜商业潜力的蓝海市场。

据市场调研机构marketsandmarkets在两年前宣布的一份《举世数据中间加速器市场申报》显示,2017年数据中间加速器市场代价大年夜约只有16亿美元,但他们估计到2023年,市场规模将达到211.9亿美元。

故意思的是,早在2个月前,一贯对芯片产品本身不会做过多评价的财经媒体彭博,在多少阐发师纷繁上调了对英伟达的股价目标后,主动向外界表达了自己对英伟达宣布新产品的等候:

“英伟达基于Ampere架构的新一代GPU,可能是其2016年以来最有出路的一款芯片。这款芯片或许会带来一系列令人惊喜的收益。”

此外,就在新产品宣布前一天,也便是5月13日,英伟达股价上涨2.6%。证券公司Wedbush 阐发师顺势调高股价目标,并颁发如下谈吐:

“数据中间市场走势如斯被外界看好,而在这一领域具备绝对职位地方的英伟达,可能在新品宣布后会迎来更大年夜的市值增长空间。”

我们曾经在《干掉落英伟达?》一文中,具体解答了为何数据中间会成为一个蕴含着伟大年夜商业代价的市场。

而诸如老对手英特尔与AMD、办事器厂商以及各大年夜云办事巨子,都在数据中间里嗅到了技巧厘革的味道,猖狂探求新的商业时机。

英伟达,无疑是此中弗成漠视的新技巧掌舵者之一。

到这里,你应该能清楚,为何英伟达会把一个最新的架构,首先用在了一块企业级芯片里。

我是虎嗅科技组组长的傅博,关注自动驾驶、AI芯片以及工业互联网,迎接行业人士加微信探究相关技巧趋势与行业趋势。

您可能还会对下面的文章感兴趣: