机械之心原创
作者:黄义勋
上周,字节跳动开端自研云端 AI 芯片和 Arm 办事器芯片的消息惹人存眷。新兴科技巨擘,是否已经到了周全自研芯片的时代?背后最重要的原因又是什么?
据外国媒体报道,互联网科技巨擘亚马逊正开端摸索 RISC-V,以推敲替代 Arm 处理器的筹划,因为后者正在被英伟达收购。
此前,亚马逊已经拥有了本身专属的 AWS 数据中间芯片、人工智能芯片以及各类移动智能设备上的 Arm 芯片。
像亚马逊一样,国表里很多此前只涉及软件和互联网的科技巨擘都拥有了自立研发的芯片,并且取得了经市场验证的优胜后果。
谷歌的 TPU 和自身的 TensorFlow、算力平台合营构成了全世界最好的人工智能技巧生态;亚马逊的 Inferentia 集群比英伟达 T4 降低了 25% 延迟和 30% 成本。
其他互联网巨擘也正在加快入场,微软客岁12月份表示正在研发Arm芯片;字节跳动近期也开端芯片人才的雇用,摸索Arm芯片。字节跳动的相干负责人回应媒体询问时证实,「是在组建相干团队,在AI芯片范畴做一些摸索。」
字节跳动官网上芯片工程师的雇用信息。
在外界看来,互联网巨擘自研芯片已经成为必定,这势必会对本来以芯片为主业的半导体巨擘和芯片创业公司产生较大年夜影响。
在这个过程中,须要搞明白一个最核心的问题??互联网巨擘为什么要本身造芯片,以及在何种情况下才会选择自研芯片。
营业界线的持续扩大,数据量的激增,人工智能技巧的成长,让互联网巨擘对芯片的需求持续增长。
同时,外部的芯片设计对象和 IP 办事也逐渐变强,芯片家当链的完美为巨擘自立做芯片供给了成熟的家当基本。博通每年都邑给客户供给大年夜量定制芯片;苹果惹人存眷的 M1 背后,其实也有很多其他公司的身影。这种家当链协同和合作赞助互联网巨擘降低了研发芯片的门槛。
对计算需求的增长和制造门槛的降低只是供给了一个须要背景,在应用层面上,同一个义务会有无数种硬件解决筹划,互联网巨擘们的工作就是选择哪种硬件筹划以及是否须要本身做,自研芯片只是浩瀚选择中的一项。他们真正关怀的是最具性价比的解决计算义务,而非必须要有本身的芯片。
而决定计划的独一根据就是不合筹划的成本与收益比较,也就是找到 ROI 最大年夜的筹划。
自立研发芯片有着异常高的整体研发成本,包含购买 IP、人员成本、实验和流片等。互联网巨擘们大年夜部分的成功经验都集中在软件和互联网范畴,他们进入芯片范畴也是从零开端,没有太多可以节俭的成本。
湾区一位芯片专家介绍说,谷歌开端做芯片时,从博通挖了很多 ASCI 营业的人,从上到下组建一个全新范畴的专业团队和运营体系,而这种体系与公司此前所善于的是完全不合的,这又带来在企业文化和治理上的额外成本和风险。
自立研发芯片的高投入决定了它只实用于可以带来更高收益的应用处景??芯片能和公司自身营业体系、收集构造和练习框架等慎密结合,实现计算成本的明显降低,产品机能和和用户体验的明显增长。
只有如许,自研芯片才能获得最高的 ROI,企业选择自研筹划才有意义。下面以 Arm 芯片、练习芯片、Codec 和 Smart NIC 等四种芯片为例。
众所周知,摩尔定律的速度已经开端变缓,数据中间同构体系下基于 x86 的硬件成本没办法持续降低。想要实现计算成本的降低,只能将负载拆分,然后用不合架构和处理器来分别处理,很多负载又是和企业自身收集构造强相干的,那企业就须要针对这些义务去定制芯片,在这种情况下,企业自立研发 Arm 芯片就是有助于节俭成本的。
除了与收集构造强相干,与练习框架强相干也会促使公司自立研发芯片。比如有 TensorFlow 的谷歌就必定要去做 TPU,因为谷歌是经由过程公有云为用户供给算力租赁和模型练习办事,而一个模型在其平台练习完成所须要的时光和费用是用户决定是否应用该平台的最重要身分。谷歌 TPU 与 TensorFlow、云计算的强协同,会带来远超通用练习对象的后果,以及更低的成本。
在客岁的 MLPerf 基准测试成果中,谷歌的 TPU 集群打破了 8 项测试记载中的 6 项。在 4096 块 TPU 的加持下,谷歌的超等计算机可以在 33 秒内练习 ResNet-50、BERT、Transformer、SSD 等模型。在应用 TensorFlow 框架时,BERT 的练习时光缩短到 23 秒。
在一个图像分类义务中,用 ImageNet 数据集练习 ResNet-50 v1.5 达到 75.90% 的精确率,256 个第四代 TPUs 可以在 1.82 分钟内完成,这几乎相当于 768 个英伟达 A100 显卡和 192 个 AMD Epyc 7742 CPU 内核(1.06 分钟)的速度。
单从芯片架构上来说,TPU 和 GPU 不会产生如斯大年夜差别。谷歌 TPU 集群比 A100 快这么多的原因是,用于练习的芯片与公司自身的收集构造和练习框架强相干,TPU 不仅支撑自身的收集构造,还向上支撑本身的练习框架,谷歌知道 TensorFlow 若何去做加快,所今后果肯定会优于通用的 GPU。那最后带来的成果就是,用户在谷歌的平台上获得了更高性价比的办事,谷歌更好的建立人工智能技巧生态。所以,谷歌自立研发 TPU 就是有意义的。
华为也是此类情况,他们拥有升腾 910、MindSpore 和云计算,是以,华为的人工智能技巧平台就拥有了竞争力。徐直军曾表示,?腾 910、MindSpore 的推出,标记住华为已完成全栈全场景AI解决筹划(Portfolio)的构建,也标记住华为 AI 计谋的履行进入了新的阶段。
对于其他类型的定制芯片也是如斯,比如 Facebook 做本身的 Codec,这是因为在 Facebook 自身的营业和软件体系下,上行下行的编解码处理异常重要。比起应用通用 CPU ,Facebook 选择本身开辟 Codec 就更划算。
还有智能网卡 Smart NIC,几乎所有的互联网巨擘都邑自立研发,尤其是供给公有云办事的企业。因为公有云涉及宏大年夜的收集构造,企业须要去匹配负载和网卡,所以每家企业对 Smart NIC 的需求都是个性化的,不具有通用性,须要定制化,这也是英伟达的 DPU 在市场中表示并不好的原因。
还有一个重要身分是互联网巨擘都具有范围效应,他们拥有最宏大年夜的机房,为数以切切计的用户供给办事,只要机能有渺小晋升,或者价格有渺小降低,就会为用户带来巨大年夜价值。
总结来说,对于互联网巨擘,假如芯片的应用处景和自身营业及软件强相干,自身对此有个性化需求,最终能经由过程范围效应最大年夜化收益,那他们就会选择自立研发。
在其他场景下,当巨擘的芯片需求不是个性化的,所需芯片和自身营业、收集拓扑构造和软件体系没有强相干性,或者说他们须要的是通用芯片时,那巨擘们就无法经由过程定制来降低成本,也就没有须要为了一个非定制需求去承担通用芯片的全部研发成本。
加倍合理的方法应当是向其他半导体公司购买,或者计谋投资芯片创业公司进行构造,以与其他客户或投资机构合营分摊研发成本。x86 CPU 和推理芯片就是属于这个范畴。
很多公司是没办法经由过程优化自身的拓扑构造和软件体系来实现 x86 CPU 性价比的大年夜幅晋升的,所以最佳选择就是直接向英特尔购买。
推理芯片也是如斯,它在人工智能范畴的通用性很强,须要根据算法来进行调剂和演进,须要较好的可编程性,那这类芯片就和巨擘自身的收集拓扑构造和练习框架并没有那么直接的关系,大年夜企业也就无法经由过程深度定制和自立研发大年夜幅降低成本或晋升机能,最好的选择也是购买及投资。
亚马逊在自立研发与营业相干芯片的同时,也投资了通用人工智能芯片始创公司 Syntiant。字节跳动一方面摸索自立研发 Arm 芯片,另一方面,他们投资的一家芯片公司的重要产品也是云端推理芯片。
Syntiant 的深度进修处理器
互联网巨擘不合的芯片策略和行动为他们实现了最大年夜化收益,同时也使得他们在半导体范畴的角色开端变得多样。
他们是最大年夜的芯片客户,有着最丰富的计算场景和异常宏大年夜的营业负载,每年为几家大年夜型半导体公司和新兴芯片创业公司带来海量订单;同时,他们已经开端定制芯片或自立研发芯片,在某种程度上成为这些半导体大年夜公司和创业公司的潜在竞争敌手,或者给他们带来产品替代风险;最后,他们照样本钱巨擘,可以借助本钱杠杆,经由过程投资和并购来完美本身的技巧生态。
这些让互联网巨擘、半导体巨擘和芯片创业公司之间的关系奥妙且复杂,从而也让市场格局和家当成长趋势也加倍不明白。
但假如我们对以上互联网巨擘已有策略、行动和成果进行分析,那就很轻易发明他们本身在市场中的定位,在必定程度上就可以避免和他们直接竞争,同时还可以环绕着他们的需求发明更多机会。
比如,根据谷歌的行动,我们就可以断定练习芯片可能就加倍合适已经有成熟练习框架和算力的巨擘去做,谷歌已经证清楚明了,经由过程芯片、练习框架和算力的强绑定可以获得比 GPU 更好的后果。
假如创业公司只做一个练习芯片,没有本身的练习框架,也无法与不合客户的收集拓扑构造和软件体系产生强耦合关系,那是很难与英伟达去竞争的,同时也面对谷歌的竞争。
而以推理芯片为代表的人工智能通用芯片就会存在更大年夜机会,它是自力的,推敲的是可编程性和灵活性,与客户的收集及软件没有强相干性。
互联网巨擘对此没有定制化开辟的需求,反而因为自身的需求及成本收益的推敲,会更偏向于计谋投资这个偏向的创业公司,或直接购买这类芯片。
同时,一个范畴专用的推理芯片也是可以在性价比方面跨越 GPU 的。GPU 的应用范畴较广,包含 Graph、人工智能和高机能计算等,人工智能又包含推理和练习。GPU 巨擘很难去选一个细分范畴,为一个小市场去从新设计一套架构,他们依然是以一个市场引导者的角色去存眷最通用、最广泛的市场。
而创业公司完全可以选择一个最细分的偏向,比如说云端推理芯片,然后专注于架构和机能晋升上,且花费更低的成本,从而在这个细分市场上取获成功。