众所周知,数字世界催生了一种趋势,规模越小越好。那么,为什么在地球上有些人想逆转航向,并使用大芯片呢?当然,我们没有特别充分的理由在一个iPad中用一个iPad大小的芯片,不过这样的大芯片可能被证明是具有更具体的用途,如人工智能和物理世界的模拟。
至少,这就是世界上最大的计算机芯片制造商Cerebras所希望的。
Cerebras晶圆级引擎无论以何种方式进行切割都非常庞大。该芯片的是8.5英寸,并装有1.2万亿个晶体管。而排名第二大的芯片是NVIDIA的GPUA100,只有一英寸,晶体管数量也只有540亿个。前者是新的芯片类型,基本上未经测试,到目前为止,他们推出的芯片也是唯一的一款。后者广受喜爱,已大量生产,并在过去十年中接管了AI和超级计算的世界。
新芯片会引领一个新时代吗?让我们来细看一下。
超越人工智能的大芯片
去年,当 Cerebras的芯片首次脱颖而出时 ,该公司表示其将大大加快深度学习模型的训练速度。
从那时起,WSE进入了少数超级计算实验室,该公司的客户正在不断努力。其中一个实验室,即国家能源技术实验室,正在寻找它在人工智能之外还能做什么。
因此,在最近的一项试验中,研究人员将芯片与流体动力学模拟中的超级计算机相提并论,该芯片位于一个称为CS-1的一体式系统中。模拟流体的运动是一种通用的超级计算机应用程序,可用于解决诸如天气预报和飞机机翼设计之类的复杂问题。
该试验由Cerebras的Michael James和NETL的Dirk Van Essendelft领导的团队进行,在他们撰写的预印本论文作了描述,并在本周的 SC20 超级计算会议上发表。研究小组说,CS-1完成了电厂的燃烧模拟,任务的速度比Joule 2.0超级计算机快200倍。
CS-1实际上比实时更快。正如 Cerebrus在博客文章中写道: “它可以告诉您未来将发生什么,而物理定律不会产生相同的结果。”
研究人员说,CS-1的性能是任何数量的CPU和GPU都无法比拟的。该公告首席执行官兼联合创始人 Andrew Feldman 告诉 VentureBeat ,“无论超级计算机有多大,该理论都是正确的”。在某种程度上,对像Joule这样的超级计算机进行扩展在这种问题上不再产生更好的结果。因此, Joule的仿真速度达到 了16,384个内核的 峰值 ,但这只是其全部86,400个内核的一小部分。
通过 对两台机器的比较,可以得出 结论。Jouel是世界上第 81快的超级计算机 ,占用数十个服务器机架,消耗高达450千瓦的功耗,并且需要数千万美元的建造费用。相比之下,CS-1安装在服务器机架的三分之一中,消耗20千瓦的功耗,售价仅为几百万美元。
尽管这项任务非常小巧(但很有用),而且问题非常适合CS-1,但它仍然是一个非常惊人的结果。那他们怎么做到的呢?这t全部都体现在设计中。
减少通信
计算机芯片的生命始于一个称为晶圆的大硅片上。将多个芯片蚀刻到同一晶圆上,然后将晶圆切割成单个芯片。当WSE也被蚀刻到硅晶圆上时,该晶圆将作为一个单独的操作单元完整保留。该晶圆级芯片包含近40万个处理核心。每个内核都连接到其自己的专用存储器及其四个相邻内核。
将这么多内核放在一个芯片上并为其提供自己的内存是WSE能做到这么大的原因。这也是为什么在这种情况下,芯片表现更好的原因。
大多数大型计算任务都依赖于大规模并行处理。研究人员在数百或数千个芯片中分配任务。这些芯片需要协同工作,因此它们之间保持着不断的通信,来回传递信息。当信息在进行计算的处理器内核和共享内存之间存储信息时,每个芯片内部都会发生类似的过程。
这是一个d带点儿怀饿旧公司,在纸上做它的所有业务。
该公司使用快递公司从镇上其他分支机构和档案中发送和收集文档。快递员知道穿过城市的最佳路线,但行程只需要最少的时间,具体取决于分支机构和档案馆之间的距离,快递员的最高速度以及路上有多少其他快递员。简而言之,距离和交通会减慢速度。
现在,想象一下公司正在建造一座崭新的闪亮摩天大楼。每个分支机构都搬进了新大楼,每个工人在办公室里都有一个小的文件柜来存储文件。现在,他们需要的任何文档都可以在跨办公室或穿过大厅到达邻居办公室所需的时间进行存储和检索。信息通信几乎消失了,因为一切都在同一个房子里。
Cerebras的巨型芯片有点像那座摩天大楼。与需要联网大量传统芯片的传统超级计算机相比,它传递信息的方式(通过其专门定制的编译软件进一步辅助)更加高效。
模拟世界的发展
值得注意的是,该芯片只能处理足够小的问题以适合晶圆。但是,由于机器能够实时进行高保真模拟,因此此类问题可能具有相当实际的应用。作者指出,该机器在理论上应该能够准确地模拟试图降落在驾驶舱上的直升机周围的气流,并使该过程半自动化-这是传统芯片无法做到的。
他们指出,另一个机会是使用模拟作为输入来训练也驻留在芯片上的神经网络。在一个引人入胜的相关示例中,最近 证明 ,加州理工学院的机器学习技术在求解相同种类的偏微分方程以模拟流体动力学时, 速度快 了 1000倍 。
他们还指出,芯片的改进(以及其他类似的产品,如果有的话)将可完成工作的极限继续往前推进。Cerebras已经抢先 发布了其下一代芯片 ,该 芯片 将具有2.6万亿个晶体管,850,00个内核以及两倍以上的内存。
当然, 晶圆级计算 是否 真正起飞 还有待观察。这个想法已经存在了几十年,但是Cerebras是第一个认真追求它的人。显然,他们相信他们已经以一种有用且经济的方式解决了这个问题。
其他新架构也正在实验室中进行研究。例如, 基于忆阻器的神经形态芯片 通过将处理和记忆放入单个类似晶体管的组件中来模仿大脑。当然,量子计算机位于单独的通道中,但是可以解决类似的问题。
可能其中一种技术最终兴起来统治所有这些技术。或者,这似乎很有可能,计算可能会分裂成一堆怪异的基本芯片,根据情况将它们全部封装在一起以充分利用每个芯片。