长沙分类信息网-长沙新闻网

安利一波:史上最大芯片

2024-2-29 9:02:29发布次查看发布人:

今天,一颗超大芯片引起了半导体界的轰动。据悉,美国ai芯片初创公司cerebras systems 推出了有史以来最大的芯片,这款名为“the
cerebras wafer scale engine”的芯片(下文称 wse)有1.2万亿个晶体管。
在芯片历史上,1971年,英特尔的第一个4004处理器只有2300个晶体管,而最近的一个高级微设备处理器也只有320亿个晶体管。三星也曾制造过一款拥有2万亿个晶体管的闪存芯片(eufs 芯片),但是不适用于ai计算。
如何制造
大多数芯片实际上是在12英寸硅晶元片上创建的芯片集合,每块硅晶圆片可以集成成百上千颗芯片。但cerebras systems芯片是在单个晶圆上互连的单芯片。这些互连设计使其全部保持高速运行,因此万亿个晶体管全部一起工作。
通过这种方式,cerebras wafer scale engine是有史以来最大的处理器,它专门设计用于处理人工智能应用。该公司本周正在加利福尼亚州帕洛阿尔托的斯坦福大学举行的hot chips会议上讨论这项设计。
三星实际上已经制造了一个闪存芯片,即eufs,拥有2万亿个晶体管。但cerebras芯片专为加工而设计,拥有400,000个核心,42,225平方毫米。它比最大的nvidia图形处理单元大 56.7倍,该单元的尺寸为815平方毫米和211亿个晶体管。
wse还包含3,000倍的高速片上存储器,并且具有10,000倍的存储器带宽。
创纪录的最大芯片:比tesla v100大56倍
数据显示,这个42,225平方毫米的芯片,有着400,000个核,这些核心通过一个细粒度、全硬件的片内网状连接的通信网络连接在一起,提供每秒100 pb的总带宽。更多的核心、更多的本地内存和低延迟的高带宽结构,创建了加速人工智能工作的最佳架构。wse比最大的gpu还要大56.7倍,拥有18gb的on-chip sram。
事实上,现在的大多数芯片是在12英寸硅片基础上制作的多芯片集成。但 cerebras systems 公司的这款芯片是晶体管在单晶硅圆片上制作互相连接的独立芯片。其互相连接的设计,可以让所有的晶体管都能如一个整体一般高速运转。
通俗地解释,这款产品完全就是计算机中的学霸,比计算能力和存储带宽,人家的级别还是新词汇—拍字节(petabytes,1pb=1024tb=10^6gb=2^50bit),速度大约是如今英伟达公司最大的图形处理器(gpu,浮点运算能力很强,常用于 ai 相关研究)的 3000 倍,存储带宽则是1000倍。
400000个ai优化的内核
wse包含40万个ai优化的计算内核。这种计算内核被称为稀疏线性代数核,具有灵活性、可编程性,并针对支持所有神经网络计算的稀疏线性代数进行了优化。slac的可编程性保证了内核能够在不断变化的机器学习领域运行所有的神经网络算法。
由于稀疏线性代数内核是为神经网络计算进行优化的,因此它们可实现业界最佳利用率——通常是gpu的3倍或4倍。此外,wse核心还包括cerebras发明的稀疏捕获技术,以加速在稀疏工作负载(包含0的工作负载)上的计算性能,比如深度学习。
零在深度学习计算中很普遍。通常,要相乘的向量和矩阵中的大多数元素都是0。然而,乘以0是浪费硅,功率和时间的行为,因为没有新的信息。
因为gpu和tpu是密集的执行引擎——引擎的设计永远不会遇到0——所以它们即使在0时也会乘以每一个元素。当50-98%的数据为零时,如深度学习中经常出现的情况一样,大多数乘法都被浪费了。由于cerebras的稀疏线性代数核心永远不会乘以零,所有的零数据都被过滤掉,可以在硬件中跳过,从而可以在其位置上完成有用的工作。
比gpu大3000倍的片上内存
内存是每一种计算机体系结构的关键组成部分。靠近计算的内存意味着更快的计算、更低的延迟和更好的数据移动效率。高性能的深度学习需要大量的计算和频繁的数据访问。这就要求计算核心和内存之间要非常接近,而在gpu中却不是这样,gpu中绝大多数内存都很慢,而且离计算核心很远。
cerebras wafer scale engine包含了比迄今为止任何芯片都要多的内核和本地内存,并且在一个时钟周期内拥有18 gb的片上内存。wse上的核心本地内存的集合提供了每秒9 pb的内存带宽——比最好的gpu大3000倍的片上内存和10000倍的内存带宽。

该用户其它信息

推荐信息

长沙分类信息网-长沙新闻网
关于本站