苹芯科技杨越:拆解存算一体技术进阶,解读大模型芯片的优化方向
杨越认为,存算一体技术在大模型时代的新风口。
2024全球AI芯片峰会(GACS 2024)于9月6日~7日在北京举行,大会由智一科技旗下芯片行业媒体芯东西和硬科技知识分享社区智猩猩发起举办,在主会场开幕式上,苹芯科技联合创始人兼CEO杨越以《存算的进阶——从神经网络到大模型》为题发表了演讲。
苹芯科技联合创始人兼CEO杨越拆解了存算一体技术的进阶过程。产业界主流芯片的出现和成长与当下计算需求的特点紧密相关,2015年前后,计算体系结构中的计算瓶颈从处理器端向存储端迁移,尤其是神经网络的出现,加快了人工智能(AI)芯片计算效率的提升节奏,存算技术因此受到关注。
杨越认为,存算一体技术在大模型时代的新风口,是尽量在有数据存储的地方,都加入计算。随着软件不断发展,基于存算的端侧芯片今年已经逐步成熟。未来,在云端解决数据带宽瓶颈,或将成为存算芯片下一个杀手级应用。
▲苹芯科技联合创始人兼CEO杨越
以下为杨越演讲内容的完整整理:
存算一体技术是解决当下算力焦虑和效率焦虑的有效途径之一。 苹芯科技是以存算一体技术为抓手的一家芯片设计初创公司。今天,我们的话题围绕着AI芯片展开,演讲的主题是从AI 1.0时代的神经网络,走向AI 2.0时代的大模型,存算一体技术如何持续赋能。
01.
存算一体的诞生:
数据处理瓶颈从计算端,转移到存储端
我们不难发现,产业界所有主流芯片的出现与成长,都与当下计算需求的特点紧密相关。
最初,斯坦福实验室于1969年首先提出了存算技术这个概念。 后来,1992年在多伦多大学,1997年在伯克利实验室,相继尝试以逻辑电路的形式拉近存储与计算的距离。
但在上个世纪的计算机体系的整个架构中,计算的瓶颈位于处理器端,因此大家主要提高了CPU的效率。 同时,外加摩尔定律当时仍然有效,从存算的角度来说它的杀手级应用还没有出现。
2000年前后,大数据对于并行计算的需求逐步加大,以英伟达为代表的GPU芯片逐渐成为主流。 英伟达的市值现在已接近3万亿美元了。GPU这种架构对于高级制程升级,以及对于通用性计算支持都是非常好的。
大概到了2015年,随着神经网络架构的出现,存算技术受到更多关注。 背后的原因主要有两方面。
一方面,计算体系结构的计算瓶颈开始向存储端迁移,存储墙、能效墙的问题逐步浮现。
另一方面,AI本地化要求芯片具有更高的计算效率要求。 过往冯·诺伊曼架构的数据搬运模式并不能满足AI芯片的计算效率,但神经网络架构突破了这一点,并且用存算技术可以有效支撑AI推理中大部分的阵列式运算,这也给存算技术带来了宽广的商业化空间。
我们可以了解下冯·诺伊曼架构与存算一体架构间的区别。将一个计算结构分为计算单元和存储单元两部分。绝大多数芯片能耗都浪费在数据搬运上,占比超85%。 如果我们把这部分节省掉,一定程度上,计算效率能大幅提升。
在冯·诺伊曼架构中,需要计算时,数据先从存储单元里面读取出来,通过数据种线传到计算单元,运算完成后,结果会返回到存储单元。我们发现,计算总线上数据搬运得非常频繁。
相比于冯·诺伊曼架构,计算体系内还有存内计算架构、近存计算架构等。近存计算的方式是不断缩短存储和计算单元间的距离,而存内计算就是把这个距离缩短到极致。
在存算技术架构中,计算单元和存储单元放在了一起,计算总线上数据搬运频次降低了,总量也减少了。
不过,当计算单元所需要做的事情,简化为只是给存储单元发出开始计算的指令,这个架构也相应会有一些劣势。原因是并非所有的计算种类都依靠一些简单的指令,便能够在存储单元中完成。这种架构需要牺牲一部分通用性。
我们评价一个架构的时候,主要考虑其通用性、专用性、成本 这3个指标。相比冯·诺伊曼架构来说,近存和存内计算架构不仅专用性更强,而且成本更低。
02.
存算一体的意义:动用更少的资源,
来高效解决更多的计算任务
大多数情况下,不同的存算技术路线指向的是底层对于不同存储器件的使用,比如说有静态SRAM,也有ReRAM。每一种存储器都有其工艺特点,甚至还有上层成本特点、性能特点等等。
例如,SRAM耐久性比较好,读写速度比较快;ReRAM存储密度高,可以支撑大量模型存储。然而,从整个计算系统结构来看,很难说有一种RAM通吃市场,历史上这种事情也从来没有发生过。
我们对比了几个主流的、基于CMOS结构的存储器,比较的项目主要是读写时延、数据稳定性、功耗等几个方面。
做推理运算的时候,无论是算法工程师,还是芯片工程师,可能更关注存储器的稳定性,以及读写的速度。
而在训练场景中,大家可能更关注存储器的耐久性,以及读和写的对称性。因此,不同的应用场景对于底层存储器的需求和选择也会有所差别。
与现有的存储器相比,SRAM产业化基础、产品化基础比较好。过去几十年,SRAM和DRAM在计算体系结构中从未缺席。
硬件各有所长,市场各取所需,那么存算技术的意义是什么?
存算技术突破了冯·诺伊曼架构处理器的计算效率天花板,而选择存算架构的处理器能用更小的能耗完成更大的计算任务。
我们最终交付给客户的芯片,通常有多种形态。NPU主要可以提升神经网络的效率,可能涵盖矩阵加速、非线性加速等。基于NPU还可以打造端侧SoC,比如MCU+AI、车载SoC等。云端也相继出现服务器板卡、加速版卡等。
一般来说,对精度要求比较低的随机运算,对精度要求比较高的科学运算,精度要求介于两者之间的信号处理、深度学习加速等,都可以借助存算技术为其赋能。
随着模型规模不断突破上限,无论是神经网络模型、Transformer大模型,还是大家最关心的生成式模型,其存储要求越来越高,带宽越来越大。其中,生成式模型已经出现几百亿,甚至更大的参数量需求。
AIoT领域十分看重智能化升级和功耗能耗,存算技术的高能效比可以发挥出较大优势。因此,存算技术可以为大模型、AI芯片赋能,其落地场景也大多集中在AIoT领域。这也给存算技术创造了一个进军AI生态的切入口。
03.
苹芯科技部署SRAM存算一体端侧模型
我们回顾一下产业界近期的动态。今年,存算技术的应用,首先实现端侧的产业化落地。
苹芯科技正在推进SRAM存算一体端侧模型部署。
首先向大家介绍苹芯科技的一款NPU,它是一个集成在SoC芯片里面的IP,用于执行神经网络的加速任务。
如果您的产品里面有简单的语言控制类、图像识别类的任务,这款NPU能帮你大幅节省整个芯片集成的时间,从而让你的产品可以比竞争对手更早推出市场。
性能上,我们现在可以交付28nm和22nm的NPU,整个静态功耗可以做到1mw以内,工作功耗可以做到几毫瓦以内,并且它的面积仅有几个平方毫米。它可以满足端侧小型化、智能化设备开发商对一款NPU芯片的所有想象。
功能上,这款NPU可以支持目前市面上所有经典神经网络的加速,比如图像识别、物体监控、智能超市、运动分析、健康数据分析、图像分割等。
我们还可以允许用户对这款NPU二次开发。我们所有的编程接口都是以算子为节点,现阶段支持12大类、超过100种的基础神经网络算子结构,极大丰富了用户二次开发的工具箱。这些算法结构里,不仅有存算技术擅长的线性运算,还覆盖了非线性运算。
其次,基于这款自研的N300,苹芯科技推出了SoC芯片,名为“S300”,主打多模态和环境感知的功能。
S300内的神经网络加速部分采用了28nm的N300。这款芯片可以对接摄像头、麦克风、陀螺仪,从而实现用一款芯片覆盖更宽泛的应用领域。
S300的核心能效比超过20TOPS/W,可以实现离线交互,不依赖于wifi、5G,也能语音识别、图像识别等。像无人机、智能家居、智能玩具、智能座舱,都将是这款芯片的应用场景。
最后,我们的目标市场比较清晰,主要是可穿戴市场和AIoT市场。
我们发现,目标市场未来的产品有一些共性。一方面是轻量化、便携化 的趋势,要考虑到无法插电源工作的情况。另一方面,都有从非AI类转向AI类 的产品升级需求。其中,技术层面会存在矛盾,即系统内部算力不断上升,但供电量不断下降,这亟需高能效比的技术来支撑AI类产品。
基于对市场体量的预测,到2025年,可穿戴类产品已经有超1000亿元的市场规模。这类产品将趋于小型化、轻量化、便携化,因此内置的芯片会特别小,一般在10平方毫米左右。 除此之外,端侧的本地算法会不断升级,本地电池也会不断变小。
面向AIoT行业,我们看到全球到2030年有超过10万亿级别的需求。目前,AIoT场景内的产品,特点是碎片化,这需要较强的软件层面来支持其泛化能力。
04.
大模型时代要升级用户体验,
存算技术才是核心驱动力
回到今天的主题,存算技术已经在神经网络里实现较为理想的应用落地了,那么在接下来的大模型时代里,存算技术又可以做什么?
我们要去理解大模型行业正在发生着什么。由于大模型的出现,AI的泛化能力逐步增强,大模型的生态格局也被重新塑造。但是不管最后怎么样变化,大模型行业核心的驱动力,都来源于用户体验的提升。
举个例子,过去大家获取、检索信息以搜索引擎为主,现在方式更加灵活、更加实时,还能通过对话的形式获取信息,甚至更加智能化、多模态化,这也催生了不同的应用形态。
此外,从智能决策、个性化、交互、集成调度、执行准确这5个方面,用户都对新的交互方式提出了不同的要求。
同时,用户有多大的付费意愿、想支付多少费用,来换取基于大模型的用户体验。这给底层AI芯片到产品的构建,都提出了不同的要求。
分析上述各类需求后,我们发现大模型行业里所有公司,都在试图切入这个生态。我们经常在行业里面听到一句话,“AI可以把现在所有的软件都重写一遍,也把所有的硬件都重新设计一遍”。
这句话可能每个人理解得不一样,但大方面确实如此。无论是科技大厂,还是创企,都在用颠覆式的创新适应大模型行业。
科技大厂通过AI聊天机器人 来完成AI升级。
一些公司则更关注生产力场景 ,用AI创作内容、提升工作效率。而像一些垂类场景 ,部分公司选择通过AI+解决方案的方式,切入中间模型层。
大模型公司会提供更好的模型使用工具,优化开发者生态,来构建底层MaaS 这样一个云端的 应用新业态。
专注于端侧的公司也在不断切入端侧的应用 。苹芯科技也是其中一家。我们把模型不断做小,参数量从700亿到70亿,甚至到10亿,最终把模型嵌入到家居类、机器人类、智能对话类的应用中。
苹芯科技对于自己的定位也非常清晰,我们只把自己看作是一个算力基础设施的提供者。我们关注云侧和端侧的算力构建,同时也关注AI推理类的芯片。背后的主要原因是,推理类运算更加符合存算一体技术的性能特点。
我们的客户价值主张就是低成本,而低成本有两条路径,一个是降低芯片的制造成本,另一个是降低芯片的使用成本。
制造成本方面,我们不依赖7nm、4nm等高级制程,但仍然可以实现高能效比,这是解决当前算力焦虑和能效焦虑行之有效的路径。
使用成本方面,客户愿意支付多大成本,去为电量付费,去用延长AI硬件待机时长,这都是我们需要关注的内容。
基于大模型能力,我们当前有两个拓展方向。
第一个方向,我们仍然相信Scaling Law,模型越大,能力越强。 这个宗旨的追随者主要开发云端产品,包括训练和推理,这也是目前主流加速器还是GPU形态的原因之一。
在Scaling Law路线上大家更关注存储容量、通信带宽、互联能力和构建成本。云端服务器产品、加速网卡等,在产品设计层面的定义基本围绕这四个维度。
第二个方向,与第一个方向从模型角度来看是相反的。大家选择把模型越做越小,在知识围栏领域内,把模型内置到嵌入式硬件中。
在路线二当中,最重要的是产品定义的能力。大家的诉求更多是数据安全、通信延迟等,更关心的是芯片面积、功耗。产品形态上,大家则将更多重心放在AI手机、AI PC,以及AIoT领域从神经网络到大模型能力的升级。
05.
大模型芯片架构,
可以从四大方向着手优化
针对大模型的芯片架构,从宏观上看,我们有4个优化方向。
以Transformer算法结构为例。第一个是存储架构的优化。
大家已形成一个共识,即模型的升级会给存储架构带来非常大的压力,其中包括存储模型的权重、参数、中间数据转移等。
我们提出了一个内存估算的公式。如果单独跑一个70亿模型的训练任务,大概需要7张24GB的4090芯片才能完成一个任务。保守来说,一个推理任务的规模大概是上述训练任务的1/3到1/4左右。那么,当模型参数量增加到几百亿、几千亿以上,存储架构的压力非常大。
第二个是数据交换方式的优化。
存储架构的压力会波及数据交换环节。单个GPU的存储空间有限,芯片整体性能的表现也会受限。
现在主流的解决方案,包括HBM方案、GDDR方案等。GDDR侧重于通过提升工作频率来增加带宽,HBM侧重于通过提升运行度来增加带宽。前者性价比更高,后者则在带宽计算能力上有绝对优势,不过HBM的成本也较为昂贵。
第三个是成本的优化。
如果我们把H系列,或者市面上比较主流的芯片拆开来分析成本架构,会发现第一影响要素是工艺制程的选择。
第二影响要素是IP的价格,是否使用了非常昂贵的IP,像HBM的IP、高级封装IP、互联IP等。我们是不是可以在牺牲通用性的前提下,进一步降低成本?
第四个是通用性和专用性的平衡。
这永远是一个矛盾的主题,现在绝大多数都去谈论像CUDA生态兼容这方面。某种意义上,在设计模型的时候,CUDA能够提供的精度和算子是开发的基础,并且对底层性能的调优时,也要有一定的容错性。
对于专用的芯片,我们关注到美国那边新提出的一个概念,用软件定义硬件,从而能够减轻或者甩掉数据搬运的包袱。这也是一种很主流的芯片设计趋势。
06.
存算技术渗透计算机体系
“金字塔”的各个环节
从微观上看,存算技术可以做些什么?
存算技术目前是一个比较宽泛的概念,有数据存储的地方都可以加入存算,搭建存算一体的结构。
在整个计算机体系当中,存储器是一个金字塔结构,金字塔的各个层级出现了一些非常有趣的创新做法。
以最近中科院计算所一个非常有意思的项目为例,他们打造了一个所谓的SMART SSD,这是最外层的存算,在硬盘里面做存算。 硬盘其实是一个TB级别的存储空间,在硬盘上存储的数据更多是非结构化的数据。在硬盘主控芯片上集成一些NPU颗粒,存储控制颗粒,这对数据早期的清洗以及结构化提供了很大的帮助。
再往金字塔下层走,就来到了内存条。
最近三星和UIUC有一个基于CXL层面的优化,是充分利用LPDDR5X打造了一个智慧内存条。
具体来说,这个智慧内存条基于DFX结构,修改并加入了智能化能力。原本它只具备GEMV加速的能力,但是现在加入了支持通用型矩阵的计算能力,如果没记错是64×32,浮点FP16,从而提升效率。
相比于传统的GDDR、DDR5内存技术,它容量上扩大了16倍,在吞吐量、能效比上也获得了明显的优化。
再往下走一层,就来到我们熟悉的HBM。目前主流的HBM2、HBM2e已经达到非常强大的效果,拥有大几百GB的带宽能力,但成本非常高。
最底层,通过GEMM优化SM实现带宽加速后,数据传输速率可以达到几十TB每秒。同时,还可以把算子级的能力,像矩阵的加成、Embedding集成放到硬件里面去做。
07.
结语:存算技术率先在端侧商业化,
未来或将上“云”
纵览时间轴,存算一体技术已经走过了四个阶段。 从最早期的院校研究,到现在商业化落地,后续将集成更大、更强的计算能力。
其中,最重要的一个进阶维度就是商业价值的进阶。 存算一体技术从最开始的实验室研究价值,到现在能够真正为那些遇到存储墙问题的企业解决实际问题。该技术最先在端侧落地, 例如嵌入智能硬件、延长续航时间、增强本地智能化能力,以及初步萌生多模态能力等。
存算一体技术在商业价值上的进阶,与其他维度上的进阶密不可分。其中包括芯片存储器的成熟,算力从零点几TB到几TB,再到几十TB的升级,底层电路结构的优化,软硬件协同,甚至还催生了软件、编译器、工具链的成熟。
未来,存算相关的路线或者说要解决的问题,首先便是异构能力的增强,既包括存储介质异构,也包括架构上的异构设计。 “通用性、计算性能、成本”这三者本身就是矛盾的铁三角,存算也许能带来解决问题的新思路。
其次,存算为不依赖于高级工艺来提升算力和计算效率,提供了新的思路。3D堆叠以及存内计算都可以更好地拉进存储器与处理器的距离,减少数据通信的频次和数量。存储和通信带宽已是大模型的瓶颈。
软件逐步成熟后,基于存算一体技术的端侧芯片今年已经开始规模化生产和应用了。未来在云侧, 除了可以为小模型加速之外,解决通信带宽瓶颈也许可以成为存算一体技术的下一个杀手级应用, 我们期待未来两到三年内能够达成这一目标。
全球首例!世界最大芯片解锁“人脑级”AI模型,集群顶配163亿核心
芯东西(公众号:aichip001)
编译 | ZeR0
编辑 | 漠影
芯东西8月25日报道,那个打造出世界最大计算芯片的硅谷明星创企Cerebras Systems,正将“做大做强”的战略贯彻到极致!
今日凌晨,Cerebras Systems宣布推出世界上第一个人类大脑规模的AI解决方案,一台CS-2 AI计算机可支持超过120万亿参数规模的训练。 相比之下,人类大脑大约有100万亿个突触。
此外,Cerebras还实现了192台CS-2 AI计算机近乎线性的扩展,从而打造出包含高达1.63亿个核心的计算集群。
Cerebras成立于2016年,迄今在14个国家拥有超过350位工程师,此前Cerebras推出的世界最大计算芯片WSE和WSE-2一度震惊业界。
WSE-2采用7nm工艺,是一个面积达46225平方毫米的单晶圆级芯片,拥有2.6万亿个晶体管和85万个AI优化核,无论是核心数还是片上内存容量均远高于迄今性能最强的GPU。
WSE-2被集成在Cerebras CS-2 AI计算机中。随着近年业界超大规模AI模型突破1万亿参数,小型集群难以支撑单个模型的高速训练。
而Cerebras最新公布的成果,将单台CS-2机器可支持的神经网络参数规模,扩大至现有最大模型的100倍——达到120万亿参数 。
在国际芯片架构顶会Hot Chips上,Cerebras联合创始人兼首席硬件架构师Sean Lie详细展示了实现这一突破的新技术组合, 包括4项创新:
(1)Cerebras Weight Streaming: 一种新的软件执行架构,首次实现在芯片外存储模型参数的能力,同时提供像片上一样的训练和推理性能 。这种新的执行模型分解了计算和参数存储,使得扩展集群大小和速度更加独立灵活,并消除了大型集群往往面临的延迟和内存带宽问题,极大简化工作负载分布模型,使得用户无需更改软件,即可从使用1台CS-2扩展到192台CS-2。
(2)Cerebras MemoryX: 一种内存扩展技术,为WSE-2提供高达2.4PB的片外高性能存储,能保持媲美片上的性能。借助MemoryX,CS-2可以支持高达120万亿参数的模型。
(3)Cerebras SwarmX: 是一种高性能、AI优化的通信结构,将片上结构扩展至片外,使Cerebras能够连接多达192台CS-2的1.63亿个AI优化核 ,协同工作来训练单个神经网络。
(4)Selectable Sparsity: 一种动态稀疏选择技术,使用户能够在模型中选择权重稀疏程度,并直接减少FLOP和解决时间。权重稀疏在机器学习研究领域一直颇具挑战性,因为它在GPU上效率极低。该技术使CS-2能够加速工作,并使用包括非结构化和动态权重稀疏性在内的各种可用稀疏性类型在更短的时间内生成答案。
Cerebras首席执行官兼联合创始人Andrew Feldman称这推动了行业的发展。阿贡国家实验室副主任Rick Stevens亦肯定这一发明,认为这将是我们第一次能够探索大脑规模的模型,为研究和见解开辟广阔的新途径。
一、Weight Streaming:存算分离,实现片外存储模型参数
使用大型集群解决AI问题的最大挑战之一,是为特定的神经网络设置、配置和优化它们所需的复杂性和时间。软件执行架构Cerebras Weight Streaming恰恰能降低对集群系统编程的难度。
Weight Streaming建立在WSE超大尺寸的基础上,其计算和参数存储完全分离。通过与最高配置2.4PB的存储设备MemoryX结合,单台CS-2可支持运行拥有120万亿个参数的模型。
参与测试的120万亿参数神经网络由Cerebras内部开发,不是已公开发布的神经网络。
在Weight Streaming中,模型权重存在中央芯片外存储位置,流到晶圆片上,用于计算神经网络的每一层。在神经网络训练的delta通道上,梯度从晶圆流到中央存储区MemoryX中用于更新权重。
与GPU不同,GPU的片上内存量很小,需要跨多个芯片分区大型模型,而WSE-2足够大,可以适应和执行超大规模的层,而无需传统的块或分区来分解。
这种无需分区就能适应片上内存中每个模型层的能力,可以被赋予相同的神经网络工作负载映射,并独立于集群中所有其他CS-2对每个层进行相同的计算。
这带来的好处是,用户无需进行任何软件更改,就能很方便地将模型从运行在单台CS-2上,扩展到在任意大小的集群上。也就是说,在大量CS-2系统集群上运行AI模型,编程就像在单台CS-2上运行模型一样。
Cambrian AI创始人兼首席分析师Karl Freund评价道:“Weight Streaming的执行模型非常简洁、优雅,允许在CS-2集群难以置信的计算资源上进行更简单的工作分配。通过Weight Streaming,Cerebras消除了我们今天在构建和高效使用巨大集群方面所面临的所有复杂性,推动行业向前发展,我认为这将是一场变革之旅。”
二、MemoryX:实现百万亿参数模型
拥有100万亿个参数的人脑规模级AI模型,大约需要2PB字节的内存才能存储。
前文提及模型参数能够在片外存储并高效地流至CS-2,实现接近片上的性能,而存储神经网络参数权重的关键设施,即是Cerebras MemoryX。
MemoryX是DRAM和Flash的组合,专为支持大型神经网络运行而设计,同时也包含精确调度和执行权重更新的智能。
其架构具有可扩展性,支持从4TB至2.4PB的配置,支持2000亿至120万亿的参数规模 。
三、SwarmX:几乎线性扩展性能,支持192台CS-2互连
虽然一台CS-2机器就可以存储给定层的所有参数,但Cerebras还提议用一种高性能互连结构技术SwarmX,来实现数据并行性。
该技术通过将Cerebras的片上结构扩展至片外,扩展了AI集群的边界。
从历史上看,更大的AI集群会带来显著的性能和功率损失。在计算方面,性能呈亚线性增长,而功率和成本呈超线性增长。随着越来越多的图形处理器被添加到集群中,每个处理器对解决问题的贡献越来越小。
SwarmX结构既做通信,也做计算,能使集群实现接近线性的性能扩展。这 意味着如果扩展至16个系统,训练神经网络的速度接近提高16倍。 其结构独立于MemoryX进行扩展,每个MemoryX单元可用于任意数量的CS-2。
在这种完全分离的模式下,SwarmX结构支持从2台CS-2扩展到最多192台,由于每台CS-2提供85万个AI优化核,因此将支持多达1.63亿个AI优化核的集群。
Feldman说,CS-2的利用率要高得多。其他方法的利用率在10%~20%之间,而Cerebras在最大网络上的利用率在70%~80%之间。“今天每个CS2都取代了数百个GPU,我们现在可以用集群方法取代数千个GPU。”
四、Selectable Sparsity:动态稀疏提升计算效率
稀疏性对提高计算效率至为关键。随着AI社区努力应对训练大型模型的成本呈指数级增长,用稀疏性及其他算法技术来减少将模型训练为最先进精度所需的计算FLOP愈发重要。
现有稀疏性研究已经能带来10倍的速度提升。
为了加速训练,Cerebras提出一种新的稀疏方法Selectable Sparsity,来减少找到解决方案所需的计算工作量,从而缩短了应答时间。
Cerebras WSE基于一种细粒度的数据流架构,专为稀疏计算而设计,其85万个AI优化核能够单独忽略0,仅对非0数据进行计算。这是其他架构无法做到的。
在神经网络中,稀疏有多种类型。稀疏性可以存在于激活和参数中,可以是结构化或非结构化。
Cerebras架构特有的数据流调度和巨大的内存带宽,使此类细粒度处理能加速动态稀疏、非结构化稀疏等一切形式的稀疏。结果是,CS-2可以选择和拨出稀疏,以产生特定程度的FLOP减少,从而减少应答时间。
结语:新技术组合让集群扩展不再复杂
大型集群历来受设置和配置挑战的困扰,准备和优化在大型GPU集群上运行的神经网络需要更多时间。为了在GPU集群上实现合理的利用率,研究人员往往需要人工对模型进行分区、管理内存大小和带宽限制、进行额外的超参数和优化器调优等复杂而重复的操作。
而通过将Weight Streaming、MemoryX和SwarmX等技术相结合,Cerebras简化了大型集群的构建过程。它开发了一个全然不同的架构,完全消除了扩展的复杂性。由于WSE-2足够大,无需在多台CS-2上划分神经网络的层,即便是当今最大的网络层也可以映射到单台CS-2。
Cerebras集群中的每台CS-2计算机将有相同的软件配置,添加另一台CS-2几乎不会改变任何工作的执行。因此,在数十台CS-2上运行神经网络与在单个系统上运行在研究人员看来是一样的,设置集群就像为单台机器编译工作负载并将相同的映射应用到所需集群大小的所有机器一样简单。
总体来说,Cerebras的新技术组合旨在加速运行超大规模AI模型,不过就目前AI发展进程来看,全球能用上这种集群系统的机构预计还很有限。
来源:Cerebras,ZDNet
相关问答
华为盘古模型用英伟达芯片了吗?
没有,是鲲鹏芯片。华为盘古大模型是一个软件模型,运行在服务器或云平台上,不需要特定的硬件设备或光模块来支持其功能。它是基于机器学习和深度学习技术构建...
cmos模型是什么?
CMOS功耗模型:CMOS功耗分为静态损耗和动态损耗。动态功耗是CMOS中传统的功耗机制。逻辑电路使用了它的大部分功能并改变了它的输出值。静态功耗是一种更为现...
技术进步降低了电脑芯片成本,用供给需求模型分析这会如何影...
[最佳回答]在D/S模型中,技术进步降低了电脑芯片成本,则在同一个价格水平上,有更多的生产者生产芯片,供给曲线S向右平移,与需求曲线D相交于新的均衡点,电脑的价...
什么是外延的生长模型?
外延生长是指在单晶衬底(基片)上生长一层有一定要求的、与衬底晶向相同的单晶层,犹如原来的晶体向外延伸了一段。外延生长技术发展于50年代末60年代初。当时,...
电路中引入电路模型意义何在?
在电路中引入电路模型的目的是为了更好地理解和分析电路的行为和性能。电路模型是对电路元件和其相互连接的数学描述,它可以帮助我们预测电路中电流、电压、功...
建筑模型中的围墙模型是怎么制作的?
[回答]工作流程1.制作前期策划根据平面图、立面图、效果图及模型拒绝,制订模型制作风格。2.模型报价支出根据建筑风格、模型比例大小、材料工艺及图纸深...
半导体硅晶片可用于制造计算机芯片,工业上通过将二氧化硅与...
[最佳回答]由图示p微粒结构情况可知该反应p方程式为:九下+SiO九=九下O+Si;A、由该反应p方程式可知反应物和生成物均是一种单质和一种化合物,所以该反应属于置...
esd放电模型有哪几种?
1.HBM(人体模型),人体放电模型;指带人的人体与集成电路的产品的脚接触并静动时,产生ESD现象。人体的电流在500欧姆,电流感应电流约150秒,电流感应约电流15...
电子沙盘模型系统主要可以实现哪些功能?
[回答]2、使用触摸屏、电脑红外、遥控等先进的、简便的、快捷的超控手段。3、触摸屏与传统模型展示结合产生的声光电一体化展示。触摸屏人机交互简单,且可...
....可选用8K×8的EPROM芯片、16K×4和8K×4的SRAM芯片来_作业帮
[最佳回答]固化区16k读写区24kEPRAM地址线13(2^13=8k)数据线8SRAM16k*4型地址线14数据线4另一种地址线13数据线4固化区EPRAM要两芯片进行字扩展读写区...