当前位置:首页 >> 安全

英特尔通过软硬件为LIama 2大模型提供加速,年中发力推动AI发展

来源:安全   2024年01月13日 12:16

时间延迟(不含第一个)。该次测试常用optimum-habana注释填充脚本在Llama三维上直通废话。optimum-habana奎并不须要努力一般化在Gaudi加快器上布防此类三维的漂程,非常少须极少的字符更改即可发挥作用。如示意图1所示,对于128至2000回传token,在70亿数值三维上Gaudi2的废话时间延迟范围为每token 9.0-12.2毫秒,而对于130亿数值三维,范围为每token 15.5-20.4毫秒。

示意图1 基于Habana Gaudi2,70亿和130亿数值Llama2三维的废话耐用性

若想访问Gaudi2,可在惠普开发设计医护人员碧网络平台免费上注册一个比如说,或联系ATI(micro)探究Gaudi2路由器基础设施。

惠普至强可拓展晶片组

第四代惠普至强可拓展晶片组是一款非标准量化晶片组,不具惠普很高于级算子拓展(惠普AMX)的AI加快功能。具体而言,该晶片组的每个核心内置了BF16和INT8非标准算子乘(GEMM)加快器,以加快最深处深造受训和废话文书工作损耗。此外,惠普至强CPU Max三部,每颗CPU缺少64GB的很高于带宽内存(HBM2E),两颗共128GB,由于大语法三维的文书工作损耗一般来说受到内存带宽的限制,因此,该耐用性对于大三维来说极为不可或缺。

迄今,针对惠普至强晶片组的操作系统最佳化已更新到最深处深造开放性中会,并可用做PyTorch、TensorFlow、DeepSpeed和其它AI奎的绑定免费软件。惠普主导者了torch.compile CPU后端的开发设计和最佳化,这是PyTorch 2.0的母舰功能。与此同时,惠普还缺少惠普PyTorch拓展包(Intel Extension for PyTorch),力图PyTorch在此此前免费软件此前,即刻、及时地为客户服务缺少惠普CPU的最佳化。

第四代惠普至强可拓展晶片组占有更很高于的内存容量,反对在单个插槽内发挥作用一般而言于互动式AI和注释概述应用做的、高于时间延迟的大语法三维指派。对于BF16和INT8,该结果演示了单个插槽内指派1个三维时的时间延迟。惠普PyTorch拓展包反对SmoothQuant,以维护INT8精度三维不具良好的准确度。

顾及大语法三维应用做须要以足够快的速度填充token,以满足观看者较快的读物速度,我们并不须要token时间延迟,即填充每个token所须的时间作为主要的耐用性指标,并以更快全人类观看者的读物速度(约为每个token 100毫秒)作为参考资料。如示意图2、3所示,对于70亿数值的Llama 2 BF16三维和130亿数值的Llama 2 INT8三维,第四代惠普至强单插槽的时间延迟以外高于于100毫秒2。

充分利用更很高于的HBM2E带宽,惠普至强CPU Max三部为以上两个三维缺少了更佳于的时间延迟。而凭借惠普AMX加快器,用户可以通过更很高于的批量尺码(batchsize)来提很高于客运量。

示意图2 基于惠普至强可拓展晶片组,70亿数值和130亿数值Llama 2三维(BFloat16)的废话耐用性

示意图3 基于惠普至强可拓展晶片组,70亿数值和130亿数值Llama 2三维(INT8)的废话耐用性

对于70亿和130亿数值的三维,每个第四代至强插槽可缺少高于于100毫秒的时间延迟。用户可以分别在两个插槽上同时直通两个并行比如说,从而获取更很高于的客运量,并独立地免费客户服务端。亦或者,用户可以通过惠普PyTorch拓展包和DeepSpeed CPU,常用张量并行的方式也在两个第四代至强插槽上直通废话,从而实质性降高于时间延迟或反对相当大的三维。

关于在至强网络平台免费上直通大语法三维和Llama 2,开发设计医护人员可以点击此处探究更多示意示意图。第四代惠普至强可拓展晶片组的碧比如说可在AWS和Microsoft Azure上预览,迄今已在Skype碧网络平台免费和阿里碧全面上线。惠普将持续在PyTorch和DeepSpeed来进行操作系统最佳化,以实质性加快Llama 2和其它大语法三维。

惠普数据中会心GPU Max三部

惠普数据中会心GPU Max三部缺少多线程、科学量化和一般而言于科学量化的AI加快。作为惠普耐用性最为显露色、反射率最很高于的独立显卡,惠普数据中会心GPU Max三部产品中会封装有约1000亿个晶体管,并包含多达128个Xe内核,Xe是惠普GPU的量化构建模块。

惠普数据中会心GPU Max三部力图为AI和科学量化中会常用的数据密集型量化三维缺少跃进性的耐用性,非常少限于:

408 MB基于独立SRAM应用做的L2线程、64MB L1线程以及很高于达128GB的很高于带宽内存(HBM2E)。

AI标准型的Xe惠普算子拓展(惠普XMX)可携带脉动阵列,在单台器材中会可发挥作用示意图形和算子功能。

惠普Max三部产品统一反对oneAPI,并基于此发挥作用非标准、闭馆、基于标准的编程三维,释放生产力和耐用性。惠普oneAPI机器非常少限于很高于级Ja、奎、比对机器和字符迁移机器,可常用SYCL精彩将CUDA字符迁移到闭馆的C++。

惠普数据中会心Max三部GPU通过当今开放性的开源拓展来发挥作用操作系统反对和最佳化,例如朝向PyTorch的惠普拓展、朝向TensorFlow的惠普拓展和朝向DeepSpeed的惠普拓展。通过将这些拓展与洛河开放性版本一起常用,用户将并不须要在机器深造文书工作漂中会发挥作用更快整合。

惠普在一个600瓦OAM形态的GPU上审核了Llama 2的70亿数值三维和Llama 2的130亿数值三维废话耐用性,这个GPU上封装了两个tile,只常用其中会一个tile来直通废话。示意图4表明,对于回传弧度为32到2000的token,惠普数据中会心GPU Max三部的一个tile可以为70亿数值三维的废话缺少高于于20毫秒的单token时间延迟,130亿数值三维的单token时间延迟为29.2-33.8毫秒。因为该GPU上封装了两个tile,用户可以同时并行直通两个独立的比如说,每个tile上直通一个,以获取更很高于的客运量并独立地免费客户服务端。

示意图4 惠普数据中会心GPU Max 1550上的Llama 2的70亿和130亿数值三维的废话耐用性

迄今惠普开发设计医护人员碧网络平台免费上已公开发设计表惠普GPU Max碧比如说次测试版。

惠普网络平台免费上的大语法三维见下文

除了废话正因如此,惠普一直在不遗余力地加快见下文加快,通过向Hugging Face Transformers、PEFT、Accelerate和Optimum 奎缺少最佳化,并在朝向Transformers的惠普拓展中会缺少参考资料文书工作漂。这些文书工作漂反对在涉及惠普网络平台免费上很高于效地布防类似于的大语法三维侦查,如注释填充、字符填充、完成和概述。

概述

上述内容概述了在惠普AI接口产品组合上直通Llama 2的70亿和130亿数值三维废话耐用性的初始审核,非常少限于Habana Gaudi2最深处深造加快器、第四代惠普至强可拓展晶片组、惠普至强CPU Max三部和惠普数据中会心GPU Max三部。我们将继续通过操作系统公开发设计表缺少最佳化,后续可能会再互动更多关于大语法三维和相当大的Llama 2三维的审核。

(8262990)

必奇蒙脱石散治拉肚子怎么吃好
熬夜熬到喉咙痛吃什么药
感冒是否可以服用阿莫西林
怎么可以预防皱纹
前列腺增生血压升高怎么治疗
标签:模型
友情链接