国产成人在线影院_中文字幕亚洲欧美日韩2019_欧美一级免费视频_国产农村妇女毛片精品久久麻豆_中文字幕免费在线观看视频一区_久久久亚洲精华液精华液精华液_91精品国产一区二区三区香蕉_国产精品专区一_亚洲社区在线观看_国产**成人网毛片九色

您當前的位置: 首頁 > 新聞 > 手機

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

來源:量子位   編輯:非小米 時間:2024-08-09 15:30人閱讀

有CPU就能跑大模型,性能甚至超過NPU/GPU!

沒錯,為了優化模型端側部署,微軟亞洲研究院提出了一種新技術——T-MAC。

這項技術主打性價比,不僅能讓端側模型跑得更快,而且資源消耗量更少。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

咋做到的??

在CPU上高效部署低比特大語言模型

一般來說,要想在手機、PC、樹莓派等端側設備上使用大語言模型,我們需要解決存儲和計算問題。

常見的方法是模型量化,即將模型的參數量化到較低的比特數,比如4比特、3比特甚至更低,這樣模型所需的存儲空間和計算資源就會減少。

不過這也意味著,在執行推理時,需要進行混合精度的矩陣乘法運算(mpGEMM),即用低精度的權重和高精度的激活向量進行計算。

然而,現有的系統和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權重轉換回高精度,這個過程叫做反量化(dequantization)。

但這種方法不僅效率低,而且當比特數進一步降低時,并不能帶來性能上的提升。

對此,新技術T-MAC采用基于查找表(LUT)的計算范式,無需反量化,直接支持混合精度矩陣乘。

這樣,T-MAC不僅提高了推理性能,還使得模型更加統一和可擴展,尤其適合在資源受限的端側設備部署。

此外,T-MAC不依賴于專用的硬件加速器NPU或GPU,能夠僅利用CPU部署模型。甚至在某些情況下,它的推理速度可以超過專用加速器。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

T-MAC的關鍵創新在于采用基于查找表(LUT)的計算范式,而非傳統的乘累加(MAC)計算范式。

T-MAC利用查找表直接支持低比特計算,從而消除了其他系統中必須的反量化操作,并且顯著減少了乘法和加法操作的數量。

經過實驗,T-MAC展現出了卓越的性能:

在配備了最新高通Snapdragon X Elite芯片組的Surface AI PC 上,3B BitNet-b1.58模型的生成速率可達每秒48個token,2bit 7B llama模型的生成速率可達每秒30個token,4bit 7B llama模型的生成速率可達每秒20個token。

這甚至超越了NPU的性能!

當部署llama-2-7B-4bit模型時,盡管使用NPU可以生成每秒10.4個token,但CPU在T-MAC的助力下,僅使用兩核便能達到每秒12.6個token,最高甚至可以飆升至每秒22個token。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

這些都遠超人類的平均閱讀速度,相比于原始的llama.cpp框架提升了4~5倍。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行
△BitNet on T-MAC (基于LUT) vs llama.cpp (基于反量化)

即使在較低端的設備如Raspberry Pi 5上,T-MAC針對3B BitNet-b1.58也能達到每秒11個token的生成速率。

同時,T-MAC也具有顯著的功耗優勢:

達到相同的生成速率,T-MAC所需的核心數僅為原始llama.cpp的1/4至1/6,降低能耗的同時也為其它應用留下計算資源。

值得注意的是,T-MAC的計算性能會隨著比特數的降低而線性提高,這一現象在基于反量化去實現的GPU和NPU中是難以觀察到的。

這進一步使得T-MAC能夠在2比特下實現單核每秒10個token,四核每秒28個token,大大超越了NPU的性能。

采用新的計算范式

好了,說完了效果,咱們接著展開T-MAC的技術細節。

矩陣乘不需乘,只需查表 (LUT)

對于低比特參數 (weights),T-MAC將每一個比特單獨進行分組(例如,一組4個比特),這些比特與激活向量相乘,預先計算所有可能的部分和,然后使用LUT進行存儲。

之后,T-MAC采用移位和累加操作來支持從1到4的可擴展位數。

通過這種方法,T-MAC拋棄了CPU上效率不高的FMA(乘加)指令,轉而使用功耗更低、效率也更高的TBL/PSHUF(查表)指令。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行
△混合精度GEMV基于現有反量化的實現范式 vs T-MAC基于查找表的新范式以比特為核心的計算,取代以數據類型為核心的計算

傳統的基于反量化的計算,實際上是以數據類型為核心的計算,這種方式需要對每一種不同的數據類型單獨定制。

每種激活和權重的位寬組合,如W4A16(權重int4激活float16) 和W2A8,都需要特定的權重布局和計算內核。

例如,W3的布局需要將2位和另外1位分開打包,并利用不同的交錯或混洗方法進行內存對齊或快速解碼。

然后,相應的計算內核需要將這種特定布局解包到硬件支持的數據類型進行執行。

而T-MAC通過從比特的視角觀察低比特矩陣乘計算,只需為單獨的一個比特設計最優的數據結構,然后通過堆疊的方式擴展到更高的2/3/4比特。

同時,對于不同精度的激活向量(float16/float32/int8),僅有構建表的過程需要發生變化,在查表的時候不再需要考慮不同的數據結構。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行
△以比特為核心的查表計算混合精度GEMV

同時,傳統基于反量化的方法,從4-比特降低到3/2/1-比特時,盡管內存占用更少,但是計算量并未減小,而且由于反量化的開銷不減反增,性能反而可能會更差。

但T-MAC的計算量隨著比特數降低能夠線性減少,從而在更低比特帶來更好加速,為最新的工作BitNet, EfficientQAT等發布的2-比特模型提供了高效率的部署方案。

比如下圖展示了:

(1)使用不同端側設備CPU的單核,T-MAC在4到1比特的混合精度GEMV算子相較llama.cpp加速3-11倍。

(2)T-MAC的GEMM耗時能隨著比特數減少線性減少,而基于反量化的llama.cpp無法做到(1比特llama.cpp的算子性能由其2比特實現推算得到)。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

高度優化的算子實現

概括而言,基于比特為核心的計算具有許多優勢,但將其實現在CPU上仍具有不小的挑戰:

與激活和權重的連續數據訪問相比,表的訪問是隨機的。

表在快速片上內存中的駐留對于最終的推理性能尤為重要,然而,片上內存是有限的,查找表(LUT)方法相比傳統的mpGEMV增大了片上內存的使用。

這是因為查找表需要保存激活向量與所有可能的位模式相乘的結果,這比激活本身要多得多。

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

△T-MAC與llama.cpp在計算數據流上的不同

為此,微軟亞洲研究院的研究員們深入探究了基于查表的計算數據流,為這種計算范式設計了高效的數據結構和計算流程,其中包括:

1、將LUT存入片上內存,以利用CPU上的查表向量指令 (TBL/PSHUF) 提升隨機訪存性能。

2、改變矩陣axis計算順序,以盡可能提升放入片上內存的有限LUT的數據重用率。

3、為查表單獨設計最優矩陣分塊 (Tiling) 方式,結合autotvm搜索最優分塊參數

4、參數weights的布局優化:

 a、weights重排,以盡可能連續訪問并提升緩存命中率

   b、weights交錯,以提升解碼效率

5、對Intel/ARM CPU做針對性優化,包括

   a、寄存器重排以快速建立查找表

   b、通過取平均數指令做快速8-比特累加

研究員們在一個基礎實現上,一步步應用各種優化,最終相對于SOTA低比特算子獲得顯著加速。

例如,在實現各種優化后,T-MAC 4-比特算子最終相對于llama.cpp獲得顯著加速:

手機跑大模型提速4-5倍!微軟亞研院開源新技術 有CPU就行

最后,T-MAC現已開源,相關論文已在arXiv公開,感興趣可以進一步了解。

開源地址(含代碼):https://github.com/microsoft/T-MAC

論文:https://www.arxiv.org/pdf/2407.00088

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 智能手機 安卓

相關文章

国产成人在线影院_中文字幕亚洲欧美日韩2019_欧美一级免费视频_国产农村妇女毛片精品久久麻豆_中文字幕免费在线观看视频一区_久久久亚洲精华液精华液精华液_91精品国产一区二区三区香蕉_国产精品专区一_亚洲社区在线观看_国产**成人网毛片九色
91在线播放网址| 亚洲视频狠狠干| 日本韩国欧美一区二区三区| 色婷婷av一区| 99精品黄色片免费大全| 久久精品亚洲国产奇米99| 日韩精品一卡二卡三卡四卡无卡| 国内精品视频666| 亚洲最大成人综合| 国产情人综合久久777777| 亚洲精品免费在线播放| 日韩黄色免费电影| 亚洲激情网站免费观看| 久久久不卡网国产精品一区| 精品国产乱码久久久久久免费| 国产精品美女久久福利网站| 在线看不卡av| 在线成人小视频| 欧美中文字幕一区二区三区| 天天av天天翘天天综合网 | 午夜在线电影亚洲一区| 91豆麻精品91久久久久久| 国产日本欧洲亚洲| 日本91福利区| 欧美亚洲尤物久久| 成人美女视频在线看| 成人免费毛片片v| 视频一区中文字幕国产| 亚洲精品欧美在线| 一区二区三区成人在线视频| 久久久精品2019中文字幕之3| 国产精品国产三级国产普通话99 | 日日夜夜免费精品视频| 成人国产精品免费观看| 亚洲国产你懂的| 国产在线视频精品一区| 蜜芽一区二区三区| 久久国产剧场电影| 最新国产成人在线观看| 亚洲图片自拍偷拍| 久久国产精品99久久久久久老狼| 亚洲国产视频网站| 中文字幕一区二区三中文字幕| av动漫一区二区| 中文字幕一区在线观看视频| 老鸭窝一区二区久久精品| fc2成人免费人成在线观看播放| 国产 欧美在线| 美女久久久精品| 91网站黄www| 欧美男人的天堂一二区| 精品国产乱子伦一区| 欧美亚洲国产一区在线观看网站 | 欧美日韩情趣电影| 蜜臀va亚洲va欧美va天堂| 中文字幕在线不卡| 欧美巨大另类极品videosbest| 欧美国产日韩亚洲一区| 国产精品66部| 欧洲中文字幕精品| 国产精品高潮呻吟久久| 激情综合网最新| 午夜电影一区二区| 国产精品久久久久久一区二区三区 | 国产一区二区看久久| 成人动漫av在线| 欧美疯狂做受xxxx富婆| 欧美最猛黑人xxxxx猛交| 中日韩av电影| 青青草精品视频| 国产精品资源网站| 五月婷婷久久丁香| 亚洲高清在线视频| 午夜久久福利影院| 全部av―极品视觉盛宴亚洲| 午夜成人在线视频| 欧美精品一区二区久久久| 国产在线乱码一区二区三区| 91无套直看片红桃| 亚洲美女视频在线| 精品久久久久99| 青青草原综合久久大伊人精品| 最新热久久免费视频| 色综合久久精品| 欧美日精品一区视频| 亚洲综合视频在线观看| 成人性生交大片免费| 午夜精品福利一区二区三区av | 在线播放一区二区三区| 91精品在线麻豆| 成人毛片老司机大片| 免费视频一区二区| 亚洲综合男人的天堂| 日韩欧美激情一区| 欧美一区二区三区男人的天堂| 国产精品一区二区在线看| 亚洲色图视频免费播放| 欧美图片一区二区三区| 亚洲电影一区二区三区| 久久蜜桃一区二区| 国产日韩欧美制服另类| 亚洲另类春色校园小说| 成人一区在线观看| 欧美激情综合在线| 色成人在线视频| 秋霞成人午夜伦在线观看| 天天综合色天天综合色h| 欧美私模裸体表演在线观看| 亚洲成人第一页| 一本色道**综合亚洲精品蜜桃冫| 国产主播一区二区三区| 久久综合九色综合97_久久久| 亚洲成av人**亚洲成av**| 综合久久国产九一剧情麻豆| 亚洲欧美自拍偷拍| 日日夜夜免费精品视频| 中文字幕精品—区二区四季| 亚洲图片欧美综合| 国产激情视频一区二区在线观看| 国产91丝袜在线播放九色| 精品无人区卡一卡二卡三乱码免费卡 | 国产女人18毛片水真多成人如厕 | 99久久亚洲一区二区三区青草| www.色精品| 成人污视频在线观看| 久久精品综合网| 久久婷婷一区二区三区| 日韩欧美久久久| 国产综合一区二区| 成人激情免费视频| 亚洲美腿欧美偷拍| 91在线精品一区二区| 国产成人精品免费| 欧美人狂配大交3d怪物一区| 国产丝袜美腿一区二区三区| 中文子幕无线码一区tr| 秋霞影院一区二区| 在线区一区二视频| 久久久久国产一区二区三区四区| 一个色妞综合视频在线观看| 国产亚洲视频系列| 欧美国产欧美亚州国产日韩mv天天看完整 | 国产精品亚洲第一区在线暖暖韩国| 亚洲欧美色一区| 成人免费毛片a| 亚洲黄色免费电影| 91豆麻精品91久久久久久| 欧美电影免费观看完整版| 国产成人精品三级麻豆| 欧美激情中文不卡| 97se亚洲国产综合自在线不卡 | 欧美日韩精品久久久| 欧美午夜片在线观看| 国产欧美一区二区三区沐欲| 午夜亚洲福利老司机| 99视频一区二区三区| 欧美国产成人精品| 九一久久久久久| 亚洲视频免费看| 6080国产精品一区二区| 岛国一区二区三区| 欧美极品美女视频| 91黄色免费网站| 成人一级片在线观看| 久久精品国产成人一区二区三区| 91香蕉视频mp4| 国产精品久久久久久亚洲毛片| 久久国产生活片100| 欧美日韩在线三区| 日韩高清在线不卡| a在线播放不卡| 欧美成人一区二区三区片免费 | av一区二区三区黑人| 国产精品久久福利| 色噜噜狠狠成人中文综合| 国产一区视频网站| 麻豆免费精品视频| 亚洲国产日韩一区二区| 自拍偷自拍亚洲精品播放| 欧美一区二区三区免费视频| 精品捆绑美女sm三区| 亚洲国产精品一区二区久久| 蜜臀精品一区二区三区在线观看| 国产三级三级三级精品8ⅰ区| 欧美视频精品在线| 欧美大片日本大片免费观看| 久久久综合激的五月天| 91视视频在线观看入口直接观看www | 麻豆一区二区在线| 91色婷婷久久久久合中文| www.亚洲国产| 色综合天天综合网天天看片| 日韩一区二区三区四区 | 国产成人午夜电影网| 91麻豆视频网站| 91麻豆精品91久久久久久清纯| 亚洲色图制服丝袜| 欧美男男青年gay1069videost| 欧美在线综合视频| 久久精品一区二区三区不卡|