2025 年上半年,繼年初被AAAI、ICLR、DAC 三大國際頂會收錄 5 篇論文后,后摩智能近期又有 4 篇論文入選CVPR、ICML、ACL三大國際頂會,面向大模型的編碼、量化、壓縮與微調(diào)等技術難題提出創(chuàng)新性解決方案,為大模型的性能提升、多場景部署建構了可行路徑。
眾所周知,CVPR作為計算機視覺領域國際頂級會議,專注于圖像和視頻的感知與理解;ICML作為機器學習領域頂會,強調(diào)算法、理論與模型創(chuàng)新;ACL作為自然語言處理領域頂會,聚焦語言理解與生成。這三大會議分別代表了人工智能的三個核心子領域,是全球?qū)W術界和產(chǎn)業(yè)界高度關注的重要學術交流平臺。
本文將簡要概述近期被收錄論文的關鍵工作。
01【CVPR-2025】PillarHist:AQuantization-aware PillarFeature Encoderbased onHeight-aware Histogram
PillarHist:一種基于高度直方圖的高效 pillar 特征編碼方法
在自動駕駛和機器人等對實時感知要求較高的場景中,基于LiDAR的3D目標檢測技術近年來得到了廣泛關注。Pillar-based方法因其結構簡單、計算效率高,成為了當前主流的輕量級三維檢測方案之一。然而,我們在調(diào)研和實驗中發(fā)現(xiàn),現(xiàn)有的pillar特征編碼模塊(PFE)在處理高度信息和模型量化方面仍存在一定局限。
研究動機
當前大多數(shù)PFE模塊采用max pooling等方式對點云特征進行匯聚,這種策略雖然計算高效,但容易造成細粒度信息的丟失,特別是在高度維度上的表達不夠充分。此外,由于輸入特征量綱差異大,直接量化后模型性能往往下降較為明顯。
為了解決上述問題,我們提出了一種新的pillar特征編碼方法——PillarHist,旨在在保持高效率的同時,增強模型對高度信息的建模能力,并提升其在低比特量化下的魯棒性。
方法簡介
PillarHist的核心思想是通過高度離散直方圖來替代傳統(tǒng)的點級特征匯聚方式。具體而言,我們將每個pillar在高度方向劃分為若干個區(qū)間(bin),統(tǒng)計每個區(qū)間內(nèi)的點數(shù)以及反射強度的加權平均值,從而構建出包含幾何與語義信息的直方圖特征表示。同時,結合pillar的中心坐標信息,我們通過一個輕量的線性層將其映射為最終的pillar特征向量。
與傳統(tǒng)PFE模塊相比,PillarHist具有以下優(yōu)勢:
更強的高度建模能力:保留了點云在高度維度上的結構信息;
避免信息丟失:不再依賴max pooling,減少特征壓縮帶來的損失;
計算更高效:特征提取操作在pillar級別完成,降低了總體計算開銷;
量化友好:特征值范圍穩(wěn)定,INT8量化后性能下降更小。
實驗結果
我們在KITTI、nuScenes和Waymo等多個公開數(shù)據(jù)集上對PillarHist進行了驗證。在多個主流pillar-based檢測框架(如PointPillars、CenterPoint、PillarNet等)中引入PillarHist后,模型在精度和推理速度方面均有不同程度的提升。其中,在nuScenes上平均提升約1%的NDS,同時推理延遲降低4~9ms。在8-bit量化實驗中,PillarHist有效減少了量化帶來的性能損失,表現(xiàn)出良好的硬件適應性。
總結
PillarHist作為一種結構簡單但有效的PFE模塊,能夠在不改變原有檢測框架的前提下,提升模型對高度信息的表達能力,并增強其在實際部署中的可用性。我們希望這一工作能為三維目標檢測尤其是輕量化和部署友好的設計提供一種可行的方向。
02【ICML-2025】RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
RWKVQuant:首個面向RWKV模型的高效量化框架
在大模型時代,Transformer架構獨領風騷,但近年來一種融合了RNN與Transformer優(yōu)勢的新型架構——RWKV,正在悄然崛起。RWKV模型以其推理高效、結構簡潔等特性,在語言和視覺任務上均展現(xiàn)出媲美主流大模型的性能。然而,RWKV在部署到邊緣設備或資源受限場景時,仍面臨模型體積大、計算開銷高等現(xiàn)實挑戰(zhàn)。
為此,我們重磅推出RWKVQuant——首個專為RWKV模型設計的后訓練量化(Post-Training Quantization,簡稱PTQ)框架,以應對RWKV模型在部署過程中的性能瓶頸!
研究動機
盡管已有許多PTQ方法在Transformer類模型中取得了成功,例如GPTQ、AWQ、GPTVQ等,但直接將這些方法應用于RWKV模型時,效果卻大打折扣:
非線性操作阻礙了參數(shù)融合:RWKV結構中含有Token Shift、Sigmoid、指數(shù)函數(shù)等非線性模塊,導致SmoothQuant、QuaRot等方法無法像在Transformer中那樣高效融合參數(shù),反而引入了額外計算開銷;
權重分布更均勻,聚類難度大:RWKV權重呈現(xiàn)更強的均勻性,這對傳統(tǒng)基于聚類的向量量化(VQ)方法構成挑戰(zhàn),聚類效果不佳,精度下降嚴重。
方法簡介
RWKVQuant創(chuàng)新性地提出代理引導的標量-向量混合量化策略,實現(xiàn)高壓縮率和高保真度的完美平衡:
1. 粗到細的雙層代理機制
粗粒度代理(Information Entropy):衡量權重整體的均勻性。當權重分布不均時,直接采用VQ;
細粒度代理(高階中心矩):即使整體均勻,也能識別局部異常值。若存在離群點,仍優(yōu)先選擇VQ;否則使用SQ。
此機制極大提升了量化策略的適應性和智能決策能力。
2. 針對RWKV結構優(yōu)化的codebook生成
RWKV在所有投影層中大量使用逐元素乘法操作,而現(xiàn)有VQ方法多針對矩陣乘法模塊。RWKVQuant首創(chuàng)了適用于逐元素乘法的codebook優(yōu)化算法,通過激活值加權KMeans聚類,有效降低量化誤差。
實驗結果
RWKVQuant在多個RWKV模型上進行了驗證,取得了顯著成果:
量化比特數(shù)降低至約3-bit,精度損失小于1%;
RWKV-6-14B模型內(nèi)存占用減少至原來的1/3;
推理速度提升高達2.14倍;
在LAMBADA等語言理解任務上,PPL下降、Zero-shot準確率提升,遠超GPTQ、AWQ、GPTVQ等主流方法;
在ImageNet、COCO和ADE20K等視覺任務上,RWKVQuant同樣表現(xiàn)出色。
總結
RWKVQuant的推出,標志著RWKV模型在輕量化部署領域邁出了關鍵一步。我們相信,這一創(chuàng)新性的量化框架不僅能推動RWKV在語言與視覺任務中的廣泛應用,也將為大模型在資源受限環(huán)境下的落地提供全新可能。
03【ICML-2025】MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance
解鎖MoE大模型部署新范式:MoEQuant讓壓縮不再“犧牲性能”
近年來,大語言模型(LLMs)在自然語言處理領域取得了突破性進展,尤其是引入“專家混合”(Mixture-of-Experts, MoE)架構的模型,以其高效、可擴展的特性,成為推動模型性能與計算效率雙贏的重要方向。
然而,MoE模型也帶來了新的挑戰(zhàn):激活參數(shù)稀疏,存儲壓力巨大,尤其在推理階段,雖然只激活少數(shù)專家,但所有專家參數(shù)必須常駐顯存,導致部署成本居高不下。如何讓MoE大模型“瘦身”而又不“失智”,成為業(yè)界亟待解決的問題。
研究動機
傳統(tǒng)PTQ方法如 GPTQ 和 AWQ 在標準LLMs中表現(xiàn)出色,但在應用到MoE模型時卻顯得力不從心。其原因在于:MoE架構的稀疏激活和動態(tài)路由機制,打破了常規(guī)量化對樣本分布和重要性評估的假設,導致量化后模型性能急劇下降。
為此,MoEQuant 識別并解決了兩個核心問題:
專家間不平衡 (Inter-expert imbalance):部分專家在校準過程中被頻繁激活,而另一些專家?guī)缀醣缓雎?,導致量化精度失衡?/p>
專家內(nèi)相關性不一致(Intra-expert imbalance):不同樣本與專家之間的“親和度”差異顯著,傳統(tǒng)量化忽略了這種動態(tài)關系,導致權重更新失真。
方法簡介
MoEQuant 引入如下兩項關鍵技術,有效解決上述挑戰(zhàn):
Expert-Balanced Self-Sampling(EBSS)
傳統(tǒng)量化依賴固定校準集(如 WikiText2),在 MoE 中容易出現(xiàn)樣本分布偏差。EBSS 利用模型自采樣機制,在確保語義合理的前提下,引導生成覆蓋各專家的均衡樣本集,顯著提升校準質(zhì)量。
Affinity-Guided Quantization (AGQ)
AGQ 首次將“樣本-專家親和度”納入量化過程,為每個樣本分配權重,引導誤差優(yōu)化方向,并重新定義Hessian矩陣計算方式,使量化更加精細化、感知MoE動態(tài)特性。
實驗結果
在Qwen-MoE-14B、DeepSeek-MoE-16B 和 Mixtral-8x7B 三大知名 MoE 模型上,MoEQuant 實現(xiàn)了令人矚目的成果:
HumanEval 編程任務準確率提升超10個百分點;
在 GSM8K、MMLU、BoolQ 等推理任務上表現(xiàn)全面優(yōu)于 GPTQ 和 AWQ;
部署效率提升:平均推理速度提升 1.2×,顯存節(jié)省 3.2×,支持在消費級GPU(如 RTX 4090)部署大模型。
更令人驚喜的是,在指令微調(diào)版本(Chat模型)中,MoEQuant 依然保持高精度,部分任務甚至超過全精度模型性能,這對實際應用部署具有重大意義。
總結
MoEQuant 的提出,不僅是大模型量化技術的一次飛躍,更是向“高性能+低成本”大模型部署目標邁出的堅實一步。在未來的AI應用場景中,無論是邊緣設備部署,還是云端推理優(yōu)化,MoEQuant 都將成為不可或缺的“壓縮利器”。
04【ACL-2025】GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning
GSQ-Tuning:探索資源受限設備上的大模型微調(diào)新路徑
近年來,大語言模型(LLM)在自然語言處理、代碼生成、多模態(tài)理解等領域取得了突破性進展。然而,隨著模型規(guī)模的不斷擴大,將其部署到資源受限的邊緣設備,仍面臨諸多挑戰(zhàn)。傳統(tǒng)的微調(diào)方式通常依賴大規(guī)模浮點運算,不僅計算資源需求高,而且在涉及隱私數(shù)據(jù)時存在上傳云端的風險。
為此,我們提出了一種全新的大模型微調(diào)方法 GSQ-Tuning(Group-Shared Exponents Quantization Tuning),旨在實現(xiàn)低浮點依賴、端到端整數(shù)化的大模型微調(diào)流程,更適配隱私敏感與資源受限的終端場景。
方法簡介
GSQ-Tuning 的關鍵技術在于我們設計的 Group-Shared Exponents Integer(GSE)格式。針對傳統(tǒng)浮點格式中指數(shù)位冗余的問題,GSE 通過在一組參數(shù)中共享指數(shù)位,實現(xiàn)更高效的低比特整數(shù)表示。具體而言:
每組數(shù)據(jù)共享一個 5-bit 指數(shù)位;
替代浮點的隱式前導 1 表示,采用顯式整數(shù)表示;
通過指數(shù)共享,大幅減少了存儲與計算時的元數(shù)據(jù)開銷。
這一表示方式不僅保留了數(shù)據(jù)的動態(tài)范圍,還提升了表示密度,尤其適用于具有空間局部性特征的神經(jīng)網(wǎng)絡權重和激活值。
1.整數(shù)化算子支持:Forward & Backward
在算子層面,GSQ-Tuning 不僅支持前向傳播的整數(shù)矩陣乘法,還將整數(shù)計算擴展至反向傳播與梯度更新階段,實現(xiàn)真正意義上的 Fully Quantized Training。我們采用了經(jīng)典的 Quantize-Compute-Dequantize(QCD) 流程:
量化:將輸入權重、激活與梯度從高精度(如 BF16)轉換為 GSE-INT 格式;
計算:在整數(shù)域中完成乘加運算(MAC),利用共享指數(shù)實現(xiàn)高效縮放;
反量化:必要時將輸出轉換回高精度格式做后處理或損失計算。
這一流程不僅適配 INT5/INT6 等低比特精度,還顯著提升了對整數(shù)計算硬件(如手機 NPU、FPGA、邊緣 AI 芯片)的利用率。
2.與 LoRA 的結合:高效參數(shù)微調(diào)
為了進一步降低訓練開銷,我們將 GSQ-Tuning 與主流的 LoRA(Low-Rank Adaptation) 方法結合,僅對少量低秩矩陣進行更新。不同于 QLoRA 仍需在 BF16 精度下更新 LoRA 參數(shù),我們在 LoRA 分支同樣采用整數(shù)化表示與更新,使整個訓練流程真正實現(xiàn)浮點“歸零”。
我們還提出了 位寬與秩的協(xié)同優(yōu)化策略(Bits-Rank Pareto Frontier),根據(jù)資源預算靈活選擇參數(shù)配置,在精度與效率間找到最優(yōu)平衡。
實驗結果
我們在多個 LLaMA 系列模型(3B~70B)、多種微調(diào)數(shù)據(jù)集(Alpaca、CS170K)和任務(BoolQ、PIQA、HellaSwag 等)上進行了驗證:
在 6-bit 設置下,GSQ-Tuning 的精度與 FP16 微調(diào)幾乎持平,平均僅下降不到 1%;
與 FP8 相比,在相同任務精度下,功耗降低約 5 倍,芯片面積減少約 11 倍;
內(nèi)存使用方面,GSQ-Tuning 比 QLoRA 至少節(jié)省 40%~50% 的顯存開銷。
此外,在多模態(tài)任務(如 LLaVA-v1.5)中,我們也觀察到 GSE 格式在視覺-語言聯(lián)合學習中具有良好的遷移與泛化能力。
總結
GSQ-Tuning 是我們在大模型端側部署探索過程中的一次初步嘗試。通過全流程整數(shù)化、參數(shù)高效更新和硬件友好設計,我們希望為大模型在本地化、個性化、隱私保護等應用場景提供一種更實際、更落地的技術路徑。
上述4篇論文聚焦模型的編碼、量化、壓縮與微調(diào)等技術瓶頸,從性能提升到場景部署,多維展現(xiàn)了后摩智能在AI技術創(chuàng)新與應用上的前瞻性與深度思考。研究成果從理解準確率、空間占用率、推理速率、部署效率等多方面,為大模型的輕量化部署、端側部署以及邊緣設備部署提供了更多可行方案。
接下來,我們將依序發(fā)布4篇論文深度解析,詳盡分享每篇論文的創(chuàng)新思路等,歡迎關注。
-
機器學習
+關注
關注
66文章
8501瀏覽量
134565 -
自然語言處理
+關注
關注
1文章
628瀏覽量
14149 -
后摩智能
+關注
關注
0文章
35瀏覽量
1375 -
大模型
+關注
關注
2文章
3134瀏覽量
4054
原文標題:后摩前沿 | 后摩智能4篇論文入選CVPR、ICML、ACL三大國際頂會,攻關大模型端邊側部署關鍵技術
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
格靈深瞳六篇論文入選ICCV 2025
后摩智能與高校合作研究成果榮獲ISCA 2025最佳論文獎
后摩智能入圍工信部算力強基揭榜行動
后摩智能NPU適配通義千問Qwen3系列模型
后摩智能入選中國移動AI能力聯(lián)合艦隊
匯川技術三大國際展會圓滿收官
后摩智能首款存算一體智駕芯片獲評突出創(chuàng)新產(chǎn)品獎
后摩智能與聯(lián)想集團簽署戰(zhàn)略協(xié)議 共同探索AI PC技術創(chuàng)新與應用
芯動力科技論文入選ISCA 2024,與國際巨頭同臺交流研究成果

評論