国产chinesehdxxxx老太婆,办公室玩弄爆乳女秘hd,扒开腿狂躁女人爽出白浆 ,丁香婷婷激情俺也去俺来也,ww国产内射精品后入国产

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

后摩智能四篇論文入選三大國際頂會

后摩智能 ? 來源:后摩智能 ? 2025-05-29 15:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025 年上半年,繼年初被AAAI、ICLR、DAC 三大國際頂會收錄 5 篇論文后,后摩智能近期又有 4 篇論文入選CVPR、ICML、ACL三大國際頂會,面向大模型的編碼、量化、壓縮與微調(diào)等技術難題提出創(chuàng)新性解決方案,為大模型的性能提升、多場景部署建構了可行路徑。

眾所周知,CVPR作為計算機視覺領域國際頂級會議,專注于圖像和視頻的感知與理解;ICML作為機器學習領域頂會,強調(diào)算法、理論與模型創(chuàng)新;ACL作為自然語言處理領域頂會,聚焦語言理解與生成。這三大會議分別代表了人工智能的三個核心子領域,是全球?qū)W術界和產(chǎn)業(yè)界高度關注的重要學術交流平臺。

本文將簡要概述近期被收錄論文的關鍵工作。

01【CVPR-2025】PillarHist:AQuantization-aware PillarFeature Encoderbased onHeight-aware Histogram

PillarHist:一種基于高度直方圖的高效 pillar 特征編碼方法

自動駕駛機器人等對實時感知要求較高的場景中,基于LiDAR的3D目標檢測技術近年來得到了廣泛關注。Pillar-based方法因其結構簡單、計算效率高,成為了當前主流的輕量級三維檢測方案之一。然而,我們在調(diào)研和實驗中發(fā)現(xiàn),現(xiàn)有的pillar特征編碼模塊(PFE)在處理高度信息和模型量化方面仍存在一定局限。

研究動機

當前大多數(shù)PFE模塊采用max pooling等方式對點云特征進行匯聚,這種策略雖然計算高效,但容易造成細粒度信息的丟失,特別是在高度維度上的表達不夠充分。此外,由于輸入特征量綱差異大,直接量化后模型性能往往下降較為明顯。

為了解決上述問題,我們提出了一種新的pillar特征編碼方法——PillarHist,旨在在保持高效率的同時,增強模型對高度信息的建模能力,并提升其在低比特量化下的魯棒性。

方法簡介

PillarHist的核心思想是通過高度離散直方圖來替代傳統(tǒng)的點級特征匯聚方式。具體而言,我們將每個pillar在高度方向劃分為若干個區(qū)間(bin),統(tǒng)計每個區(qū)間內(nèi)的點數(shù)以及反射強度的加權平均值,從而構建出包含幾何與語義信息的直方圖特征表示。同時,結合pillar的中心坐標信息,我們通過一個輕量的線性層將其映射為最終的pillar特征向量。

與傳統(tǒng)PFE模塊相比,PillarHist具有以下優(yōu)勢:

更強的高度建模能力:保留了點云在高度維度上的結構信息;

避免信息丟失:不再依賴max pooling,減少特征壓縮帶來的損失;

計算更高效:特征提取操作在pillar級別完成,降低了總體計算開銷;

量化友好:特征值范圍穩(wěn)定,INT8量化后性能下降更小。

實驗結果

我們在KITTI、nuScenes和Waymo等多個公開數(shù)據(jù)集上對PillarHist進行了驗證。在多個主流pillar-based檢測框架(如PointPillars、CenterPoint、PillarNet等)中引入PillarHist后,模型在精度和推理速度方面均有不同程度的提升。其中,在nuScenes上平均提升約1%的NDS,同時推理延遲降低4~9ms。在8-bit量化實驗中,PillarHist有效減少了量化帶來的性能損失,表現(xiàn)出良好的硬件適應性。

總結

PillarHist作為一種結構簡單但有效的PFE模塊,能夠在不改變原有檢測框架的前提下,提升模型對高度信息的表達能力,并增強其在實際部署中的可用性。我們希望這一工作能為三維目標檢測尤其是輕量化和部署友好的設計提供一種可行的方向。

02【ICML-2025】RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization

RWKVQuant:首個面向RWKV模型的高效量化框架

在大模型時代,Transformer架構獨領風騷,但近年來一種融合了RNN與Transformer優(yōu)勢的新型架構——RWKV,正在悄然崛起。RWKV模型以其推理高效、結構簡潔等特性,在語言和視覺任務上均展現(xiàn)出媲美主流大模型的性能。然而,RWKV在部署到邊緣設備或資源受限場景時,仍面臨模型體積大、計算開銷高等現(xiàn)實挑戰(zhàn)。

為此,我們重磅推出RWKVQuant——首個專為RWKV模型設計的后訓練量化(Post-Training Quantization,簡稱PTQ)框架,以應對RWKV模型在部署過程中的性能瓶頸!

研究動機

盡管已有許多PTQ方法在Transformer類模型中取得了成功,例如GPTQ、AWQ、GPTVQ等,但直接將這些方法應用于RWKV模型時,效果卻大打折扣:

非線性操作阻礙了參數(shù)融合:RWKV結構中含有Token Shift、Sigmoid、指數(shù)函數(shù)等非線性模塊,導致SmoothQuant、QuaRot等方法無法像在Transformer中那樣高效融合參數(shù),反而引入了額外計算開銷;

權重分布更均勻,聚類難度大:RWKV權重呈現(xiàn)更強的均勻性,這對傳統(tǒng)基于聚類的向量量化(VQ)方法構成挑戰(zhàn),聚類效果不佳,精度下降嚴重。

方法簡介

RWKVQuant創(chuàng)新性地提出代理引導的標量-向量混合量化策略,實現(xiàn)高壓縮率和高保真度的完美平衡:

1. 粗到細的雙層代理機制

粗粒度代理(Information Entropy):衡量權重整體的均勻性。當權重分布不均時,直接采用VQ;

細粒度代理(高階中心矩):即使整體均勻,也能識別局部異常值。若存在離群點,仍優(yōu)先選擇VQ;否則使用SQ。

此機制極大提升了量化策略的適應性和智能決策能力。

2. 針對RWKV結構優(yōu)化的codebook生成

RWKV在所有投影層中大量使用逐元素乘法操作,而現(xiàn)有VQ方法多針對矩陣乘法模塊。RWKVQuant首創(chuàng)了適用于逐元素乘法的codebook優(yōu)化算法,通過激活值加權KMeans聚類,有效降低量化誤差。

實驗結果

RWKVQuant在多個RWKV模型上進行了驗證,取得了顯著成果:

量化比特數(shù)降低至約3-bit,精度損失小于1%;

RWKV-6-14B模型內(nèi)存占用減少至原來的1/3;

推理速度提升高達2.14倍;

在LAMBADA等語言理解任務上,PPL下降、Zero-shot準確率提升,遠超GPTQ、AWQ、GPTVQ等主流方法;

在ImageNet、COCO和ADE20K等視覺任務上,RWKVQuant同樣表現(xiàn)出色。

總結

RWKVQuant的推出,標志著RWKV模型在輕量化部署領域邁出了關鍵一步。我們相信,這一創(chuàng)新性的量化框架不僅能推動RWKV在語言與視覺任務中的廣泛應用,也將為大模型在資源受限環(huán)境下的落地提供全新可能。

03【ICML-2025】MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance

解鎖MoE大模型部署新范式:MoEQuant讓壓縮不再“犧牲性能”

近年來,大語言模型(LLMs)在自然語言處理領域取得了突破性進展,尤其是引入“專家混合”(Mixture-of-Experts, MoE)架構的模型,以其高效、可擴展的特性,成為推動模型性能與計算效率雙贏的重要方向。

然而,MoE模型也帶來了新的挑戰(zhàn):激活參數(shù)稀疏,存儲壓力巨大,尤其在推理階段,雖然只激活少數(shù)專家,但所有專家參數(shù)必須常駐顯存,導致部署成本居高不下。如何讓MoE大模型“瘦身”而又不“失智”,成為業(yè)界亟待解決的問題。

研究動機

傳統(tǒng)PTQ方法如 GPTQ 和 AWQ 在標準LLMs中表現(xiàn)出色,但在應用到MoE模型時卻顯得力不從心。其原因在于:MoE架構的稀疏激活和動態(tài)路由機制,打破了常規(guī)量化對樣本分布和重要性評估的假設,導致量化后模型性能急劇下降。

為此,MoEQuant 識別并解決了兩個核心問題:

專家間不平衡 (Inter-expert imbalance):部分專家在校準過程中被頻繁激活,而另一些專家?guī)缀醣缓雎?,導致量化精度失衡?/p>

專家內(nèi)相關性不一致(Intra-expert imbalance):不同樣本與專家之間的“親和度”差異顯著,傳統(tǒng)量化忽略了這種動態(tài)關系,導致權重更新失真。

方法簡介

MoEQuant 引入如下兩項關鍵技術,有效解決上述挑戰(zhàn):

Expert-Balanced Self-Sampling(EBSS)

傳統(tǒng)量化依賴固定校準集(如 WikiText2),在 MoE 中容易出現(xiàn)樣本分布偏差。EBSS 利用模型自采樣機制,在確保語義合理的前提下,引導生成覆蓋各專家的均衡樣本集,顯著提升校準質(zhì)量。

Affinity-Guided Quantization (AGQ)

AGQ 首次將“樣本-專家親和度”納入量化過程,為每個樣本分配權重,引導誤差優(yōu)化方向,并重新定義Hessian矩陣計算方式,使量化更加精細化、感知MoE動態(tài)特性。

實驗結果

在Qwen-MoE-14B、DeepSeek-MoE-16B 和 Mixtral-8x7B 三大知名 MoE 模型上,MoEQuant 實現(xiàn)了令人矚目的成果:

HumanEval 編程任務準確率提升超10個百分點;

在 GSM8K、MMLU、BoolQ 等推理任務上表現(xiàn)全面優(yōu)于 GPTQ 和 AWQ;

部署效率提升:平均推理速度提升 1.2×,顯存節(jié)省 3.2×,支持在消費級GPU(如 RTX 4090)部署大模型。

更令人驚喜的是,在指令微調(diào)版本(Chat模型)中,MoEQuant 依然保持高精度,部分任務甚至超過全精度模型性能,這對實際應用部署具有重大意義。

總結

MoEQuant 的提出,不僅是大模型量化技術的一次飛躍,更是向“高性能+低成本”大模型部署目標邁出的堅實一步。在未來的AI應用場景中,無論是邊緣設備部署,還是云端推理優(yōu)化,MoEQuant 都將成為不可或缺的“壓縮利器”。

04【ACL-2025】GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

GSQ-Tuning:探索資源受限設備上的大模型微調(diào)新路徑

近年來,大語言模型(LLM)在自然語言處理、代碼生成、多模態(tài)理解等領域取得了突破性進展。然而,隨著模型規(guī)模的不斷擴大,將其部署到資源受限的邊緣設備,仍面臨諸多挑戰(zhàn)。傳統(tǒng)的微調(diào)方式通常依賴大規(guī)模浮點運算,不僅計算資源需求高,而且在涉及隱私數(shù)據(jù)時存在上傳云端的風險。

為此,我們提出了一種全新的大模型微調(diào)方法 GSQ-Tuning(Group-Shared Exponents Quantization Tuning),旨在實現(xiàn)低浮點依賴、端到端整數(shù)化的大模型微調(diào)流程,更適配隱私敏感與資源受限的終端場景。

方法簡介

GSQ-Tuning 的關鍵技術在于我們設計的 Group-Shared Exponents Integer(GSE)格式。針對傳統(tǒng)浮點格式中指數(shù)位冗余的問題,GSE 通過在一組參數(shù)中共享指數(shù)位,實現(xiàn)更高效的低比特整數(shù)表示。具體而言:

每組數(shù)據(jù)共享一個 5-bit 指數(shù)位;

替代浮點的隱式前導 1 表示,采用顯式整數(shù)表示;

通過指數(shù)共享,大幅減少了存儲與計算時的元數(shù)據(jù)開銷。

這一表示方式不僅保留了數(shù)據(jù)的動態(tài)范圍,還提升了表示密度,尤其適用于具有空間局部性特征的神經(jīng)網(wǎng)絡權重和激活值。

1.整數(shù)化算子支持:Forward & Backward

在算子層面,GSQ-Tuning 不僅支持前向傳播的整數(shù)矩陣乘法,還將整數(shù)計算擴展至反向傳播與梯度更新階段,實現(xiàn)真正意義上的 Fully Quantized Training。我們采用了經(jīng)典的 Quantize-Compute-Dequantize(QCD) 流程:

量化:將輸入權重、激活與梯度從高精度(如 BF16)轉換為 GSE-INT 格式;

計算:在整數(shù)域中完成乘加運算(MAC),利用共享指數(shù)實現(xiàn)高效縮放;

反量化:必要時將輸出轉換回高精度格式做后處理或損失計算。

這一流程不僅適配 INT5/INT6 等低比特精度,還顯著提升了對整數(shù)計算硬件(如手機 NPU、FPGA、邊緣 AI 芯片)的利用率。

2.與 LoRA 的結合:高效參數(shù)微調(diào)

為了進一步降低訓練開銷,我們將 GSQ-Tuning 與主流的 LoRA(Low-Rank Adaptation) 方法結合,僅對少量低秩矩陣進行更新。不同于 QLoRA 仍需在 BF16 精度下更新 LoRA 參數(shù),我們在 LoRA 分支同樣采用整數(shù)化表示與更新,使整個訓練流程真正實現(xiàn)浮點“歸零”。

我們還提出了 位寬與秩的協(xié)同優(yōu)化策略(Bits-Rank Pareto Frontier),根據(jù)資源預算靈活選擇參數(shù)配置,在精度與效率間找到最優(yōu)平衡。

實驗結果

我們在多個 LLaMA 系列模型(3B~70B)、多種微調(diào)數(shù)據(jù)集(Alpaca、CS170K)和任務(BoolQ、PIQA、HellaSwag 等)上進行了驗證:

在 6-bit 設置下,GSQ-Tuning 的精度與 FP16 微調(diào)幾乎持平,平均僅下降不到 1%;

與 FP8 相比,在相同任務精度下,功耗降低約 5 倍,芯片面積減少約 11 倍;

內(nèi)存使用方面,GSQ-Tuning 比 QLoRA 至少節(jié)省 40%~50% 的顯存開銷。

此外,在多模態(tài)任務(如 LLaVA-v1.5)中,我們也觀察到 GSE 格式在視覺-語言聯(lián)合學習中具有良好的遷移與泛化能力。

總結

GSQ-Tuning 是我們在大模型端側部署探索過程中的一次初步嘗試。通過全流程整數(shù)化、參數(shù)高效更新和硬件友好設計,我們希望為大模型在本地化、個性化、隱私保護等應用場景提供一種更實際、更落地的技術路徑。

上述4篇論文聚焦模型的編碼、量化、壓縮與微調(diào)等技術瓶頸,從性能提升到場景部署,多維展現(xiàn)了后摩智能在AI技術創(chuàng)新與應用上的前瞻性與深度思考。研究成果從理解準確率、空間占用率、推理速率、部署效率等多方面,為大模型的輕量化部署、端側部署以及邊緣設備部署提供了更多可行方案。

接下來,我們將依序發(fā)布4篇論文深度解析,詳盡分享每篇論文的創(chuàng)新思路等,歡迎關注。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8501

    瀏覽量

    134565
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14149
  • 后摩智能
    +關注

    關注

    0

    文章

    35

    瀏覽量

    1375
  • 大模型
    +關注

    關注

    2

    文章

    3134

    瀏覽量

    4054

原文標題:后摩前沿 | 后摩智能4篇論文入選CVPR、ICML、ACL三大國際頂會,攻關大模型端邊側部署關鍵技術

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    格靈深瞳六論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6論文入選
    的頭像 發(fā)表于 07-07 18:23 ?416次閱讀

    智能與高校合作研究成果榮獲ISCA 2025最佳論文

    近日,北京智能科技有限公司與北京大學集成電路學院孫廣宇長聘副教授團隊、上海交通大學張宸助理教授團隊、香港科技大學謝源講席教授團隊、東南大學司鑫副教授團隊及阿里巴巴達摩院合作的研究成果
    的頭像 發(fā)表于 07-05 11:21 ?598次閱讀

    理想汽車八論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,理想汽車共有8論文入選,其中5
    的頭像 發(fā)表于 07-03 13:58 ?250次閱讀

    智能入圍工信部算力強基揭榜行動

    近日,工業(yè)和信息化部(以下簡稱“工信部”)辦公廳印發(fā)《關于公布算力強基揭榜行動入圍名單的通知》,智能憑借 “高能效比邊端側大模型推理加速處理器” 成功入圍。這是國家行業(yè)管理部門對
    的頭像 發(fā)表于 06-26 18:00 ?442次閱讀

    云知聲論文入選自然語言處理ACL 2025

    結果正式公布。云知聲在此次國際學術盛會中表現(xiàn)卓越,共有4論文被接收,其中包括2論文(Ma
    的頭像 發(fā)表于 05-26 14:15 ?544次閱讀
    云知聲<b class='flag-5'>四</b><b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b>自然語言處理<b class='flag-5'>頂</b><b class='flag-5'>會</b>ACL 2025

    智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,智能自研NPU迅速實現(xiàn)Qwen3 系列模型(Qwen3 0.6B-14B)在端邊側的高效部署。這一成果充分彰顯了
    的頭像 發(fā)表于 05-07 16:46 ?536次閱讀

    智能入選中國移動AI能力聯(lián)合艦隊

    在第八屆數(shù)字中國建設峰會期間,中國移動正式發(fā)布 “AI 能力聯(lián)合艦隊”。作為存算一體芯片領域的先鋒,智能憑借顛覆式創(chuàng)新技術與強勁的算力支持能力,成功入選中國移動 “AI 能力聯(lián)合艦
    的頭像 發(fā)表于 05-06 17:14 ?526次閱讀

    匯川技術大國際展會圓滿收官

    近年來,匯川技術持續(xù)推動全球化發(fā)展戰(zhàn)略,依托強大的技術研發(fā)與智能制造能力,積極布局海外市場,持續(xù)推出符合各地標準的創(chuàng)新產(chǎn)品。 近日,匯川技術攜最新產(chǎn)品和解決方案再度亮相大國際展會——法國雷恩食品
    的頭像 發(fā)表于 03-26 15:17 ?636次閱讀

    智能5論文入選國際

    2025年伊始,智能在三大國際(AAAI、ICLR、DAC)中斬獲佳績,共有5
    的頭像 發(fā)表于 02-19 14:02 ?756次閱讀
    <b class='flag-5'>后</b><b class='flag-5'>摩</b><b class='flag-5'>智能</b>5<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b><b class='flag-5'>國際</b><b class='flag-5'>頂</b><b class='flag-5'>會</b>

    經(jīng)緯恒潤功能安全AI 智能論文成功入選EMNLP 2024!

    近日,經(jīng)緯恒潤在智能體(AIAgent)領域再獲佳績,其論文《Aegis
    的頭像 發(fā)表于 10-18 08:00 ?700次閱讀
    經(jīng)緯恒潤功能安全AI <b class='flag-5'>智能</b>體<b class='flag-5'>論文</b>成功<b class='flag-5'>入選</b>EMNLP 2024!

    智能首款存算一體智駕芯片獲評突出創(chuàng)新產(chǎn)品獎

    近日,2024年6月29日,由深圳市汽車電子行業(yè)協(xié)會主辦的「第十三屆國際汽車電子產(chǎn)業(yè)峰會暨2023年度汽車電子科學技術獎頒獎典禮」在深圳寶安隆重舉行。智能首款存算一體智駕芯片——
    的頭像 發(fā)表于 09-24 16:51 ?890次閱讀

    智能與聯(lián)想集團簽署戰(zhàn)略協(xié)議 共同探索AI PC技術創(chuàng)新與應用

    ? 近日,智能與聯(lián)想集團宣布簽署戰(zhàn)略合作協(xié)議,雙方將共同探索AI PC的技術創(chuàng)新與應用。根據(jù)協(xié)議約定,
    的頭像 發(fā)表于 07-31 17:24 ?1258次閱讀

    地平線科研論文入選國際計算機視覺ECCV 2024

    近日,地平線兩論文入選國際計算機視覺ECCV 2024,自動駕駛算法技術再有新突破。
    的頭像 發(fā)表于 07-27 11:10 ?1457次閱讀
    地平線科研<b class='flag-5'>論文</b><b class='flag-5'>入選</b><b class='flag-5'>國際</b>計算機視覺<b class='flag-5'>頂</b><b class='flag-5'>會</b>ECCV 2024

    芯動力科技論文入選ISCA 2024,與國際巨頭同臺交流研究成果

    布宜諾斯艾利斯舉行的ISCA 2024會議上發(fā)表演講,與Intel、AMD等國際知名企業(yè)同臺交流。 本屆ISCA共收到來自全球423高質(zhì)量論文投稿,經(jīng)過嚴謹?shù)脑u審流程
    的頭像 發(fā)表于 07-18 11:16 ?1060次閱讀
    芯動力科技<b class='flag-5'>論文</b><b class='flag-5'>入選</b>ISCA 2024,與<b class='flag-5'>國際</b>巨頭同臺交流研究成果

    谷歌DeepMind被曝抄襲開源成果,論文還中了流會議

    谷歌DeepMind一中了流新生代會議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項研究。開源的那種。
    的頭像 發(fā)表于 07-16 18:29 ?868次閱讀
    谷歌DeepMind被曝抄襲開源成果,<b class='flag-5'>論文</b>還中了<b class='flag-5'>頂</b>流會議