據(jù)Global Market Insights 數(shù)據(jù),全球 GPU 市場(chǎng)預(yù)計(jì)將以 CAGR 25.9%持續(xù)增長(zhǎng),至 2030 年達(dá)到 4000 億美元規(guī)模。其中 AI 領(lǐng)域大語(yǔ)言模型的持續(xù)推出以及參數(shù)量的不斷增長(zhǎng)有望驅(qū)動(dòng)模型訓(xùn)練端、推理端 GPU 需求快速增長(zhǎng)。
近年來,國(guó)產(chǎn) GPU 廠商在圖形渲染 GPU 和高性能計(jì)算 GPGPU 領(lǐng)域上均推出了較為成熟的產(chǎn)品,在性能上不斷追趕行業(yè)主流產(chǎn)品,在特定領(lǐng)域達(dá)到業(yè)界一流水平。生態(tài)方面國(guó)產(chǎn)廠商大多兼容英偉達(dá) CUDA,融入大生態(tài)進(jìn)而實(shí)現(xiàn)客戶端不斷導(dǎo)入。在高端GPU 芯片進(jìn)口受限的背景下,國(guó)產(chǎn) GPU 廠商預(yù)計(jì)將乘政策東風(fēng),抓住國(guó)產(chǎn)替代契機(jī)快速成長(zhǎng)。
GPU(圖形處理器)最初是為了解決 CPU 在圖形處理領(lǐng)域性能不足的問題而誕生。CPU 作為核心控制計(jì)算單元,高速緩沖存儲(chǔ)器(Cache)、控制單元(Control)在 CPU 硬件架構(gòu)設(shè)計(jì)中所占比例較大,主要為實(shí)現(xiàn)低延遲和處理單位內(nèi)核性能要求較高的工作而存在,而計(jì)算單元(ALU)所占比例較小,這使得 CPU 的大規(guī)模并行計(jì)算表現(xiàn)不佳。GPU 架構(gòu)內(nèi)主要為計(jì)算單元,采用極簡(jiǎn)的流水線進(jìn)行設(shè)計(jì),適合處理高度線程化、相對(duì)簡(jiǎn)單的并行計(jì)算,在圖像渲染等涉及大量重復(fù)運(yùn)算的領(lǐng)域擁有更強(qiáng)運(yùn)算能力。 GPGPU脫胎于GPU,通用性提升
CPU+GPU 異構(gòu)計(jì)算解決多元化計(jì)算需求
大語(yǔ)言模型開啟 AI 元年
大語(yǔ)言模型有望拉動(dòng) GPU 需求增量
GPU 的微架構(gòu)是用以實(shí)現(xiàn)指令執(zhí)行的硬件電路結(jié)構(gòu)設(shè)計(jì) 以 Nvidia 第一個(gè)實(shí)現(xiàn)統(tǒng)一著色器模型的 Tesla 微架構(gòu)為例,從頂層 Host Interface 接受來自 CPU 的數(shù)據(jù),藉由 Vertex(頂點(diǎn))、Pixel(片元)、Compute(計(jì)算著色器)分發(fā)給各 TPC(Texture Processing Clusters 紋理處理集群)進(jìn)行處理。
流處理器、特殊函數(shù)計(jì)算單元構(gòu)成計(jì)算核心 在單個(gè) TPC 中主要的運(yùn)算結(jié)構(gòu)為SM(Streaming Multiprocessor 流式多處理器),其內(nèi)在蘊(yùn)含 I Cache(指令緩存)、C Cache(常量緩存)以及核心的計(jì)算單元 SP(Streaming Processor 流處理器)和 SFU(Special Function Unit 特殊函數(shù)計(jì)算單元),外加 Texture Unit(紋理單元)。
解耦計(jì)算單元,擁抱通用計(jì)算 由于圖形渲染流管線相對(duì)固定,Nvidia 在 Tesla構(gòu)中將部分重要環(huán)節(jié)剝離并實(shí)現(xiàn)可編程,解耦出 SM 計(jì)算單元用于通用計(jì)算,即可實(shí)現(xiàn)根據(jù)具體任務(wù)需要分配相應(yīng)線程實(shí)現(xiàn)通用計(jì)算處理。
計(jì)算核心、紋理單元增加, GPC 功能更加完整,Nvidia Fermi 架構(gòu)奠定完整GPU 計(jì)算架構(gòu)基礎(chǔ)。
在Tesla 之后,Nvidia 第一個(gè)完整的 GPU 計(jì)算架構(gòu) Fermi通過制程微縮增加更多計(jì)算核心、紋理單元,并且通過增加 PolyMorph Engine(多形體引擎)和 Raster Engine(光柵引擎)使得原來 TPC 升級(jí)成為擁有更加完整功能的 GPC(Graphics Processing Clusters 圖形處理器集群)。Fermi 架構(gòu)共包含 4 個(gè) GPC,16 個(gè) SM,512 個(gè)CUDA Core。
英偉達(dá)GPU從最初 Fermi 架構(gòu)到最新的 Ampere 架構(gòu)和 Hopper 架構(gòu)
每一階段都在性能和能效比方面得到提升,引入了新技術(shù),如 CUDA、GPUBoost、RT 核心和 Tensor 核心等,在圖形渲染、科學(xué)計(jì)算和深度學(xué)習(xí)等領(lǐng)域發(fā)揮重要作用。最新一代 Hopper 架構(gòu)在 2022 年 3 月推出,旨在加速 AI 模型訓(xùn)練,使用 Hopper Tensor Core 進(jìn)行 FP8 和 FP16 的混合精度計(jì)算,以大幅加速Transformer 模型的 AI 計(jì)算。與上一代相比,Hopper 還將 TF32、FP64、FP16 和INT8 精度的每秒浮點(diǎn)運(yùn)算(FLOPS)提高了 3 倍。
AMD 作為全球第二大GPU廠商,亦通過持續(xù)的架構(gòu)演進(jìn)保持其市場(chǎng)領(lǐng)先地位
從2010年以來,AMD 相繼推出:GCN 架構(gòu)、RDNA 架構(gòu)、RDNA 2 架構(gòu)、RDNA 3 架構(gòu)、CDNA 架構(gòu)和 CDNA 2 架構(gòu)。最新一代面向高性能計(jì)算和人工智能 CDNA 2 架構(gòu)于架構(gòu)采用增強(qiáng)型 Matrix Core 技術(shù),支持更廣泛的數(shù)據(jù)型和應(yīng)用,針對(duì)高性能計(jì)算工作負(fù)載帶來全速率雙精度和全新 FP64 矩陣運(yùn)算。基于 CDNA2 架構(gòu)的 AMD Instinct MI250X GPU FP64 雙精度運(yùn)算算力最高可達(dá) 95.7 TFLOPs。
審核編輯 :李倩
-
gpu
+關(guān)注
關(guān)注
28文章
4943瀏覽量
131203 -
微架構(gòu)
+關(guān)注
關(guān)注
0文章
22瀏覽量
7192
原文標(biāo)題:GPU競(jìng)爭(zhēng)壁壘:微架構(gòu)和平臺(tái)生態(tài)
文章出處:【微信號(hào):架構(gòu)師技術(shù)聯(lián)盟,微信公眾號(hào):架構(gòu)師技術(shù)聯(lián)盟】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗(yàn)】+NVlink技術(shù)從應(yīng)用到原理
從封閉到開放:聚徽解碼安卓工控機(jī)如何打破工業(yè)軟件生態(tài)壁壘
GPU架構(gòu)深度解析

ARM Mali GPU 深度解讀
iTOP-3588S開發(fā)板四核心架構(gòu)GPU內(nèi)置GPU可以完全兼容0penGLES1.1、2.0和3.2。
GPU加速計(jì)算平臺(tái)的優(yōu)勢(shì)
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
GPU服務(wù)器AI網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

評(píng)論