2025英偉達GPU架構技術選用指南


對於AI伺服器設計人員而言,選擇合適的GPU是決定係統效能、能源效率和總擁有成本的關鍵。
英偉達作為AI運算領域的領導者,其GPU架構的每一次迭代都標誌著運算能力的飛躍。
理解從Tesla到Hopper的架構演進,不僅關乎識別峰值算力,更關乎於理解其核心計算範式(如Tensor Core的引入)、內存子系統與互聯技術的進步。
本文將以運算架構為中心,整理其演進路徑、關鍵產品規格,並為選型提供系統性建議。
一、運算架構的奠基與萌芽期
1. Tesla架構 (2006-2009)
定位與特性: 這是英偉達GPGPU的起點。
Tesla架構首次引進了統一的著色器架構,可透過CUDA(2006年發布)進行通用平行運算。
此時尚無專用的AI計算單元,所有計算均在CUDA Core上完成。
代表產品: Tesla C1060 / T10
關鍵規格:
流處理器(CUDA Core): 240個
單精度浮算力(FP32): 933 GFLOPs
記憶體: 4GB GDDR3
互聯: PCIe 2.0
選型意義: 歷史意義大於實用意義,標誌著GPU可用於計算。
2. Fermi架構 (2010-2012)
定位與特性: 首個完整的GPU運算架構。
引入了真正的快取層次結構(L1/L2 Cache),支援ECC顯存,提升了雙精度(FP64)效能。它是真正為資料中心設計的架構雛形。
代表產品: Tesla M2090

關鍵規格:
CUDA Core: 512個
FP32算力: 1.33 TFLOPsFP64
算力: 665 GFLOPs (1:2 FP64/FP32比率)
記憶體: 6GB GDDR5 with ECC(1:2 FP64/FP32比率)
記憶體: 6GB GDDR5 with ECC
互聯: PCIe 2.002.002.002 資格計算和基礎科學。
二、現代AI計算的啟蒙與爆發期
3. Kepler架構 (2012-2014)
定位與特性: 追求性能與功耗的平衡。
引進了GPUDirect技術,降低了GPU與第三方設備(如網路卡)的通訊延遲。
雖然仍無專用AI核心,但其強大的FP32性能為早期深度學習研究提供了可能。
代表產品: Tesla K80 (雙芯顯示卡)
關鍵規格(每顆GPU):
CUDA Core: 2496個
FP32算力: 2.91 TFLOPs
記憶體: 12GB GDDR5 (每GPU,闆卡共24GB)
互聯: PCIe 3.0
選型意義:許多早期AI模型(如AlexNet)在Kepler及類似架構的GPU上被證明是可行的,開啟了AI的「暴力計算」時代。
4. Maxwell架構 (2014-2016)
定位與特性: 極致能效最佳化。
透過優化調度器和快取結構,在相同的功耗下提供了比Kepler更高的效能。
為後續架構的能源效率設計鋪平了道路。
代表產品: Tesla M40
關鍵規格:
CUDA Core: 3072個
FP32運算力: 7 TFLOPs
記憶體: 12GB / 24GB GDDR5
互聯: PCIe 3.0
選型意義: M40後期被廣泛用於AI推理,因其在INT8精度下具有良好的能效。三、AI運算的專業化與典範確立期5. Pascal架構 (2016-2017) :
AI運算的第一次飛躍定位與特性:NVLink 1.0: 首次引進高速GPU互聯技術,大幅提升多GPU間頻寬。
HBM2: 在旗艦卡上引入高頻寬內存,解決內存牆問題。
16nm FinFET製程: 帶來巨大的能源效率提升。
代表產品: Tesla P100 (有NVLink和PCIe兩個版本)
關鍵規格:
CUDA Core: 3584個
FP32算力: 10.6 TFLOPsFP16
算力:21.2 TFLOPs (無專用單元,僅使用NV (160 GB/s) / PCIe 3.0
選型意義: P100是首款為AI和HPC量身定制的資料中心GPU,其NVLink和HBM2奠定了現代AI伺服器的基本形態。
6. Volta架構 (2017-2020) :
革命性的Tensor Core到來
定位與特性:
Tensor Core: 革命性創新!專為矩陣運算設計的核心,支援混合精準度訓練,大幅提升了FP16和INT8的算力。
NVLink 2.0: 頻寬翻倍。
HBM2: 容量和頻寬繼續提升。首次整合NVSwitch於DGX-2中,實現多GPU全互聯。
代表產品: Tesla V100 (SXM2和PCIe形態)
關鍵規格:
CUDA Core: 5120個
張量核心: 640個
FP32算力: 15.7 TFLOPsFP16550個
張量核心: 640個FP32
運算力: 15.7 TFLOPsFP165056250 TGB~ HBM2
記憶體頻寬: 900 GB/s互聯: NVLink 2.0 (300 GB/s)
選型意義: V100是AI訓練領域的里程碑。
其Tensor Core使得訓練大型模型從“可能”變為“高效能”,至今仍在許多資料中心服役。
選擇V100意味著擁抱了成熟的AI運算範式。
四、AI計算的規模化與普及期7. Turing架構 (2018-2020) :
推理的革新定位與特性:
張量核心升級: 引入INT4和INT1精度支持,並增強INT8/FP16性能。
RT Core: 專注於光追,對AI伺服器選型意義不大。
雖然主打消費市場,但其專業卡在推理場景表現出色。
代表產品: Tesla T4 (低功耗推理卡)
關鍵規格:
CUDA Core: 2560个

张量核心: 320个

FP32算力: 8.1 TFLOPs

INT8算力(Tensor Core): 130 TOPS

INT4算力(Tensor Core): 260 TOPS

内存: 16GB GDDR6

功耗: 仅70W
選型意義: T4是邊緣推理和雲上推理的標竿產品。其極佳的能源效率比非常適合高密度、低延遲的推理伺服器。
8. Ampere架構 (2020-2022) :
通用性與AI性能的完美結合定位與特性:
第三代Tensor Core: 支援TF32、FP64 Tensor Core,以及稀疏化加速,AI性能暴增。結構性稀疏: 利用2:4的稀疏模式,理論上讓稀疏模型的算力增加一倍。 NVLink 3.0: 頻寬再次大幅提升。
多重執行個體GPU(MIG): 可將一塊實體GPU分割為多個獨立、安全的實例,並提升資源使用率。
A100 40GB/80GB: 採用HBM2e。
代表產品: Tesla A100 40GB/80GB PCIe & SXM4
關鍵規格(A100 80GB SXM):
关键规格(A100 80GB SXM):

  • CUDA Core: 6912个
  • 张量核心: 432个
  • FP32算力: 19.5 TFLOPs
  • TF32算力(Tensor Core, 稀疏): 312 TFLOPs
  • FP16/BF16算力(Tensor Core, 稀疏): 624 TFLOPs
  • INT8算力(Tensor Core, 稀疏): 1248 TOPS
  • 内存: 80GB HBM2e
  • 内存带宽: 2 TB/s
  • 互联: NVLink 3.0 (600 GB/s), NVSwitch

选型意义: A100是当前AI数据中心(训练和大型模型推理)的绝对主力。 其强大的算力、巨大的内存和带宽,以及MIG特性,使其成为构建大规模AI集群的首选。80GB版本尤其适合无法完全切分的大模型。六、AI伺服器GPU選型決策

五、AI计算的下一代:Transformer引擎与芯片互联

9. Hopper架构 (2022-至今) :面向巨型AI模型的架构

  • 定位与特性
    • Transformer引擎: 革命性技术,动态管理FP8、FP16精度,针对Transformer模型(如GPT、BERT)进行硬件级优化,提供数量级性能提升。
    • 第二代MIG: 支持更细粒度和安全的隔离。
    • NVLink 4.0: 高达900 GB/s的GPU间互联带宽。
    • 机密计算: 支持硬件级内存加密,满足更高安全需求。
    • HBM3: 更高带宽和容量。
  • 代表产品: H100 80GB SXM5 / PCIe 5.0
  • 关键规格(H100 80GB SXM5):
    • CUDA Core: ~14592个 (估算,基于GH100大核)
    • 张量核心: 第四代, 专为FP8优化
    • FP32算力: ~67 TFLOPs (估算)
    • FP8算力(Transformer Engine): ~3.9 PetaFLOPs (约4000 TFLOPs)
    • FP16算力(Transformer Engine): ~1.9 PetaFLOPs
    • 内存: 80GB HBM3
    • 内存带宽: 3.35 TB/s
    • 互联: NVLink 4.0 (900 GB/s), PCIe 5.0
  • 选型意义: H100是专为万亿参数级别大模型训练和推理设计的终极武器。 对于从事前沿AI研究与部署的机构,H100是构建下一代AI超算的唯一选择。其FP8性能和Transformer引擎是应对未来AI算力需求的关键。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *