NVIDIA 顯示卡 AI 效能表格參考

完整文章連結 [Notion]

人工智慧

CUDA Core 與 Tensor Core

CUDA Core 是 NVIDIA GPU 中的基礎計算單元，用於執行通用的浮點與整數運算。在沒有 Tensor Core 之前，機器學習均依賴其計算效能進行訓練。這個傳統架構直到 2016 年，隨著深度學習的興起， Pascal 系列開始有了改變，NVIDIA 此時導入初代 NVLink 技術，FP32 Cuda Core 也開始具有處理 FP16 的能力。
然而這樣還不夠，由於 Cuda Core 每個時脈週期只能進行一次計算，但是 CUDA Core 數量無法無止盡的堆疊。因此 NVIDIA 別出蹊徑，開發出了 Tensor Core，應用在下一代 Volta 系列上。它允許混合精度運算，並可動態調整運算，在加速傳輸量的同時保持精準度。使得 Volta 提供了比 Pascal 高數倍的訓練和推理效率。
此後，NVIDIA 在 Volta 架構的基礎上，對 Tensor Core 進行了更深度的設計，新增對更低精度計算的加速支援。自 Volta 系列問世以來，現今 Tensor Core 已發展至第五代，最低精度已經允許支援 FP4 精度。因此，在比較顯卡的 AI 計算效能時，通常以 Tensor Core 的加速效率作為主要判斷依據。

Tensor Core 支援精度

第一代 Tensor core
- 開始支援使用 FP16 進行混合精度訓練。
第二代 Tensor core
- 比起上一代，額外支援 INT8、INT4 的推理加速。
第三代 Tensor core
- 開始支援稀疏運算，效率為原先密集運算的兩倍。 (然而僅有極少數套件允許啟用)
- 開始支援 BF16，也是當前 LLM 主流的精度。
第四代 Tensor core (Ada & Hopper)
- 導入 Transformer Engine 函式庫，支援 FP8 精度訓練、微調。
第五代 Tensor core
- 升級至第二代 Transformer Engine，支援 FP6、FP4 精度。