主打深度學習 NVIDIA 推出 Tesla P100 加速器

分類: PC零組件 新品報導   4/6/2016   NVIDIA


NVIDIA 宣布推出史上最先進的 NVIDIA Tesla P100 GPU。NVIDIA Tesla 加速運算平台的生力軍 Tesla P100,打造出能提供媲美數百個 CPU 伺服器節點運算效能的新一代伺服器。目前的資料中心利用其擁有巨大的網路基礎架構與眾多互連商用 CPU 伺服器處理網路服務等大量工作,然而卻無法因應下一代的人工智慧和科學應用項目,那需要超高效率和光速般處理速度的伺服器節點才能處理。

Tesla P100 採用全新 NVIDIA Pascal GPU 架構與五項突破性技術,提供無與倫比的運算效能表現和效率以處理極為需要運算能力的應用項目。

NVIDIA 公司共同創辦人暨執行長黃仁勳先生表示:「我們在科學和科技上最大的難題,像是尋找治療癌症的方法、瞭解氣候變遷的情況、打造智慧的機器等,都需要極致的運算效能。我們從零開始設計 Pascal GPU 架構,從各個層面採用創新的技術,讓運算效能和效率方面出現突飛猛進的進展,幫助最聰明、最有才華的人士推動科學、科技的未來發展。」

IBM 研究院認知解決方案部門資深副總裁 John Kelly III 博士表示:「隨著我們進入嶄新的運算時代,便需要對根本的技術發展出全新的方法以完全發揮人工智慧和認知技術的優勢。透過結合 NVIDIA GPU 與 OpenPOWER 技術,早已加快 Watson 學習新技能的速度。如今 IBM 的 Power 架構與 NVIDIA 的 Pascal 架構,再加上 NVLink 技術,將更進一步提高處理認知相關工作的表現,促進人工智慧產業的發展。」

五項架構突破技術
Tesla P100 的五項架構突破技術提供極為出色的效能、擴充能力和編程效率:

· NVIDIA Pascal 架構大幅提升運算效能:與前一代採用 NVIDIA Maxwell 架構的解決方案相比,採用 Pascal 架構的 Tesla P100 解決方案在訓練神經網路方面的效能表現提升了12倍。
· NVIDIA NVLink 技術讓應用程式擁有最大的擴充能力: NVIDIA NVLink 高速 GPU 互連技術將應用程式的運算範圍擴大到多個 GPU 上,頻寬較目前同級最佳解決方案速度提高5倍1。 NVLink 最多可互連8個 Tesla P100 GPU,使得單一節點發揮最高應用效能,而 IBM 已在其 POWER8 CPU 上採用 NVLink 技術,以求在 CPU 與 GPU 間能快速傳遞資料。
· 16奈米 FinFET 擁有優秀的省電表現: Pascal 架構 GPU 採用 16 奈米 FinFET 製程技術製造出的153億個電晶體,為全球史上最大的 FinFET 晶片2,這樣的設計提供最高運算速度和最佳省電表現,以處理有著近乎無止盡運算需求的作業負載。
· CoWoS 技術搭載 HBM2 記憶體以處理巨量資料作業負載 : Pascal 架構將處理器和資料納入單一封裝中以提供卓越的運算效率。創新的 Chip on Wafer on Substrate (CoWoS) 記憶體設計技術搭載 HBM2 記憶體,在記憶體頻寬表現方面比Maxwell 架構提升了3倍 (每秒 720GB)。
· 嶄新的人工智慧演算法擁有亮眼的尖峰運算效能表現 :全新半精度指令擁有出色的 21 TFLOPS 深度學習尖峰運算效能表現。

Tesla P100 GPU 加速器將多項高性能運算 (HPC) 與深度學習應用項目的效能提升到新的境界,包括比起48個雙插槽 CPU 伺服器節點,AMBER 分子動力學程序搭配 Tesla P100 GPU 能加快在單一伺服器節點上的運行程度3;在訓練熱門的 AlexNet 深度神經網路時,得要250個雙插槽 CPU 伺服器節點才能媲美8個 Tesla P100 GPU的效能4;而廣泛使用的天氣預報應用程式 COSMO 在8個 Tesla P100 GPU 上運行的速度,比在27具雙插槽 CPU 伺服器上運行的速度還要更快5。

Tesla P100 是首款能分別為雙精度和單精度運算效能提高5與10 TFLOPS 的加速器,大幅提高處理能力和多個領域研究工作的發現時間。

NVIDIA SDK 更新項目
NVIDIA 亦宣布為全球最強大的 GPU 運算開發平台 NVIDIA SDK 推出更新項目。

這些更新項目包括 NVIDIA 平行運算平台的最新版本 NVIDIA CUDA® 8,讓開發人員能直接取得 Pascal 強大的新功能,包含統一記憶體架構和 NVLink。在更新項目裡還有一項全新的圖形分析函式庫 nvGRAPH,可用於機器人的路徑規劃、網路安全和物流分析,將 GPU 加速技術的應用範圍擴大到巨量資料的分析領域。

NVIDIA 還宣布用於深度神經網路的 GPU 加速基本函式庫 cuDNN version 5。cuDNN 5 加入支援 Pascal GPU、加快用於視訊和順序數據之遞迴神經網路的運算速度,以及額外加強在醫療、石油天然氣等產業的使用情況。cuDNN 技術加快多個居領導地位的深度學習架構運算速度,包括 Google 的 TensorFlow、加州大學柏克萊分校的 Caffe、蒙特婁大學的 Theano 和紐約大學的 Torch,而這些在背後成為 Amazon、Facebook、Google 等網路巨擘採用的深度學習解決方案。

Tesla P100 規格
Tesla P100 GPU 加速器的規格如下:

· 搭載 NVIDIA GPU BOOST 技術達到 5.3 TFLOPS 雙精度效能、10.6 TFLOPS 單精度效能、21.2 TFLOPS 半精度效能的水準
· 搭載 NVIDIA NVLink 技術達到每秒 160GB 的雙向互連頻寬
· 16GB 的 CoWoS HBM2 堆疊記憶體
· 每秒 720GB 的記憶體頻寬搭載 CoWoS HBM2 堆疊記憶體
· 頁面移轉引擎與統一記憶體架構提高編程能力
· ECC 保護能力提高了可靠性
· 針對伺服器進行優化,提供最高級資料中心處理量和可靠性

供貨時程
全新 NVIDIA DGX-1 深度學習系統內採用 Pascal 架構的 NVIDIA Tesla P100 GPU 加速器將於6月上市,各大伺服器製造商預計於2017年初開始供貨。

附註:
(1) NVLink提供160GB/sec的雙向互連頻寬,與第3代PCIe x16提供31.5GB/sec的雙向傳輸頻寬之比較
(2) NVIDIA Tesla P100 GPU內含153億個16奈米FiNFET製程電晶體
(3) CPU 系統:48節點,每個節點內含2顆Intel E5-2680v3 12 核心; 128GB的DDR4主記憶體; FDR IB 互連技術之 GPU系統。GPU 系統: 單節點; 2顆Intel E5-2698 v3 16 核心; 512GB的DDR4主記憶體; 4顆Tesla P100繪圖處理器,內含NVLink 互連技術
(4) Caffe/AlexNet在一個用搭載雙插槽Intel Xeon E5-2697 v3處理器的系統所組建的叢集上訓練ImageNet大型視覺辨識競賽(ILSVRC-2012年度)資料集所耗費的時間,此叢集採用InfiniBand互連技術。250個節點的效能推估數據是根據以下資料來源: https://software.intel.com/en-us/articles/caffe-training-on-multi-node-distributed-memory-systems-based-on-intel-xeon-processor-e5.
(5) CPU 系統:2顆Intel E5-2698 v3 16 核心;256GB的DDR4主記憶體。GPU系統: 單節點,2顆Intel E5-2698 v3 16 核心; 512GB的DDR4主記憶體;8顆Tesla P100 GPU,內含NVLink互連技術。