英特爾公佈重大技術架構改變,面向 CPU、GPU 和 IPU
8 月 19 日訊息在 2021 年英特爾架構日上,英特爾公司高階副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 與多位英特爾架構師,介紹了兩種全新 x86 核心架構的詳情。
英特爾首個性能混合架構,代號“Alder Lake”,以及智慧的英特爾硬體執行緒排程器;專為資料中心設計的下一代英特爾至強可擴充套件處理器 Sapphire Rapids;基礎設施處理器 (IPU);即將推出的顯示卡架構,包括 XeHPG 微架構和 XeHPC 微架構,以及 Alchemist SoC,Ponte Vecchio SoC。
X86 核心
能效核
全新的英特爾能效核微架構,曾用代號“Gracemont”。能效核可以利用各種技術進步,在不耗費處理器功率的情況下對工作負載進行優先順序排序,並通過每週期指令數(IPC)改進功能直接提高效能,這些功能包括:
擁有 5000 個條目的分支目標快取區,實現更準確的分支預測
64KB 指令快取,在不耗費記憶體子系統功率的情況下儲存可用指令
英特爾的首款按需指令長度解碼器,可生成預解碼資訊
英特爾的簇亂序執行解碼器,可在保持能效的同時,每週期解碼多達 6 條指令
後端寬度(Wide Back End)具備 5 組寬度分配(Five-wide allocation)和 8 組寬度引退、256 個亂序視窗入口和 17 個執行埠
支援英特爾控制流強制技術和英特爾虛擬化技術重定向保護等功能
實現了 AVX 指令集以及支援整數人工智慧操作的新擴充套件
相比英特爾最多產的 CPU 核心 Skylake,在單執行緒效能下,能效核能夠在相同功耗下實現 40% 的效能提升,或在功耗不到 40% 的情況下提供同等效能。與執行四個執行緒的兩個 Skylake 核心相比,四個能效核所提供的吞吐量效能,能夠在功耗更低的情況下同時帶來 80% 的效能提升,而在提供相同吞吐量效能時,功耗減少 80%。
效能核
英特爾全新效能核微架構,曾用代號“Golden Cove”。效能核擁有更寬、更深、更智慧的架構:
更寬:解碼器由 4 個增至 6 個,6µop 快取增至 8µop,分配由 5 路增至 6 路,執行埠由 10 個增至 12 個
更深:更大的物理暫存器檔案(physical register files),擁有 512 條目的重排序緩衝區
更智慧:提高了分支預測準確度,降低了有效的一級時延,優化了二級的全寫入預測頻寬
效能核是英特爾有史以來構建的效能最高的 CPU 核心,並通過以下功能突破了低時延和單執行緒應用程式效能的極限:
相比目前的第 11 代英特爾酷睿處理器架構(Cypress Cove),在通用效能的 ISO 頻率下,針對大範圍的工作負載實現了平均約 19% 的改進
呈現出更高的並行性和執行並行性的增加
搭載英特爾高階矩形擴充套件(AMX),內建下一代 AI 加速提升技術,用於學習推理和訓練。AMX 包括專用硬體和新指令集架構,以明顯提高矩陣乘法運算
減少時延,對大型資料和程式碼體積較大的應用程式提供更好的支援
客戶端
Alder Lake 客戶端 SoC
代號為“Alder Lake”的英特爾下一代客戶端架構是英特爾的首款效能混合架構,它首次集成了兩種核心型別:效能核和能效核。Alder Lake 基於 Intel 7 製程工藝打造而成,支援最新記憶體和最快 I/O。
Alder Lake 支援從超行動式筆記本,到發燒級,到商用桌上型電腦的所有客戶端裝置,它採用了單一、高度可擴充套件的 SoC 架構,提供三類產品設計形態:
高效能、雙晶片、插座式的桌上型電腦處理器 ,具有領先效能和能效。支援高規格的記憶體和 I/O
高效能筆記本處理器,採用 BGA 封裝,並加入影象單元,更大的 Xe 顯示卡和 Thunderbolt 4 連線
輕薄、低功耗的筆記本處理器,採用高密度的封裝,配置優化的 I/O 和電能傳輸
英特爾需要在不影響功率的情況下滿足計算和 I/O 代理對頻寬的需求。為了解決這一挑戰,英特爾設計了三種獨立的內部匯流排,每一種都採用基於需求的實時啟發式後處理方式。
・計算內部匯流排可支援高達 1000GBps—— 即每個核心或每叢集 100GBps,通過最後一級快取將核心和顯示卡連線到記憶體
具有高動態頻率範圍,並且能夠動態選擇資料路徑,根據實際匯流排結構負載而進行時延和頻寬優化
根據利用率動態調整最後一級快取策略 —— 也就是“包含”或“不包含”
・I/O 內部匯流排支援可高達 64GBps,連線不同型別的 I/O 和內部裝置,能在不干擾裝置正常執行的情況下無縫改變速度,選擇內部匯流排速度來匹配所需的資料傳輸量
・記憶體結構可提供高達 204GBps 的資料,並動態擴充套件其匯流排寬度和速度,以支援高頻寬、低時延或低功耗的多個操作點
英特爾硬體執行緒排程器
為使效能核和能效核與作業系統無縫協作,英特爾開發了一種改進的排程技術,稱之為“英特爾硬體執行緒排程器”。硬體執行緒排程器直接內置於硬體中,可提供對核心狀態和執行緒指令混合比的低階遙測,讓作業系統能夠在恰當的時間將合適的執行緒放置在合適的核心上。硬體執行緒排程器具有動態性和自適應性 —— 它會根據實時的計算需求調整排程決策 —— 而非一種簡單的、基於規則的靜態方法。
傳統意義上,作業系統會根據有限的可用資料做出決策,如前臺和後臺任務。硬體執行緒排程器可通過以下方式增加新維度:
使用硬體遙測工具將需要更高效能的執行緒引導到當時適合的效能核上
更精細地監控指令組合、每核心當前狀態以及相關的微架構遙測,從而幫助作業系統做出更智慧的排程決策
通過與微軟合作,優化英特爾硬體執行緒排程器在 Windows11 上的效能
擴充套件 PowerThrottling API,使得開發人員能夠為其執行緒明確指定服務質量屬性
應用全新 EcoQoS 分類,該分類可讓排程程式獲悉執行緒是否更傾向於能效(此類執行緒會被排程到能效核)
XeHPG 微架構和 Alchemist SoC
XeHPG 是一款全新的獨立顯示卡微架構。XeHPG 微架構為 Alchemist 系列 SoC 提供動力,首批相關產品將於 2022 年第一季度上市,並採用新的品牌名 —— 英特爾銳炫(Intel Arc)。XeHPG 微架構採用全新的 Xe 核心,是一款聚焦計算、可程式設計且可擴充套件的元件。
客戶端顯示卡路線圖包括 Alchemist(此前稱之為 DG2)、Battlemage、Celestial 和 Druid SoC。在演講中,英特爾展示了微架構細節,並分享了在試產階段的 Alchemist SoC 上執行的演示視訊,包括真實遊戲展示,虛幻引擎 5 測試良好,全新的基於神經網路的超取樣技術 XeSS 等。
基於 XeHPG 微架構的 Alchemist SoC 能夠提供可擴充套件性和計算效率,並擁有以下關鍵架構特徵:
多達 8 個具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設計
全新 Xe 核心,擁有 16 個向量引擎和 16 個矩陣引擎(被稱為 XMX,即 XeMatrix eXtension)、快取記憶體和共享內部視訊記憶體
支援 DirectX Raytracing(DXR)和 Vulkan Ray Tracing 的新光線追蹤單元
通過架構、邏輯設計、電路設計、製程工藝技術和軟體優化,相比 XeLP 微架構實現 1.5 倍的頻率提升和 1.5 倍的每瓦效能提升
使用臺積電的 N6 製程節點上進行製造
XeSS
XeSS 利用 Alchemist 的內建 XMX AI 加速,帶來了一種可實現高效能和高保真視覺的全新升頻技術。其使用深度學習來合成接近原生高解析度渲染質量的影象。英特爾表示,憑藉 XeSS ,那些只能在低畫質設定或低解析度下玩的遊戲也能在更高畫質設定和解析度下順利執行。
XeSS 的工作原理是通過從相鄰畫素,以及對前一幀進行運動補償,來重建子畫素細節
重構由經過訓練的神經網路執行,可提供高效能和高畫質,同時效能提升高達兩倍
XeSS 憑藉 DP4a 指令,在包括整合顯示卡在內的各種硬體上提供基於 AI 的超級取樣
多家早期的遊戲開發商已開始使用 XeSS,本月將向獨立軟體供應商(ISV)提供 XMX 初始版本的 SDK,DP4a 版本將於今年晚些時候推出
資料中心
下一代英特爾至強可擴充套件處理器(代號為“Sapphire Rapids”)
Sapphire Rapids 的核心是一個分割槽塊、模組化的 SoC 架構,採用英特爾的嵌入式多晶片互連橋接(EMIB)封裝技術,在保持單晶片 CPU 介面優勢的同時,具有顯著的可擴充套件性。Sapphire Rapids 提供了一個單一、平衡的統一記憶體訪問架構,每個執行緒均可完全訪問快取、記憶體和 I/O 等所有單元上的全部資源,由此實現整個 SoC 具有一致的低時延和高橫向頻寬。
Sapphire Rapids 基於 Intel 7 製程工藝技術,採用英特爾全新的效能核微架構。
Sapphire Rapids 提供資料中心相關加速器,包括新的指令集架構和整合 IP,以在各種客戶工作負載和使用中提升效能。新的內建加速器引擎包括:
英特爾加速器介面架構指令集(AIA)—— 支援對加速器和裝置的有效排程、同步和訊號傳遞
英特爾高階矩陣擴充套件(AMX)——Sapphire Rapids 中引入的新加速引擎,可為深度學習演算法核心的 Tensor 處理提供大幅加速。其可以在每個週期內進行 2000 次 INT8 運算和 1000 次 BFP16 運算,實現計算能力的大幅提升。使用早期的 Sapphire Rapids 晶片,與使用英特爾 AVX-512 VNNI 指令的相同微基準測試版本相比,使用新的英特爾 AMX 指令集擴充套件優化的內部矩陣乘法微基準測試的執行速度提高了 7 倍以上,為 AI 工作負載中的訓練和推理上提供了顯著的效能提升
英特爾資料流加速器(DSA)—— 旨在解除安裝最常見的資料移動任務,這些任務會導致資料中心規模部署中的開銷。英特爾 DSA 改進了對這些開銷任務的處理,以提供更高的整體工作負載效能,並可以在 CPU、記憶體和快取以及所有附加的記憶體、儲存和網路裝置之間移動資料
基礎設施處理器(IPU)
IPU 是一種可程式設計的網路裝置,旨在使雲和通訊服務提供商減少在中央處理器(CPU)方面的開銷。英特爾推出了以下 IPU 家族的新成員。
Mount Evans 是英特爾的首個 ASIC IPU。Mount Evans 是與一家雲服務提供商共同設計和開發的。
超大規模就緒,提供高效能網路和儲存虛擬化解除安裝,同時保持高度控制
提供業界一流的可程式設計資料包處理引擎,支援防火牆和虛擬路由等用例
使用硬體加速的 NVMe 儲存介面,該介面擴充套件自英特爾傲騰技術,以模擬 NVMe 裝置
採用英特爾高效能 Quick Assist 技術,部署高階加密和壓縮加速
可使用現有普遍部署的 DPDK、SPDK 等軟體環境進行程式設計,並且可以採用英特爾 Barefoot Switch 部門開創的 P4 程式語言來配置管線
Oak Springs Canyon 是一個 IPU 參考平臺,基於英特爾至強 D 處理器(Intel Xeon-D)和英特爾 Agilex FPGA 構建:
解除安裝 Open Virtual Switch(OVS)等網路虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等儲存功能,並提供硬化的加密模組,提供 2x 100Gb 乙太網網路介面
能夠使用英特爾開放式 FPGA 開發堆疊 (英特爾 OFS) 定製其解決方案
使用現有普遍部署的軟體環境進行程式設計,包括已在 x86 上優化的 DPDK 和 SPDK
瞭解到,英特爾 N6000 加速開發平臺,代號為“Arrow Creek”,是專為搭載至強伺服器設計的 SmartNIC。其特性包括:
英特爾 Agilex FPGA。用於高效能的 100GB 網路加速的英特爾乙太網 800 系列控制器
支援多種基礎設施工作負載,使通訊服務提供商(CoSP)能夠提供靈活的加速工作負載,如 Juniper Contrail、OVS 和 SRv6,它以英特爾 PAC-N3000 的成功為基礎
XeHPC 和 Ponte Vecchio
Ponte Vecchio 基於 XeHPC 微架構。英特爾公佈了 XeHPC 微架構的 IP 模組資訊;包括每個 Xe 核的 8 個向量和矩陣引擎(稱為 XMX XeMatrix eXtensions);切片和堆疊資訊;以及包括計算、基礎和 XeLink 單元的處理節點的單元資訊。在架構日上,英特爾表示,早期的 Ponte Vecchio 晶片展示了領先的效能,在流行的 AI 基準測試中創造了推理和訓練吞吐量的行業記錄。英特爾 A0 晶片效能提供了高於 45 TFLOPS 的 FP32 吞吐量,高於 5 TBps 的記憶體結構頻寬,以及高於 2 TBps 的連線頻寬。同時,英特爾分享了一段演示視訊,展示了 ResNet 推理效能超過 43,000 張影象/秒和超過每秒 3400 張影象/秒的 ResNet 訓練。
Ponte Vecchio 由多個複雜的設計組成,這些設計以單元形式呈現,然後通過嵌入式多晶片互連橋接(EMIB)單元進行組裝,實現單元之間的低功耗、高速連線。這些設計均被集成於 Foveros 封裝中,為提高功率和互連密度形成有源晶片的 3D 堆疊。高速 MDFI 互連允許 1 到 2 個堆疊的擴充套件。
計算單元是一個密集的多個 Xe 核心,是 Ponte Vecchio 的核心。
一塊單元有 8 個 Xe 核心,總共有 4MB 一級快取,是提供高效計算的關鍵
基於臺積電先進的 N5 製程工藝技術
英特爾已通過設計基礎設施設定和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路
該單元具有極其緊湊的 36 微米凸點間距,可與 Foveros 進行 3D 堆疊
基礎單元是 Ponte Vecchio 的連線組織。它是基於 Intel 7 製程工藝的大型晶片,針對 Foveros 技術進行了優化。
基礎單元是所有複雜的 I/O 和高頻寬元件與 SoC 基礎設施 ——PCIe Gen5、HBM2e 記憶體、連線不同單元 MDFI 鏈路和 EMIB 橋接
採用高 2D 互連的超高頻寬 3D 連線時延很低,使其成為一臺無限連線的機器
英特爾技術開發團隊致力於滿足頻寬、凸點間距和訊號完整性方面的要求
Xe 鏈路單元提供了 GPU 之間的連線,支援每單元 8 個鏈路。
對 HPC 和 AI 計算的擴充套件至關重要
旨在實現支援高達 90G 的更高速 SerDes
該單元已被新增到“極光”(Aurora)百億億次級超級計算機的擴充套件解決方案中
Ponte Vecchio 已走下生產線進行上電驗證,並已開始向客戶提供限量樣品。Ponte Vecchio 預計將於 2022 年面向 HPC 和 AI 市場釋出。
oneAPI
目前,NVIDIA GPU、AMD GPU 和 Arm CPU 均有 Data Parallel C++(DPC++)和 oneAPI 庫。同時,英特爾還提供了商業產品,包括基本的 oneAPI 基礎工具包,它在規範語言和庫之外增加了編譯器、分析器、偵錯程式和移植工具。
英特爾的 oneAPI 工具包擁有超過 20 萬次單獨安裝
市場上部署的 300 多個應用程式採用了 oneAPI 的統一程式設計模型
超過 80 個 HPC 和 AI 應用程式使用英特爾 oneAPI 工具包在 Xe HPC 微架構上執行
5 月份釋出的 1.1 版臨時規範為深度學習工作負載和高階光線追蹤庫添加了新的圖形介面,預計將在年底完成