首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計算|芯片報告|智慧城市|移動互聯(lián)網(wǎng)|會展
首頁 >> 頭條固定一 >> 正文

突破局限,第四代至強以七大算力神器詮釋工作負載至上

2023年1月19日 07:16  CCTIME飛象網(wǎng)  作 者:魏德齡

飛象網(wǎng)訊(魏德齡/文)身處數(shù)字化轉型浪潮的當下,人們對于運算的認知也正在發(fā)生變化,除了本地算力,邊緣與云端的算力對于工作娛樂生活的影響越來越大,它決定了生命科學的進展、大數(shù)據(jù)的推理、搜索內容的準確性、視頻流媒體的清晰與否、網(wǎng)絡能否保持穩(wěn)定流暢等諸多方面。

英特爾至強可擴展處理器在其中一直發(fā)揮著至關重要的作用,無論是企業(yè)的服務器與數(shù)據(jù)中心,還是電信運營商的5G網(wǎng)絡部署與云化轉型,甚至可能是部分城市中的VR電玩店,都能看到至強的身影。自2017年英特爾推出了第一款至強可擴展處理器以來,英特爾已經向全球客戶交付了超過8500萬顆至強可擴展處理器,支持著全世界的數(shù)據(jù)中心。其中,在過去兩年,第三代英特爾至強可擴展處理器已全球累計出貨1500萬顆。

面對當下的種種現(xiàn)實工作負載需求,最新發(fā)布的第四代至強不僅僅單純依靠于主頻與核心的提升來滿足實際需求,更是通過七大算力神器,開啟一個CPU芯片設計理念和架構的新紀元。

 

七大算力神器突破現(xiàn)有局限

“從行業(yè)應用需求到真實物理世界的局限性,我們越來越清晰地感知到,僅僅依靠核心頻率和核心數(shù)量的增強,將不能滿足我們在真實工作負載場景下對CPU性能更高的追求!庇⑻貭柺袌鰻I銷集團副總裁莊秉翰在產品發(fā)布過程中表示。

第四代至強專門針對人工智能、5G網(wǎng)絡、數(shù)據(jù)分析、科學計算等現(xiàn)代工作負載,引入全新的針對實際工作負載優(yōu)化加速的設計理念,采用系統(tǒng)級設計方法,在CPU芯片架構中內置專用的工作負載加速器,以提升性能和效率。實際上,這種針對實際工作負載的優(yōu)化,目前已經成為了芯片設計中的新方向,例如個人電腦芯片會針對視頻轉碼工作,進行專門的硬件加速設計。CPU的一些工作也逐步被GPU、NPU所分流,進而釋放更多算力空間。

第四代至強專門提供了七大算力神器來針對不同的實際工作需求,包括了:加速深度學習實時推理和訓練性能提升的英特爾AMX加速器;加速處理網(wǎng)絡數(shù)據(jù)系統(tǒng)性能提升的英特爾DLB加速器;加速在存儲、網(wǎng)絡工作負載中常見的流數(shù)據(jù)移動的英特爾DSA加速器;加速在數(shù)據(jù)分析工作負載中優(yōu)化內存占用和查詢吞吐量的英特爾IAA加速器;加速網(wǎng)絡吞吐量以及壓縮解壓縮功能的英特爾QAT加速器;加速平臺安全性能的英特爾安全技術策略組合;以及提供高帶寬內存的英特爾至強CPU Max系列。在基礎參數(shù)上,第四代至強采用Intel 7制程,通過集成高性能核、更多內核數(shù)量、業(yè)內高需求的數(shù)據(jù)中心工作負載的相關加速器,以及業(yè)界領先的DDR5、CXL1.1、PCIe 5.0。

其中英特爾AMX專屬AI加速器,大幅提升矩陣乘法運算,為人工智能加速提供了全新方式,與上一代(FP32)相比,內置英特爾高級矩陣擴展(英特爾AMX)(BF16)的PyTorch實時AI推理和訓練性能提高了10倍。結合通用CPU計算單元,第四代英特爾至強可擴展處理器可以端到端運行任何AI工作負載。

英特爾動態(tài)負載均衡加速器(英特爾DLB)支持在多個CPU內核及線程間高效分布網(wǎng)絡工作負載,實現(xiàn)分布式處理,并在負載不平衡時,動態(tài)地將數(shù)據(jù)負載重新分配到各個CPU內核上,實現(xiàn)動態(tài)負載均衡。此外,英特爾DLB還可以調整CPU內核上同時處理的網(wǎng)絡數(shù)據(jù)包的順序,實現(xiàn)動態(tài)網(wǎng)絡處理重排序,從而達到更高的整體系統(tǒng)性能。測試數(shù)據(jù)顯示,與Istio入口網(wǎng)關軟件在6核12線程上的工作性能相比,第四代英特爾至強處理器在相同吞吐量(RPS)下可降低96%延遲。與前一代處理器相比,在相同功率范圍下,vRAN工作負載的容量提升高達2倍。

在數(shù)據(jù)密集型工作負載應用場景下,數(shù)據(jù)移動是最常見的工作負載處理任務。為了幫助用戶在存儲,網(wǎng)絡和數(shù)據(jù)分析中實現(xiàn)更快速的數(shù)據(jù)移動,英特爾在第四代至強處理器中添加了數(shù)據(jù)流加速器(Intel DSA),有助于加快CPU、內存、緩存以及存儲和網(wǎng)絡設備之間的數(shù)據(jù)移動。應用將數(shù)據(jù)活動從CPU內核遷移到DSA專屬加速器,可大幅釋放CPU性能并降低時延,讓用戶可以更高效地管理CPU內核,提高利用率。測試數(shù)據(jù)顯示,與ISA-L軟件相比,內置Intel DSA加速器可使SPDK-NVMe的IOPs提高1.7倍;與上一代相比,大數(shù)據(jù)包順序讀取的IOPS提升60%,并降低37%時延。而英特爾內存分析加速器 (Intel IAA) 針對數(shù)據(jù)庫和分析工作負載,可提高內存查詢吞吐量,減少內存數(shù)據(jù)庫和大數(shù)據(jù)分析工作負載的內存占用。Intel IAA是內存數(shù)據(jù)庫、開源數(shù)據(jù)庫和數(shù)據(jù)存儲(如RocksDB和ClickHouse)的理想選擇。與上一代相比,Intel IAA加速器可使RocksDB性能提高3倍。

針對安全性需求,英特爾SGX、TME、算法硬件加速等,能夠為客戶提供了全方位的、契合客戶需求的安全解決方案。英特爾第四代至強幫助實現(xiàn)零信任安全策略,通過先進的硬件安全技術為業(yè)務部署和風險洞察提供全新解決方案,包括提供對工作負載和數(shù)據(jù)的隱私和訪問控制,為強大而普遍應用的加密運算提供更高的性能,并為用戶提供預期行為的硬件保護,以及確保平臺引導到已知的良好狀態(tài)。

集成HBM的英特爾至強CPU Max系列提供進一步的性能增強,也是首款基于X86的高帶寬內存(HBM)處理器,可支持高達640億字節(jié)超高帶寬封裝內存。4個物理tile通過嵌入式多芯片互連橋接(EMIB)單元連接,每個tile都連接到一個專用的16gb HBM內存堆棧。測試數(shù)據(jù)顯示,與上一代相比,英特爾至強CPU Max可使科學計算工作負載性能提高3.7倍。

同期,英特爾還發(fā)布了首個旗艦級數(shù)據(jù)中心GPU—英特爾數(shù)據(jù)中心GPU Max系列。該產品采用3D封裝的Chiplet技術,在單個產品上整合了47個小芯片,集成了超過了1000億個晶體管。Max系列GPU提供多達128個Xe內核和光線追蹤單元,高達128 GB的高帶寬內存。相較上一代產品,Max CPU和Max GPU的組合,可以使生命與材料科學領域經常使用的LAMMPS處理性能提升12.9倍。

 

詮釋工作負載至上

強大的性能表現(xiàn),更要能夠在實際工作中實現(xiàn)效能的提升!拔覀兊目蛻艉推髽I(yè)正在跨工作負載優(yōu)化他們相關的KPI,無論這些KPI是包括更好的性能、更好的效率、更好的延遲、更好的每瓦平臺性能,還是更好的系統(tǒng)成本(TCO)。”莊秉翰表示英特爾至強的架構、平臺和加速器創(chuàng)新為在其環(huán)境中運行一系列工作負載的客戶提供了一套性能領先的產品解決方案,無論是在云端、邊緣還是在本地,通過更多CPU核心和內置加速器組合,提供強大的性能提升。目前,第四代英特爾至強的七大算力神器已經主力合作伙伴在不同領域的業(yè)務中實現(xiàn)提升。

騰訊自研的一站式機器學習平臺騰訊太極利用第四代至強的AMX指令集,對矩陣計算的加速能力可以實現(xiàn)BERT模型BF16吞吐量提升到上一代Ice Lake的3.202倍,Int8的吞吐量可以達到2.05倍的性能指標。騰訊視頻云的明眸高清借助第四代至強的AI能力,解決了以往轉碼過程中的瓶頸,通過和英特爾技術團隊的聯(lián)合攻關,目前使用至強的指令加速和優(yōu)化之后,視頻增強部分的性能可以提升到以前的1.86倍,在目標檢測推力部分的性能可以提高到以前的1.95倍,極大改善了CPU的推理性價比,也可以使視頻增強的服務由獨立CPU計算集群就可以完成,大大降低現(xiàn)在的運營成本。

中國電信天翼云利用第四代英特爾至強的英特爾DLB硬件加速特性,針對IPSec的大象流處理做了優(yōu)化。相比之前的純軟件方案,英特爾DLB的加速方案穩(wěn)定可靠,帶來了更好的線性擴展,最高可以達到4倍以上的吞吐收益,有效解決了在入云環(huán)節(jié)針對大象流加密處理的業(yè)務難題。

新一代京東自研服務器天樞,得益于第四代至強所帶來的如DDR5、PCIe Gen 5等新平臺特性,以及與英特爾定制的新一代CPU中進行的一些特定性能優(yōu)化和規(guī)格定制,整體性能較上一代提升了70%。其中通過Intel IAA帶來的性能優(yōu)化特性,不管是壓縮率還是QPS等指標,均取得了大幅提升。通過Intel DSA在虛擬化場景下,整體最大可以帶來1.7倍以上的性能提升。

字節(jié)跳動旗下的火山引擎通過采用最新第四代英特爾至強,在單核能力上、在網(wǎng)絡轉發(fā)能力上,包括在加解密、視頻和AI推理訓練能力上,都獲得了大幅提升,根據(jù)測試顯示可獲得30%以上的整體收益提升。以此為性能基礎,包括計算密集型、內存密集型、IO密集型以及HPC的場景實例都會全面切換到基于第四代英特爾至強的引擎上來,幫助游戲、汽車、醫(yī)藥、金融等行業(yè),在內外部共同釋放算力,并提升性價比。

吉利汽車在超算建設過程中,也選擇了第四代英特爾至強可擴展處理器,依托其強勁的算力,能夠支持仿真業(yè)務的高效運行,能夠得到更精準的性能結果,高效的推進研發(fā)測試,打造更好的汽車品質。吉利汽車集團將借力新一代至強處理器的算力底座,將利用數(shù)據(jù)和數(shù)字技術的力量,重新定義產品、研發(fā)及制造,助力企業(yè)實現(xiàn)高質增長目標。

展望未來,英特爾提供算力、安全、網(wǎng)絡、存儲、管理、綠色可持續(xù)發(fā)展等七大支柱性技術優(yōu)勢和產品方案,支持從云到邊緣的架構升級,助力產業(yè)發(fā)展 “芯加速,行至遠”。

編 輯:路金娣
聲明:刊載本文目的在于傳播更多行業(yè)信息,本站只提供參考并不構成任何投資及應用建議。如網(wǎng)站內容涉及作品版權和其它問題,請在30日內與本網(wǎng)聯(lián)系,我們將在第一時間刪除內容。本站聯(lián)系電話為86-010-87765777,郵件后綴為#cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
工信部張云明:大部分國家新劃分了中頻段6G頻譜資源
精彩專題
專題丨“汛”速出動 共筑信息保障堤壩
2023MWC上海世界移動通信大會
中國5G商用四周年
2023年中國國際信息通信展覽會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網(wǎng)安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像