在舉行的Hot Chips大會上,英特爾將擋在Knights Mill前的帷幕小小地拉起了幾分——Knights Mill是英特爾針對機器學習應用而研發(fā)的一款Xeon Phi處理器。
作為英特爾在AI領(lǐng)域多管齊下的一部分,“Knights Mill”代表了該芯片制造商的第一個專門針對機器學習市場,專門用于訓練深層神經(jīng)網(wǎng)絡(luò)的Xeon Phi產(chǎn)品。在深度學習推論方面,英特爾推出了其基于Altera的FPGA產(chǎn)品,微軟在其Azure云(對人工智能和網(wǎng)絡(luò)加速)中大量使用了該產(chǎn)品。英特爾還在開發(fā)其他機器學習產(chǎn)品,用于訓練工作,這些產(chǎn)品將來自公司去年收購的Nervana公司。
與此同時,Knights Mill將用來填補目前Knights Landing處理器——用于HPC的Xeon Phi芯片——和未來的基于Nervana的產(chǎn)品之間的空白。在這種情況下,Knights Mill將從Knights Landing中繼承大部分的設(shè)計,最明顯的改變是硅的數(shù)量,致力于獲得更精確的數(shù)學性,最適合于神經(jīng)網(wǎng)絡(luò)的運算。
從本質(zhì)上講,Knights Mill用一個較小的雙精度端口和四個向量神經(jīng)網(wǎng)絡(luò)指令(VNNI)端口,取代了Knights Landing的矢量處理單元(VPU)上的兩個大的雙精度/單精度浮點(64位/ 32位)端口。后者支持單精度浮點和混合精度整數(shù)(16位輸入/ 32位輸出)。因此,它看起來像是張量處理單元(TPU)的英特爾版,它在NVIDIA的新V100 GPU的張量核心中有對應物。不過,后者仍然是更傳統(tǒng)的16 / 32位浮點運算。
最終的結(jié)果是,與Knights Landing相比,Knights Mill將提供一半的雙精度浮點性能,兩倍的單精度浮點性能。在VPU(256 ops/cycle)中添加了VNNI整數(shù)支持,英特爾聲稱Knights Mill將提供4倍于深度學習應用的性能。
使用整數(shù)單元來增強深度學習性能的方法有些不太傳統(tǒng),因為大多數(shù)應用程序都使用浮點運算。然而,英特爾堅持認為,浮點數(shù)在準確性方面幾乎沒有優(yōu)勢,而且在計算上更昂貴。這種權(quán)衡是否成功還有待觀察。
Knights Mill還將支持16 GB的MCDRAM——組裝在一個3D堆棧中的英特爾版on - package高帶寬內(nèi)存——以及6個DDR4內(nèi)存通道。從他們在Hot Chips(上圖)公布的圖表上看,這個設(shè)計似乎支持72核,至少對于這個特殊的配置而言是這樣。為VPU提供256個ops / cycle值,這意味著Knights Mill可以交付——以1.5 GHz處理器來說——超過27萬億次的深度學習性能。
實際性能是多少,我們會在英特爾開始生產(chǎn)該產(chǎn)品之后得知。據(jù)悉,Knights Mill計劃于今年第四個季度推出。
源自 it168網(wǎng)站原創(chuàng) 作者: 謝濤