av免费福利片在线播放,99热精品久久只有精品,18video性欧美19sex,ysl蜜桃色www,国产精品一区二区久久国产

泡泡網(wǎng)顯卡頻道 PCPOP首頁      /      顯卡     /      評測    /    正文

打倒X86!NVIDIA的CPU+GPU戰(zhàn)略全解析

    泡泡網(wǎng)顯卡頻道9月4日 就在Intel和AMD為CPU+GPU融合技術(shù)而開展新一輪爭霸賽的時候,NVIDIA卻另辟蹊徑,通過移動處理器Tegra 2一舉拿下了Android平臺(智能手機+平板電腦)34.4%的市場份額,據(jù)分析第二季度市占率有望擴大至48.6%。而傳統(tǒng)的X86處理器在平板領(lǐng)域的市占率還不足5%。

Tegra 2勢不可擋,橫掃Android市場

    在移動領(lǐng)域輝煌的表現(xiàn)讓NVIDIA股價大幅飆升,但這并不意味著NVIDIA將放棄PC市場。由于沒有處理器產(chǎn)品及相關(guān)技術(shù)授權(quán),讓NVIDIA在PC領(lǐng)域?qū)沂艽煺郏珱]有人能阻止NVIDIA的野心,事實上早在三年前NVIDIA就已經(jīng)啟動了CPU研發(fā)計劃,而Tegra的卓越表現(xiàn)以及微軟Windows 8將支持ARM架構(gòu)處理器的消息,更是讓NVIDIA看到了希望,打敗X86的機會終于要來了……

NVIDIA下代Tegra3:四核A9處理器即將發(fā)布,誰能擋我?

    本文將從NVIDIA的GPU計算部分開始,對該公司CPU開發(fā)部門的情況進(jìn)行整理。

誰能擋我?NVIDIA的CPU+GPU方案全解析

Windows 8將支持ARM架構(gòu),Tegra可以跑Windows了

    NVIDIA首個通用CPU開發(fā)計劃"Project Denver"不僅對于CPU+GPU混合加速計算是一個里程碑,同時對于GPU計算(GPU Computing)能力的突破也是不可或缺的存在。NVIDIA內(nèi)部人士透露,其實Project Denver在距今3年半前已經(jīng)開始初步謀劃,初始目的是為了提高GPU的并行計算性能,以及更好對GPU內(nèi)部指令進(jìn)行排列管理,需要更強大的處理器,因此開始初步研究CPU的開發(fā)。不過途中突然生變:微軟下一代操作系統(tǒng)Windows 8宣布支持ARM架構(gòu)處理器,NVIDIA也隨之對計劃作出改變。

    2011年7月下旬在東京六本木舉行的GTC Workshop Japan 2011大會上,NVIDIA日本分公司的馬路徹做了名為GPU架構(gòu)和GPU計算入門的演講,其中說明了GPU計算能力的現(xiàn)狀。

誰能擋我?NVIDIA的CPU+GPU方案全解析

    他在演講中提到:受益于18個月晶體管集成度提高一倍的摩爾定律,CPU的性能在2000年以前順利提升。2000年之前,平均每年晶體管的速度隨著工藝進(jìn)步提高約19%,Pipeline-F/F(即Flip-Flop,觸發(fā)器,具有記憶功能短暫保存輸入信號的邏輯回路)之間的邏輯門數(shù)目每年削減約9%,微架構(gòu)帶來的性能改良每年約18%,總體計算每年CPU提高的性能約(1.19*1.09*1.18-1)*100%=52%。

誰能擋我?NVIDIA的CPU+GPU方案全解析

摩爾定律其實不是預(yù)測CPU性能提高的規(guī)律
而是預(yù)測半導(dǎo)體技術(shù)提高幅度的規(guī)律,主要是晶體管的集成度

誰能擋我?NVIDIA的CPU+GPU方案全解析

2000年前,CPU性能基本按照摩爾定律所預(yù)測的幅度逐年提高性能

    但是在2000年以后,尤其CPU開始受益于多核化的2005年以后,摩爾定律逐漸遇到瓶頸,而和多核處理器并行計算性能有關(guān)的阿姆達(dá)爾定律(Amdahl''s Law)逐漸受到關(guān)注。

誰能擋我?NVIDIA的CPU+GPU方案全解析

阿姆達(dá)爾定律:單純靠CPU核心數(shù)提高改進(jìn)執(zhí)行效率是有界限的

    阿姆達(dá)爾定律的準(zhǔn)確內(nèi)容是:固定負(fù)載(計算總量不變時),計算機的加速比可用(Ws+Wp)/(Ws+Wp/p)來表示,其中Ws,Wp分別表示問題規(guī)模的串行分量(問題中不能并行化的部分)和并行分量,p表示處理器數(shù)量。對該式取極限即當(dāng)處理器數(shù)量接近無窮大時,結(jié)果為1+Wp/Ws,也就是無論我們?nèi)绾卧龃筇幚砥鲾?shù)目,加速比無法高于(據(jù)維基百科)。

誰能擋我?NVIDIA的CPU+GPU方案全解析

2000年后CPU堆積晶體管的方式轉(zhuǎn)為提高核心數(shù)量

誰能擋我?NVIDIA的CPU+GPU方案全解析

CPU性能提高的速度在逐年放緩

    當(dāng)然,CPU廠商已經(jīng)預(yù)計到阿姆達(dá)爾定律所預(yù)見的情況出現(xiàn),將CPU改造成適合并行計算的架構(gòu)和加入對應(yīng)的指令集。Intel的MMX,SSD,AVX等強化SIMD計算功能的指令集就是如此;同時Intel還推出了一系列對應(yīng)多核CPU的開發(fā)套件,均為了提高并行計算性能。

    不過,這種手段也有界限,最終結(jié)果就是,HPC等高性能計算業(yè)界紛紛轉(zhuǎn)向原本就擁有適合提高并行計算性能架構(gòu)的GPU。

    馬路徹表示,“由于GPU本身的架構(gòu),半導(dǎo)體集成度的增加主要提高的是并行計算性能。即使是現(xiàn)在每年性能提高幅度也有74%左右?!贝送?,GPU和CPU并行處理性能差也將越拉越大,以浮點運算計,2001年的顯示核心浮點性能是當(dāng)時CPU的30倍,而這一差距在今日已經(jīng)拉大到1000倍,今后也將繼續(xù)擴大下去。

誰能擋我?NVIDIA的CPU+GPU方案全解析

同樣依照摩爾定律發(fā)展,GPU通用計算能力比CPU提高幅度要大得多

    自從NVIDIA支持DX10的統(tǒng)一渲染架構(gòu)G80核心發(fā)布以來,半導(dǎo)體工藝的進(jìn)步使得GPU內(nèi)置的核心(流處理器)數(shù)量越來越多,GPU基礎(chǔ)架構(gòu)改良速度對比CPU也越來越快。GPU的通用計算能力在這幾年來得到很大提高。

誰能擋我?NVIDIA的CPU+GPU方案全解析

NVIDIA旗下GPU的核心數(shù)量變化歷史

    因為GPU起初是為圖形處理設(shè)計,對指令集的依存度很低,即使再多線程數(shù)量也仍然能保持并行處理性能維持在高水平不變。舉例來說,對于3D角色的反射光計算,每個多邊形反射光計算中法線處理互不相干,因此多邊形數(shù)量再多也不會造成瓶頸,GPU的運算能力可以充分發(fā)揮。

誰能擋我?NVIDIA的CPU+GPU方案全解析

CPU和GPU的并行處理示意圖

誰能擋我?NVIDIA的CPU+GPU方案全解析

GPU實際并行計算示例:復(fù)雜多邊形的反射光處理運算

誰能擋我?NVIDIA的CPU+GPU方案全解析

GPU理論浮點運算性能取得了飛躍

誰能擋我?NVIDIA的CPU+GPU方案全解析

GPU并行計算適合多種要求高性能運算的應(yīng)用

    因此,科學(xué)運算中最適合利用GPU強大的并行計算能力,馬路徹表示,NVIDIA近年來所力推的Tesla加速卡就是例子,同時取得了很多成果。

    不過GPU的發(fā)展也會受到阿姆達(dá)爾定律的影響,當(dāng)GPU集成的核心數(shù)量越來越多時也一定會遇到瓶頸。解決瓶頸的方法可以是在GPU中加入線程控制機能,用來安排指令優(yōu)先級和打包指令使其提高執(zhí)行效率。

誰能擋我?NVIDIA的CPU+GPU方案全解析

NVIDIA G80核心流水線示意圖

誰能擋我?NVIDIA的CPU+GPU方案全解析

NVIDIA GT100(GTX280)核心架構(gòu)圖

    NVIDIA在G80架構(gòu)中首次在芯片和流處理器(SM)級別都加入了線程管理機能"Thread Scheduler",此后隨著圖形核心的發(fā)展,在Fermi架構(gòu)上Thread Scheduler進(jìn)化為"Gigathread Engine",使得并行運算性能進(jìn)一步得到大幅提高。

誰能擋我?NVIDIA的CPU+GPU方案全解析

并行計算架構(gòu)示意圖

誰能擋我?NVIDIA的CPU+GPU方案全解析

Fermi核心架構(gòu)圖,Thread Scheduler進(jìn)化為GigaThread Engine

    但是,在CUDA Core數(shù)量最大已經(jīng)達(dá)到512個的況下,如果再增加勢必會給線程管理模塊部分帶來更高負(fù)荷,甚至有發(fā)熱過高燒毀的危險。因此,為了使GPU的并行計算性能維持優(yōu)勢,需要搭載更加強力的線程控制及管理模塊,Project Denver正是為此誕生。

誰能擋我?NVIDIA的CPU+GPU方案全解析

誰能擋我?NVIDIA的CPU+GPU方案全解析

GigaThread Engine介紹,搭載2基硬件級別線程管理DMA引擎

    NVIDIA負(fù)責(zé)產(chǎn)品市場部門的執(zhí)行副總裁Ujesh Desai確認(rèn)了Project Denver從三年前就已經(jīng)開始開發(fā),目標(biāo)是實現(xiàn)CPU和GPU的統(tǒng)合。

    受微軟宣布下代操作系統(tǒng)Windows 8將正式支持ARM架構(gòu)的影響,NVIDIA原本的ARM核心CPU業(yè)務(wù)范圍也將擴大。在3月召開的投資者會議Financial Analyst Day 2011上,NVIDIA總裁兼CEO黃仁勛宣布,Denver的核心將使用未來的Tegra處理器。

誰能擋我?NVIDIA的CPU+GPU方案全解析

NVIDIA的目標(biāo)是成為"Computing Company"
要實現(xiàn)這一目標(biāo)CPU業(yè)務(wù)也是重要的收益來源

    雖然黃仁勛的說法擺在那里,不過看起來Project Denver和Tegra的關(guān)系不是那么簡單:NVIDIA移動業(yè)務(wù)總經(jīng)理Micheal Rayfield稱:“Project Denver和Tegra毫無關(guān)系”。他說:“用于移動業(yè)務(wù)的Tegra最注重目標(biāo)是省電性能,將不會冒進(jìn),沿著ARM提供的Roadmap進(jìn)行SoC開發(fā)?!薄癒al-El將是Cortex-A9架構(gòu)四核處理器,Wayne也自然會沿用下一架構(gòu)?!北砻髁薟ayne將使用Cortex-A15架構(gòu)。

誰能擋我?NVIDIA的CPU+GPU方案全解析

2011年5月曝光的Project Denver核心示意圖

    同時Desai也從另外一方面驗證了上述表態(tài):“Project Denver目標(biāo)是成為面向HPC(高性能計算)的強力CPU核心,不會像Tegra一樣考慮省電?!盤roject Denver究竟目的在哪?

    那么,Project Denver開發(fā)的CPU核心究竟是什么樣的東西呢?可從2010年11月在美國路易斯安那州新奧爾良市召開的HPC相關(guān)技術(shù)大會"SC10"上窺見一斑,同時也可從NVIDIA在GTC Workshop Japan 2011上公開的Roadmap中"Echelon"高性能HPC向平臺推測出部分內(nèi)容。

誰能擋我?NVIDIA的CPU+GPU方案全解析

    Echelon計劃的來頭頗大,主導(dǎo)機關(guān)是美國國防部下屬的DARPA(國防尖端技術(shù)研究開發(fā)計劃局),目標(biāo)是在2018年實現(xiàn)ExaScale級別計算能力的超級計算機(UHPC),Echelon的開發(fā)受到這一項目的經(jīng)費資助。DARPA資助經(jīng)費的規(guī)定為,在2014年前完成Phase1階段的開發(fā),即設(shè)計完成硬件部分,同時要報送DARPA審查。

誰能擋我?NVIDIA的CPU+GPU方案全解析

Echelon模塊圖解

    NVIDIA首席科學(xué)家Bill Dally在SC10大會上的演講內(nèi)容中透露,Echelon為128個SM模塊和Project Denver的基礎(chǔ)——名為Latency Processor的8個CPU核心所組成,其中每個SM模塊含有8個CUDA Core和獨立的L0 Cache。據(jù)此計算,Echelon芯片整體含有8*128=1024個CUDA Core。

誰能擋我?NVIDIA的CPU+GPU方案全解析

Echelon由128個SM模塊和8個Latency Processor組成,后者就是Denver的核心

    各個SM模塊獨立命名為"NoC"(Network on Chip)通過內(nèi)部界面,經(jīng)由L2 Cache和內(nèi)存控制器與其他SM相互連接。L2 Cache和CUDA Core數(shù)量一樣分1024塊,單個Echelon芯片中,NoC通過MC與一同封裝的DRAM Cube連接帶寬可達(dá)1.4TB/s。

誰能擋我?NVIDIA的CPU+GPU方案全解析

內(nèi)存和每個Echelon的MCM Node在同一封裝內(nèi)相連,帶寬可達(dá)1.4TB/s

    Echelon芯片的峰值計算性能(以雙精度浮點運算記)可達(dá)20T FLOPS。NVIDIA設(shè)想的每個Echelon機柜搭載32個模塊,每個模塊封裝4個Echelon芯片,這樣單個機柜的運算能力可達(dá)2.56P FLOPS。Echelon的Phase1(第一階段)設(shè)計就是如此,NVIDIA將在此基礎(chǔ)上第二階段主要考慮繼續(xù)提高運算性能和降低芯片所消耗的電力。

誰能擋我?NVIDIA的CPU+GPU方案全解析

每個Echelon機柜由128個Node(即單Echelon芯片)組合而成
實現(xiàn)2.56P FLOPS的計算能力,功率38千瓦

誰能擋我?NVIDIA的CPU+GPU方案全解析

400個機柜即可實現(xiàn)Exa級別的計算,功率約150萬瓦

    為了配合UHPC一期開發(fā)階段制造Echelon工程樣品的需要,2013年前需要完成Latency Processor即Project Denver的CPU核心開發(fā)工作。

    這和NVIDIA在GTC Workshop Japan 2011上公開的最新平臺路線圖相符合,Project Denver將和NV的下下代GPU核心"Maxwell"在同一時段登場。公布的幻燈片將Denver和Maxwell劃在了同一個框內(nèi),或許Echelon就是Maxwell和Denver核心的組合體?

誰能擋我?NVIDIA的CPU+GPU方案全解析

NVIDIA的GPU發(fā)展路線圖

    不過和Echelon專注于通用計算不同的是,作為需要兼顧到原本3D應(yīng)用的GeForce系列芯片,Maxwell不太可能采用像前者一樣激進(jìn)的GPGPU專用架構(gòu)。根據(jù)前面Echelon擁有1024個CUDA Cores實現(xiàn)20T FLOPS計算能力推算,如果Maxwell和Fermi成品旗艦顯卡的TDP相當(dāng),在250W左右的話,雙精度浮點性能大約為3.5-4T FLOPS為Tesla的15倍,F(xiàn)ermi的7.5倍左右,和NV路線圖展示的比例相近。但如果兩者架構(gòu)相同,Maxwell的CUDA核心數(shù)可能會降到200左右,現(xiàn)在NVIDIA旗艦顯卡GTX 580則有512個。由此看來除非NV桌面顯卡架構(gòu)也跟著大變,否則Maxwell和Echelon不太可能采用同樣架構(gòu),兩者的GPU性能不是為同一級別應(yīng)用設(shè)計。

誰能擋我?NVIDIA的CPU+GPU方案全解析

GTC Workshop Japan 2011上公開的各平臺框架圖

    此外,黃仁勛也曾經(jīng)發(fā)表過關(guān)于Project Denver性能的評論,他在GPU Technology Conference 2010會議上曾經(jīng)表示,將GPU和現(xiàn)有的ARM架構(gòu)CPU(Cortex-A9)整合后,整數(shù)運算性能將是原有的3-4倍。如果這里整合產(chǎn)物指的是Project Denver,那么它的性能將是下代ARM Cortex A-15的2倍以上。如果此目標(biāo)真能實現(xiàn),那么NVIDIA將在ARM陣營內(nèi)爭奪主導(dǎo)權(quán)的戰(zhàn)斗中占據(jù)上風(fēng),Project Denver也將圓滿完成目標(biāo)。

誰能擋我?NVIDIA的CPU+GPU方案全解析

ARM公開的Cortex-A15對比同頻Cortex-A9的性能對比圖
如果Project Denver是A9的3-4倍,那么將是Cortex-A15性能的2倍以上

    Desai曾經(jīng)稱NVIDIA的CPU核心開發(fā)部分在同時推進(jìn)多個計劃,在筆者看來,Project Denver或許還有另外一個出路——進(jìn)駐基于Windows 8的筆記本電腦用SoC(System on a Chip)市場。

    回顧一下前面提到的內(nèi)容,Echelon、Maxwell和Denver核心的功耗都比較高,進(jìn)駐筆記本電腦SoC芯片市場的可能性很小。而目前還沒有Tegra和Project Denver合并的計劃,Tegra處理器在2011年2月MWC 2011大會上公開的路線圖也多是針對智能手機和平板電腦市場,并且Tegra的性能目前看來也只適合低端筆記本。 此外,2013年Intel和AMD預(yù)計都將力推超薄筆記本電腦所用CPU SoC化,特別是Intel從現(xiàn)在就開始力推Ultrabook概念。難得Windows 8開始支持ARM架構(gòu)處理器,NVIDIA沒理由不參與這一世代的筆記本電腦市場競爭。

    這樣看來,Tegra可能會從Project Denver的第二代CPU核心開始與后者整合。目前我們得知的消息是,四核Kal-El的下一代Tegra "Wayne"和下下代"Logan"均將使用Cortex-A15架構(gòu),而2014年的"Stark"就是Tegra和Denver的最好整合時期。至于Stark以后NVIDIA將怎樣活用Project Denver的成果繼續(xù)發(fā)展Tegra品牌產(chǎn)品,我們大可拭目以待。

誰能擋我?NVIDIA的CPU+GPU方案全解析

Tegra產(chǎn)品發(fā)展路線圖

    總結(jié):Project Denver是NVIDIA在CPU+GPU混合計算時代掌握市場主導(dǎo)權(quán)的最重要計劃,此后NV旗下產(chǎn)品將主要分為三大塊:著重于GPGPU的高性能計算處理器、3D游戲用GPU、平板電腦和智能手機等移動設(shè)備的Tegra三足鼎立,對比最早單GPU和近年來Tegra+GPU的戰(zhàn)略做了重大變革?!?

0人已贊

關(guān)注我們

泡泡網(wǎng)

手機掃碼關(guān)注