国产三区在线成人av,国产又色又爽又黄的免费,好男人www在线观看视频

泡泡網(wǎng)顯卡頻道 PCPOP首頁 / 顯卡 / 評測 / 正文

打倒X86！NVIDIA的CPU+GPU戰(zhàn)略全解析

2011年09月04日 00:01作者：mydrivers編輯：孫敏杰文章出處：泡泡網(wǎng)原創(chuàng)

泡泡網(wǎng)顯卡頻道9月4日就在Intel和AMD為CPU+GPU融合技術(shù)而開展新一輪爭霸賽的時候，NVIDIA卻另辟蹊徑，通過移動處理器Tegra 2一舉拿下了Android平臺（智能手機+平板電腦）34.4%的市場份額，據(jù)分析第二季度市占率有望擴大至48.6%。而傳統(tǒng)的X86處理器在平板領(lǐng)域的市占率還不足5%。

Tegra 2勢不可擋，橫掃Android市場

在移動領(lǐng)域輝煌的表現(xiàn)讓NVIDIA股價大幅飆升，但這并不意味著NVIDIA將放棄PC市場。由于沒有處理器產(chǎn)品及相關(guān)技術(shù)授權(quán)，讓NVIDIA在PC領(lǐng)域?qū)沂艽煺?，但沒有人能阻止NVIDIA的野心，事實上早在三年前NVIDIA就已經(jīng)啟動了CPU研發(fā)計劃，而Tegra的卓越表現(xiàn)以及微軟Windows 8將支持ARM架構(gòu)處理器的消息，更是讓NVIDIA看到了希望，打敗X86的機會終于要來了……

NVIDIA下代Tegra3：四核A9處理器即將發(fā)布，誰能擋我？

本文將從NVIDIA的GPU計算部分開始，對該公司CPU開發(fā)部門的情況進行整理。

Windows 8將支持ARM架構(gòu)，Tegra可以跑Windows了

NVIDIA首個通用CPU開發(fā)計劃"Project Denver"不僅對于CPU+GPU混合加速計算是一個里程碑，同時對于GPU計算（GPU Computing）能力的突破也是不可或缺的存在。NVIDIA內(nèi)部人士透露，其實Project Denver在距今3年半前已經(jīng)開始初步謀劃，初始目的是為了提高GPU的并行計算性能，以及更好對GPU內(nèi)部指令進行排列管理，需要更強大的處理器，因此開始初步研究CPU的開發(fā)。不過途中突然生變：微軟下一代操作系統(tǒng)Windows 8宣布支持ARM架構(gòu)處理器，NVIDIA也隨之對計劃作出改變。

2011年7月下旬在東京六本木舉行的GTC Workshop Japan 2011大會上，NVIDIA日本分公司的馬路徹做了名為GPU架構(gòu)和GPU計算入門的演講，其中說明了GPU計算能力的現(xiàn)狀。

他在演講中提到：受益于18個月晶體管集成度提高一倍的摩爾定律，CPU的性能在2000年以前順利提升。2000年之前，平均每年晶體管的速度隨著工藝進步提高約19%，Pipeline-F/F（即Flip-Flop，觸發(fā)器，具有記憶功能短暫保存輸入信號的邏輯回路）之間的邏輯門數(shù)目每年削減約9%，微架構(gòu)帶來的性能改良每年約18%，總體計算每年CPU提高的性能約（1.19*1.09*1.18-1）*100%=52%。

摩爾定律其實不是預(yù)測CPU性能提高的規(guī)律
而是預(yù)測半導體技術(shù)提高幅度的規(guī)律，主要是晶體管的集成度

2000年前，CPU性能基本按照摩爾定律所預(yù)測的幅度逐年提高性能

但是在2000年以后，尤其CPU開始受益于多核化的2005年以后，摩爾定律逐漸遇到瓶頸，而和多核處理器并行計算性能有關(guān)的阿姆達爾定律（Amdahl''s Law）逐漸受到關(guān)注。

阿姆達爾定律：單純靠CPU核心數(shù)提高改進執(zhí)行效率是有界限的

阿姆達爾定律的準確內(nèi)容是：固定負載（計算總量不變時）,計算機的加速比可用（Ws+Wp）/（Ws+Wp/p）來表示，其中Ws，Wp分別表示問題規(guī)模的串行分量（問題中不能并行化的部分）和并行分量,p表示處理器數(shù)量。對該式取極限即當處理器數(shù)量接近無窮大時，結(jié)果為1+Wp/Ws，也就是無論我們?nèi)绾卧龃筇幚砥鲾?shù)目，加速比無法高于（據(jù)維基百科）。

2000年后CPU堆積晶體管的方式轉(zhuǎn)為提高核心數(shù)量

CPU性能提高的速度在逐年放緩

當然，CPU廠商已經(jīng)預(yù)計到阿姆達爾定律所預(yù)見的情況出現(xiàn)，將CPU改造成適合并行計算的架構(gòu)和加入對應(yīng)的指令集。Intel的MMX，SSD，AVX等強化SIMD計算功能的指令集就是如此；同時Intel還推出了一系列對應(yīng)多核CPU的開發(fā)套件，均為了提高并行計算性能。

不過，這種手段也有界限，最終結(jié)果就是，HPC等高性能計算業(yè)界紛紛轉(zhuǎn)向原本就擁有適合提高并行計算性能架構(gòu)的GPU。

馬路徹表示，“由于GPU本身的架構(gòu)，半導體集成度的增加主要提高的是并行計算性能。即使是現(xiàn)在每年性能提高幅度也有74%左右?！贝送?，GPU和CPU并行處理性能差也將越拉越大，以浮點運算計，2001年的顯示核心浮點性能是當時CPU的30倍，而這一差距在今日已經(jīng)拉大到1000倍，今后也將繼續(xù)擴大下去。

同樣依照摩爾定律發(fā)展，GPU通用計算能力比CPU提高幅度要大得多

自從NVIDIA支持DX10的統(tǒng)一渲染架構(gòu)G80核心發(fā)布以來，半導體工藝的進步使得GPU內(nèi)置的核心（流處理器）數(shù)量越來越多，GPU基礎(chǔ)架構(gòu)改良速度對比CPU也越來越快。GPU的通用計算能力在這幾年來得到很大提高。

NVIDIA旗下GPU的核心數(shù)量變化歷史

因為GPU起初是為圖形處理設(shè)計，對指令集的依存度很低，即使再多線程數(shù)量也仍然能保持并行處理性能維持在高水平不變。舉例來說，對于3D角色的反射光計算，每個多邊形反射光計算中法線處理互不相干，因此多邊形數(shù)量再多也不會造成瓶頸，GPU的運算能力可以充分發(fā)揮。

CPU和GPU的并行處理示意圖

GPU實際并行計算示例：復雜多邊形的反射光處理運算

GPU理論浮點運算性能取得了飛躍

GPU并行計算適合多種要求高性能運算的應(yīng)用

因此，科學運算中最適合利用GPU強大的并行計算能力，馬路徹表示，NVIDIA近年來所力推的Tesla加速卡就是例子，同時取得了很多成果。

不過GPU的發(fā)展也會受到阿姆達爾定律的影響，當GPU集成的核心數(shù)量越來越多時也一定會遇到瓶頸。解決瓶頸的方法可以是在GPU中加入線程控制機能，用來安排指令優(yōu)先級和打包指令使其提高執(zhí)行效率。

NVIDIA G80核心流水線示意圖

NVIDIA GT100（GTX280）核心架構(gòu)圖

NVIDIA在G80架構(gòu)中首次在芯片和流處理器（SM）級別都加入了線程管理機能"Thread Scheduler"，此后隨著圖形核心的發(fā)展，在Fermi架構(gòu)上Thread Scheduler進化為"Gigathread Engine"，使得并行運算性能進一步得到大幅提高。

并行計算架構(gòu)示意圖

Fermi核心架構(gòu)圖，Thread Scheduler進化為GigaThread Engine

但是，在CUDA Core數(shù)量最大已經(jīng)達到512個的況下，如果再增加勢必會給線程管理模塊部分帶來更高負荷，甚至有發(fā)熱過高燒毀的危險。因此，為了使GPU的并行計算性能維持優(yōu)勢，需要搭載更加強力的線程控制及管理模塊，Project Denver正是為此誕生。

GigaThread Engine介紹，搭載2基硬件級別線程管理DMA引擎

NVIDIA負責產(chǎn)品市場部門的執(zhí)行副總裁Ujesh Desai確認了Project Denver從三年前就已經(jīng)開始開發(fā)，目標是實現(xiàn)CPU和GPU的統(tǒng)合。

受微軟宣布下代操作系統(tǒng)Windows 8將正式支持ARM架構(gòu)的影響，NVIDIA原本的ARM核心CPU業(yè)務(wù)范圍也將擴大。在3月召開的投資者會議Financial Analyst Day 2011上，NVIDIA總裁兼CEO黃仁勛宣布，Denver的核心將使用未來的Tegra處理器。

NVIDIA的目標是成為"Computing Company"
要實現(xiàn)這一目標CPU業(yè)務(wù)也是重要的收益來源

雖然黃仁勛的說法擺在那里，不過看起來Project Denver和Tegra的關(guān)系不是那么簡單：NVIDIA移動業(yè)務(wù)總經(jīng)理Micheal Rayfield稱：“Project Denver和Tegra毫無關(guān)系”。他說：“用于移動業(yè)務(wù)的Tegra最注重目標是省電性能，將不會冒進，沿著ARM提供的Roadmap進行SoC開發(fā)?！薄癒al-El將是Cortex-A9架構(gòu)四核處理器，Wayne也自然會沿用下一架構(gòu)?！北砻髁薟ayne將使用Cortex-A15架構(gòu)。

2011年5月曝光的Project Denver核心示意圖

同時Desai也從另外一方面驗證了上述表態(tài)：“Project Denver目標是成為面向HPC（高性能計算）的強力CPU核心，不會像Tegra一樣考慮省電?！盤roject Denver究竟目的在哪？

那么，Project Denver開發(fā)的CPU核心究竟是什么樣的東西呢？可從2010年11月在美國路易斯安那州新奧爾良市召開的HPC相關(guān)技術(shù)大會"SC10"上窺見一斑，同時也可從NVIDIA在GTC Workshop Japan 2011上公開的Roadmap中"Echelon"高性能HPC向平臺推測出部分內(nèi)容。

Echelon計劃的來頭頗大，主導機關(guān)是美國國防部下屬的DARPA（國防尖端技術(shù)研究開發(fā)計劃局），目標是在2018年實現(xiàn)ExaScale級別計算能力的超級計算機（UHPC），Echelon的開發(fā)受到這一項目的經(jīng)費資助。DARPA資助經(jīng)費的規(guī)定為，在2014年前完成Phase1階段的開發(fā)，即設(shè)計完成硬件部分，同時要報送DARPA審查。

Echelon模塊圖解

NVIDIA首席科學家Bill Dally在SC10大會上的演講內(nèi)容中透露，Echelon為128個SM模塊和Project Denver的基礎(chǔ)——名為Latency Processor的8個CPU核心所組成，其中每個SM模塊含有8個CUDA Core和獨立的L0 Cache。據(jù)此計算，Echelon芯片整體含有8*128=1024個CUDA Core。

Echelon由128個SM模塊和8個Latency Processor組成，后者就是Denver的核心

各個SM模塊獨立命名為"NoC"（Network on Chip）通過內(nèi)部界面，經(jīng)由L2 Cache和內(nèi)存控制器與其他SM相互連接。L2 Cache和CUDA Core數(shù)量一樣分1024塊，單個Echelon芯片中，NoC通過MC與一同封裝的DRAM Cube連接帶寬可達1.4TB/s。

內(nèi)存和每個Echelon的MCM Node在同一封裝內(nèi)相連，帶寬可達1.4TB/s

Echelon芯片的峰值計算性能（以雙精度浮點運算記）可達20T FLOPS。NVIDIA設(shè)想的每個Echelon機柜搭載32個模塊，每個模塊封裝4個Echelon芯片，這樣單個機柜的運算能力可達2.56P FLOPS。Echelon的Phase1（第一階段）設(shè)計就是如此，NVIDIA將在此基礎(chǔ)上第二階段主要考慮繼續(xù)提高運算性能和降低芯片所消耗的電力。

每個Echelon機柜由128個Node（即單Echelon芯片）組合而成
實現(xiàn)2.56P FLOPS的計算能力，功率38千瓦

400個機柜即可實現(xiàn)Exa級別的計算，功率約150萬瓦

為了配合UHPC一期開發(fā)階段制造Echelon工程樣品的需要，2013年前需要完成Latency Processor即Project Denver的CPU核心開發(fā)工作。

這和NVIDIA在GTC Workshop Japan 2011上公開的最新平臺路線圖相符合，Project Denver將和NV的下下代GPU核心"Maxwell"在同一時段登場。公布的幻燈片將Denver和Maxwell劃在了同一個框內(nèi)，或許Echelon就是Maxwell和Denver核心的組合體？

NVIDIA的GPU發(fā)展路線圖

不過和Echelon專注于通用計算不同的是，作為需要兼顧到原本3D應(yīng)用的GeForce系列芯片，Maxwell不太可能采用像前者一樣激進的GPGPU專用架構(gòu)。根據(jù)前面Echelon擁有1024個CUDA Cores實現(xiàn)20T FLOPS計算能力推算，如果Maxwell和Fermi成品旗艦顯卡的TDP相當，在250W左右的話，雙精度浮點性能大約為3.5-4T FLOPS為Tesla的15倍，F(xiàn)ermi的7.5倍左右，和NV路線圖展示的比例相近。但如果兩者架構(gòu)相同，Maxwell的CUDA核心數(shù)可能會降到200左右，現(xiàn)在NVIDIA旗艦顯卡GTX 580則有512個。由此看來除非NV桌面顯卡架構(gòu)也跟著大變，否則Maxwell和Echelon不太可能采用同樣架構(gòu)，兩者的GPU性能不是為同一級別應(yīng)用設(shè)計。

GTC Workshop Japan 2011上公開的各平臺框架圖

此外，黃仁勛也曾經(jīng)發(fā)表過關(guān)于Project Denver性能的評論，他在GPU Technology Conference 2010會議上曾經(jīng)表示，將GPU和現(xiàn)有的ARM架構(gòu)CPU（Cortex-A9）整合后，整數(shù)運算性能將是原有的3-4倍。如果這里整合產(chǎn)物指的是Project Denver，那么它的性能將是下代ARM Cortex A-15的2倍以上。如果此目標真能實現(xiàn)，那么NVIDIA將在ARM陣營內(nèi)爭奪主導權(quán)的戰(zhàn)斗中占據(jù)上風，Project Denver也將圓滿完成目標。

ARM公開的Cortex-A15對比同頻Cortex-A9的性能對比圖
如果Project Denver是A9的3-4倍，那么將是Cortex-A15性能的2倍以上

Desai曾經(jīng)稱NVIDIA的CPU核心開發(fā)部分在同時推進多個計劃，在筆者看來，Project Denver或許還有另外一個出路——進駐基于Windows 8的筆記本電腦用SoC（System on a Chip）市場。

回顧一下前面提到的內(nèi)容，Echelon、Maxwell和Denver核心的功耗都比較高，進駐筆記本電腦SoC芯片市場的可能性很小。而目前還沒有Tegra和Project Denver合并的計劃，Tegra處理器在2011年2月MWC 2011大會上公開的路線圖也多是針對智能手機和平板電腦市場，并且Tegra的性能目前看來也只適合低端筆記本。此外，2013年Intel和AMD預(yù)計都將力推超薄筆記本電腦所用CPU SoC化，特別是Intel從現(xiàn)在就開始力推Ultrabook概念。難得Windows 8開始支持ARM架構(gòu)處理器，NVIDIA沒理由不參與這一世代的筆記本電腦市場競爭。

這樣看來，Tegra可能會從Project Denver的第二代CPU核心開始與后者整合。目前我們得知的消息是，四核Kal-El的下一代Tegra "Wayne"和下下代"Logan"均將使用Cortex-A15架構(gòu)，而2014年的"Stark"就是Tegra和Denver的最好整合時期。至于Stark以后NVIDIA將怎樣活用Project Denver的成果繼續(xù)發(fā)展Tegra品牌產(chǎn)品，我們大可拭目以待。

Tegra產(chǎn)品發(fā)展路線圖

總結(jié)：Project Denver是NVIDIA在CPU+GPU混合計算時代掌握市場主導權(quán)的最重要計劃，此后NV旗下產(chǎn)品將主要分為三大塊：著重于GPGPU的高性能計算處理器、3D游戲用GPU、平板電腦和智能手機等移動設(shè)備的Tegra三足鼎立，對比最早單GPU和近年來Tegra+GPU的戰(zhàn)略做了重大變革?！?

0人已贊

av免费福利片在线播放,99热精品久久只有精品,18video性欧美19sex,ysl蜜桃色www,国产精品一区二区久久国产

打倒X86！NVIDIA的CPU+GPU戰(zhàn)略全解析

關(guān)注我們