加速30倍!APU的GPU硬件加速性能對(duì)比
泡泡網(wǎng)顯卡頻道8月23日 今年,Intel和AMD相繼完成了對(duì)CPU和GPU的整合,但I(xiàn)ntel的SandyBridge它還是叫CPU,而AMD的Llano卻有了一個(gè)全新的稱號(hào)——APU(Accelerated Processing Units,加速處理器),那加速處理器和傳統(tǒng)的中央處理器及圖形處理器有何區(qū)別呢?
硬件方面,APU將通用x86架構(gòu)CPU核心和可編程矢量處理引擎相融合,把CPU擅長的精密標(biāo)量運(yùn)算與傳統(tǒng)只有GPU才具備的大規(guī)模并行矢量運(yùn)算結(jié)合起來。AMD APU設(shè)計(jì)綜合了CPU和GPU的優(yōu)勢,為軟件開發(fā)者帶來前所未有的靈活性,能夠任意采用最適合的方式開發(fā)新的應(yīng)用。
說白了,APU就是CPU與GPU的合體,但硬件合體之后,隨著整個(gè)產(chǎn)業(yè)的認(rèn)可,未來將會(huì)有更多的應(yīng)用基于GPU加速而設(shè)計(jì),幫CPU分擔(dān)很大一份工作量,從而大幅提升處理器效能。APU這種設(shè)計(jì)理念要比暴力增加CPU內(nèi)核高明很多!
雖然現(xiàn)在APU問世還不太久,支持異構(gòu)融合加速的應(yīng)用也不是很多,但通過這些應(yīng)用,我們可以一窺APU的實(shí)力,所謂的“加速處理器”到底能加速什么呢?比CPU單獨(dú)運(yùn)算強(qiáng)多少?最前APU A8-3850內(nèi)部的GPU與CPU運(yùn)算性能有多大差距?
我們知道,AMD的Llano APU就是一顆加強(qiáng)版的Athlon II X4 CPU和一顆中端DX11 GPU的合體,其CPU和GPU部分都不是最強(qiáng),但也都達(dá)到了中端級(jí)別。
Llano APU的設(shè)計(jì)理念
為了將兩顆中端CPU和GPU融合在一起,AMD下了不小的功夫,最終APU的晶體管數(shù)和芯片面積要比同為32nm工藝制造的Intel SandyBridge CPU還大一些。
通過AMD公布的Llano APU芯片結(jié)構(gòu)圖來看,APU的CPU和GPU兩大芯片所占芯片面積基本是相當(dāng)?shù)???吹贸鰜鞟MD想要平衡CPU和GPU的性能,避免出現(xiàn)Intel那種為很強(qiáng)的CPU賦予了一顆很爛的GPU,導(dǎo)致集顯基本沒用的尷尬局面。
既然APU里面的CPU和GPU所占芯片面積(晶體管數(shù))基本相當(dāng),那么這是不是意味著CPU和GPU的性能也差不多呢?這顆不好說,還是通過實(shí)際測試來驗(yàn)證吧。
MediaShow Espresso軟件是第一款同時(shí)支持CUDA與Stream加速的視頻轉(zhuǎn)換軟件,除此之外它還對(duì)Intel Core i7處理器的超線程及SSE4指令集做了優(yōu)化,因此無論純CPU轉(zhuǎn)碼還是GPU加速,其速度比傳統(tǒng)軟件都要快。在實(shí)際使用中無論是界面還是選擇的豐富程度都能幫助用戶將系統(tǒng)的特性完全發(fā)揮出來。
下面我們來看看GPU轉(zhuǎn)碼與CPU轉(zhuǎn)碼的性能。測試視頻格式為1080P H.264編碼的MKV。首先我們用CPU轉(zhuǎn)碼為720P的H.264編碼的MP4,軟件調(diào)用4核心4線程進(jìn)行計(jì)算。
● A8-3850四核CPU轉(zhuǎn)碼:33分鐘
使用CPU轉(zhuǎn)碼,轉(zhuǎn)換20%的高清視頻用了33分鐘。然后我們啟用ATI STREAM進(jìn)行6550D GPU轉(zhuǎn)碼。
● A8-3850開啟GPU硬件編碼/解碼后:17分鐘
同樣轉(zhuǎn)換20%的高清視頻,6550D只用了4核心CPU的一半時(shí)間,可見在視頻轉(zhuǎn)換上6550D占盡優(yōu)勢。
開啟GPU加速后,不僅轉(zhuǎn)碼速度加快了,而且CPU占用率大大下降。當(dāng)然最終的速度是CPU和GPU共同加速的結(jié)果,GPU不可能獨(dú)立完成轉(zhuǎn)碼任務(wù),但估算一下GPU所貢獻(xiàn)的運(yùn)算能力也要比CPU更多一些。
業(yè)界第一款GPU通用計(jì)算軟件就是用戶科學(xué)計(jì)算,它就是由斯坦福大學(xué)主導(dǎo)的Folding @ Home分布式計(jì)算,最早支持ATI顯卡,而NVIDIA后來者居上,目前N卡所貢獻(xiàn)的運(yùn)算能力已經(jīng)超越了所有CPU之和,A卡也不弱!
Folding@home是一個(gè)研究蛋白質(zhì)折疊、誤折、聚合及由此引起的相關(guān)疾病的分布式計(jì)算工程。最開始F@H僅支持CPU,后來加入了對(duì)PS3游戲機(jī)的支持,但同樣是使用內(nèi)置的CELL處理器做運(yùn)算。F@H因ATI的加入為GPU計(jì)算翻開了新的一頁,如今F@H第二代GPU客戶端已經(jīng)能夠支持ATI和NVIDIA的全系列DX10 GPU。
● 蛋白質(zhì)折疊:APU的GPU比CPU快18倍
進(jìn)行相同的計(jì)算6550D比CPU快了18倍之多,這回合6550D完勝。
而且,這次的蛋白質(zhì)折疊分布式計(jì)算,CPU和GPU是分別進(jìn)行測試的,互不影響,GPU不需要CPU的參與就可以獨(dú)立進(jìn)行運(yùn)算,而不是像視頻轉(zhuǎn)碼那樣要合作運(yùn)行。
首款國人開發(fā)的支持GPU的OpenCL通用計(jì)算測試程序OpenCL General Purpose Computing Benchmark (簡稱GPCBenchMarkOCL)是由國內(nèi)幾名高性能計(jì)算從業(yè)人員和愛好者合作編寫的,目的是為了評(píng)估在不同的OpenCL平臺(tái)上一些基本算法和應(yīng)用的性能。與目前流行的一些OpenCL、DirectCompute通用計(jì)算測試程序的不同在于,目前這些測試程序測試項(xiàng)目過于單一,基本上就是某一兩種算法的性能測試,甚至干脆就是理論峰值計(jì)算性能的測試。而實(shí)際上,OpenCL計(jì)算設(shè)備包括GPU的計(jì)算性能是受非常多因素影響的,除了計(jì)算單元的頻率和數(shù)量之外,還有計(jì)算單元架構(gòu)、Global memory(顯存)帶寬、Local memory(GPU內(nèi)的片上存儲(chǔ)器,NVIDIA稱為Shared memory,AMD稱為Local Data Share)帶寬和Bank conflict、存儲(chǔ)器合并訪問情況、存儲(chǔ)器同步成本、緩存等各種因素。因此某些紙面計(jì)算性能非常高的GPU執(zhí)行某些計(jì)算時(shí)性能卻不一定好;又或者,某 GPU在執(zhí)行某種計(jì)算時(shí)雖然性能落后于另一架構(gòu)的GPU,但是在執(zhí)行另一種計(jì)算時(shí)性能反而超前。GPCBenchMarkOCL集合了高性能計(jì)算領(lǐng)域多種常見的基礎(chǔ)算法和應(yīng)用,能比較全面地評(píng)估GPU及其它OpenCL計(jì)算設(shè)備在通用計(jì)算應(yīng)用中的性能。
● 密碼學(xué)測試:
哈希加密:GPU比CPU快12倍
● 常用數(shù)學(xué)算法測:
矩陣乘法:GPU比CPU快27倍
矩陣轉(zhuǎn)置:GPU比CPU快15倍
并行規(guī)約:GPU比CPU快2倍
8x8離散余弦變換:GPU比CPU快7倍
● 單精度浮點(diǎn)運(yùn)算測試:
加法:GPU比CPU快4倍
乘法:2.5倍
乘加:11倍
特殊函數(shù):17倍
通過測試,我們發(fā)現(xiàn),CPU又完敗于6550D。4核心的A3850都落得如此下場,那市場上主流中低端雙核CPU就完完全全悲劇了。
在全球各國都在濫發(fā)貨幣的情況下,幾乎沒有哪國可以做到讓貨幣持續(xù)保值。但有一種貨幣,不受任何國家、政府和央行控制,不存在濫發(fā)的情況,這種虛擬的電子貨幣叫做比特幣(bitcoin),相信很多人已經(jīng)有所耳聞。
● CPU挖礦速度:1.7Mhash/s
首先我們用CPU機(jī)型挖礦,把4顆核心全部打上勾,挖礦時(shí)4顆核心全部滿載。最終性能是1.7Mhash/s。
● GPU挖礦速度:59Mhash/s
然后小編換用6550D GPU進(jìn)行挖礦,此時(shí)選用OPENCL挖礦器,并且去掉CPU4個(gè)核心的勾子。最終性能為59Mhash/s。GPU領(lǐng)先CPU30多倍。
● 擴(kuò)展閱讀《掛機(jī)也能賺錢?教你用顯卡挖礦賺美元》
我們之前測試使用的軟件大都只側(cè)重于電腦硬件的一個(gè)單元——只測試CPU處理器部分或者是GPU顯示卡部分,而對(duì)兩者協(xié)同合作下的真實(shí)性能并沒有過多關(guān)注。Intel Sandy Bridge的發(fā)布和AMD Fusion APU帶來的融合,無不預(yù)示著異構(gòu)計(jì)算的主流前景,因此HC異構(gòu)計(jì)算測試軟件的面世將為我們的測試注入新的活力,也將為包括筆記本電腦在內(nèi)的計(jì)算平臺(tái)確立了新的標(biāo)準(zhǔn)。
HC異構(gòu)計(jì)算測試軟件要解決CPU/GPU負(fù)載分配問題,以充分挖掘平臺(tái)真實(shí)性能
APU問什么叫APU?答案在我們接下來的測試中將會(huì)體現(xiàn)出來。我們來看看APU中的CPU和GPU同時(shí)運(yùn)算得到的成績。CPU和GPU同時(shí)計(jì)算得分為17182分。
然后我們通過在平臺(tái)上插入N卡來屏蔽掉APU內(nèi)部的GPU來讓APU內(nèi)部的CPU獨(dú)自干活兒,得分降到了5252分,下降了進(jìn)三分之二。由此可見,APU已經(jīng)不能算是一顆CPU了,APU的名字起的恰到好處。
我不是CPU,
也不是GPU,
我喜歡3D渲染,
我愛通用計(jì)算,
我就是我,
我是APU。
前面的一些測試大都是偏向于性能,事實(shí)上APU還有一個(gè)非常實(shí)用的加速應(yīng)用,就是視頻實(shí)時(shí)防抖處理,大家看一個(gè)視頻就知道該功能有多么炫了:
怎么樣?震撼嗎?這就是AMD為APU量身打造的AMD Steady Video視頻防抖處理技術(shù),該技術(shù)可以檢測系統(tǒng)播放中的視頻(可兼容任何播放器、任何渲染模式、甚至包括網(wǎng)頁在線視頻),然后通過復(fù)雜的算法將視頻重新處理后實(shí)時(shí)渲染出來,最終用戶所看到的畫面將會(huì)是沒有抖動(dòng)、較為清晰穩(wěn)定的畫面。
APU全新的驅(qū)動(dòng)很強(qiáng)大,還提供了拆分屏幕模式,對(duì)比開/關(guān)防抖后的效果
這要在AMD視覺引擎控制中心中打開AMD Steady Video選項(xiàng),任何自拍時(shí)手拿不穩(wěn)所產(chǎn)生的抖動(dòng)效果,都將被自動(dòng)更正,讓用戶以更舒適、更簡單、更智能的方式行賞視頻。
● 總結(jié):
現(xiàn)如今顯卡擔(dān)當(dāng)起了系統(tǒng)信息處理的重任,不再是單純的3D視頻卡,隨著通用GPU計(jì)算的發(fā)展,越來越多的軟件與游戲開始支持顯卡通用計(jì)算。與CPU相比顯卡在特定領(lǐng)域的計(jì)算性能遠(yuǎn)超CPU,甚至連高端的酷睿i7也只不過是GPU的零頭。
這么來看AMD A3850是非常超值的,1000元的價(jià)格可以得到主流性能的CPU外加一個(gè)超強(qiáng)的協(xié)處理器,如果軟件優(yōu)化的足夠好,使得CPU與GPU能協(xié)力運(yùn)行,A3850的性能將得到質(zhì)的提升?!?
關(guān)注我們
