開普勒秒殺GCN 新卡皇GTX680首發(fā)評測
泡泡網(wǎng)顯卡頻道3月22日 特斯拉、費米的輝煌已經(jīng)過去,開普勒正向我們走來。如果對顯卡不了解的讀者,可能不知道這是在說什么,特斯拉、費米、開普勒都是歷史上杰出的科學(xué)家,曾經(jīng)為人類科學(xué)技術(shù)的發(fā)展和進步做出了巨大貢獻。而NVIDIA的顯卡核心架構(gòu)代號也正是以這些科學(xué)家命名,除了向這些偉人表達尊敬之外,也暗喻著自己的技術(shù)和產(chǎn)品同樣杰出。
今天,NVIDIA正式發(fā)布了旗下最新一代顯卡產(chǎn)品,GPU核心架構(gòu)為“開普勒”的GEFORCE GTX680。這是自上代“費米”架構(gòu)的以來NVIDIA全面更新的GPU核心架構(gòu),也是繼GTX580之后新一代旗艦級顯卡,是凝聚了NVIDIA非常先進技術(shù)的優(yōu)異產(chǎn)品。

GTX680是眾多玩家期待已久的重量級產(chǎn)品。在它問世之前,大家對其性能、規(guī)格、外形都產(chǎn)生了濃厚的興趣,引發(fā)了激烈的討論,焦點自然在于NVIDIA GEFORCE GTX680與對手AMD Radeon HD7970之間的較量。3個月之前發(fā)布的HD7970曾風(fēng)光無限,市場上沒有對手,GTX680到來之后,情況會發(fā)生怎樣的改變呢?
是時候揭開GTX680的真面目了,我們先來看看它的規(guī)格參數(shù):
使用“開普勒”核心的NVIDIA GEFORCE GTX680擁有1536個CUDA核心,默認頻率1006MHz,加速頻率為1058MHz,配備2GB 256Bit GDDR5、6000MHz頻率的顯存,外接供電為雙6Pin,熱設(shè)計功耗為195W,顯示輸出接口為2個Dual-Link DVI、1個HDMI和1個Displayport 1.2。
GTX680與GTX580、HD7970、HD6970的對比表格:

GTX680采用全新28納米制造工藝,與NVIDIA上代旗艦GTX580相比,CUDA核心數(shù)量暴增至1536個,核心頻率飆升至1006MHz,成為首款默認核心頻率超過1GHz的旗艦級顯卡。而令人吃驚的是,晶體管數(shù)量和核心面積卻都有所減少,遠遠低于GTX580和HD7970,這樣一來供電方面僅需要雙6Pin外接PCI-E供電,熱設(shè)計功耗也僅有195W,成為近年來最為省電的旗艦顯卡。顯存方面,GTX680采用了256Bit GDDR5,而顯存頻率大幅提高,達到了創(chuàng)紀(jì)錄的6000MHz。此外,這次GEFORCE GTX680可以支持4屏顯示,在顯示接口的配備上也有所改進,將使用多年的DVIx2+MiniHDMI的組合改為DVIx2+HDMI+DP。
<
“什么?GTX680的流處理器數(shù)量是1536個?而且GTX680的流處理器與核心同頻率,不再是兩倍了?這規(guī)格簡直和HD6970一模一樣!AMD的HD7970剛開始學(xué)習(xí)NVIDIA的架構(gòu),現(xiàn)在NVIDIA的GTX680又學(xué)AMD了,你們這是要鬧哪樣啊?” 相信很多人聽到GTX680的規(guī)格時,都會產(chǎn)生這樣一種想法。在GTX680發(fā)布之前,各種小道消息不脛而走之時,筆者也很納悶,NVIDIA的Kepler架構(gòu)到底發(fā)生了什么樣的變化?難不成N/A雙方真的要互相學(xué)習(xí)、取長補短? 在新一代GTX680發(fā)布前夕,NVIDIA召開了多場技術(shù)講座,NVIDIA總部的專家為全球各大媒體編輯詳細解讀了新一代Kepler(開普勒)架構(gòu)的技術(shù)特性,筆者經(jīng)過深入學(xué)習(xí)研究之后,今天就為大家揭開謎底——新一代GPU圖形架構(gòu)到底誰更先進?
NVIDIA和AMD的GPU架構(gòu)相關(guān)名詞解讀: 1. NVIDIA喜歡用物理學(xué)家的名字來為GPU架構(gòu)命名,從DX10開始第一代叫做Tesla(特斯拉)、第二代是Fermi(費米)、第三代是Kepler(開普勒)、第四代是Maxwell(麥克斯韋),這些科學(xué)家的大名是如雷貫耳,就不做解釋了。 2. Kepler(開普勒)是NVIDIA新一代的GPU架構(gòu)代號,基于開普勒架構(gòu)第一顆GPU的代號是GK104,基于GK104核心的首款顯卡是GeForce GTX 680。 3. AMD以前GPU代號和NVIDIA一樣也是字母+數(shù)字,但從DX11時代開始GPU的代號用單詞來命名,比如HD5000系列的架構(gòu)代號是EverGreen(常青樹),高端HD5870核心代號Cypress(柏樹)、中端HD5770核心代號Juniper(杜松); 今年一月份,在AMD發(fā)布HD7970時,我們曾詳細的分析過AMD代號為南方群島的“Graphics Core Next”架構(gòu)。這是AMD收購ATI之后的近5年來第一次對GPU架構(gòu)進行“傷筋動骨”的“手術(shù)”,而架構(gòu)調(diào)整的核心內(nèi)容則是為并行計算優(yōu)化設(shè)計,我們發(fā)現(xiàn)AMD的GCN架構(gòu)與NVIDIA的GPU有很多相似之處。 當(dāng)時筆者曾感慨:“在流處理器部分,終于不用費勁的把AMD和NVIDIA GPU架構(gòu)分開介紹了,因為GCN與SM已經(jīng)沒有本質(zhì)區(qū)別了。剩下的只是緩存容量、流處理器簇的數(shù)量、線程調(diào)度機制的問題,雙方根據(jù)實際應(yīng)用自然會有不同的判斷,自家的前后兩代產(chǎn)品也會對這些數(shù)量和排列組合進行微調(diào)。AMD向NVIDIA的架構(gòu)靠攏,證明了他這么多年來確實是在錯誤的道路上越走越遠,還好浪子回頭金不換,這次GCN架構(gòu)簡直就是大躍進!” 促使AMD做出革命性改進的一大原因,就是從R600開始SIMD(單指令多數(shù)據(jù)流)VILW(超長指令集)的效率問題,AMD的GPU固然擁有恐怖的浮點運算能力,但很多時候都不能完全發(fā)揮出來,由此導(dǎo)致游戲性能和計算性能都要大打折扣。此后的四代產(chǎn)品雖然在R600的基礎(chǔ)上修修補補,但始終未能從根本上解決問題。 AMD承認,從VLIW到GCN是GPU的革命,這次革命NVIDIA幾年前就完成了 NVIDIA的GPU從G80時代開始,其MIMD(多指令多數(shù)據(jù)流)一直以高效能而著稱,但也存在一個讓人頭疼的問題——GPU流處理器數(shù)量較少、浮點運算能力太低,這同樣限制了N卡在游戲以及計算方面的實際性能。 AMD的SIMD架構(gòu)可以用較少的晶體管造出龐大數(shù)量的流處理器、擁有恐怖的理論浮點運算能力;而NVIDIA的MIMD架構(gòu)必須使用更多的晶體管制造出看似比較少的流處理器,理論浮點運算能力相差很遠。雙方走的都是極端路線,AMD以數(shù)量彌補效率的不足,而NVIDIA以效率彌補數(shù)量的劣勢。 7年前從G80和R600開始,NVIDIA和AMD在GPU架構(gòu)上分道揚鑣,這么多年經(jīng)歷了風(fēng)風(fēng)雨雨之后,發(fā)現(xiàn)極左或極右路線都有各自的局限性,修正主義治標(biāo)不治本,唯有走中間路線才是正道!不過中間路線也有不同的走法,有些人還是偏左、有些人還是偏右…… 從GPU外圍模塊來看,AMD的Tahiti和上代Cayman相比變化不大,只是強化了曲面細分單元,加入了雙異步計算引擎而已。 HD6970代號為Cayman的GPU核心架構(gòu)圖 HD7970代號為Tahiti的GPU核心架構(gòu)圖 最大的改變來自于流處理器部分,原有的SIMD引擎不見了,取而代之的是GCN陣列,那SIMD引擎與GCN陣列有什么本質(zhì)區(qū)別呢? Cayman擁有20個SIMD引擎,每個SIMD引擎內(nèi)部包括16個這樣的4D矢量運算單元 Tahiti擁有32個GCN陣列,每個GCN陣列里面包括4個SIMD-16單元 Tahiti的每個GCN陣列里面包括4個SIMD單元,每個SIMD單元內(nèi)部包括16個1D標(biāo)量運算單元。這樣的話Cayman的SIMD引擎是16x4=64個流處理器,而Tahiti的GCN陣列是4x16=64個流處理器,總數(shù)量雖然沒有變化,但架構(gòu)上是截然相反的設(shè)計——Tahiti相對于Cayman來說革命性的改變就是把4D矢量運算單元改成了1D標(biāo)量運算單元! 但是,GCN架構(gòu)與NVIDIA的CUDA架構(gòu)還是有明顯的區(qū)別,那就是GCN里面包括了4個SIMD-16單元,標(biāo)量流處理器被硬性拆分為4個小組,而NVIDIA的SM則沒有這種設(shè)計,所有流處理器都一視同仁。 盡管AMD的架構(gòu)在向NVIDIA靠攏,但雙方還是有明顯區(qū)別,而且NVIDIA也在不斷的改變。至于NVIDIA和AMD歷代產(chǎn)品架構(gòu)上的變化,之前多篇文章中都已經(jīng)交代過了,這里就不再重復(fù),我們通過這個簡單的數(shù)字變化,來了解一下: 先看看AMD方面,從R600一直到Cypress,可以說一直在堆SIMD,動輒翻倍,架構(gòu)沒有任何變化;從Cypress到Cayman變化也不大,只是把矢量單元從5D改為4D;從Cayman到Tahiti可以說是質(zhì)變,SIMD被GCN取代,4D矢量運算單元改為1D標(biāo)量運算單元。 而NVIDIA方面,則是不停的對GPU的GPC、SM、CUDA核心等配比進行微調(diào),在微調(diào)的過程中經(jīng)歷了兩次突變:第一次是GT200到GF100,首次引出了GPC(圖形處理器集群)的概念,GPC數(shù)量減少但SM數(shù)以及流處理器數(shù)量增加不少;第二次就是現(xiàn)在了,從GF100到GK104,SM數(shù)量減少,但流處理器數(shù)量暴增! 改變是為了適應(yīng)形式的變化,解決此前出現(xiàn)的一些問題,那NVIDIA的架構(gòu)有什么問題呢?此前我們多次提到過,雖然NVIDIA的GPU在效能方面占盡優(yōu)勢,但也不是完美無缺的——NVIDIA最大的劣勢就是流處理器數(shù)量較少,導(dǎo)致理論浮點運算能力較低。當(dāng)然這只是表面現(xiàn)象,其背后的本質(zhì)則是MIMD(多指令多數(shù)據(jù)流)的架構(gòu),相當(dāng)一部分比例的晶體管消耗在了指令發(fā)射端和控制邏輯單元上面,所以流處理器數(shù)量始終低于對手。 GF110和GK104芯片對比圖
HD6000的架構(gòu)代號是North Island(北方群島),高端HD6970核心代號Cayman(開曼群島),中端HD6870核心代號Barts(圣巴特,加勒比海某小島);
HD7000的架構(gòu)代號是Sourth Island(南方群島),高端HD7970核心代號Tahiti(大溪地),中端HD7870核心代號Pitcairn(南太平洋某英屬群島),主流HD7770核心代號Cape Verde(佛得角,非洲最南邊島國)。
為了保證GPU性能持續(xù)增長,NVIDIA必須耗費更多的晶體管、制造出更大的GPU核心,而這些都需要先進的、成熟的半導(dǎo)體制造工藝的支持。NVIDIA之所以在GF100(GTX480)時代落敗,并非架構(gòu)或者研發(fā)端出了什么問題(GF110/GTX580的成功可以證明),而是核心太大導(dǎo)致40nm工藝無法支撐,良率低下漏電流難以控制,最終導(dǎo)致核心不完整且功耗巨大。如此一來,NVIDIA原有的架構(gòu)嚴(yán)重受制于制造工藝,并非可持續(xù)發(fā)展之路。
為此,NVIDIA將芯片架構(gòu)逐步轉(zhuǎn)向了SIMT的模式,即Single Instruction Multiple Threads(單指令多線程),SIMT有別與AMD的SIMD,SIMT的好處就是無需開發(fā)者費力把數(shù)據(jù)湊成合適的矢量長度,并且SIMT允許每個線程有不同的分支。 純粹使用SIMD不能并行的執(zhí)行有條件跳轉(zhuǎn)的函數(shù),很顯然條件跳轉(zhuǎn)會根據(jù)輸入數(shù)據(jù)不同在不同的線程中有不同表現(xiàn),這個只有利用SIMT才能做到。
SIMT在硬件部分的結(jié)構(gòu)還是要比SIMD復(fù)雜一些,NVIDIA還是更注重效率一些,所以NVIDIA的流處理器數(shù)量還是要比AMD少,但差距已經(jīng)沒以前那么夸張了。
基于效能和計算能力方面的考慮,NVIDIA與AMD不約而同的改變了架構(gòu),NVIDIA雖然還是采用SIMT架構(gòu),但也借鑒了AMD“較老”的SIMD架構(gòu)之作法,降低控制邏輯單元和指令發(fā)射器的比例,用較少的邏輯單元去控制更多的CUDA核心。于是一組SM當(dāng)中容納了192個核心的壯舉就變成了現(xiàn)實!
通過上面這個示意圖就看的很清楚了,CUDA核心的縮小主要歸功于28nm工藝的使用,而如此之多的CUDA核心,與之搭配的控制邏輯單元面積反而縮小了,NVIDIA強化運算單元削減控制單元的意圖就很明顯了。
Fermi的硬件相關(guān)性檢查變?yōu)镵epler的軟件預(yù)解碼
此時相信有人會問,降低控制單元的比例那是不是意味著NVIDIA賴以成名的高效率架構(gòu)將會一去不復(fù)返了?理論上來說效率肯定會有損失,但實際上并沒有想象中的那么嚴(yán)重。NVIDIA發(fā)現(xiàn)線程的調(diào)度有一定的規(guī)律性,編譯器所發(fā)出的條件指令可以被預(yù)測到,此前這部分工作是由專門的硬件單元來完成的,而現(xiàn)在可以用簡單的程序來取代,這樣就能節(jié)約不少的晶體管。
隨意在開普勒中NVIDIA將一大部分指令派發(fā)和控制的操作交給了軟件(驅(qū)動)來處理。而且GPU的架構(gòu)并沒有本質(zhì)上的改變,只是結(jié)構(gòu)和規(guī)模以及控制方式發(fā)生了變化,只要驅(qū)動支持到位,與游戲開發(fā)商保持緊密的合作,效率損失必然會降到最低——事實上NVIDIA著名的The Way策略就是干這一行的!
The Way(游戲之道)計劃可以保證NVIDA的GPU架構(gòu)與游戲完美兼容
這方面NVIDIA與AMD的思路和目的是相同的,但最終體現(xiàn)在架構(gòu)上還是有所區(qū)別。NVIDIA的架構(gòu)被稱為SIMT(Single Instruction Multiple Threads,單指令多線程),NVIDIA并不像AMD那樣把多少個運算單元捆綁為一組,而是以線程為單位自由分配,控制邏輯單元會根據(jù)線程的任務(wù)量和SM內(nèi)部CUDA運算單元的負載來決定調(diào)動多少個CUDA核心進行計算,這一過程完全是動態(tài)的。
但不可忽視的是,軟件預(yù)解碼雖然大大節(jié)約了GPU的晶體管開銷,讓流處理器數(shù)量和運算能力大增,但對驅(qū)動和游戲優(yōu)化提出了更高的要求,這種情況伴隨著AMD度過了好多年,現(xiàn)在NVIDIA也要面對相同的問題了,希望他能做得更好一些。
全新的Kepler相比上代的Fermi架構(gòu)改變了什么,看架構(gòu)圖就很清楚了:

Fermi GF100/GF110核心架構(gòu)圖
Kepler GK104核心架構(gòu)圖
GK104相比GF110,整體架構(gòu)沒有大的改變,GPU(圖形處理器集群)維持4個,顯存控制器從6個64bit(384bit)減至4個64bit(256bit),總線接口升級至PCIE 3.0。剩下的就是SM方面的改變了:
GF100和GF104的SM架構(gòu)圖
這里之所以要把GF104這顆中端核心的SM架構(gòu)圖也列出來,是因為GF104相比高端的GF100核心做了一些細小的改動,這些改動也被沿用到了GK104當(dāng)中。另外從核心代號上來看,GK104其實就是用來取代GF104的,而取代GF100的核心另有他人。
GK104的SMX架構(gòu)圖
NVIDIA把GK104的SM(不可分割的流處理器集群)稱為SMX,原因就是暴增的CUDA核心數(shù)量。但實際上其結(jié)構(gòu)與上代的SM沒有本質(zhì)區(qū)別,不同的只是各部分單元的數(shù)量和比例而已。具體的區(qū)別逐個列出來進行對比:

1. NVIDIA現(xiàn)在把流處理器稱為CUDA核心;
2. SFU(Special Function Units,特殊功能單元)是比CUDA核心更強的額外運算單元,可用于執(zhí)行抽象的指令,例如正弦、余弦、倒數(shù)和平方根,圖形插值指令也在SFU上執(zhí)行;
3. Warp是并行線程調(diào)度器,每一個Warp都可以調(diào)度SM內(nèi)部的所有CUDA核心或者SFU;
4. Dispatch Unit是指令分派單元,分則將Warp線程中的指令按照順序和相關(guān)性分配給不同的CUDA核心或SFU處理;
5. LD/ST就是載入/存儲單元,可以為每個線程存儲運算源地址與路徑,方便隨時隨地的從緩存或顯存中存取數(shù)據(jù);
6. TMU是紋理單元,用來處理紋理和陰影貼圖、屏幕空間環(huán)境光遮蔽等圖形后期處理;
通過以上數(shù)據(jù)對比不難看出,GK104暴力增加CUDA核心數(shù)量的同時,SFU和TMU這兩個與圖形或計算息息相關(guān)處理單元也同比增加,但是指令分配單元和線程調(diào)度器還有載入/存儲單元的占比都減半了。這也就是前文中提到過的削減邏輯控制單元的策略,此時如何保證把指令和線程填滿一個CUDA核心,將是一個難題。
除了CUDA核心數(shù)量大增之外,開普勒架構(gòu)還有個很明顯的改變,那就是CUDA核心的頻率不再是GPU頻率的兩倍,現(xiàn)在整顆GPU所有單元的工作頻率都是相同的,GTX680的默認頻率達到了1GHz!
NVIDIA的上代產(chǎn)品,比如GTX560Ti,一些AIC的超頻版本默認核心頻率可達900MHz,CUDA頻率是1800MHz。按理說如果新一代架構(gòu)改變不是很大的話,在28nm的幫助下核心頻率到1GHz沒有問題,那CUDA頻率應(yīng)該可以到2GHz才對。而現(xiàn)在的情況則是CUDA的頻率“被減半了”。
NVIDIA官方對CUDA與核心同頻的解釋是——功耗原因,為了盡可能的控制GTX680的功耗,不再讓CUDA工作在兩倍頻率下。
對于這種解釋,筆者并不理解,如果CUDA頻率真能工作在2GHz下,性能提升兩倍,此時功耗增長兩倍又如何?如此增加功耗是值得的,并不影響GTX680顯卡的“每瓦性能”。
所以,筆者猜測此次CUDA與核心同頻,應(yīng)該有別的原因,以下猜測純屬虛構(gòu),大家隨便看看不要當(dāng)真:
原因一:此次NVIDIA對SMX的結(jié)構(gòu)進行了大幅度的調(diào)整,除了控制邏輯單元削減外,過于密集CUDA單元結(jié)構(gòu)也發(fā)生了一些變化,導(dǎo)致CUDA單元或控制邏輯單元上不了更高的頻率,所以現(xiàn)在就和AMD一樣同頻了;
原因二:保留實力。NVIDIA官方發(fā)言人在AMD發(fā)布HD7970之后曾表示:AMD GCN架構(gòu)“南方群島”核心的表現(xiàn)并沒有超出NVIDIA的預(yù)期,一切盡在掌握之中。而Kepler架構(gòu)則將比南方群島要強出許多,因為本來NVIDIA為新架構(gòu)設(shè)計的對手是AMD更強的新產(chǎn)品,但實際上南島并未達到NVIDIA的設(shè)想性能。
原因三:確實是功耗問題,強行讓CUDA工作在雙倍頻率下對GPU的電路設(shè)計提出了很高的要求,28nm新工藝目前可能還尚未完全吃透,上高頻有一定的難度。
雖然CUDA頻率達不到兩倍,但NVIDIA通過加入類似Intel睿頻的技術(shù),一定程度上提高了工作頻率,性能也同比增長,而且高于預(yù)期,或者說是對手不如預(yù)期。
我們先來回顧一下顯存控制器的發(fā)展史:
NVIDIA:G80(384bit)-G92(256bit)-GT200(512bit)-GF100(384bit)
AMD:R600(512bit)-RV670(256bit)-RV770(256bit)-Cypress(256bit)-Cayman(256bit)-Tahiti(384bit)
384bit顯存應(yīng)該是高端顯卡的標(biāo)配
● GK104核心為什么只有256bit顯存?
大家應(yīng)該注意到了,NVIDIA近年來的高端顯卡,很少有256bit顯存的設(shè)計,現(xiàn)在就連AMD都升級到384bit顯存,256bit已經(jīng)很難在躋身為高端,為什么NVIDIA新一代的GTX680居然降級到了256bit?
答案在其核心代號上面,GK104的定位就是取代GF104/GF114,它并非是NVIDIA最高端的GPU,顯存方面自然不會用最高端的配置。
● GTX680顯存頻率彌補位寬不足,首次達到6GHz!
另外,之前我們反復(fù)提到過,AMD從HD4870開始第一次使用GDDR5顯存,GDDR5的標(biāo)準(zhǔn)幾乎可以說是AMD的人一手制定的,AMD歷代GPU憑借GDDR5超高頻率的優(yōu)勢,以較低的顯存位寬很好的控制了成本。

而NVIDIA從GTX480開始也使用了GDDR5顯存,但頻率一直都上不去,GTX400和GTX500系列顯卡的顯存頻率一直在4000MHz上下徘徊。NVIDIA的顯卡在GPU頻率方面超頻能力還不錯,但顯存的超頻空間幾乎沒有,即便有液氮的助力也無濟于事。
現(xiàn)在,隨著開普勒的發(fā)布,NVIDIA在顯存頻率上面終于反超AMD,重新設(shè)計的顯存控制器突破了頻率的桎梏,瞬間從4000MHz飆升至6000MHz,帶寬提升達50%之多,這個幅度就相當(dāng)于把256bit免費升級至384bit,顯存帶寬不再是瓶頸了。
最后再來看看開普勒架構(gòu)在其它方面的改進:
● 多形體引擎2.0:
從GTX480開始,NVIDIA就宣稱只有自己“做對了DX11”,因為GF100核心擁有多達16個多形體引擎,每個多形體引擎內(nèi)部都有獨立的曲面細分單元,而HD5870整顆Cypress核心只有1個曲面細分單元。通過專項測試來看,GTX480的曲面細分和幾何性能都遙遙領(lǐng)先于HD5870。
AMD方面當(dāng)然也意識到了孽弱的曲面細分性能是個瓶頸,一方面強調(diào)“曲面沒必要分太細”,另一方面也在新一代產(chǎn)品中不斷的加強曲面細分性能。根據(jù)AMD官方的說法,HD6870通過雙超線程分配處理器將中等程度的曲面細分性能提高了2倍;HD6970通過雙圖形引擎又提升了2倍;而HD7970則重新設(shè)計了曲面細分單元,在所有等級下都可以達到HD6970的4倍!最終HD7970的曲面細分能力相比HD5870提升了10倍左右!
在AMD不斷更新架構(gòu)的同時,NVIDIA的DX11 GPU沒有變化(GF110和GF100是一樣的),顯然HD7970的曲面細分性能已經(jīng)超越了GTX580。這次該NVIDIA著急了。
在開普勒架構(gòu)中,我們看到了多形體引擎2.0版,結(jié)構(gòu)上沒有什么變化,但處理能力翻倍了。NVIDIA稱,Kepler的多形體引擎在同頻率下的性能是Fermi的兩倍,而且新引擎在重度曲面細分情況下的效率更高,性能損失更小。
DX11理論曲面性能性能測試,橫軸為細分級別
值得注意的是,GK104只有8個多形體引擎,而GF110有16個多形體引擎,但最終GTX680的曲面細分性能比GTX580還要強,看來單個引擎的效能確實翻倍了,超出那部分的性能應(yīng)該是高達1GHz頻率的貢獻。
可以看出,NVIDIA的曲面細分單元在重度細分模式下的效率更好一些,低級別模式下HD7970并不差還略占優(yōu)勢,但級別越高差距就越大。根據(jù)目前DX11游戲的發(fā)展趨勢來看,“曲面沒必要分太細”的說法已經(jīng)過時,不然AMD也就成倍的增加曲面細分性能了,未來的DX11游戲會加入高精度曲面細分引擎,屆時N卡的優(yōu)勢會得到體現(xiàn)。
● 更快的高速緩存:
GK104的緩存設(shè)計與GF100沒有區(qū)別,都是一級緩存、一級紋理緩存、二級緩存這樣的層級設(shè)計,而且緩存容量的配比也沒有變化,但因為模塊化設(shè)計的關(guān)系,總?cè)萘坑兴鶞p少。
緩存架構(gòu)讓各流水線之間可以高效地通信,減少了顯存讀寫操作
GK104的每個SMX當(dāng)中配有64KB的Shared Memory/L1,GK104總共擁有8個SMX,所以一級緩存的總?cè)萘渴?12KB。
GK104的每個光柵單元/64bit顯存控制器配有128KB的L2,GK104總共有4個64bit顯存控制器,所以二級緩存的總?cè)萘恳彩?12KB。
與GF100的1MB一級緩存、768KB的二級緩存相比,GK104的緩存容量確實小了很多,這個可以通過芯片透視圖明顯的看出。
雖然緩存容量變小了,但速度快了很多,NVIDIA強調(diào)GK104的L2帶寬比GF110增加了73%,其中改進的算法提高了30%的緩存命中率,另外的43%則是得益于高達1GHz的核心頻率。此外,原子操作的吞吐量也大增3.5倍,尤其是單一共享地址的原子操作可提升11.7倍之多!
● 更多的紋理單元:
GK104的每個SMX內(nèi)部擁有16個紋理單元,8個SMX總計128個紋理單元;GF110的每個SM內(nèi)部擁有4個紋理單元,16個SM總計64個紋理單元;可以看出GK104這次大幅增加CUDA核心數(shù)量的同時,也沒有忘記紋理單元。
除了數(shù)量翻倍之外,紋理存取的限制也放開了,以前因為DX11 API的限制,GPU最多只能對128個紋理進行操作,而現(xiàn)在GK104可以使用超過100萬像素的紋理貼圖,而且可以并行的對多個紋理同時操作,在使用超大紋理時的CPU占用率大幅下降。但由于微軟DirectX API的限制,目前GK104的這些特性還只能在OpenGL API中體現(xiàn),未來版本的DirectX可能會加入支持。
長篇大論的分析相信大家看得都很累,最后我們將Tahiti與GK104這兩顆GPU的所有規(guī)格都列出來,進行全方位的對比:

下面就通過數(shù)據(jù)分析一下架構(gòu)的特性:
1. GK104的晶體管數(shù)比GF110減少了,但流處理器數(shù)量達到了三倍,NVIDIA改進架構(gòu)、提高浮點運算的努力效果顯著。但是,同為1536個流處理器,GK104的晶體管數(shù)要遠大于Cayman核心,這就證明了SIMT還是要比SIMD更消耗晶體管;
2. GTX680的核心與顯存頻率都創(chuàng)新高,但是TDP卻不到200W,這都要歸功于它小核心的設(shè)計、以及不再使用雙倍CUDA頻率的作法,NVIDIA控制功耗的作法成效顯著;
3. Tahiti的晶體管數(shù)是GK104的1.22倍,流處理器數(shù)量是1.33倍,這兩個數(shù)字差距不是很大,N/A雙方自DX10時代以來頭一次達到了相似的晶體管利用率;
4. 從Cayman到Tahiti,AMD用了1.63倍的晶體管數(shù)才讓流處理器數(shù)量達到了原來的1.33倍;從GF110到GK104,NVIDIA減少了晶體管數(shù)量卻讓流處理器達到原來的三倍;可以看出雙方都在向?qū)Ψ降募軜?gòu)靠攏,目的只有一個,就是提高GPU的運算效能;
通過之前的測試數(shù)據(jù)來看,AMD的GCN架構(gòu)相比上代確實提高了GPU的效能。而NVIDIA方面,GTX680的性能也必定遠超GTX580。
在核心面積、晶體管數(shù)量、功耗、流處理器數(shù)量、顯存容量、顯存位寬得各方面都不占優(yōu)勢(唯一的優(yōu)勢就是頻率)的情況下,GTX680的綜合性能是否能夠超越HD7970?Kepler與南方群島的架構(gòu)孰優(yōu)孰劣?
全新的GPU Boost動態(tài)加速技術(shù)
對于顯卡來說,核心頻率仍然是決定其性能的關(guān)鍵參數(shù),在相同架構(gòu)和核心數(shù)量的情況下,更高的頻率意味著更強的性能。而這一次“開普勒”除了架構(gòu)上的全面改變,GTX680這次引入了一項全新技術(shù):GPU Boost,意思是GPU加速。這種動態(tài)超頻技術(shù)對我們來說并不陌生,Intel在CPU中使用了Turbo Boost(睿頻)技術(shù),NVIDIA此次的GPU Boost技術(shù)與其極為相似,不過這種技術(shù)是首次在GPU中使用,GTX680也是第一款應(yīng)用了動態(tài)加速技術(shù)的顯卡。
不同應(yīng)用環(huán)境下的GPU功耗有多有少
一塊顯卡都有熱設(shè)計功耗(Thermal Design Power,簡稱TDP),根據(jù)大量不同實際應(yīng)用測試來決定最終GPU頻率、電壓等參數(shù)。不過,測試的時候發(fā)現(xiàn),并非所有應(yīng)用都可以達到TDP上限,在不同的使用環(huán)境下,顯卡的功耗有所差異。而在沒有達到散熱、功耗極限的情況下,GPU核心頻率依然有提高的余地,從而可以達到提升性能的目的,因此GPU核心實現(xiàn)動態(tài)加速的設(shè)計思路被NVIDIA的工程師所提出。
對于負載相對低的應(yīng)用,執(zhí)行效率上仍有上升余地
在保證同樣功耗的前提下,動態(tài)調(diào)節(jié)GPU核心頻率從而挖掘出顯卡全部潛能
GPU Boost技術(shù)的實現(xiàn)是硬件和軟件的完美結(jié)合。當(dāng)應(yīng)用運行時,硬件電路系統(tǒng)會實時監(jiān)控功耗的變化,此時在軟件控制(筆者注:Bios層面的控制,結(jié)合驅(qū)動程序,并不需要額外安裝軟件)下后臺會動態(tài)調(diào)整GPU頻率,根據(jù)功耗、熱量、風(fēng)扇轉(zhuǎn)速的情況讓GPU頻率達到最高。
標(biāo)準(zhǔn)頻率為1006MHz(因為誤差軟件顯示為1005MHz)
在原本低負載的應(yīng)用時提高GPU頻率,達到1.1GHz以上
以GTX680為例說明,其基本核心頻率為1006MHz,也就是運行3D程序時的最低時鐘頻率,熱設(shè)計功耗為195W。當(dāng)運行的應(yīng)用負載未達到TDP上限時,GPU頻率在大多情況下可以提升至1058MHz,甚至一些應(yīng)用可以達到1.1GHz以上。
GTX680動態(tài)加速演示及其他功能特性演示視頻
此外,這一代“開普勒”顯卡依然可以超頻,并且與GPU Boost技術(shù)不會產(chǎn)生沖突,在第三方軟件的支持下,GTX680可以對TDP、電壓、默認頻率等參數(shù)進行更改設(shè)置,從而讓顯卡整體性能進一步提升。
在過去,我們在運行3D游戲時經(jīng)常使用到一種叫做垂直同步(VSync)的技術(shù),該技術(shù)在渲染新幀的速率與顯示器刷新速率保持一致,從而達到讓游戲流暢運行的目的。不過這種技術(shù)存在一個問題,當(dāng)渲染速度降低的時候,瞬間幀率會嚴(yán)重下滑,以我們常用的60Hz刷新率的顯示器為例,由于垂直同步技術(shù)的使用,瞬間刷新率會降低至30、20或15。
開啟垂直同步會發(fā)生頓卡(幀率過低時)
關(guān)閉垂直同步會導(dǎo)致畫面撕裂(幀率過高時)
這種現(xiàn)象可能發(fā)生在游戲過程中場景的轉(zhuǎn)換、單位數(shù)量增加等計算壓力突然發(fā)生變化的時候。此時GPU可能無法在理想時間內(nèi)完成對一幀甚至幾幀畫面的渲染,從而導(dǎo)致刷新率瞬間大幅降低,這時候玩家會明顯的體會到卡頓、延遲。如果想要避免這種卡頓的發(fā)生,可以關(guān)閉垂直同步,而此時真與幀之間會有一個標(biāo)記線來區(qū)分,這樣可以有效避免渲染速度瞬間過慢帶來的幀率降低,但是如果渲染速度過快,就會遇到畫面撕裂的效果。無論開啟或關(guān)閉垂直同步,都會有一些意外情況發(fā)生,對于游戲體驗有著很惡劣的影響。
Adaptive VSync技術(shù)完美解決了垂直同步開/關(guān)的矛盾
為了避免這些現(xiàn)象的發(fā)生,自然不能再使用過去的垂直同步技術(shù),而NVIDIA的軟件工程師為此開發(fā)了全新的Apdative VSync平滑垂直同步技術(shù),將會在全新的ForceWare 300系列驅(qū)動程序中提供,可以讓游戲畫面更加平滑,不再出現(xiàn)卡頓或撕裂。
這項技術(shù)在運行的原理是根據(jù)幀率實時開啟或關(guān)閉原本的垂直同步技術(shù),取兩者之長,達到讓游戲運行幀率更流暢的目的。具體運行情況是這樣:當(dāng)檢測到FPS低于60時,實時關(guān)閉VSync,讓當(dāng)前幀能夠以能夠達到的最高渲染速率進行,不至出現(xiàn)強制降低幀率從而出現(xiàn)嚴(yán)重卡頓的情況,而一旦幀率達到60,隨機開啟VSync,避免游戲幀率過高從而產(chǎn)生畫面撕裂。有了NVIDIA Apdative VSync技術(shù),你不用再糾結(jié)與垂直同步的開啟或關(guān)閉,從而將可以得到更流暢的游戲體驗。
在3D圖像中,我們不可避免的遇到“鋸齒”。鋸齒是由于受到顯示設(shè)備分辨率和圖像生成原理制約,不可避免的會出現(xiàn)的一種圖像失真現(xiàn)象,具體表現(xiàn)為畫面中物體的邊緣呈現(xiàn)出三角形的鋸齒狀。為了獲得更好的視覺體驗,讓物體邊緣看起來更柔和、自然,需要進行消除鋸齒(Anti-Aliasing,簡稱AA)處理。
目前比較普遍使用的抗鋸齒技術(shù)是MSAA(MultiSampling Anti-Aliasing多重采樣抗鋸齒)技術(shù),這種技術(shù)的實現(xiàn)原理較為簡單,但是卻耗費大量硬件資源。開啟4x MSAA之后很多游戲運行效率會大幅降低,有可能讓原本可以流暢運行的游戲變?yōu)闊o法流暢運行。這也是的玩家不得不在“更好畫面”和“更流暢運行”之間做出一個艱難的選擇。
FXAA與4x MSAA效果對比(點擊圖片可以放大)
而NVIDIA自去年發(fā)布了一項全新的鋸齒處理技術(shù):FXAA(Fast Approximate Anti-Aliasing,快速近似抗鋸齒)。這一項技術(shù)屬于一種圖像后處理技術(shù),處理操作發(fā)生在游戲渲染管線后期工作階段。FXAA并不能徹底解決圖像鋸齒的問題,但是可以很大程度的改良圖像效果,而它最大的優(yōu)勢在于提供不低于MSAA效果的同時執(zhí)行效率大幅提升,其單幀畫面的處理時間僅需1毫秒,而MSAA的處理時間則要高出許多。最后的結(jié)果是,使用FXAA在得到與MSAA相近的畫面品質(zhì)時,運行幀率卻能高出一倍。
FXAA的執(zhí)行效率要遠高于4x MSAA
目前FXAA用兩種實現(xiàn)方法:一種是游戲引擎內(nèi)自帶,比如極度恐慌3、永遠的毀滅公爵、戰(zhàn)地3等游戲;另外一種則是通過NVIDIA顯卡控制面板打開,在全新的ForceWare 300中可以提供,也就是說今后所有的游戲都可以使用這項全新技術(shù)了(前提是你使用NVIDIA顯卡)。
更為強大的TXAA技術(shù)即將來臨
TXAA與8x MSAA效果對比(點擊圖片可以放大)
而如今,又一項新技術(shù)誕生了:TXAA。TXAA是全新一代硬件渲染的抗鋸齒技術(shù),可以提供電影級別的畫面品質(zhì),專為發(fā)揮GTX680強大的紋理性能而設(shè)計。TXAA將會通過HDR后處理管線從硬件層面上提供顏色矯正處理。目前TXAA分為TXAA1、TXAA2兩個級別,TXAA1可以實現(xiàn)8x MSAA的效果,執(zhí)行效率與2x MSAA相當(dāng),而TXAA2則會提供更高的畫面品質(zhì)。
與NVIDIA合作的游戲/廠商
支持TXAA技術(shù)的游戲?qū)诮衲晖硇r候逐漸登場,已經(jīng)確定要發(fā)行的作品包括:機甲戰(zhàn)士在線(MechWarrior Online)、神秘世界(Secret World)、星戰(zhàn)前夜在線(EVE Online)、無主之地2(Borderlands 2),而BitSquid、Slant Six Games、虛幻4引擎、Crytek(代表作:孤島危機)也都將推出采用TXAA技術(shù)的作品。
GTX680將可以實現(xiàn)最多四屏顯示
過去NVIDIA的顯卡無論高端、主流、低端還是專業(yè)卡,單塊顯卡僅能支持兩個屏幕顯示,這一傳統(tǒng)已經(jīng)延續(xù)多年。而這次NVIDA在GTX680(全部“開普勒”核心的顯卡皆能支持該功能)的視頻輸出接口配置上進行了大刀闊斧的改變:兩個Dual-link DVI、一個HDMI和一個DisplayPort接口,其中HDMI接口支持1.4a標(biāo)準(zhǔn),DisplayPort接口支持1.2標(biāo)準(zhǔn),從而實現(xiàn)了3860x2160的超高分辨率、更高的數(shù)據(jù)帶寬、多視頻/音頻流等全新功能。
兩個Dual-Link DVI、HDMI 1.4a和DP1.2接口
采用這樣的接口配備完全是有原因的:根據(jù)調(diào)查,DVI依然是目前最流行的顯示信號傳輸方式,兩個可以支持高達2560x1600分辨率的DVI接口完全滿足絕大多數(shù)用戶的需求,而這一次HDMI、DisplayPort接口皆為全尺寸標(biāo)準(zhǔn)接口,用戶也無需再因為購買轉(zhuǎn)接頭而頭疼了,支持最新一代的顯示標(biāo)準(zhǔn)(HDMI 1.4a、DisplayPort 1.2)也令一張GTX680可以支持最新規(guī)范在未來數(shù)年內(nèi)都不會落后。
一塊GTX680顯卡就可以實現(xiàn)3D Vision Surround效果
在GTX680強大的性能支持下,主流游戲三屏皆可流暢運行
這樣的視頻輸出配置在顯示驅(qū)動的支持下最多可以達成四屏幕同時顯示,并且使用兩個DVI和一個HDMI接口就可以組成三屏系統(tǒng)(AMD Eyefinity技術(shù)在實現(xiàn)多屏顯示必須要使用一個DisplayPort接口)。此外顯示輸出可以完美支持立體3D顯示,這樣一來NVIDIA 3D Vision Surround技術(shù)便可以用一張GTX680顯卡完美實現(xiàn),帶來最極致的視覺體驗。
所有的“開普勒”核心顯卡都將配備全新的H.264視頻轉(zhuǎn)碼單元,名為NVENC。
NVENC硬件轉(zhuǎn)碼單元擁有全新特性
在開普勒之前,NVIDIA GeForce顯卡可以通過軟件實現(xiàn)GPU硬件轉(zhuǎn)碼加速,參與轉(zhuǎn)碼工作的是CUDA核心。相比CPU轉(zhuǎn)碼,CUDA核心的性能要強上數(shù)倍。不過有一點不足之處:在進行視頻編碼高速處理的過程中運行功耗會增加。而如今,在用了專門H.264硬件轉(zhuǎn)碼單元支持的下,相比過去通過CUDA核心轉(zhuǎn)碼的工作方式,相同功耗之下速度可以快四倍。
最新版本的MediaEspresso已經(jīng)可以支持NVENC轉(zhuǎn)碼
此外,NVENC硬件轉(zhuǎn)碼和過去的CUDA轉(zhuǎn)碼可以同時工作,互不影響。畢竟一些視頻預(yù)處理仍然需要CUDA核心參與工作,不過NVENC模塊的加入可以降低CUDA核心在進行預(yù)處理時的負擔(dān),大大提升轉(zhuǎn)碼效率。
NVENC單元簡要介紹:
●8倍速1080P全高清視頻轉(zhuǎn)換,16分鐘、30FPS幀率的視頻僅需2分鐘即可轉(zhuǎn)換完成
●支持不同畫質(zhì),包括H.264 Base、Main、High Profile Level 4.1(與藍光同級別)
●支持立體影片多視頻流轉(zhuǎn)碼,比如藍光3D
●最高4096x4096分辨率
未來會有更多支持NVENC的軟件
目前NVENC仍然需要專門的API,并有NVIDIA提供SDK。不過在今年晚些時候,CUDA開發(fā)者也將可以使用高性能NVENC轉(zhuǎn)碼器。屆時將可以通過CUDA通用計算進行預(yù)處理,而使用NVENC進行H.264編碼。這樣在同時使用兩者進行工作時,效能將會進一步提高,并且相互不影響。
得益全新SMX架構(gòu)、GPU Boost動態(tài)加速技術(shù)的加入以及更高速的顯存頻率,GTX680變得無比強大?,F(xiàn)在它可以實現(xiàn)更加華麗的PhysX物理效果、擁有更高的執(zhí)行效率,相比上代旗艦GTX580,GTX680這次可以帶來更好的物理效果體驗。
馬克思·佩恩3
包括最新、最熱門的動作、射擊、角色扮演類游戲《無主之地2》、《馬克思·佩恩3》都將使用PhysX物理加速技術(shù)。從而實現(xiàn)更加逼真的效果。
QQ炫舞2
QQ炫舞2視頻
除此之外,即將到來《QQ炫舞2》也將加入PhysX技術(shù)的支持,這款游戲在中國相當(dāng)火爆,擁有超過千萬的注冊用戶。
今年NVIDIA還將推出更多使用PhysX物理加速技術(shù)的游戲。
一起來看看GTX680的樣子吧:這次GeForce GTX680的NVIDIA原廠卡也有大紙盒包裝,印象中以往原廠卡都是僅有一個絕緣袋套著。
GTX680顯卡依然是我們熟悉的風(fēng)格:黑色的主色加上象征著NVIDIA的綠色線條和Logo。
黑色的PCB,SLI橋接口有兩個。
依然采用渦輪式風(fēng)扇散熱
GTX680顯卡長度約為27.5cm,要比HD7970和GTX580都要短,對于機箱空間的要求有所降低。
依然占據(jù)2個PCI槽,顯示輸出接口包括DVIx2、HDMI和DP。
接下來對GTX680顯卡進行拆解。
擰開螺絲后,我們看到的仍是巨大的散熱器,核心部分與銅面接觸,顯存、供電部分則通過導(dǎo)熱膠連接。
散熱器包括高密度鋁制散熱片和一顆渦輪風(fēng)扇
散熱器正面俯視圖
PCB正面照:核心位于PCB版中間偏左的位置,周圍布置了8顆顯存,右邊是供電元件。
PCB板45度照片
PCB背面照片
GTX680核心照片:編號為GK104-400-A2,核心大小為294mm2,相比HD7970的365mm2、GTX580的520mm2都要小不少。
來自海力士的顯存顆粒,單顆容量為2Gb,16bit位寬,一共8顆構(gòu)成了2GB、256Bit位寬的顯存規(guī)格。
供電部分采用4+2相設(shè)計,4相核心+2相顯存,而核心部分保留有1相空焊,外接電源為雙6Pin接口,仍留有1組位置。由此可見,GK104仍非“開普勒”核心的終極版本,相信未來仍有更強大的產(chǎn)品推出。
接下來是首批上市、送測顯卡曝光,目前為止各家廠商的GTX680皆為公版卡,除了包裝、貼紙之外與公版卡沒有差異,因此不做詳細介紹,僅放上產(chǎn)品實拍圖片。
首先是影馳GEFORCE GTX680:
七彩虹GTX680-GD5 CH版 2048M:
索泰GTX680-2GD5極速版:
映眾GTX680游戲至尊版
接下來是測試環(huán)節(jié),GTX680的性能就要揭曉。測試平臺使用Intel Core i7 3960X處理器、16GB四通道內(nèi)存和240GB固態(tài)硬盤。除了主角GEFORCE GTX680之外,對比顯卡包括HD7970、HD7950、GTX580。具體配置如下:

測試平臺照片:
單卡
雙卡
GPU-Z截圖:

基準(zhǔn)測試《3DMark Vantage》、《3DMark 11》、《Ungine Heaven 3.0》、演示Demo《Stone Giant》以及微軟DirectX 11 SDK的測試程序SubD11:









在3DMark測試中,GTX680可以取得比HD7970更高的分?jǐn)?shù),不過載DMark 11中雙卡SLI效率并不如HD7970高。而Unigine Heaven、石巨人測試中GTX680大幅領(lǐng)先于HD7970。而微軟SubD11曲面細分專門測試中,曲面細分級別由10、20、31三個級別的測試情況來看,GTX680的曲面細分能力達到了非??植赖某潭?,大幅超越HD7970,相比GTX580也有不小的提升。
DX9C游戲《星際爭霸2:自由之翼》、《街頭霸王4》、《使命召喚:現(xiàn)代戰(zhàn)爭3》:






DX9C游戲中,高端顯卡的游戲幀數(shù)都高的驚人,不過無論SLI/CF都對性能提升沒有更大幫助。而GTX680的《使命召喚》性能略微低于HD7970,星際爭霸、街頭霸王4則領(lǐng)先對手。
DX10游戲《孤島危機》、DX10.1游戲《孤島驚魂2》:




孤島危機可謂碩果僅存的DX10游戲,DX10.1游戲數(shù)量也較少。孤島危機中HD7970有細微優(yōu)勢,而孤島驚魂2中GTX680則大幅領(lǐng)先。
DX11游戲《異形大戰(zhàn)鐵血戰(zhàn)士》、《蝙蝠俠:阿卡姆城》、《戰(zhàn)地3》:






異形大戰(zhàn)鐵血戰(zhàn)士是A卡傳統(tǒng)優(yōu)勢游戲,而蝙蝠俠和戰(zhàn)地3則更適合N卡發(fā)揮,因此GTX680在后邊兩款游戲中大幅領(lǐng)先,而在異形中僅落后一點。
DX11游戲《潛行者:普里皮亞季的召喚》、《孤島危機2》、《文明5》:






這幾款游戲之中GTX680領(lǐng)先于HD7970或基本持平。
DX11游戲《塵埃3》、《失落的星球2》、《地鐵2033》:





塵埃3、失落的星球2是N卡優(yōu)勢項目,GTX680領(lǐng)先,而地鐵2033中會稍低于HD7970。
最后兩個游戲測試,DX11游戲《幕府將軍2:全面戰(zhàn)爭》和《魔獸世界:大地的裂變》:




GTX680在幕府將軍中與HD7970性能很接近,以微弱優(yōu)勢領(lǐng)先,而魔獸世界中GTX680則大幅領(lǐng)先。
使用FurMark 1.9.2軟件進行拷機,顯卡待機、滿載時的系統(tǒng)功耗和顯卡溫度如下:


GTX680的待機溫度相當(dāng)?shù)停瑵M載溫度的話幾款28nm工藝的顯卡都達到75度以上,彼此之間的差距也不算大,盡管制造工藝在不斷進步,但是顯卡功耗控制也在進步,但是依然是電腦中發(fā)熱量最大單元。而GTX680的整機功耗僅有355W,比HD7970低20W左右,雙卡功耗差距則達到了30W左右。
全部測試成績完成之后,我們將成績匯總,去掉了SubD11曲面細分測試項目,因為此項目中A卡落后幅度過大,會對綜合性能的統(tǒng)計數(shù)據(jù)造成很大影響。而GTX680與GTX580、HD7970的測試成績?nèi)缦卤恚?/P>

用柱狀圖顯示更為直接:

以GTX580為標(biāo)準(zhǔn),GTX680的性能達到了30%以上的提升,而相比HD7970,GTX680領(lǐng)先幅度超過10%。
盡管擁有Turbo Boost技術(shù),但是玩家對于頻率的追求是無止境的。時間有限,但是這次測試中依然對GTX680的超頻能力進行了初步探索。這次超頻使用了影馳魔盤軟件,支持開普勒核心的NVIDIA GEFORCE顯卡。
影馳魔盤K目前仍為Beta版本,正式版本將會在界面等方面有所改進
開啟解鎖選項之后,輕輕一拉頻率條

核心頻率瞬間提高150MHz,Turbo Boost加速頻率也隨之提升
時間有限,僅測試了3DMark 11項目,測試結(jié)果:

習(xí)慣了后發(fā)制人的NVIDIA,這一次拿出了完全讓人出乎意料的產(chǎn)品:GEFORCE GTX680。GTX680不僅在性能上超越對手AMD的旗艦產(chǎn)品Radeon HD7970,功耗也不增反降,僅僅需要兩個6pin外接供電,取得了能耗比上的極大優(yōu)勢,是一次全面勝利,讓任何人都可以閉上嘴。高性能、低功耗的最根本原因來自于架構(gòu)的改變。NVIDIA這次的“開普勒”架構(gòu)可以說是完勝AMD的GCN架構(gòu),兩者都做出了改變,但是結(jié)果卻不同。
GTX680徹底打敗了HD7970
我們可以看出GEFORCE GTX680是一款全新的產(chǎn)品,除了性能、功耗的改變之外,在新功能、特性上也有所改變,GPU Boost動態(tài)加速技術(shù)挖掘出了GPU核心的全部潛力,平滑垂直同步改善了游戲體驗,多屏輸出給用戶提供了切實的方便。
目前GTX680產(chǎn)品價格定為3999元,這讓HD7970目前售價顯得略高,畢竟性能全面落后,功耗也不占優(yōu)勢,而目前HD7970的價格卻與之持平甚至略貴,如果說在HD6970/50時代AMD還可以靠小核心、低成本戰(zhàn)略來與性能更強的GTX580錯位競爭,避免正面噴裝,那么這次HD7970面對的狀況恐怕就要困難一些了:更大的核心面積意味著更高的成本,就算打起價格戰(zhàn),恐怕HD7970也未必是GTX680的對手。AMD的HD7970曾經(jīng)在單芯片卡皇的位置上做了3個月,而現(xiàn)在它需要讓位了,并且處于一個非常困難的境地,AMD將怎樣反擊,是我們接下來所好奇的。
從HD5000 VS GTX400、HD6000 VS GTX500到如今的GTX600 VS HD7000,GPU步入DirectX 11以來NVIDIA與AMD已經(jīng)開始了第三次大戰(zhàn),在單芯旗艦問世后,下一場戰(zhàn)斗將會在雙芯卡上展開,屆時誰又能登頂王座呢?我們拭目以待下場較量的開始?!?
關(guān)注我們


