破解Intel倍頻魔咒!P67超2600到4.4G
泡泡網(wǎng)主板頻道3月19日 Sandybridge(SNB)是Intel 2011年的一次重大架構(gòu)更新,官方稱為“2011年第二代Intel Core處理器家族”,主要針對性能級和主流市場。這次新產(chǎn)品的發(fā)布,包含桌面及移動版本共29款處理器、10款芯片組,相關(guān)產(chǎn)品超過500款。數(shù)量和規(guī)模超越了Intel過去任何一次新產(chǎn)品發(fā)布。
除了處理器,配套的芯片組、主板、散熱器等也會一并更新,其中芯片組是6系列,桌面上主要有P67、H67、H61等型號,原生支持最多兩個SATA 6Gbps接口,但沒有原生USB 3.0,仍需要依賴第三方控制器,另外還有PCI-E 2.0 5GT/s高速總線。
6系列主板的插座將改為LGA1155,不兼容當前的LGA1156
原裝散熱器也隨著處理器功耗的降低而瘦身,特別是45W低功耗版本會搭配半高式矮版散熱器。從高級層面角度看,SNB架構(gòu)只是一次進化,但是如果看看Nehalem/ Westmere以來晶體管變化的規(guī)模,絕對是一次革命。
老的Core 2引入了一種叫作循環(huán)流檢測器(LSD)的邏輯塊,檢測到CPU執(zhí)行軟件循環(huán)的時候就會關(guān)閉分支預測器、預取/解碼引擎,然后通過自身緩存的微指令(micro-ops)供給執(zhí)行單元。這種做法通過在循環(huán)執(zhí)行的時候關(guān)閉前端節(jié)省了功耗,并改進了性能。
而SNB里又增加了一個微指令緩存(直接映射),用于在指令解碼時臨時存放。指令只要在解碼就會放入緩存,預取硬件獲得一個新指令的時候,會首先檢查它是否存在于微指令緩存中,如是則由緩存為其余的管線服務(wù),前端隨之關(guān)閉。解碼硬件是x86管線里非常復雜的部分,關(guān)閉它能夠節(jié)約大量的功耗。
這個緩存是直接映射的,能存儲大約1.5K微指令,相當于6KB指令緩存。它位于一級指令緩存內(nèi),大多數(shù)程序的命中率都能達到80%左右,而且?guī)捯蚕啾纫患壷噶罹彺娓?、更穩(wěn)定。當然真正的一級指令和數(shù)據(jù)緩存并沒有變,仍然都是32KB,合計64KB。
這看起來有點兒像Pentium 4的追蹤緩存,但最大的不同是它并不緩存追蹤,而是一個指令緩存,存儲的是微指令,而非x86指令(macro-ops)。
與此同時,Intel還完全重新了一個分支預測單元(BPU),精確度更高,并在三個方面進行了創(chuàng)新。
第一,標準的BPU都是2-bit預測器,每個分支都使用相關(guān)可信度(強/弱)進行標記。Intel發(fā)現(xiàn),這種雙模預測器所預測的分支幾乎都是強可信度的,因此SNB里多個分支都使用一個可信度位,而不是每個分支對應一個可信度位,結(jié)果就是在分支歷史表中同樣的位可以對應更多分支,進而提高預測精確度。
第二,分支目標同樣做了翻新。之前的架構(gòu)中分支目標的大小都是固定的,但是大多數(shù)目標都是相對近似的。SNB現(xiàn)在支持多個不同的分支目標大小,而不是一味擴大尋址能力、保存所有分支目標,因而浪費的空間更少,CPU能夠跟蹤更多目標、加快預測速度。
第三,提高分支預測器精度的傳統(tǒng)方法是使用更多的歷史位,但這只對要求長指令的特定類型分支有效,SNB于是將分支按照長短不同歷史進行劃分,從而提高預測精度。
類似于AMD的推土機、山貓,Intel SNB也使用了物理寄存器文件。Core 2、Nehalem架構(gòu)中,每個微指令需要的每個操作數(shù)都有一份拷貝,這就意味著亂序執(zhí)行硬件(調(diào)度器/重排序緩存/關(guān)聯(lián)隊列)必須要足夠大,以便容納微指令和相關(guān)數(shù)據(jù)。Core Duo時代是80-bit,加入SSE指令集后增至128-bit,現(xiàn)在又有了AVX指令集,并且位寬翻至256-bit。
RPF在寄存器文件中存儲微指令操作數(shù),而微指令在亂序執(zhí)行引擎中只會攜帶指向操作數(shù)的指針,而非數(shù)據(jù)本身。這就大大降低了亂序執(zhí)行硬件的功耗(轉(zhuǎn)移大量數(shù)據(jù)很費電的),同時也減小了流水線的核心面積,數(shù)據(jù)流窗口也增大了三分之一。
SNB允許256-bit AVX指令借用128-bit的整數(shù)SIMD數(shù)據(jù)路徑,這就使用最小的核心面積實現(xiàn)了雙倍的浮點吞吐量,每個時鐘可以進行兩個256-bit AVX操作。另外執(zhí)行硬件和路徑的上位128-bit是受電源柵極(Power Gate)控制的,標準128-bit SSE操作不會因為256-bit擴展而增加功耗。
最后,Intel給出了在如前所述的4種常見運算下的AVX指令集加速比(AVX vs SSE over Sandy Bridge)??梢钥闯?,在硬件環(huán)境不變的情況下,如果軟件支持AVX指令集的話,速度提升可達1.5-2.5倍之多!
AMD推土機架構(gòu)對AVX的支持則有所不同,使用了兩個128-bit SSE路徑來合并成256-bit AVX操作,即使八核心(四模塊)推土機的256-bit AVX吞吐量也要比四核心SNB少一半,不過實際影響完全取決于應用程序如何利用AVX。
SNB的峰值浮點性能翻了一番,這就對載入和存儲單元提出了更高要求。Nehalem/Westmere架構(gòu)中有三個載入和存儲端口:載入、存儲地址、存儲數(shù)據(jù)。SNB架構(gòu)中載入和存儲地址端口是對稱的,都可以執(zhí)行載入或者存儲地址,載入帶寬因此翻倍。
SNB的整數(shù)執(zhí)行也有了改進,只是比較有限。ADC指令吞吐量翻番,乘法運算可加速25%。
之前的Nehalem/Westmere每個核心都與三級緩存單獨相連,都需要大約1000條連線,而這種做法的缺點是如果頻繁訪問三級緩存,效果可能不會太好。
SNB又整合了GPU圖形核心、視頻轉(zhuǎn)碼引擎,并共享三級緩存。Intel并沒有沿用此前的做法,再增加2000條連線,而是像服務(wù)器版的Nehalem-EX、Westmere-EX那樣,引入了環(huán)形總線(Ring Bus),每個核心、每一塊三級緩存(LLC)、集成圖形核心、媒體引擎、系統(tǒng)助手(System Agent)都在這條線上擁有自己的接入點,形象地說就是個“站臺”。
SandyBridge的環(huán)形總線
這條環(huán)形總線由四條獨立的環(huán)組成,分別是數(shù)據(jù)環(huán)(DT)、請求環(huán)(QT)、響應環(huán)(RSP)、偵聽環(huán)(SNP)。每條環(huán)的每個站臺在每個時鐘周期內(nèi)都能接受32字節(jié)數(shù)據(jù),而且環(huán)的訪問總會自動選擇最短的路徑,以縮短延遲。隨著核心數(shù)量、緩存容量的增多,緩存帶寬也隨時同步增加,因而能夠很好地擴展到更多核心、更大服務(wù)器集群。
這樣,SNB每個核心的三級緩存帶寬都是96GB/s,堪比高端Westmere,而四核心系統(tǒng)更是能達到384GB/s,因為每個核心都在環(huán)上有一個接入點。
三級緩存的延遲也從大約36個周期減少到26-31個周期。此前預覽的時候我們就已經(jīng)感覺到了這一點,現(xiàn)在終于有了確切的數(shù)字。三級緩存現(xiàn)在被劃分成多個區(qū)塊,分別對應一個CPU核心,都在環(huán)形總線上有自己的接入點和完整緩存管線。每個核心都可以訪問全部三級緩存,只是延遲不同。此前三級緩存只有一條緩存管線,所有核心的請求都必須通過它,現(xiàn)在很大程度上分而治之了。
和以前不同的是,三級緩存的頻率現(xiàn)在也和核心頻率同步,因而速度更快,不過缺點是三級緩存也會隨著核心而降頻,所以如果CPU降頻的時候GPU又正好需要訪問三級緩存,速度就慢下來了。
SNB的CPU性能相比現(xiàn)在提升了10-30%,進化到第六代的GPU圖形性能則會輕松翻好幾番。
不過這么做并沒有說起來這么簡單。NVIDIA GF100核心費了九牛二虎之力,SNB其實也差不多,同樣進行了全新設(shè)計。
可編程著色硬件被稱為EU,包含著色器、核心、執(zhí)行單元等,可以從多個線程雙發(fā)射時取指令。內(nèi)部ISA映射和絕大多數(shù)DX10 API指令一一對應,架構(gòu)很像CISC,結(jié)果就是有效擴大了EU的寬度,IPC也顯著提升。
抽象數(shù)學運算由EU內(nèi)的硬件負責,性能得以同步提高。Intel表示,正弦(sine)、余弦(cosine)操作的速度比現(xiàn)在的HD Graphics提升了幾個數(shù)量級。
體現(xiàn)在規(guī)格上,芯片組集成時代,每個線程平均64個寄存器,Westmere HD Graphics提高到平均80個,SNB則每個線程固定為120個。
所有這些改進加起來,SNB里每個EU的指令吞吐量都比之前的HD Graphics增加了一倍。
而SNB集成的GPU圖形核心分為兩大版本,分別擁有6個、12個EU。首批發(fā)布的移動版全部是12個EU,桌面版則根據(jù)型號不同而有兩種配置,高端12個、低端6個。得益于每個EU吞吐量翻番、運行頻率更高、共享三級緩存等特點,即使只有六個的時候性能也會相當令人滿意。
而且SNB中還有一個媒體處理器,專門負責視頻解碼、編碼。新的硬件加速解碼引擎中,整個視頻管線都通過固定功能單元進行解碼。Intel據(jù)此宣稱,SNB在播放視頻的時候功耗可降低一半,速度卻是大幅提升。
英特爾在最新一代的英特爾® 微體系架構(gòu)(代號 Sandy Bridge)上對英特爾® 睿頻加速技術(shù)進行了優(yōu)化,以便在需要時提供更高的性能。英特爾® 睿頻加速 2.0 技術(shù)可以在處理器內(nèi)核低于功率、電流和溫度規(guī)范限制條件下運行時,使處理器內(nèi)核自動以比基準頻率更快的速度運行。
當處理器在低于這些限制條件的情況下運行并且用戶工作負載需要額外的性能時,處理器頻率將動態(tài)增加,直到達到頻率上限。英特爾® 睿頻加速 2.0 技術(shù)可同時運行多種算法來管理電流、電源和溫度,以便最大程度地提高性能和能源效率。注意:英特爾® 睿頻加速 2.0 技術(shù)允許處理器在短時間內(nèi)以高于其額定上限功率 (TDP) 的功率級別運行,以便實現(xiàn)性能最大化。
Lynnfield Core i7/i5首次引入了智能動態(tài)加速技術(shù)“Turbo Boost”(睿頻),能夠根據(jù)工作負載,自動以適當速度開啟全部核心,或者關(guān)閉部分限制核心、提高剩余核心的速度,比如一顆熱設(shè)計功耗(TDP)為95W的四核心處理器,可能會三個核心完全關(guān)閉,最后一個大幅提速,一直達到95W TDP的限制。
現(xiàn)有處理器都是假設(shè)一旦開啟動態(tài)加速,就會達到TDP限制,但事實上并非如此,處理器不會立即變得很熱,而是有一段時間發(fā)熱量距離TDP還差很多。
SandyBridge利用這一點特性,允許功耗控制單元在短時間內(nèi)將活躍核心加速到TDP以上,然后慢慢降下來。控制單元會在空閑時跟蹤散熱剩余空間,在系統(tǒng)負載加大時予以利用。處理器空閑的時間越長,能夠超越TDP的時間就越長,但最長不超過25秒鐘。
之前我們也已經(jīng)說過了,SandyBridge GPU圖形核心也可以獨立動態(tài)加速,最高可達驚人的1.35GHz。如果軟件需要更多CPU資源,那么CPU就會加速、GPU同時減速,反之亦然。
無法再進行外頻超頻:
由于SandyBridge的整合度非常高,UnCore部分和內(nèi)存控制器以及QPI總線的頻率都與處理器外頻相關(guān),可以說外頻是牽一發(fā)而動全身,為了防止用戶超頻外頻時出現(xiàn)意外情況(官方說法,筆者不信),Intel此次將外頻鎖定在了約105MHz——基本上超到105MHz還很穩(wěn)定,106MHz以上就連Bios都進不去……
對我們來說,Sandybridge有驚喜,也有遺憾。盡管早有傳言,但是到了驗證真相的這一刻,還是不免令人感嘆:過去可以隨心所欲的進行超頻的時代不復存在了。只有特定的型號(后綴帶K字)才開放了倍頻,這也就意外著以后用戶想要超頻的話,必須購買價格更高的“K”系列處理器,而普通版SandyBridge則完全無法超頻。
果真是這樣么?方法還是有的,雖然不能手動調(diào)整倍頻,但是我們可以充分挖掘睿頻的潛力。
支持1333以上內(nèi)存,現(xiàn)在i7 2600K非常好的搭檔無疑是B3步進的P67芯片組。
PCPOP.COM評測室 | |
硬件系統(tǒng)配置 | |
處理器 |
Intel Core i7 2600 |
(4核 / 8線程 / 100MHz*34=3.4GHz / 8MB共享緩存) | |
主 板 |
ASUS P8P67 |
(Intel SandyBridge +Realtek ALC889 8聲道音效芯片) | |
內(nèi) 存 |
DDR3 1600 4GB(2GB×2條) |
(9-9-9-24-1T) | |
硬 盤 |
日立 7200.12 SATA |
(1TB / 7200RPM / 32M緩存 / 30GB NTFS系統(tǒng)分區(qū)) | |
電 源 |
Tagan BZ1100W |
六路+12V聯(lián)合輸出功率960W,單路+12V最大電流20A | |
顯示器 |
DELL 3007 |
(30英寸LCD / 2560*1600分辨率) |
操 作 系 統(tǒng) | |
操作系統(tǒng) |
Microsoft Windows 7 |
(中文版 / 64BIT 旗艦版) |
硬件測試平臺
之前所有的Intel官方文檔都顯示i7 2600(K)倍頻34,最大睿頻38倍。如果不在主板里做設(shè)置,確實也是這樣。所以很多人都認為SNB i7 2600的極限頻率就是3.8G。
首發(fā)桌面平臺SNB處理器,官方注明Max Single Core Turbo 3.8G
淘寶商家也宣稱最高睿頻3800MHz
但我們發(fā)現(xiàn)以下各項可在指定的工作負載上設(shè)定采用英特爾® 睿頻加速 2.0 技術(shù)的上限:
1、活躍內(nèi)核的數(shù)量 2、預估的電流消耗 3、預估的功耗 4、處理器溫度,如果幾個條件都滿足,是否能Turbo到更高的水準呢?
1、進入顯卡bios高級模式,在Ai Twerker中,Turbo倍頻 選擇“操作系統(tǒng)中最大的Turbo”
2、 將Turbo值設(shè)置為42(Intel隱藏睿頻的最大值)
3、Ai 超頻調(diào)整設(shè)為手動。
4、外頻設(shè)置為105(再大可能會被Intel禁止使用導致不穩(wěn)定)
外頻改變對內(nèi)存頻率也產(chǎn)生了影響,華碩p67中可以直觀的看到。
四核八線程可以睿頻到4.2G,幾十秒后穩(wěn)定到4.1G
三核六線程滿載睿頻(點擊放大)
雙核四線程可以穩(wěn)定到4.3G
單核雙線程滿載穩(wěn)定到睿頻4.4G!
媒體送測的CPU均為ES版,請注意,正顯的SNB i7 2600是鎖倍頻的,請不要懷疑因為是ES版才能超,這點上和市售版是一樣的。
不打開睿頻的時候i7 2600約250秒,破解睿頻之后達到了214秒,性能提升明顯。
看完枯燥的數(shù)據(jù)和理論,放個360輕松一下~勿怪
移動平臺處理器是否也能破解Turbo?
● 全文總結(jié):
雖然SNB并不像Intel宣稱的那樣是一個全新架構(gòu),嚴格來說只是現(xiàn)有架構(gòu)的改進和增強,本質(zhì)并沒有變,但很多模塊也進行了徹底重新設(shè)計,細節(jié)之處的優(yōu)化和增強也大大提高了執(zhí)行效率,SNB在功能特性、性能、功耗等各方面的表現(xiàn)較之前的酷睿都更加出色。
Intel決定將一些產(chǎn)品的倍頻鎖死,這樣一來改進的Turbo 2.0動態(tài)加速技術(shù)就顯得更有意義。它意味著我們可以在不同情況下都能很好地釋放多核心、高頻率處理器的潛力,不會面臨性能緊缺、不會造成資源浪費,還能很好地協(xié)調(diào)CPU、GPU資源。
如果在主板中進一步打開設(shè)置,睿頻的潛力則能完全被釋放,如此睿頻的普通版處理器和超頻版2XXXK差距進一步縮小,尤其是單核(雙線程)可達4.4G的高頻對于游戲玩家非常實用。而Intel采取固執(zhí)的市場策略,在之后的產(chǎn)品中禁止額外的睿頻呢?只能看推土機是否給力了?!?
關(guān)注我們
