指令漫游流水線CPU奇遇記
前言
本文可以看作計(jì)算機(jī)專業(yè)學(xué)生的“計(jì)算機(jī)組成原理”一課內(nèi)容的總結(jié)概括。手搓CPU可謂是計(jì)算機(jī)專業(yè)學(xué)生的一大浪漫,因?yàn)樵谖唇佑|這門課以前,我們總是將CPU看得非常的高大上。無論哪家科技公司,只要有芯片相關(guān)業(yè)務(wù),他們的各種型號(hào)的處理器的命名都十分的“炫酷”。“酷?!保膀旪垺?,“銳龍”......仿佛CPU完全是一個(gè)魔法造就的神秘黑盒,但是有著無與倫比的運(yùn)行速度并且牢牢占據(jù)著我們對(duì)一臺(tái)電子設(shè)備的關(guān)注焦點(diǎn)。但是今天我們可以從底層來打開這個(gè)黑盒,發(fā)現(xiàn)其中的奇妙世界以及理解脈沖,信號(hào)之間協(xié)同工作,嚴(yán)絲合縫運(yùn)轉(zhuǎn)的巧妙之處。
正文
嗨!各位科技迷們!今天我們要揭秘的是計(jì)算機(jī)世界里的一顆璀璨明珠——流水線CPU!它可是決定計(jì)算機(jī)運(yùn)行性能的大殺器哦!
首先,讓我們穿越時(shí)空,回到上世紀(jì)60年代。那時(shí)候,計(jì)算機(jī)還比較“憨憨”,一次只能做一件事。直到人們開始意識(shí)到,如果能同時(shí)處理多個(gè)任務(wù),那豈不是美滋滋?于是,流水線概念應(yīng)運(yùn)而生!
流水線CPU就像一條裝配線,它把任務(wù)拆成一小塊一小塊,然后交給不同的處理器段來同時(shí)處理。就好像工廠里的工人,各司其職,高效無比!這么做有什么好處呢?首先,大大提高了計(jì)算機(jī)的處理速度!它能夠同時(shí)進(jìn)行多個(gè)任務(wù),讓我們的電腦跑得飛快!其次,它還讓計(jì)算機(jī)更節(jié)約能源,不浪費(fèi)一點(diǎn)兒嘞!
首先,我們有“取指令階段(IF)”這個(gè)階段就像是在超市拿購物清單一樣,告訴計(jì)算機(jī)接下來要做啥。
接下來是“解碼指令階段(ID)”這一環(huán)節(jié)就是將指令翻譯成計(jì)算機(jī)能聽懂的語言,讓它知道具體要做啥。
然后是“執(zhí)行指令階段(EX)”這相當(dāng)于工人們照著清單去操作機(jī)器,將任務(wù)具體完成。
最后,我們有“寫回結(jié)果階段(WB)”這就像是把購物清單上的物品帶回家一樣,把結(jié)果存起來,供后續(xù)使用。
所以說,流水線CPU就像是一支充滿活力的樂隊(duì),各司其職,合作無間,讓我們的計(jì)算機(jī)在各種任務(wù)面前游刃有余!歷經(jīng)時(shí)光的洗禮,它已經(jīng)成為了計(jì)算機(jī)世界的明日之星!毫不夸張地說,在現(xiàn)代所有類型的CPU中都占據(jù)絕對(duì)的統(tǒng)治地位!
接下來,讓我們分階段來更加詳細(xì)的揭開流水線處理器的秘密吧!
第一節(jié) 流水線從取指令開始
晚上剛送完指令的取指單元現(xiàn)在很悠閑,他的工作很簡單,在整個(gè)流水線中央處理器中都是有名的閑職:每天早上從PC寄存器拿到一份貼著地址的空紙箱,然后沿著線網(wǎng)送到不遠(yuǎn)處的指令高速緩存(ICache)倉庫門口就可以了,PC是program counter的縮寫,盡管這并沒有準(zhǔn)確傳達(dá)其功能的含義——它的作用是指示程序執(zhí)行到的位置,但是已經(jīng)成為了約定俗成的名字?,F(xiàn)在的取指單元正維持著電平不變,已經(jīng)進(jìn)入了夢鄉(xiāng)。它的延遲很低,也可以說工作很少,所以可以很快上床躺平,只要明天早上時(shí)鐘網(wǎng)絡(luò)一拉高,然后經(jīng)過不長的線延遲后就可以把工作完成了。只是窗外偶爾傳來的忙碌加班的聲音漸漸地傳入了進(jìn)入取值單元的夢鄉(xiāng),這是別的關(guān)鍵路徑上的部門還在加班干活,但是又很快地消失了。
這里有一個(gè)定死的規(guī)矩,所有人都必須在時(shí)鐘電平跳變之間進(jìn)入穩(wěn)定狀態(tài),也就是必須把活干完然后在第二天時(shí)鐘拉起來的上升沿之前去睡覺,不得時(shí)序違例。這個(gè)規(guī)矩有多么嚴(yán)格呢?曾經(jīng)有一個(gè)部門十分臃腫,由于招了太多人,攬了太多活,天天加班007,結(jié)果某個(gè)月的任務(wù)(指令)非常密集,導(dǎo)致某天晚上這個(gè)部門還在加班,一直到時(shí)鐘拉起,它前面的部門的今天的快遞都已經(jīng)塞進(jìn)大門了,但是這個(gè)違例的部門內(nèi)部的電平還是沒有穩(wěn)定下來,導(dǎo)致兩天的工作混在了一塊。當(dāng)設(shè)計(jì)師發(fā)現(xiàn)了刺眼的critical warning后氣不打一處來,當(dāng)場就把這個(gè)部門解散了。
早睡早起身體好,這是取指單元不被裁員的座右銘。
但是取指單元的歲月靜好,是由于指令緩存的負(fù)重前行,我們很快就會(huì)看到這一點(diǎn)。
第二節(jié) 指令高速緩存
?ICache,指令高速緩存部門一大早就看到了門口的貼著PC的快遞盒?!斑@個(gè)取指單元的爺真是爺,天天除了吃就是睡,沒別噠,我們部門都忙不過來了,四路倉庫按索引查都沒有這個(gè)PC指示的地址的指令,這下又得等好長時(shí)間從主存里調(diào)貨了”。但是接到的PC不能不接,否則會(huì)丟指令。ICache派了個(gè)寄存器先存著這個(gè)指令,然后對(duì)信號(hào)傳遞使能的保安allowin說:"下次碰到那個(gè)老頭不要接他的單,什么時(shí)候我們的指令從主存里取出來了或者我們的四路組相聯(lián)的庫里還有存貨(指令)再允許他派單"。allowin是一個(gè)很聽話的保安,第二天取指單元大爺來送貼著PC的快遞盒時(shí),allowin禮貌而堅(jiān)定地拒收了,大爺只好悻悻地把空紙盒又拿回去了。
至于調(diào)貨的事情,就需要ICache通過一種事先定好的協(xié)議,比如AXI協(xié)議和主存溝通了。AXI是一個(gè)非常講究儀式而又慢性子的中介,與他溝通不僅兩人要先握手寒暄一下,然后給定好數(shù)據(jù)傳輸?shù)牡刂泛烷L度,之后經(jīng)過數(shù)十個(gè)甚至上百個(gè)周期,來自遠(yuǎn)方主存的數(shù)據(jù)才會(huì)姍姍來遲。這是一種叫做存儲(chǔ)層次結(jié)構(gòu)的深層原因所導(dǎo)致的,在CPU內(nèi)部,只需要用寄存器,或者緩存就可以以接近時(shí)鐘的頻率讀寫數(shù)據(jù),但是這種方法所能使用的空間有限,而且單位造價(jià)也很昂貴,于是如果使用稍慢”一點(diǎn)“的內(nèi)存的話,雖然讀寫速度會(huì)降低一個(gè)或兩個(gè)數(shù)量級(jí),但是可以獲得更大的存儲(chǔ)空間。這種關(guān)系同樣存在與內(nèi)存和硬盤之間:速度快,空間大以及價(jià)格低是一組不可能三角,如果你想速度快,空間大,那么英特爾昂貴的傲騰存儲(chǔ)也許能滿足你,如果想要速度快,價(jià)格低,那么只有小空間的片上寄存器資源可以供你使用,否則就是速度慢但是價(jià)格低,容量大的硬盤,磁帶等存儲(chǔ)介質(zhì)了。
高速緩存有兩家部門,一家是在前端的指令高速緩存,另一家是在后端的數(shù)據(jù)高速緩存,他們在CPU中占有重要地位,擔(dān)任著提高性能的主要責(zé)任。
流水線中央處理器的時(shí)間節(jié)奏是很快的,即使是很佛系的處理器,也是以百兆赫茲的頻率快速地更替日月。而從消費(fèi)級(jí)一直到企業(yè)級(jí)的英特爾或者AMD處理器的時(shí)鐘頻率可以達(dá)到GHZ,也就是不到一納秒的時(shí)間。這是什么概念呢?如果一個(gè)人一秒算一次加減法的話,現(xiàn)代CPU可以算10億次,而且是很保守的估計(jì)。但是與之相連的存儲(chǔ)和外設(shè)速度卻要慢若干個(gè)數(shù)量級(jí),因此ICache取指和DCache訪存如果不命中,那么就不得不花費(fèi)大量時(shí)間。這個(gè)部門因此會(huì)花費(fèi)大量時(shí)間并阻塞,所以增大倉庫容量,增加路數(shù)是提高命中率的常規(guī)操作。
當(dāng)然,如果倉庫里查到PC所對(duì)應(yīng)的指令的話,皆大歡喜,指令很快地就可以打包然后繼續(xù)送到下一站:譯碼單元。
譯碼單元里有許許多多的選擇器,這些選擇器通過識(shí)別指令來標(biāo)注指令類型,目標(biāo)寄存器和源寄存器編號(hào)等信息。這些快遞盒通過譯碼器去后會(huì)被分成各種類型,有ALU算數(shù)邏輯指令,有訪存指令,有跳轉(zhuǎn)指令,甚至有特權(quán)指令。有時(shí)候指令的長度甚至有不一樣長,導(dǎo)致快遞盒大小差異很大,比如x86指令集就是這樣。這會(huì)給譯碼帶來額外的困難,因?yàn)榇笮〔灰坏目爝f盒可能超出了安檢機(jī)的入口大小,所以不得不分幾次來譯碼。有時(shí)譯碼單元會(huì)發(fā)現(xiàn)按照指令集手冊查不到當(dāng)前指令的任何信息,那么譯碼單元會(huì)毫不猶豫地給這個(gè)快遞件貼上”指令不存在例外“的異常標(biāo)簽。
指令譯碼單元是CPU里出名的血汗工廠,里面擠著大量的選擇器工人,他們的工位往往僅能看到不長的三五個(gè)比特,然后就要根據(jù)設(shè)計(jì)師定好的選擇邏輯來確定指令的一部分信息。這里的工人沒有時(shí)間睡覺,因?yàn)樗麄兌际墙M合邏輯,所以沒有寄存器可以讓他們在時(shí)鐘跳變間隙休息。許多工人忙到汗流浹背,彼此之間空位很小,你仿佛可以看到譯碼單元里產(chǎn)生的熱氣在密密麻麻的線網(wǎng)中逐漸地氤氳......
譯碼出的寄存器編號(hào)隨后放在寄存器堆門口,寄存器堆顧名思義就是一堆寄存器堆在一起,不同寄存器之間有不同的編號(hào)來區(qū)分。里面存放的值一般隨后用來作為執(zhí)行階段的操作數(shù),可以進(jìn)行尋址,加減,乘除,移位等操作。
執(zhí)行階段聽起來很像個(gè)龐然大物,畢竟各種類型的指令需要使用大量的硬件資源來計(jì)算。但是這部分可能反而是最好實(shí)現(xiàn)的部分,因?yàn)楦鞣NIP和模版已經(jīng)十分成熟,設(shè)計(jì)師實(shí)現(xiàn)某個(gè)類型的運(yùn)算可能只是一行代碼的工作量。
深入到硬件看,這里同樣也是十分熱鬧。還記得之前譯碼器標(biāo)記上的類型嗎?毫無疑問,運(yùn)算的類型由譯碼器指定,隨后從寄存器堆得到的數(shù)據(jù)或者伴隨指令的立即數(shù)會(huì)作為各種運(yùn)算的操作數(shù)進(jìn)入到運(yùn)算單元。雖然在高級(jí)語言內(nèi)我們可以使用諸如三角函數(shù),指數(shù)函數(shù),對(duì)數(shù)函數(shù)等等算術(shù),但是CPU只會(huì)進(jìn)行簡單的幾種基本運(yùn)算。但是別擔(dān)心,我們的程序可以根據(jù)各種級(jí)數(shù)展開將復(fù)雜的函數(shù)轉(zhuǎn)換成CPU內(nèi)部若干條基本運(yùn)算的迭代循環(huán)。這些基本運(yùn)算一般都包括加減,乘除,和一些位運(yùn)算。
這個(gè)過程中,還有許許多多別的細(xì)節(jié),比如除零運(yùn)算我們可能認(rèn)為需要停止計(jì)算并給這個(gè)指令標(biāo)記上算術(shù)運(yùn)算錯(cuò)然后后傳,但是也有處理器允許計(jì)算結(jié)果是不確定的值并且不觸發(fā)任何例外;還有越界時(shí)的處理,比如乘法結(jié)果太大無法用數(shù)據(jù)寄存器完整保存,那么一般就是截?cái)鄶?shù)據(jù)。
這個(gè)運(yùn)算單元的結(jié)果還另外有大用,不僅要正常向后傳遞,也需要經(jīng)過前遞回傳到執(zhí)行單元的輸入選擇器上。這是對(duì)于流水線的CPU,盡管早先進(jìn)入的指令還沒有執(zhí)行結(jié)束,但是新的指令已經(jīng)進(jìn)入了流水線,新指令所需要的操作數(shù)可能已經(jīng)被臨近的舊指令修改了,但是還沒有來得及寫回使新指令獲得最新的值,所以需要使用前遞來保證結(jié)果的正確性。如果不前遞會(huì)怎么樣?也不會(huì)怎么樣,無非就是CPU算出一個(gè)錯(cuò)值(問題大了)或者每有一對(duì)相鄰的相關(guān)指令,就不得不等到新的值更新完畢再繼續(xù)傳遞指令。這樣看來前遞還是十分重要的,但是總有一些指令的相關(guān)問題是前遞都解決不了的,我們只能退而求其次,等若干個(gè)周期,寧肯慢,絕不錯(cuò)。
我們知道,所有程序都可以由三種基本類型的結(jié)構(gòu)所實(shí)現(xiàn):順序結(jié)構(gòu),分支結(jié)構(gòu)和循環(huán)結(jié)構(gòu)。其中分支和循環(huán)結(jié)構(gòu)就是對(duì)應(yīng)指令中的分支和跳轉(zhuǎn)指令。分支指令往往需要比較兩個(gè)數(shù)的大小,如果滿足條件,比如這個(gè)指令類似BLT(Branch less than),如果兩個(gè)操作數(shù)的大小關(guān)系確實(shí)是小于的話,程序的PC就會(huì)跳轉(zhuǎn)到指定的位置。這個(gè)指定的位置可能是當(dāng)前的PC加上一個(gè)立即數(shù),也可能是從一個(gè)寄存器中獲得要跳轉(zhuǎn)的位置。還有一些跳轉(zhuǎn)是無條件的,他們可以有更大的跳轉(zhuǎn)范圍但是只能使用特定的寄存器。
再次提醒,我們的CPU是流水線的,指令不管分支結(jié)果怎么樣已經(jīng)填入了CPU,我們怎么保證分支指令后的指令是正確的呢?很遺憾,沒有辦法百分百地確保這一點(diǎn)。我們能做的就是如果錯(cuò)了就發(fā)一個(gè)令CPU聞之色變的信號(hào):flush。也可以理解為清空前半段的流水線,無效掉由于分支預(yù)測失敗讀進(jìn)來的錯(cuò)誤指令來保護(hù)CPU的正確性,這樣做的代價(jià)就是指令高速緩存可能需要重新與主存溝通,同時(shí)流水線之前的大部分工作都白費(fèi)了。
等等,分支預(yù)測失???如果我不失敗,幾乎次次都猜對(duì),那不是很好嗎?
確實(shí)如此,即使使用很簡單的局部分支預(yù)測器,比如”吃一塹長一智“的方法,或者說只要一次預(yù)測失敗就記住這個(gè)位置,下次改變跳轉(zhuǎn)的采取與否選擇,也可以大大提高循環(huán)體結(jié)構(gòu)中的預(yù)測準(zhǔn)確率。也有另外一種方法,也許可以稱之為”吃兩塹長一智“,也叫2bit飽和預(yù)測,正如字面所說,即使預(yù)測失敗,還給予一次機(jī)會(huì)做出與上次相同的預(yù)測。分支預(yù)測器放置在取指單元之前,每一拍都會(huì)根據(jù)當(dāng)前PC預(yù)測下一次PC,大部分情況下都是+4字節(jié)(32位處理器),也就是連續(xù)取指。
?另外對(duì)于訪存指令來說,同樣有一個(gè)數(shù)據(jù)高速緩存來進(jìn)行對(duì)接。數(shù)據(jù)高速緩存(DCache)相比與ICache,需要新增臟位標(biāo)識(shí),來指示數(shù)據(jù)不一致的情況。為什么ICache不需要呢?因?yàn)橹噶钜话闶枪潭ǖ模瑥膬?nèi)存中讀出來后不會(huì)被改寫,所以可以認(rèn)為是只讀的,所以不會(huì)產(chǎn)生內(nèi)存和緩存數(shù)據(jù)不一致的情況。除臟塊的寫回以外,ICache和DCache的架構(gòu)就沒有什么更大的區(qū)別了。讀取數(shù)據(jù)同樣使用地址的低位作為索引查到到對(duì)應(yīng)的行,比較每一路的標(biāo)簽,如果命中就返回對(duì)應(yīng)位置的數(shù)據(jù)。但是如果是寫數(shù)據(jù),要寫的目標(biāo)地址正好在緩存的塊中,也還好辦,但是如果不在,而且現(xiàn)在索引對(duì)應(yīng)的幾路全都”臟“了該怎么辦呢?那么就需要把臟行寫回到主存,然后從主存取出正確位置所在的一行,然后再在緩存中寫。這樣看起來與主存的溝通不僅要寫還要讀,顯然比ICache要復(fù)雜一些,同時(shí)要花費(fèi)更多的時(shí)間與主存溝通。問題不僅如此,數(shù)據(jù)段和指令段的讀寫都要經(jīng)過AXI協(xié)議的話,究竟誰先誰后呢?這個(gè)過程還需要仲裁一下,一般是寫數(shù)據(jù)優(yōu)先,因?yàn)镈Cache位于流水線的后段,所以對(duì)應(yīng)的是先執(zhí)行的指令,當(dāng)然要讓寫數(shù)據(jù)的效果對(duì)后執(zhí)行的指令可見。
我們不妨再看看一類特殊的指令:特權(quán)指令。這類指令是觸發(fā)例外最頻繁的因素之一。特權(quán)指令有很高的權(quán)限,可以改變一般指令不能改變的狀態(tài)寄存器的值和CPU的工作模式,所以如果不在特權(quán)模式下執(zhí)行特權(quán)指令會(huì)報(bào)特權(quán)等級(jí)錯(cuò)例外。你可能發(fā)現(xiàn)我們上述所講的CPU似乎除了從主存中拿出指令然后循環(huán),計(jì)算一通寫回主存后沒有別的與外部交流的方式了,這與我們實(shí)際生活中能放視頻,操作界面,播放音樂,打印文件的個(gè)人電腦差了很多。其實(shí)只要補(bǔ)上最后一片拼圖:中斷,就可以完成上述所有的一切;而中斷怎樣處理,正是由特權(quán)指令所設(shè)置的。你想要打印一串字符?把字符串的起始位置存到指定的寄存器里,把打印程序的指令起始位置設(shè)置好,然后觸發(fā)系統(tǒng)調(diào)用例外,隨后的事情就交給中斷處理程序和外設(shè)吧!從這個(gè)角度看,其他的交互都只不過是執(zhí)行中斷程序和提供數(shù)據(jù)(比如要打印的字符,屏幕某個(gè)像素點(diǎn)的顏色,位置)后,實(shí)際功能外包給各種外設(shè)罷了。當(dāng)然各種驅(qū)動(dòng)程序怎么實(shí)現(xiàn),傳輸速率如何的問題,那就屬于程序員適配軟件和工程師測試硬件的范疇了。
天下沒有不散的筵席,也沒有執(zhí)行不完的指令。指令即使不斷地被flush沖刷或者不停地被阻塞,在經(jīng)過執(zhí)行單元后,還是會(huì)進(jìn)入到寫回段。寫回段需要根據(jù)指令的類型來判斷其是否需要更新寄存器堆。也許你會(huì)疑問為什么不早點(diǎn)更新,不是不想早一些,而實(shí)在是做不到??!
如果剛從寄存器讀出來就更新的話,不好意思,數(shù)據(jù)甚至都沒有算好,更新個(gè)寂寞。也許我們需要再次說明一下,在宏觀上CPU執(zhí)行某條指令就像是一個(gè)周期就瞬間算好了,但是微觀上只有工程師才知道在時(shí)序,頻率和資源權(quán)衡下,布線之后的真實(shí)CPU中信號(hào)的傳遞是一拍一拍的。換一個(gè)視角,宇宙間最快的速度——光速,在10GHZ的頻率下,每一個(gè)時(shí)鐘周期期間也只能移動(dòng) 的長度,你可以想一想一塊計(jì)算機(jī)CPU的邊長是不是接近這個(gè)頻率對(duì)應(yīng)的信息傳遞上限,再加上內(nèi)部布線的彎彎繞繞,是不是覺得現(xiàn)代計(jì)算機(jī)的頻率已經(jīng)接近到了某種不可思議的程度?
?那么如果從執(zhí)行單元出來就更新,這下數(shù)據(jù)都準(zhǔn)備好了,沒有理由不更新寫回到寄存器堆了吧?還真有。本來執(zhí)行段就有自己的任務(wù),如果直接把數(shù)據(jù)接回去,這不是給執(zhí)行單元這個(gè)部門加班了嗎?別忘了我們的規(guī)矩!在時(shí)鐘周期之間要把任務(wù)都執(zhí)行完,如果加班要不然會(huì)造成時(shí)序違例,要不然只能降低時(shí)鐘頻率,而降頻就意味著損失性能。幸運(yùn)的是,我們并沒有非這樣不做的理由,或者說在執(zhí)行段后寄存一級(jí),讓指令以及他們攜帶著的一大堆數(shù)據(jù)睡一覺,第二天再上路也是非常合理的。這里可以體現(xiàn)出流水線設(shè)計(jì)的精髓:找到耗時(shí)最長的單元,我們往往稱之為關(guān)鍵路徑,切一刀分成兩部分,讓每個(gè)單元在同一個(gè)時(shí)鐘周期內(nèi)做更少的事來減少延遲,是提高流水線頻率的基本操作。
在寫回段還有另一件重要的事,那就是異常處理。我們已經(jīng)見過指令不存在例外,特權(quán)等級(jí)錯(cuò)例外,以及系統(tǒng)調(diào)用例外,但是還有一些此處未提到過的例外。處理這些例外時(shí)我們可以通過隨指令一起的標(biāo)簽來判斷例外類型。不過一般我們都需要讓PC跳轉(zhuǎn)到例外入口地址處去處理。例外入口地址的設(shè)置有不同的實(shí)現(xiàn)方法,在龍芯精簡指令集中是使用特權(quán)指令來實(shí)現(xiàn)。入口的那一邊是什么?當(dāng)然就是處理例外的程序了,當(dāng)這段程序處理完后,還需要回到產(chǎn)生例外的原來的位置繼續(xù)執(zhí)行。不出意外的,原來的位置需要使用特權(quán)指令來讀取。我們可能發(fā)現(xiàn)并不容易區(qū)分異常和中斷兩種機(jī)制的處理流程的區(qū)別,但實(shí)際上也確實(shí)如此。他們的處理流程都是離開原來的程序流,進(jìn)入到預(yù)先設(shè)置好的處理程序,執(zhí)行完后再回到原來的位置,就好像在調(diào)用一段函數(shù)一樣。我們也將中斷分為外中斷和內(nèi)中斷,由外設(shè)引起的中斷可以叫外中斷,而各種異常也叫做內(nèi)中斷。
到此為止,我們已經(jīng)見識(shí)了一個(gè)可以作為本科生課程實(shí)驗(yàn)程度的簡易流水線是如何工作的。如果你曾經(jīng)自己實(shí)現(xiàn)過一個(gè)這樣的處理器,燒錄到FPGA上并且真正執(zhí)行了一段程序時(shí),內(nèi)心會(huì)很有成就感。可能還不由得鄙夷AMD,INTEL這樣的大廠,什么檔次,我們實(shí)現(xiàn)流水線CPU,他們也實(shí)現(xiàn)流水線CPU。但是請保持謙遜,別忘了人家的流水線可以達(dá)到GHZ的頻率,同時(shí)有大小核,多核并行的并行技術(shù)。即使只拿出人家三十年前的處理器,也已經(jīng)采用了亂序超標(biāo)量的技術(shù)。什么?你沒有聽說過亂序超標(biāo)量嗎?不要緊,簡單理解,我們之前的講述都只是一條一條指令在斷斷續(xù)續(xù)地執(zhí)行,但是超標(biāo)量可以同時(shí)發(fā)射兩條以上的指令(盡管也可能是斷斷續(xù)續(xù)地)。直覺上是可以想到,如果有一串指令序列,奇數(shù)位置PC的指令與偶數(shù)位置PC的指令使用的寄存器,訪存的地址都互不干擾,也不改變執(zhí)行順序,那么同時(shí)發(fā)射兩條就可以很暴力地提高一倍的性能。但是會(huì)帶來一系列的問題,因?yàn)轱@然實(shí)際情況中我們的假設(shè)并不總是成立,甚至大部分時(shí)間都不成立,那么請你想一想,如果不成立,是否有方法解決呢?至少我們總是可以用空泡(即不會(huì)產(chǎn)生任何有意義變化的無意義指令)來填充那些沒辦法同時(shí)執(zhí)行的指令。即使如此簡單的處理,也會(huì)帶來一系列的小問題,這些問題單獨(dú)拿出來都不難,但是非常繁雜,實(shí)際實(shí)現(xiàn)時(shí)會(huì)以你意料不到的方式不斷地摧毀你的奇思妙想與天才設(shè)計(jì)。我們以上所說的都是順序發(fā)射的處理器,那么什么是亂序呢?當(dāng)然就是在不影響正確性的前提下,應(yīng)發(fā)盡發(fā),充分地利用執(zhí)行單元的資源,不發(fā)白不發(fā),發(fā)了還想發(fā)。這需要引入新的技術(shù),比如記分板,重命名和重排序技術(shù)。對(duì)于高速緩存的設(shè)計(jì)技術(shù),還有大量的技巧,比如很典型的使用多級(jí)緩存,比如L2 Cache甚至L3 Cache,或者使用異構(gòu)混合的緩存,比如使用一種叫做Victim Cache的結(jié)構(gòu)來彌補(bǔ)路數(shù)不足的缺陷。此外,還有指令緩存(不是ICache)可以用來放在ICache的下一段,其實(shí)就是一個(gè)先進(jìn)先出的隊(duì)列,可以讓前端在不命中而取指令的時(shí)間后端從隊(duì)列中拿出指令還有活干;或者后端阻塞的情況下前端還能源源不斷的去取出指令,總之就是更充分的壓榨流水線和存儲(chǔ)的性能。
本文省略了一些重要的部件的相關(guān)內(nèi)容,比如TLB(快表),因?yàn)闆]有區(qū)分虛地址和實(shí)地址,進(jìn)而地沒有介紹地址翻譯模式,連帶著地址翻譯相關(guān)的常見異常也沒有介紹。各種指令集中往往有各自獨(dú)特的特色指令,雖然使用頻率不高,但是卻有可能對(duì)CPU的設(shè)計(jì)架構(gòu)產(chǎn)生關(guān)鍵的影響,比如柵障指令,計(jì)數(shù)器讀指令等等,更不用說難以歸類的一些雜項(xiàng)指令了。
盡管CPU中有數(shù)不清的設(shè)計(jì)方法和時(shí)序優(yōu)化技巧弄得人眼花繚亂,但是有幾個(gè)重要的基本概念,可以說深刻影響了CPU的現(xiàn)狀,過去以及未來。一是層次化存儲(chǔ)結(jié)構(gòu),如果沒有這種結(jié)構(gòu)金字塔的存在,我們完全沒有必要設(shè)計(jì)緩存,并且與之類似的各種緩存技術(shù)將毫無存在意義。二是流水線結(jié)構(gòu),從單個(gè)指令的執(zhí)行過程來看,流水線并不能減少單個(gè)指令從取指到寫回所需要的時(shí)間,但是在大量指令的運(yùn)行過程中,由于流水線深度填充而產(chǎn)生的影響將被無限地抹平,看起來完全就是一條指令剛進(jìn)入流水線,寫回段就完成了一條指令,因此毫不夸張地說流水線是人類偉大的工程設(shè)計(jì)思想。三是沒有最好的設(shè)計(jì),只有更好的設(shè)計(jì)。小容量的Cache容易導(dǎo)致頻繁不命中而大大降低程序運(yùn)行速度,但是大容量的Cache又會(huì)占用大量資源,影響布線進(jìn)而降低頻率,同樣會(huì)降低運(yùn)行速度。選擇合適容量和設(shè)計(jì)的緩存是一門藝術(shù),也是一種實(shí)驗(yàn)科學(xué)??偠灾悴粫?huì)找到一種可以完美解決所有方案的設(shè)計(jì),但是在與無窮無盡的問題的斗爭中,我們設(shè)計(jì)CPU的技藝將不斷精進(jìn),能夠取得在有限資源下兼顧能耗和速率的更加優(yōu)秀的設(shè)計(jì),這也是計(jì)算機(jī)科學(xué)的魅力之一。
參考資料:
中國科學(xué)技術(shù)大學(xué) 王超老師 PPT,張俊霞老師 PPT
《計(jì)算機(jī)組成原理與設(shè)計(jì)》 David A. Patterson,John L.Hennessy
龍芯杯指令集手冊 龍芯中科有限公司
《計(jì)算機(jī)體系結(jié)構(gòu)》 龍芯中科
《超標(biāo)量處理器設(shè)計(jì)》,姚永斌