如果服務(wù)端要提供文件傳輸?shù)墓δ?,我們能想到的最?jiǎn)單的方式是:將磁盤(pán)上的文件讀取出來(lái),然后通過(guò)網(wǎng)絡(luò)協(xié)議發(fā)送給客戶端。
傳統(tǒng) I/O 的工作方式是,數(shù)據(jù)讀取和寫(xiě)入是從用戶空間到內(nèi)核空間來(lái)回復(fù)制,而內(nèi)核空間的數(shù)據(jù)是通過(guò)操作系統(tǒng)層面的 I/O 接口從磁盤(pán)讀取或?qū)懭搿?/p>
代碼通常如下,一般會(huì)需要兩個(gè)系統(tǒng)調(diào)用:
代碼很簡(jiǎn)單,雖然就兩行代碼,但是這里面發(fā)生了不少的事情。
首先,期間共發(fā)生了 4 次用戶態(tài)與內(nèi)核態(tài)的上下文切換,因?yàn)榘l(fā)生了兩次系統(tǒng)調(diào)用,一次是 read() ,一次是 write(),每次系統(tǒng)調(diào)用都得先從用戶態(tài)切換到內(nèi)核態(tài),等內(nèi)核完成任務(wù)后,再?gòu)膬?nèi)核態(tài)切換回用戶態(tài)。
上下文切換到成本并不小,一次切換需要耗時(shí)幾十納秒到幾微秒,雖然時(shí)間看上去很短,但是在高并發(fā)的場(chǎng)景下,這類(lèi)時(shí)間容易被累積和放大,從而影響系統(tǒng)的性能。
其次,還發(fā)生了 4 次數(shù)據(jù)拷貝,其中兩次是 DMA 的拷貝,另外兩次則是通過(guò) CPU 拷貝的,下面說(shuō)一下這個(gè)過(guò)程:
次拷貝,把磁盤(pán)上的數(shù)據(jù)拷貝到操作系統(tǒng)內(nèi)核的緩沖區(qū)里,這個(gè)拷貝的過(guò)程是通過(guò) DMA 搬運(yùn)的。 第二次拷貝,把內(nèi)核緩沖區(qū)的數(shù)據(jù)拷貝到用戶的緩沖區(qū)里,于是我們應(yīng)用程序就可以使用這部分?jǐn)?shù)據(jù)了,這個(gè)拷貝到過(guò)程是由 CPU 完成的。 第三次拷貝,把剛才拷貝到用戶的緩沖區(qū)里的數(shù)據(jù),再拷貝到內(nèi)核的 socket 的緩沖區(qū)里,這個(gè)過(guò)程依然還是由 CPU 搬運(yùn)的。第四次拷貝,把內(nèi)核的 socket 緩沖區(qū)里的數(shù)據(jù),拷貝到網(wǎng)卡的緩沖區(qū)里,這個(gè)過(guò)程又是由 DMA 搬運(yùn)的。
我們回過(guò)頭看這個(gè)文件傳輸?shù)倪^(guò)程,我們只是搬運(yùn)一份數(shù)據(jù),結(jié)果卻搬運(yùn)了 4 次,過(guò)多的數(shù)據(jù)拷貝無(wú)疑會(huì)消耗 CPU 資源,大大降低了系統(tǒng)性能。
這種簡(jiǎn)單又傳統(tǒng)的文件傳輸方式,存在冗余的上文切換和數(shù)據(jù)拷貝,在高并發(fā)系統(tǒng)里是非常糟糕的,多了很多不必要的開(kāi)銷(xiāo),會(huì)嚴(yán)重影響系統(tǒng)性能。
所以,要想提高文件傳輸?shù)男阅?,就需要減少「用戶態(tài)與內(nèi)核態(tài)的上下文切換」和「內(nèi)存拷貝」的次數(shù)。