從幾個方面回答,比如:
插件式存儲引擎架構(gòu)
實(shí)現(xiàn)了Server層和存儲引擎層的解耦,可以支持多種存儲引擎,如MySQL既可以支持B-Tree結(jié)構(gòu)的InnoDB存儲引擎,還可以支持LSM結(jié)構(gòu)的RocksDB存儲引擎。
B-Tree + Page
上圖是WiredTiger在內(nèi)存里面的大概布局圖,通過它我們可梳理清楚存儲引擎是如何將數(shù)據(jù)加載到內(nèi)存,然后如何通過相應(yīng)數(shù)據(jù)結(jié)構(gòu)來支持查詢、插入、修改操作的。
內(nèi)存里面B-Tree包含三種類型的page,即rootpage、internal page和leaf page,前兩者包含指向其子頁的page index指針,不包含集合中的真正數(shù)據(jù),leaf page包含集合中的真正數(shù)據(jù)即keys/values和指向父頁的home指針;
為什么是Page?
數(shù)據(jù)以page為單位加載到cache、cache里面又會生成各種不同類型的page及為不同類型的page分配不同大小的內(nèi)存、eviction觸發(fā)機(jī)制和reconcile動作都發(fā)生在page上、page大小持續(xù)增加時會被分割成多個小page,所有這些操作都是圍繞一個page來完成的。
Page的典型生命周期如下圖所示:
什么是CheckPoint?
本質(zhì)上來說,Checkpoint相當(dāng)于一個日志,記錄了上次Checkpoint后相關(guān)數(shù)據(jù)文件的變化。作用: 一是將內(nèi)存里面發(fā)生修改的數(shù)據(jù)寫到數(shù)據(jù)文件進(jìn)行持久化保存,確保數(shù)據(jù)一致性; 二是實(shí)現(xiàn)數(shù)據(jù)庫在某個時刻意外發(fā)生故障,再次啟動時,縮短數(shù)據(jù)庫的恢復(fù)時間,WiredTiger存儲引擎中的Checkpoint模塊就是來實(shí)現(xiàn)這個功能的。
一個Checkpoint包含關(guān)鍵信息如下圖所示:
每個checkpoint包含一個root page、三個指向磁盤具體位置上pages的列表以及磁盤上文件的大小。
如何理解WT事務(wù)機(jī)制?
要了解實(shí)現(xiàn)先要知道它的事務(wù)的構(gòu)造和使用相關(guān)的技術(shù),WT在實(shí)現(xiàn)事務(wù)的時使用主要是使用了三個技術(shù):snapshot(事務(wù)快照)、MVCC (多版本并發(fā)控制)和redo log(重做日志),為了實(shí)現(xiàn)這三個技術(shù),它還定義了一個基于這三個技術(shù)的事務(wù)對象和全局事務(wù)管理器。
如何理解WT緩存淘汰?
eviction cache是一個LRU cache,即頁面置換算法緩沖區(qū),它對數(shù)據(jù)頁采用的是分段局部掃描和淘汰,而不是對內(nèi)存中所有的數(shù)據(jù)頁做全局管理?;舅悸肥且粋€線程階段性的去掃描各個btree,并把btree可以進(jìn)行淘汰的數(shù)據(jù)頁添加到一個lru queue中,當(dāng)queue填滿了后記錄下這個過程當(dāng)前的btree對象和btree的位置(這個位置是為了作為下次階段性掃描位置),然后對queue中的數(shù)據(jù)頁按照訪問熱度排序,最后各個淘汰線程按照淘汰優(yōu)先級淘汰queue中的數(shù)據(jù)頁,整個過程是周期性重復(fù)。WT的這個evict過程涉及到多個eviction thread和hazard pointer技術(shù)。
WT的evict過程都是以page為單位做淘汰,而不是以K/V。這一點(diǎn)和memcache、redis等常用的緩存LRU不太一樣,因?yàn)樵诖疟P上數(shù)據(jù)的最小描述單位是page block,而不是記錄。