UpdataStateBykey updataStateBykey是特殊的reduceByKey, 相當于oldValue+reduceByKey(newValue1,newValue2),通過傳入一個updateFunc來實現(xiàn)批次間數(shù)據(jù)累加的操作。
實現(xiàn)它必須設置checkPoint路徑,updataStateBykey會自動將每次計算的結(jié)果持久化到磁盤,批次間的數(shù)據(jù)則是緩存在內(nèi)存中。
缺點:大量占用內(nèi)存,大量產(chǎn)生小文件 MapwithState mapwithState是spark1.6新增的累加操作,目前還在測試中,它的原理網(wǎng)上查不到,只知道是updataStateBykey的升級版,效率提升10倍。
缺點:資料不全,社區(qū)很小 不建議使用狀態(tài)流累加操作,建議用窗口+第三方存儲(redis)來達到同樣的效果。
Spark Streaming中的updateStateByKey和mapWithState的區(qū)別和使用。
UpdateStateByKey:統(tǒng)計全局的key的狀態(tài),但是就算沒有數(shù)據(jù)輸入,他也會在每一個批次的時候返回之前的key的狀態(tài)。
這樣的缺點就是,如果數(shù)據(jù)量太大的話,而且我們需要checkpoint數(shù)據(jù),這樣會占用較大的存儲。
如果要使用updateStateByKey,就需要設置一個checkpoint目錄(updateStateByKey自己是無法保存key的狀態(tài)的),開啟checkpoint機制。因為key的state是在內(nèi)存維護的,如果宕機,則重啟之后之前維護的狀態(tài)就沒有了,所以要長期保存它的話需要啟用checkpoint,以便恢復數(shù)據(jù)。
MapWithState:也是用于全局統(tǒng)計key的狀態(tài),但是它如果沒有數(shù)據(jù)輸入,便不會返回之前的key的狀態(tài),有一點增量的感覺。
這樣做的好處是,我們可以只關(guān)心那些已經(jīng)發(fā)生變化的key,對于沒有數(shù)據(jù)輸入,則不會返回那些沒有變化的key的數(shù)據(jù)。
這樣即使數(shù)據(jù)量很大,checkpoint也不會像updateStateByKey那樣,占用太多的存儲。