千鋒教育-做有情懷、有良心、有品質(zhì)的職業(yè)教育機構(gòu)

手機站

千鋒學習站 | 隨時隨地免費學

掃一掃進入千鋒手機站

領(lǐng)取全套視頻

關(guān)注千鋒學習站小程序
隨時隨地免費學習課程

UpdataStateBykey updataStateBykey是特殊的reduceByKey，相當于oldValue+reduceByKey(newValue1,newValue2)，通過傳入一個updateFunc來實現(xiàn)批次間數(shù)據(jù)累加的操作。

實現(xiàn)它必須設置checkPoint路徑，updataStateBykey會自動將每次計算的結(jié)果持久化到磁盤，批次間的數(shù)據(jù)則是緩存在內(nèi)存中。

缺點：大量占用內(nèi)存，大量產(chǎn)生小文件 MapwithState mapwithState是spark1.6新增的累加操作，目前還在測試中，它的原理網(wǎng)上查不到，只知道是updataStateBykey的升級版，效率提升10倍。

缺點：資料不全，社區(qū)很小不建議使用狀態(tài)流累加操作，建議用窗口+第三方存儲(redis)來達到同樣的效果。

Spark Streaming中的updateStateByKey和mapWithState的區(qū)別和使用。

UpdateStateByKey：統(tǒng)計全局的key的狀態(tài)，但是就算沒有數(shù)據(jù)輸入，他也會在每一個批次的時候返回之前的key的狀態(tài)。

這樣的缺點就是，如果數(shù)據(jù)量太大的話，而且我們需要checkpoint數(shù)據(jù)，這樣會占用較大的存儲。

如果要使用updateStateByKey,就需要設置一個checkpoint目錄（updateStateByKey自己是無法保存key的狀態(tài)的），開啟checkpoint機制。因為key的state是在內(nèi)存維護的，如果宕機，則重啟之后之前維護的狀態(tài)就沒有了，所以要長期保存它的話需要啟用checkpoint，以便恢復數(shù)據(jù)。

MapWithState：也是用于全局統(tǒng)計key的狀態(tài)，但是它如果沒有數(shù)據(jù)輸入，便不會返回之前的key的狀態(tài)，有一點增量的感覺。

這樣做的好處是，我們可以只關(guān)心那些已經(jīng)發(fā)生變化的key，對于沒有數(shù)據(jù)輸入，則不會返回那些沒有變化的key的數(shù)據(jù)。

這樣即使數(shù)據(jù)量很大，checkpoint也不會像updateStateByKey那樣，占用太多的存儲。

久久精品国产亚洲高清|精品日韩中文乱码在线|亚洲va中文字幕无码久|伊人久久综合狼伊人久久|亚洲不卡av不卡一区二区|精品久久久久久久蜜臀AV|国产精品19久久久久久不卡|国产男女猛烈视频在线观看麻豆

批次累加