確定是離線數(shù)倉嗎(如果是離線數(shù)倉,就算離線數(shù)倉數(shù)據(jù)從kafka接入,那這對kafka中數(shù)據(jù)順序的關(guān)系我就不太明白面試人想要啥)?
如果是離線數(shù)倉的數(shù)據(jù)從Kafka接入,接入到離線數(shù)據(jù)倉庫的數(shù)據(jù)需要保障順序嗎?這個保障不必要。我總覺得這個問題的核心是讓你保證Kakfa中數(shù)據(jù)的順序?我們就針對這個問題說明
1、kafka本身就是保障分區(qū)內(nèi)的數(shù)據(jù)有序,但是主題有多個分區(qū),這個主題的多有數(shù)據(jù)不敢保證有順序,所以我們需要為進(jìn)入topic的數(shù)據(jù)做好key的分配(相同key只能進(jìn)同一分區(qū)),保障相同的key的數(shù)據(jù)是有順序,這樣后續(xù)的實時數(shù)倉才方便計算,至于離線數(shù)倉要保障全局?jǐn)?shù)據(jù)的順序很簡單,從新排序一下即可。
2、如果能設(shè)置kafka的上游數(shù)據(jù)僅為一個生產(chǎn)者,設(shè)置kafka只有一個分區(qū),設(shè)置消費者只有一個,那這樣也能保障其kakfa數(shù)據(jù)有序的,但是這種幾乎就是極端場景,生產(chǎn)中很少見,除非數(shù)據(jù)很少可以嘗試。
更多關(guān)于大數(shù)據(jù)培訓(xùn)的問題,歡迎咨詢千鋒教育在線名師。千鋒教育擁有多年IT培訓(xùn)服務(wù)經(jīng)驗,采用全程面授高品質(zhì)、高體驗培養(yǎng)模式,擁有國內(nèi)一體化教學(xué)管理及學(xué)員服務(wù),助力更多學(xué)員實現(xiàn)高薪夢想。