離線數據倉庫主要基于sqoop、hive等技術來構建T+1的離線數據,通過定時任務每天拉取增量數據導入到hive表中,然后創(chuàng)建各個業(yè)務相關的主題維度數據,對外提供T+1的數據查詢接口。
實時數倉當前主要是基于數據采集工具,如canal等將原始數據寫入到Kafka這樣的數據通道中,最后一般都是寫入到類似于HBase這樣存儲系統(tǒng)中,對外提供分鐘級別、甚至秒級別的查詢方案。
總結: 離線數倉|準確度高|時延一般在一天|穩(wěn)定性好,方便重算 實時數倉|準確度底,數據延遲、數據亂序造成數據準確度低|分鐘級延遲|穩(wěn)定性查,需要考慮數據回溯處理