所有events,增加頭,類似json格式里的"headers":{" key":" value"} 時(shí)間戳(頭部插入時(shí)間戳)、主機(jī)(頭部插入主機(jī)名和IP)、靜態(tài)(頭部插入指定KV)、正則過(guò)濾(留下符合條件的)、自定義 攔截器作用 1)ETL攔截器:輕度清洗,過(guò)濾出Json格式不完整的數(shù)據(jù) 2)時(shí)間攔截器:提取日志時(shí)間作為分區(qū)的依據(jù),避免零點(diǎn)漂移問(wèn)題 自定義攔截器步驟 1)實(shí)現(xiàn)Interceptor 2)重寫方法 ?。?)initialize初始化方法 ?。?)public Event intercept(Event event) 處理單個(gè)Event ?。?)public List intercept(List events) 處理多個(gè)Event,在這個(gè)方法中調(diào)用Event intercept(Event event) ?。?)close方法 3)靜態(tài)內(nèi)部類,實(shí)現(xiàn)Interceptor.Builder 4)打包,上傳至flume/lib目錄下 5)在配置文件中關(guān)聯(lián):全類名 + $builder 攔截器可以不用嗎? 可以不用,在hive的dwd層或sparkStream中處理即可,也可以用,但會(huì)影響性能,不推薦用在實(shí)時(shí)性高的場(chǎng)景
hive外部表是使用external關(guān)鍵字并指定一個(gè)hdfs目錄創(chuàng)建的表。hive內(nèi)部表在創(chuàng)建時(shí)會(huì)在對(duì)應(yīng)hive目錄下創(chuàng)建相應(yīng)的文件夾,外部表則以指定文件夾為...詳情>>
2022-09-02 17:21:00Checkpoint是為runtime準(zhǔn)備的,Savepoint 是為用戶準(zhǔn)備的。Checkpoint 機(jī)制的目標(biāo)在于保證Flink作業(yè)意外崩潰重啟不影響exactly once 準(zhǔn)確性,通...詳情>>
2022-09-02 16:59:22State:指一個(gè)具體的Task/Operator的狀態(tài)。State可以被記錄,在失敗的情況下數(shù)據(jù)還可以恢復(fù),F(xiàn)link中有兩種基本類型的State: Keyed State, Op...詳情>>
2022-09-02 16:59:19Flink 內(nèi)部是基于producer-consumer模型來(lái)進(jìn)行消息傳遞的,F(xiàn)link的反壓設(shè)計(jì)也是基于這個(gè)模型。Flink 使用了高效有界的分布式阻塞隊(duì)列,就像 Jav...詳情>>
2022-09-02 16:59:16雖說(shuō)水位線(Watermark)表明早于它的事件不應(yīng)該再出現(xiàn),但是接收到水位線以前的的消息是不可避免的,這就是所謂的遲到事件。實(shí)際上遲到事件是亂...詳情>>
2022-09-02 16:59:00