Flink提供了一個分布式緩存,類似于hadoop,可以使用戶在并行函數(shù)中很方便的讀取本地文件,并把它放在taskmanager節(jié)點中,防止task重復拉取。
此緩存的工作機制如下:程序注冊一個文件或者目錄(本地或者遠程文件系統(tǒng),例如 hdfs 或者 s3)
通過 ExecutionEnvironment 注冊緩存文件并為它起一個名稱。
當程序執(zhí)行,F(xiàn)link 自動將文件或者目錄復制到所有taskmanager節(jié)點的本地文件系統(tǒng),僅會執(zhí)行一次。
用戶可以通過這個指定的名稱查找文件或者目錄,然后從taskmanager節(jié)點的本地文件系統(tǒng)訪問它。