spark有哪些組件? 2023-05-24
ApacheSpark是一個快速而通用的分布式計算引擎,用于大規(guī)模數(shù)據(jù)處理和分析。Spark提供了一系列核心組件和相關(guān)工具,用于構(gòu)建分布式數(shù)據(jù)處理應(yīng)...詳情>
spark和mapreduce的區(qū)別有哪些? 2023-03-30
數(shù)據(jù)處理方式:Spark支持多種數(shù)據(jù)處理方式,如批處理、流處理和機器學(xué)習(xí)等,而MapReduce主要用于批處理。詳情>
hadoop和spark哪個好 2023-03-30
Hadoop是一個比較成熟和穩(wěn)定的分布式計算框架,它具有良好的可擴展性、容錯性和數(shù)據(jù)安全性。Hadoop的核心是分布式文件系統(tǒng)HDFS和分布式計算框...詳情>
spark是什么意思 2023-03-28
Spark還支持基于內(nèi)存的迭代計算模型,可以在多個節(jié)點之間進行數(shù)據(jù)共享和通信,從而大大提高了計算速度和吞吐量。由于其靈活性和高性能,Spark...詳情>
Flink Spark on Yarn 分布式日志收集問題 2022-08-12
對于Flink,Spark在Yarn上提交的LongTime Job(比如一個批處理作業(yè)要運行幾個小時或者本身就是實時作業(yè)),其作業(yè)的運行日志我們不能等到作業(yè)結(jié)...詳情>
Spark repartition和coalesce的區(qū)別 2022-08-12
repartition只是coalesce接口中shuffle為true的實現(xiàn)。不經(jīng)過 shuffle,也就是coaleasce shuffle為false,是無法增加RDD的分區(qū)數(shù)的,比如你源RD...詳情>
Spark groupByKey 和 reduceBykey 區(qū)別 2022-08-12
reduceByKey 可以接收一個 func 函數(shù)作為參數(shù),這個函數(shù)會作用到每個分區(qū)的數(shù)據(jù)上,即分區(qū)內(nèi)部的數(shù)據(jù)先進行一輪計算,然后才進行 shuffle 將數(shù)...詳情>
Spark Cache,Presist,CheckPoint的區(qū)別 2022-08-11
Persist 的 MEMORY_ONLY 級別的存儲等于 Cache,Persist 其他的配置只是存儲的方式不同,作用和原理是和 Cache 類似的,他們二者的區(qū)別如下:詳情>
Spark Streaming 反壓機制(Back Pressure) 2022-08-11
Spark Streaming 反壓機制是1.5版本推出的特性,用來解決處理速度比攝入速度慢的情況,簡單來講就是做流量控制。當批處理時間(Batch Processin...詳情>
Spark Streaming 窗口函數(shù) 2022-08-11
理解窗口的兩個關(guān)鍵概念,窗口長度(window length)和滑動間隔(slide interval)。 窗口函數(shù)會把原始 DStream 的若干批次的數(shù)據(jù)合并成為一個新的...詳情>
熱問標簽 更多>>
在線提問
專業(yè)導(dǎo)師線上坐鎮(zhèn),解答個性化學(xué)習(xí)難題
提交問題