累加器和廣播變量在哪些場景使用?累加器是分布式的并且共享只寫變量。如果在轉(zhuǎn)換運算符中調(diào)用了累加器,并且沒有后續(xù)的動作運算符,則不會執(zhí)行累加器。如果后面兩次調(diào)用action操作符,累加器會被執(zhí)行兩次,導(dǎo)致過度加法。
1、廣播變量的使用介紹
解決的場景:
將Driver進(jìn)程的共享數(shù)據(jù)發(fā)送給所有子節(jié)點的Executor進(jìn)程的每個任務(wù)。如果不使用廣播變量技術(shù),Driver端默認(rèn)會將共享數(shù)據(jù)分發(fā)給各個[Task],對網(wǎng)絡(luò)分發(fā)造成很大壓力。
如果采用廣播變量技術(shù),Driver端的共享數(shù)據(jù)只會發(fā)送給每個[Executor]。 Executor 中的所有任務(wù)都重用這個對象。確保共享對象是[可序列化的]。因為跨節(jié)點傳輸?shù)臄?shù)據(jù)必須是可序列化的。
將共享對象廣播到Driver端的每個Executor:
val bc = sc.broadcast(共享對象)
在執(zhí)行器中獲得:
bc.值
2、累加器的使用方法
集群中的所有 Executor 對同一個變量執(zhí)行累積操作。 Spark 目前只支持累加 [add] 操作。內(nèi)置3個累加器:【LongAccumulator】、【DoubleAccumulator】、【CollectionAccumulator】。
如何使用整數(shù)累加器?
在Driver端定義整數(shù)累加器并賦初值。
acc=sc.accumulator(0)
Executor端每次累加1
acc+=1
或者 acc.add(1)
3、綜合案例
以上代碼不僅練習(xí)了累加器和廣播變量在哪些場景使用,還練習(xí)了如何使用函數(shù)式編程(Map、Filter),如何創(chuàng)建上下文變量,以及如何使用并行性。這些練習(xí)比較全面,希望能幫助你學(xué)習(xí)更多技能。更多關(guān)于IT大數(shù)據(jù)培訓(xùn)的問題,歡迎咨詢千鋒教育在線名師,如果想要了解我們的師資、課程、項目實操的話可以點擊咨詢課程顧問,獲取試聽資格來試聽我們的課程,在線零距離接觸千鋒教育大咖名師,讓你輕松從入門到精通。