Hadoop是一個(gè)由Apache基金會所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲。而對于hadoop的學(xué)習(xí)是大數(shù)據(jù)學(xué)習(xí)中的重要一個(gè)環(huán)節(jié),于是乎有很多人想要知道hadoop學(xué)習(xí)路線圖。下面,我們跟隨千鋒大數(shù)據(jù)培訓(xùn)的老師來看看,千鋒大數(shù)據(jù)學(xué)員是怎么樣開始學(xué)習(xí)hadoop的。
大致的思路是:以安裝部署Apache Hadoop2.x版本為主線,來介紹Hadoop2.x的架構(gòu)組成、各模塊協(xié)同工作原理、技術(shù)細(xì)節(jié)。安裝不是目的,通過安裝認(rèn)識Hadoop才是目的。
第一:Linux環(huán)境安裝
Hadoop是運(yùn)行在Linux,雖然借助工具也可以運(yùn)行在Windows上,但是建議還是運(yùn)行在Linux系統(tǒng)上,第一部分介紹Linux環(huán)境的安裝、配置、Java JDK安裝等。
第二:Hadoop本地模式安裝
Hadoop本地模式只是用于本地開發(fā)調(diào)試,或者快速安裝體驗(yàn)Hadoop,這部分做簡單的介紹。
第三:Hadoop偽分布式模式安裝
學(xué)習(xí)Hadoop一般是在偽分布式模式下進(jìn)行。這種模式是在一臺機(jī)器上各個(gè)進(jìn)程上運(yùn)行Hadoop的各個(gè)模塊,偽分布式的意思是雖然各個(gè)模塊是在各個(gè)進(jìn)程上分開運(yùn)行的,但是只是運(yùn)行在一個(gè)操作系統(tǒng)上的,并不是真正的分布式。
第四:完全分布式安裝
完全分布式模式才是生產(chǎn)環(huán)境采用的模式,Hadoop運(yùn)行在服務(wù)器集群上,生產(chǎn)環(huán)境一般都會做HA,以實(shí)現(xiàn)高可用。
第五:Hadoop HA安裝
HA是指高可用,為了解決Hadoop單點(diǎn)故障問題,生產(chǎn)環(huán)境一般都做HA部署。這部分介紹了如何配置Hadoop2.x的高可用,并簡單介紹了HA的工作原理。在安裝過程中,會穿插簡單介紹涉及到的知識。
環(huán)境搭建好后,然后嘗試編寫mapreduce進(jìn)行打包運(yùn)行。當(dāng)你對hadoop應(yīng)用編程層面沒有疑問的時(shí)候,可以嘗試去深入了解mapreduce的核心思想,尤其是map,shuffle,join,reduce等。
以上對于很多新手來說,入門會遇到很多問題,這是正常的現(xiàn)象,不過遇到問題不可怕,只要想辦法解決了自己的能力就會有所提高,如果你也想像千鋒大數(shù)據(jù)學(xué)員一樣掌握這樣的技術(shù),那么不妨選擇到千鋒大數(shù)據(jù)培訓(xùn)來學(xué)習(xí)。