Sqoop安裝部署比較簡單,讀者可以通過以下步驟來輕松部署Sqoop工具。
1.基礎(chǔ)軟件包準(zhǔn)備
官方網(wǎng)站上發(fā)行的Sqoop版本分為Sqoop 1和Sqoop 2,這兩個是完全不同的版本,不兼容。
提示:Sqoop 2并不是Sqoop 1的升級版,它們底層架構(gòu)不同,互不兼容。Sqoop 2的架構(gòu)稍復(fù)雜,配置部署比較煩瑣,這里推薦使用Sqoop 1來快速進(jìn)行實(shí)戰(zhàn)演練。
2.部署
(1)將下載好的軟件包解壓到指定位置。操作命令如下:
(2)軟件包解壓完成后,可以進(jìn)行Sqoop環(huán)境配置。操作命令如下:
在完成環(huán)境變量配置后,在終端輸入以下命令時當(dāng)前配置的環(huán)境變量立即生效。操作命令如下:
(3)修改Sqoop1腳本。
在sqoop-env.sh腳本文件中,修改環(huán)境變量路徑。變更內(nèi)容如下:
(4)加載驅(qū)動包。在將關(guān)系型數(shù)據(jù)庫(RDBMS)的數(shù)據(jù)導(dǎo)入到Hadoop的分布式文件系統(tǒng)(HDFS)時,需要加載數(shù)據(jù)庫驅(qū)動包。
這里以MySQL數(shù)據(jù)庫為例。在MySQL官方網(wǎng)站下載MySQL驅(qū)動包(mysql-connector-java-5.1.32-bin.jar),并將下載好的JAR文件復(fù)制一份到Sqoop1的lib文件夾下。這樣在執(zhí)行Sqoop1腳本將MySQL數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入到Hadoop的分布式文件系統(tǒng)(HDFS)中時,就不會出現(xiàn)找不到MySQL驅(qū)動或者M(jìn)ySQL驅(qū)動不可用的異常。
提示:選擇和MySQL數(shù)據(jù)庫版本相對應(yīng)的驅(qū)動進(jìn)行下載。
3.Sqoop 1的命令參數(shù)
使用Sqoop1腳本命令進(jìn)行數(shù)據(jù)導(dǎo)入和導(dǎo)出時,涉及import和export命令。以MySQL數(shù)據(jù)庫為例,表1和表2分別為import和export命令的各個參數(shù)。
表1 Sqoop 1版本的import命令
表2 Sqoop 1版本的export命令