Hadoop是一個(gè)開(kāi)源的分布式計(jì)算框架,用于處理大規(guī)模數(shù)據(jù)集。以下是Hadoop安裝與配置的步驟:
1. 下載Hadoop:從官方網(wǎng)站(https://hadoop.apache.org/releases.html)下載最新版本的Hadoop。
2. 解壓文件:將下載的文件解壓縮到一個(gè)目錄中。
3. 配置環(huán)境變量:編輯/etc/profile文件,添加以下內(nèi)容:
export HADOOP_HOME=/path/to/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
4. 測(cè)試環(huán)境變量:運(yùn)行以下命令檢查環(huán)境變量是否正確設(shè)置:
echo $HADOOP_HOME
echo $PATH
5. 啟動(dòng)Hadoop:運(yùn)行以下命令啟動(dòng)Hadoop:
start-all.sh
6. 測(cè)試Hadoop:運(yùn)行以下命令測(cè)試Hadoop是否正常工作:
hadoop fs -ls /path/to/directory
7. 配置Hadoop:編輯hdfs-site.xml文件,添加以下內(nèi)容:
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.blocksize</name>
<value>10240</value> (或更大的值)
</property>
10240 (或更大的值)
```
8. 配置MapReduce:編輯mapred-site.xml文件,添加以下內(nèi)容:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.job.tracker</name>
<value>localhost:8012</value> (或您的Tracker IP地址)
</property>
<property>
<name>mapreduce.job.history.location</name>
<value>file:///path/to/history/dir</value> (可選)
</property>
9. 保存配置文件:保存所有修改后的文件。
10. 測(cè)試MapReduce:運(yùn)行以下命令測(cè)試MapReduce是否正常工作:
start-mapred.sh /path/to/input/file /path/to/output/dir/