本文目录导读:
各位道友,贫道阿秋今日要与大家分享一番在Windows 10系统上安装Hadoop的修行心得,Hadoop,作为大数据处理领域的扛鼎之作,其分布式存储和计算能力令人叹为观止,在Windows环境下安装Hadoop,却并非易事,需得一番精心筹备与细致操作,贫道愿将这番经历细细道来,以供诸位参考。
一、准备工作
我们需得准备一些必要的工具和文件。
1、Java环境:Hadoop是基于Java开发的,我们需要在系统上安装Java,推荐使用Java Development Kit (JDK) 版本1.8或更高,诸位可从Oracle官网或其他可信渠道下载并安装。
2、Hadoop安装包:Hadoop有多个版本,贫道建议初学者使用较为稳定的版本,如Hadoop 3.x系列,诸位可从Apache Hadoop官网下载对应版本的二进制文件(Binary)。
3、辅助工具:为了简化配置,我们可能需要一些辅助工具,如WinSCP(用于文件传输)、PuTTY(用于SSH连接)等,这些工具在Windows环境下操作Hadoop时颇为便利。
二、安装Java
Java的安装相对简单,只需按照以下步骤操作:
1、下载JDK安装包,并双击运行。
2、在安装向导中,选择安装路径,并勾选“将JAVA_HOME添加到系统环境变量”选项(若此选项不可用,则需手动配置)。
3、完成安装后,打开命令提示符(CMD),输入java -version
,若显示Java版本信息,则说明安装成功。
三、配置Hadoop
Hadoop的安装与配置稍显繁琐,需得耐心与细心。
1、解压Hadoop安装包:将下载的Hadoop二进制文件解压至指定目录,如C:\hadoop-3.x.x
。
2、设置环境变量:
- 右键点击“此电脑”,选择“属性”。
- 点击“高级系统设置”,然后点击“环境变量”。
- 在“系统变量”区域,点击“新建”,变量名输入HADOOP_HOME
,变量值输入Hadoop解压后的路径,如C:\hadoop-3.x.x
。
- 编辑Path
变量,将%HADOOP_HOME%\bin
和%HADOOP_HOME%\sbin
添加到Path中。
3、配置Hadoop文件:
- 打开Hadoop安装目录下的etc\hadoop
文件夹,找到并编辑以下文件:
hadoop-env.cmd:设置Java路径,找到set JAVA_HOME=
行,将其修改为set JAVA_HOME=C:\Program Files\Java\jdk1.8.0_xxx
(具体路径需根据安装情况调整)。
core-site.xml:配置Hadoop核心参数,添加如下内容:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
hdfs-site.xml:配置HDFS参数,添加如下内容:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:///C:/hadoop-3.x.x/data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:///C:/hadoop-3.x.x/data/datanode</value> </property> </configuration>
mapred-site.xml:配置MapReduce参数(若mapred-site.xml.template存在,需先重命名为mapred-site.xml),添加如下内容:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
yarn-site.xml:配置YARN参数,添加如下内容:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration>
四、格式化HDFS并启动Hadoop
1、格式化HDFS:首次使用Hadoop前,需对HDFS进行格式化,打开CMD,输入以下命令:
hdfs namenode -format
注意:此操作会清空HDFS中的所有数据,请谨慎执行。
2、启动Hadoop:
- 启动HDFS:
start-dfs.cmd
- 启动YARN:
start-yarn.cmd
3、验证Hadoop是否启动成功:
- 打开浏览器,访问http://localhost:50070
,查看HDFS状态。
- 访问http://localhost:8088
,查看YARN状态。
五、运行Hadoop示例
为了验证Hadoop是否安装成功,我们可以运行一个简单的WordCount示例。
1、准备输入文件:在Hadoop安装目录下的share\hadoop\mapreduce
文件夹中,找到hadoop-mapreduce-examples-3.x.x.jar
文件,准备一个文本文件作为输入文件,如input.txt
,并将其放置在任意目录下。
2、运行WordCount:
hadoop jar share\hadoop\mapreduce\hadoop-mapreduce-examples-3.x.x.jar wordcount C:\path\to\input C:\path\to\output
注意:输出目录(如C:\path\to\output
)需事先不存在,Hadoop会自动创建。
3、查看输出结果:运行完成后,可在输出目录中查看WordCount的结果文件。
至此,贫道关于Hadoop在Win10上的安装教程已述尽,修行之路,道阻且长,但只要诸位道友持之以恒,定能掌握Hadoop之精髓,为大数据处理之路增添一份助力,愿诸位修行有成,道法自然!