hadoop平台环境配置笔记(Hadoop3使用分享一)

 hadoop3已经发布很久了,迭代集成的一些新特性也是很有用的。接下来,笔者先为大家分享一下Hadoop3.2 安装笔记


hadoop平台环境配置笔记(Hadoop3使用分享一)(1)

Hadoop 大数据 分布式存储 计算 人工智能

准备工作

本次使用虚拟机服务器来搭建开源版Hadoop3集群,所用软件及版本如下所示:

Vmware 12.0

centos 7.6

jdk1.8

Hadoop3.2.1


Vmware 虚拟环境

采用NAT方式联网

网关地址:192.168.80.1

3个服务器节点IP地址:

mini1 192.168.80.81

mini2 192.168.80.82

mini3 192.168.80.83

子网掩码:255.255.255.0


主机及集群角色规划

mini1 namenode DataNode ResourceManager NodeManager

mini2 SecondaryNameNode DataNode NodeManager

mini3 DataNode NodeManager


具体安装步骤如下:
一,linux系统环境准备

以下[1-7]步操作,所有节点【mini1,mini2,mini3】都需要进行设置,具体操作如下:

1,依次更改【mini1,mini2,mini3】主机名:

vi /etc/hostname

2,配置网络

2.1 命令: vi /etc/sysconfig/network-scripts/ifcfg-ens33

如下配置:

ONBOOT=yes

BOOTPROTO=static

IPADDR=192.168.80.81

GATEWAY=192.168.80.1

NETMASK=255.255.255.0

DNS1=114.114.114.114


2.2 重启网卡命令:systemctl restart network


2.3 配置Ip与主机名映射,命令:vi /etc/hosts


192.168.80.81 mini1

192.168.80.82 mini2

192.168.80.83 mini3


3,关闭防火墙

systemctl stop firewalld (临时关闭防火墙)

systemctl disable firewalld (禁止firewall开机启动)

systemctl status firewalld (查看防火墙状态)


4,禁用Selinux(安全权限管理模块)

vi /etc/sysconfig/selinux

SELINUX=disabled


5,设置将 /proc/sys/vm/swappiness 设置为 0 (修改swap空间的swappiness,降低对硬盘的缓存)

执行以下输入:

echo "vm.swappiness=0" >> /etc/sysctl.conf (永久降低虚拟内存需求率)

sysctl -p (并运行如下命令使生效)


6,修改时区:timedatectl set-timezone Asia/Shanghai


7,配置免密登录

******配置主机之间的免密ssh登陆******

假如 mini1 要登陆 mini2,mini3

在mini1上操作:

首先生成密钥对,命令如下:

ssh-keygen (提示时,直接回车即可)

将生产的秘钥copy到【mini1,mini2,mini3】上,命令如下

ssh-copy-id mini1

ssh-copy-id mini2

ssh-copy-id mini3



二,集群时间同步

【mini1】作为时间同步服务器,【mini2,mini3】同步【mini1】的时间,具体操作如下:


1,禁用【mini1,mini2,mini3】chrony时间同步服务(centos7操作系统默认使用chrony)

systemctl stop chronyd

systemctl disable chronyd

2,在【mini1,mini2,mini3】上执行命令:yum install -y ntp 安装时间同步服务


3,在Server【mini1】上执行命令: vi /etc/ntp.conf


添加以下内容:

restrict 192.168.80.0 mask 255.255.255.0 nomodify notrap

server 127.127.1.0

fudge 127.127.1.0 stratum 10


同时注释掉这几个配置

#server 0.centos.pool.ntp.org iburst

#server 1.centos.pool.ntp.org iburst

#server 2.centos.pool.ntp.org iburst

#server 3.centos.pool.ntp.org iburst


4,在Server【mini1】上执行启动ntpd服务命令

systemctl start ntpd (启动ntpd服务)

systemctl status ntpd (查看ntpd服务状态)

systemctl enable ntpd (将ntpd服务加入开机启动)

systemctl list-unit-files |grep ntpd (查看是否将ntpd服务加入到开机启动项)


5,在客户端【mini2,mini3】配置同步: crontab -e

*/1 * * * * /usr/sbin/ntpdate mini1 ;/sbin/hwclock -w



三,安装JDK

1.上传jdk安装包

2.安装目录: /opt/apps/

3.解压jdk到安装目录: tar -zvxf jdk-8u101-linux-x64.tar.gz -C /opt/apps/

4.在安装目录中建立jdk软链接,指向jdk所在目录 :ln -s jdk1.8.0_101 jdk

5.配置环境变量,编辑vi /etc/profile文件,在最后一行加入以下两行:

export JAVA_HOME=/opt/apps/jdk

export PATH=$PATH:$JAVA_HOME/bin


6.修改完成后,执行命令: source /etc/profile 使配置生效

7.检验:在任意目录下输入命令: java -version 看是否成功执行

8.将安装好的jdk目录用scp命令拷贝到其他机器

9.将/etc/profile配置文件也用scp命令拷贝到其他机器并分别执行source命令


四,安装Hadoop

1.上传Hadoop安装包 :hadoop-3.2.1.tar.gz

2.解压安装包: tar -zvxf hadoop-3.2.1.tar.gz -C /opt/apps/

3.在安装目录中建立hadoop软链接,指向hadoop解压目录 :ln -s hadoop-3.2.1 hadoop

4.修改配置文件:cd /opt/apps/hadoop/etc/hadoop

4.1 配置hadoop-env.sh 文件

export JAVA_HOME=/opt/apps/jdk


4.2 配置core-site.xml文件

<configuration>

<property>

<name>fs.defaultFS</name>

<value>HDFS://mini1:9000</value>

</property>

</configuration>

4.3 配置hdfs-site.xml文件

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>/opt/apps/hadoop/hadoopdata/name</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/opt/apps/hadoop/hadoopdata/data</value>

</property>

<property>

<name>dfs.namenode.secondary.http-address</name>

<value>mini2:50090</value>

</property>

</configuration>

4.4 配置mapred-site.xml文件

<configuration>

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

</property>

</configuration>


4.5 配置yarn-site.xml文件

<configuration>

<property>

<name>yarn.resourcemanager.hostname</name>

<value>mini1</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

</configuration>


4.6 配置workers文件

mini1

mini2

mini3


5.拷贝整个hadoop安装目录到其他机器

scp -r /opt/apps/hadoop-3.2.1 mini2:/opt/apps/

scp -r /opt/apps/hadoop-3.2.1 mini3:/opt/apps/


6.要运行hadoop的命令,需要在linux环境中配置HADOOP_HOME和PATH环境变量

配置Hadoop环境变量:vi /etc/profile

export JAVA_HOME=/opt/apps/jdk

export HADOOP_HOME=/opt/apps/hadoop

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin


7.将/etc/profile配置文件也用scp命令拷贝到其他机器并分别执行source命令


五,启动HDFS集群

1.首先初始化namenode的元数据目录。

命令:hdfs namenode -format(mini1上执行)

创建一个全新的元数据存储目录

生成记录元数据的文件fsimage

生成集群的相关标识:如:集群id——clusterID


2.启动namenode进程

命令:hdfs --daemon start namenode (mini1上执行)


4.启动datanode(mini1,mini2,mini3上执行)

命令:hdfs --daemon start datanode


5.重要提示:可以在主节点全部启动或停止关于HDFS相关角色(主节点mini1上执行)


将start-dfs.sh,stop-dfs.sh两个文件顶部添加以下参数

#!/usr/bin/env bash

HDFS_DATANODE_USER=root

HADOOP_SECURE_DN_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root


全部启动命令:start-dfs.sh 全部停止命令:stop-dfs.sh


6.启动后浏览HDFS web界面: http://mini1:9870/


六,启动YARN集群

1.启动resourcemanager进程(主节点mini1上执行)

命令:yarn --daemon start resourcemanager


2.启动nodemanager进程(mini1,mini2,mini3上执行)

命令:yarn --daemon start nodemanager


3.重要提示:可以在主节点全部启动或停止关于HDFS相关角色(主节点mini1上执行):

将start-yarn.sh,stop-yarn.sh两个文件顶部需添加以下:

#!/usr/bin/env bash

YARN_RESOURCEMANAGER_USER=root

HADOOP_SECURE_DN_USER=yarn

YARN_NODEMANAGER_USER=root

全部启动命令:start-yarn.sh 全部停止命令:stop-yarn.sh


4.启动后浏览YARN集群 web界面: http://mini1:8088/


hadoop平台环境配置笔记(Hadoop3使用分享一)(2)

大数据视频教程 Hadoop Spark Hive 刀客程序员 云计算 人工智能


hadoop平台环境配置笔记(Hadoop3使用分享一)(3)

cloudera CDH6.3 云计算 大数据 hadoop spark hive 分布式存储

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页