Hadoop

家电修理 2023-07-16 19:17www.caominkang.com电器维修

HDFS YARN MapReduce

HDFS集群 YARN集群

修改配置文件同步安装包与环境变量

进程状态日志查看（网页）

shell命令行常用操作

HDFS写数据流程（上传文件）pipeline

Hadoop MapReduce官方示例

ordcount单词词频统计

reduce阶段执行流程

程序提交YARN交换流程

YARN资源调度器Scheduler

FIFO Scheduler（先进先出调度器）

Capacity Schedulere容量调度

Fair Scheduler（公平调度器）

初识

安装部署

cat /etc/hostname

vim /etc/hosts

systemctl s firealld.service

systemctl disable firealld.service

（100上）ssh-keyen(生成公钥、私钥)

ssh-copy-id 主机1、2、3 （复制到其他机器）

时间同步（所有机器执行）

yum -yinstall ntpdate

ntpdate ntp4.aliyun.

创建统一工作目录（所有机器执行）

mkdir -p /export/server/(软件安装路径)

mkdir -p /export/date/(数据存储路径)

mkdir -p /export/softare（安装包存储路径）

安装到/export/server/下（文件安装包在D盘easy）

tar -zxvf jdk-8u241-linux(解压)

vim /etc/profile

export JAVA_HOME=/export/server/jdk1.8.0_241
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

source /etc/profile(重新加载)

java -version(验证是否安装成功)

scp -r /export/server/jdk1.8.0_241/ 用户名@ip:/export/server/(拷贝，剩下机器都操作)

scp /etc/profile 用户@ip:/etc/(拷贝环境变量)

source /etc/profile(所有机器)

java -version(验证是否安装成功所有)

修改配置文件同步安装包与环境变量

cd /export/server/hadoop-3.3.0/etc/hadoop(所有配置文件都在)

hadoop-env.sh

 #文件添加
 #指定java路径
 export JAVA_HOME=/export/server/jdk1.8.0_241
 
 export HDFS_NAMENODE_USER=root
 export HDFS_DATANODE_USER=root
 export HDFS_SECONDARYNAMENODE_USER=root
 export YARN_RESOURCEMANAGER_USER=root
 export YARN_NODEMANAGER_USER=root 
 #指定各个进程运行的用户名

core-site.xml（核心配置文件）

两个（config.....中间）


 
  fs.defaultFS
  hdfs://node1:8020
 
 
 
 
  hadoop.tmp.dir
  /export/data/hadoop-3.3.0
 
 
 
 
  hadoop.http.staticuser.user
  root
 
 
 
 
  hadoop.proxyuser.root.hosts
  
 
 
 
  hadoop.proxyuser.root.groups
  
 
 
 
 
  fs.trash.interval
  1440

hdfs-site.xml（hdfs文件系统模块配置）
两个（config.....中间）

 
 
  dfs.namenode.secondary.http-address
  node2:9868

mapred-site.xml（MapReduce模块配置）


 
   mapreduce.frameork.name
   yarn
 
 
 
 
   mapreduce.jobhistory.address
   node1:10020
 
  
 
 
   mapreduce.jobhistory.ebapp.address
   node1:19888
 
 
 
   yarn.app.mapreduce.am.env
   HADOOP_MAPRED_HOME=${HADOOP_HOME}
 
 
 
   mapreduce.map.env
   HADOOP_MAPRED_HOME=${HADOOP_HOME}
 
 
 
   mapreduce.reduce.env
   HADOOP_MAPRED_HOME=${HADOOP_HOME}

yarn-site.xml（yarn模块配置）


 
 	yarn.resourcemanager.hostname
 	node1
 
 
 
  yarn.nodemanager.aux-services
  mapreduce_shuffle
 
 
 
 
  yarn.nodemanager.pmem-check-enabled
  false
 
 
 
 
  yarn.nodemanager.vmem-check-enabled
  false
 
 
 
 
   yarn.log-aggregation-enable
   true
 
 
 
 
  yarn.log.server.url
  http://node1:19888/jobhistory/logs
 
 
 
 
   yarn.log-aggregation.retain-seconds
   604800

（同上，删除两个中间的注释）

node1.itcast.
node2.itcast.
node3.itcast.

分发同步hadoop安装包
cd /export/server
scp -r hadoop-3.3.0 root@ip:$PWD

scp -r hadoop-3.3.0 root@ip:$PWD

将hadoop添加到环境变量（3台机器）

vim /etc/profile

export HADOOP_HOME=/export/server/hadoop-3.3.0
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile

scp /etc/profile 主机名:/etc/

source /etc/profile(所有机器)

hadoop（所有，验证）

HDFS 初识
HDFS（hadoop distributed file system）hadoop分布式文件系统

解决海量数据存储

特性:主从架构(一个NameNode主节点多个DataNode从节点（一个集群）)

分块存储 (块大小默认128mb 如果文件小于128不分块本身一块)（块大小 hdfs-default.xml 文件中调dfs.blocksize参数可调整）

副本机制（所有块都有副本，由参数dfs.replication控制，默认3（额外复制两份））

元数据记录(Namenode管理的元数据分为两类 1文件自身属性（名字、权限~）2文件块位置映射(那个块位于哪个节点上))

抽象统一的目录数结构（namespace）

shell命令行

HDFS工作流程机制

MapReduce 初识
分布式计算框架

分而治之

Map拆分成可以计算的小任务（任务之间不能有依赖关系）

Reduce对map结果进行全局汇总

Hadoop MapReduce官方示例
一个完整的MR程序用户自己编写的代码+Hadoop自己实现的代码

YARN 初识

三种调度器
FIFO Scheduler（先进先出调度器）

Capacity Scheduler（容量调度器）

Fair Scheduler（公平调度器）

Apache版本YARN默认使用Capacity Scheduler（可以在yarn-site.xml中的yarn.resourcemanager.scheduler.class进行修改配置）

Hadoop

初识

安装部署

shell命令行

HDFS工作流程机制

MapReduce 初识
分布式计算框架

分而治之

Map拆分成可以计算的小任务（任务之间不能有依赖关系）

Reduce对map结果进行全局汇总

Hadoop MapReduce官方示例
一个完整的MR程序用户自己编写的代码+Hadoop自己实现的代码

YARN 初识

三种调度器
FIFO Scheduler（先进先出调度器）

Capacity Scheduler（容量调度器）

Fair Scheduler（公平调度器）

Apache版本YARN默认使用Capacity Scheduler（可以在yarn-site.xml中的yarn.resourcemanager.scheduler.class进行修改配置）

Hadoop

初识

分布式与集群 分布式多台机器，每台机器上部署不同组件 集群多台，每台机器部署相同组件 hadoop集群分两个HDFS集群 YARN集群

HDFS YARN MapReduce HDFS:分布式文件存储系统 YARN集群资源管理和任务带哦都框架，解决资源任务调度 MapReduce分布式计算框架解决海量数据计算

HDFS集群 YARN集群 HDFS主NameNode 从DateNode 主辅SecondaryNameNode YARN主ResourceManager 从NodeManager （每个框都是进程java）

分布式存储系统 文件系统数据 元数据（文件大小、修改时间、用户等信息） 属性分布式存储（横向延申） 元数据记录（记录了每个文件在那个机器上）分块存储（针对性高） 副本机制

安装部署

下载 编译 下载hadoop-3.3.0-...... (编译好的)

集群角色规划 （上图）

format初始化操作 格式化 （初始化只能一此不能多次） hdfs namenode -format 验证（出现这句话成功） 成功

集群启停命令

shell脚本一键启停 （前提配置好机器间的 SSH免密 和orkers文件） HDFS集群 start-dfs.sh s-dfs.sh YARN集群 start-yarn.sh s-yarn.sh Hadoop集群(全的) start-all.sh s-all.sh （启动一下 用jps命令验证是否成功（验证所有））

shell命令行

HDFS工作流程机制

MapReduce 初识 分布式计算框架 分而治之 Map拆分成可以计算的小任务（任务之间不能有依赖关系） Reduce对map结果进行全局汇总

数据类型 MapReduce处理的数据类型是键值对 map: (k1;v1) --->(k2;v2) reduce:(k2;[v2])-->(k3;v3)

特点 统一架构，隐藏底层细节 易于编程 ，良好的拓展性 实时计算性差 不能进行流式计算

实例进程 MRAppMaster负责整个MR程序的过程调度及状态协调 MapTask负责map阶段的整个数据处理流程 ReduceTask负责reduce阶段的整个数据处理流程

阶段组成 一个MapReduce编程模型只能保护一个Map或Reduce Map完必须是Reducer

Hadoop MapReduce官方示例 一个完整的MR程序用户自己编写的代码+Hadoop自己实现的代码

示例文件 示例程序路径/export/server/hadoop-3.3.0/share/hadoop/mapreduce/ 实例程序hadoop-mapreduce-examples-3.3.0.jar MapReduce程序提交命令[hadoop jar|yarn jar]hadoop-mapreduce-examples-3.3.0.jar(文件路径) arg(参数) 提交到YARN上运行

评估圆周率的值 jps看集群是否启动 hadoop jar hadoop-mapreduce-examples-3.3.0.jar（注意路径）pi 10 50 二三是撒点数（撒点法计算圆周率） 第一个参数pi计算圆周率 二指定map阶段运行的任务task次数，并发度 三每个map任务取样的个数

ordcount单词词频统计 实现思路 9870上传文件到input（自己创目录） hadoop jar hadoop-mapreduce-examples-3.3.0.jar ordcount /input /output 输出 输入路径 输出一个成功表示文件

reduce阶段执行流程 第一阶段ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据 二数据进行合并，对合并后的数据排序 三对排序后的键值对调用reduce方法，键相等的调用一次reduce方法 把这些键值对写入HDFS文件中。

shuffle机制 46

YARN 初识

YARN资源调度器Scheduler 在YARN中，负责给应用分配资源的就是Scheduler，它是ResourceManager的核心组件之一

三种调度器 FIFO Scheduler（先进先出调度器） Capacity Scheduler（容量调度器） Fair Scheduler（公平调度器） Apache版本YARN默认使用Capacity Scheduler（可以在yarn-site.xml中的yarn.resourcemanager.scheduler.class进行修改 配置）

FIFO Scheduler（先进先出调度器） FIFO Scheduler是一个先进先出的思想，先提交的应用先运行 FIFO Scheduler拥有一个控制全局的队列queue，默认queue名称为default，该调度器会获取当前集群上所有的资源信息作用于这个全局的queue

Capacity Schedulere容量调度 允许多个组织共享整个集群资源 每个组织可以获得集群的一部分计算能力。 通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源

Fair Scheduler（公平调度器） 只有A 全给A 来了B 给B一半 B新增作业 B中分一半

空调维修

电脑维修网搜索

电脑维修导航

电脑维修知识

笔记本电脑维修

电脑维修培训

分布式与集群
分布式多台机器，每台机器上部署不同组件

集群多台，每台机器部署相同组件

hadoop集群分两个HDFS集群 YARN集群

HDFS YARN MapReduce
HDFS:分布式文件存储系统

YARN集群资源管理和任务带哦都框架，解决资源任务调度

MapReduce分布式计算框架解决海量数据计算

HDFS集群 YARN集群
HDFS主NameNode 从DateNode 主辅SecondaryNameNode

YARN主ResourceManager 从NodeManager

（每个框都是进程java）

分布式存储系统
文件系统数据元数据（文件大小、修改时间、用户等信息）

属性分布式存储（横向延申）元数据记录（记录了每个文件在那个机器上）分块存储（针对性高）副本机制

下载编译
下载hadoop-3.3.0-......

(编译好的)

集群角色规划
（上图）

format初始化操作
格式化（初始化只能一此不能多次）

hdfs namenode -format

验证（出现这句话成功）

成功

shell脚本一键启停
（前提配置好机器间的 SSH免密和orkers文件）

HDFS集群

start-dfs.sh

s-dfs.sh

YARN集群

start-yarn.sh

s-yarn.sh

Hadoop集群(全的)

start-all.sh

s-all.sh

（启动一下用jps命令验证是否成功（验证所有））

MapReduce 初识
分布式计算框架

分而治之

Map拆分成可以计算的小任务（任务之间不能有依赖关系）

Reduce对map结果进行全局汇总

数据类型
MapReduce处理的数据类型是键值对

map: (k1;v1) --->(k2;v2)

reduce:(k2;[v2])-->(k3;v3)

特点
统一架构，隐藏底层细节

易于编程，良好的拓展性

实时计算性差不能进行流式计算

实例进程
MRAppMaster负责整个MR程序的过程调度及状态协调

MapTask负责map阶段的整个数据处理流程

ReduceTask负责reduce阶段的整个数据处理流程

阶段组成
一个MapReduce编程模型只能保护一个Map或Reduce

Map完必须是Reducer

Hadoop MapReduce官方示例
一个完整的MR程序用户自己编写的代码+Hadoop自己实现的代码

示例文件
示例程序路径/export/server/hadoop-3.3.0/share/hadoop/mapreduce/

实例程序hadoop-mapreduce-examples-3.3.0.jar

MapReduce程序提交命令[hadoop jar|yarn jar]hadoop-mapreduce-examples-3.3.0.jar(文件路径) arg(参数)

提交到YARN上运行

评估圆周率的值
jps看集群是否启动

hadoop jar hadoop-mapreduce-examples-3.3.0.jar（注意路径）pi 10 50

二三是撒点数（撒点法计算圆周率）

第一个参数pi计算圆周率

二指定map阶段运行的任务task次数，并发度

三每个map任务取样的个数

ordcount单词词频统计
实现思路

9870上传文件到input（自己创目录）

hadoop jar hadoop-mapreduce-examples-3.3.0.jar ordcount /input /output

输出输入路径

输出一个成功表示文件

reduce阶段执行流程
第一阶段ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据

二数据进行合并，对合并后的数据排序

三对排序后的键值对调用reduce方法，键相等的调用一次reduce方法把这些键值对写入HDFS文件中。

shuffle机制
46

YARN资源调度器Scheduler
在YARN中，负责给应用分配资源的就是Scheduler，它是ResourceManager的核心组件之一

三种调度器
FIFO Scheduler（先进先出调度器）

Capacity Scheduler（容量调度器）

Fair Scheduler（公平调度器）

Apache版本YARN默认使用Capacity Scheduler（可以在yarn-site.xml中的yarn.resourcemanager.scheduler.class进行修改配置）

FIFO Scheduler（先进先出调度器）
FIFO Scheduler是一个先进先出的思想，先提交的应用先运行

FIFO Scheduler拥有一个控制全局的队列queue，默认queue名称为default，该调度器会获取当前集群上所有的资源信息作用于这个全局的queue

Capacity Schedulere容量调度
允许多个组织共享整个集群资源每个组织可以获得集群的一部分计算能力。

通过为每个组织分配专门的队列，然后再为每个队列分配一定的集群资源

Fair Scheduler（公平调度器）
只有A 全给A

来了B 给B一半 B新增作业 B中分一半