hudi集群环境搭建（hudi+hadoop+spark+zk+kafka）

一、集群环境配置1.集群配置hostnameslave1slave2slave3ip192.168.100.164192.168.100.163192.168.100.162内存16G16G8Gusernmaerootrootroot安装常用工具yum install -y epel-releaseyum install -y net-toolsyum install -y vim2.集群常用脚本

xiamu17

3577人浏览 · 2022-03-26 17:37:34

xiamu17 · 2022-03-26 17:37:34 发布

一、集群环境配置

1.集群配置

hostname	slave1	slave2	slave3
ip	192.168.100.164	192.168.100.163	192.168.100.162
内存	16G	16G	8G
usernmae	root	root	root

安装常用工具

yum install -y epel-release
yum install -y net-tools 
yum install -y vim

2.集群常用脚本

用户bin目录下

2.1 集群分发脚本xsync

#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in slave1 slave2 slave3
do
#!/bin/bash
#1. 判断参数个数
if [ $# -lt 1 ]
then
  echo Not Enough Arguement!
  exit;
fi
#2. 遍历集群所有机器
for host in slave1 slave2 slave3
do
  echo ====================  $host  ====================
  #3. 遍历所有目录，挨个发送
  for file in $@
  do
    #4 判断文件是否存在
    if [ -e $file ]
    then
      #5. 获取父目录
      pdir=$(cd -P $(dirname $file); pwd)
      #6. 获取当前文件的名称
      fname=$(basename $file)
      ssh $host "mkdir -p $pdir"
      rsync -av $pdir/$fname $host:$pdir
    else
      echo $file does not exists!
    fi
  done
done

2.2 集群命令脚本xcall.sh

#! /bin/bash
 
for i in slave1 slave2 slave3
do
    echo --------- $i ----------
    ssh $i "$*"
done

2.3 群起hadoop集群脚本 hdp.sh

#!/bin/bash
if [ $# -lt 1 ]
then
    echo "No Args Input..."
    exit ;
fi
case $1 in
"start")
        echo " =================== 启动 hadoop集群 ==================="

        echo " --------------- 启动 hdfs ---------------"
        ssh slave1 "/opt/module/hadoop-2.7.3/sbin/start-dfs.sh"
        echo " --------------- 启动 yarn ---------------"
        ssh slave2 "/opt/module/hadoop-2.7.3/sbin/start-yarn.sh"
        echo " --------------- 启动 historyserver ---------------"
        ssh slave1 "/opt/module/hadoop-2.7.3/sbin/mr-jobhistory-daemon.sh start historyserver"
;;
"stop")
        echo " =================== 关闭 hadoop集群 ==================="

        echo " --------------- 关闭 historyserver ---------------"
        ssh slave1 "/opt/module/hadoop-2.7.3/sbin/mr-jobhistory-daemon.sh stop historyserverr"
        echo " --------------- 关闭 yarn ---------------"
        ssh slave2 "/opt/module/hadoop-2.7.3/sbin/stop-yarn.sh"
        echo " --------------- 关闭 hdfs ---------------"
        ssh slave1 "/opt/module/hadoop-2.7.3/sbin/stop-dfs.sh"
;;
*)
    echo "Input Args Error..."
;;
esac

2.4 群起zookeeper集群脚本zk.sh

#!/bin/bash

case $1 in
"start"){
	for i in slave1 slave2 slave3
	do
        echo ---------- zookeeper $i 启动 ------------
		ssh $i "/opt/module/zookeeper-3.4.6/bin/zkServer.sh start"
	done
};;
"stop"){
	for i in slave1 slave2 slave3
	do
        echo ---------- zookeeper $i 停止 ------------    
		ssh $i "/opt/module/zookeeper-3.4.6/bin/zkServer.sh stop"
	done
};;
"status"){
	for i in slave1 slave2 slave3
	do
        echo ---------- zookeeper $i 状态 ------------    
		ssh $i "/opt/module/zookeeper-3.4.6/bin/zkServer.sh status"
	done
};;
esac

2.5 群起kafka集群脚本kf.sh

#! /bin/bash

case $1 in
"start"){
    for i in slave1 slave2 slave3
    do
        echo " --------启动 $i Kafka-------"
        ssh $i "/opt/module/kafka_2.12-2.4.1/bin/kafka-server-start.sh -daemon /opt/module/kafka_2.12-2.4.1/config/server.properties"
    done
};;
"stop"){
    for i in slave1 slave2 slave3
    do
        echo " --------停止 $i Kafka-------"
        ssh $i "/opt/module/kafka_2.12-2.4.1/bin/kafka-server-stop.sh stop"
    done
};;
esac

3.环境配置

	slave1	slave2	slave3
HDFS	NameNode DataNode	DataNode	DataNode SecondaryNameNode
Yarn	NodeManager	Resourcemanager NodeManager	NodeManager
zk	zk	zk	zk
kafka	kafka	kafka	kafka

/opt/software ：软件压缩包

/opt/module ：解压后的软件

3.1 jdk和maven

vi /etc/profile.d/my_env.sh

#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin

#MAVEN_HOME
export MAVEN_HOME=/opt/module/maven-3.8.4
export PATH=$PATH:$MAVEN_HOME/bin

source /etc/profile.d/my_env.sh

3.2 hadoop2.7.3

3.2.1 HADOOP_HOME

vi /etc/profile.d/my_env.sh

#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

source /etc/profile.d/my_env.sh

3.2.1 core-site.xml

<configuration>
	<!-- 指定NameNode的地址 -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://slave1:8020</value>
</property>
<!-- 指定hadoop数据的存储目录 -->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/opt/module/hadoop-2.7.3/data</value>
</property>

<!-- 配置HDFS网页登录使用的静态用户为root -->
    <property>
        <name>hadoop.http.staticuser.user</name>
        <value>root</value>
</property>

<!-- 配置该root(superUser)允许通过代理访问的主机节点 -->
    <property>
        <name>hadoop.proxyuser.root.hosts</name>
        <value>*</value>
</property>
<!-- 配置该root(superUser)允许通过代理用户所属组 -->
    <property>
        <name>hadoop.proxyuser.root.groups</name>
        <value>*</value>
</property>
<!-- 配置该root(superUser)允许通过代理的用户-->
    <property>
        <name>hadoop.proxyuser.root.users</name>
        <value>*</value>
</property>
</configuration>

3.2.2 hdfs-site.xml

<configuration>
	<!-- nn web端访问地址-->
	<property>
        <name>dfs.namenode.http-address</name>
        <value>slave1:9870</value>
    </property>
    
	<!-- 2nn web端访问地址-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>slave3:9868</value>
    </property>
    
    <!-- 测试环境指定HDFS副本的数量3 -->
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
</configuration>

3.2.3 yarn-site.xml

<configuration>
	<!-- 指定MR走shuffle -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    
    <!-- 指定ResourceManager的地址-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>slave2</value>
    </property>
    
    <!-- 环境变量的继承 -->
    <property>
        <name>yarn.nodemanager.env-whitelist</name>
        <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
    </property>
    
    <!-- yarn容器允许分配的最大最小内存 -->
    <property>
        <name>yarn.scheduler.minimum-allocation-mb</name>
        <value>512</value>
    </property>
    <property>
        <name>yarn.scheduler.maximum-allocation-mb</name>
        <value>4096</value>
    </property>
    
    <!-- yarn容器允许管理的物理内存大小 -->
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>4096</value>
    </property>
    
    <!-- 关闭yarn对虚拟内存的限制检查 -->
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
    <!-- 开启日志聚集功能 -->
    <property>
        <name>yarn.log-aggregation-enable</name>
        <value>true</value>
    </property>

    <!-- 设置日志聚集服务器地址 -->
    <property>  
        <name>yarn.log.server.url</name>  
        <value>http://slave1:19888/jobhistory/logs</value>
    </property>

    <!-- 设置日志保留时间为7天 -->
    <property>
        <name>yarn.log-aggregation.retain-seconds</name>
        <value>604800</value>
    </property>
</configuration>

3.2.4 mapred-site.xml

<configuration>
	<!-- 指定MapReduce程序运行在Yarn上 -->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <!-- 历史服务器端地址 -->
	<property>
   	 	<name>mapreduce.jobhistory.address</name>
   	 	<value>slave1:10020</value>
	</property>
<!-- 历史服务器web端地址 -->
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>slave1:19888</value>
    </property>	
</configuration>

3.2.5 workers

slave1
slave2
slave3

3.2.6 hadoop-env.sh

export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

启动前格式化namenode

$HADOOP_HOME/bin/hdfs namenode -format

关闭防火墙

systemctl stop firewalld

在slave2开启节点均衡计划

$HADOOP_HOME/sbin/start-balancer.sh -threshold 10
stop-balancer.sh

3.2.7 启动测试

http://slave1:9870

http://slave2:8088

http://slave1:19888

3.3 hudi0.9

上传并解压hudi安装包

hudi测试启动

./hudi-cli/hudi-cli.sh

配置完进行集群分发

3.4 spark3.0.0

3.4.1 scala2.12.0

#SCALA_HOME
export SCALA_HOME=/opt/module/scala-2.12.10
export PATH=$PATH:$SCALA_HOME/bin

#SPARK_HOME
export SPARK_HOME=/opt/module/spark-3.0.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

3.4.2 spark_env.sh

export JAVA_HOME=/opt/module/jdk1.8.0_212
export SCALA_HOME=/opt/module/scala-2.12.10

3.4.3 测试启动

$SPARK_HOME/bin/spark-shell --master local[2]

3.4.4 spark集成hudi

1）上传相关jar包至/root/hudi-jars

2）启动spark

$SPARK_HOME/bin/spark-shell \
--master local[2] \
--jars /root/hudi-jars/hudi-spark3-bundle_2.12-0.9.0.jar,\
/root/hudi-jars/spark_unused-1.0.0.jar,/root/hudi-jars/spark-avro_2.12-3.0.1.jar \
--conf "spark.serializer=org.apache.spark.serializer.KryoSerializer"

配置完进行集群分发

3.5 zookerper3.4.6

上传解压至/opt/module

3.5.1 环境变量

#ZOOKERPER_HOME
export ZOOKERPER_HOME=/opt/module/zookeeper-3.4.6
export PATH=$PATH:$ZOOKERPER_HOME/bin

3.5.2 配置服务器编号

zookeeper目录下

mkdir zkData
#在zkData目录内
vim myid
1

注意集群每个都需要配编号，分别为1、2、3

3.5.3 zoo.cfg

dataDir=/opt/module/zookeeper-3.4.6/zkData

server.1=slave1:2888:3888
server.2=slave2:2888:3888
server.3=slave3:2888:3888

配置完进行集群分发

3.5.4 测试

zk.sh start
zk.sh status

3.6 kafka2.12

3.6.1 环境变量

#KAFKA_HOME
export KAFKA_HOME=/opt/module/kafka_2.12-2.4.1
export PATH=$PATH:$KAFKA_HOME/bin

3.6.2 server.properties

kafka目录下

mkdir logs
vim server.properties

修改或者增加以下内容：
#broker的全局唯一编号，不能重复
broker.id=0
#删除topic功能使能
delete.topic.enable=true
#kafka运行日志存放的路径
log.dirs=/opt/module/kafka_2.12-2.4.1/data
#配置连接Zookeeper集群地址
zookeeper.connect=slave1,slave2,slave3:2181/kafka

注意修改其他服务器的broker.id

3.6.3启动测试

kf.sh start

Kafka开源项目指南

Kafka开源项目指南提供详尽教程，助开发者掌握其架构、配置和使用，实现高效数据流管理和实时处理。它高性能、可扩展，适合日志收集和实时数据处理，通过持久化保障数据安全，是企业大数据生态系统的核心。

更多推荐

Kafka入门（一）概述、部署与API的简单使用

Kafka概述、部署与API的简单使用

Kafka开源项目指南

基于canal和kafka同步，实现binlog同步ElasticSearch

文章目录前言elasticsearch 安装canal安装canal-adapter 安装及配置mysql 安装zk及kafaka安装查看效果注意事项前言中间件版本elasticsearch7.5.2canal1.1.4client-adapter1.1.5-alpha-1zookeeper3.4.13kafka2.6.0mysql5.7.31elasticsearch 安装{"settings"

Kafka开源项目指南

基于 Iceberg 的湖仓一体架构在 B 站的实践

背景在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。我们之前的数据处理流程基本上是这样的：采集端将客户端埋点、服务端埋点、日志、业务数据库等数据收集到HDFS、Kafka等存储系统中，然后通过Hive、Spark、Fl...