目录

本文为《Spark大型电商项目实战》 系列文章之一,主要介绍在之前集群环境的基础上安装kafka的详细过程。

实验环境

scala 版本:scala-2.11.4
kafka 版本:kafka-2.9.2-0.8.1

*本实验项目所需软件均可在百度网盘链接:http://pan.baidu.com/s/1dFeNR6h 密码:1zx4 中获取。

安装scala

上传scala文件到/usr/local目录下

解压

tar -zxvf scala-2.11.4.tgz

删除源文件

rm –rf scala-2.11.4.tgz

重命名

mv scala-2.11.4 scala

配置环境变量

vi ~/.bashrc
export SCALA_HOME=/usr/local/scala
export PATH=$SCALA_HOME/bin

配置生效

source ~/.bashrc

查看scala是否安装成功

scala -version

部署kafka集群

使用scpscala.bashrc文件拷贝到另外两台机器上

scp -r scala root@sparkproject2:/usr/local
scp -r scala root@sparkproject3:/usr/local

scp ~/.bashrc root@sparkproject2:~/
scp ~/.bashrc root@sparkproject3:~/

sparkproject2sparkproject3中分别执行

scala -version

安装kafka

上传 kafka 文件到/usr/local目录下

解压

tar -zxvf kafka_2.9.2-0.8.1.tgz

删除源文件

rm -rf kafka_2.9.2-0.8.1.tgz

配置文件

cd kafka/config
vi server.properties

broker.id为0,sparkproject2中为1,sparkproject3中为2

zookeeper.connect=192.168.1.102:2181,192.168.1.103:2181,192.168.1.104:2181

这里根据三台机器实际ip地址设置
这里写图片描述

上传slf4j文件
slf4j-nop-1.7.6.jar上传到kafka的libs目录下面.

搭建kafka集群

用scp把kafka拷贝到sparkproject2sparkproject3

cd /usr/local
scp -r kafka root@sparkproject2:/usr/local
scp -r kafka root@sparkproject3:/usr/local

sparkproject2sparkproject3中修改server.properties文件
broker.id分别设置为12

vi /usr/local/kafka/config/server.properties

启动kafka集群

首先解决kafka Unrecognized VM option ‘UseCompressedOops’问题

vi /usr/local/kafka/bin/kafka-run-class.sh 
if [ -z "$KAFKA_JVM_PERFORMANCE_OPTS" ]; then
  KAFKA_JVM_PERFORMANCE_OPTS="-server  -XX:+UseCompressedOops -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+CMSClassUnloadingEnabled -XX:+CMSScavengeBeforeRemark -XX:+DisableExplicitGC -Djava.awt.headless=true"
fi

去掉-XX:+UseCompressedOops即可

在三台机器上的kafka目录下,分别执行以下命令

nohup bin/kafka-server-start.sh config/server.properties &

出现以下提示后回车即可
这里写图片描述

查看状态

cat nohup.out

这里写图片描述

这里写图片描述

这里写图片描述
在三个节点上分别显示如上信息说明kafka已经启动成功。

本文为《Spark大型电商项目实战》系列文章之一。
更多文章:Spark大型电商项目实战:http://blog.csdn.net/u012318074/article/category/6744423

Logo

Kafka开源项目指南提供详尽教程,助开发者掌握其架构、配置和使用,实现高效数据流管理和实时处理。它高性能、可扩展,适合日志收集和实时数据处理,通过持久化保障数据安全,是企业大数据生态系统的核心。

更多推荐