Hadoop 完全分布式搭建 -- IDEA、Spark3.1.3、Flink1.12.2

前景提要

部署安装 IDEA、Spark、Flume,同时安装 Spark 环境所需要的 Scala

系统环境

三台 Centos7 系统的主机

一台 master 节点,两台 slave 节点,分别为 slave1、slave2

Hadoop 完全分布式集群

所需安装包

ideaIC-2021.3.2.tar.gz

1
https://www.jetbrains.com/idea/download/other.html

scala-2.11.12.tgz

1
https://www.scala-lang.org/download/2.11.12.html

spark-3.1.3-bin-hadoop3.2.tgz

1
https://archive.apache.org/dist/spark/spark-3.1.3/spark-3.1.3-bin-hadoop3.2.tgz

flink-1.12.2-bin-scala_2.12.tgz

1
https://archive.apache.org/dist/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.12.tgz

1、安装 IDEA

1)解压 IDEA 压缩包

1
2
3
# 默认 IDEA 已在 /tdsgpo 文件夹
[root@master ~]cd /tdsgpo
[root@master tdsgpo]sudo tar -zxvf ideaIC-2021.3.2.tar.gz

2)启动 IDEA

1
2
[root@master tdsgpo]cd /tdsgpo/idea-IC-213.6777.52/bin
[root@master bin]sh idea.sh

2、安装 Scala

1)解压 Scala 压缩包

1
2
3
4
5
6
7
8
9
10
# 默认 Scala  已在 /tdsgpo 文件夹,三台主机都需配置
[root@master bin]cd /tdsgpo/
[root@master tdsgpo]sudo tar -zxvf scala-2.12.10.tgz
# 配置环境变量
[root@master tdsgpo]sudo vim /etc/profile
## 按下 i 键输入以下内容
export SCALA_HOME=/tdsgpo/scala-2.12.10
export PATH=$PATH:$SCALA_HOME/bin
# 刷新环境变量
[root@master tdsgpo]source /etc/profile

3、安装 Spark

1)解压 Spark 压缩包

1
2
3
4
5
6
7
8
9
10
11
# 默认 Spark   已在 /tdsgpo 文件夹,三台主机都需要配置安装
[root@master tdsgpo]sudo tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz
# 更换文件夹名称
[root@master tdsgpo]mv spark-3.1.3-bin-hadoop3.2 /tdsgpo/spark-3.1.3
# 配置环境变量
[root@master tdsgpo]sudo vim /etc/profile
## 按下 i 键输入以下内容
export SPARK_HOME=/tdsgpo/spark-3.1.3
export PATH=$PATH:$SPARK_HOME/bin
# 刷新环境变量
[root@master tdsgpo]source /etc/profile

2)配置 slaves

1
2
3
4
5
[root@master tdsgpo]sudo vim /tdsgpo/spark-3.1.3 /conf/slaves
## 按下 i 键输入以下内容,输入的为三台主机名称
master
slave1
slave2

3)配置 spark-env.sh

1
2
3
4
5
6
7
8
9
10
11
[root@master tdsgpo]sudo vim /tdsgpo/spark-3.1.3/conf/spark-env.sh
## 按下 i 键输入以下内容,输入的为三台主机名称,注意 master 的主机名称
export SPARK_MASTER_HOST=master
SPARK_MASTER_WEBUI_PORT=8081
export SPARK_WORKER_MEMORY=512m
export SPARK_EXECUTOR_MEMORY=512m
#拷贝,在此步骤之前需要完成三台主机的 shh 免密登录以及 hosts 配置,这两步详情请参照我的 《Hadoop 完全分布式搭建及基础环境配置》这篇文章。如果不想配置则可以直接将 slave1、slave2 改成主机的 ip 地址
[root@master tdsgpo]scp /tdsgpo/spark-3.1.3 slave1:/tdsgpo
[root@master tdsgpo]scp /tdsgpo/spark-3.1.3 slave2:/tdsgpo
# 设置文件夹权限为所有人可用
[root@master tdsgpo]sudo chown -R 777 /tdsgpo/spark-3.1.3

4)启动 Spark 集群

1
2
3
4
5
6
7
8
9
10
11
# 在 master 主机打开新窗口
[root@master ~]cd /tdsgpo/spark-3.1.3/sbin
[root@master sbin]./start-master.sh
[root@master sbin]./start-slave.sh spark://master:7077
# 在 slave1、slave2 主机打开新窗口
[root@master ~]cd /tdsgpo/spark-3.1.3/sbin
[root@master sbin]./start-slave.sh spark://master:7077
# 查看集群启动情况,输入 jps 查看到 worker 进程即可
[root@master sbin]jps
2314 Worker
2341 Jps

1)解压 Spark 压缩包

1
2
3
4
# 默认 Spark   已在 /tdsgpo 文件夹,三台主机都需要配置安装
[root@master ~]cd /tdsgpo/
[root@master tdsgpo]sudo tar -zxvf flink-1.12.2-bin-scala_2.12.tgz

1
2
3
4
5
6
7
8
9
[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/flink-conf.yaml 
## 按下 i 键输入或则修改以下内容
jobmanager.rpc.address: hadoop-master
jobmanager.rpc.port: 6123
jobmanager.heap.size: 1024m
taskmanager.memory.process.size: 1024m
taskmanager.numberOfTaskSlots: 2
parallelism.default: 1
[root@master tdsgpo]

3)配置 masters

1
2
3
[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/masters
## 按下 i 键输入以下内容,需要注意这里我配置的端口号会跟 Spark 的端口号冲突,这里如果 Spark 是启动状态的话要么停止 Spark 集群,要么更改下面 8081 的端口.
master:8081

4)配置 slaves

1
2
3
4
5
[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/slaves
## 按下 i 键输入以下内容
master
slave1
slave2

5)配置 workers

1
2
3
4
5
[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/workers
## 按下 i 键输入以下内容
master
slave1
slave2
1
2
3
4
5
#在此步骤之前需要完成三台主机的 shh 免密登录以及 hosts 配置,这两步详情请参照我的 《Hadoop 完全分布式搭建及基础环境配置》这篇文章。如果不想配置则可以直接将 slave1、slave2 改成主机的 ip 地址
[root@master tdsgpo]scp -r /tdsgpo/flink-1.12.2 slave1:/tdsgpo/
[root@master tdsgpo]scp -r /tdsgpo/flink-1.12.2 slave2:/tdsgpo/
# 在三台主机里面都执行以下语句
[root@master tdsgpo]sudo chown -R 777 /tdsgpo/flink-1.12.2/
1
2
[root@master tdsgpo]cd /tdsgpo/flink-1.12.2/
[root@master flink-1.12.2]./bin/start-cluster.sh

下篇文章我们讲解在 Hadoop 完全分布式集群里面搭建 IDEA 代码编辑器以及集成 Sqoop、Flume、Kafka。


Hadoop 完全分布式搭建 -- IDEA、Spark3.1.3、Flink1.12.2
https://tdsgpo.top/2022/10/13/Hadoop 完全分布式搭建 -- IDEA、Spark3.1.3、Flink1.12.2/
作者
DDS
发布于
2022年10月13日
许可协议