Hadoop 完全分布式搭建 -- IDEA、Spark3.1.3、Flink1.12.2

前景提要

部署安装 IDEA、Spark、Flume，同时安装 Spark 环境所需要的 Scala

系统环境

三台 Centos7 系统的主机

一台 master 节点，两台 slave 节点，分别为 slave1、slave2

Hadoop 完全分布式集群

所需安装包

ideaIC-2021.3.2.tar.gz

1	`https://www.jetbrains.com/idea/download/other.html`

scala-2.11.12.tgz

1	`https://www.scala-lang.org/download/2.11.12.html`

spark-3.1.3-bin-hadoop3.2.tgz

1	`https://archive.apache.org/dist/spark/spark-3.1.3/spark-3.1.3-bin-hadoop3.2.tgz`

flink-1.12.2-bin-scala_2.12.tgz

1	`https://archive.apache.org/dist/flink/flink-1.12.2/flink-1.12.2-bin-scala_2.12.tgz`

1、安装 IDEA

1）解压 IDEA 压缩包

1
2
3

# 默认 IDEA 已在 /tdsgpo 文件夹
[root@master ~]cd /tdsgpo
[root@master tdsgpo]sudo tar -zxvf ideaIC-2021.3.2.tar.gz

2）启动 IDEA

1 2	`[root@master tdsgpo]cd /tdsgpo/idea-IC-213.6777.52/bin [root@master bin]sh idea.sh`

2、安装 Scala

1）解压 Scala 压缩包

# 默认 Scala  已在 /tdsgpo 文件夹，三台主机都需配置
[root@master bin]cd /tdsgpo/
[root@master tdsgpo]sudo tar -zxvf scala-2.12.10.tgz
# 配置环境变量
[root@master tdsgpo]sudo vim /etc/profile
## 按下 i 键输入以下内容
export SCALA_HOME=/tdsgpo/scala-2.12.10
export PATH=$PATH:$SCALA_HOME/bin
# 刷新环境变量
[root@master tdsgpo]source /etc/profile

3、安装 Spark

1）解压 Spark 压缩包

# 默认 Spark   已在 /tdsgpo 文件夹，三台主机都需要配置安装
[root@master tdsgpo]sudo tar -zxvf spark-3.1.3-bin-hadoop3.2.tgz
# 更换文件夹名称
[root@master tdsgpo]mv spark-3.1.3-bin-hadoop3.2 /tdsgpo/spark-3.1.3 
# 配置环境变量
[root@master tdsgpo]sudo vim /etc/profile
## 按下 i 键输入以下内容
export SPARK_HOME=/tdsgpo/spark-3.1.3 
export PATH=$PATH:$SPARK_HOME/bin
# 刷新环境变量
[root@master tdsgpo]source /etc/profile

2）配置 slaves

[root@master tdsgpo]sudo vim /tdsgpo/spark-3.1.3 /conf/slaves
## 按下 i 键输入以下内容，输入的为三台主机名称
master
slave1
slave2

3）配置 spark-env.sh

[root@master tdsgpo]sudo vim /tdsgpo/spark-3.1.3/conf/spark-env.sh
## 按下 i 键输入以下内容，输入的为三台主机名称，注意 master 的主机名称
export SPARK_MASTER_HOST=master
SPARK_MASTER_WEBUI_PORT=8081
export SPARK_WORKER_MEMORY=512m
export SPARK_EXECUTOR_MEMORY=512m
#拷贝,在此步骤之前需要完成三台主机的 shh 免密登录以及 hosts 配置，这两步详情请参照我的 《Hadoop 完全分布式搭建及基础环境配置》这篇文章。如果不想配置则可以直接将 slave1、slave2 改成主机的 ip 地址
[root@master tdsgpo]scp /tdsgpo/spark-3.1.3 slave1:/tdsgpo
[root@master tdsgpo]scp /tdsgpo/spark-3.1.3 slave2:/tdsgpo
# 设置文件夹权限为所有人可用
[root@master tdsgpo]sudo chown -R 777 /tdsgpo/spark-3.1.3

4）启动 Spark 集群

# 在 master 主机打开新窗口
[root@master ~]cd /tdsgpo/spark-3.1.3/sbin
[root@master sbin]./start-master.sh
[root@master sbin]./start-slave.sh spark://master:7077
# 在 slave1、slave2 主机打开新窗口
[root@master ~]cd /tdsgpo/spark-3.1.3/sbin
[root@master sbin]./start-slave.sh spark://master:7077
# 查看集群启动情况，输入 jps 查看到 worker 进程即可
[root@master sbin]jps
2314 Worker
2341 Jps

4、安装 Flink

1）解压 Spark 压缩包

# 默认 Spark   已在 /tdsgpo 文件夹，三台主机都需要配置安装
[root@master ~]cd /tdsgpo/
[root@master tdsgpo]sudo tar -zxvf flink-1.12.2-bin-scala_2.12.tgz

2）配置 flink-conf.yaml

[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/flink-conf.yaml 
## 按下 i 键输入或则修改以下内容
jobmanager.rpc.address: hadoop-master   
jobmanager.rpc.port: 6123
jobmanager.heap.size: 1024m   
taskmanager.memory.process.size: 1024m
taskmanager.numberOfTaskSlots: 2
parallelism.default: 1
[root@master tdsgpo]

3）配置 masters

1
2
3

[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/masters
## 按下 i 键输入以下内容，需要注意这里我配置的端口号会跟 Spark 的端口号冲突，这里如果 Spark 是启动状态的话要么停止 Spark 集群，要么更改下面 8081 的端口.
master:8081

4）配置 slaves

[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/slaves
## 按下 i 键输入以下内容
master
slave1
slave2

5）配置 workers

[root@master tdsgpo]sudo vim /tdsgpo/flink-1.12.2/conf/workers
## 按下 i 键输入以下内容
master
slave1
slave2

6）拷贝 flink 文件夹到两台从节点

#在此步骤之前需要完成三台主机的 shh 免密登录以及 hosts 配置，这两步详情请参照我的 《Hadoop 完全分布式搭建及基础环境配置》这篇文章。如果不想配置则可以直接将 slave1、slave2 改成主机的 ip 地址
[root@master tdsgpo]scp -r /tdsgpo/flink-1.12.2 slave1:/tdsgpo/
[root@master tdsgpo]scp -r /tdsgpo/flink-1.12.2 slave2:/tdsgpo/
# 在三台主机里面都执行以下语句
[root@master tdsgpo]sudo chown -R 777 /tdsgpo/flink-1.12.2/

7）启动 flink 集群

1 2	`[root@master tdsgpo]cd /tdsgpo/flink-1.12.2/ [root@master flink-1.12.2]./bin/start-cluster.sh`

下篇文章我们讲解在 Hadoop 完全分布式集群里面搭建 IDEA 代码编辑器以及集成 Sqoop、Flume、Kafka。

服务器 > 大数据

#Centos7 #Hadoop #Spark #Scala #Flink

Hadoop 完全分布式搭建 -- IDEA、Spark3.1.3、Flink1.12.2

https://tdsgpo.top/2022/10/13/Hadoop 完全分布式搭建 -- IDEA、Spark3.1.3、Flink1.12.2/

作者

DDS

发布于

2022年10月13日

许可协议

Java DAF 有穷自动机算法算法实现敏感词检测上一篇

Hadoop 完全分布式搭建 -- Hive3.1.2 数据仓库、Zookeeper3.5.7 安装部署下一篇