spark on yarn 完全分部署_Spark部署三种方式介绍:YARN模式、Standalone模式、HA模式...

news/2024/7/5 20:57:50

1.Yarn模式由谁来作为客户端提交作业给YARN?

2.SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/sbt assembly的作用是什么?

3.Standalone 模式dist目录的作用是什么?

4.recoveryDirectory最好是能够使用一个nfs的原因是什么?

Spark的部署让人有点儿困惑,有些需要注意的事项,本来我已经装成功了YARN模式的,但是发现了一些问题,出现错误看日志信息,完全看不懂那个错误信息,所以才打算翻译Standalone的部署的文章。第一部分,我先说一下YARN模式的部署方法。第二部分才是Standalone的方式。

我们首先看一下Spark的结构图,和hadoop的差不多。

652e5ef6f6fb524e923941db976e1340.png

1.YARN模式

采用Yarn模式的话,其实就是把spark作为一个客户端提交作业给YARN,实际运行程序的是YARN,就不需要部署多个节点,部署一个节点就可以了。

把从官网下载的压缩包在linux下解压之后,进入它的根目录,没有安装git的,先执行yum install git安装git

1)运行这个命令: SPARK_HADOOP_VERSION=2.2.0 SPARK_YARN=true ./sbt/sbt assembly

就等着吧,它会下载很多jar包啥的,这个过程可能会卡死,卡死的就退出之后,重新执行上面的命令。

2)编辑conf目录下的spark-env.sh(原来的是.template结尾的,cp一份命名为spark-env.sh),添加上HADOOP_CONF_DIR参数

3)运行一下demo看看,能出结果 Pi is roughly 3.13794

aeb154770a3ba5bd405f2b363cf8adce.gif
aeb154770a3ba5bd405f2b363cf8adce.gif

2.Standalone模式

下面我们就讲一下怎么部署Standalone,参考页面是http://spark.incubator.apache.or ... ark-standalone.html。

这里我们要一个干净的环境,刚解压出来的,运行之前的命令的时候不能再用了,会报错的。

1)打开make-distribution.sh,修改SPARK_HADOOP_VERSION=2.2.0,然后执行./make-distribution.sh, 然后会生成一个dist目录,这个目录就是我们要部署的内容。官方推荐是先把master跑起来,再部署别的节点,大家看看bin目录下面的脚本,和hadoop的差不多的。行,那就先启动master,执行

2)部署dist的目录到各个节点,然后通过这个命令来连接master节点

3)然后在主节点查看一下http://localhost:8080 ,查看一下子节点是否在这里,如果在,就说明连接成功了。

4) 部署成功之后,想要在上面部署程序的话,在执行./spark-shell的时候,要加上MASTER这个参数。

3.High Alailability(高可用)

Spark采用Standalone模式的话,Spark本身是一个master/slaves的模式,这样就会存在单点问题,Spark采用的是zookeeper作为它的active-standby切换的工具,设置也很简单。一个完整的切换需要1-2分钟的时间,这个时候新提交的作业会受到影响,之前提交到作业不会受到影响。

在spark-env.sh添加以下设置:

aeb154770a3ba5bd405f2b363cf8adce.gif
aeb154770a3ba5bd405f2b363cf8adce.gif

这里就有一个问题了,集群里面有多个master,我们连接的时候,连接谁?用过hbase的都知道是先连接的zookeeper,但是Spark采用的是另外的一种方式,如果我们有多个master的话,实例化SparkContext的话,使用spark://host1:port1,host2:port2这样的地址,这样它会同时注册两个,一个失效了,还有另外一个。

如果不愿意配置高可用的话,只是想失败的时候,再恢复一下,重新启动的话,那就使用FILESYSTEM的使用,指定一个目录,把当前的各个节点的状态写入到文件系统。

当 stop-master.sh来杀掉master之后,状态没有及时更新,再次启动的时候,会增加一分钟的启动时间来等待原来的连接超时。

recoveryDirectory最好是能够使用一个nfs,这样一个master失败之后,就可以启动另外一个master了。


http://www.niftyadmin.cn/n/3879809.html

相关文章

.NET中的设计模式四:命令模式 选择自 lane_cn 的 Blog

命令模式(Command)结构并不复杂,简单的说,就是将某些职责封装成对象,对象的激发者(Invoker)和接收者(Reciever)都不过问命令的执行过程。用这样的方式解除了激发者和接受…

感怀

去年岁尽今年头;由来欢娱化作愁;心系一人千里外;加勒比海未成游。转载于:https://blog.51cto.com/gooltsing/1657506

.NET中的设计模式三:组合模式 选择自 lane_cn 的 Blog

组合模式(Composite)是一种“结构型”模式(Structural)。结构型模式涉及的对象为两个或两个以上,表示对象之间的活动,与对象的结构有关。 先举一个组合模式的小小例子: 如图:系统中…

pl/sql中在where in()子句里怎么使用字符串变量来传递查询条件?

CSDN - 专家门诊 - 主  题:请问pl/sql中在where in()子句里怎么使用字符串变量来传递查询条件?作  者:web_gus (penny) 信 誉 值:100所属论坛:Oracle 开发问题点数:100回复次数…

使用.INI文件为输入界面创建“动态帮助” 选择自 trnbo 的 Blog

在c#编程中,某些情况下我们可能还会用到.INI文件。例如为一个输入界面创建“动态帮助”:我们在输入界面下方设置一个标签,当用户将光标移动到每一个TextBox或其他输入,选择框时,标签文字自动变换为该输入项的一些帮助信…

C#中的类型转换 选择自 sxqyj 的 Blog

C# 出来也有些日子了,最近由于编程的需要,对 C# 的类型转换做了一些研究,其内容涉及 C# 的装箱/拆箱/别名、数值类型间相互转换、字符的 ASCII 码和 Unicode 码、数值字符串和数值之间的转换、字符串和字符数组/字节数组之间的转换、各种数值…

declare sql语句_Sql Server中孤立的SQL用户查找和删除

问题最近公司很多数据库在上云,也有一部分在下云。这期间出现了很多问题,其中一个比较恶心的问题就是“孤立用户”。当数据库备份还原以后用以前的用户发现不能登录。一开始以为是登录账号没有创建,然后重新创建登录账号,然后再授…

Hook钩子攻略 选择自 Gongnanpi 的 Blog

一。写在最前本文的内容只想以最通俗的语言说明钩子的使用方法,具体到钩子的详细介绍可以参照下面的网址: http://www.microsoft.com/china/community/program/originalarticles/techdoc/hook.mspx二。了解一下钩子 从字面上理解,钩子就是想钩…