当前位置:首页 > 技术类 > 正文内容

windows10环境下搭建spark on yarn源码调试环境

lmwmm3个月前 (03-13)技术类231

    spark 3.0.0版本刚出炉,官方称相比2.4版本,性能提升了2倍。考虑到生产环境下 spark on yarn的模式居多,本文在Windows10环境下,搭建spark on yarn的源码阅读调试环境。使得最新功能能够以最快的速度反哺生产环境,进一步提升线上性能。spark3.0的最新功能可以参考官方博客内容:https://databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html

依赖工具

1.jdk 1.8

2.scala 2.12

3.maven 3.6

4.IDEA

5.winutils.exe (对应hadoop版本2.9.2)

6.hadoop (2.9.2)

7.spark3.0

步骤

    winutils.exe是在Windows系统上需要的hadoop调试环境工具,里面包含一些在Windows系统下调试hadoop、spark所需要的基本的工具类,另外在使用eclipse调试hadoop程序时,也需要winutils.exe 。下载地址:https://github.com/steveloughran/winutils 下载后的winutils.exe放到HADOOP_HOME/bin目录下。

设置hadoop环境变量

在系统变量path里增加%HADOOP_HOME%\bin

windows10环境下搭建spark on yarn源码调试环境

下载spark源码

在spark官方网站下载spark源码:https://spark.apache.org/

下载后进行解压,进入源码根路径,因为想要调试在yarn下和kubernetes下的资源调度流程,设置yarn 和kubernetes选项:

./build/mvn -Pyarn -Dhadoop.version=2.9.2 -Phive -Phive-thriftserver -Pkubernetes -DskipTests clean package

windows10环境下搭建spark on yarn源码调试环境

耐心等待半个小时左右。编译结果如下

windows10环境下搭建spark on yarn源码调试环境

将编译后的代码导入IDEA

用git bash以管理员身份运行build/spark-build-info 用以生成spark-version-info.properties文件 build/spark-build-info D:\opensource\spark-3.0.0\core\target\extra-resources\ 3.0.0 将生成的spark-version-info.properties文件复制到spark-core_2.12-3.0.0.jar的根目录下。(复制之前先检查根目录下是否存在spark-version-info.properties,不存在再复制)在conf目录下复制log4j.properties.template,重命名为log4j.properties将spark\assembly\target\scala-2.12\jars目录下的所有jar包添加到classpath中。

windows10环境下搭建spark on yarn源码调试环境

运行JavaLogQuery示例代码:

windows10环境下搭建spark on yarn源码调试环境

本地运行的方式调试成功。接下来配置调试spark on yarn 的方式。

首先启动hadoop单点服务,启动namenode,datanode,yarn.

首先通过start-dfs.cmd和start-yarn.cmd启动hadoop环境.

windows10环境下搭建spark on yarn源码调试环境

windows10环境下搭建spark on yarn源码调试环境

yarn

windows10环境下搭建spark on yarn源码调试环境

我们仍然以JavaLogQuery为例,设置相关的启动参数。

windows10环境下搭建spark on yarn源码调试环境

运行

windows10环境下搭建spark on yarn源码调试环境

查看yarn的web界面

windows10环境下搭建spark on yarn源码调试环境

之后我们可以从SparkSubmit.scala为入口,设置断点进行debug跟读了。


本篇文章来源于微信公众号:                 大数据技术圈

windows10

    扫描二维码推送至手机访问。

    版权声明:本文由点度点度金讯时代-BLOG发布,如需转载请注明出处。

    本文链接:https://www.lmwmm.com/post/601.html

    标签: windows10
    分享给朋友:

    “windows10环境下搭建spark on yarn源码调试环境” 的相关文章

    如何用微信小程序,每天给自己赚个鸡腿?

    如何用微信小程序,每天给自己赚个鸡腿?

    话说:谁不想拥有一个自己的小程序呢?既可以赚点小钱又可以长长见识。不懂小程序的小白能不能做出来呢?那来对了,这个教程就是针对小白的。今天决定把方法开源出来,包括小程序从注册到上架,还有怎么起名能带来自然流量,及收益从哪里来!申请账号百度搜索...

    【树莓派基础系列教程】1、配置和初始化树莓派

    【树莓派基础系列教程】1、配置和初始化树莓派

    从这周开始,给新手朋友们发布一些树莓派的基础教程~今天是第一课,简单介绍一下什么是树莓派,以及拿到树莓派后第一件要做的事情——配置和初始化树莓派! 什么是树莓派 树莓派的简介,看这里:树莓派是什么?能吃吗 树莓派基础外观图 树莓派外设图树莓...

    苹果电脑MacBook使用谷歌浏览器翻译的方法

    苹果电脑MacBook使用谷歌浏览器翻译的方法

    自从上次写了《解决Chrome浏览器翻译无法使用》,有不少苹果MacBook电脑的用户加我微信,咨询我怎么在MacBook上正常使用谷歌翻译的方法,下面就详细说明一下。谷歌翻译终于退出中国,访问原本谷歌翻译的本地化域名,会提示收藏新的网址,...

    谷歌CEO要求全员测试Bard AI聊天机器人

    谷歌CEO要求全员测试Bard AI聊天机器人

    2月16日早间消息,据报道,当地时间周三,谷歌母公司Alphabet CEO桑达尔·皮查伊发送内部备忘录,要求谷歌员工贡献2至4个小时,帮助该公司改善其人工智能(AI)聊天机器人Bard。这封邮件称,谷歌目前急需采取行动,赢得下一代AI搜索...

    曾经比快播还火的 App,竟然又复活了。。

    曾经比快播还火的 App,竟然又复活了。。

    此前,微博话题“有哪些曾经很火,但消失了的APP”引发广大网友热议,有很多网友提到了“音悦台”.经过漫长的等待,音悦台终于要回归了!据音悦台官方透露,它们的产品已经开始内测,并即将推出,“我们曾经很火,但是并没有消失只是冬眠了…”今日,音悦...

    重大突破,电脑能用鸿蒙系统了!

    重大突破,电脑能用鸿蒙系统了!

    近年来,“缺芯少魂”带来的卡脖子危机为众多行业敲响警钟,我们必须加快国产操作系统替代研发进程.可喜的是,随着国内操作系统市场快速增长以及政策投入力度的加大,国产操作系统正逐渐实现从无到有、从“可用”到“好用”的跨越式发展。同时,一批极具竞争...