当前位置:首页 > 技术分享 > 正文内容

windows10环境下搭建spark on yarn源码调试环境

lmwmm3年前 (2023-03-13)技术分享3053

    spark 3.0.0版本刚出炉,官方称相比2.4版本,性能提升了2倍。考虑到生产环境下 spark on yarn的模式居多,本文在Windows10环境下,搭建spark on yarn的源码阅读调试环境。使得最新功能能够以最快的速度反哺生产环境,进一步提升线上性能。spark3.0的最新功能可以参考官方博客内容:https://databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html

依赖工具

1.jdk 1.8

2.scala 2.12

3.maven 3.6

4.IDEA

5.winutils.exe (对应hadoop版本2.9.2)

6.hadoop (2.9.2)

7.spark3.0

步骤

    winutils.exe是在Windows系统上需要的hadoop调试环境工具,里面包含一些在Windows系统下调试hadoop、spark所需要的基本的工具类,另外在使用eclipse调试hadoop程序时,也需要winutils.exe 。下载地址:https://github.com/steveloughran/winutils 下载后的winutils.exe放到HADOOP_HOME/bin目录下。

设置hadoop环境变量

在系统变量path里增加%HADOOP_HOME%\bin

windows10环境下搭建spark on yarn源码调试环境

下载spark源码

在spark官方网站下载spark源码:https://spark.apache.org/

下载后进行解压,进入源码根路径,因为想要调试在yarn下和kubernetes下的资源调度流程,设置yarn 和kubernetes选项:

./build/mvn -Pyarn -Dhadoop.version=2.9.2 -Phive -Phive-thriftserver -Pkubernetes -DskipTests clean package

windows10环境下搭建spark on yarn源码调试环境

耐心等待半个小时左右。编译结果如下

windows10环境下搭建spark on yarn源码调试环境

将编译后的代码导入IDEA

用git bash以管理员身份运行build/spark-build-info 用以生成spark-version-info.properties文件 build/spark-build-info D:\opensource\spark-3.0.0\core\target\extra-resources\ 3.0.0 将生成的spark-version-info.properties文件复制到spark-core_2.12-3.0.0.jar的根目录下。(复制之前先检查根目录下是否存在spark-version-info.properties,不存在再复制)在conf目录下复制log4j.properties.template,重命名为log4j.properties将spark\assembly\target\scala-2.12\jars目录下的所有jar包添加到classpath中。

windows10环境下搭建spark on yarn源码调试环境

运行JavaLogQuery示例代码:

windows10环境下搭建spark on yarn源码调试环境

本地运行的方式调试成功。接下来配置调试spark on yarn 的方式。

首先启动hadoop单点服务,启动namenode,datanode,yarn.

首先通过start-dfs.cmd和start-yarn.cmd启动hadoop环境.

windows10环境下搭建spark on yarn源码调试环境

windows10环境下搭建spark on yarn源码调试环境

yarn

windows10环境下搭建spark on yarn源码调试环境

我们仍然以JavaLogQuery为例,设置相关的启动参数。

windows10环境下搭建spark on yarn源码调试环境

运行

windows10环境下搭建spark on yarn源码调试环境

查看yarn的web界面

windows10环境下搭建spark on yarn源码调试环境

之后我们可以从SparkSubmit.scala为入口,设置断点进行debug跟读了。


本篇文章来源于微信公众号:                 大数据技术圈

扫描二维码推送至手机访问。

版权声明:本文由点度点度金讯时代-BLOG发布,如需转载请注明出处。

本文链接:https://www.lmwmm.com/post/601.html

标签: windows10
分享给朋友:

“windows10环境下搭建spark on yarn源码调试环境” 的相关文章

批处理文件扩展名(扩展名为.bat)

批处理文件扩展名(扩展名为.bat)

批处理的介绍 扩展名是bat(在Windows NT/2000/xp/2003/win 7下也可,cmd)的文件就是批处理文件。首先批处理文件是一个文本文件,这个文件的每一行都是一条DOS命令(大部分时候就好象我们在DOS提示符下…

「ChatGPT最强竞品」爆火:不限量不要钱免注册!一手实测体验在此

「ChatGPT最强竞品」爆火:不限量不要钱免注册!一手实测体验在此

金磊 丰色 发自 凹非寺免费、支持中文、无需注册、不用骚操作直接可用的类ChatGPT产品,它来了!(此等好事必须第一时间和家人们分享)毫不意外的,目前它的热度已经被炒到不行:而且已经有一波网友抢先体验了一番,铺天盖地的一致好评。例如微博博…

一口气最全解读 ChatGPT 编程超能力,13个章节、50个实例,告诉你从哪儿开始!

一口气最全解读 ChatGPT 编程超能力,13个章节、50个实例,告诉你从哪儿开始!

前言今天,我们通过十三个章节,50+个示例,为大家展示ChatGPT在编程开发方面的无限潜力。有了ChatGPT的力量,可以简化工作流程,减少错误,甚至改进代码!从作为初学者学习知识,到为面试做准备,所有你需要的,基本都覆盖了。不过也要注意…

ChatGPT能上传文件了,文档图片数据集秒理解,代码一键执行

ChatGPT能上传文件了,文档图片数据集秒理解,代码一键执行

梦晨 发自 凹非寺量子位 | 公众号 QbitAIChatGPT又出试验型新模式,不少网友陆续收到代码解释器Alpha测试资格。简单来说,这个模式提供两个功能:执行Python代码,接受文件上传下载。为什么是这两个功能的组合?可以看目前最火…

今天起,重装(安装)系统不求人!

今天起,重装(安装)系统不求人!

你是否经历有过电脑蓝屏、垃圾软件变多的情况?又或者用腻了Win10、用不惯Win11,想重装电脑但又不会操作,售后离得又远也不方便出门……没关系,今天手把手教你搞定它!比如笔者,突然想升级到Win11玩一玩,于是从Win10 LTSC202…

Switch平台1月15日,RPG热潮《魔岩山传说》掀起CQ9APP经典迷宫游戏

Switch平台1月15日,RPG热潮《魔岩山传说》掀起CQ9APP经典迷宫游戏

Almost Human宣布的好消息让Switch玩家充满期待,经典迷宫探索RPG《魔岩山传说》将于1月15日正式登陆Switch平台。这款2012年首发的CQ9APP经典游戏汇聚了探索、生存、战斗、魔法、解谜和角色扮演等元素,为玩家带来了…