当前位置:首页 > 技术分享 > 正文内容

windows10环境下搭建spark on yarn源码调试环境

lmwmm3年前 (2023-03-13)技术分享3278

    spark 3.0.0版本刚出炉,官方称相比2.4版本,性能提升了2倍。考虑到生产环境下 spark on yarn的模式居多,本文在Windows10环境下,搭建spark on yarn的源码阅读调试环境。使得最新功能能够以最快的速度反哺生产环境,进一步提升线上性能。spark3.0的最新功能可以参考官方博客内容:https://databricks.com/blog/2020/06/18/introducing-apache-spark-3-0-now-available-in-databricks-runtime-7-0.html

依赖工具

1.jdk 1.8

2.scala 2.12

3.maven 3.6

4.IDEA

5.winutils.exe (对应hadoop版本2.9.2)

6.hadoop (2.9.2)

7.spark3.0

步骤

    winutils.exe是在Windows系统上需要的hadoop调试环境工具,里面包含一些在Windows系统下调试hadoop、spark所需要的基本的工具类,另外在使用eclipse调试hadoop程序时,也需要winutils.exe 。下载地址:https://github.com/steveloughran/winutils 下载后的winutils.exe放到HADOOP_HOME/bin目录下。

设置hadoop环境变量

在系统变量path里增加%HADOOP_HOME%\bin

下载spark源码

在spark官方网站下载spark源码:https://spark.apache.org/

下载后进行解压,进入源码根路径,因为想要调试在yarn下和kubernetes下的资源调度流程,设置yarn 和kubernetes选项:

./build/mvn -Pyarn -Dhadoop.version=2.9.2 -Phive -Phive-thriftserver -Pkubernetes -DskipTests clean package

耐心等待半个小时左右。编译结果如下

将编译后的代码导入IDEA

用git bash以管理员身份运行build/spark-build-info 用以生成spark-version-info.properties文件 build/spark-build-info D:\opensource\spark-3.0.0\core\target\extra-resources\ 3.0.0 将生成的spark-version-info.properties文件复制到spark-core_2.12-3.0.0.jar的根目录下。(复制之前先检查根目录下是否存在spark-version-info.properties,不存在再复制)在conf目录下复制log4j.properties.template,重命名为log4j.properties将spark\assembly\target\scala-2.12\jars目录下的所有jar包添加到classpath中。


运行JavaLogQuery示例代码:

本地运行的方式调试成功。接下来配置调试spark on yarn 的方式。

首先启动hadoop单点服务,启动namenode,datanode,yarn.

首先通过start-dfs.cmd和start-yarn.cmd启动hadoop环境.

yarn

我们仍然以JavaLogQuery为例,设置相关的启动参数。

运行

查看yarn的web界面

之后我们可以从SparkSubmit.scala为入口,设置断点进行debug跟读了。


本篇文章来源于微信公众号:                 大数据技术圈

扫描二维码推送至手机访问。

版权声明:本文由点度点度金讯时代-BLOG发布,如需转载请注明出处。

本文链接:https://www.lmwmm.com/post/601.html

标签: windows10
分享给朋友:

“windows10环境下搭建spark on yarn源码调试环境” 的相关文章

ChatGPT访问量再创新高:百度的60%,谷歌的2%

ChatGPT访问量再创新高:百度的60%,谷歌的2%

梦晨 发自 凹非寺量子位 | 公众号 QbitAIChatGPT上月全球访问量 17.6 亿次,已达到谷歌的2%! 根据SimilarWeb统计,已超越必应、鸭鸭走DuckDuckGo等其他国际搜索引擎。 挡在前面的除了谷歌…

Windows 11 23H2 新增"系统组件"中心

Windows 11 23H2 新增"系统组件"中心

微软正在 Windows 11 23H2 中测试新的"系统组件"页面,这一功能最终也将抵达 22H2。设置"中的"系统组件"页面是一种管理默认应用程序、扩展程序、编解码器和其他被认为与 Wi…

[iptv信源 资源分享] 上万直播源,7x24小时自动更新

[iptv信源 资源分享] 上万直播源,7x24小时自动更新

請根據您的需要來下載以下的頻道播放列表進行測試, 系統會每天自動更新一次.https://epg.pw/test_channel_page.html?lang=zh-hant下載地址        格…

Switch平台迎来PG经典游戏:《蒙蒂鼹鼠系列》五款力作震撼登场

Switch平台迎来PG经典游戏:《蒙蒂鼹鼠系列》五款力作震撼登场

Pixel Games UK推出的街机动作冒险游戏《蒙蒂鼹鼠系列》已经成功登陆Nintendo Switch平台,为PG玩家呈现了一场别开生面的地下冒险。这个由五款游戏组成的奇妙合集带领玩家进入英国地下世界,跟随主角黄鼹鼠的足迹展开一场国际…

《霍格沃茨之遗》引领BB GAMES潮流,华纳宣布哈利波特游戏系列扩张

《霍格沃茨之遗》引领BB GAMES潮流,华纳宣布哈利波特游戏系列扩张

《霍格沃茨之遗》大获成功后,华纳兄弟宣布将推出更多基于哈利波特魔法世界的游戏。在接受BB GAMES综艺采访时,华纳兄弟互动娱乐总裁David Haddad透露,《霍格沃茨之遗》自2023年2月首发至年底,售出超过2200万套,成为2023…

畅游ARPG未来游戏体验:联想拯救者Y9000K 2024游戏本全新发布

畅游ARPG未来游戏体验:联想拯救者Y9000K 2024游戏本全新发布

联想在CES 2024大会上带来了令人振奋的消息,发布了拯救者Y9000K 2024新款游戏本,为PG游戏玩家提供了一场科技盛宴。这款笔记本以全新锻造碳纤维A面设计,不仅轻薄便携,还赋予每台机型独特的外观纹理,令其在游戏装备中脱颖而出。性能…