Create your Gitee Account
Explore and code with more than 6 million developers,Free private repositories !:)
Sign up
This repository doesn't specify license. Without author's permission, this code is only for learning and cannot be used for other purposes.
Clone or download
README.md 3.13 KB
Copy Edit Web IDE Raw Blame History
dtl authored 2019-09-03 10:01 . idea下直接提交 ambari spark 任务

spark-test

项目介绍

spark java和scala混编

软件架构

spark scala的测试程序 添加ambari环境下 直接用IDEA提交spark程序的方式

安装教程

IDEA直接提交ambari saprk的方法

  1. 将ambari平台的配置文件 core-site.xml,hadoop-env.sh,hdfs-site.xml,mapred-env.sh,mapred-site.xml,yarn-env.sh,yarn-site.xml 拷贝到resources目录下

  2. spark的master 设置 sparkConf.setMaster("yarn-client")

  3. 设置hdp的版本号 3.1.0.0-78 和hdp保持一致 .set("spark.driver.extraJavaOptions","-Dhdp.version=3.1.0.0-78") .set("spark.yarn.am.extraJavaOptions","-Dhdp.version=3.1.0.0-78")

  4. pom的依赖中需要增加spark-yarn_2.11 org.apache.spark spark-yarn_2.11 ${spark.version}

  5. 需要修改mapreduce-site文件中的${hdp.version}为实际的版本号

  6. 修改mapreduce-site.xml文件里的topology_script.py项,直接去掉

  7. 将spark需要jar上传到hdfs中 hdfs dfs -mkdir -p /user/spark/share/lib hdfs dfs -put ./*.jar /user/spark/share/lib/

    在代码中添加读取jars的路径配置 .set("spark.yarn.jars", "hdfs://db03:8020/user/spark/share/lib/*.jar")

出现问题

  1. 抄不到jersey文件包 在pom的依赖中需要增加jersey-client依赖 com.sun.jersey jersey-client 1.9

  2. Cannot run program "/etc/hadoop/conf/topology_script.py" (in directory "D:\workspace\fawmc-new44\operation-report-calc"): CreateProcess error=2, 系统找不到指定的文件。 在core-site.xml中注释掉如下: net.topology.script.file.name /etc/hadoop/conf/topology_script.py

  3. Could not find or load main class org.apache.spark.deploy.yarn.ExecutorLauncher pom添加如下: org.apache.spark spark-assembly_2.10 1.1.1

  4. Could not initialize class org.apache.derby.jdbc.EmbeddedDriver pom添加如下: org.apache.derby derby 10.9.1.0

使用说明

  1. xxxx
  2. xxxx
  3. xxxx

参与贡献

  1. Fork 本项目
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

码云特技

  1. 使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md
  2. 码云官方博客 blog.gitee.com
  3. 你可以 https://gitee.com/explore 这个地址来了解码云上的优秀开源项目
  4. GVP 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目
  5. 码云官方提供的使用手册 https://gitee.com/help
  6. 码云封面人物是一档用来展示码云会员风采的栏目 https://gitee.com/gitee-stars/

Comment ( 0 )

Sign in for post a comment