Create your Gitee Account
Explore and code with more than 6 million developers,Free private repositories !:)
Sign up
This repository doesn't specify license. Without author's permission, this code is only for learning and cannot be used for other purposes.
Clone or download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

spark-test

项目介绍

spark java和scala混编

软件架构

spark scala的测试程序 添加ambari环境下 直接用IDEA提交spark程序的方式

安装教程

IDEA直接提交ambari saprk的方法

  1. 将ambari平台的配置文件 core-site.xml,hadoop-env.sh,hdfs-site.xml,mapred-env.sh,mapred-site.xml,yarn-env.sh,yarn-site.xml 拷贝到resources目录下

  2. spark的master 设置 sparkConf.setMaster("yarn-client")

  3. 设置hdp的版本号 3.1.0.0-78 和hdp保持一致 .set("spark.driver.extraJavaOptions","-Dhdp.version=3.1.0.0-78") .set("spark.yarn.am.extraJavaOptions","-Dhdp.version=3.1.0.0-78")

  4. pom的依赖中需要增加spark-yarn_2.11 org.apache.spark spark-yarn_2.11 ${spark.version}

  5. 需要修改mapreduce-site文件中的${hdp.version}为实际的版本号

  6. 修改mapreduce-site.xml文件里的topology_script.py项,直接去掉

  7. 将spark需要jar上传到hdfs中 hdfs dfs -mkdir -p /user/spark/share/lib hdfs dfs -put ./*.jar /user/spark/share/lib/

    在代码中添加读取jars的路径配置 .set("spark.yarn.jars", "hdfs://db03:8020/user/spark/share/lib/*.jar")

出现问题

  1. 抄不到jersey文件包 在pom的依赖中需要增加jersey-client依赖 com.sun.jersey jersey-client 1.9

  2. Cannot run program "/etc/hadoop/conf/topology_script.py" (in directory "D:\workspace\fawmc-new44\operation-report-calc"): CreateProcess error=2, 系统找不到指定的文件。 在core-site.xml中注释掉如下: net.topology.script.file.name /etc/hadoop/conf/topology_script.py

  3. Could not find or load main class org.apache.spark.deploy.yarn.ExecutorLauncher pom添加如下: org.apache.spark spark-assembly_2.10 1.1.1

  4. Could not initialize class org.apache.derby.jdbc.EmbeddedDriver pom添加如下: org.apache.derby derby 10.9.1.0

使用说明

  1. xxxx
  2. xxxx
  3. xxxx

参与贡献

  1. Fork 本项目
  2. 新建 Feat_xxx 分支
  3. 提交代码
  4. 新建 Pull Request

码云特技

  1. 使用 Readme_XXX.md 来支持不同的语言,例如 Readme_en.md, Readme_zh.md
  2. 码云官方博客 blog.gitee.com
  3. 你可以 https://gitee.com/explore 这个地址来了解码云上的优秀开源项目
  4. GVP 全称是码云最有价值开源项目,是码云综合评定出的优秀开源项目
  5. 码云官方提供的使用手册 https://gitee.com/help
  6. 码云封面人物是一档用来展示码云会员风采的栏目 https://gitee.com/gitee-stars/

Comments ( 0 )

Sign in for post a comment

About

spark java和scala混编 spread retract
Cancel

Releases

No release

Contributors

All

Activities

load more
can not load any more