同步操作将从 dtl/spark-test 强制同步,此操作会覆盖自 Fork 仓库以来所做的任何修改,且无法恢复!!!
确定后同步将在后台操作,完成时将刷新页面,请耐心等待。
spark java和scala混编
spark scala的测试程序 添加ambari环境下 直接用IDEA提交spark程序的方式
IDEA直接提交ambari saprk的方法
将ambari平台的配置文件 core-site.xml,hadoop-env.sh,hdfs-site.xml,mapred-env.sh,mapred-site.xml,yarn-env.sh,yarn-site.xml 拷贝到resources目录下
spark的master 设置 sparkConf.setMaster("yarn-client")
设置hdp的版本号 3.1.0.0-78 和hdp保持一致 .set("spark.driver.extraJavaOptions","-Dhdp.version=3.1.0.0-78") .set("spark.yarn.am.extraJavaOptions","-Dhdp.version=3.1.0.0-78")
pom的依赖中需要增加spark-yarn_2.11 org.apache.spark spark-yarn_2.11 ${spark.version}
需要修改mapreduce-site文件中的${hdp.version}为实际的版本号
修改mapreduce-site.xml文件里的topology_script.py项,直接去掉
将spark需要jar上传到hdfs中 hdfs dfs -mkdir -p /user/spark/share/lib hdfs dfs -put ./*.jar /user/spark/share/lib/
在代码中添加读取jars的路径配置 .set("spark.yarn.jars", "hdfs://db03:8020/user/spark/share/lib/*.jar")
抄不到jersey文件包 在pom的依赖中需要增加jersey-client依赖 com.sun.jersey jersey-client 1.9
Cannot run program "/etc/hadoop/conf/topology_script.py" (in directory "D:\workspace\fawmc-new44\operation-report-calc"): CreateProcess error=2, 系统找不到指定的文件。 在core-site.xml中注释掉如下: net.topology.script.file.name /etc/hadoop/conf/topology_script.py
Could not find or load main class org.apache.spark.deploy.yarn.ExecutorLauncher pom添加如下: org.apache.spark spark-assembly_2.10 1.1.1
Could not initialize class org.apache.derby.jdbc.EmbeddedDriver pom添加如下: org.apache.derby derby 10.9.1.0
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。