栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

pyspark调用java生成的jar

pyspark调用java生成的jar

pyspark调用java生成的jar

准备java工程编辑java工程为jar包spark加载jar包spark使用

踩过的坑

参考文献:

准备java工程

创建java工程,代码结构如下:

FeatureCalculateDemo.java代码如下:

package demo;

public class FeatureCalculateDemo {
    public int sqAdd(int x){
        return x * x + 1;
    }

    public int sqSub(int x, int y){
        return x - y;
    }

    public String sqStr(String x){
        return x.toUpperCase();
    }

    public static void main(String[] args){
        FeatureCalculateDemo fc = new FeatureCalculateDemo();
        int res = fc.sqAdd(11);
        System.out.println("res:" + res);
    }

}
编辑java工程为jar包

使用idea打包:




build之后,在前面选择的jar保存路径中就能找到对应的jar包。

spark加载jar包
from pyspark import SparkContext
from pyspark import SparkConf

jar_path = "./tools/sparkJarDemo.jar" # 我的jar路径,使用时替换即可 
app_name = "demo"
conf = SparkConf().setAppName(app_name).set("spark.jars", jar_path)
sc = SparkContext(conf=conf)
spark使用
from py4j.java_gateway import java_import
java_import(sc._gateway.jvm, "demo.*")
print(type(sc._gateway.jvm.demo.FeatureCalculateDemo))
inst = sc._gateway.jvm.demo.FeatureCalculateDemo()

# 用法1
print(inst.sqAdd(5)) # 26
print(inst.sqSub(50, 2)) # 48
print(inst.sqStr("abc")) # ABC

至此,就把pyspark调用jar的过程介绍完了。

踩过的坑

网上很多的介绍中,没有提到要先通过SparkConf().setAppName(app_name).set(“spark.jars”, jar_path),加载jar,所以很多时候会忘记,本人在过程中就忘记了,调试了很久。sc._gateway.jvm.demo.FeatureCalculateDemo 加载class时,需要从package开始(本文的package为demo)jar只能在driver节点中加载使用,无法在worker中使用,如下用法不行, 因为map函数在worker中运行,无法找到sqAdd函数:

rdd = sc.parallelize([1, 2, 3])
result = rdd.map(inst.sqAdd).collect()
print("result:", result)
参考文献:

制作jar:https://blog.csdn.net/jzy1990/article/details/105001468/
调用jar:https://www.cnblogs.com/errdev/p/4511303.html
jar问题讨论:https://stackoverflow.com/questions/33544105/running-custom-java-class-in-pyspark

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/746221.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号