栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

pyspark --Action算子

pyspark --Action算子

    countByKey

    reduce

    fold

    first

    take 取前n个(位置上)

    top


7.takeSample

7. takeOrdered

    rdd = sc.parallelize([1,3,2,4,7,9,6],1)
    print(rdd.takeOrdered(3))  # 1,2,3
    print(rdd.takeOrdered(3,lambda x:-x)) # 9,7,6

8.foreach
8. saveAsTextFile

9. foreachPartition

    rdd = sc.parallelize([1,3,2,4,7,9,6],3)
    def rid10(data):
        print("-------------------")
        result = list()
        for i in data:
            result.append(i*10)
        print(result)
    
    rdd.foreachPartition(rid10)

    groupByKey与reduceByKey



    总结:

      partitionBy

    转载请注明:文章转载自 www.mshxw.com
    本文地址:https://www.mshxw.com/it/721318.html
    我们一直用心在做
    关于我们 文章归档 网站地图 联系我们

    版权所有 (c)2021-2022 MSHXW.COM

    ICP备案号:晋ICP备2021003244-6号