栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

pyspark 去重dropDuplicates、distinct;withColumn、lit、col;unionByName、groupBy

pyspark 去重dropDuplicates、distinct;withColumn、lit、col;unionByName、groupBy

1、去重dropDuplicates、distinct
ff =d.select(['dnum']).dropDuplicates()
ff.count()
ff.show()
fff =d.select(['dnum']).distinct()
2、withColumn、lit、col

withColumn增加一列
lit 指定列
col 选择列

import pyspark.sql.functions as F

temp_df = temp_df.withColumn("date", F.lit(target_date))

movie_feature_df = movie_feature_df.withColumn('tags', regexp_replace(col('tags'), "[", ""))
3、unionByName、groupBy
play_video_df = None
for i in range(args.range):
    t = target_date - datetime.timedelta(days=i)
    temp_df = spark.sql(
        "select * from ***album where year=%s and month=%s and day=%s" % (t.year, t.month, t.day))
 
    temp_df = temp_df.withColumn("date", F.lit(target_date))
    if play_video_df == None:
        play_video_df = temp_df
    else:
        play_video_df = play_video_df.unionByName(temp_df)

target_df = play_video_df


target_groupped_movie_df = target_movie_df.groupBy("dnum", "aid").agg(F.max("finish_rate").alias("finish_rate"))
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/743073.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号