pyspark 去重dropDuplicates、distinct；withColumn、lit、col；unionByName、groupBy

大数据系统更新时间：2026-04-01 22:38:15 发布时间：1502天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

1、去重dropDuplicates、distinct

ff =d.select(['dnum']).dropDuplicates()
ff.count()
ff.show()
fff =d.select(['dnum']).distinct()

2、withColumn、lit、col

withColumn增加一列
lit 指定列
col 选择列

import pyspark.sql.functions as F

temp_df = temp_df.withColumn("date", F.lit(target_date))

movie_feature_df = movie_feature_df.withColumn('tags', regexp_replace(col('tags'), "[", ""))

3、unionByName、groupBy

play_video_df = None
for i in range(args.range):
    t = target_date - datetime.timedelta(days=i)
    temp_df = spark.sql(
        "select * from ***album where year=%s and month=%s and day=%s" % (t.year, t.month, t.day))
 
    temp_df = temp_df.withColumn("date", F.lit(target_date))
    if play_video_df == None:
        play_video_df = temp_df
    else:
        play_video_df = play_video_df.unionByName(temp_df)

target_df = play_video_df


target_groupped_movie_df = target_movie_df.groupBy("dnum", "aid").agg(F.max("finish_rate").alias("finish_rate"))

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/743073.html

上一篇 Kafka详解

下一篇 docker-compose Install Elasticsearch 7.16

大数据系统相关栏目本月热门文章

关于我们文章归档网站地图联系我们