PySpark-使用UDF从值列表中添加列

面试问答更新时间：2026-05-21 16:16:40 发布时间：1631天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

希望这可以帮助！

from pyspark.sql.functions import monotonically_increasing_id, row_numberfrom pyspark.sql import Window#sample dataa= sqlContext.createDataframe([("Dog", "Cat"), ("Cat", "Dog"), ("Mouse", "Cat")],         ["Animal", "Enemy"])a.show()#convert list to a dataframerating = [5,4,1]b = sqlContext.createDataframe([(l,) for l in rating], ['Rating'])#add 'sequential' index and join both dataframe to get the final resulta = a.withColumn("row_idx", row_number().over(Window.orderBy(monotonically_increasing_id())))b = b.withColumn("row_idx", row_number().over(Window.orderBy(monotonically_increasing_id())))final_df = a.join(b, a.row_idx == b.row_idx).  drop("row_idx")final_df.show()

输入：

+------+-----+|Animal|Enemy|+------+-----+|   Dog|  Cat||   Cat|  Dog|| Mouse|  Cat|+------+-----+

输出为：

+------+-----+------+|Animal|Enemy|Rating|+------+-----+------+|   Cat|  Dog|     4||   Dog|  Cat|     5|| Mouse|  Cat|     1|+------+-----+------+

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/625758.html

上一篇 Python integer incrementing with ++ [duplicate]

下一篇 Flask上下文堆栈的目的是什么？

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们