在withColumn下将数据框列和外部列表传递给udf

面试问答更新时间：2026-04-03 20:12:49 发布时间：1585天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

最干净的解决方案是使用闭包传递其他参数：

def make_topic_word(topic_words):     return udf(lambda c: label_maker_topic(c, topic_words))df = sc.parallelize([(["union"], )]).toDF(["tokens"])(df.withColumn("topics", make_topic_word(keyword_list)(col("tokens")))    .show())

这不需要更改

keyword_list

或使用UDF包装功能。您也可以使用此方法传递任意对象。例如，这可以用于传递

sets

有效查找的列表。

如果要使用当前的UDF并

topic_words

直接传递，则必须先将其转换为列文字：

from pyspark.sql.functions import array, litks_lit = array(*[array(*[lit(k) for k in ks]) for ks in keyword_list])df.withColumn("ad", topicWord(col("tokens"), ks_lit)).show()

根据您的数据和要求，可以选择其他更有效的解决方案，这些解决方案不需要UDF（爆炸+聚合+折叠）或查找（散列+向量运算）。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/610400.html

上一篇如何在一次通过中检查多个键是否在字典中？

下一篇检测“ for”循环中最后一个元素的pythonic方法是什么？

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们