将PySpark数据框列从列表转换为字符串

面试问答更新时间：2026-04-01 22:15:44 发布时间：1570天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

您可以创建一个

udf

连接 数组/列表的对象 ，然后将其应用于测试列：

from pyspark.sql.functions import udf, coljoin_udf = udf(lambda x: ",".join(x))df.withColumn("test_123", join_udf(col("test_123"))).show()+----+----------------+|uuid|        test_123|+----+----------------+|   1|test,test2,test3||   2|test4,test,test6||   3|test6,test9,t55o|+----+----------------+

初始数据帧从以下位置创建：

from pyspark.sql.types import StructType, StructFieldschema = StructType([StructField("uuid",IntegerType(),True),StructField("test_123",ArrayType(StringType(),True),True)])rdd = sc.parallelize([[1, ["test","test2","test3"]], [2, ["test4","test","test6"]],[3,["test6","test9","t55o"]]])df = spark.createDataframe(rdd, schema)df.show()+----+--------------------+|uuid| test_123|+----+--------------------+|   1|[test, test2, test3]||   2|[test4, test, test6]||   3|[test6, test9, t55o]|+----+--------------------+

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/662702.html

上一篇将值从一个脚本返回到另一个脚本

下一篇使用virtualenv或buildout安装PIL的问题

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们