如何计算pyspark中每行某些列的最大值

面试问答更新时间：2026-05-21 20:27:35 发布时间：1652天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

我认为将值组合到列表中而不是找到最大值将是最简单的方法。

from pyspark.sql.types import *schema = StructType([    StructField("ClientId", IntegerType(), True),    StructField("m_ant21", IntegerType(), True),    StructField("m_ant22", IntegerType(), True),    StructField("m_ant23", IntegerType(), True),    StructField("m_ant24", IntegerType(), True)])df = spark    .createDataframe(        data=[(0, None, None, None, None),  (1, 23, 13, 17, 99),  (2, 0, 0, 0, 1),  (3, 0, None, 1, 0)],        schema=schema)import pyspark.sql.functions as Fdef agg_to_list(m21,m22,m23,m24):    return [m21,m22,m23,m24]u_agg_to_list = F.udf(agg_to_list, ArrayType(IntegerType()))df2 = df.withColumn('all_values', u_agg_to_list('m_ant21', 'm_ant22', 'm_ant23', 'm_ant24'))        .withColumn('max', F.sort_array("all_values", False)[0])        .select('ClientId', 'max')df2.show()

输出：

+--------+----+|ClientId|max |+--------+----+|0       |null||1       |99  ||2       |1   ||3       |1   |+--------+----+

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/456023.html

上一篇主循环“ builtin_function_or_method”对象不可迭代

下一篇如何通过字符串长度在`sqlalchemy`中过滤？

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们