栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

将StringIndexer应用于PySpark数据框中的几列

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

将StringIndexer应用于PySpark数据框中的几列

我发现做到这一点的最好方法是将

StringIndex
一个列表中的几个合并并使用a
Pipeline
来执行它们:

from pyspark.ml import Pipelinefrom pyspark.ml.feature import StringIndexerindexers = [StringIndexer(inputCol=column, outputCol=column+"_index").fit(df) for column in list(set(df.columns)-set(['date'])) ]pipeline = Pipeline(stages=indexers)df_r = pipeline.fit(df).transform(df)df_r.show()+-------+--------------+----+----+----------+----------+-------------+|address|          date|food|name|food_index|name_index|address_index|+-------+--------------+----+----+----------+----------+-------------+|1111111|20151122045510| gre| Yin|       0.0|       0.0|          0.0||1111111|20151122045501| gra| Yin|       2.0|       0.0|          0.0||1111111|20151122045500| gre| Yln|       0.0|       2.0|          0.0||1111112|20151122065832| gre| Yun|       0.0|       4.0|          3.0||1111113|20160101003221| gre| Yan|       0.0|       3.0|          1.0||1111111|20160703045231| gre| Yin|       0.0|       0.0|          0.0||1111114|20150419134543| gre| Yin|       0.0|       0.0|          5.0||1111115|20151123174302| ddd| Yen|       1.0|       1.0|          2.0||2111115|      20123192| ddd| Yen|       1.0|       1.0|          4.0|+-------+--------------+----+----+----------+----------+-------------+


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/660158.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号