栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

Spark dataframe 学习笔记

Spark dataframe 学习笔记

Spark dataframe 学习笔记 前言

在处理PB级的数据时,有时候会使用到pyspark来分析数据,首先贴上官网链接
有问题先去官网看文档!

与pandas的操作对比
df['column1']
df.select('column1')
df.describe()
df.describe('column1','column2').show()
df.columns()
df.columns()
df.column.value_count()
df.groupBy(['column']).count().collect() #collect 为返回一行list
df.column.unique()
df.select('column').distinct().count()
df[df['column'] > 10]
df.filter(df.column > 10).collect()
df.drop_duplicate()
df.dropDuplicates(['name','age']).show()
df['test'].fillna(0)
df.na.fill(0).show()
df.na.fill({'age':20,'name':'unkown'}).show()

一些apply类似的操作
某一行全加10

df['age'] = df['age']+10
df.select(df.name, (df.age + 10).alias('age')).collect()

下面就不再列pandas对比了,后面慢慢补

df.agg({'age':'max'}).collect()
df.agg(F,min(df.age)).collect()

dfs.filter(df.height.isNull()).collect()
dfs.filter(df.height.isNotNull()).collect()

也可以参考这篇文章,pands与spark的比较

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/676868.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号