栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

21 DataFrame入门

21 DataFrame入门

1 Dataframe的组成


2 Dataframe的代码构建 - 基于RDD方式1









3 Dataframe的入门操作










4 词频统计案例练习

5 电影评分数据分析案例


6 SparkSQL Shuffle 分区数目

7 SparkSQL 数据清洗API



8 Dataframe数据写出


9 Dataframe 通过JDBC读写数据库(MySQL示例)



    Dataframe 在结构层面上由StructField组成列描述,由
    StructType构造表描述。在数据层面上,Column对象记录列数据
    ,Row对象记录行数据Dataframe可以从RDD转换、Pandas DF转换、读取文件、读取
    JDBC等方法构建spark.read.format()和df.write.format() 是Dataframe读取和写出
    的统一化标准APISparkSQL默认在Shuffle阶段200个分区,可以修改参数获得最好
    性能dropDuplicates可以去重、dropna可以删除缺失值、fillna可以填
    充缺失值SparkSQL支持JDBC读写,可用标准API对数据库进行读写操作
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/761269.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号