栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

今日笔记---hive+spark

今日笔记---hive+spark

一,hive查询表字段类型

二,pyspark中size=lambda x: len(x)

三,udf函数中最好写明type

四,pyspark dataframe.where中可以使用多个逻辑判断

五,Linux统计当前文件夹下的文件个数、目录个数:

    1.文件个数:ls -l |grep "^-"|wc -l

    2.当前层的文件夹个数:ls -l |grep "^d"|wc -l

    3.所有层的文件个数:ls -lR|grep "^-"|wc -l

    4.所有曾的文件夹个数:ls -lR|grep "^d"|wc -l

六,全局变量

    声明法:优点——随时定义;缺点——当出现多个模块或函数时,若都需要依赖全局变量,不明确全局变量到底是多少

    模块法:把要声明的全局变量写到一个固定的文件(例如con.py)中,别的文件调用之(import con)

七,pyspark运行原理

解读pyspark运行原理 - 知乎

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/355044.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号