栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

parquet学习

parquet学习

读 1. spark read parquet file
parquetFile = spark.read.parquet('traj_pred_bc_train_data_sampled/dt=2021-09-30/city_id=88/')
parquetFile.count()
parquetFile.take(2)
2. pyarrow.parquet read parquet file
import pyarrow.parquet as pq
pfile = pq.read_table(file_list[0])
print("Column names: {}".format(pfile.column_names))
print("Schema: {}".format(pfile.schema))
3.parquet也可以用spark sql读
spark.sql(
'SELECt count(id) '
'from parquet.`file:///tmp/hello_world_dataset`').collect()
spark.conf.set('spark.sql.sources.partitionOverwriteMode', 'dynamic')
train_data.coalesce(1).write.partitionBy('dt', 'city_id').mode('overwrite').parquet('./traj_pred_bc_train_data_sampled/')

其中train_data是spark Dataframe。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/784252.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号