栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

熊猫无法读取在PySpark中创建的实木复合地板文件

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

熊猫无法读取在PySpark中创建的实木复合地板文件

由于即使使用较新的pandas版本,这似乎仍然是一个问题,因此我编写了一些函数来规避此问题,这是更大的pyspark helpers库的一部分:

import pandas as pdimport datetimedef read_parquet_folder_as_pandas(path, verbosity=1):  files = [f for f in os.listdir(path) if f.endswith("parquet")]  if verbosity > 0:    print("{} parquet files found. Beginning reading...".format(len(files)), end="")    start = datetime.datetime.now()  df_list = [pd.read_parquet(os.path.join(path, f)) for f in files]  df = pd.concat(df_list, ignore_index=True)  if verbosity > 0:    end = datetime.datetime.now()    print(" Finished. Took {}".format(end-start))  return dfdef read_parquet_as_pandas(path, verbosity=1):  """Workaround for pandas not being able to read folder-style parquet files.  """  if os.path.isdir(path):    if verbosity>1: print("Parquet file is actually folder.")    return read_parquet_folder_as_pandas(path, verbosity)  else:    return pd.read_parquet(path)

这假定拼花地板“文件”中的相关文件(实际上是一个文件夹)以“
.parquet”结尾。这适用于数据砖导出的拼花文件,也可以与其他文件一起使用(未经测试,对评论中的反馈感到高兴)。

read_parquet_as_pandas()
如果事先不知道是否为文件夹,则可以使用该功能。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/625649.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号