栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

使用Pandas将列从一个DataFrame复制到另一个的最快方法?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用Pandas将列从一个DataFrame复制到另一个的最快方法?

使用

.loc
可对齐框架进行设置本质上没有什么慢,尽管它确实会花费一些代码来涵盖很多情况,所以紧密循环可能并不理想。仅供参考,此示例与第二示例略有不同。

In [1]: import numpy as npIn [2]: import pandas as pdIn [3]: from pandas import DataframeIn [4]: df = Dataframe(1.,index=list('abcdefghij'),columns=[0,1,2])In [5]: dfOut[5]:    0  1  2a  1  1  1b  1  1  1c  1  1  1d  1  1  1e  1  1  1f  1  1  1g  1  1  1h  1  1  1i  1  1  1j  1  1  1[10 rows x 3 columns]In [6]: df2 = Dataframe(0,index=list('afg'),columns=[1,2])In [7]: df2Out[7]:    1  2a  0  0f  0  0g  0  0[3 rows x 2 columns]In [8]: df.loc[df2.index,df2.columns] = df2In [9]: dfOut[9]:    0  1  2a  1  0  0b  1  1  1c  1  1  1d  1  1  1e  1  1  1f  1  0  0g  1  0  0h  1  1  1i  1  1  1j  1  1  1[10 rows x 3 columns]

这是另一种选择。它可能适合也可能不适合您的数据模式。如果更新(您的小框架)非常独立,那么它将起作用(IOW,您不更新大框架,然后选择新的子框架,然后进行更新,等等。-如果这是您的模式,则使用

.loc
大约对)。

代替更新大框架,而是使用大框架中的列更新小框架,例如:

In [10]: df = Dataframe(1.,index=list('abcdefghij'),columns=[0,1,2])In [11]: df2 = Dataframe(0,index=list('afg'),columns=[1,2])In [12]: needed_columns = df.columns-df2.columnsIn [13]: df2[needed_columns] = df.reindex(index=df2.index,columns=needed_columns)In [14]: df2Out[14]:    1  2  0a  0  0  1f  0  0  1g  0  0  1[3 rows x 3 columns]In [15]: df3 = Dataframe(0,index=list('cji'),columns=[1,2])In [16]: needed_columns = df.columns-df3.columnsIn [17]: df3[needed_columns] = df.reindex(index=df3.index,columns=needed_columns)In [18]: df3Out[18]:    1  2  0c  0  0  1j  0  0  1i  0  0  1[3 rows x 3 columns]

并在需要时将所有内容合并在一起(同时将它们保存在列表中,或者在下面查看我的评论,这些子帧可以在创建时移至外部存储,然后在此合并步骤之前回读)。

In [19]: pd.concat([ df.reindex(index=df.index-df2.index-df3.index), df2, df3]).reindex_like(df)Out[19]:    0  1  2a  1  0  0b  1  1  1c  1  0  0d  1  1  1e  1  1  1f  1  0  0g  1  0  0h  1  1  1i  1  0  0j  1  0  0[10 rows x 3 columns]

这种模式的优点在于,它可以轻松扩展为使用实际的db(或更好的db

HDFStore
),以实际存储“数据库”,然后根据需要创建/更新子框架,然后在完成后写出到新存储中。

我一直使用这种模式,尽管实际上是使用面板。

  • 对数据的子集执行计算,并将每个数据写入单独的文件
  • 然后最后将它们全部读入并存储(在内存中),然后写出一个巨大的新文件。concat步骤可以在内存中一次完成,或者如果确实是一项大任务,则可以迭代完成。

我能够使用多进程来执行我的计算,并将每个单独的Pan​​el单独写入一个文件,因为它们都是完全独立的。唯一依赖的部分是concat。

这本质上是一种映射减少模式。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/611802.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号