通常,
iterrows仅应在非常特殊的情况下使用。这是执行各种操作的一般优先顺序:
1) vectorization2) using a custom cython routine3) apply a) reductions that can be performed in cython b) iteration in python space4) itertuples5) iterrows6) updating an empty frame (e.g. using loc one-row-at-a-time)
使用自定义的
cython例程通常太复杂了,所以现在就跳过它。
1)矢量化始终是首选。但是,有一小部分案例无法以明显的方式进行向量化(主要涉及复发)。此外,在较小的框架上,执行其他方法可能会更快。
3)应用包括可通常是通过在用
Cython空间迭代器(这在pandas内部完成的)来进行(这是一个)的情况下。
这取决于
apply表达式内部发生的情况。例如,
df.apply(lambda x: np.sum(x))将很快执行(当然
df.sum(1)更好)。但是,类似:的操作
df.apply(lambda x: x['b'] + 1)将在python空间中执行,因此速度较慢。
4)
itertuples不会将数据装箱成一个系列,而只是将其作为元组返回
5)是否
iterrows将数据包装到系列中。除非你真的需要此方法,否则请使用其他方法。
6)一次更新一个空行。我已经看到这种方法使用了太多的方法。这是迄今为止最慢的。它可能很常见(对于某些
python结构来说相当快),但是
Dataframe对索引进行了大量检查,因此每次更新一行总是很慢。创建新的结构和方法更好
concat。



