为什么熊猫在这里应用lambda比循环慢？

apply

在后台使用循环，因此，如果需要更好的性能，最好的和最快的方法是最好的选择。

没有循环，只有链2条件向量化解决方案：

m1 = all_actions['Lower'] <= all_actions['Mid']m2 = all_actions['Mid'] <= all_actions['Upper']qualified_actions = m1 & m2

感谢Jon Clements提供的另一种解决方案：

all_actions.Mid.between(all_actions.Lower, all_actions.Upper)

时间：

np.random.seed(2017)N = 45000all_actions=pd.Dataframe(np.random.randint(50, size=(N,3)),columns=['Lower','Mid','Upper'])#print (all_actions)

In [85]: %%timeit    ...: qualified_actions = []    ...: for row in all_actions.index:    ...:     if all_actions.ix[row,'Lower'] <= all_actions.ix[row, 'Mid'] <= all_actions.ix[row,'Upper']:    ...:         qualified_actions.append(True)    ...:     else:    ...:         qualified_actions.append(False)    ...:     ...: __main__:259: DeprecationWarning: .ix is deprecated. Please use.loc for label based indexing or.iloc for positional indexingSee the documentation here:http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated1 loop, best of 3: 579 ms per loopIn [86]: %%timeit    ...: (all_actions.apply(lambda row: row['Lower'] <= row['Mid'] <= row['Upper'], axis=1))    ...: 1 loop, best of 3: 1.17 s per loopIn [87]: %%timeit    ...: ((all_actions['Lower'] <= all_actions['Mid']) & (all_actions['Mid'] <= all_actions['Upper']))    ...: 1000 loops, best of 3: 509 µs per loopIn [90]: %%timeit    ...: (all_actions.Mid.between(all_actions.Lower, all_actions.Upper))    ...: 1000 loops, best of 3: 520 µs per loop

为什么熊猫在这里应用lambda比循环慢？

面试问答相关栏目本月热门文章