这里似乎没有任何实际的性能差异。
当我运行您的代码并交换两个测试时,以第二个为准。
当我使用
timeit适当的基准测试时,它们大约需要相同的时间(540ms
/与539ms
divide)。
我的猜测是,您所测量的差异是对数组进行malloc的时间-第一个需要这样做,第二个可以重用刚释放的内存。
但是,让我们看一下源代码。中的代码
generate_umath.py创建实际的代码,并为的插槽分配相同的代码
Ufunc(名为
numpy.core.umath.divide)。(如果你想知道为什么我抬起头,当你使用和替代和,看到评论后它删除了Python
3中,因为它会被它别名。)IIRC,实际的代码是类型开关和大小最终会出现在中的一个循环模板中。
np.floor_divide``PyNumber_FloorDivide``np.ndarray``floor_divide``divide``/``floor_divide``//``divide``true_divide
loops.c.src
因此,除了显式的Ufunc包装器代码与内置
method-wrapper包装器代码(对于任何不是很小的数组都无关紧要)之间的差异之外,它们最终都位于同一位置。



