我认为这个问题突出了(某种程度上)从高级语言调用预编译函数的局限性。假设在C ++中,您编写如下内容:
for (int i = 0; i != N; ++i) a[i] = b[i] + c[i] + 2 * d[i];
编译器会在编译时看到整个表达式。它可以在这里做很多非常聪明的事情,包括优化临时文件(以及循环展开)。
但是在python中,请考虑发生了什么:当您使用numpy时,每个``+”都会在np数组类型上使用运算符重载(它们只是连续内存块的薄包装,即低级数组),并调出到一个fortran(或C
++)函数,该函数可以非常快速地执行添加操作。但是它只是做一个加法,并吐出一个临时值。
我们可以看到,虽然numpy很棒,方便且相当快,但它却使速度变慢,因为虽然看起来它正在调用一种快速的编译语言来进行艰苦的工作,但编译器却看不到整个程序,只喂一些孤立的小片段。这对编译器非常不利,特别是现代的编译器,它们非常聪明,当编写良好的代码时,每个周期可以退出多个指令。
另一方面,Numba使用了jit。因此,在运行时,它可以确定不需要临时工,并对其进行优化。基本上,Numba可以将程序作为一个整体进行编译,numpy只能调用本身已预先编译的小原子块。



