用pandas跑数据时发现数据量太大,用pandarallel库并行加快速度。
from pandarallel import pandarallel
pandarallel.initialize()
import pandas as pd
def func(x,a,b,c):
return 5,5
data = pd.DataFrame([[2001,1,0,0],[2002,2,0,0],[2002,3,0,0],[2003,4,0,0]],columns = ['year','number','a','b'])
data[data.year==2004].parallel_apply(func,axis=1,args=(1,1,1,),result_type='expand')
没想到报错了:
ValueError: Number of processes must be at least 1
原来是
data[data.year==2004]
得到的结果是空的,parallel_apply直接就报错跑不了了,这应该算没 fix 的bug



