要在Yarn客户端模式下使用Spark,您需要将所有依赖项安装到Yarn启动执行程序的机器上。这是使这项工作唯一有效的方法。
将Spark与Yarn群集模式一起使用是另一回事。您可以使用spark-submit分发python依赖项。
spark-submit --master yarn-cluster my_script.py --py-files my_dependency.zip
但是,使用numpy的情况由于使它变得如此快的同一件事而变得复杂:在C中进行繁重的工作。由于它的安装方式,您将无法以这种方式分发numpy。



