spark-submit [选项]选项说明[app arguments] spark-submit --kill [submission ID] --master [spark://...] spark-submit --status [submission ID] --master [spark://...]
| 选项 | 说明 |
|---|---|
| --master MASTER_URL | spark://host:port,mesos://host:port,yarn, or local |
| --deploy-mode DEPLOY_MODE | 在哪里启动驱动程序:本地(client,默认)、集群(cluster) |
| --class CLASS_NAME | 应用程序的Main类 |
| --name NAME | 应用名称 |
| --jars JARS | 包含在驱动程序和执行程序类路径中的本地 jar,多个jar包用逗号分隔 |
| --packages | 包含在驱动程序和执行程序类路径中的 jar 的 Maven 坐标。 jar包搜索顺序:本地 Maven -> Maven 中央存储库 -> --repositories 提供的任何其他远程存储库。 参数格式:groupId:artifactId:version |
| --exclude-packages | 解析--packages中提供的依赖项时排除产生冲突的依赖,采用逗号分隔。 参数格式:groupId:artifactId:version |
| --repositories | 远程仓库地址,多个地址用逗号分隔 |
| --py-files PY_FILES | 放置在 Python 应用程序的 PYTHonPATH 上的 .zip、.egg 或 .py 文件的逗号分隔列表 |
| --files FILES | 放置在每个执行程序的工作目录中的文件的逗号分隔列表。 |
| --conf PROP=VALUE | Spark 配置属性 |
| --properties-file FILE | 加载额外属性的文件路径。 未指定则默认查找 conf/spark-defaults.conf |
| --driver-memory MEM | 驱动程序内存(例如 1000M、2G)(默认值:1024M) |
| --driver-java-options | 传递给驱动程序的额外 Java 选项 |
| --driver-library-path | 传递给驱动程序的额外库路径 |
| --driver-class-path | 要传递给驱动程序的额外类路径条目。 注意,使用 --jars 添加的 jar 会自动包含在类路径中。 |
| --executor-memory MEM | 每个执行器的内存(例如 1000M、2G)(默认值:1G)。 |
| --proxy-user NAME | 提交时的代理用户。 此参数不适用于 --principal / --keytab |
| --help, -h | 显示此帮助消息并退出 |
| --verbose, -v | 打印额外的调试输出 |
| --version | 打印当前 Spark 的版本 |
仅适用具有集群部署模式的Spark:
| 选项 | 说明 |
|---|---|
| --driver-cores NUM | 驱动程序内核(默认值:1) |
仅适用Spark Standalone 或 Mesos 集群部署模式 :
| 选项 | 说明 |
|---|---|
| --supervise | 如果设置此项,则在失败时会重新启动驱动程序 |
| --kill SUBMISSION_ID | 如果设置此项,则杀死指定的驱动程序 |
| --status SUBMISSION_ID | 如果设置此项,则请求指定驱动程序的状态 |
仅适用Spark standalone 和 Mesos模式:
| 选项 | 说明 |
|---|---|
| --total-executor-cores NUM | 所有执行程序的总内核数 |
仅适用Spark standalone 和 YARN模式:
| 选项 | 说明 |
|---|---|
| --executor-cores NUM | 每个执行程序的核心数。 (默认值:YARN 模式下为 1,或独立模式下工作器上的所有可用内核) |
仅适用YARN:
| 选项 | 说明 |
|---|---|
| --driver-cores NUM | 驱动程序使用的内核数,仅在集群模式下(默认值:1) |
| --queue QUEUE_NAME | 要提交到的 YARN 队列(默认值:default) |
| --num-executors NUM | 要启动的执行程序数量(默认值:2) |
| --archives ARCHIVES | 要提取到每个执行程序的工作目录中的以逗号分隔的档案列表。 |
| --principal PRINCIPAL | 在安全 HDFS 上运行时用于登录 KDC 的主体。 |
| --keytab KEYTAB | 包含上面指定的主体的密钥表的文件的完整路径。 该密钥表将通过安全分布式缓存复制到运行 Application Master 的节点,以定期更新登录票证和委托令牌。 |



