栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

LSF分布资源管理工具,作业提交系统

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

LSF分布资源管理工具,作业提交系统

目录

1、LSF使用前应设置相应的环境变量

2、提交作业

3、LSF队列状况

4、查看作业状态和删除作业等常用命令


LSF(Load Sharing Facility)是由platform公司开发的分布资源管理工具,它用来调度、监视、分析联网计算机的负载,可以对Cluster机群的资源进行统一调度和监控。

1、LSF使用前应设置相应的环境变量

csh用户,登录系统后执行  source/export/lsf/conf/cshrc.lsf

bash用户,登录系统后执行  ./export/lsf/conf/profile.lsf

用户也可写入.cshrc或 .bashrc,则登录后就能设置相应的环境变量。

2、提交作业

LSF使用bsub命令来提交作业。

bsub命令格式如下:

bsub  [options]   command   [argument]

-q    选择队列,指定作业提交到的队列,如果不采用-q选项,系统吧作业提交到默认作业队列。

-i     指定输入文件 

-I      交互模式,此时终端不能输入

-o     指定输出文件,作业提交后标准输出的信息会保存到这个文件中。

-e     指定输出文件,作业提交后标准错误输出的信息会保存到这个文件中。

-n     指定作业需要的CPU核

-J     作业的名字

-w  ‘dependecy_expression’  , 提交作业前,指定操作。

              操作有: done 

                             ended, 如 –e “ended(aaaa*)” , 表示作业名中有aaaa的作业,完成之后才可以提交作业

                             exit

-W    限定作业运行时间

-K     提交作业,并且等待作业完成。当提交作业后,终端打印“waiting for dispath”。当作业完成后,终端打印“job is finished”。作业没有完成,不能提交新的作业。

bsub -n z -q QUEUENAME -I inputfile -o outputfile COMMAND

其中,

z:代表提交作业需要的CPU数;

inputfile:代表程序需要读入的文件名;

outputfile:代表一个文件,作业提交后标准输出的信息将会保存到这个文件中。

COMMAND:是用户要运行的程序。

3、LSF队列状况

LSF分了如下几个作业组:

(1)长时间并行作业组

QL_Norm

(2)串行作业组

QS_Norm 队列,该队列用于串行短时间作业,最长作业执行时间为12小时。

QS_Long   队列,该队列专用于长时间串行作业,作业不限执行时间。

(3)短时间并行作业组

QN_Norm 队列,该队列用于运行短时间并行作业,最长作业执行时间为12小时。

QN_Debug 队列,该队列用于调试或试算,最长作业执行时间为5分钟。

用户要根据自己的需求,选择适当的作业组进行作业提交。

4、查看作业状态和删除作业等常用命令

bjobs         检查提交作业状态

bjobs  -r     显示正在运行的作业

bjobs  -a    显示正在运行的和最近完成的作业

bjobs  -p    显示等待运行的作业和等待原因

bjobs  -s     显示正在挂起的作业和挂起的原因

bjobs  -l     显示该作业的所有信息

bhist         显示最近完成作业或正在运行作业的历史情况

bhist 

bkill   -p    删除不需要的作业

bkill  

bkill   -r 

bpeek       当作业正在运行时显示它的标准输出,监视作业运行

bpeek       

bqueues     显示队列信息

bqueues   -l 

参数

解释

QUEUE_NAME

队列的名字

PRIO

队列的优先级,数字越大,优先级越高

STATUS

状态

Open:Active  表示已激活,可使用

Closed:Active  表示已关闭,不可使用

MAX

队列对应的最大CPU核数目,|表示无限

JL/U

单个用户同时可以使用的CPU核数

NJOBS

排队、运行和被挂起的总作业所占CPU核数

PEND

排队中的作业所需CPU核数

RUN

运行中的作业所占CPU核数

SUSP

被挂起的作业所占CPU核数

bhosts             显示各节点作业相关情况

bhost     

lsload         显示各节点负载信息

lsload   

lshosts        处理各节点静态资源信息

lshosts  


参考文章:https://blog.csdn.net/l471094842/article/details/94039624

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/709191.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号