LSF
?/p>
Load Sharing Facility
)是?/p>
platform
公司开发的分布资源管理工具。它用来调度、监视、分
析联网计算机的负载,可以?/p>
Cluster
机群的资源统一调度和监控?/p>
一
LSF
使用方法
1
、设置环境变量:
用户使用
LSF
前,应设置相应的环境变量?/p>
csh
用户,登录系统后执行
source /export/lsf/conf/cshrc.lsf
bash
用户,登录系统后执行
. /export/lsf/conf/profile.lsf
用户也可写入
.cshrc
?/p>
.bashrc
,则登录后就能设置相应的环境变量?/p>
2
、提交作?/p>
LSF
使用
bsub
命令来提交作业?/p>
bsub
命令常见用法如下?/p>
bsub
?/p>
n z
?/p>
q QUEUENAME
?/p>
i inputfile
?/p>
o outputfile COMMAND
其中
z
代表了提交作业需要的
cpu
数,
?/p>
q
指定作业提交到的队列?/p>
创建时间?/p>
2006-12-12 15:54:00 1
?/p>
果不采用
?/p>
q
选项,系统把作业提交到默认作业队列(作业队列详细介绍请看下一节)?/p>
inputfile
代表程序需要读入的文件名(例如
namelist
等)?/p>
outputfile
代表一个文件,作业提交后标准输出的
信息将会保存到这个文件中?/p>
COMMAND
是用户要运行的程序?/p>
?/p>
1
)对于串行程?/p>
COMMAND
可以直接使用用户的程序名
例如,对一个运行时?/p>
12
小时内完成的串行作业
mytest
?/p>
提交方式为:
bsub
?/p>
n 1
?/p>
q QS_Norm
?/p>
o mytest.out ./mytest
?/p>
2
?/p>
对于并行作业
COMMAND
?/p>
“?/p>
a mpich_gm mpirun.lsf
程序?/p>
?/p>
因为并行作业必须用到
MyriNET
库,所以提交的时候必须使?/p>
?/p>
a mpich_gm mpirun.lsf
例如对于一?/p>
12
个小时内完成,使?/p>
16
?/p>
cpu
的并行作?/p>
mytest
,提交方式为?/p>
bsub
?/p>
n 16
?/p>
q QN_Norm
?/p>
o mytest.out
?/p>
a mpich_gm mpirun.lsf ./mytest
目前,系统规定每个用户最多只能使?/p>
16
?/p>
cpu
?/p>
3
、使用脚本提交作?/p>
bsub
命令可以使用输入脚本多次提交具有相同参数的作业,格式为:
创建时间?/p>
2006-12-12
15:54:00 2
#BSUB
?/p>
n Z #BSUB
?/p>
q QUEUENAME #BSUB
?/p>
o OUTPUTFILE COMMAND
该脚本的参数与命令行
?nbsp;bsub ?/p>
n Z
?/p>
q QUEUENAME
–o outputfile COMMAND?/p>
参数相同?/p>
提交时为
bsub <
脚本?/p>
例如要提交一?/p>
12
小时内完成,需?/p>
16
?/p>
cpu
的并行作?/p>
mytest
,可以编写作业脚?/p>
bsub.scriptfile
#BSUB
?/p>
n 16
#BSUB
?/p>
q QN_Norm
#BSUB
?/p>
o mytest.out
?/p>
a mpich_gm mpirun.lsf ./mytest
作业提交方法为:
bsub<bsub.scriptfile
二?/p>
LSF
队列状况
LSF
分了如下几个作业组:
1
、长时间并行作业组(
LSF
管理?/p>
?/p>
1
?/p>
QL_Norm
队列
创建时间?/p>
2006-12-12 15:54:00 3
该队列用于运行长时间并行作业,作业不限执行时间。作业规模限制为:最多使?/p>
16
?/p>
CPU
?/p>