LSF快速参考

Ms.Haoz大约 9 分钟

快速参考 LSF命令、守护程序、配置文件、日志文件和重要的群集配置参数。

Unix和Linux安装目录

lsfdir
lsfdir

用户命令

查看有关群集的信息。

命令描述
bhosts显示主机及其静态和动态资源
Blimits显示有关正在运行的资源分配限制的信息 工作
bparams显示有关可调批处理系统参数的信息
bqueues显示有关批处理队列的信息
busers显示有关用户和用户组的信息
lshosts显示主机及其静态资源信息
lsid显示当前LSF版本号、群集名称和管理主机名
lsinfo显示负载共享配置信息
lsload显示主机的动态负载指数

监视作业和任务。

命令描述
bacct报告已完成的 LSF作业的会计统计信息
bapp显示有关附加到应用程序的作业的信息 配置 文件
bhist显示有关作业的历史信息
bjobs显示有关作业的信息
bpeek显示未完成的标准输出和标准 工作
bsla显示有关面向目标的服务类配置的信息 服务级别协议调度
bstatus读取或设置外部作业状态消息和数据文件

提交和控制作业。

命令描述
bbot相对于队列中的最后一个作业移动挂起的作业
bchkpnt检查点可检查点作业
bkill向作业发送信号
bmig迁移可检查点或可重新运行的作业
bmod修改作业提交选项
brequeue终止作业并将其重新排队
bresize释放槽并取消挂起的作业大小调整分配 请求
brestart重新启动检查点作业
bresume恢复挂起的作业
bstop暂停作业
bsub提交作业
bswitch将未完成的作业从一个队列移动到另一个队列
btop相对于队列中的第一个作业移动挂起的作业

bsub 命令

bsub[][] 命令的选定选项。

选项描述
-ar指定作业可自动调整大小
-H在提交时将作业保持在 PSUSP 状态
-I|-Ip|-Is提交批量交互式作业。-Ip创建一个伪终端。-Is在 shell 模式下创建一个伪终端。
-K提交作业并等待作业完成
-r使作业可重新运行
-x独占执行
-app application_profile_name将作业提交到指定的应用程序配置文件
-b begin_time在指定的日期和时间当天或之后以 [[:]:] 的形式派送作业:monthdayminute
-C core_limit为属于此作业的所有进程设置每个进程(软)核心文件大小限制 (KB)
-c [ | cpu_time/host_name/host_model]限制作业可以使用的总 CPU 时间。CPU 时间采用 [:] 的形式hourminutes
-CWD "current_working_directory"指定作业的当前工作目录
-D data_limit设置每个进程(软)数据段大小 属于作业的每个进程的限制 (KB)
-E "pre_exec_command [arguments]"在作业之前在执行主机上运行指定的 pre-exec 命令 运行
-Ep "post_exec_command [arguments]"作业完成后,在执行主机上运行指定的 post-exec 命令
-e error_file将标准错误输出追加到文件
-eo error_file将作业的标准错误输出覆盖到指定文件
-F file_limit为属于作业的每个进程设置每个进程(软)文件大小限制 (KB)
-f "[]" ...local_fileopremote_file在本地(提交)主机和远程(执行)主机之间复制文件。 是 >、<、<<、><、<>op 之一
-i-isinput_file input_file
-J "job_name[index_list]%job_slot_limit"为作业分配指定的名称。作业数组index_list的格式为 [-[:]],并且 %是可以同时运行的最大作业数 时间。startendstepjob_slot_limit
-k "[][method=chkpnt_dirchkpnt_periodmethod_name]"使作业可检查点,并指定检查点目录、时间段(以分钟为单位)和方法
-M mem_limit设置每个进程(软)内存限制 (KB)
-m "[@][[!] | +[]] |[[!]|+[]] |[[!]|+[]]..."
host_namecluster_namepref_levelhost_grouppref_levelcompute_unitpref_level
在指定的主机之一上运行作业。主机名称后面的加号 (+) 或 组表示首选项。(可选)正整数表示首选项级别。 数字越高表示偏好越大。
-n [,min_procmax_proc]指定 所需的最小和最大处理器数 并行作业
-o output_file将标准输出追加到文件
-oo output_file将作业的标准输出覆盖到指定文件
-p process_limit限制整个作业的进程数
-q "..."queue_name将作业提交到指定的队列之一
-R "" [-R "" ...]res_reqres_req指定主机资源要求
-S stack_limit为属于作业的每个进程设置每个进程(软)堆栈段大小限制 (KB)
-SLA service_class_name指定要在其中运行作业的服务类
-T thread_limit设置整个作业的并发线程数限制
-t term_time以 [[:]:] 格式指定作业终止截止时间:monthdayhourminute
-v swap_limit设置整个作业的总进程虚拟内存限制 (KB)
-W [/ | /run_timehost_namehost_model]在窗体中设置作业的运行时限制 [:]hourminute
-h将命令用法打印到stderr并退出
-V将LSF发布版本打印到stderr并退出

管理和记帐命令

只有LSF管理员和 root 用户才能使用这些命令。

命令描述
lsadminLSF管理员工具,用于控制LSF集群中 LIM 和 RES 守护进程的操作,lsadmin 帮助显示全部 子命令
lsfinstall使用install.config输入文件安装LSF
lsfrestart在本地群集中的所有主机上重新启动LSF守护程序
lsfshutdown关闭本地群集中所有主机上的LSF守护程序
lsfstartup在本地群集中的所有主机上启动LSF守护程序
badminLSF管理工具,用于控制LSF批处理系统(批处理、mbatchd、主机和 queues)badminhelp 显示所有子命令
bconf更改活动内存中的LSF配置

守护程序错误日志文件

守护程序错误日志文件存储在lsf.conf文件中由LSF_LOGDIR定义的目录中。

LSF基本系统守护程序日志文件LSF批处理系统守护程序日志文件
pim.log.host_namembatchd.log.host_name
res.log.host_namesbatchd.log.host_name
lim.log.host_namembschd.log.host_name

如果EGO_LOGDIR参数是在ego.conf文件中定义的,则lim.log。host_name文件存储在 由EGO_LOGDIR参数定义的目录。

配置文件

lsf.conf、lsf.shared和lsf.cluster。cluster_name文件位于 由lsf.conf文件中的LSF_CONFDIR参数指定的目录。

lsb.params、lsb.queues、lsb.modules和lsb.resources文件位于
LSB_CONFDIR/cluster_name/configdir/directory。

文件描述
install.configLSF安装和配置选项
lsf.conf描述配置和 集群的操作
lsf.shared所有集群共享的定义文件。用于定义群集名称、主机 类型、主机模型和站点定义的资源
lsf.cluster.cluster_name用于定义主机、管理员和 站点定义的共享资源的位置
lsb.applications定义应用程序配置文件以定义相同类型作业的通用参数
lsb.params配置LSF批处理参数
lsb.queues批处理队列配置文件
lsb.resources配置资源分配限制、导出和资源使用限制
lsb.serviceclasses将LSF群集中的服务级别协议 (SLA) 定义为服务类,这些服务类定义 SLA 的属性
lsb.users配置用户组、用户和用户组的分层公平共享以及用户和用户组的作业槽限制

lsf.conf 文件中的群集配置参数

参数描述UNIX 默认值
LSF_BINDIR包含LSF用户命令的目录,这些命令由同一类型的所有主机共享LSF_TOP/version/OStype/bin
LSF_CONFDIR所有LSF配置文件的目录LSF_TOP/conf
LSF_ENVDIR包含lsf.conf文件的目录。必须由根拥有。/etc (if LSF_CONFDIR is not defined)
LSF_INCLUDEDIR包含LSFAPI 头文件lsf.h 和 lsbatch.h的目录LSF_TOP/version/include
LSF_LIBDIRLSF库,由同一类型的所有主机共享LSF_TOP/version/OStype/lib
LSF_LOGDIR(可选)LSF守护程序日志的目录。必须由根拥有。/.tmp
LSF_LOG_MASK记录来自LSF命令的错误消息级别LOG_WARNING
LSF_MANDIR包含LSF手册页的目录LSF_TOP/version/man
LSF_MISC示例 C 程序和 shell 脚本,以及外部 LIM 的模板 (elim)LSF_TOP/version/misc
LSF_SERVERDIR所有服务器二进制文件和 shell 脚本以及外部可执行文件的目录 由LSF守护程序启动的文件,必须由 root 拥有,并由同一类型的所有主机共享LSF_TOP/version/OStype/etc
LSF_TOP顶级安装目录。群集中的所有主机必须共享和访问LSF_TOP路径。它不能是根目录 (/)。Not defined
Required for installation
LSB_CONFDIRLSF批处理配置目录的目录,包含用户和主机列表、操作参数、 和批处理队列LSF_CONFDIR/lsbatch
LSF_LIVE_CONFDIR由bconf命令写入的LSF实时重新配置目录的目录。LSB_SHAREDIR/cluster_name/live_confdir
LSF_SHAREDIR每个群集的LSF批处理作业历史记录和记帐日志文件的目录必须由主LSF管理员拥有LSF_TOP/work
LSF_LIM_PORT用于与lim守护程序通信的 TCP 服务端口7879
LSF_RES_PORT用于与res守护程序通信的 TCP 服务端口6878
LSF_MBD_PORT用于与mbatch 守护程序通信的 TCP 服务端口6881
LSF_SBD_PORT用于与批处理守护程序通信的 TCP 服务端口6882

守护进程

守护程序名称描述
lim负载信息管理器 (LIM):收集有关所有负载和资源的信息 集群中的服务器主机,并通过 利斯利布。LIM 维护有关静态系统资源和动态负载的信息 指标
mbatchd管理批处理守护程序 (MBD):接受并保留所有批处理作业。定期 MBD 通过联系管理主机 LIM 检查所有服务器主机上的负载索引。
mbschd管理批处理调度程序守护进程:执行LSF的调度功能,并将作业调度决策发送到 MBD 进行调度。在LSF管理主机上运行
sbatchd服务器批处理守护程序 (SBD):接受来自 MBD 的作业执行请求,并监视 工作的进展。控制作业执行,实施批处理策略,报告作业状态 到 MBD,然后启动 MBD。
pim进程信息管理器 (PIM):监视已提交的资源 作业运行时。PIM 用于强制实施资源限制和负载阈值, 和公平分享调度
res远程执行服务器 (RES):接受来自所有 负载共享应用程序并处理远程主机上的 I/O 以实现负载共享 过程。
评论
  • 按正序
  • 按倒序
  • 按热度
Powered by Waline v2.14.7

回到顶部