LSF快速参考
大约 9 分钟
快速参考 LSF命令、守护程序、配置文件、日志文件和重要的群集配置参数。
Unix和Linux安装目录
用户命令
查看有关群集的信息。
命令 | 描述 |
---|---|
bhosts | 显示主机及其静态和动态资源 |
Blimits | 显示有关正在运行的资源分配限制的信息 工作 |
bparams | 显示有关可调批处理系统参数的信息 |
bqueues | 显示有关批处理队列的信息 |
busers | 显示有关用户和用户组的信息 |
lshosts | 显示主机及其静态资源信息 |
lsid | 显示当前LSF版本号、群集名称和管理主机名 |
lsinfo | 显示负载共享配置信息 |
lsload | 显示主机的动态负载指数 |
监视作业和任务。
命令 | 描述 |
---|---|
bacct | 报告已完成的 LSF作业的会计统计信息 |
bapp | 显示有关附加到应用程序的作业的信息 配置 文件 |
bhist | 显示有关作业的历史信息 |
bjobs | 显示有关作业的信息 |
bpeek | 显示未完成的标准输出和标准 工作 |
bsla | 显示有关面向目标的服务类配置的信息 服务级别协议调度 |
bstatus | 读取或设置外部作业状态消息和数据文件 |
提交和控制作业。
命令 | 描述 |
---|---|
bbot | 相对于队列中的最后一个作业移动挂起的作业 |
bchkpnt | 检查点可检查点作业 |
bkill | 向作业发送信号 |
bmig | 迁移可检查点或可重新运行的作业 |
bmod | 修改作业提交选项 |
brequeue | 终止作业并将其重新排队 |
bresize | 释放槽并取消挂起的作业大小调整分配 请求 |
brestart | 重新启动检查点作业 |
bresume | 恢复挂起的作业 |
bstop | 暂停作业 |
bsub | 提交作业 |
bswitch | 将未完成的作业从一个队列移动到另一个队列 |
btop | 相对于队列中的第一个作业移动挂起的作业 |
bsub 命令
bsub[][] 命令的选定选项。
选项 | 描述 |
---|---|
-ar | 指定作业可自动调整大小 |
-H | 在提交时将作业保持在 PSUSP 状态 |
-I|-Ip|-Is | 提交批量交互式作业。-Ip创建一个伪终端。-Is在 shell 模式下创建一个伪终端。 |
-K | 提交作业并等待作业完成 |
-r | 使作业可重新运行 |
-x | 独占执行 |
-app application_profile_name | 将作业提交到指定的应用程序配置文件 |
-b begin_time | 在指定的日期和时间当天或之后以 [[:]:] 的形式派送作业:monthdayminute |
-C core_limit | 为属于此作业的所有进程设置每个进程(软)核心文件大小限制 (KB) |
-c [ | cpu_time/host_name/host_model] | 限制作业可以使用的总 CPU 时间。CPU 时间采用 [:] 的形式hourminutes |
-CWD "current_working_directory" | 指定作业的当前工作目录 |
-D data_limit | 设置每个进程(软)数据段大小 属于作业的每个进程的限制 (KB) |
-E "pre_exec_command [arguments]" | 在作业之前在执行主机上运行指定的 pre-exec 命令 运行 |
-Ep "post_exec_command [arguments]" | 作业完成后,在执行主机上运行指定的 post-exec 命令 |
-e error_file | 将标准错误输出追加到文件 |
-eo error_file | 将作业的标准错误输出覆盖到指定文件 |
-F file_limit | 为属于作业的每个进程设置每个进程(软)文件大小限制 (KB) |
-f "[]" ...local_fileopremote_file | 在本地(提交)主机和远程(执行)主机之间复制文件。 是 >、<、<<、><、<>op 之一 |
-i | -isinput_file input_file |
-J "job_name[index_list]%job_slot_limit" | 为作业分配指定的名称。作业数组index_list的格式为 [-[:]],并且 %是可以同时运行的最大作业数 时间。startendstepjob_slot_limit |
-k "[][method=chkpnt_dirchkpnt_periodmethod_name]" | 使作业可检查点,并指定检查点目录、时间段(以分钟为单位)和方法 |
-M mem_limit | 设置每个进程(软)内存限制 (KB) |
-m "[@][[!] | +[]] |[[!]|+[]] |[[!]|+[]]..." host_namecluster_namepref_levelhost_grouppref_levelcompute_unitpref_level | 在指定的主机之一上运行作业。主机名称后面的加号 (+) 或 组表示首选项。(可选)正整数表示首选项级别。 数字越高表示偏好越大。 |
-n [,min_procmax_proc] | 指定 所需的最小和最大处理器数 并行作业 |
-o output_file | 将标准输出追加到文件 |
-oo output_file | 将作业的标准输出覆盖到指定文件 |
-p process_limit | 限制整个作业的进程数 |
-q "..."queue_name | 将作业提交到指定的队列之一 |
-R "" [-R "" ...]res_reqres_req | 指定主机资源要求 |
-S stack_limit | 为属于作业的每个进程设置每个进程(软)堆栈段大小限制 (KB) |
-SLA service_class_name | 指定要在其中运行作业的服务类 |
-T thread_limit | 设置整个作业的并发线程数限制 |
-t term_time | 以 [[:]:] 格式指定作业终止截止时间:monthdayhourminute |
-v swap_limit | 设置整个作业的总进程虚拟内存限制 (KB) |
-W [/ | /run_timehost_namehost_model] | 在窗体中设置作业的运行时限制 [:]hourminute |
-h | 将命令用法打印到stderr并退出 |
-V | 将LSF发布版本打印到stderr并退出 |
管理和记帐命令
只有LSF管理员和 root 用户才能使用这些命令。
命令 | 描述 |
---|---|
lsadmin | LSF管理员工具,用于控制LSF集群中 LIM 和 RES 守护进程的操作,lsadmin 帮助显示全部 子命令 |
lsfinstall | 使用install.config输入文件安装LSF |
lsfrestart | 在本地群集中的所有主机上重新启动LSF守护程序 |
lsfshutdown | 关闭本地群集中所有主机上的LSF守护程序 |
lsfstartup | 在本地群集中的所有主机上启动LSF守护程序 |
badmin | LSF管理工具,用于控制LSF批处理系统(批处理、mbatchd、主机和 queues)badminhelp 显示所有子命令 |
bconf | 更改活动内存中的LSF配置 |
守护程序错误日志文件
守护程序错误日志文件存储在lsf.conf文件中由LSF_LOGDIR定义的目录中。
LSF基本系统守护程序日志文件 | LSF批处理系统守护程序日志文件 |
---|---|
pim.log.host_name | mbatchd.log.host_name |
res.log.host_name | sbatchd.log.host_name |
lim.log.host_name | mbschd.log.host_name |
如果EGO_LOGDIR参数是在ego.conf文件中定义的,则lim.log。host_name文件存储在 由EGO_LOGDIR参数定义的目录。
配置文件
lsf.conf、lsf.shared和lsf.cluster。cluster_name文件位于 由lsf.conf文件中的LSF_CONFDIR参数指定的目录。
lsb.params、lsb.queues、lsb.modules和lsb.resources文件位于
LSB_CONFDIR/cluster_name/configdir/directory。
文件 | 描述 |
---|---|
install.config | LSF安装和配置选项 |
lsf.conf | 描述配置和 集群的操作 |
lsf.shared | 所有集群共享的定义文件。用于定义群集名称、主机 类型、主机模型和站点定义的资源 |
lsf.cluster.cluster_name | 用于定义主机、管理员和 站点定义的共享资源的位置 |
lsb.applications | 定义应用程序配置文件以定义相同类型作业的通用参数 |
lsb.params | 配置LSF批处理参数 |
lsb.queues | 批处理队列配置文件 |
lsb.resources | 配置资源分配限制、导出和资源使用限制 |
lsb.serviceclasses | 将LSF群集中的服务级别协议 (SLA) 定义为服务类,这些服务类定义 SLA 的属性 |
lsb.users | 配置用户组、用户和用户组的分层公平共享以及用户和用户组的作业槽限制 |
lsf.conf 文件中的群集配置参数
参数 | 描述 | UNIX 默认值 |
---|---|---|
LSF_BINDIR | 包含LSF用户命令的目录,这些命令由同一类型的所有主机共享 | LSF_TOP/version/OStype/bin |
LSF_CONFDIR | 所有LSF配置文件的目录 | LSF_TOP/conf |
LSF_ENVDIR | 包含lsf.conf文件的目录。必须由根拥有。 | /etc (if LSF_CONFDIR is not defined) |
LSF_INCLUDEDIR | 包含LSFAPI 头文件lsf.h 和 lsbatch.h的目录 | LSF_TOP/version/include |
LSF_LIBDIR | LSF库,由同一类型的所有主机共享 | LSF_TOP/version/OStype/lib |
LSF_LOGDIR | (可选)LSF守护程序日志的目录。必须由根拥有。 | /.tmp |
LSF_LOG_MASK | 记录来自LSF命令的错误消息级别 | LOG_WARNING |
LSF_MANDIR | 包含LSF手册页的目录 | LSF_TOP/version/man |
LSF_MISC | 示例 C 程序和 shell 脚本,以及外部 LIM 的模板 (elim) | LSF_TOP/version/misc |
LSF_SERVERDIR | 所有服务器二进制文件和 shell 脚本以及外部可执行文件的目录 由LSF守护程序启动的文件,必须由 root 拥有,并由同一类型的所有主机共享 | LSF_TOP/version/OStype/etc |
LSF_TOP | 顶级安装目录。群集中的所有主机必须共享和访问LSF_TOP路径。它不能是根目录 (/)。 | Not defined Required for installation |
LSB_CONFDIR | LSF批处理配置目录的目录,包含用户和主机列表、操作参数、 和批处理队列 | LSF_CONFDIR/lsbatch |
LSF_LIVE_CONFDIR | 由bconf命令写入的LSF实时重新配置目录的目录。 | LSB_SHAREDIR/cluster_name/live_confdir |
LSF_SHAREDIR | 每个群集的LSF批处理作业历史记录和记帐日志文件的目录必须由主LSF管理员拥有 | LSF_TOP/work |
LSF_LIM_PORT | 用于与lim守护程序通信的 TCP 服务端口 | 7879 |
LSF_RES_PORT | 用于与res守护程序通信的 TCP 服务端口 | 6878 |
LSF_MBD_PORT | 用于与mbatch 守护程序通信的 TCP 服务端口 | 6881 |
LSF_SBD_PORT | 用于与批处理守护程序通信的 TCP 服务端口 | 6882 |
守护进程
守护程序名称 | 描述 |
---|---|
lim | 负载信息管理器 (LIM):收集有关所有负载和资源的信息 集群中的服务器主机,并通过 利斯利布。LIM 维护有关静态系统资源和动态负载的信息 指标 |
mbatchd | 管理批处理守护程序 (MBD):接受并保留所有批处理作业。定期 MBD 通过联系管理主机 LIM 检查所有服务器主机上的负载索引。 |
mbschd | 管理批处理调度程序守护进程:执行LSF的调度功能,并将作业调度决策发送到 MBD 进行调度。在LSF管理主机上运行 |
sbatchd | 服务器批处理守护程序 (SBD):接受来自 MBD 的作业执行请求,并监视 工作的进展。控制作业执行,实施批处理策略,报告作业状态 到 MBD,然后启动 MBD。 |
pim | 进程信息管理器 (PIM):监视已提交的资源 作业运行时。PIM 用于强制实施资源限制和负载阈值, 和公平分享调度 |
res | 远程执行服务器 (RES):接受来自所有 负载共享应用程序并处理远程主机上的 I/O 以实现负载共享 过程。 |
Powered by Waline v2.14.7