sacctmgr
名字
sacctmgr - 用于查看和修改 Slurm 帐户信息。
概要
sacctmgr[选项...][命令...]
描述
sacctmgr用于查看或修改 Slurm 帐户信息。 帐户信息保存在具有接口的数据库中 由slurmdbd(Slurm Database daemon) 提供。 该数据库可以作为用户的中央仓库和 单个站点上多台计算机的计算机信息。 基于四个参数记录 SLURM 帐户信息 形成所谓的关联。 这些参数是用户、集群、分区和帐户。用户是登录名。cluster是 Slurm 托管集群的名称,由 slurm.conf配置文件中的ClusterName参数。分区是该群集上 Slurm 分区的名称。帐户是作业的银行帐户。 预期的操作模式是启动sacctmgr命令, 然后添加、删除、修改和/或列出关联记录 提交更改并退出。
提示
Slurm 数据库的内容以小写形式维护。 这可能会导致某些sacctmgr输出与其他输出不同 Slurm 命令。
选项
-s,--associations
与 show 或 list 一起使用以显示与实体的关联。 这等效于关联命令。
-h,--help
打印描述sacctmgr 用法的帮助消息。 这等效于帮助命令。
-i,--immediate
立即提交更改,无需请求确认。
-n,--noheader
不会在输出的开头添加任何标头。
-p,--parsable
输出将以“|”分隔,末尾用“|”分隔。
-P,--parsable2
输出将以“|”分隔,末尾没有“|”。
-Q,--quiet
除错误消息外,不打印任何消息。 这相当于安静命令。
-r,--readonly
使正在运行的 sacctmgr 无法修改记帐信息。 只读选项用于交互模式。
-v,--verbose
启用详细日志记录。 这等效于详细命令。
-V,--version
显示版本号。 这等效于版本命令。
命令
add <ENTITY> <SPECS>
添加一个实体。 与 create 命令相同。
archive {dump|load} <SPECS>
将数据库信息写入平面文件或加载先前已写入文件的信息。
clear stats
清除服务器统计信息。
create <ENTITY> <SPECS>
添加实体。 与 add 命令相同。
delete <ENTITY> where <SPECS>
删除指定的实体。 与 remove 命令相同。
dump <ENTITY> [File=<FILENAME>]
将群集数据转储到指定文件。如果未指定文件名 默认情况下,它使用群集名称.cfg文件名。
help
显示 sacctmgr 选项和命令的说明。
list <ENTITY> [<SPECS>]
显示有关指定实体的信息。 默认情况下,将显示所有条目,您可以将结果缩小到 在查询中指定规格。 与显示命令相同。
load <FILENAME>
从指定文件加载群集数据。这是一个配置文件 通过运行 sacctmgr dump 命令生成。此命令执行 不加载存档数据,请参阅“sactmgr 存档加载”选项。
modify <ENTITY> where <SPECS> set <SPECS>
修改实体。
reconfigure
重新配置 SlurmDBD(如果使用一个)运行。
remove <ENTITY> where <SPECS>
删除指定的实体。 与删除命令相同。
show <ENTITY> [<SPECS>]
显示有关指定实体的信息。 默认情况下,将显示所有条目,您可以将结果缩小到 在查询中指定规格。 与列表命令相同。
shutdown
关闭服务器。
version
显示 sacctmgr 的版本号。
交互式命令
注意
下面列出的所有命令都可以在交互模式下使用,但不能在初始命令行上使用。
exit
终止 sacctmgr 交互模式。 与quit命令相同。
quiet
除错误消息外,不打印任何消息。
quit
终止执行 sacctmgr 交互模式。 与exit命令相同。
verbose
启用详细日志记录。 这包括数据结构上的时间戳、记录计数等。 这是一个独立的命令,没有用于 交互模式。
!!
重复上一个命令。
实体(ENTITIES)
account
银行帐户,通常在作业提交时使用 --account=option 指定。 这些可以按层次结构排列,例如 帐户“化学”和“物理”可能是 帐户“科学”。 层次结构可能具有任意深度。
association
用于对信息进行分组的实体,由四个参数组成:account, cluster, partition(optional)和user。 仅与list或show 命令一起使用。添加、修改和 应删除用户、帐户或群集实体,这将 进而更新基础关联。修改属性,例如 允许对关联进行限制,但不允许修改四个关联 关联的核心属性。您无法更改分区设置 (如果尚未设置,则设置一个)为现有关联。相反 您需要创建一个包含分区的新关联。你 可以保留未定义分区的先前关联,或删除 它。
提示
这些新添加的关联是唯一实体,任何 现有的使用信息将不会转移到新关联。
cluster
slurm.conf配置文件中的群集名称参数,用于区分不同计算机上的帐户。
configuration
仅与list或show命令一起使用以报告当前系统配置。
coordinator
一个特殊特权用户,通常是一个管理账户,可以将用户或子帐户添加到他们作为协调员的帐户。 这应该是一个受信任的人,因为他们可以更改限制 帐户和用户关联,以及取消、重新排队或重新分配 他们领域内的job记录。
event
事件类似群集上的节点关闭或耗尽等。
federation
一组协同工作以计划作业的群集。
job
用于修改作业的特定字段:Derived Exit Code、Comment、 AdminComment、SystemComment 或 WCKey。
problem
与show 或list 一起使用以显示实体问题。
QoS
服务质量。
reservation
为特定帐户、用户使用而分开的资源集合 或给定时间段内的用户组。
resource
系统的软件资源。这些软件许可证是共享在集群中的。
RunawayJobs
仅与list或show命令一起使用,以报告在本地集群上被孤立并且现在失控的当前作业。 如果有处于这种状态的作业,它还会为您提供“修复”它们的选项。
提示
您的 AdminLevel 必须至少为 Operator 才能执行此操作。
stats
与list或show命令一起使用以查看服务器统计信息。 接受ave_time或total_time的可选参数以对这些参数进行排序 领域。默认情况下,按递增的 RPC 计数字段排序。
transaction
在给定时间段内发生的事务列表。
tres
与list或show命令一起使用以查看可跟踪列表 在系统上配置的资源。
user
登录名。用户名不区分大小写(强制小写),除非 PreserveCaseUser选项已在 SlurmDBD 配置中设置 文件。
wckeys
工作负载特征描述密钥。用于对正交帐户进行分组的任意字符串。
基于协会的实体的一般规范
注意
组限制(GrpJobs、GrpTRES 等)在作业 正在考虑分配资源。 如果启动作业会导致超出其任何组限制, 即使该作业可能抢占,也不会考虑对该作业进行计划 其他将为待处理释放足够组资源的作业 要启动的作业。
DefaultQOS=<default_qos>
此关联及其子关联应具有的默认 QOS。 如果直接在用户上设置,则会覆盖此字段。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
Fairshare={<fairshare_number>|parent}
Share={<fairshare_number>|parent}
与其他帐户结合使用以确定作业的编号 优先权。在用户上使用时,也可以是字符串父级 这意味着父关联用于公平共享。如果 Fairshare=parent 是在帐户上设置的,该帐户的子帐户将是 有效地将公平份额计算重新设置为第一个父级 他们的父母不是公平分享=父母。限制保持不变, 只有其公平份额价值受到影响。清除先前设置的步骤 值 使用新值为 -1 的“modify”命令。
GrpJobs=<max_jobs>
聚合的最大正在运行作业数 该协会以及作为该协会子级的所有协会。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
GrpJobsAcrecie=<max_jobs>
总计中能够累积年龄优先级的最大待处理作业数 协会和作为该协会子级的所有协会。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
GrpSubmit=<max_jobs>
GrpSubmitJobs=<max_jobs>
随时可以处于挂起或正在运行状态的最大作业数 该协会和所有作为其子级的协会的合计 这个协会。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
GrpTRES=TRES=<max_TRES>[,TRES=<max_TRES>,...]
可以聚合分配的最大 TRES 运行作业数 该协会以及作为该协会子级的所有协会。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。 注意:此限制仅在使用选择易损件时完全适用 资源插件。
GrpTRESMins=TRES=<minutes>[,TRES=<minutes>,...]
过去可以使用的 TRES 分钟总数, 该协会及其子女现在和未来的工作。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。
提示
如果在根目录上设置了此限制,则不会强制执行此限制 集群的关联。所以即使它可能出现在 sacctmgr 输出,则不会强制执行。
另请注意
此限制仅适用于使用优先级多因素时 .plugin。使用优先级衰减半衰期的值衰减时间 或 slurm.conf 中设置的 PriorityUsageResetPeriod。当此限制 达到所有正在运行的关联作业将被终止,并且所有未来 与组中的关联一起提交的作业将延迟到 他们能够在限制内运行。
GrpTRESRunMins=TRES=<minutes>[,TRES=<minutes>,...]
用于限制所有 TRES 分钟数的总和 与此协会及其子级一起运行的工作。这需要 考虑正在运行的作业的时间限制并使用它(如果限制) 已达到,在其他作业完成以允许之前,不会启动任何新作业 是时候释放了。
GrpWall=<max_wall>
最大挂钟运行时间运行作业可以汇总分配给 该协会以及作为该协会子级的所有协会。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
提示
如果在集群的根关联上设置,则不会强制执行此限制。 所以即使它可能出现在 sacctmgr 输出中,它也不会被强制执行。
提示
此限制仅适用于使用优先级多因素时 .plugin。使用优先级衰减半衰期的值衰减时间 或 slurm.conf 中设置的 PriorityUsageResetPeriod。当此限制 达到所有正在运行的关联作业将被终止,并且所有未来 与组中的关联一起提交的作业将延迟到 他们能够在限制内运行。
MaxJobs=<max_jobs>
在此情况下,每个用户一次允许运行的最大作业数 协会。 如果直接在用户上设置,则会覆盖此字段。 默认值为群集的限制。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxJobsAccrue=<max_jobs>
在任何给定时间能够累积年龄优先级的最大待处理作业数 给定的关联。 如果直接在用户上设置,则会覆盖此字段。 默认值为群集的限制。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxSubmit=<max_jobs>
MaxSubmitJobs=<max_jobs>
此关联中可以具有的最大作业数 随时处于挂起或正在运行的状态。 默认值为群集的限制。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxTRESMins=TRES=<minutes>[,TRES=<minutes>,...]
MaxTRESMinsPerJob=TRES=<minutes>[,TRES=<minutes>,...]
每个作业在此关联中可以使用的最大 TRES 分钟数。 如果直接在用户上设置,则会覆盖此字段。 默认值为群集的限制。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。
MaxTRES=TRES=<max_TRES>[,TRES=<max_TRES>,...]
MaxTRESPerJob=TRES=<max_TRES>[,TRES=<max_TRES>,...]
每个作业在此关联中可以使用的最大 TRES 数。 如果直接在用户上设置,则会覆盖此字段。 默认值为群集的限制。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。
提示
此限制仅在使用cons_res或cons_tres选择类型插件时完全适用。
MaxWall=<max_wall>
MaxWallDurationPerJob=<max_wall>
每个作业能够在此关联中使用的最大挂钟时间。 如果直接在用户上设置,则会覆盖此字段。 默认值为群集的限制。 <最大墙>格式为 <分钟>或<分钟>:<秒>或<小时>:<分钟>:<秒>或 <天>-<小时>:<分钟>:<秒>或<天>-<小时>。 该值以分钟为单位记录,并根据需要四舍五入。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
提示
更改此值不会影响任何正在运行或 挂起的作业。
Priority
使用此关联时,作业优先级将添加到作业的优先级。 如果直接在用户上设置,则会覆盖此字段。 默认值为群集的限制。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
QosLevel<operator><comma_separated_list_of_qos_names>
指定作业能够运行的默认服务质量 对于这个协会。要获取有效 QOS 的列表,请使用“sacctmgr list qos”。 此值将覆盖其父值并向下推送到 子项作为新的默认值。将 QosLevel 设置为 ''(两个单 引号之间没有任何东西)恢复其默认设置。你 还可以使用运算符 += 和 -= 添加或删除某些 QOS 从 QOS 列表中。 有效的<运算符>值包括:
- =
将QosLevel设置为指定值。注:可以使用的QOS 层次结构中的给定帐户由该帐户的子帐户继承。 通过使用 =sign 分配 QOS,只有分配的 QOS 才能由 帐户及其子帐户。 - +=
将指定的 <qos> 值添加到当前Qos级别。该帐户将 有权访问此 QOS 和之前分配给它的其他 QOS。 - -=
从当前QosLevel 中删除指定的 <qos> 值。 请参阅下面的“示例”部分。
帐户规范
Cluster=<cluster>
要将帐户添加到的特定群集。默认值全部在系统中。
Description=<description>
描述帐户的任意字符串。
Name=<name>
银行帐户的名称。 请注意,名称必须是唯一的,不能代表不同的银行 帐户层次结构中不同点的帐户。
Organization=<org>
帐户所属的组织。
Parent=<parent>
此帐户的父帐户。默认为根账号,顶部 级别帐户。
RawUsage=<value>
这允许管理员将累积的原始使用量重置为 帐户。当前支持的唯一值是 0(零)。这是一个 仅可设置规范 - 它不能用作列表的过滤器 帐户。
WithAssoc
显示此帐户的所有关联。
WithCoord
显示此帐户的所有协调员。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除且没有 在此期间在帐户中运行的作业将从数据库中删除。 否则,该帐户将被标记为已删除,并可通过 已删除标志。
注意
如果使用 WithAssoc 选项,您还可以查询 关联特定信息,仅查看某些关联 此帐户可能有。这些额外的选项可以在关联规范部分找到。您还可以使用 一般规格列表在上面的一般规格 基于关联的实体部分。
列出/显示帐户格式选项
Account
银行帐户的名称。
Account
描述帐户的任意字符串。
Organization
帐户所属的组织。
Coordinators
作为帐户协调员的用户列表。(仅填写 使用“带协调器”选项时。)
提示
如果使用 WithAssoc 选项,您还可以查看信息 关于该帐户可能在所有 系统中的集群。可以筛选关联信息。 请注意,数据库中的所有帐户将始终仅显示为筛选器 对关联数据生效。关联格式字段为 在列表/显示关联格式选项部分中进行了描述。
协会规范
Clusters=<cluster_name>[,<cluster_name>,...]
列出群集的关联。
Accounts=<account_name>[,<account_name>,...]
列出帐户的关联。
Users=<user_name>[,<user_name>,...]
列出用户的关联。
Partition=<partition_name>[,<partition_name>,...]
列出分区的关联。
提示
您还可以使用上述“基于关联的实体的一般规范”部分中的“常规规范”列表。
列表关联独有的其他选项:
OnlyDefaults
仅显示作为默认关联的关联
Tree
以分层方式显示帐户名称。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除且没有关联的关联 在此期间在关联中运行的作业将从数据库中删除。 否则,关联将被标记为已删除,并可通过 已删除标志。
WithSubAccounts
显示包含子帐号的信息。只有在使用时才真正有价值 使用帐户=选项。这将显示所有子帐户 关联以及选项中列出的帐户。
WOLimits
显示无限制信息的信息。这是针对较小的 默认格式为“Cluster,Account,User,Partition”。
WOPInfo
显示没有父信息的信息(即父 ID 和 父帐户名称)。此选项还隐式设置 WOPLimits 选择。
WOPLimits
显示没有分层父限制的信息(即将 仅在设置限制的位置显示限制,而不是传播限制 来自父级)。
列出/显示关联格式选项
Account
关联中的银行帐户的名称。
Cluster
关联中集群的名称。
DefaultQOS
默认情况下,关联将使用的 QOS,如果它作为对它的访问 下面提到的 QOS 列表。
Fairshare
Share
与其他帐户结合使用以确定作业的编号 优先权。在用户上使用时,也可以是字符串父级 这意味着父关联用于公平共享。如果 Fairshare=parent 是在帐户上设置的,该帐户的子帐户将是 有效地将公平份额计算重新设置为第一个父级 他们的父母不是Fairshare=parent。限制保持不变, 只有其公平份额价值受到影响。
GrpJobs
聚合的最大正在运行作业数 该协会以及作为该协会子级的所有协会。
GrpJobsAccrue
总计中能够累积年龄优先级的最大待处理作业数 协会和作为该协会子级的所有协会。
GrpSubmit
GrpSubmitJobs
随时可以处于挂起或正在运行状态的最大作业数 该协会和所有作为其子级的协会的合计 这个协会。
GrpTRES
可以聚合分配的最大 TRES 运行作业数 该协会以及作为该协会子级的所有协会。
GrpTRESMins
过去可以使用的 TRES 分钟总数, 该协会及其子女现在和未来的工作。
GrpTRESRunMins
用于限制所有 TRES 分钟数的总和 与此协会及其子级一起运行的工作。这需要 考虑正在运行的作业的时间限制并使用它(如果限制) 已达到,在其他作业完成以允许之前,不会启动任何新作业 是时候释放了。
GrpWall
最大挂钟运行时间运行作业可以汇总分配给 该协会以及作为该协会子级的所有协会。
ID
关联的 ID。
LFT
关联保持在层次结构中:这是最左边的 在层次结构中的位置。当与 RGT 变量一起使用时,所有 在此 LFT 内和 RGT 之前与 LFT 的关联是 这个协会的孩子。
MaxJobs
每个用户一次允许运行的最大作业数。
MaxJobsAccrue
在任何给定时间能够累积年龄优先级的最大待处理作业数。 此限制仅适用于作业的 QOS,而不适用于分区的 QOS。
MaxSubmit
MaxSubmitJobs
任何时候处于挂起或正在运行状态的最大作业数。
MaxTRES
MaxTRESPerJob
每个作业可以使用的最大 TRES 数。
MaxTRESMins
MaxTRESMinsPerJob
每个作业可以使用的最大 TRES 分钟数。
MaxTRESPerNode
作业分配中每个节点可以使用的最大 TRES 数。
MaxWall
MaxWallDurationPerJob
每个作业可以使用的最大挂钟时间。
Qos
此关联的有效 QOS。
QosRaw
QOS的ID。
ParentID
此关联的父级的关联 ID。
ParentName
此关联的父级的帐户名。
Partition
关联中分区的名称。
Priority
使用此关联时,作业优先级将添加到作业的优先级。
RGT
关联保持在层次结构中:这是最正确的 在层次结构中的位置。当与 LFT 变量一起使用时,所有 在此 RGT 内部和 LFT 之后与 LFT 相关联 这个协会的孩子。
User
关联中用户的名称。
WithRawQOSLevel
以未评估的原始格式显示 QosLevel,由逗号 以“”(无)、“+”或“-”为前缀的 QOS 名称的分隔列表 协会。分配了不带 +/- 前缀的 QOS 名称(即, sacctmgr 修改...为列出的实体设置 QosLevel=qos_name) 或 在层次结构中的父级之一上。前缀为 +/- 的 QOS 名称 指示 QOS 已添加/过滤(即,sacctmgr 修改...设置 QosLevel=[+-]qos_name) 为列出的实体或其父实体之一 在层次结构中。包括 WOPLimits 将准确显示每个 QOS 的位置 在层次结构中分配、添加或筛选。
集群规格
Classification=<classification>
机器类型,当前分类是能力,容量和 能力。
Features=<comma_separated_list_of_feature_names>
特定于群集的功能。联合作业可以定向到 包含作业请求功能的群集。
Federation=<federation>
此群集应属于的联合身份验证。集群只能是 一次一个联盟的成员。
FedState=<state>
联合身份验证中群集的状态。 有效状态为:
- ACTIVE
群集将主动接受和计划联合作业。 - INACTIVE
群集不会计划或接受任何作业。 - DRAIN
群集将不接受任何新作业,并将允许现有的联合作业 完成。 - DRAIN+REMOVE
群集将不接受任何新作业,并将自身从联合中删除 完成所有联合作业后。从联合中删除时, 群集将接受作业作为非联合群集。
Name=<name>
群集的名称。 这应该等于某些 Slurm 管理的集群的slurm.conf配置文件中的ClusterName参数。
RPC=<rpc_list>
逗号分隔的数字 RPC 值列表。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除且没有 在此期间在群集中运行的作业将从数据库中删除。 否则,群集将被标记为已删除,并且可以使用 WithDeleted标志。
WithFed
将与联合相关列追加到默认格式选项 (例如:Federation,ID,Features,FedState)。
WOLimits
显示无限制信息的信息。这是针对较小的 群集,控制主机,控制端口,RPC 的默认格式
提示
您还可以使用上述“基于关联的实体的一般规范”部分中的“常规规范”列表。
列出/显示群集格式选项
Classification
机器类型,即能力、容量或容量。
Cluster
群集的名称。
ControlHost
当一个 slurmctld 向数据库注册时,IP 地址 控制器放置在此处。
ControlPort
当一个slurmctld向数据库注册时,端口控制器 正在监听被放在这里。
Features
群集上的功能列表(如果有)。
Federation
此群集所属的联合体的名称(如果有)。
FedState
联合身份验证中群集的状态(如果是联合身份验证的成员)。
FedStateRaw
联邦州名称的数值。
Flags
群集拥有的属性。当前标志包括克雷、外部和 多声。 外部群集是仅注册群集。一个 slurmctld 可以指定一个 External slurmdbd withthe AccountingStorageExternalHostslurm.conf 选择。这允许 slurmctld 注册到外部 slurmdbd,以便 连接到外部 slurdbd 的集群可以与外部 使用 Slurm 命令进行群集。
ID
成为联合成员时分配给群集的 ID。此 ID 唯一 标识联合中的群集及其作业。
NodeCount
与群集关联的节点的当前计数。
NodeNames
与群集关联的当前节点。
PluginIDSelect
集群正在使用的选择插件的数值。
RPC
当一个 slurmctld 向数据库注册时,rpc 版本控制器 正在运行被放置在这里。
TRES
可跟踪资源(计费、BB(突发缓冲区)、CPU、能源、GRES、许可证、 内存和节点),此群集正在考虑。
提示
您还可以查看有关根关联的信息 群集。介绍了关联格式字段 在“列表/显示关联格式选项”部分中。
协调器规格
Account=<account_name>[,<account_name>,...]
要将此用户添加为协调员的帐户名。
Names=<user_name>[,<user_name>,...]
协调员姓名。
提示
要列出协调器,请使用带有列表的“带协调器”选项 帐户或列表用户。
事件规范
All_Clusters
获取有关所有群集快捷方式的信息。
All_Time
获取所有时间快捷方式的时间段。
Clusters=<cluster_name>[,<cluster_name>,...]
列出群集的事件。默认值是群集,其中 命令已运行。
CondFlags=<flag>[,<flag>,...]
用于筛选事件的可选标志列表。 有效选项包括
- Open
如果设置,则仅返回打开的节点事件(当前关闭)。
End=<OPT>
事件的期间结束。默认值为现在。 有效的时间格式是...
HH:MM[:SS] [AM|PM]
MMDD[YY] or MM/DD[/YY] or MM.DD[.YY]
MM/DD[/YY]-HH:MM[:SS]
YYYY-MM-DD[THH:MM[:SS]]
now[{+|-}count[seconds(default)|minutes|hours|days|weeks]]
Event=<OPT>
要查找的特定事件,有效选项为群集或节点, 默认值为两者。
MaxCPUs=<OPT>
受事件影响的 CPU 的最大数量。
MinCPUs=<OPT>
受事件影响的最小 CPU 数。
Nodes=<node_name>[,<node_name>,...]
受事件影响的节点名称。
Reason=<reason>[,<reason>,...]
事件发生的原因。
Start=<OPT>
事件的周期开始。默认值为前一天的 00:00:00,除非 状态由状态=规范事件给出。如果是这种情况 默认行为是返回当前在 指定的状态。 有效的时间格式是...
HH:MM[:SS] [AM|PM]
MMDD[YY] or MM/DD[/YY] or MM.DD[.YY]
MM/DD[/YY]-HH:MM[:SS]
YYYY-MM-DD[THH:MM[:SS]]
now[{+|-}count[seconds(default)|minutes|hours|days|weeks]]
States=<state>[,<state>,...]
节点事件中节点的状态。如果设置了此选项,则事件类型为 自动设置为节点。
User=<user_name>[,<user_name>,...]
针对设置事件的用户进行查询。如果设置了此选项,则事件类型为 自动设置为 Node,因为只有用户 slurm 可以执行群集事件。
列出/显示事件格式选项
Cluster
群集事件的名称发生于。
ClusterNodes
群集事件中群集上的节点的主机列表。
Duration
该事件所在的时间段。
End
事件结束的时间段。
Event
事件的名称。
EventRaw
事件名称的数值。
NodeName
受事件影响的节点。在群集事件中,此值为空。
Reason
事件发生的原因。
Start
事件开始的时间段。
State
在节点事件上,这是节点在事件期间的格式化状态。
StateRaw
在节点事件上,这是节点状态的数值 活动期间。
TRES
事件涉及的 TRES 数量。
User
在节点事件上,这是导致事件发生的用户。
联合规范
Clusters[+|-]=<cluster_name>[,<cluster_name>,...]
要添加/删除到联合的群集列表。空白值(例如集群=) 将删除联合的所有联合。注意:集群只能是 一个联合会的成员。
Name=<name>
联合的名称。
Tree
以分层方式显示联合。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除的联合身份验证将被删除 从数据库中。在 24 小时之前创建的联合身份验证 删除请求仅标记为已删除,并且可以通过 已删除标志。
列出/显示联合格式选项
Cluster
作为联合成员的群集的名称。
Features
群集上的功能列表。
Federation
联合的名称。
FedState
联合身份验证中群集的状态。
FedStateRaw
联邦州名称的数值。
Index
联合中群集的索引。
作业规范
AdminComment=<admin_comment>
任意描述性字符串。只能由 Slurm 管理员修改。
Comment=<comment>
当会计存储标志参数时作业的注释字符串 在 slurm.conf 文件中包含“job_comment”。用户只能 修改自己作业的注释字符串。
Cluster=<cluster_list>
要更改作业的群集列表,默认为本地群集。
DerivedExitCode=<derived_exit_code>
作业完成后,可以根据 用户对作业是成功还是失败的判断。用户 只能修改自己作业的派生退出代码。
EndTime
作业必须在此时间之前结束才能进行修改。格式输出为: YYYY-MM-DDTHH:MM:SS
,除非通过SLURM_TIME_FORMAT环境进行更改 变量。
JobID=<jobid_list>
要更改的作业的 ID。如果使用 wckey 更改多个作业,则不需要 规范。
NewWCKey=<new_wckey>
用于重命名记帐数据库中作业上的 wckey
StartTime
作业必须在此时间或之后启动,才能以与结束时间相同的格式进行修改。
SystemComment=<system_comment>
任意描述性字符串,通常由 BurstBufferPlugin 管理。 只能由 Slurm 管理员修改。
User=<user_list>
用于指定要更改的用户作业的作业。
WCKey=<wckey_list>
用于指定要更改的 wckey 。
DerivedExitCode、AdminComment、Comment、SystemComment 和WCKey字段是作业记录的唯一字段 在作业完成后可以修改的数据库中。
列出/显示作业格式选项
sacct 命令是显示作业的独占命令 来自 Slurm 数据库的记录。
QOS 规范
提示
组限制(GrpJobs、GrpNode 等)在作业 正在考虑分配资源。 如果启动作业会导致超出其任何组限制, 即使该作业可能抢占,也不会考虑对该作业进行计划 其他将为待处理释放足够组资源的作业 要启动的作业。
Flags
由 slurmctld 用于覆盖或强制执行某些特征。 有效选项包括:
- DenyOnLimit
如果设置,使用此 QOS 的作业将在提交时被拒绝(如果这样做) 不符合作为独立作业的 QOS“最大值”或“最小值”限制。 在考虑其他作业时超过这些限制但符合要求的作业 单独考虑时不会拒绝。相反 它们将挂起,直到资源可用。 组限制(例如GrpTRES)也将被视为“最大”限制 (例如MaxTRESPerNode),如果违反,作业将被拒绝 作为独立作业的限制。 这目前仅适用于 QOS 和关联限制。 - EnforceUsageThreshold
如果设置,并且 QOS 还具有使用阈值, 使用此 QOS 提交的任何低于使用阈值的作业 将一直保留,直到他们的公平份额使用量超过阈值。 - NoDecay
如果设置,此 QOS 将没有其 GrpTRESMins, GrpWall 和 UsageRaw 被 slurm.conf PriorityDecayHalfLife 或 优先级使用重置周期设置。这允许 QOS 提供聚合 限制一旦消耗,将不会自动补充。这样的 QOS 将充当协会的限时资源配额 可以访问它。帐户/用户使用情况仍将衰减 使用 QOS 的关联。QOS GrpTRESMins和 可以增加 GrpWall 限制或将 QOS RawUsage 值重置为 0 (零)再次允许使用此 QOS 提交的作业排队(如果 DenyOnLimit 已设置)或运行(挂起与 QOSGrp{TRES}MinutesLimit 或 QOSGrpWallLimit 原因,其中 {TRES} 是某种类型的可跟踪资源)。 - NoReserve
如果设置了此标志并使用了回填计划,则使用此 QOS 的作业将 不在回填计划的已分配资源映射中保留资源 随着时间的流逝。此标志旨在与可能被抢占的 QOS 一起使用 通过与所有其他 QOS 关联的作业(例如,与“备用”QOS 一起使用)。如果这个 标志与不能被所有其他 QOS 抢占的 QOS 一起使用,它可以 导致大量工作饥荒。 - OverPartQOS
如果使用此QOS设置作业将能够 覆盖所请求分区的 QOS 限制使用的任何限制。 - PartitionMaxNodes
如果使用此QOS设置作业将能够 覆盖请求分区的最大节点数限制。 - PartitionMinNodes
如果使用此QOS设置作业将能够 覆盖请求分区的最小节点数限制。 - PartitionTimeLimit
如果使用此QOS设置作业将能够 覆盖请求分区的时间限制。 - RequiresReservation
如果使用此 QOS 设置作业,则必须在提交作业时指定预留。 此选项可用于限制可能具有更大 抢占功能或仅在 保留。 - UsageFactorSafe
如果设置,并且AccountingStorageEnforce包括Safe,则作业将仅 如果作业可以在应用使用因子的情况下运行到完成,则能够运行。
GraceTime
抢占宽限期(以秒为单位)将扩展到已 选择抢占。
GrpJobs
此 QOS 的聚合运行作业的最大数量。
GrpJobsAccrue
总计中能够累积年龄优先级的最大待处理作业数 QOS。 此限制仅适用于作业的 QOS,而不适用于分区的 QOS。
GrpSubmit
GrpSubmitJobs
随时可以处于挂起或正在运行状态的最大作业数 此 QOS 的聚合。
GrpTRES
可以聚合分配的最大 TRES 运行作业数 这个QOS。
GrpTRESMins
过去可以使用的 TRES 分钟总数, 从此 QOS 运行的当前和未来作业。
GrpTRESRunMins
用于限制 TRES 的总数量 使用此 QOS 运行的所有作业使用的分钟数。这需要 考虑正在运行的作业的时间限制并使用它(如果限制) 已达到,在其他作业完成以允许之前,不会启动任何新作业 是时候释放了。
GrpWall
最大挂钟运行时间运行作业可以汇总分配给 这个QOS。如果达到此限制,提交请求将被拒绝,并且 正在运行的作业将被终止。
ID
QOS 的 ID。
LimitFactor
使用此 QOS 运行时缩放 TRES 计数限制的因素。请参阅下文了解更多详细信息。
MaxJobsAccruePA
MaxJobsAccruePerAccount
帐户(或子帐户)可以具有累积年龄的最大待处理作业数 任何给定时间的优先级。 此限制仅适用于作业的 QOS,而不适用于分区的 QOS。
MaxJobsAccruePU
MaxJobsAccruePerUser
用户可以在任何时间累积年龄优先级的最大待处理作业数 给定时间。 此限制仅适用于作业的 QOS,而不适用于分区的 QOS。
MaxJobsPA
MaxJobsPerAccount
每个帐户一次允许运行的最大作业数。
MaxJobsPU
MaxJobsPerUser
每个用户一次允许运行的最大作业数。
MaxSubmitJobsPA
MaxSubmitJobsPerAccount
每个帐户随时处于挂起或正在运行状态的最大作业数。
MaxSubmitJobsPU
MaxSubmitJobsPerUser
每个用户随时处于挂起或正在运行状态的最大作业数。
MaxTRES
MaxTRESPerJob
每个作业可以使用的最大 TRES 数。
MaxTRESMins
MaxTRESMinsPerJob
每个作业可以使用的最大 TRES 分钟数。
MaxTRESPA
MaxTRESPerAccount
每个帐户可以使用的最大 TRES 数。
MaxTRESPerNode
作业分配中每个节点可以使用的最大 TRES 数。
MaxTRESPU
MaxTRESPerUser
每个用户可以使用的最大 TRES 数。
MaxWall
MaxWallDurationPerJob
每个作业可以使用的最大挂钟时间。
MinPrioThreshold
计划时预留资源所需的最低优先级。
MinTRES
MinTRESPerJob
在此 QOS 下运行的每个作业必须请求的最小 TRES 数。 否则,作业将挂起,直到修改。
Name
QOS 的名称。
Preempt
其他 QOS 的此 QOS 可以抢占。
提示
QOS 的优先级与 QOS 抢占无关,仅使用抢占来定义哪些 QOS 可以抢占其他 QOS。
PreemptExemptTime
指定此 QOS 作业在考虑之前的最低运行时间 先买权。此 QOS 选项优先于全局抢占豁免时间。这仅适用于PreemptMode=REQUEUE和PreemptMode=CANCEL。 设置为 -1 将禁用该选项,允许另一个 QOS 或全局选项生效。设置为 0 表示没有最小运行次数 时间并取代优先级较低的 QOS(参见OverPartQOS)和/或 slurm.conf 中的全局选项。
PreemptMode
用于抢占作业或为此 QOS 启用帮派调度的机制 当群集抢占类型设置为抢占/QoS 时。 此特定于 QOS 的抢占模式将覆盖此 QOS 的群集范围的抢占模式。取消设置 QOS 特定的抢占模式, 通过指定“OFF”、“”“或”群集“,使其使用默认的群集范围的抢占模式。 GANG选项用于启用独立于 是否启用抢占(即独立于抢占类型设置)。除了抢占模式设置之外,还可以使用 两个选项以逗号分隔(例如,PreemptMode=SUSPEND,GANG)。 请参阅<抢占>和 <gang_scheduling>了解更多详情。
注意
出于性能原因,回填调度程序为作业保留整个节点, 不是部分节点。如果在回填计划期间作业抢占了一个或多个作业 其他作业,这些抢占作业的整个节点保留给 抢占器作业,即使抢占器作业请求的资源少于该资源。 在回填期间,这些保留节点不可用于其他作业 循环,即使其他作业可以适合节点。因此,工作可能 在单个回填迭代期间抢占比他们请求的更多的资源。
提示
对于要考虑抢占的异构作业,所有组件 必须符合抢占条件。当异构作业被抢占时 具有最高顺序抢占模式的作业的第一个标识组件 (挂起(最高),重新排队,取消(最低))将是 用于设置所有组件的抢占模式。宽限期和用户 异构作业的每个组件的警告信号保持唯一。 异构作业从 GANG 计划操作中排除。
OFF
是默认值,禁用作业抢占和帮派调度。 它仅在全局级别与PreemptType=preempt/none兼容。CANCEL
抢占的作业将被取消。GANG
启用同一分区中作业的组调度(时间切片),并且 允许恢复暂停的作业。 每个分区的组调度是独立执行的,因此 如果您只想通过超额订阅进行时间切片,而没有任何抢占, 然后,不建议配置具有重叠节点的分区。 不同分区上的作业之间不会发生时间切片。 注意:异构作业从 GANG 计划操作中排除。REQUEUE
通过重新排队(如果可能)或取消作业来抢占作业。 对于要重新排队的作业,它们必须设置 --requeue sbatch 选项 或者 slurm.conf 中的集群范围作业重新排队参数必须设置为1。SUSPEND
抢占的作业将被挂起,稍后帮计划程序将恢复 他们。因此,挂起抢占模式始终需要在群集级别指定GANG选项。另外,因为暂停的工作 仍将使用分配节点上的内存,Slurm 需要能够跟踪 能够挂起作业的内存资源。 如果配置了抢占类型=抢占/qos,并且抢占的作业和 抢占者作业位于同一分区上,然后它们将与 帮派调度程序(时间切片)。如果不是(即如果抢占者和抢占者 位于不同的分区上),则抢占的作业将保持挂起状态,直到 抢占器结束。
提示
暂停的作业不会释放 GRES。更高优先级的工作不会 能够抢占以获得对 GRES 的访问权限。
- WITHIN
允许在共享相同 QoS 的作业之间进行抢占。默认情况下,PreemptType=preempt/qos只会认为作业符合条件 抢占(如果它们不共享相同的 QoS 值)。
Priority
使用此 QOS 时,作业优先级将添加到什么优先级。
提示
QOS 的优先级与 QOS 抢占无关,请参阅抢占。
RawUsage=<value>
这允许管理员将累积的原始使用量重置为 QOS。当前支持的唯一值是 0(零)。这是一个 仅可设置规范 - 它不能用作列表的过滤器 帐户。
UsageFactor
使用此 QOS 运行时的使用系数。有关更多详细信息,请参阅下文。
UsageThreshold
代表协会允许的最低公平份额的浮存金 以运行作业。如果关联低于此阈值并且 待处理的作业或提交新作业 这些作业将被保留,直到 使用量回到阈值以上。使用共享查看当前 系统上的共享。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除且没有 在此期间在 QOS 中运行的作业将从数据库中删除。 否则,QOS 将被标记为已删除,并可通过 WithDeleted标志。
列出/显示 QOS 格式选项
Description
描述 QOS 的任意字符串。
GraceTime
抢占宽限期将延长至已 选择以 hh:mm:ss 格式进行抢占。默认 值为零,此 QOS 不允许抢占宽限期。 此值仅对 QOS 抢占模式=取消和抢占模式=重新排队有意义。
GrpJobs
此 QOS 的聚合运行作业的最大数量。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
GrpJobsAccrue
总计中能够累积年龄优先级的最大待处理作业数 QOS。 此限制仅适用于作业的 QOS,而不适用于分区的 QOS。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
GrpSubmit
GrpSubmitJobs
随时可以处于挂起或正在运行状态的最大作业数 此 QOS 的聚合。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
GrpTRES
可以聚合分配的最大 TRES 运行作业数 这个QOS。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。
GrpTRESMins
过去可以使用的 TRES 分钟总数, 从此 QOS 运行的当前和未来作业。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。 注意:此限制仅适用于使用优先级多因素时 .plugin。使用优先级衰减半衰期的值衰减时间 或 slurm.conf 中设置的 PriorityUsageResetPeriod。当此限制 达到所有正在运行的关联作业将被终止,并且所有未来的作业都将被终止 使用此 QOS 提交将被延迟,直到它们能够运行 在限制内。
GrpWall
最大挂钟运行时间运行作业可以汇总分配给 这个QOS。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。 注意:此限制仅适用于使用优先级多因素时 .plugin。使用优先级衰减半衰期的值衰减时间 或 slurm.conf 中设置的 PriorityUsageResetPeriod。当此限制 达到所有正在运行的关联作业将被终止,并且所有未来的作业都将被终止 使用此 QOS 提交将被延迟,直到它们能够运行 在限制内。
LimitFactor
分解到关联 [Grp| 中的浮点数最大]TRES 限制。为 例如,如果限制因子为 2,则与 30 个 CPU 的 GrpTRES 相关联, 在此 QOS 下运行时,将允许分配 60 个 CPU。
注意:此因素仅适用于在此 QOS 中运行的关联,并且 不适用于 QOS 本身的任何限制。
要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxJobsAccruePA
MaxJobsAccruePerAccount
帐户(或子帐户)可以具有累积年龄优先级的最大作业数 在任何给定时间。此限制仅适用于作业的 QOS,不适用于 分区的 QOS。
MaxJobsAccruePU
MaxJobsAccruePerUser
在任何给定情况下,用户可以具有累积年龄优先级的最大作业数 时间。此限制仅适用于作业的 QOS,而不适用于分区的 QOS。
MaxJobsPA
MaxJobsPerAccount
每个帐户一次允许运行的最大作业数。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxJobsPU
MaxJobsPerUser
每个用户一次允许运行的最大作业数。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxTRESMins
MaxTRESMinsPerJob
每个作业可以使用的最大 TRES 分钟数。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。
MaxTRESPA
MaxTRESPerAccount
每个帐户可以使用的最大 TRES 数。 要清除以前设置的值,请使用新值为 -1 的 modify 命令 对于每个 TRES ID。
MaxTRES
MaxTRESPerJob
每个作业可以使用的最大 TRES 数。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。
MaxTRESPerNode
作业分配中每个节点可以使用的最大 TRES 数。 要清除以前设置的值,请使用新值为 -1 的 modify 命令 对于每个 TRES ID。
MaxTRESPU
MaxTRESPerUser
每个用户可以使用的最大 TRES 数。 要清除以前设置的值,请使用新值为 -1 的 modify 命令 对于每个 TRES ID。
MaxSubmitJobsPA
MaxSubmitJobsPerAccount
每个帐户随时处于挂起或正在运行状态的最大作业数。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxSubmitJobsPU
MaxSubmitJobsPerUser
每个用户随时处于挂起或正在运行状态的最大作业数。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MaxWall
MaxWallDurationPerJob
每个作业可以使用的最大挂钟时间。 <最大墙>格式为 <分钟>或<分钟>:<秒>或<小时>:<分钟>:<秒>或 <天>-<小时>:<分钟>:<秒>或<天>-<小时>。 该值以分钟为单位记录,并根据需要四舍五入。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MinPrioThreshold
计划时预留资源所需的最低优先级。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
MinTRES
在此 QOS 下运行的每个作业必须请求的最小 TRES 数。 否则,作业将挂起,直到修改。 要清除以前设置的值,请使用带有新 每个 TRES ID 的值为 -1。
Name
QOS 的名称。创建需要。
Preempt
其他 QOS 的此 QOS 可以抢占。 将抢占设置为“”(两个单 引号之间没有任何东西)恢复其默认设置。你 还可以使用运算符 += 和 -= 添加或删除某些 QOS 从 QOS 列表中。
PreemptMode
用于在群集PreemptType配置为抢占/qos 时抢占此 QOS 的作业的机制。默认抢占机制 由集群范围的抢占模式配置参数指定。 可能的值为“群集”(表示使用群集默认值)、“取消”、 和“重新排队”。此选项与抢占模式=关闭或 抢占模式=挂起(即必须从资源中删除抢占的作业)。
Priority
使用此 QOS 时,作业优先级将添加到什么优先级。 要清除以前设置的值,请使用新值为 -1 的 modify 命令。
UsageFactor
计入作业 TRES 使用情况的浮点数(例如 RawUsage、TRESMins、 TRESRunMins)。例如,如果使用因子为 2,则对于每个 TRESBillingUnit 第二个作业运行,它将计为 2。如果使用因子为 .5,则每秒 只算一半的时间。设置为 0 不会添加定时用法 从工作中。 使用因子仅适用于作业的 QOS,而不适用于分区 QOS。
如果设置了UsageFactorSafe标志,并且AccountingStorageEnforce包含Safe,则作业将仅 如果作业可以在应用使用因子的情况下运行到完成,则能够运行。
如果未设置UsageFactorSafe标志,并且AccountingStorageEnforce包含Safe,则作业将能够 在未应用使用因子的情况下进行计划,并且能够运行 不会因限制而被杀死。
如果未设置UsageFactorSafe标志,并且AccountingStorageEnforce不包括Safe,则作业将是 能够在不应用使用因子的情况下进行调度,并且可以被杀死 由于限制。
请参见 slurm.conf 手册页中的AccountingStorageEnforcement。
默认值为 1。要清除以前设置的值,请使用带有新 值为 -1。
预订规格
Clusters=<cluster_name>[,<cluster_name>,...]
列出群集的预留。默认值是群集,其中 命令已运行。
End=<OPT>
保留期结束。默认值为现在。 有效的时间格式是...
HH:MM[:SS] [AM|PM]
MMDD[YY] or MM/DD[/YY] or MM.DD[.YY]
MM/DD[/YY]-HH:MM[:SS]
YYYY-MM-DD[THH:MM[:SS]]
now[{+|-}count[seconds(default)|minutes|hours|days|weeks]]
ID=<OPT>
以逗号分隔的预留 ID 列表。
Names=<OPT>
以逗号分隔的预留名称列表。
Nodes=<node_name>[,<node_name>,...]
运行预留的节点名称。
Start=<OPT>
预订期间开始。默认值为当天的 00:00:00。 有效的时间格式是...
HH:MM[:SS] [AM|PM]
MMDD[YY] or MM/DD[/YY] or MM.DD[.YY]
MM/DD[/YY]-HH:MM[:SS]
YYYY-MM-DD[THH:MM[:SS]]
now[{+|-}count[seconds(default)|minutes|hours|days|weeks
列出/显示预订格式选项
Associations
能够在预留中运行的关联的 ID。
Cluster
群集预留的名称已打开。
End
预订结束时间。
Flags
预订上的标志。
ID
预留 ID。
Name
此预订的名称。
NodeNames
预留中的节点列表。
Start
预订的开始时间。
TRES
预订中的 TRES 列表。
UnusedWall
挂钟时间(以秒为单位)未被任何作业使用。作业的分配使用量是其 运行时间乘以其 CPU 与 CPU 总数的比率 保留。例如,使用预留中所有 CPU 的作业正在运行 1 分钟将使unused_wall减少 1 分钟。
资源规范
Clusters=<name_list>
要在其上指定资源的群集名称的逗号分隔列表 可用。如果未指定名称,则集群已经 允许使用此资源将被更改。
Count=<OPT>
在正在配置的系统上配置的特定名称的软件资源数 由资源管理器控制。
Descriptions=
资源的简要说明。
Flags=<OPT>
标识系统资源的特定属性的标志。此时 尚未定义任何标志。
Names=<OPT>
在 由资源管理器控制的系统。如果此资源是 在SLURMCTLD上看到它的名字将被name@server以区分它 来自 slurm.conf 中定义的本地资源。
PercentAllowed=<percent_allowed>
可在指定群集上使用的特定资源的百分比。
Server=<OPT>
为资源提供服务的服务器的名称。默认值为“slurmdb”,表示 许可证由数据库提供。
ServerType=<OPT>
提供许可证的软件资源管理器的类型。例如 FlexNext Publisher Flexlm License Server 或 Reprise License Manager RLM。
Type=<OPT>
此记录表示的资源的类型。目前唯一有效的 类型为许可证。
WithClusters
显示资源的群集百分比。如果资源没有 已提供给群集,资源将不会显示此标志。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除的资源将被删除 从数据库中。在 24 小时之前创建的资源 删除请求仅标记为WithDeleted,并且可以通过 WithDeleted标志。
提示
资源用于定义系统上配置的每个资源 可供 Slurm 集群使用。
列出/显示资源格式选项
Allocated
分配给群集的许可证百分比。
Cluster
给定群集资源的名称。
Count
在系统上全局配置的特定资源的计数。
Description
资源的说明。
Name
此资源的名称。
Server
为资源提供服务的服务器。
ServerType
控制许可证的服务器的类型。
Type
此记录表示的资源的类型。
列出/显示失控作业格式选项
Cluster
运行群集作业的名称。
ID
作业的 ID。
Name
作业的名称。
Partition
分区作业继续运行。
State
数据库中作业的当前状态。
TimeEnd
作业结束的当前记录时间。
TimeStart
时间作业开始运行。
交易规范
Accounts=<account_name>[,<account_name>,...]
仅打印出影响指定帐户的交易。
Action=<Specific_action_the_list_will_display>
仅显示指定操作类型的事务。
Actor=<Specific_name_the_list_will_display>
仅显示特定人员完成的交易。
Clusters=<cluster_name>[,<cluster_name>,...]
仅打印出影响指定集群的事务。
End=<Date_and_time_of_last_transaction_to_return>
返回此日期和时间之前的所有交易。默认值为现在。
Start=<Date_and_time_of_first_transaction_to_return>
返回此日期和时间之后的所有交易。默认值为纪元。 结束和开始的有效时间格式为...
HH:MM[:SS] [AM|PM]
MMDD[YY] or MM/DD[/YY] or MM.DD[.YY]
MM/DD[/YY]-HH:MM[:SS]
YYYY-MM-DD[THH:MM[:SS]]
now[{+|-}count[seconds(default)|minutes|hours|days|weeks]]
Users=<user_name>[,<user_name>,...]
仅打印出影响指定用户的交易。
WithAssoc
获取有关哪些关联受事务影响的信息。
列出/显示交易格式选项
Action
显示发生的操作的类型。
Actor
显示要生成事务的执行组件。
Info
显示事务的详细信息。
TimeStamp
显示事务发生的时间。
Where
显示事务约束的详细信息。
提示
如果使用 WithAssoc 选项,您还可以查看信息 关于交易影响的各种关联。这 描述关联格式字段 在“列表/显示关联格式选项”部分中。
用户规格
Account=<account>
要将此用户添加到的帐户名。
AdminLevel=<level>
用户的管理员级别。有效级别为“无”、“操作员”和“管理员”。
Cluster=<cluster>
要向其帐户添加用户的特定群集。默认值全部在系统中。
DefaultAccount=<account>
标识要用于作业的默认银行帐户名称(如果没有) 在提交时指定。
DefaultWCKey=<defaultwckey>
确定默认的工作负载特征键。
Name=<name>
用户的名称。
NewName=<newname>
用于重命名记帐数据库中的用户
Partition=<name>
分区名称。
RawUsage=<value>
这允许管理员重置应计给用户的原始使用量。 当前支持的唯一值是 0(零)。这是一个可设置的 仅规范 - 它不能用作列出用户的筛选器。
WCKeys=<wckeys>
工作负载特征描述键值。
RawUsage=<value>
显示此用户的所有关联。
WithCoord
显示用户是协调员的所有帐户。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除且没有 用户在此期间运行的作业将从数据库中删除。 否则,用户将被标记为已删除,并可通过 已删除标志。
提示
如果使用 WithAssoc 选项,您还可以查询 关联特定信息,仅查看某些关联 此用户可能具有。这些额外的选项可以在关联规范部分找到。您还可以使用 一般规格列表在上面的一般规格 基于关联的实体部分。
列出/显示用户格式选项
AdminLevel
用户的管理员级别。
Coordinators
作为帐户协调员的用户列表。(仅填写 使用“带协调器”选项时。
DefaultAccount
用户的默认帐户。
DefaultWCKey
用户的默认 wckey。
User
用户的名称。
提示
如果使用 WithAssoc 选项,您还可以查看信息 关于用户可能在所有 系统中的集群。可以筛选关联信息。 请注意,数据库中的所有用户将始终仅显示为过滤器 对关联数据生效。关联格式字段为 在列表/显示关联格式选项部分中进行了描述。
列表/显示 WCKey
Cluster
WCKey的特定集群。
ID
WCKey 的 ID。
User
WCKey 的用户名称。
WCKey
工作负载特征描述密钥。
WithDeleted
显示包含以前删除的数据的信息。 在创建后 24 小时内删除且没有 在此期间使用 WCKey 运行的作业将从数据库中删除。 否则,WCKey 将被标记为WithDeleted,并可通过 WithDeleted标志。
列表/显示 TRES
ID
显示的可跟踪资源的标识号 在数据库中。
Name
可跟踪资源的名称。此选项是必需的 TRES 类型 BB(突发缓冲区)、GRES 和许可证。类型 CPU, 能量, 内存和节点没有名称。例如,如果 GRES 是 类型然后名称是GRES本身的面额,例如GPU。
Type
可跟踪资源的类型。当前类型为 BB(突发 缓冲区)、CPU、能源、GRES、许可证、内存和节点。
TRES 信息
可跟踪资源 (TRES) 用于许多 QOS 或关联限制。 设置限制时,它们是逗号分隔的列表。每个 TRES 都有 一个不同的限制,即 GrpTRESMins=cpu=10,mem=20 将使 2 不同的限制 1 表示 10 CPU 分钟,1 表示 20 MB 内存分钟。 处理 TRES 的每个限制都是这种情况。要删除 使用限制 -1,即 GrpTRESMins=cpu=-1 将仅删除 CPU TRES 限制。
提示
将内存作为 TRES 处理时,所有限制均以 MB 为单位。
提示
计费 TRES 是根据分区的 TRESBillingWeights 计算得出的。它 在计划期间临时计算每个分区以强制执行 计费 TRES 限制。最终计费 TRES 是在作业完成后计算的 分配的资源。最终数字可以在scontrol show jobs和sacct输出中看到。
全局格式选项
使用格式选项列出各种字段时,您可以放置 %NUMBER,以指定应打印的字符数。 例如,format=name%30 将打印 30 个字符的字段名称右侧 合理。-30 将打印 30 个字符,左对齐。
平面文件转储和加载
sacctmgr 能够将 Slurm 关联数据加载和转储到 和 从文件。此方法可以轻松添加新集群或复制 现有群集的关联到具有类似 帐户。每个文件都包含单个 Slurm 关联数据 簇。请注意,QOS 信息当前不包含在 可以转储到文件的信息。可以检索 QOS 信息 并使用 REST API 加载,或者必须将其传输到新集群 手动地。注释可以放入带有 # 字符的文件中。 每行信息必须以四个标题之一开头; Cluster, Parent, Account或User。标题后面是一个空格, 破折号、空格、实体值,然后是规范。规格是冒号 分开。如果任何变量(如组织名称)中有空格, 用单引号或双引号将名称括起来。 创建关联文件可以运行:
sacctmgr dump tux file=tux.cfg
要加载以前创建的文件,您可以运行
sacctmgr load file=tux.cfg
sacctmgr dump/load 必须以 Slurm 管理员或 root 身份运行。如果使用 在没有任何关联的数据库上加载 sacctmgr ,它必须以 root 身份运行 (因为数据库中尚无任何用户)。
其他加载选项包括:
- clean - 删除已经存在的内容并从头开始 此信息。
- Cluster=- 为集群指定一个不同于 在文件中。 由于系统中的关联遵循层次结构,因此 文件。任何父级都需要在任何父项之前定义 孩子。唯一的例外是理解的“根”帐户。这 始终是任何集群的默认值,不需要定义。
要编辑/创建文件,请从新集群的集群行开始:
Cluster - cluster_name:MaxTRESPerJob=node=15
此行中包含的任何内容都将是所有行的默认值 此群集上的关联。群集的选项包括:
FairShare=
与其他关联结合使用以确定作业优先级的编号。
GrpJobs=
为此聚合的最大正在运行的作业数 协会和作为该协会子级的所有协会。
GrpJobsAcrecie=
总计中能够累积年龄优先级的最大待处理作业数 协会和作为该协会子级的所有协会。
GrpNodes=
运行作业的最大节点数可以是 合计分配给该协会和所有协会 是这个协会的孩子。
GrpSubmitJobs=
可以处于挂起状态或 此关联和所有关联的任何时间的运行状态汇总 作为该协会的子级的协会。
GrpTRES=
最大数量的 TRES 运行作业可以 合计分配给该协会和所有协会 是这个协会的孩子。
GrpTRESMins=
过去可以使用的 TRES 分钟总数, 该协会及其子女现在和未来的工作。
GrpTRESRunMins=
用于限制所有 TRES 分钟数的总和 与此协会及其子级一起运行的工作。这需要 考虑正在运行的作业的时间限制并使用它(如果限制) 已达到,在其他作业完成以允许之前,不会启动任何新作业 是时候释放了。
GrpWall=
运行作业的最大挂钟时间 合计分配给该协会和所有协会 是这个协会的孩子。
MaxJobs=
此关联的子级可以运行的最大作业数。
MaxTRESPerJob=
此关联的子项的每个作业的最大可跟踪资源数 可以跑。
MaxWallDurationPerJob=
此帐户作业的子项可以运行的最长时间(与作业大小无关)。
QOS=
以逗号分隔的服务质量名称列表(在 sacctmgr 中定义)。 在 root 帐户的条目之后,您将拥有另一个帐户的条目 系统上的帐户。这些条目将类似于以下示例:
Parent - root
Account - cs:MaxTRESPerJob=node=5:MaxJobs=4:FairShare=399:MaxWallDurationPerJob=40:Description='Computer Science':Organization='LC'
Parent - cs
Account - test:MaxTRESPerJob=node=1:MaxJobs=1:FairShare=1:MaxWallDurationPerJob=1:Description='Test Account':Organization='Test'
“:”后面的任何选项都可以省略,它们可以按任意顺序排列。 如果您想添加任何子帐户,只需列出已经 在要添加的帐户之前创建。
帐户选项包括:
Description=
帐户的简要说明。
FairShare=
与其他关联结合使用以确定作业优先级的编号。
GrpTRESMins=
运行作业的最大 TRES 小时数 合计分配给此协会和所有协会 哪些是这个协会的孩子。GrpTRESRunMins=用于限制所有 TRES 分钟数的总和 与此协会及其子级一起运行的工作。这需要 考虑正在运行的作业的时间限制并使用它(如果限制) 已达到,在其他作业完成以允许之前,不会启动任何新作业 是时候释放了。
GrpTRES=
最大数量的 TRES 运行作业可以 合计分配给该协会和所有协会 是这个协会的孩子。
GrpJobs=
为此聚合的最大正在运行的作业数 协会和作为该协会子级的所有协会。
GrpJobsAccrue
总计中能够累积年龄优先级的最大待处理作业数 协会和作为该协会子级的所有协会。
GrpNodes=
运行作业的最大节点数可以是 合计分配给该协会和所有协会 是这个协会的孩子。
GrpSubmitJobs=
可以处于挂起状态或 此关联和所有关联的任何时间的运行状态汇总 作为该协会的子级的协会。
GrpWall=
运行作业的最大挂钟时间 合计分配给该协会和所有协会 是这个协会的孩子。
MaxJobs=
此关联的子级可以运行的最大作业数。
MaxNodesPerJob=
此关联的子级可以运行的每个作业的最大节点数。
MaxWallDurationPerJob=
此帐户作业的子项可以运行的最长时间(与作业大小无关)。
Organization=
拥有此帐户的组织的名称。
QOS(=,+=,-=)
以逗号分隔的服务质量名称列表(在 sacctmgr 中定义)。 要将用户添加到帐户,请在父行之后添加一行,如下所示:
Parent - test
User - adam:MaxTRESPerJob=node:2:MaxJobs=3:FairShare=1:MaxWallDurationPerJob=1:AdminLevel=Operator:Coordinator='test'
用户选项包括:
AdminLevel=
此用户所在的管理员类型(管理员、操作员) 必须在用户第一次出现时定义。
Coordinator=
逗号分隔的帐户列表 此用户是协调者 必须在用户第一次出现时定义。
DefaultAccount=
系统范围的默认帐户名 必须在用户第一次出现时定义。
FairShare=
与其他关联结合使用以确定作业优先级的编号。
MaxJobs=
此用户可以运行的最大作业数。
MaxTRESPerJob=
此用户可以运行的每个作业的最大可跟踪资源数。
MaxWallDurationPerJob=
此用户可以运行的最长时间(与作业大小无关)。
QOS(=,+=,-=)
以逗号分隔的服务质量名称列表(在 sacctmgr 中定义)。
存档功能
Sacctmgr能够存档到平面文件并/或加载 数据(如果以后需要)。归档通常由 slurmdbd 完成 强烈建议您只通过 sacctmgr 进行,如果您 完全了解你在做什么。有关 slurmdbd 选项,请参阅 “man slurmdbd”了解更多信息。 可以将数据加载到数据库中,从这些文件到其中之一 查看旧数据或重新生成汇总数据。
存档转储
将记帐数据转储到文件。数据将不会存档,除非 相应的清除选项包含在此命令或 slurmdbd.conf 中。 此操作无法回滚 一旦执行。如果在 sacctmgr 时未指定以下选项之一 调用,则使用在 slurmdbd.conf 中配置的值。
Directory=
用于存储存档数据的目录。
Events
存档事件。如果未指定并设置了清除事件之后 删除的所有事件数据将永久丢失。
Jobs
存档作业。如果未指定并设置了清除作业之后 删除的所有作业数据将永久丢失。
PurgeEventAfter=
清除早于以月为单位的时间的群集事件记录。如果你 想要在更短的时间内清除,您可以包括数小时或数天 在数值后面获取那些更频繁的清除。(例如 值“12 小时”将清除超过 12 小时的所有内容。
PurgeJobAfter=
清除早于以月为单位的时间的作业记录。如果你 想要在更短的时间内清除,您可以包括数小时或数天 在数值后面获取那些更频繁的清除。(例如 值“12 小时”将清除超过 12 小时的所有内容。
PurgeStepAfter=
清除步骤记录早于以月为单位的时间。如果你 想要在更短的时间内清除,您可以包括数小时或数天 在数值后面获取那些更频繁的清除。(例如 值“12 小时”将清除超过 12 小时的所有内容。
PurgeSuspendAfter=
清除作业挂起记录早于以月为单位的时间。如果你 想要在更短的时间内清除,您可以包括数小时或数天 在数值后面获取那些更频繁的清除。(例如 值“12 小时”将清除超过 12 小时的所有内容。
Script=
运行此脚本,而不是存档到平面文件的通用形式。
Steps
存档步骤。如果未指定并设置了清除步骤后 删除的所有步骤数据将永久丢失。
Suspend
存档挂起数据。如果未指定并设置了清除挂起后 删除的所有挂起数据将永久丢失。
存档加载
加载到以前存档的数据库中的数据。存档文件不会 如果数据库中已存在记录,则加载 - 因此,尝试加载 多次存档文件将导致错误。当此数据再次出现时 已存档并从数据库中清除,如果旧的存档文件仍在 目录 ArchiveDir,将创建一个新的存档文件(请参阅 slurmdbd.conf 手册页),所以旧文件不会被覆盖,这些文件 将有重复的记录。 可以加载当前或任何先前 Slurm 版本的存档文件 通过存档加载。
File=
要加载到数据库中的文件。指定的文件必须存在于 slurmdbd 主机上, 这不一定是运行命令的计算机。
Insert=
要直接插入到数据库中的 SQL。这应该非常使用 谨慎,因为这是将您的SQL写入数据库。
性能
执行sacctmgr会向slurmdbd 发送远程过程调用。如果 来自sacctmgr或其他发送远程的 Slurm 客户端命令的足够调用 对slurdbd守护程序的过程调用立即进入,它可能导致 SLURMDBD守护程序的性能下降,可能导致 拒绝服务。
不要运行sacctmgr或其他发送远程的 Slurm 客户端命令 从 shell 脚本或其他程序中的循环对SLURMDBD的过程调用。 确保程序将对sacctmgr的调用限制为所需的最小值 您尝试收集的信息。
环境变量
某些sacctmgr选项可以通过环境变量设置。这些 下面列出了环境变量及其相应的选项。 (注意:命令行选项将始终覆盖这些设置。
SLURM_CONF
Slurm 配置文件的位置。
SLURM_DEBUG_FLAGS
指定 sacctmgr 要使用的调试标志。请参阅slurm.conf(5) 手册页中的 DebugFlags 以获取标志的完整列表。A. 环境 变量优先于 slurm.conf 中的设置。
例子
注意:有建立会计协会的命令。 您必须在添加帐户之前定义集群,并且必须添加帐户 ,然后才能添加用户。
$ sacctmgr create cluster tux
$ sacctmgr create account name=science fairshare=50
$ sacctmgr create account name=chemistry parent=science fairshare=30
$ sacctmgr create account name=physics parent=science fairshare=20
$ sacctmgr create user name=adam cluster=tux account=physics fairshare=10
$ sacctmgr delete user name=adam cluster=tux account=physics
$ sacctmgr delete account name=physics cluster=tux
$ sacctmgr modify user where name=adam cluster=tux account=physics set maxjobs=2 maxwall=30:00
$ sacctmgr add user brian account=chemistry
$ sacctmgr list associations cluster=tux format=Account,Cluster,User,Fairshare tree withd
$ sacctmgr list transactions Action="Add Users" Start=11/03-10:30:00 format=Where,Time
$ sacctmgr dump cluster=tux file=tux_data_file
$ sacctmgr load tux_data_file
用户帐户不能直接更改。需要一个新的关联 为具有新帐户的用户创建。然后与旧的关联 可以删除帐户。
修改对象时放置关键字“set”和 可选的“where”对于正确执行至关重要,以下是以下示例 产生正确的结果。根据经验,您放在前面的任何东西 的集合将用作量词。如果你想放一个 关键字“set”之后的量词,您应该使用键 “哪里”字。以下错误:
$ sacctmgr modify user name=adam set fairshare=10 cluster=tux
这将产生一个错误,因为上面的行显示修改用户 adam 设置 fairshare=10 和 cluster=tux。以下任一情况都是正确的:
$ sacctmgr modify user name=adam cluster=tux set fairshare=10
$ sacctmgr modify user name=adam set fairshare=10 where cluster=tux
更改某些内容的 qos 时,仅在需要时使用“=”运算符 以显式将 QoS 设置为某些内容。在大多数情况下,您会想要 使用“+=”或“-=”运算符在 现有的 QoS 已经到位。
如果用户已经具有正常、备用的父级或 qos,或者它是 明确设置您应该使用 QoS+=Accelerate 将其添加到 这种时尚。
如果您只想将 qos 加速添加到某个 帐户和/或集群可以通过在 萨克特姆格尔线。
$ sacctmgr modify user name=adam set qos+=expedite
或
$ sacctmgr modify user name=adam acct=this cluster=tux set qos+=expedite
让我们举一个如何向用户帐户添加QOS的示例。 列出群集中的所有可用 QOS。
$ sacctmgr show qos format=name
Name
---------
normal
expedite
列出群集中的所有关联。
$ sacctmgr show assoc format=cluster,account,qos
Cluster Account QOS
-------- ---------- -----
zebra root normal
zebra root normal
zebra g normal
zebra g1 normal
将 QOS 加速添加到账户 G1 并显示结果。 使用运算符 += 将 QOS 相加 使用此帐户的现有 QOS。
$ sacctmgr modify account name=g1 set qos+=expedite
$ sacctmgr show assoc format=cluster,account,qos
Cluster Account QOS
-------- -------- -------
zebra root normal
zebra root normal
zebra g normal
zebra g1 expedite,normal
现在将 QOS 加速设置为帐户 G 和显示的唯一 QOS 结果。使用运算符 = 加速是唯一可用的 按账户 G 划分的 QOS
$ sacctmgr modify account name=G set qos=expedite
$ sacctmgr show assoc format=cluster,account,user,qos
Cluster Account QOS
--------- -------- -----
zebra root normal
zebra root normal
zebra g expedite
zebra g1 expedite,normal
如果在帐户 G 下添加新帐户,它将继承 QOS 加快,它将无法访问 QOS 正常。
$ sacctmgr add account banana parent=G
$ sacctmgr show assoc format=cluster,account,qos
Cluster Account QOS
--------- -------- -----
zebra root normal
zebra root normal
zebra g expedite
zebra banana expedite
zebra g1 expedite,normal
列出可跟踪资源的示例:
$ sacctmgr show tres
Type Name ID
---------- ----------------- --------
cpu 1
mem 2
energy 3
node 4
billing 5
gres gpu:tesla 1001
license vcs 1002
bb cray 1003