本地队列初始化失败¶
问题现象¶
在创建 Notebook、训练任务或者推理服务时,当队列是首次在该命名空间使用时,会提示需要一键初始化队列,但是初始化失败。
问题分析¶
在 AI Lab 中,队列管理能力由 Kueue 提供, 而 Kueue 提供了 两种队列管理资源:
- ClusterQueue 是集群级别的队列,主要用于管理队列中的资源配额,包含了 CPU、内存、GPU 等资源
- LocalQueue 是命名空间级别的队列,需要指向到一个 ClusterQueue,用于使用队列中的资源分配
在 AI Lab 中,如果创建服务时,发现指定的命名空间不存在 LocalQueue
,则会提示需要初始化队列。
在极少数情况下,可能由于特殊原因会导致 LocalQueue
初始化失败。
解决办法¶
检查 Kueue 是否正常运行,如果 kueue-controller-manager
未运行,可以通过以下命令查看。
如果 kueue-controller-manager
未正常运行,请先修复 Kueue。