说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210912650.8 (22)申请日 2022.07.30 (71)申请人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 刘晓健 苏宝珠  (74)专利代理 机构 济南舜源专利事务所有限公 司 37205 专利代理师 徐槐 (51)Int.Cl. G06F 9/455(2006.01) G06F 9/48(2006.01) G06F 9/50(2006.01) (54)发明名称 一种AI平台故障修复方法、 设备、 存 储介质 (57)摘要 本发明属于平台故障修复技术领域, 具体提 供一种AI平台故障修复方法、 设备、 存储介质, 所 述方法包括如下步骤: 定义集群内队列优先级及 pod优先级; 当集群主节点docker服务正 常后, 启 动k8s集群及AI平台镜像拉取操作; 获取集群内 所有队列信息按照队列优 先级和pod优 先级确定 拉取镜像的顺序进行服务的启动。 通过空间队列 queue和pod优先级标识进行排队, 实现轮询服务 启动, 队列queue和pod容器均存在优先级标识。 从而使得服务启 动按照一定顺序启 动, 避免pod 拉取异常导致集群长时间不可用。 在遇到服务器 或集群重启的情况时, 有序进行集群启动、 平台 服务恢复以及业务容器重建, 提升集群恢复效 率, 降低运维 成本。 权利要求书2页 说明书6页 附图1页 CN 115098226 A 2022.09.23 CN 115098226 A 1.一种AI平台故障修复方法, 其特 征在于, 包括如下步骤: 定义集群内队列优先级及 pod优先级; 当集群主节点docker服 务正常后, 启动k8s集群及AI平台镜像拉取操作; 获取集群内所有队列信 息按照队列优先级和pod优先级确定拉取镜像的顺序进行服务 的启动。 2.根据权利要求1所述的AI平台故障修复方法, 其特征在于, 定义集群 内队列优先级及 pod优先级的步骤中包括: 定义队列内优先级由高到低依次是k8s集群系统服 务、 平台组件服 务、 平台内用户组; 定义队列内部各pod优先级。 3.根据权利要求2所述的AI平台故障修复方法, 其特征在于, 定义队列内部各pod优先 级的步骤 包括: k8s集群系统服务、 平台组件服务部署时根据性能和稳定性要求将pod优先级预置定 义; 队列用户组内创建用户时进行任务优先级定义。 4.根据权利要求3所述的AI平台故障修复方法, 其特征在于, 该方法包括: 不同类型的 队列, 根据类别的优先级排序, 再按照各自队列中pod优先级排序拉取启动服 务; 同一类型的队列, 队列优先级相同, 按照用户优先级在多个队列中轮询调度任务。 5.根据权利要求4所述的AI平台故障修复方法, 其特征在于, 获取集群 内所有队列信 息 按照队列优先级和pod优先级确定拉取镜像的顺序进行服 务的启动的步骤 包括: 获取集群内所有队列信息按照队列优先级拉取镜像, 首先进行k8s集群系统服务的启 动; 其次进行平台组件服 务的启动; 最后由队列及 pod优先级共同确定启动顺序进行 各个平台 内用户组的任务 容器启动。 6.根据权利要求5所述的AI平台故障修复方法, 其特征在于, 由队列及pod优先级共同 确定启动顺序进行 各个平台 内用户组的任务 容器启动的步骤 包括: 不同用户组不同用户创建任务时, 分别进入 对应的分组队列; 分组队列根据任务优先级 进行任务的排序并按照任务的排序进行任务 容器启动。 7.根据权利要求6所述的AI平台故障修复方法, 其特征在于, 分组队列根据任务优先级 进行任务的排序并按照任务的排序进行任务 容器启动的步骤 包括: 根据用户任务优先级高 中低进行对应用户创建的任务的优先级排序; 当任务优先级相同时, 按照各任务的任务资源占比进行优先级排序; 当多个任务的任务资源占比相同时, 按照任务的创建时间进行pod重新创建; 通过查询底层存在排队任务的队列信息进行任务 容器启动。 8.根据权利要求7所述的AI平台故障修复方法, 其特征在于, 当任务优先级相同时, 按 照各任务的任务资源占比进行优先级排序的步骤 包括: 当任务优先级相同时, 分别进行任务GPU、 内存和CPU 的请求资源与集群可分配资源的 所占百分比计算; 并取三个百分比值中最大值作为任务资源占比; 其中, 请求资源为创建任 务时任务 运行需要 使用的资源; 集群可分配资源为 k8s集群中所有节点可用资源的总和; 不同任务之间通过比较任务资源占比进行优先级设置; 其中, 任务资源占比小的任务 优先级高排在队列前面。权 利 要 求 书 1/2 页 2 CN 115098226 A 29.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 存储器存储有可被至少一个处理器执行的计算机程序指令, 所述计算机程序指令被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至8中任一项权利 要求所述的AI平台故障修复方法。 10.一种非暂态计算机可读存储介质, 其特征在于, 所述非暂态计算机可读存储介质存 储计算机指令, 所述计算机指 令使所述计算机执行如权利要求1至8任一项权利要求所述的 AI平台故障修复方法。权 利 要 求 书 2/2 页 3 CN 115098226 A 3

.PDF文档 专利 一种AI平台故障修复方法、设备、存储介质

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种AI平台故障修复方法、设备、存储介质 第 1 页 专利 一种AI平台故障修复方法、设备、存储介质 第 2 页 专利 一种AI平台故障修复方法、设备、存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:07:05上传分享
友情链接
交流群
  • //public.wenku.github5.com/wodemyapi/22.png
-->
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。