说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210912650.8 (22)申请日 2022.07.30 (71)申请人 苏州浪潮智能科技有限公司 地址 215100 江苏省苏州市吴中经济开发 区郭巷街道官浦路1号9幢 (72)发明人 刘晓健 苏宝珠 (74)专利代理 机构 济南舜源专利事务所有限公 司 37205 专利代理师 徐槐 (51)Int.Cl. G06F 9/455(2006.01) G06F 9/48(2006.01) G06F 9/50(2006.01) (54)发明名称 一种AI平台故障修复方法、 设备、 存 储介质 (57)摘要 本发明属于平台故障修复技术领域, 具体提 供一种AI平台故障修复方法、 设备、 存储介质, 所 述方法包括如下步骤: 定义集群内队列优先级及 pod优先级; 当集群主节点docker服务正 常后, 启 动k8s集群及AI平台镜像拉取操作; 获取集群内 所有队列信息按照队列优 先级和pod优 先级确定 拉取镜像的顺序进行服务的启动。 通过空间队列 queue和pod优先级标识进行排队, 实现轮询服务 启动, 队列queue和pod容器均存在优先级标识。 从而使得服务启 动按照一定顺序启 动, 避免pod 拉取异常导致集群长时间不可用。 在遇到服务器 或集群重启的情况时, 有序进行集群启动、 平台 服务恢复以及业务容器重建, 提升集群恢复效 率, 降低运维 成本。 权利要求书2页 说明书6页 附图1页 CN 115098226 A 2022.09.23 CN 115098226 A 1.一种AI平台故障修复方法, 其特 征在于, 包括如下步骤: 定义集群内队列优先级及 pod优先级; 当集群主节点docker服 务正常后, 启动k8s集群及AI平台镜像拉取操作; 获取集群内所有队列信 息按照队列优先级和pod优先级确定拉取镜像的顺序进行服务 的启动。 2.根据权利要求1所述的AI平台故障修复方法, 其特征在于, 定义集群 内队列优先级及 pod优先级的步骤中包括: 定义队列内优先级由高到低依次是k8s集群系统服 务、 平台组件服 务、 平台内用户组; 定义队列内部各pod优先级。 3.根据权利要求2所述的AI平台故障修复方法, 其特征在于, 定义队列内部各pod优先 级的步骤 包括: k8s集群系统服务、 平台组件服务部署时根据性能和稳定性要求将pod优先级预置定 义; 队列用户组内创建用户时进行任务优先级定义。 4.根据权利要求3所述的AI平台故障修复方法, 其特征在于, 该方法包括: 不同类型的 队列, 根据类别的优先级排序, 再按照各自队列中pod优先级排序拉取启动服 务; 同一类型的队列, 队列优先级相同, 按照用户优先级在多个队列中轮询调度任务。 5.根据权利要求4所述的AI平台故障修复方法, 其特征在于, 获取集群 内所有队列信 息 按照队列优先级和pod优先级确定拉取镜像的顺序进行服 务的启动的步骤 包括: 获取集群内所有队列信息按照队列优先级拉取镜像, 首先进行k8s集群系统服务的启 动; 其次进行平台组件服 务的启动; 最后由队列及 pod优先级共同确定启动顺序进行 各个平台 内用户组的任务 容器启动。 6.根据权利要求5所述的AI平台故障修复方法, 其特征在于, 由队列及pod优先级共同 确定启动顺序进行 各个平台 内用户组的任务 容器启动的步骤 包括: 不同用户组不同用户创建任务时, 分别进入 对应的分组队列; 分组队列根据任务优先级 进行任务的排序并按照任务的排序进行任务 容器启动。 7.根据权利要求6所述的AI平台故障修复方法, 其特征在于, 分组队列根据任务优先级 进行任务的排序并按照任务的排序进行任务 容器启动的步骤 包括: 根据用户任务优先级高 中低进行对应用户创建的任务的优先级排序; 当任务优先级相同时, 按照各任务的任务资源占比进行优先级排序; 当多个任务的任务资源占比相同时, 按照任务的创建时间进行pod重新创建; 通过查询底层存在排队任务的队列信息进行任务 容器启动。 8.根据权利要求7所述的AI平台故障修复方法, 其特征在于, 当任务优先级相同时, 按 照各任务的任务资源占比进行优先级排序的步骤 包括: 当任务优先级相同时, 分别进行任务GPU、 内存和CPU 的请求资源与集群可分配资源的 所占百分比计算; 并取三个百分比值中最大值作为任务资源占比; 其中, 请求资源为创建任 务时任务 运行需要 使用的资源; 集群可分配资源为 k8s集群中所有节点可用资源的总和; 不同任务之间通过比较任务资源占比进行优先级设置; 其中, 任务资源占比小的任务 优先级高排在队列前面。权 利 要 求 书 1/2 页 2 CN 115098226 A 29.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 存储器存储有可被至少一个处理器执行的计算机程序指令, 所述计算机程序指令被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至8中任一项权利 要求所述的AI平台故障修复方法。 10.一种非暂态计算机可读存储介质, 其特征在于, 所述非暂态计算机可读存储介质存 储计算机指令, 所述计算机指 令使所述计算机执行如权利要求1至8任一项权利要求所述的 AI平台故障修复方法。权 利 要 求 书 2/2 页 3 CN 115098226 A 3
专利 一种AI平台故障修复方法、设备、存储介质
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 13:07:05
上传分享
举报
下载
原文档
(414.1 KB)
分享
友情链接
NIST SP 800-61 R2 Computer Security Incident Handling Guide 英文版.pdf
专利 隐私计算、隐私数据和联邦学习的互联互通方法及装置.PDF
GB-T 36092-2018 信息技术 备份存储 备份技术应用要求.pdf
GB/T 26495-2021 镁合金压铸转向盘骨架坯料.pdf
GB-T 35275-2017 信息安全技术 SM2密码算法加密签名消息语法规范.pdf
GB-T 37267-2018 建筑抗震支吊架通用技术条件.pdf
T-HMDSXH 003—2022 电商产业园区数字化建设与管理指南.pdf
信通院 联邦学习应用安全研究报告 2023年.pdf
DB3301-T 71—2018 数字城管系统运维服务规范 杭州市.pdf
GB-T 35391-2017 无损检测 工业计算机层析成像(CT)检测用空间分辨力测试卡.pdf
思度安全-DSMM-023 数据资产管理规范V1.0.pdf
T-ZJCX 0020—2022 基于数值仿真与数字孪生的大坝健康管理技术导则.pdf
T-SDJSXH 02—2021 建筑施工安全生产责任保险事故预防服务导则.pdf
GB 37300-2018 公共安全重点区域视频图像信息采集规范.pdf
TTAF 151—2023 移动应用分发平台APP个人信息保护自动化检测实施指南.pdf
GB-T 31503-2015 信息安全技术 电子文档加密与签名消息语法.pdf
T-CESA 1121—2020 人工智能芯片 面向端侧的深度学习芯片测试指标与测试方法.pdf
YD-T 3907.3-2021 基于BB84协议的量子密钥分发(QKD)用关键器件和模块 第3部分:量子随机数发生器(QRNG).pdf
DB63-T 2086-2022 水利水电工程堆石混凝土坝施工质量检验与评定规范 青海省.pdf
T-CESA 1036—2019 信息技术 人工智能 机器学习模型及系统的质量要素和测试方法.pdf
交流群
-->
1
/
3
10
评价文档
赞助2元 点击下载(414.1 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。