(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211149154.8 (22)申请日 2022.09.21 (71)申请人 之江实验室 地址 311121 浙江省杭州市余杭区之江实 验室南湖总部 (72)发明人 潘爱民 郝伟臣 高翔  (74)专利代理 机构 北京志霖恒远知识产权代理 有限公司 1 1435 专利代理师 戴莉 (51)Int.Cl. G06F 9/50(2006.01) G06F 11/30(2006.01) (54)发明名称 一种基于多集群统一算力的多模式调度系 统和方法 (57)摘要 本发明公开了一种基于多集群统一算力的 多模式调度系统和方法, 系统包括多集群资源管 理模块、 多集群调度策略模块、 资源监控报警模 块; 本发明首先根据作业申请的资源情况, 并结 合当前所有集群可分配的资源对集群进行过滤, 过滤出符合条件的集群; 然后再根据作业期望的 调度策略从符合条件的集群中选择出最优的集 群; 之后会对选择的集群资源进行占用, 同时也 会刷新多集群资源视图; 最后, 在作业执行完成 后, 会释放作业占用的集群资源, 也将再次刷新 多集群资源视图, 本发明基于多集群统一算力的 统一管控, 通过双向资源收集来确保多集群资源 视图的准确性和实时性, 为用户作业选择最优的 调度集群 。 权利要求书2页 说明书5页 附图5页 CN 115237608 A 2022.10.25 CN 115237608 A 1.一种基于多集群统一算力的多模式调度系统, 其特征在于, 包括互相连接的资源管 理模块、 调度策略模块、 监控报警模块; 所述资源管理模块用于维护多集群资源视图和基于调度策略为作业分配最优的运行 集群; 所述的调度策略模块用于提供调度策略供作业选择; 所述的监控报 警模块用于监控集群资源占用情况, 主动发现长时间占用未释放的资源 并进行报警。 2.根据权利要求1所述的一种基于多集群统一算力的多模式调度系统, 其特征在于, 所 述资源管理模块 维护多集群资源视图采用集群资源双向收集策略, 所述集群资源双向收集 策略包括系统定时向所有集群发送集群资源情况请求、 所有集群监控资源变更, 主动上报 系统集群最 新的资源情况。 3.根据权利要求1所述的一种基于多集群统一算力的多模式调度系统, 其特征在于, 所 述资源管理模块基于调度策略为作业分配最优的运行集群; 作业提交后, 资源管理模块根 据集群的总资源以及已被占用的资源, 计算出当前集群的可用资源, 结合作业要求的资源, 使用集群过滤器过滤出满足要求的集群, 再基于作业期望的调 度策略使用集群选择器选择 一个最优的集群。 4.根据权利要求1所述的一种基于多集群统一算力的多模式调度系统, 其特征在于, 所 述调度策略模块提供的调度策略包括能耗优先策略、 经济优先策略、 时间优先策略; 所述调 度策略模块预留调度策略扩展功能, 用于自定义调度策略。 5.根据权利要求1所述的一种基于多集群统一算力的多模式调度系统, 其特征在于, 所 述监控报警模块监控集群资源占用情况, 并在集群资源占用情况不健康时对管理员发出警 报; 所述监控报警模块主动发现长时间占用未释放的资源并进行处 理。 6.根据权利要求5所述的一种基于多集群统一算力的多模式调度系统, 其特征在于, 所 述监控报警模块主动发现长时间占用未释放的资源并进行 处理包括智能和人工两种方式, 智能方式在发现长时间占用未释放的资源后, 自动回调资源 申请方, 确认资源是否确实还 在使用, 若不在使用, 则自动释放, 否则, 通过监控报警模块发送报警信息给管理员进行人 工介入确认。 7.根据权利要求2所述的一种基于多集群统一算力的多模式调度系统, 其特征在于, 所 述的集群资源双向 收集策略包括: 上行主动上报: 集群需要部署调度系 统Agent用于上报相 关信息, 包括集群资源情况; Agent部署在集群侧用于监听集群拓扑 结构变更, 一 旦检测到变更能立即感知, 实时上报; 下行被动收集: 调度 策略模块启动定时任务, 定时向所有集群下发资源查询请求, 收集 集群资源信息 。 8.一种基于多集群统一 算力的多模式调度方法, 其特 征在于, 包括以下步骤: 步骤1: 作业创建: 作业创建人根据业务需求选择作业类型, 填写作业基本信息及运行 作业时期望的资源情况, 并配置作业期望的集群调度策略, 提交作业 等待运行; 步骤2: 计算系统各集群可用资源: 采用集群资源双向收集策略收集所有集群总资源情 况, 结合集群已被分配占用的资源, 计算出当前 所有集群的可用资源情况; 步骤3: 集群过滤: 根据步骤1作业的期望资源和步骤2当前集群的可用资源, 使用集群权 利 要 求 书 1/2 页 2 CN 115237608 A 2过滤器依据作业申请占用资源和当前集群可用资源对集群进 行过滤, 过滤出满足作业运行 要求的集群, 若存在满足要求的集群, 则转 步骤4, 否则资源不足分配失败; 步骤4: 集群选择: 基于步骤1作业期望的集群调度策略和步骤3过滤出的满足作业运行 要求的集群, 使用集群选择器依据集群各维度的分值挑选出最优的集群; 步骤5: 集群资源占用: 依据步骤1作业的期望资源和步骤4挑选出的目标集群, 生成资 源占用记录, 进行集群资源占用; 步骤6: 作业运行: 步骤5集群资源占用成功之后, 资源管理模块提交作业到目标集群, 开始作业执 行; 步骤7: 集群资源释放: 步骤6作 业执行结束后, 修改步骤5生成的资源占用记录状态, 进 行集群资源释放。权 利 要 求 书 2/2 页 3 CN 115237608 A 3

.PDF文档 专利 一种基于多集群统一算力的多模式调度系统和方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多集群统一算力的多模式调度系统和方法 第 1 页 专利 一种基于多集群统一算力的多模式调度系统和方法 第 2 页 专利 一种基于多集群统一算力的多模式调度系统和方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:08:34上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。