(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211051570.4
(22)申请日 2022.08.31
(65)同一申请的已公布的文献号
申请公布号 CN 115145591 A
(43)申请公布日 2022.10.04
(73)专利权人 之江实验室
地址 311121 浙江省杭州市余杭区之江实
验室南湖总部
(72)发明人 李劲松 相文超 邓光源 周天舒
田雨
(74)专利代理 机构 北京志霖恒远知识产权代理
有限公司 1 1435
专利代理师 戴莉
(51)Int.Cl.
G06F 8/60(2018.01)G06F 9/48(2006.01)
G06F 9/50(2006.01)
G06F 16/25(2019.01)
(56)对比文件
CN 105487930 A,2016.04.13
李磊.ETL任务 集群调度方法. 《计算机技 术
与发展》 .2018,(第1 1期),
韩文彪等.PBS :一种面向集群环境的ETL调
度算法. 《计算机与数字 工程》 .2017,(第0 5期),
审查员 赵鹏翔
(54)发明名称
一种基于多中心的医疗ETL任务调度方法、
系统及装置
(57)摘要
本发明公开了一种基于多中心的医疗ETL任
务调度方法、 系统及装置, 包括以下步骤: 步骤
S1: 对ETL任务进行测试与验证; 步骤S2: 将ETL任
务部署至医院中心, 将ETL任务调度到若干个执
行机执行; 步骤S3: 筛选满足待调度ET L任务的资
源需求的执行机集合; 步骤S4: 计算所述执行机
集合中各个执行机的当前任务负载; 步骤S5: 选
择当前任务负载最小的所述执行机执行ETL任
务; 步骤S6: 所述调度机根据优先级从所述执行
机活动队列中选择ETL任务执行。 本发明通过分
析出任指标为当前调度机上的待调度任务选择
最合适的执行机器。 执行机从执行队列中选择任
务进行执行, 同时监测当前任务的阶段信息, 从
而实现集群资源利用的最大化。
权利要求书2页 说明书9页 附图4页
CN 115145591 B
2022.12.06
CN 115145591 B
1.一种基于多中心的医疗ETL任务调度方法, 其特 征在于, 包括以下步骤:
步骤S1: 生成ETL任务, 利用测试机收集ETL任务的资源需求和确定时间预估方程, 并对
ETL任务进行测试与验证;
步骤S11: 生成ETL任务, 并将ETL任务通过测试机运行, 将ETL任务运行过程 中的数据分
为测试数据与验证数据, 分别收集所述测试 数据的资源需求与所述验证数据的资源需求;
步骤S12: 利用所述测试机读取所述测试数据的数据量和数据读取速率, 根据 所述数据
量和所述数据读取速率确定时间预估方程
;
其中
表示ETL任务
在阶段k需要处理的数据量,
表示数据 读取速率, a、 b为常量
指标;
步骤S13: 利用所述时间预估方程得到所述测试 数据对应ETL任务的预估时间;
步骤S14: 对所述资源需求和所述预估时间进行验证, 当所述测试数据的资源需求满足
所述验证数据的资源需求, 同时所述预估时间与所述验证数据对应ETL任务的实际执行时
间的差值小于预设阈值, 则完成ETL任务的测试与验证;
步骤S2: 将ETL任务部署至医院中心, 所述医院中心通过调度机将ETL任务调度到若干
个执行机执行;
步骤S21: 将ETL任务部署至医院中心;
步骤S22: 利用所述时间预估方程确定 ETL任务的预估时间;
步骤S23: 利用所述预估时间确定 ETL任务的优先级;
步骤S24: ETL任务 根据所述优先级通过调度机将ETL任务调度到执 行机执行;
步骤S241: 所述调度机初始化活动任务队列和过期任务队列;
步骤S242: 根据所述优先级将ETL任务添加至所述活动任务队列中;
步骤S243: 当所述活动任务队列中ETL任务为空, 则对调所述活动任务队列和所述过期
任务队列, 所述调度机继续从所述活动任务队列中进行分发调度;
步骤S3: 所述调度机收集并统计各个所述执行机上报的资源指标向量和待调度ETL任
务在当前阶段的资源需求向量, 筛 选满足待调度ETL任务的资源需求的执 行机集合;
步骤S4: 计算所述执 行机集合中各个执 行机的当前任务负载;
步骤S5: 根据各个所述执行机的当前任务负载, 所述调度机选择当前任务负载最小的
所述执行机执行ETL任务;
步骤S6: 所述调度机将ETL任务添加至所述执行机活动队列中, 所述执行机活动队列中
的ETL任务根据所述预估方程确定的预估时间确定优先级, 所述调度机根据优先级从所述
执行机活动队列中选择ETL任务执 行;
ETL任务执行过程中, 设置ETL任务运行时间阈值, 当ETL任务执行时间大于等于ETL任
务运行时间阈值, 则暂停ETL任务执行, 并将ETL任务添加至所述执行机过期队列中, 等待 下
次调度;
ETL任务执行过程 中, 检测ETL任务阶段信息, 当阶段发生切换, 则暂停ETL任务执行, 并
将ETL任务添加至所述调度机的过期任务队列中, 等待所述调度机 重新调度;权 利 要 求 书 1/2 页
2
CN 115145591 B
2ETL任务执行过程中, 当所述执行机调度后所述执行机活动队列为空, 则对调所述执行
机活动队列和所述执行机过期队列, 所述调度机继续从所述执行机活动队列进行调度执
行。
2.如权利要求1所述的一种基于多中心的医疗ETL任务调度方法, 其特征在于, 所述步
骤S22 具体包括利用所述时间预估方程, 通过ETL任务在当前 阶段的剩余待处理数量和所
述医院中心的数据读取速率确定 ETL任务的预估时间。
3.如权利要求1所述的一种基于多中心的医疗ETL任务调度方法, 其特征在于, 所述步
骤S3具体包括以下子步骤:
步骤S31: 所述调度机收集并统计任一所述执 行机的资源指标向量;
步骤S32: 所述调度机收集并统计待调度ETL任务在当前阶段的资源需求向量;
步骤S33: 利用所述资源指标向量和所述资源需求向量筛选满足待调度ETL任务资源需
求的执行机集合。
4.如权利要求1所述的一种基于多中心的医疗ETL任务调度方法, 其特征在于, 所述步
骤S4具体包括以下子步骤:
步骤S41: 利用所述时间预估方程计算各个所述执行机集合中各执行机活动队列和执
行机过期队列中所有ETL任务的预估时间之和;
步骤S42: 通过所述预估时间之和和所有ETL任务的合集计算对应所述执行机的当前任
务负载。
5.如权利要求1所述的一种基于多中心的医疗ETL任务调度方法, 其特征在于, 所述步
骤S5中当多个所述执行机的当前任务负载相同, 则根据当前阶段执行机的资源指标向量和
当前阶段ETL任务的资源需求向量, 并结合所述执行机的资源权重取值, 筛选出值最小的所
述执行机进行调度执 行ETL任务。
6.如权利要求5所述的一种基于多中心的医疗ETL任务调度方法, 其特征在于, 所述步
骤S5当筛选出的所述执行机依旧为多个, 则随机选择其中所述执行机进行调度执行ETL任
务。
7.一种用于实现权利要求1 ‑6任一项所述的多中心的医疗ETL任务调度 方法的系统, 其
特征在于, 包括:
测试模块, 用于收集ETL任务 运行数据, 确定 ETL任务资源需求及时间预估方程;
医院中心模块, 用于ETL任务部署, 将ETL任务提交至调度机模块进行ETL任务的调度与
分发;
调度机模块, 用于计算执行机资源及任务负载, 并利用所述时间预估方程计算任务预
估时间确定 ETL任务的优先级, 并按照优先级将ETL任务调度到执 行机模块;
执行机模块, 用于执 行ETL任务, 并对ETL任务超时调度及阶段切换调度。
8.一种基于多中心的医疗ETL任务调度装置, 其特征在于, 包括存储器和一个或多个处
理器, 所述存储器中存储有可执行代码, 所述一个或多个处理器执行所述可执行代码时, 用
于实现权利要求1 ‑6中任一项所述的一种基于多中心的医疗ETL任务调度方法。
9.一种计算机可读存储介质, 其特征在于, 其上存储有程序, 该程序被处理器执行时,
实现权利要求1 ‑6中任一项所述的一种基于多中心的医疗ETL任务调度方法。权 利 要 求 书 2/2 页
3
CN 115145591 B
3
专利 一种基于多中心的医疗ETL任务调度方法、系统及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:08:31上传分享