国家标准网
文库搜索
切换导航
首页
频道
仅15元无限下载
联系我们
首页
仅15元无限下载
联系我们
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211017912.0 (22)申请日 2022.08.24 (71)申请人 中电鸿信 信息科技有限公司 地址 210029 江苏省南京市 鼓楼区汉中路 268号 (72)发明人 袁为捷 敬习飞 查文杰 康书恒 潘孙翔 (74)专利代理 机构 南京钟山专利代理有限公司 32252 专利代理师 戴朝荣 (51)Int.Cl. G06F 16/22(2019.01) G06F 16/2458(2019.01) G06F 16/27(2019.01) G06F 16/28(2019.01)G06F 9/50(2006.01) G06N 5/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于Spark分布式数据挖掘算法封装与 调参方法 (57)摘要 本发明提供一种基于Spar k分布式数据挖掘 算法封装与调参方法, 对spark机器学习算法抽 象出四类通用参数, 基于算法配置, 完成抽象参 数针对性赋值; 根据数据存储、 算法设置和应用 场景, 将同一种算法的数据输入参数、 算法参数 和算法输 出参数设置为不同形式; 将不同算法运 行评估结果存储为算法执行结果表, 对抽象参数 不同赋值后, 监控算法每次调用记录及其评估结 果后自定义辅助输出; 通过监控辅助输出对算法 完成调参, 获取运行效果。 本发明将算法的调参 与输入数据、 硬件条件、 软件环境相分离, 通过配 置完善算法实体; 算法可自定义算法并将其封装 打包, 支持算法包及其信息的新增与修改; 在算 法打包时, 对其输出 结果进行自定义封装。 权利要求书2页 说明书4页 附图1页 CN 115357583 A 2022.11.18 CN 115357583 A 1.一种基于Spark分布式数据 挖掘算法封装与调参方法, 其特 征在于, 包括: 基于Spark机器学习算法抽象出数据输入参数、 算法参数、 算法输出参数和执行器参 数; 所述数据输入参数拼接完整的数据源, 获取算法执行输入 数据; 所述算法参数构建完整 的算法实体, 通过可视化设置参数, 调参后获取算法执行效果; 所述算法输出参数完善算法 执行结果后自定义输出, 生成算法成功执行后的反馈; 执行器参数设置算法执行计算机的 CPU和内存, 利用集群资源提高计算速度; 基于算法配置, 完成抽象参数针对性赋值; 根据数据存储、 算法设置和应用场景, 将同 一种算法的数据输入参数、 算法参数和算法输出参数设置为 不同形式; 将不同算法运行评估结果存储为算法执行结果表, 对抽象参数不同赋值后, 监控算法 每次调用记录及其评估结果后自定义辅助输出; 通过监控辅助输出对算法完成调参, 获取 运行效果。 2.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 对随机森林分类/回归算法封装, 数据输入参数设置训练数据占比、 测试数据占比、 数据 库、 数据表、 主键字段、 标签字段和特征字段; 算法参数设置树的最大深度和树的数量; 数据 输出参数设置模型文件 存储位置; 执 行器参数设置集群提交作业的硬件参数。 3.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 对二分K均值聚类算法封装, 数据输入参数设置数据库、 数据表、 主键字段和特征字段; 算法参数设置簇数、 最大迭代数和随机数种子; 数据输出参数设置类别预测结果; 执行器参 数设置集群提交作业的硬件参数。 4.根据权利要求2所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 主键字段只有一个字段, 特征字段为多个字段; 随机森林分类/回归算法输出参数设置 为分布式文件系统中模型文件 存放路径。 5.根据权利要求3所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 主键字段只有一个字段, 特征字段为多个字段; 二分K均值聚类算法输出参数为数据仓 库自定义聚类结果表。 6.根据权利要求1所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 数据输入参数设定为hive数仓、 hdfs文件和excel文件, 满足算法输入格式的数据输入 形式; 算法参数设定为文本直接输入和多固定值选择, 满足算法需求的参数形式; 算法输出 参数设定为PMML文件和hive数仓, 满足算法输出格式的数据输出形式; 执行器参数设定为 文本直接 输入, 满足替换默认硬件资源的数据输入形式。 7.根据权利要求4所述的基于Spark分布式数据挖掘算法封装与调参方法, 其特征在 于, 赋值随机森林分类/回归算法的数据输入参数、 算法参数、 算法输出参数和执行器参数; 赋值数据输入参数, 对训练数据占比、 测试数据占比和连续型特征数量阈值的赋值类型为 数字, 其中训练数据占比与测试数据占比之和为1, 取值分别为0.7和0.3; 对数据库、 数据 表、 主键字段、 标签字段和特征字段的赋值通过业务hive仓库中选取获得; 赋值算法参数, 对树最大深度、 最大装箱数、 每个节点最少实例、 最小信息增益、 检查点间隔、 设置采样率、 采样种子、 树数量和特征子集选取策略根据训练数据的实际情况进行文本赋值; 赋值数据 输出参数, 训练完成的模型转换成PMML格式文件, 通过模型存储位置对PMML模型文件的生 成路径进行设置, 以需求的数据格式输入后实现相关的预测功能; 赋值执行器参数, 设置权 利 要 求 书 1/2 页 2 CN 115357583 A 2CPU和内存的执行器参数配置, spark.total.executor.cores用于设置Spark作业总共使用 多少个core, spark.executor.memory用于设置每 个Executor进程的内存。权 利 要 求 书 2/2 页 3 CN 115357583 A 3
专利 一种基于Spark分布式数据挖掘算法封装与调参方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2.5元下载(无需注册)
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2.5元下载
本文档由 人生无常 于
2024-03-18 13:00:09
上传分享
举报
下载
原文档
(490.8 KB)
分享
友情链接
T-WSJD 21—2022 内镜储存干燥柜卫生要求.pdf
DB3401-T 272—2022 城区菜市场建设与管理规范 合肥市.pdf
GB/T 39409-2020 北斗网格位置码.pdf
GB-T 12604.10-2023 无损检测 术语 第10部分:磁记忆检测.pdf
LY-T 3196-2020 竹林碳计量规程.pdf
GB-T 20721-2022 自动导引车 通用技术条件.pdf
DB4106-T 69-2022 数字乡村平台建设指南 鹤壁市.pdf
T-SZUAVIA 009.8—2019 多旋翼无人机系统实验室环境试验方法 第 8 部分:振动试验.pdf
POS终端 银行卡受理终端安全规范 第1部分销售点.pdf
GB-T 25810-2019 染料 产品标志、标签、包装、运输和贮存通则.pdf
中国银保监会监管数据安全管理办法(试行).pdf
T-ATCRR 33—2021 废锂离子电池回收制黑粉.pdf
中国人工智能系列白皮书 大模型技术白皮书2023版.pdf
GB-T 25065-2010 信息安全技术 公钥基础设施 签名生成应用程序的安全要求.pdf
GB-Z 22553-2010 利用重复性、再现性和正确度的估计值评估测量不确定度的指南.pdf
CISP-PTE 知识体系大纲.pdf
DB11-T 945.1-2023 建设工程施工现场安全防护、场容卫生及消防保卫标准 第1部分:通则 北京市.pdf
GB-T 4352-2022 载货汽车运行燃料消耗量.pdf
GB 30510-2018 重型商用车辆燃料消耗量限值.pdf
信通院 政务数据共享开放安全研究报告.pdf
1
/
3
8
评价文档
赞助2.5元 点击下载(490.8 KB)
回到顶部
×
微信扫码支付
2.5
元 自动下载
点击进入官方售后微信群
支付 完成后 如未跳转 点击这里下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。