(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211147534.8
(22)申请日 2022.09.19
(71)申请人 南京航空航天大 学
地址 210016 江苏省南京市秦淮区御道街
29号
(72)发明人 李迎光 刘旭 陈耿祥 陈璐
孟庆禄 郝小忠 刘长青 许可
(74)专利代理 机构 南京天华专利代理有限责任
公司 32218
专利代理师 瞿网兰
(51)Int.Cl.
G06F 17/18(2006.01)
G06F 30/23(2020.01)
G06F 113/26(2020.01)
G06F 119/08(2020.01)
(54)发明名称
一种数据集 合的价值评估及采样方法
(57)摘要
一种数据集合的价值评估及采样方法, 对 数
据集合的价值进行合理评估, 进而用于指导高价
值数据集合采样。 该方法首先建立用于评估数据
个体价值的评估模型, 并建立用于描述数据个体
之间价值冗余程度的函数; 然后综合考虑数据个
体价值和数据个体间的价值冗余程度构建数据
集合的价值评估模型; 进而可基于所述的数据集
合的价值评估模 型, 根据用户需要从数据采样空
间内采样高价值数据集合。 本发 明的主要用途为
评估数据集合的价值和采样高价值数据集合, 可
在数据驱动的分析、 建模和决策任务中指导数据
采样, 从而提升数据集合质量, 在保证目标任务
效果的前提下有效减少数据采集成本 。
权利要求书2页 说明书5页 附图1页
CN 115525869 A
2022.12.27
CN 115525869 A
1.一种数据集 合的价值评估方法, 其特 征在于, 包括以下步骤:
首先, 建立用于评估数据个体价值的评估模型, 并建立用于描述数据个体之间价值冗
余程度的函数; 然后, 综合考虑数据个体价值和数据个体间的价值冗余程度构建数据集合
的价值评估模型。
2.根据权利要求1所述的方法, 其特征在于, 数据个体价值的评估模型的建立方法为以
下之一:
通过计算数据个体对目标任务的增益大小评估数据个体价值, 进而建立用于评估数据
个体价值的评估 模型;
通过计算与目标任务相似场景下的数据个体对目标任务的增益大小评估数据个体价
值, 进而建立用于 评估数据个 体价值的评估 模型;
根据数据产生场景的领域知识评估数据个体价值, 进而建立用于评估数据个体价值的
评估模型。
3.根据权利要求2所述的方法, 其特征在于, 所述的增益大小计算方法是通过计算数据
个体对目标任务的沙普利值获得。
4.根据权利要求1所述的方法, 其特征在于, 所述的描述数据个体之间价值冗余程度的
函数的建立方法采用以下 方式之一:
数据个体之间的冗余程度与 数据个体之间的距离成反比, 距离相近的数据个体组成的
集合产生更 大的冗余 价值, 所述距离包括欧式距离、 马氏距离;
数据个体之间的冗余程度与 数据个体之间的相关性成正比, 相关性更大的数据个体组
成的集合产生更 大的冗余 价值, 所述相关性的表示方式包括核函数、 隶属度函数。
5.根据权利要求1所述的方法, 其特征在于, 所述的数据集合的价值评估模型, 计算方
法为:
v′(x,S)=v(x)max{k(x,x1),…,k(x,xm)},x1,…,xm∈S
其中, v(S)为所述的数据 集合的价值评估模型, n为样本空间中潜在数据点的个数, N为
由样本空间中的n个潜在数据点组成的数据集合, S是数据集合N的数据子集, v(x)为所述的
数据个体价值的评估模型, k(x,xi)(i=1,2, …,m)为所述的描述数据个体之间价值冗余程
度的函数, m(0 <m≤n)是S中的数据个数。
6.根据权利要求1所述的方法, 其特征在于, 所述的描述数据个体之间价值冗余程度的
函数形式为以下之一:
高斯核函数:
拉普拉斯核函数:
逆多元二次核函数:
式中xi表示第i个数据个体, xj表示第j个数据个体, σ 为控制高斯核函数大小的参数, τ权 利 要 求 书 1/2 页
2
CN 115525869 A
2为控制拉普拉斯核函数 大小的参数, c为控制逆多元二次核函数 大小的参数。
7.一种高价值数据集合的采样方法, 其特征在于, 基于权利要求1所述的数据集合的价
值评估模型, 根据用户需要从数据采样空间内采样高价 值数据集 合。
8.根据权利要求7所述的方法, 其特征在于, 所述的根据用户需要从数据采样空间内采
样高价值数据集 合, 包括以下 方式:
给定采样数量p, 基于所述的数据集合的价值评估模型, 记v(Sp)表示由p个数据个体组
成的集合Sp的价值, 采用贪婪法 或全局寻优法 从数据采样空 间内采样出使得v(Sp)最大的数
据集合;
给定目标任务性能要 求, 基于所述的数据集合的价值评估模型, 记xi表示采样过程中的
第i个数据个体, v({x1,x2,…,xi})表示i个数据个体x1,x2,…,xi组成的数据集合{x1,x2,…,
xi}的价值, 在数据采样空间 内, 首先通过贪婪法 或全局寻优法采样出使得v({x1})最大的第
一个数据个体x1; 接着, 通过贪婪法或全局寻优法采样出使得v({x1,x2})‑v({x1})最大的第
二个数据个体x2; 如集合{x1,x2}未满足目标任务性能要求, 则继续通过贪婪法或全局寻优
法采样出使得v({x1,x2,x3})‑v({x1,x2})最大的第三个数据个体x3, 以此迭代采样直至满足
目标任务 性能要求。权 利 要 求 书 2/2 页
3
CN 115525869 A
3
专利 一种数据集合的价值评估及采样方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:53:56上传分享