(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211066299.1
(22)申请日 2022.08.31
(71)申请人 中国航天空气动力技 术研究院
地址 100074 北京市丰台区云岗西路17号
(72)发明人 马弢 许亮 冯峰
(74)专利代理 机构 中国航天科技专利中心
11009
专利代理师 范晓毅
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 20/00(2019.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于双密度的无监督数据可分性评价
方法
(57)摘要
本发明公开了一种基于双密度的无监督数
据可分性评价方法, 包括对待评价数据集中的每
一数据点赋予聚类标签; 计算每一数据点的同类
点密度和异 类点密度; 得到每一数据点的双密度
指标的比值; 得到待评价数据集的可分离性分
数; 利用分类网络训练聚类标签, 得到预测的聚
类标签, 并重新计算同类点密度和异类点密度;
分类网络的损失函数基于可分离性分数构建。 本
发明基于聚类标签实现了无监督数据可分性评
价, 方法简单, 准确度高。
权利要求书2页 说明书5页 附图1页
CN 115526237 A
2022.12.27
CN 115526237 A
1.一种基于双 密度的无监 督数据可分性评价方法, 其特 征在于, 包括:
S1对待评价数据集中的每一数据点赋予聚类标签;
S2基于聚类标签, 计算每一数据点的同类点密度和异类点密度;
S3根据每一数据点的同类点密度和异类点密度, 得到每一数据点的双密度指标的比
值;
S4根据每一数据点的双 密度指标的比值, 得到待评价数据集的可分离性分数;
S5记录S1~S4的执行轮次, 当执行轮次达到预定轮次, 输出S4所得可分离性分数, 当执
行轮次未达 到预定轮次, 执 行S6;
S6利用分类 网络训练S1中的聚类标签, 得到预测的聚类标签, 并返回S1; 利用分类网络
训练聚类标签所用的损失函数基于S4所 得可分离性分数构建。
2.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,
步骤S1中, 对待评价数据集中的每一类数据点赋予的聚类标签的初值为采用Kmeans算法将
待评价数据集中的数据点进行聚类后得到的聚类标签。
3.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,
每一数据点的同类点密度 δi和异类点密度φi按照如下公式计算:
其中, μ为设定的阈值, Wij为数据点i和数据 点j在特征空间中的欧式距离,
表示以数
据点i为圆心, 以μ为半径的范围内与数据点i同类别的数据点的集合, χ( ·)表示指示函数,
括号内大于零则 χ( ·)取值为1, 否则为0 。
4.根据权利要求3所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,
Wij=euclidean_dist(xi,xj), 其中xi和xj分别为数据点i和数据点j的特征向量,
euclidean_dist( ·,·)代表计算两个数据点欧氏距离的函数。
5.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,
步骤S3中, 数据点 i的双密度指标的比值dif fi的计算公式为:
其中, δi为同类点密度, φi为异类点密度, ε是防止分母为0的极小正数, 取值在 0.001~
0.1之间。
6.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,
步骤S4中, 可分离性分数score的计算公式为:
diffi为数据点 i的双密度指标的比值, N 为待评价数据集中包 含的数据点个数。
7.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,权 利 要 求 书 1/2 页
2
CN 115526237 A
2步骤S6中, 分类网络为卷积神经网络 CNN或多层感知机 MLP。
8.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,
步骤S6中, 利用分类网络训练S1中的聚类标签, 得到预测的聚类标签的方法为:
S6.1将步骤S1中的全部数据点的聚类标签作为真值标签ytrue;
S6.2将真值标签ytrue和数据点的原始数据特征X输入分类网络, 使分类网络完成一轮 前
向传播后得到预测的类别标签ypred, 保留分类网络中特征提 取层的输出Xfeat, 并通过损失函
数得到本轮前向传播的损失值 LOSS;
S6.3基于损失值LOSS通过反向传播完成分类网络参数的更新, 并令X=Xfeat, ytrue=
ypred;
S6.4循环执行步骤S6.2~S6.3至 预定训练轮次后, 分类网络输出预测的类别标签ypred,
即为预测的聚类标签。
9.根据权利要求8所述的一种基于双密度的无监督数据可分性评价方法, 其特征在于,
损失函数
其中, N为待评价数据集中包含的数据点个数, CroEnt( ·)表示交叉熵函数,
和
分别为数据点 i的真值标签和预测的类别标签, score为可分离性分数。
10.根据权利要求1所述的一种基于双密度的无监督数据可分性评价方法, 其特征在
于, 利用可分离性分数评价待评价数据集的可分离性, 可分离性分数越大, 待评价数据集的
可分离性越好。权 利 要 求 书 2/2 页
3
CN 115526237 A
3
专利 一种基于双密度的无监督数据可分性评价方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:00:23上传分享