(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111570817.9
(22)申请日 2021.12.21
(71)申请人 大连理工大 学
地址 116024 辽宁省大连市甘井 子区凌工
路2 号
(72)发明人 侯修全 冯守渤 马艺鸣 韩敏
(74)专利代理 机构 辽宁鸿文知识产权代理有限
公司 21102
代理人 苗青 王海波
(51)Int.Cl.
G06F 16/215(2019.01)
G06F 16/2458(2019.01)
G06F 17/16(2006.01)
G06F 30/20(2020.01)
G06F 111/04(2020.01)G06F 119/14(2020.01)
(54)发明名称
一种基于动力学原理与时间差分的数据补
全方法
(57)摘要
一种基于动力学原理与时间差分的数据补
全方法, 该方法包含多元时间序列数据的潜在维
度分析、 补全模型、 迭代优化算法部分。 运行时,
潜在维度分析部分使用奇异值分解估算数据的
主成分数量, 确定潜在变量的维度; 补全模型从
动力学系统的基本微分方程而来, 基于 “数据可
用低维表示 ”与“稀疏噪声 ”假设, 利用时间差分
正则化来补全 数据; 优化求解算法通过求解梯度
以及近端算子等信息来迭代地对模 型求解。 本发
明针对时间序列数据采样中常见的缺失问题, 考
虑潜在信息, 提出一种有效的数据补全方法, 具
备补全效果好、 运行快速简单、 鲁棒性强、 适用场
合广等优点, 适用于各种符合动力学原理的时间
序列领域, 解决不可避免的数据丢失与噪声问
题。
权利要求书3页 说明书8页 附图3页
CN 114253959 A
2022.03.29
CN 114253959 A
1.一种基于动力学原理与时间差分的数据补全方法, 其特征在于, 所述的数据补全方
法包括以下步骤:
步骤1, 将 实际采样得到的数据作为需要补全的多元时间序列, 将多元时间序列转化为
二维矩阵, 用观测矩阵M表示,
其行数n和列数s分别代表采样地点和采样时间个
数, M中每行 数据是一维时间序列;
步骤2, 在构建模型之前, 对观测矩阵M进行预处理, 将其中的无效元素、 缺失值标记为
0; 为了区分观测矩阵M的缺 失部分和非缺 失部分, 首先根据 观测矩阵M生 成对应的掩码矩阵
W; 掩码矩阵W的维度与观测矩阵M相同: 如果观测矩阵M的第i 行第j列的元素Mij没有缺失, 则
掩码矩阵W的第i 行第j列的元素Wij设为1; 若观测矩阵M第k 行第l列的元素缺失, 则掩码 矩阵
W第k行第l列的元 素为0;
步骤3, 为了获取数据潜在特征维度d, 对第二步归一化后的观测矩阵M进行SVD 分解, 得
到U, Σ, V三个矩阵, 如式(2)所示:
M=UΣV (1)
其中, U和V分别为左右奇异矩阵, 与后续操作无关; Σ为对角矩阵, 对角线元素为观测
矩阵M的奇异值σ1, σ2…σm, 如式(3)所示:
且奇异值从大到小排列, 即σ1>σ2>σ3>...>σm, 奇异值个数m=mi n(n,s);
潜在特征维度d的选取 方法有以下两种参 考:
1)对奇异值σ1, σ2, σ3,..., σm进行累积求和, 找 到前k个奇异值σ1, σ2,... σk, 使前k个奇异
值之和占所有m个总奇异值之和的90%以上, 此时的k作为潜在特 征维度d, 如式(4)所示:
2)找到前k个奇异值, 使得从第k+1个奇异值起, 奇异值数量级会有显著减小, 如σk+1数
值减小为σk的1/10以下, 此时的数字k作为潜在特 征维度d, 如式(5)所示:
步骤4, 在确定潜在特征维度d之后, 即可确定补全模型各矩阵维度; 模型中所用到的矩
阵包括重构补全矩阵
潜在特征矩阵
特征映射矩阵
噪声矩阵
以及第二 步中的观测矩阵M和掩码矩阵W;
构建补全 模型包含以下2个子步骤:
步骤4.1为了保证重构补全矩阵Y不改变观测矩阵M已有的数据, 同时滤除噪声, 需要建
立重构补 全矩阵Y与 观测矩阵M之间的关系; 观测矩阵M存在噪声与缺 失值, 噪声仅在观测矩
阵M的非缺失部分存在, 而重构补全矩阵Y不含噪声, 引入约束等式(6)来表达 Y与M的关系:权 利 要 求 书 1/3 页
2
CN 114253959 A
2其中,
表示Hadamard积, 式(6)表示真实观测矩阵M与重构补全矩阵Y, 他们的非缺失部
分
仅受稀疏噪声S的影响; 采用低秩+稀疏分离的形式从观测矩阵M去除噪声S,
以保留有效的重构补全矩阵Y; 同时用矩阵的l1范数来衡量噪声矩阵S的稀疏程度, 如式(7)
所示:
其中, S={Sij}表示噪声矩阵中的元素, l1范数定义为矩阵中所有元素的绝对值之和,
对S矩阵的l1范数进行约束可使S具有稀疏的特性;
步骤4.2利用 低秩补全的思想, 假设Y是潜在特征X的线性组合, 因此采用指标式(8)来
衡量数据的低秩特性:
其中, F范数定义为矩阵所有元素绝对值的平方和, 其值越小, 代表Y与CX的差异越小;
式(8)采用了低秩矩阵分解的思路, 重构补全矩阵Y即为补全的结果;
为了保证X的这种平滑特征, 确保根据潜在特征X补全后的结果仍能符合动力学方程,
通过式(9)约束潜在特征X的每一行数据x相邻时刻间的差异, 其值越小表 示潜在特征X的每
一行数据x的变化越平 滑:
其中, F1是一阶差分矩阵, 仅在接近对角线的位置才有值1和 ‑1, 其余位置均为0,
重构补全矩阵Y与观测矩阵M之间的约束关系, 用如式(11)所示的约束优化问题来描
述:
其中, λ与β 分别为l1范数正则化与时间差分正则化的系数, 用于权衡数据的低秩性、 噪
声的占比、 数据变化的平 滑性在补全过程的侧重程度;
步骤5, 构建模型之后, 针对式(11)进行优化求解; 使用增广拉格朗日乘子法来求解该
约束优化问题; 构建对应的增广拉格朗日函数, 如式(12)所示:
其中, ρ 为增广项的系数,
为增广拉格朗日乘子矩阵, 采用交替方向乘子法求解
增广拉格朗日函数的最优解;
首先对超参数λ、 ρ, 以及重构补全矩阵Y、 映射矩阵C、 潜在特征矩阵X、 噪声矩阵S进行初
始化, 其中Y、 S、 X、 C使用随机初始 化方法; Λ是增广拉格朗日乘子矩阵, 使用零初始化方法;
然后设置迭代次数, 在每步迭代中, 迭代求解式(13)、 (14)、 (15)、 (16)、 (17)分别对Y、 X、 C、权 利 要 求 书 2/3 页
3
CN 114253959 A
3
专利 一种基于动力学原理与时间差分的数据补全方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:50:49上传分享