(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210999505.8
(22)申请日 2022.08.19
(71)申请人 中国科学技术大学
地址 230026 安徽省合肥市包河区金寨路
96号
(72)发明人 朱进 黄蕾
(74)专利代理 机构 北京科迪生专利代理有限责
任公司 1 1251
专利代理师 金怡
(51)Int.Cl.
G06N 7/00(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种基于PPO-CF R算法的非完全信息博弈策
略优化方法
(57)摘要
本发明涉及提供一种基于PPO ‑CFR算法的非
完全信息博弈策略优化方法, 设计一个PPO智能
体, 将现存CF R变体中的后悔 更新方式作为PPO智
能体可以选择的动作, 并利用迭代博弈策略的可
利用度构造智能体的奖励值, 从而使得PPO智能
体能够在每一时间步中选择最合适的后悔更新
方法, 以提高CF R算法的泛化性能, 并达成非完全
信息博弈的策略优化, 从而解决了现有CFR及其
变体算法在非完全信息博弈下表现各有优劣、 泛
化性能薄弱的问题, 可以在卡牌等非完全信息博
弈中获得良好的泛化性能和较低的可利用度, 同
时迭代策略能够收敛到 近似纳什均衡策略。
权利要求书2页 说明书4页 附图2页
CN 115456181 A
2022.12.09
CN 115456181 A
1.一种基于P PO‑CFR算法的非完全信息博 弈策略优化方法, 其特 征在于, 包括:
步骤S1: 运行表格式CFR算法, 记录与迭代次数t相关的最小可利用度
其中, 所述表
格式CFR算法包括: 普通CFR、 线性CFR、 CFR+、 折扣CFR和指数CFR;
步骤S2: 初始化经验池D, 初始化PPO算法中行动者Actor和目标行动者TargetActor的
网络参数, 以及评论家Critic和目标评论家TargetCritic的网络参数;
步骤S3: 在第t次迭代中, 以随机状态st、 博弈策略σt开始博弈;
步骤S4: PPO算 法中的Actor网络在该状态st下经过归 一化后得到概率值pro, 利用pro类
别分布采样获得动作
并将
作为现有CFR算法中第i个CFR的后悔计算方式;
步骤S5: 执 行动作
用对应的所述后悔 计算方式计算非完全信息博 弈的信息集中每 个
动作的后悔值, 并将其作为下一次迭代状态st+1, 然后用所述后悔计算方式
更新下一次迭
代t+1的策略σt+1, 其中信息集是非完全信息博 弈中无法区分的状态集 合;
步骤S6: 获得 该轮博弈中的可利用度Et, 同时利用奖励函数计算奖励值
步骤S7: 在经验 池D中存储样本
步骤S8: 从所述经验池D随机采样N个样本
通过最小化Actor网络
和Critic网络所对应的损失函数来更新 其对应的网络参数θu和 θq;
步骤S9: 每隔M步令θ'u=θu, θ'p=θp;
步骤S10: 当t<T时, 重复步骤S3~S9, 其中, T为预设的迭代次数; 否则, 获得平均策略
2.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在
于, 所述步骤S6中奖励值
的计算公式(1)如下 所示:
其中, Et是当前策略在第t次迭代中的实际可利用度,
是在第t次迭代中最小可利用
度。
3.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在
于, 所述步骤S8中Actor 网络和Critic网络所对应的损失函数J( θ )的计算公式(2)~(4)如
下所示:
其中, 公式(2)中c1,c2是两个超参数;
表示状态值估计, Gt表示目标评价网络获得
的状态值, H( πθ(·)|st)表示熵奖励;
公式(3)中
表示估计的优势函数, r( θ )是重要性采样权重, 函数clip(r( θ ),1 ‑∈,1权 利 要 求 书 1/2 页
2
CN 115456181 A
2+∈)将r( θ )的值限制在[1 ‑∈,1+∈], ∈为截断因子 。
4.根据权利 要求1所述的基于PPO ‑CFR算法的非完全信息博弈策略优化方法, 其特征在
于, 所述步骤S10中获得平均策略
具体包括:
当t=T时, 迭代结束, 此时所述平均策略
将会成为
的纳什均衡策略;
其中, I为所述信息集, A为非完全信息博 弈中的可选动作集。权 利 要 求 书 2/2 页
3
CN 115456181 A
3
专利 一种基于PPO-CFR算法的非完全信息博弈策略优化方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:00:08上传分享