(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211044043.0
(22)申请日 2022.08.30
(65)同一申请的已公布的文献号
申请公布号 CN 115114033 A
(43)申请公布日 2022.09.27
(73)专利权人 上海芯算极科技有限公司
地址 201306 上海市浦东 新区中国(上海)
自由贸易试验区临港新片区环湖西二
路888号C楼
(72)发明人 孙坚伟 胡力 乔安成
(74)专利代理 机构 上海谱璟专利代理事务所
(普通合伙) 3142 2
专利代理师 沈敏
(51)Int.Cl.
G06F 9/50(2006.01)G06F 9/54(2006.01)
G06N 3/04(2006.01)
G06N 3/063(2006.01)
(56)对比文件
CN 111667046 A,2020.09.15
US 20210 56357 A1,2021.02.25
US 2020057916 A1,2020.02.20
审查员 丁娴子
(54)发明名称
一种基于层数分割的异构计算方法及装置
(57)摘要
本发明提供一种基于层数分割的异构计算
方法及装置, 基于多个处理器进行运算, 包括: 预
测卷积神经网络模型在多个处理器中的第一处
理器上运算所需的第一时间, 当第一时间超 过第
一阈值时, 将卷积神经网络模型分割为至少两个
子模型; 至少两个子模型中的第一子模型在第一
处理器上运算, 至少两个子模型中的第二子模型
在多个处理器中的第二处理器上运算; 动态调配
至少两个子模 型的层数, 至少两个子模 型的层数
之和为卷积神经网络模型的总层数。 本发明提供
的基于层数分割的异构计算方法及装置, 通过卷
积神经网络按层数分割成子模型后分配到多个
处理器的硬件 单元, 从而在 有剩余算力的系统提
高了卷积神经网络的加速 计算效率。
权利要求书2页 说明书8页 附图4页
CN 115114033 B
2022.12.06
CN 115114033 B
1.一种基于层数分割的异构计算方法, 基于多个处 理器进行运 算, 其特征在于, 包括:
预测卷积神经网络模型在所述多个处理器中的第 一处理器上运算所需的第 一时间, 当
所述第一时间超过第一阈值时, 将所述卷积神经网络模型分割为至少两个子模型;
所述至少两个子模型中的第 一子模型在所述第 一处理器上运算, 所述至少两个子模型
中的第二子模型在所述多个处理器中的第二处理器上运算, 所述第一处理器是嵌入式神经
网络处理器、 所述第二处理器是图形 处理器, 或者所述第一处理器是图形 处理器、 所述第二
处理器是中央处 理器;
动态调配所述至少两个子模型的层数, 所述至少两个子模型的层数之和为所述卷积神
经网络模型的总层数;
根据所述至少两个子模型的数量, 为子模型间共享的输入输出层 分配多块共享物理内
存;
当所述至少两个子模型包括所述第 一子模型和所述第 二子模型时, 所述多块共享物 理
内存包括第一共享物理内存和第二共享物理内存;
当所述至少两个子模型包括所述第一子模型、 所述第二子模型和第三子模型时, 所述
多块共享物理内存包括所述第一共享物理内存、 所述第二共享物理内存和 第三共享物理内
存。
2.根据权利要求1所述的基于层数分割的异构计算方法, 其特 征在于,
预测所述卷积神经网络模型在所述多个处理器中的所述第一处理器和所述第二处理
器上运算所需的第二时间, 当所述第二时间超过第二阈值时, 将所述卷积神经网络模型分
割为三个子模型;
所述三个子模型中的所述第 一子模型在所述第 一处理器上运算, 所述三个子模型中的
所述第二子模型在所述第二处理器上运算, 所述三个子模型中的第三子模 型在所述多个处
理器中的第三处 理器上运 算。
3.根据权利要求1所述的基于层数分割的异构计算方法, 其特 征在于,
所述当所述第 一时间超过第 一阈值时, 将所述卷积神经网络模型分割为至少两个子模
型, 包括所述至少 两个子模型中的所述第一子模型在所述第一处理器上运算, 所述至少 两
个子模型中的所述第二子模型在所述第二处理器上运算, 所述至少两个子模型中的第三子
模型在所述多个处 理器中的第三处 理器上运 算。
4.根据权利要求1所述的基于层数分割的异构计算方法, 其特 征在于,
所述动态调配所述至少两个子模型的层数包括根据所述多个处理器的历史性能余量
进行动态调配。
5.根据权利要求 4所述的基于层数分割的异构计算方法, 其特 征在于,
所述根据所述多个处理器的历史性能余量进行动态调配包括获取所述多个处理器在
预设时间内的单位时间内空闲忙碌时间比值, 所述多个处理器的单位时间内空闲忙碌时间
比值通过以下公式计算:
其中,
为所述多个处理器的单位时间内空闲忙碌时间比值,
为所述多个处理器单权 利 要 求 书 1/2 页
2
CN 115114033 B
2位时间内的空 闲时间,
为所述多个处 理器单位时间内的忙碌时间。
6.根据权利要求1所述的基于层数分割的异构计算方法, 其特 征在于,
所述动态调配所述至少两个子模型的层数包括根据所述多个处理器的实时忙碌状态
进行动态调配, 当监测到所述第一处理器当前负载过重且所述第二处理器有较大性能余量
时, 下一帧将所述第一子模型在所述第一处理器上进行运算, 将所述第二子模型在所述第
二处理器上进行运 算;
当监测到所述第二处理器当前负载过重且所述多个处理器中的第三处理器有较大性
能余量时, 下一帧将所述第二子模型在所述第二处理器上进行运算, 将所述至少 两个子模
型中的第三子模型在所述第三处 理器上进行计算。
7.根据权利要求1所述的基于层数分割的异构计算方法, 其特 征在于,
所述多块共享物理内存用于支持所述第 一子模型、 所述第 二子模型的输出以及所述第
二子模型、 所述第三子模型的读取;
当所述多块共享物理内存包括所述第 一共享物理内存和所述第 二共享物理内存时, 所
述第一共享物理内存用于存放第i帧第一子模型或第二子模型的输出, 所述第一共享物理
内存还用于第i帧第二子模型或第三子模型的读取;
所述第二共享物理内存用于存放第i+1帧第一子模型或第二子模型的输出, 所述第二
共享物理内存 还用于第i+1帧第二子模型或第三子模型的读取;
当所述多块共享物理内存包括所述第一共享物理内存、 所述第二共享物理内存、 所述
第三共享物理内存时, 所述第三共享物理内存用于存放第i+2帧第一子模型或第二子模型
的输出, 所述第三共享物理内存 还用于第i+2帧第二子模型或第三子模型的读取;
其中, i为自然数, i≥1。
8.根据权利要求1所述的基于层数分割的异构计算方法, 其特征在于, 所述多个处理器
包括嵌入式神经网络处 理器、 图形处 理器和中央处 理器中的至少两个。
9.一种基于层数分割的异构计算装置, 基于多个处 理器进行运 算, 其特征在于, 包括:
预测模块, 其用于预测卷积神经网络模型在所述多个处理器中的第 一处理器上运算所
需的第一时间, 当所述第一时间超过第一阈值时, 将所述卷积神经网络模型分割为至少 两
个子模型;
运算模块, 其用于将所述至少两个子模型中的第一子模型在所述第一处理器上运算,
所述至少两个子模型中的第二子模型在所述多个处理器中的第二处理器上运算, 所述第一
处理器是嵌入式神经网络处理器、 所述第二处理器是图形处理器, 或者所述第一处理器是
图形处理器、 所述第二处 理器是中央处 理器;
动态调配模块, 其用于动态调配所述至少两个子模型的层数, 所述至少两个子模型的
层数之和为所述卷积神经网络模型的总层数;
根据所述至少两个子模型的数量, 为子模型间共享的输入输出层 分配多块共享物理内
存;
当所述至少两个子模型包括所述第 一子模型和所述第 二子模型时, 所述多块共享物 理
内存包括第一共享物理内存和第二共享物理内存;
当所述至少两 个子模型包括所述第一子模型、 所述第二子模型和第三子模型时, 所述多
块共享物理内存包括所述第一共享物理内存、 所述第二共享物理内存和第三共享物理内存。权 利 要 求 书 2/2 页
3
CN 115114033 B
3
专利 一种基于层数分割的异构计算方法及装置
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:08:37上传分享