ICS 35.240.01 CCS L 77 中华人民共和国国家标准 GB/T41813.2—2022 信息技术 智能语音交互测试方法 第2部分:语义理解 Information technology-Intelligent speech interaction testing method- Part 2: Semantic understanding 2023-05-01实施 2022-10-12发布 国家市场监督管理总局 发布 国家标准化管理委员会 GB/T 41813.2—2022 目 次 前言 引言 1 范围 2 规范性引用文件 3 术语和定义 概述 7 5 测试准备和执行 5.1 测试数据集 5.2 测试工具 5.3 测试环境 5.4 测试执行 5.5 结果判定 6 功能测试方法 6.1 意图理解 6.2 命名实体识别 6.3 敏感信息辨别 6.4 语义拒识 6.5 信息检索 文本相似度计算 6.6 6.7 文本修改 6.8 语义修正 6.9 自然语言生成 6.10 逻辑推理· 6.11 对话引导 6.12 上下文相关的多轮会话 7 性能测试方法 7.1 语义理解效果 7.2 语义理解效率 7.3 系统稳定性 附录A(规范性) 主观体验测试· 10 A.1 概述 10 A.2 测试项 10 A.3 测试方法 10 参考文献 12 1 GB/T41813.2—2022 前言 本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定 起草。 本文件是GB/T41813《信息技术智能语音交互测试方法》的第2部分。GB/T41813已经发布 了以下部分: 第1部分:语音识别; 一第2部分:语义理解。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任 本文件由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本文件起草单位:中国电子技术标准化研究院、科大讯飞股份有限公司、小米通讯技术有限公司、华 为终端有限公司、深圳市优必选科技股份有限公司、中国电信集团有限公司、思必驰科技股份有限公司、 有限公司、马上消费金融股份有限公司、腾讯科技(北京)有限公司、沈阳新松机器人自动化股份有限公 司、深圳市人马互动科技有限公司、平安科技(深圳)有限公司、安徽咪鼠科技有限公司、泾丰科技(深圳) 有限公司、北京捷通华声科技股份有限公司、北京百度网讯科技有限公司、深圳市北科瑞声科技股份有 限公司、阿里云计算有限公司、云从科技集团股份有限公司、上海计算机软件技术开发中心、网易(杭州) 网络有限公司、南京云问网络技术有限公司、联想(北京)有限公司、福州数据技术研究院有限公司、国家 网络软件产品质量监督检验中心(济南)、华南理工大学、山东省计算中心(国家超级计算济南中心)、神 思电子技术股份有限公司、郑州中业科技股份有限公司、中汽数据(天津)有限公司、中国电器科学研究 院有限公司、中汽研(天津)汽车工程研究院有限公司、中科极限元(杭州)智能科技股份有限公司、北京 爱数智慧科技有限公司。 本文件主要起草人:徐洋、马万钟、昊国纲、朱亚军、贾一君、周立君、宋文林、袁杰、杨震、田定书、 钱彦曼、陶建华、花云飞、蒲江波、李海峰、王峰、杨春勇、苏丹、张锋、冯海洪、刘国涛、任军民、陈楠、 刑启洲、李笑如、黄石磊、汪淼淼、蔡立志、李军、胡光龙、杨萌、鹿飞、方斌、王岳、井、温正棋、李介、 张莹、徐向民、孟宪明、高永超、张晴晴。 II GB/T41813.2—2022 引言 智能语音交互在智能家居、智能客服、移动终端、车载终端以及智慧教育、智慧医疗、智能办公、服务 机器人等诸多领域应用广泛,已成为当前人机交互的重要方式之一。随着智能语音交互的深入,需要对 智能语音交互的系统参考框架、基础技术要求、互联网接口要求等进行统一规范,在这方面,国家已制定 了支撑智能语音交互系统的基础性国家标准。在此基础上,也需要用统一的测试方法和评价标准来对 智能语音交互系统的能力进行评测,为智能语音交互相关的产品和服务提供评测的基础方法和依据 音交互系统》提供基础通用的测试方法。智能语音交互包括语音识别、语义理解和语音合成三个基本环 节,各环节所涉及的测试对象、测试项目、测试环境和测试方法均有所不同。GB/T41813《信息技术 由三个部分构成。 一第1部分:语音识别。目的在于为智能语音交互应用中的语音识别环节提供通用测试项和通 用测试方法 一第2部分:语义理解。目的在于为智能语音交互应用中的语义理解环节提供通用测试项和通 用测试方法。 第3部分:语音合成。目的在于为智能语音交互应用中的语音合成环节提供通用测试项和通 用测试方法 IN GB/T41813.2—2022 信息技术智能语音交互测试方法 第2部分:语义理解 1范围 本文件描述了智能语音交互测试中语义理解系统的通用测试项和通用测试方法。 本文件适用于智能语音服务提供商、用户和第三方检测机构对智能语音交互应用的语义理解系统 测试的设计和实施 2规范性引用文件 2 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文 本文件。 GB/T36464(所有部分)信息技术智能语音交互系统 3术语和定义 GB/T36464(所有部分)界定的以及下列术语和定义适用于本文件。 3.1 语义理解semanticunderstanding 使功能单元理解人说话的意图。 [来源:GB/T36464.1—2020.3.11] 3.2 命名实体namedentity 具有特指或唯一含义的指称名字的实体。 3.3 意图 intention 语音交互过程中需要系统执行的任务或达成目标, 4概述 智能语音交互测试中的语义理解测试主要包括功能测试与性能测试,具体如下: 功能测试用于检查被测系统是否提供了语义理解相关的各项功能,包括:意图理解、命名实体 识别、敏感信息识别、语义拒识、信息检索、文本相似度计算、文本修改、语义修正、自然语言生 成、逻辑推理、对话引导和上下文相关的多轮对话; 性能测试用于检查被测系统中语义理解相关的各项性能,包括:语义理解效果、语义理解效率 和系统稳定性。 测试过程中,应依据被测系统技术规范进行在线/离线的功能和性能测试。可使用主观体验的方法 进行测试,主观体验测试应按照附录A描述的测试项和测试方法执行。本文件所列测试项可用于对 1 GB/T41813.2—2022 GB/T36464(所有部分)中语义理解相关的功能和性能要求进行测试。 注:本文件对所列出的功能测试项选择不做要求,实际测试时根据被测系统的功能要求和测试需求进行选择。 测试准备和执行 5 5.1 测试数据集 在测试开始前,应通过人工编写或采集的方式制作测试数据集。可根据不同测试项划分出多个测 试数据集,在实际测试时可根据需要选择测试数据集。测试数据集类型和要求应符合表1和表2的 要求。 表1 测试文本类型和要求 序号 文本分类 数量 1 具有意图表示的单字、词语文本 2 短语文本 3 单句文本 常用文本 每类不少于5条 4 对话文本 5 段落文本 6 文章文本 7 敏感信息文本 每类不少于1000条 8 命名实体文本,如:人名、地名等,覆盖已定义业务相关命名实体 9 特殊格式文本,如:数字、日期时间、英文大小写等 特殊文本 10 特定语种文本,如:中文、英文、韩文等 每类不少于5条 11 特殊字符集编码文本 12 特殊符号文本,如:逗号、句号、间号等 13 乱码文本 异常文本 每类不少于5条 14 不支持语种文本 表2 2测试数据集类型和要求 序号 测试数据分类 文本要求 数量 已定义场景或业务的文 每个业务不少于200条人工编写 已定义 1 本数据 应在数据较多情况下,统计文本长度 场景或 数据,可直接使用已有真实数据 分布,根据此分布来控制文本长度数 业务文 已定义场景或业务的常 每个业务至少覆盖3条已有真实 2 量分布;否则应根据常用文本长度平 本数据 用文本数据 数据,可持续收集 均值的正态分布,控制不同文本长度 同领域,未定义场景或业 每个业务至少覆盖3条真实数 数量分布 3 务的一般文本数据 据,可持续收集 未定义 文本类型应符合表1的要求 场景或 同领域,未定义场景或业 每个业务至少覆盖3条真实数 文本内容宜为语音识别的输出结果 4 业务文 务的常用文本数据 据,可持续收集 本数据 5 闲聊 平均不少于5个字符 不少于1000条人工编写数据 6 异常文本数据 每一条均不少于5个字符 不少于100条人工编写数据 2 GB/T41813.2—2022 5.2测试工具 语义理解测试工具包括可编程测试工具、测试统计工具和资源监测工具,应符合下列要求。 a)可编程测试工具要求如下: ·J 应能调用被测系统开放接口; 应能对工具配置文件进行定制; 应能接收文本数据并将其输人至被测系统; 应能进行功能测试及其相应的性能测试; · 应能以文本形式获取被测系统运行结果。 b) 测试统计工具要求如下: 应能自动对不同测试项的系统运行结果进行统计和分析; · 应能自动对系统运行结果和标准结果对比文件进行比对。 c) 资源监测工具应能监测内存、中央处理单元(CPU)、图形处理单元(GPU)、句柄数等系统资源 参数。 5.3测试环境 应根据被测系统的功能和性能要求,以及应用场景配置相应的软硬件环境 5.4测试执行 应使用可编程测试工具和测试统计工具将测试数据集输人到在线/离线状态的被测系统中并获取 运行结果。 5.5结果判定 应根据被测系统技术要求对系统在各测试项上的运行结果进行记录、分析和判定,形成测试结
GB-T 41813.2-2022 信息技术 智能语音交互测试方法 第2部分:语义理解
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思安 于 2023-01-18 17:30:46上传分享