WO2019119553A1

WO2019119553A1 - 语义识别方法及装置

Info

Publication number: WO2019119553A1
Application number: PCT/CN2018/072008
Authority: WO
Inventors: 张立新; 周毕兴
Original assignee: 深圳市沃特沃德股份有限公司
Priority date: 2017-12-21
Filing date: 2018-01-09
Publication date: 2019-06-27
Also published as: CN108133706A; CN108133706B

Abstract

一种语义识别方法及装置，包括获取待识别的语音信息(S1)；识别所述语音信息中的每个单字语音的时长(S2)；将每个所述单字语音的时长与第一预设值进行对比(S3)；根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义(S4)；根据单字语音的时长识别每个单字语音，便于区分语音信息中的数字、字母以及符号，增加识别准确度。

Description

语义识别方法及装置

技术领域

本发明涉及语音识别技术领域，特别涉及一种语义识别方法及装置。

背景技术

语音识别的应用越来越广泛，不仅在语音输入法领域得到使用，在翻译机、人工智能等应用上也日益广泛。中文汉字不算声调有400多个发音，同音不同字的情况大量存在。通常文字的内容识别可根据词语组合或上下文的意思来推理联想以提高准确率，但当识别毫无规律的数字、符号、字母时误识别率较高，常常需要人工纠错，而在无显示屏和无键盘输入装置时比较难以进行纠错操作，将会降低语音识别的准确率和识别效率。

技术问题

本发明的主要目的为提供一种语义识别方法及装置，提升语义识别准确率。

技术解决方案

本发明提出一种语义识别方法，包括以下步骤：

获取待识别的语音信息；

识别所述语音信息中的每个单字语音的时长；

将每个所述单字语音的时长与第一预设值进行对比；

根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。

进一步地，所述对比结果为所述单字语音的时长小于所述第一预设值，所述预设语义数据库则为汉字语义库，所述汉字语义库包括预设单字语音及对应的预设汉字；

进一步地，所述对比结果为所述单字语音的时长不小于所述第一预设值，所述预设语义数据库则为特征字符语义库，所述特征字符语义库包括预设单字语音及对应的预设数字、字母以及符号中至少一种。

进一步地，所述在预设语义数据库中匹配所述单字语音对应的语义的步骤之后包括：

监听所述单字语音对应的语义是否匹配成功；

若不成功，则在所述汉字语义库中匹配所述单字语音对应的语义。

监测所述单字语音对应匹配的语义的数量；

若所述单字语音对应的语义为多个，则分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语；

若是，则分析所述词语的意思；

从所述单字语音对应的多个语义中选择与所述词语的意思相关联的语义。

进一步地，分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语的步骤包括：

将所述单字语音之前或之后的两个单字语音对应的两个语义进行组合；

分析预设的词语数据库中是否有与所述两个语义相同的预设词语；

若有，则将所述两个语义判定为词语。

进一步地，所述第一预设值为1秒。

进一步地，所述分析预设的词语数据库中是否有与所述两个语义相同的预设词语步骤之后包括：

若没有，则判定两个单字语音对应的两个语义在组合后不是词语。

本发明还提供了一种语义识别装置，包括：

获取单元，用于获取待识别的语音信息；

第一识别单元，用于识别所述语音信息中的每个单字语音的时长；

对比单元，用于将每个所述单字语音的时长与第一预设值进行对比；

第二识别单元，用于根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。

所述对比结果为所述单字语音的时长不小于所述第一预设值，所述预设语义数据库则为特征字符语义库，所述特征字符语义库包括预设单字语音及对应的预设数字、字母以及符号中至少一种。

进一步地，还包括：

第一监听单元，用于监听所述单字语音对应的语义是否匹配成功；

匹配单元，用于所述单字语音对应的语义匹配不成功时，则在所述汉字语义库中匹配所述单字语音对应的语义。

进一步地，还包括：

第一监测单元，用于监测所述单字语音对应匹配的语义的数量；

第一分析单元，用于所述单字语音对应的语义为多个时，则分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语；

第二分析单元，用于若组合后为词语，则分析所述词语的意思；

选择单元，用于从所述单字语音对应的多个语义中选择与所述词语的意思相关联的语义。

进一步地，所述第一分析单元包括：

组合子单元，用于将所述单字语音之前或之后的两个单字语音对应的两个语义进行组合；

分析子单元，用于分析预设的词语数据库中是否有与所述两个语义相同的预设词语；

判定子单元，用于预设的词语数据库中具有与所述两个语义相同的预设词语，则将所述两个语义判定为词语。

进一步地，所述第一预设值为1秒。

进一步地，所述判定子单元还用于若预设的词语数据库中不具有与所述两个语义相同的预设词语，则判定两个单字语音对应的两个语义在组合后不是词语。本发明中提供的语义识别方法及装置，具有以下有益效果：

有益效果

本发明中提供的语义识别方法及装置，获取待识别的语音信息；识别所述语音信息中的每个单字语音的时长；将每个所述单字语音的时长与第一预设值进行对比；根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义；根据单字语音的时长识别每个单字语音，便于区分语音信息中的数字、字母以及符号，增加识别准确度。

附图说明

图1是本发明一实施例中的语义识别方法步骤示意图；

图2是本发明另一实施例中的语义识别方法步骤示意图；

图3是本发明又一实施例中的语义识别方法步骤示意图；

图4是本发明一实施例中的语义识别装置结构示意图；

图5是本发明另一实施例中的语义识别装置结构框图；

图6是本发明又一实施例中的语义识别装置结构框图；

图7是本发明一实施例中的第一分析单元结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的最佳实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”“上述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件、单元、模块和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、单元、模块、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接” 可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

参照图1，为本发明一实施例中语音识别方法的步骤示意图。

本发明一实施例中提出一种语音识别方法，包括以下步骤：

步骤S1，获取待识别的语音信息；

步骤S2，识别所述语音信息中的每个单字语音的时长；

步骤S3，将每个所述单字语音的时长与第一预设值进行对比；

步骤S4，根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。

在对语音信息进行语义识别时，通常会遇到混淆识别的情况，例如，语音“Yi”可能识别为汉字“一”，也可能识别为数字“1”，还可能识别为字母“E”，因此，发音相同时，容易识别不清楚，降低识别准确率。本实施例中提供一种语义识别方法，其针对于符合预设规则的语音信息进行识别。符合预设规则的语音信息指的是拉长尾音的方式来代表数字、字母、符号以便于区别于其它汉字。通常汉字语音的时长为0.2-0.4s(秒)，将数字、字母、符号的发音延长至1s时，则可以将数字、字母、符号明显区别于汉字。数字、字母、符号中容易混淆的发音中，还可以采用在其前面或者后面添加汉字语音发音来进行区别，例如添加数字、大写、小写的汉字发音等。本实施例中的语义识别方法通过上述步骤可可准确识别出语音信息对应的语义。

具体地，获取到待识别的语音信息时，识别出其中每一个单字语音的时长(即发音时长)，设定一个第一预设值(可以是0.4s)，当发音时长比该第一预设值短时，则判断其为汉字的发音，当发音时长不小于该第一预设值时，则判断其可能为数字、字母或符号的发音。优选地，第一预设值还可以为1s。

将单字语音的时长与第一预设值对比之后，则可以根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。针对不同类型发音，采用不同的识别方式，便于准确识别出每一个单字语音，提升语义识别的准确率，以及提升识别速度。

在本实施例中，预设语义数据库可以是汉字语义库以及特征字符的语义库，对比结果为所述单字语音的时长小于所述第一预设值时，所述预设语义数据库则为所述汉字语义库，所述汉字语义库包括预设单字语音及对应的预设汉字；所述对比结果为所述单字语音的时长不小于所述第一预设值时，所述预设语义数据库则为特征字符语义库，所述特征字符语义库包括预设单字语音及对应的预设数字、字母以及符号中至少一种。

参照图2，在另一实施例中，所述在预设语义数据库中匹配所述单字语音对应的语义的步骤S4之后包括：

步骤S5，监听所述单字语音对应的语义是否匹配成功；

步骤S6，若不成功，则在所述汉字语义库中匹配所述单字语音对应的语义。

若在特征字符的语义库中匹配不出所述单字语音，判断为误识别，进而在汉字语义库中识别该单字语音。

参照图3，在又一实施例中，所述在预设语义数据库中匹配所述单字语音对应的语义的步骤S4之后包括：

步骤S5a，监测所述单字语音对应匹配的语义的数量；

步骤S6a，若所述单字语音对应的语义为多个，则分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语；

步骤S7，若是，则分析所述词语的意思；

步骤S8，从所述单字语音对应的多个语义中选择与所述词语的意思相关联的语义。

在本实施例中，若在特征字符的语义库中匹配所述单字语音对应的语义数量为多个，例如单字语音“Yi”，其可能是数字“1”，也可能是字母“E”或“e”，容易混淆，识别不清楚。因此，本实施例中，判断该单字语音音“Yi”之前或者紧跟在后的两个单字语音对应的两个语义在组合后是否为词语，若是，则分析所述词语的意思，关联性识别所述单字语音。例如，单字语音之前或之后的两个单字语音对应的语义为汉字“大写”，根据其意思则该单字语音“Yi”为对应的语义选择字母“E”；若两个单字语音对应的语义为汉字“小写”，根据其意思则该单字语音发音“Yi”对应的语义选择字母“e”。若该发音“Yi”之前或者紧跟在后的两个单字语音对应的语义不是“大写”或“小写，则判定该单字语音“Yi”对应的语义选择数字“1”。

具体地，上述分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语的步骤，具体包括：

将所述单字语音之前或之后的两个单字语音对应的两个语义进行组合；分析预设的词语数据库中是否有与所述两个语义相同的预设词语；若有，则将所述两个语义判定为词语；若没有，则判定两个单字语音对应的两个语义在组合后不是词语。

综上所述，为本发明实施例中提供的语义识别方法，获取待识别的语音信息；识别所述语音信息中的每个单字语音的时长；将每个所述单字语音的时长与第一预设值进行对比；根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义；根据单字语音的时长识别每个单字语音，便于区分语音信息中的数字、字母以及符号，增加识别准确度；有效地解决无显示屏、无键盘设备的数字、字母、符号的语义输入识别问题，特别是设置各类密码，且语义识别方法简单、识别率高、识别速度快。

参照图4，本发明一实施例中还提供了一种语义识别装置，包括：

获取单元10，用于获取待识别的语音信息，所述语音信息为符合预设规则的语音信息；

第一识别单元20，用于识别所述语音信息中的每个单字语音的时长；

对比单元30，用于将每个所述单字语音的时长与第一预设值进行对比；

第二识别单元40，用于根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。

在对语音信息进行语义识别时，通常会遇到混淆识别的情况，例如，语音“Yi”可能识别为汉字“一”，也可能识别为数字“1”，还可能识别为字母“E”，因此，发音相同时，容易识别不清楚，降低识别准确率。本实施例中提供一种语义识别装置，其针对于符合预设规则的语音信息进行识别。符合预设规则的语音信息指的是拉长尾音的方式来代表数字、字母、符号以便于区别于其它汉字。通常汉字语音的时长为0.2-0.4s(秒)，将数字、字母、符号的发音延长至1s时，则可以将数字、字母、符号明显区别于汉字。数字、字母、符号中容易混淆的发音中，还可以采用在其前面或者后面添加汉字语音发音来进行区别，例如添加数字、大写、小写的汉字发音等。本实施例中的语音识别装置通过上述模块可准确识别出语音信息对应的语义。

具体地，获取单元10获取到待识别的语音信息时，第一识别单元20识别出其中每一个单字语音的时长(即发音时长)，设定一个第一预设值(可以是0.4s)，对比单元30将每个所述单字语音的发音时长与第一预设值进行对比；当发音时长比该第一预设值短时，则判断其为汉字的发音，当发音时长不小于该第一预设值时，则判断其可能为数字、字母或符号的发音。优选地，第一预设值还可以为1s。

对比单元30将单字语音的时长与第一预设值对比之后，第二识别单元40则可以根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。针对不同类型发音，采用不同的识别方式，便于准确识别出每一个单字语音，提升语义识别的准确率，以及提升识别速度。

在一实施例中，设置有汉字语音库以及特征字符的语音库，第二识别单元40匹配单字语音的语义时，若对比单元30的对比结果为所述单字语音的时长小于所述第一预设值，所述预设语义数据库则为汉字语义库，所述汉字语义库包括预设单字语音及对应的预设汉字；

若对比单元30的对比结果为所述单字语音的时长不小于所述第一预设值，所述预设语义数据库则为特征字符语义库，所述特征字符语义库包括预设单字语音及对应的预设数字、字母以及符号中至少一种。

参照图5，在另一实施例中，所述语义识别装置还包括：

第一监听单元50，用于监听所述单字语音对应的语义是否匹配成功；

匹配单元60，用于所述单字语音对应的语义匹配不成功时，则在所述汉字语义库中匹配所述单字语音对应的语义。

参照图6，在又一实施例中，所述语义识别装置还包括：

第一监测单元50a，用于监测所述单字语音对应匹配的语义的数量；

第一分析单元60a，用于所述单字语音对应的语义为多个时，则分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语；

第二分析单元70，用于若组合后为词语，则分析所述词语的意思；

选择单元80，用于从所述单字语音对应的多个语义中选择与所述词语的意思相关联的语义。

在本实施例中，若第一监测单元50a监听在特征字符的语义库中匹配所述单字语音对应的语义数量为多个，例如单字语音“Yi”，其可能是数字“1”，也可能是字母“E”或“e”，容易混淆，识别不清楚。因此，本实施例中，第一监测单元50a监听所述单字语音对应匹配的语义的数量，当所述单字语音对应的语义为多个时，第一分析单元60a则分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语；若是，第二分析单元70则分析所述词语的意思，选择单元80再从所述单字语音对应的多个语义中选择与所述词语的意思相关联的语义。例如，第一分析单元60a分析两个单字语音对应的语义为汉字“大写”，第二分析单元70可分析其汉字“大写”的意思，选择单元80则根据“大写”的意思选择选择对应的语义字母“E”；若第一分析单元60a分析两个单字语音对应的语义为汉字“小写”，第二分析单元70可分析其汉字“小写”的意思，选择单元80则根据“小写”的意思选择选择对应的语义字母“e”。若第二分析单元70分析两个单字语音对应的语义意思不是汉字“大写”或“小写的语义，选择单元80则选择该单字语音“Yi”对应的语义选择数字“1”。

参照图7，所述第一分析单元60a包括：

组合子单元601，用于将所述单字语音之前或之后的两个单字语音对应的两个语义进行组合；

分析子单元602，用于分析预设的词语数据库中是否有与所述两个语义相同的预设词语；

判定子单元603，用于预设的词语数据库中具有与所述两个语义相同的预设词语，则将所述两个语义判定为词语。若没有，则判定两个单字语音对应的两个语义在组合后不是词语。

综上所述，为本发明实施例中提供的的语义识别方法及装置，获取待识别的语音信息；识别所述语音信息中的每个单字语音的时长；将每个所述单字语音的时长与第一预设值进行对比；根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义；根据单字语音的时长识别每个单字语音，便于区分语音信息中的数字、字母以及符号，增加识别准确度。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

一种语义识别方法，其特征在于，包括以下步骤：

获取待识别的语音信息；

识别所述语音信息中的每个单字语音的时长；

将每个所述单字语音的时长与第一预设值进行对比；

根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。
根据权利要求1所述的语义识别方法，其特征在于，所述对比结果为所述单字语音的时长小于所述第一预设值时，所述预设语义数据库则为汉字语义库，所述汉字语义库包括预设单字语音及对应的预设汉字；
根据权利要求2所述的语义识别方法，其特征在于，所述对比结果为所述单字语音的时长不小于所述第一预设值时，所述预设语义数据库则为特征字符语义库，所述特征字符语义库包括预设单字语音及对应的预设数字、字母以及符号中至少一种。
根据权利要求3所述的语义识别方法，其特征在于，所述在预设语义数据库中匹配所述单字语音对应的语义的步骤之后包括：

监听所述单字语音对应的语义是否匹配成功；

若不成功，则在所述汉字语义库中匹配所述单字语音对应的语义。
根据权利要求3所述的语义识别方法，其特征在于，所述在预设语义数据库中匹配所述单字语音对应的语义的步骤之后包括：

监测所述单字语音对应匹配的语义的数量；

若所述单字语音对应的语义为多个，则分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语；

若是，则分析所述词语的意思；

从所述单字语音对应的多个语义中选择与所述词语的意思相关联的语义。
根据权利要求5所述的语义识别方法，其特征在于，分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语的步骤包括：

将所述单字语音之前或之后的两个单字语音对应的两个语义进行组合；

分析预设的词语数据库中是否有与所述两个语义相同的预设词语；

若有，则将所述两个语义判定为词语。
根据权利要求1所述的语义识别方法，其特征在于，所述第一预设值为1秒。
根据权利要求1所述的语义识别方法，其特征在于，所述分析预设的词语数据库中是否有与所述两个语义相同的预设词语步骤之后包括：

若没有，则判定两个单字语音对应的两个语义在组合后不是词语。
一种语义识别装置，其特征在于，包括：

获取单元，用于获取待识别的语音信息；

第一识别单元，用于识别所述语音信息中的每个单字语音的时长；

对比单元，用于将每个所述单字语音的时长与第一预设值进行对比；

第二识别单元，用于根据对比结果，在预设语义数据库中匹配所述单字语音对应的语义。
根据权利要求9所述的语义识别装置，其特征在于，所述对比结果为所述单字语音的时长小于所述第一预设值，所述预设语义数据库则为汉字语义库，所述汉字语义库包括预设单字语音及对应的预设汉字。
根据权利要求10所述的语义识别装置，其特征在于，所述对比结果为所述单字语音的时长不小于所述第一预设值，所述预设语义数据库则为特征字符语义库，所述特征字符语义库包括预设单字语音及对应的预设数字、字母以及符号中至少一种。
根据权利要求10所述的语义识别装置，其特征在于，还包括：

第一监听单元，用于监听所述单字语音对应的语义是否匹配成功；

匹配单元，用于所述单字语音对应的语义匹配不成功时，则在所述汉字语义库中匹配所述单字语音对应的语义。
根据权利要求10所述的语义识别装置，其特征在于，还包括：

第一监测单元，用于监测所述单字语音对应匹配的语义的数量；

第一分析单元，用于所述单字语音对应的语义为多个时，则分析所述单字语音之前或之后的两个单字语音对应的两个语义在组合后是否为词语；

第二分析单元，用于若组合后为词语，则分析所述词语的意思；

选择单元，用于从所述单字语音对应的多个语义中选择与所述词语的意思相关联的语义。
根据权利要求13所述的语义识别装置，其特征在于，所述第一分析单元包括：

组合子单元，用于将所述单字语音之前或之后的两个单字语音对应的两个语义进行组合；

分析子单元，用于分析预设的词语数据库中是否有与所述两个语义相同的预设词语；

判定子单元，用于预设的词语数据库中具有与所述两个语义相同的预设词语，则将所述两个语义判定为词语。
根据权利要求1所述的语义识别方法，其特征在于，所述第一预设值为1秒。
根据权利要求14所述的语义识别方法，其特征在于，所述判定子单元还用于若预设的词语数据库中不具有与所述两个语义相同的预设词语，则判定两个单字语音对应的两个语义在组合后不是词语。