WO2019232991A1

WO2019232991A1 - 将会议语音识别为文本的方法、电子设备及存储介质

Info

Publication number: WO2019232991A1
Application number: PCT/CN2018/108113
Authority: WO
Inventors: 王健宗; 于夕畔; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-06-07
Filing date: 2018-09-27
Publication date: 2019-12-12
Also published as: CN108847241A; CN108847241B

Abstract

一种将会议语音识别为文本的方法，电子设备及存储介质。所述方法包括：通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本（S11）；将初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本（S12）；根据匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿（S13）；当侦测到语音识别文本草稿上接收到了编辑操作后，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本（S14）。所述方法，电子设备及存储介质通过对待识别的语音进行初步识别后，与预设文本库进行第一次匹配，再通过人工进行第二次确认，有效的保证文本输出内容的正确性，减少会议内容的校对工作量，提升了效率。

Description

将会议语音识别为文本的方法、电子设备及存储介质

本申请要求于2018年06月07日提交中国专利局，申请号为201810581922.4发明名称为“将会议语音识别为文本的方法、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音识别技术领域，具体涉及一种将会议语音识别为文本的方法、电子设备及存储介质。

背景技术

自动语音识别技术(Automatic Speech Recognition，ASR)是机器翻译、机器人控制以及下一代人机交互界面等领域的核心技术，是让计算机能够“听写”出不同人所说出的连续语音，实现“声音”到“文本”的转换。

目前，伴随着语音识别技术的不断发展，基于语音识别的应用也越来越广泛，这样的技术已经渗透入家庭生活、办公领域、娱乐等方面。用户通过利用对着个人计算机、笔记本电脑、平板电脑、专用的学习终端、智能手机等终端上外接或内置的麦克风来输入语音，经由语音识别设备完成语音-文字的转换。

现有的语音识别设备有很多，例如，被广泛使用的世界知名的Nuance、Google的语音识别服务、中国国内容科大讯飞的语音识别服务等。但是在进行语音识别的最大问题是语音识别的准确率，即使是在现有的设备中拥有最高语音识别准确率的Nuance，也无法避免以下问题：语气词等无关词汇的频繁出现导致文本分析难度加大、部分专业关键词识别不准确、禁忌敏感词无法识别等，影响了会议文本的可读分析性。

发明内容

鉴于以上内容，有必要提出一种将会议语音识别为文本的方法、电子设备及存储介质，通过预设文本数据库匹配和人工确认的双重过程，有效的保证了文本输出内容的正确性，改善了传统语音转文本中文字表达不合理的地方，有效减少了会议内容的校对工作量，提升了效率。

本申请的第一方面提供一种将会议语音识别为文本的方法，所述方法包括：

通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本；

将所述初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本；

根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿；

当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。

本申请的第二方面提供一种电子设备，所述电子设备包括处理器和存储器，所述处理器用于执行所述存储器中存储的计算机可读指令时实现所述将会议语音识别为文本的方法。

本申请的第三方面提供一种非易失性可读存储介质，所述非易失性可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述将会议语音识别为文本的方法。

本申请所述的将会议语音识别为文本的方法、电子设备及存储介质，通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本；将所述初始语音识别文本与预设文本数据库进行匹配,得到匹配后的语音识别文本；根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿；当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。本申请通过对待识别的语音进行初步识别后，与预设文本库进行第一次匹配，再通过人工进行第二次确认。两次过程能够有效的保证文本输出内容的正确性，改善了传统语音转文本中文字表达不合理的地方，有效减少了会议内容的校对工作量，提升了效率。

附图说明

图1是本申请实施例一提供的将会议语音识别为文本的方法的流程图。

图2是本申请实施例二提供的将会议语音识别为文本的装置的功能模块图。

图3是本申请实施例三提供的电子设备的示意图。

如下具体实施方式将结合上述附图进一步说明本申请。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

本申请实施例的将会议语音识别为文本的方法应用在一个或者多个电子设备中。所述将会议语音识别为文本的方法也可以应用于由电子设备和通过网络与所述电子设备进行连接的服务器所构成的硬件环境中。网络包括但不限于：广域网、城域网或局域网。本申请实施例的将会议语音识别为文本的方法可以由服务器来执行，也可以由电子设备来执行；还可以是由服务器和电子设备共同执行。

所述对于需要进行将会议语音识别为文本的方法的电子设备，可以直接在电子设备上集成本申请的方法所提供的将会议语音识别为文本的功能，或者安装用于实现本申请的方法的客户端。再如，本申请所提供的方法还可以以软件开发工具包(Software Development Kit，SDK)的形式运行在服务器等设备上，以SDK的形式提供将会议语音识别为文本的功能的接口，电子设备或其他设备通过提供的接口即可实现将会议语音识别为文本。

实施例一

图1是本申请实施例一提供的将会议语音识别为文本的方法的流程图。根据不同的需求，该流程图中的执行顺序可以改变，某些步骤可以省略。

S11、通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本。

本实施例中，所述通过语音识别技术将待识别的会议语音转化为文本的具体过程包括：

1)提取待识别的会议语音的音频特征，转换为预设长度的声学特征向量；

2)根据解码算法将所述特征向量解码成词序；

3)通过HMM音素模型得到对应词序的子词，所述子词为声母和韵母；

4)根据预设的发音字典将多个子词拼接成文字；

5)使用语言模型语法规则解码得到最优序列，得到文本。

所述语法规则为维特比算法。举例而言，所述待识别的会议语音为“你好”，经过特征提取后转化为39维的声学特征向量，通过多个HMM音素模型得到对应的多个子词/n//i//h//ao/，根据预设的发音字典将多个子词拼接成字，如你，尼；好，号。通过维特比算法解码得到最优序列“你好”并将文本输出。

S12、将所述初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本。

本实施例中，可以预先设置至少三个文本数据库，例如，第一文本数据库、第二文本数据库及第三本文数据库。第一文本数据库可以专用于存储多个语气词，如“嗯”、“啊”、“是吧”等，语气词与会议内容无关，且又易影响语音转换为文本后的可读性。第二文本数据库可以专用于存储多个专业词及对应的拼音，如“特征向量”、“特征矩阵”、“张量分析”等，专业词较复杂，因而在识别语音的过程中容易批量出现错误。第三文本数据库可以专用于存储多个禁忌敏感词，如政治相关的人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类扣非法信息类等词，禁忌敏感词的出现容易造成不良影响。本申请还可以根据实际情况预先设置第四文本数据库等，专用于存储诸如姓名或者地名等的语句。本文对于预先设置的本文数据库的数量及对应的内容不作具体限制。

所述将所述初始语音识别文本与预设文本数据库进行匹配具体包括：

1)将所述初始语音识别文本与预设第一文本数据库进行匹配，得到第一匹配结果；

2)将所述第一匹配结果与预设第二文本数据库进行匹配，得到第二匹配结果；

3)将所述第二匹配结果与预设第三文本数据库进行匹配。

可以预先设置三个独立运行的线程：第一线程、第二线程及第三线程，第一线程执行将所述初始语音识别文本与预设第一文本数据库进行匹配得到第一匹配结果的可读指令，第二线程执行将所述第一匹配结果与预设第二文本数据库进行匹配得到第二匹配结果的可读指令，第三线程执行将所述第二匹配结果与预设第三文本数据库进行匹配的可读指令。当第一线程执行完毕后,即刻执行第二线程,当第二线程执行完毕后,即刻执行第三线程，设置三个独立运行的线程分别执行不同的可读指令，有利于提高匹配的速度，节省匹配的时间。

在其他实施例中，也可以仅设置一个线程，由所述一个线程顺次执行将所述初始语音识别文本与预设第一文本数据库进行匹配得到第一匹配结果的可读指令、将所述第一匹配结果与预设第二文本数据库进行匹配得到第二匹配结果的可读指令、将所述第二匹配结果与预设第三文本数据库进行匹配的可读指令。

具体地，所述将所述初始语音识别文本与预设第一文本数据库进行匹配包括：判断所述初始语音识别文本中是否存在与预设第一文本数据库中的词语相匹配的第一词语；当确定所述初始语音识别文本中存在与预设第一文本数据库中的词语相匹配的第一词语时，将所述初始语音识别文本中相匹配的第一词语进行处理。

优选地，所述将所述初始语音识别文本中相匹配的第一词语进行处理还可以进一步包括：根据预先训练的所述基于深度学习网络的语气词模型判断所述相匹配的第一词语是否为待删除的语气词；当确定所述相匹配的第一词语为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行剔除；当确定所述相匹配的第一词语不为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行保留。

举例而言，假设初始语音识别文本为“这个挺好用的”，预设第一文本数据库中存储有语气词“这个”，则将初始语音识别文本与预设第一文本数据库进行匹配后确定了相匹配的词语为“这个”，然后根据预先训练的所述基于深度学习网络的语气词模型判断所述相匹配的第一词语“这个”是否为待删除的语气词，所述基于深度学习网络的语气词模型确定相匹配的第一词语“这个”在“这个挺好用的”中不属于待删除的语气词，则将所述初始语音识别文本中相匹配的第一词语进行保留，得到的第一匹配结果为“这个挺好用的”。

再如，假设初始语音识别文本为“这个，我们要开会了”，预设第一文本数据库中存储有语气词“这个”，则将初始语音识别文本与预设第一文本数据库进行匹配后确定了相匹配的词语为“这个”，然后根据预先训练的所述基于深度学习网络的语气词模型判断所述相匹配的第一词语“这个”是否为待删除的语气词，所述基于深度学习网络的语气词模型确定相匹配的第一词语“这个”在“这个，我们要开会了”中属于待删除的语气词，则将所述初始语音识别文本中相匹配的第一词语进行剔除，得到的第一匹配结果为“我们要开会了”。

优选的，所述基于深度学习网络的语气词模型的训练方法可以包括：

1)获取大量的带有第一文本数据库中的词语的文本；

2)将所述文本划分为正样本文本和负样本文本，所述正样本文本为需要保留语气词的文本，所述负样本文本为需要删除语气词的文本；

举例说明，第一文本数据库中的词语为“这个”，则可以获取大量的含有“这个”词语的本文，如“这个项目目前正在进行中”、“这个人是谁”、“这个，嗯，还在询问中”、“这个可以这样的”，其中“这个项目目前正在进行中”及“这个人是谁”中的“这个”为需要保留的语气词，“这个，嗯，还在询问中”、“这个可以这样的”中的“这个”为需要删除的语气词。

3)将所述正样本文本打上第一标识，将所述负样本文本打上第二标识；

所述第一标识用于标识样本中的词语需要保留，例如，可以是“1”。所述第二标识用于标识样本中的词语需要删除，例如，可以是“0”。

4)将所述正样本文本输入至深度学习网络中进行训练，判断输出的文本与输入的正样本之间的相似度是否大于预设相似度阈值，如果输出的文本与输入的正样本之间的相似度大于预设相似度阈值时，则结束基于深度学习网络的语气词模型的训练。

可以通过模板匹配的方法计算输出的文本与输入的正样本之间的相似度，模板匹配的方法为现有技术，本申请在此不再详细赘述。

具体地，所述将所述第一匹配结果与预设第二文本数据库进行匹配包括：

1)将所述第一匹配结果中的词语转换为第一拼音；

2)判断所述预设第二文本数据库中是否存在与所述第一拼音相同的第二拼音；

3)当确定所述预设第二文本数据库中存在与所述第一拼音相同的第二拼音时，将第二拼音对应的词语提取出来，作为第一拼音对应的词语。

举例而言，假设第一匹配结果为“这是一个原始巨震”，将第一匹配结果中的词语转换为第一拼音为“zhe shi yige yuanshi juzhen”；预设第二文本数据库中储存有专业词“矩阵”及对应的第二拼音“juzheng”,则在确定所述预设第二文本数据库中存在与所述第一拼音相同的第二拼音时，将第二拼音“juzheng”对应的词语“矩阵”提取出来，作为第一拼音“juzheng”对应的词语，得到的第二匹配结果为“这是一个原始矩阵”。

具体地，所述将所述第二匹配结果与预设第三文本数据库进行匹配包括：判断所述第二匹配结果中是否存在与预设第三文本数据库中的词语相匹配的第三词语；当确定所述第二匹配结果中存在与预设第三文本数据库中的词语相匹配的第三词语时，将所述第二匹配结果中相匹配的第三词语进行剔除。

S13、根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿。

当根据匹配结果自动对所述初始语音识别文本进行修改后，得到匹配后的语音识别文本，可以先生成具有可编辑状态的语音识别文本草稿。具有可编辑状态是指用户能够在生成的语音识别文本草稿上进行编辑操作。所述编辑操作可以包括：确认操作，修改操作。

所述确认操作是指用户确认所述语音识别文本草稿正确无误，即确定修改后的语音识别文本不需要进行任何修改操作。所述修改操作是指用户确认所述语音识别文本草稿有错误，对个别或少量的词语需要进行调整，即修改后的语音识别文本还需要再次进行人工手动修改。

S14、当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。

所述语音识别文本草稿上是否接收到了编辑操作是通过以下方式进行侦测的：侦测所述语音识别文本草稿上的预设按钮上是否接收到了触摸操作，当侦测到预设按钮上接收到了触摸操作时，认为侦测到所述语音识别文本草稿上接收到了编辑操作；当没有侦测到预设按钮上接收到了触摸操作时，认为侦测到所述语音识别文本草稿上没有接收到编辑操作。

所述预设按钮可以为确认按钮，还可以为修改按钮。所述按钮可以是虚拟图标，还可以是实体按键。对应确认按钮的编辑操作为确认操作，对应修改按钮的编辑操作为修改操作。

所述根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本包括：

当接收到的编辑操作为确认操作时，直接生成具有不可编辑状态的语音识别文本；

当接收到的编辑操作为修改操作时，接收用户的手动修改并保存修改的新内容，当再次接收到确认操作时，生成具有不可编辑状态的语音识别文本。

优选地，在接收用户的编辑操作为修改操作之后，所述方法还可以包括：将对应修改处的原始词语及用户修改后的新词语进行关联存储；在后续通过语音识别技术时，根据修改后的新词语将待识别的会议语音转化为文本。

通过记录用户每次的修改并将对应修改处的原始词语及用户修改后的新词语进行关联存储，有利于后续再进行语音识别时，能够直接使用用户修改的新词语，从而降低识别错误率，提高语音识别的准确度，尤其是减少用户修改的麻烦。

优选地，在预设文本数据库时，所述方法还可以包括：预先存储每个词语对应的多种形式，所述多种形式可以包括，但不限于：简繁体形式、加空格形式及形近字等。所述将所述初始语音识别文本与预设文本数据库进行匹配还包括：根据会议所处的环境，将所述初始语音识别文本与预设文本数据库的每个词语对应的多种形式进行匹配，得到符合会议所处环境的语音识别文本。

会议所处的环境可以包括：会议的参与者，会议的举行地。

通过设置词语对应的多种形式，并根据会议所处的环境将初始语音识别文本与预设文本数据库中的每种形式的词语进行匹配，可以避免一些含有空格的语气词、禁忌敏感词无法识别出来。另外，还能够使用在不同的场合，例如，会议的参与者为台湾人时，在台湾等习惯使用繁体字的情况下，识别出的初始语音识别文本可能是繁体字及/或简体字，因而有必要将词语的简繁体形式均进行匹配，得到符合台湾人习惯使用的繁体字的语音识别文本。再如，会议的举行地为大陆，根据大陆人的习惯，将将初始语音识别文本与预设文本数据库中的每种形式的词语进行匹配后，得到符合大陆人习惯使用的简体字的语音识别文本。

本申请所述的将会议语音识别为文本的方法，通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本；将所述初始语音识别文本与预设文本数据库进行匹配,得到匹配后的语音识别文本；根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿；当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。在通过ASR技术对会议的语音转化成文本模式后，通过调用已存词库的内容对文本内容进行搜索，分别进行相应的替换、删除等操作。但由于替换和删除等操作极小概率会导致将原有的正确文本修改为错误的文本，所以系统会将修改后的文本重新以可修改的模式呈现给用户，同时标注出已经修改过的地方供用户确认，用户可以对系统误操作的地方重新进行修改。即通过对待识别的语音进行初步识别后，与预设文本库进行第一次匹配，再通过人工进行第二次确认。两次过程能够有效的保证文本输出内容的正确性，改善了传统语音转文本中文字表达不合理的地方，有效减少了会议内容的校对工作量，提升了效率。

以上所述，仅是本申请的具体实施方式，但本申请的保护范围并不局限于此，对于本领域的普通技术人员来说，在不脱离本申请创造构思的前提下，还可以做出改进，但这些均属于本申请的保护范围。

下面结合第2至3图，分别对实现上述将会议语音识别为文本的方法的电子设备的功能模块及硬件结构进行介绍。

实施例二

图2为本申请将会议语音识别为文本的装置较佳实施例中的功能模块图。

在一些实施例中，所述将会议语音识别为文本的装置20运行于电子设备中。所述将会议语音识别为文本的装置20可以包括多个由指令代码段所组成的功能模块。所述将会议语音识别为文本的装置20中的各个指令段的指令代码可以存储于存储器中，并由至少一个处理器所执行，以执行(详见图1及其相关描述)将会议语音识别为文本的功能。

本实施例中，所述电子设备的将会议语音识别为文本的装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：识别模块201、匹配模块202、生成模块203、侦测模块204、关联模块205及设置模块206。本申请所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机可读指令段，其存储在存储器中。在一些实施例中，关于各模块的功能将在后续的实施例中详述。

识别模块201，用于通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本。

本实施例中，所述识别模块201通过语音识别技术将待识别的会议语音转化为文本的具体过程包括：

2)根据解码算法将所述特征向量解码成词序；

4)根据预设的发音字典将多个子词拼接成文字；

5)使用语言模型语法规则解码得到最优序列，得到文本。

匹配模块202，用于将所述初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本。

本实施例中，可以预先设置至少三个文本数据库，例如，第一文本数据库、第二文本数据库及第三本文数据库。第一文本数据库可以专用于存储多个语气词，如“嗯”、“啊”、“是吧”等，语气词与会议内容无关，且又易影响语音转换为文本后的可读性。第二文本数据库可以专用于存储多个专业词，如“特征向量”、“特征矩阵”、“张量分析”等，专业词较复杂，因而在识别语音的过程中容易批量出现错误。第三文本数据库可以专用于存储多个禁忌敏感词，如政治相关的人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类扣非法信息类等词，禁忌敏感词的出现容易造成不良影响。本申请还可以根据实际情况预先设置第四文本数据库等，专用于存储诸如姓名或者地名等的语句。本文对于预先设置的本文数据库的数量及对应的内容不作具体限制。

所述匹配模块202将所述初始语音识别文本与预设文本数据库进行匹配具体包括：

3)将所述第二匹配结果与预设第三文本数据库进行匹配，得到第三匹配结果。

所述匹配模块202还可以包括：第一匹配子模块2020、第二匹配子模块2022、第三匹配子模块2024。

具体地，所述第一匹配子模块2020将所述初始语音识别文本与预设第一文本数据库进行匹配包括：判断所述初始语音识别文本中是否存在与预设第一文本数据库中的词语相匹配的第一词语；当确定所述初始语音识别文本中存在与预设第一文本数据库中的词语相匹配的第一词语时，将所述初始语音识别文本中相匹配的第一词语进行处理。

优选地，所述第一匹配子模块2020还用于：根据预先训练的所述基于深度学习网络的语气词模型判断所述相匹配的第一词语是否为待删除的语气词；当确定所述相匹配的第一词语为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行剔除；当确定所述相匹配的第一词语不为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行保留。

优选的，所述第一匹配子模块2020训练基于深度学习网络的语气词模型过程可以包括：

1)获取大量的带有第一文本数据库中的词语的文本；

具体地，所述第二匹配子模块2022将所述将所述第一匹配结果与预设第二文本数据库进行匹配包括：将所述第一匹配结果中的词语转换为第一拼音；判断所述预设第二文本数据库中是否存在与所述第一拼音相同的第二拼音；当确定所述预设第二文本数据库中存在与所述第一拼音相同的第二拼音时，将第二拼音对应的词语提取出来，作为第一拼音对应的词语。

具体地，所述第三匹配子模块2024将所述第二匹配结果与预设第三文本数据库进行匹配包括：判断所述第二匹配结果中是否存在与预设第三文本数据库中的词语相匹配的第三词语；当确定所述第二匹配结果中存在与预设第三文本数据库中的词语相匹配的第三词语时，将所述第二匹配结果中相匹配的第三词语进行剔除。

生成模块203，用于根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿。

侦测模块204，用于侦测所述语音识别文本草稿上是否接收到了编辑操作。

所述侦测模块204侦测语音识别文本草稿上是否接收到了编辑操作包括：侦测所述语音识别文本草稿上的预设按钮上是否接收到了触摸操作，当侦测到预设按钮上接收到了触摸操作时，认为侦测到所述语音识别文本草稿上接收到了编辑操作；当没有侦测到预设按钮上接收到了触摸操作时，认为侦测到所述语音识别文本草稿上没有接收到编辑操作。

所述生成模块203，还用于当所述侦测模块侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。

所述生成模块203根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本包括：

优选地，在接收用户的编辑操作为修改操作之后，所述将会议语音识别为文本的装置20还可以包括：关联模块205，用于将对应修改处的原始词语及用户修改后的新词语进行关联存储；所述识别模块201还用于在后续通过语音识别技术时，根据修改后的新词语将待识别的会议语音转化为文本。

优选地，在预设文本数据库时，所述将会议语音识别为文本的装置20还可以包括：设置模块206，用于预先存储每个词语对应的多种形式，所述多种形式可以包括，但不限于：简繁体形式、加空格形式及形近字等。

所述将所述初始语音识别文本与预设文本数据库进行匹配还包括：根据会议所处的环境，将所述初始语音识别文本与预设文本数据库的每个词语对应的多种形式进行匹配，得到符合会议所处环境的语音识别文本。

会议所处的环境可以包括：会议的参与者，会议的举行地。

本申请所述的将会议语音识别为文本的装置，通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本；将所述初始语音识别文本与预设文本数据库进行匹配,得到匹配后的语音识别文本；根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿；当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。在通过ASR技术对会议的语音转化成文本模式后，通过调用已存词库的内容对文本内容进行搜索，分别进行相应的替换、删除等操作。但由于替换和删除等操作极小概率会导致将原有的正确文本修改为错误的文本，所以系统会将修改后的文本重新以可修改的模式呈现给用户，同时标注出已经修改过的地方供用户确认，用户可以对系统误操作的地方重新进行修改。即通过对待识别的语音进行初步识别后，与预设文本库进行第一次匹配，再通过人工进行第二次确认。两次过程能够有效的保证文本输出内容的正确性，改善了传统语音转文本中文字表达不合理的地方，有效减少了会议内容的校对工作量，提升了效率。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个非易失性可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，双屏设备，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的部分。

实施例三

图3为本申请实施例五提供的电子设备的示意图。

所述电子设备3包括：存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机可读指令33及至少一条通讯总线34。

所述至少一个处理器32执行所述计算机可读指令33时实现上述将会议语音识别为文本的方法实施例中的步骤。

示例性的，所述计算机可读指令33可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器31中，并由所述至少一个处理器32执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令33在所述电子设备3中的执行过程。

所述电子设备3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是电子设备3的示例，并不构成对电子设备3的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。

所述至少一个处理器32可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等，所述处理器32是所述电子设备3的控制中心，利用各种接口和线路连接整个电子设备3的各个部分。

所述存储器31可用于存储所述计算机可读指令33和/或模块/单元，所述处理器32通过运行或执行存储在所述存储器31内的计算机可读指令和/或模块/单元，以及调用存储在存储器31内的数据，实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器31可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述非易失性可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述非易失性可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，非易失性可读介质不包括电载波信号和电信信号。

在本申请所提供的几个实施例中，应该理解到，所揭露的电子设备和方法，可以通过其它的方式实现。例如，以上所描述的电子设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本申请各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神范围。

Claims

一种将会议语音识别为文本的方法，其特征在于，所述方法包括：

通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本；

将所述初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本；

根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿；

当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。
如权利要求1所述的方法，其特征在于，所述将所述初始语音识别文本与预设文本数据库进行匹配包括：

将所述初始语音识别文本与预设第一文本数据库进行匹配，得到第一匹配结果；

将所述第一匹配结果与预设第二文本数据库进行匹配，得到第二匹配结果；

将所述第二匹配结果与预设第三文本数据库进行匹配；

其中，所述预设第一文本数据库中存储有多个语气词，所述预设第二文本数据库中存储有多个专业词及对应的拼音，所述预设第三文本数据库中存储有多个禁忌敏感词。
如权利要求2所述的方法，其特征在于，所述将所述初始语音识别文本与预设第一文本数据库进行匹配包括：

判断所述初始语音识别文本中是否存在与预设第一文本数据库中的词语相匹配的第一词语；

当确定所述初始语音识别文本中存在与预设第一文本数据库中的词语相匹配的第一词语时，根据预先训练的基于深度学习网络的语气词模型判断所述相匹配的第一词语是否为待删除的语气词；

当确定所述相匹配的第一词语为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行剔除；

当确定所述相匹配的第一词语不为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行保留。
如权利要求2所述的方法，其特征在于，所述将所述第一匹配结果与预设第二文本数据库进行匹配包括：

将所述第一匹配结果中的词语转换为第一拼音；

判断所述预设第二文本数据库中是否存在与所述第一拼音相同的第二拼音；

当确定所述预设第二文本数据库中存在与所述第一拼音相同的第二拼音时，将第二拼音对应的词语提取出来，作为第一拼音对应的词语。
如权利要求2所述的方法，其特征在于，所述将所述第二匹配结果与预设第三文本数据库进行匹配包括：

判断所述第二匹配结果中是否存在与预设第三文本数据库中的词语相匹配的第三词语；

当确定所述第二匹配结果中存在与预设第三文本数据库中的词语相匹配的第三词语时，将所述第二匹配结果中相匹配的第三词语剔除。
如权利要求1所述的方法，其特征在于，所述根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本包括：

当接收到的编辑操作为确认操作时，直接生成具有不可编辑状态的语音识别文本；

当接收到的编辑操作为修改操作时，接收用户的手动修改并保存修改的新内容，当再次接收到确认操作时，生成具有不可编辑状态的语音识别文本。
如权利要求1至6任意一项所述的方法，其特征在于，所述方法还包括：

将对应修改处的原始词语及用户修改后的新词语进行关联存储；

在后续通过语音识别技术时，根据修改后的新词语将待识别的会议语音转化为文本。
如权利要求1至6任意一项所述的方法，其特征在于，所述方法还包括：

预先存储每个词语对应的多种形式，所述多种形式包括：简繁体形式、加空格形式及形近字；

将所述初始语音识别文本与预设文本数据库的每个词语对应的多种形式进行匹配。
一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器用于存储至少一个指令，所述处理器用于执行所述至少一个指令以实现以下步骤：

通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本；

将所述初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本；

根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿；

当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。
如权利要求9所述的电子设备，其特征在于，所述将所述初始语音识别文本与预设文本数据库进行匹配包括：

将所述初始语音识别文本与预设第一文本数据库进行匹配，得到第一匹配结果；

将所述第一匹配结果与预设第二文本数据库进行匹配，得到第二匹配结果；

将所述第二匹配结果与预设第三文本数据库进行匹配；

其中，所述预设第一文本数据库中存储有多个语气词，所述预设第二文本数据库中存储有多个专业词及对应的拼音，所述预设第三文本数据库中存储有多个禁忌敏感词。
如权利要求10所述的电子设备，其特征在于，所述将所述初始语音识别文本与预设第一文本数据库进行匹配包括：

判断所述初始语音识别文本中是否存在与预设第一文本数据库中的词语相匹配的第一词语；

当确定所述初始语音识别文本中存在与预设第一文本数据库中的词语相匹配的第一词语时，根据预先训练的基于深度学习网络的语气词模型判断所述相匹配的第一词语是否为待删除的语气词；

当确定所述相匹配的第一词语为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行剔除；

当确定所述相匹配的第一词语不为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行保留。
如权利要求10所述的电子设备，其特征在于，所述将所述第一匹配结果与预设第二文本数据库进行匹配包括：

将所述第一匹配结果中的词语转换为第一拼音；

判断所述预设第二文本数据库中是否存在与所述第一拼音相同的第二拼音；

当确定所述预设第二文本数据库中存在与所述第一拼音相同的第二拼音时，将第二拼音对应的词语提取出来，作为第一拼音对应的词语。
如权利要求10所述的电子设备，其特征在于，所述将所述第二匹配结果与预设第三文本数据库进行匹配包括：

判断所述第二匹配结果中是否存在与预设第三文本数据库中的词语相匹配的第三词语；

当确定所述第二匹配结果中存在与预设第三文本数据库中的词语相匹配的第三词语时，将所述第二匹配结果中相匹配的第三词语剔除。
如权利要求9所述的电子设备，其特征在于，所述根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本包括：

当接收到的编辑操作为确认操作时，直接生成具有不可编辑状态的语音识别文本；

当接收到的编辑操作为修改操作时，接收用户的手动修改并保存修改的新内容，当再次接收到确认操作时，生成具有不可编辑状态的语音识别文本。
如权利要求9至14任意一项所述的电子设备，其特征在于，所述处理器还用于执行所述至少一个指令以实现以下步骤：

将对应修改处的原始词语及用户修改后的新词语进行关联存储；

在后续通过语音识别技术时，根据修改后的新词语将待识别的会议语音转化为文本。
一种非易失性可读存储介质，所述非易失性可读存储介质上存储有计算机可读指令，其特征在于，所述至少一个可读指令被所述处理器执行时实现以下步骤：

通过语音识别技术将待识别的会议语音转化为文本，作为初始语音识别文本；

将所述初始语音识别文本与预设文本数据库进行匹配，得到匹配后的语音识别文本；

根据所述匹配后的语音识别文本生成具有可编辑状态的语音识别文本草稿；

当侦测到所述语音识别文本草稿上接收到了编辑操作时，根据所述编辑操作后的语音识别文本生成具有不可编辑状态的语音识别文本，作为最终语音识别文本。
如权利要求16所述的存储介质，其特征在于，所述将所述初始语音识别文本与预设文本数据库进行匹配包括：

将所述初始语音识别文本与预设第一文本数据库进行匹配，得到第一匹配结果；

将所述第一匹配结果与预设第二文本数据库进行匹配，得到第二匹配结果；

将所述第二匹配结果与预设第三文本数据库进行匹配；

其中，所述预设第一文本数据库中存储有多个语气词，所述预设第二文本数据库中存储有多个专业词及对应的拼音，所述预设第三文本数据库中存储有多个禁忌敏感词。
如权利要求17所述的存储介质，其特征在于，所述将所述初始语音识别文本与预设第一文本数据库进行匹配包括：

判断所述初始语音识别文本中是否存在与预设第一文本数据库中的词语相匹配的第一词语；

当确定所述初始语音识别文本中存在与预设第一文本数据库中的词语相匹配的第一词语时，根据预先训练的基于深度学习网络的语气词模型判断所述相匹配的第一词语是否为待删除的语气词；

当确定所述相匹配的第一词语为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行剔除；

当确定所述相匹配的第一词语不为待删除的语气词时，将所述初始语音识别文本中相匹配的第一词语进行保留。
如权利要求17所述的存储介质，其特征在于，所述将所述第一匹配结果与预设第二文本数据库进行匹配包括：

将所述第一匹配结果中的词语转换为第一拼音；

判断所述预设第二文本数据库中是否存在与所述第一拼音相同的第二拼音；

当确定所述预设第二文本数据库中存在与所述第一拼音相同的第二拼音时，将第二拼音对应的词语提取出来，作为第一拼音对应的词语。
如权利要求17所述的存储介质，其特征在于，所述将所述第二匹配结果与预设第三文本数据库进行匹配包括：

判断所述第二匹配结果中是否存在与预设第三文本数据库中的词语相匹配的第三词语；

当确定所述第二匹配结果中存在与预设第三文本数据库中的词语相匹配的第三词语时，将所述第二匹配结果中相匹配的第三词语剔除。