WO2020006879A1

WO2020006879A1 - 录音文件处理方法、装置、计算机设备及存储介质

Info

Publication number: WO2020006879A1
Application number: PCT/CN2018/106259
Authority: WO
Inventors: 岳鹏昱; 闫冬
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-07-06
Filing date: 2018-09-18
Publication date: 2020-01-09
Also published as: CN109101484B; CN109101484A

Abstract

一种录音文件处理方法、装置、计算机设备及存储介质，该方法包括：获取上传的录音文件以及与录音文件对应的原始文本（S101）；调用语音识别接口对录音文件进行语音识别，得到识别文本（S102）；判断识别文本与原始文本是否一致（S103）；若一致，则将录音文件存储至预设的模型训练集合中（S104）；若不一致，则将录音文件记录至待清洗目录待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本（S105）；获取待清洗目录中清洗后的录音文件以及对应的录音文本（S106）；将清洗后的录音文件以及对应的录音文本关联存储至模型训练集合中（S107）。该方法能够解决录音文件的清洗操作效率低下且整理不规范的问题。

Description

录音文件处理方法、装置、计算机设备及存储介质

本申请以2018年07月06日提交的申请号为201810735639.2，名称为“录音文件处理方法、装置、计算机设备及存储介质”的中国发明专利申请为基础，并要求其优先权。

技术领域

本申请涉及语音识别技术领域，尤其涉及一种录音文件处理方法、装置、计算机设备及存储介质。

背景技术

目前，语音识别技术已经应用极为广泛，很多平台预先训练有语音识别模型，可以对外提供语音识别服务。平台在训练语音识别模型时，需要收集大量的语音文件作为样本提供给语音识别模型来学习和训练，因此，很多平台发布自己的手机APP客户端，鼓励广大用户通过该APP上传录音作为训练样本。这种方式能够迅速、高效地收集到极具多样性的训练样本，但是也存在录音文件不规范的问题。虽然平台收集的这些录音文件均是通过平台提供原始文本，用户念该原始文件而得到的，可是不同用户情况不同，并且用户不受平台的约束，导致部分用户念出来的内容与原始文本不一致，这种情况下得到的录音文件若提供给语音识别模型训练，不仅无法得到预期训练效果，反而可能减缓语音识别模型的训练进度，严重地甚至损坏语音识别模型。为此，通过上述方式得到的录音文件作为训练样本时，需要在训练之前进行清洗操作。

当前，录音文件的清洗操作均由处理人逐个人工处理，不仅效率低下，而且容易出现录音文件清洗后整理不规范、文件目录不规整等问题。

发明内容

基于此，有必要针对上述技术问题，提供一种可以提高了处理人员清洗录音文本的效率且便于对录音文件的管理和使用的录音文件处理方法、装置、计算机设备及存储介质。

一种录音文件处理方法，包括：

获取上传的录音文件以及与所述录音文件对应的原始文本；

调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

判断所述识别文本与所述原始文本是否一致；

若所述识别文本与所述原始文本一致，则将所述录音文件存储至预设的模型训练集合中；

若所述识别文本与所述原始文本不一致，则将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。

一种录音文件处理装置，包括：

录音文件获取模块，用于获取上传的录音文件以及与所述录音文件对应的原始文本；

语音识别模块，用于调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

文本判断模块，用于判断所述识别文本与所述原始文本是否一致；

第一存储模块，用于若所述文本判断模块的判断结果为是，则将所述录音文件存储至预设的模型训练集合中；

文件记录模块，用于若所述文本判断模块的判断结果为否，则将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

清洗后文件获取模块，用于获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

第二存储模块，用于将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述录音文件处理方法的步骤。

一个或多个存储有计算机可读指令的非易失性可读存储介质，所述计算机可读存储介质存储有计算机可读指令，使得所述一个或多个处理器执行上述录音文件处理方法的步骤。

本申请的一个或多个实施例的细节在下面的附图和描述中提出，本申请的其他特征和优点将从说明书、附图以及权利要求变得明显。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例中录音文件处理方法的一应用环境示意图；

图2是本申请一实施例中录音文件处理方法的一流程图；

图3是本申请一实施例中录音文件处理方法步骤S103在一个应用场景下的流程示意图；

图4是本申请一实施例中录音文件处理方法在一个应用场景下标记清洗时原始文本中重点关注内容的流程示意图；

图5是本申请一实施例中录音文件处理方法步骤S105在一个应用场景下的流程示意图；

图6是本申请一实施例中录音文件处理方法在一个应用场景下筛选优质录音账户的流程示意图；

图7是本申请一实施例中录音文件处理装置的结构示意图；

图8是本申请一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供的录音文件处理方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，该客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种录音文件处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S101、获取上传的录音文件以及与所述录音文件对应的原始文本；

本实施例中，用户可以使用APP客户端录制各个录音文件，APP客户端通过网络与语音清洗平台的服务器对接，在录制完成后自动将各个录音文件上传至该语音清洗平台上，从而语音清洗平台可以获取到这些录音文件。

另外，用户录制这些录音文件时，是对照APP客户端提供的原始文本念的，可以认为该原始文本即录音文件的标准文本，在语音清洗平台获取录音文件时，应一并获取与所述录音文件对应的原始文本。

S102、调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

在获取到上传的录音文件之后，可以调用该语音清洗平台的语音识别接口对该录音文件进行语音识别，得到识别文本。可以理解的是，本实施例中的语音清洗平台可以自带语音识别功能，也可以通过调用其它平台的语音识别接口来对这些录音文件进行语音识别，完成录音的音转字，得到这些录音文件识别后的识别文本。可知，由于识别文本是采用语音识别技术得到的，因此识别文本可能与原始文本相同，也可能不同。当识别文本与原始文本不相同时，造成不相同的原因至少存在三种可能性：1、用户录制录音文件时未按照原始文本念读；2、用户发音不准确；3、语音识别存在误差。这也辅证了，在采用录音文件作为样本训练语音识别模型之前，对录音文件进行清洗是必要的。

S103、判断所述识别文本与所述原始文本是否一致，若是，则执行步骤S104，若否，则执行步骤S105；

本实施例中，为了减少处理人员清洗录音文件的工作量，提高清洗效率，在清洗录音文件之前，先判断哪些录音文件的文本内容是与原始文本一致的。因此，可以判断通过语音识别得到的识别文本是否与所述原始文本一致，如果两者一致，则说明了该录音文件录音准确，可以直接用作训练的样本，无需处理人员进行清洗；反之，如果两者不一致，则说明了该录音文件录音不准确，不可以直接用作训练的样本，需要处理人员进行清洗，因此执行步骤S105完成清洗操作。

进一步地，本实施例可以在判断录音文件是否需要清洗的同时计算该录音文件对应的识别文本的错词率，以供后续分析使用。具体地，如图3所示，所述步骤S103包括：

S201、计算所述识别文本相对所述原始文本的错词率；

S202、判断所述错词率是否为0，若是，则执行步骤S203，若否，则执行步骤S204；

S203、确定所述识别文本与所述原始文本一致；

S204、确定所述识别文本与所述原始文本不一致。

对于步骤S201，可以将所述识别文本与所述原始文本进行比对，计算识别文本相对原始文本的错词率(word error rate)。可知，错词率越高，代表该识别文本与原始文本差异越大；错词率越低，代表该识别文本与原始文本差异越小，当错词率为0时，表示该识别文本与原始文本是一致的。

对于步骤S202～S204，可知，如果错词率为0，则表示所述识别文本与所述原始文本一致，然后执行步骤S104；反之，如果错词率不为0，则表示所述识别文本与所述原始文本一致，然后执行步骤S105。

S104、将所述录音文件存储至预设的模型训练集合中；

对于步骤104，可以理解的是，在确定所述识别文本与所述原始文本一致之后，可以认为该录音文件是准确的，可以直接用于语音识别模型的训练，因此，可以将所述录音文件存储至预设的模型训练集合中。具体地，可以将该录音文件存储至指定的数据库中，也可以将该录音文件记录在指定的训练文件目录下，在需要样本训练时，查找该训练文件目录即可获取到这些用作训练样本的录音文件。

S105、将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

对于步骤105，可以理解的是，在确定所述识别文本与所述原始文本不一致之后，代表该录音文件需要进行清洗操作，因此将该录音文件记录至待清洗目录。本实施例中，该待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本，即，当处理人员清洗录音文件时，先查询待清洗目录，得知哪些录音文件需要进行清洗操作，然后获取这些需要清洗的录音文件。接着，处理人员可以直接通过语音清洗平台上内置的播放器播放这些录音文件，处理人员通过该播放器可以对录音文件进行“加速播放”、“减速播放”、“快进”、“后退”、“暂停”等操作，语音清洗平台提供这些功能极大方便了处理人员对录音文件的听取，处理人员听取录音文件的音频后，将听到的文字录入至语音清洗平台上，这些录入的文本即可认为是与该录音文件对应的正确的文本，即所述录音文本。

进一步地，如图4所示，在执行下述步骤S106之前，本实施例中的录音文件处理方法还可以包括：

S301、获取待清洗的录音文件和对应的原始文本；

S302、将所述待清洗的录音文件和对应的原始文本发送至各个不同平台的语音识别服务接口进行语音识别，得到各个平台反馈的各个平台识别文本；

S303、将所述原始文本分别与各个所述平台识别文本进行对比，确定所述原始文本中与各个所述平台识别文本均一致的部分文本内容；

S304、标注所述原始文本中除所述部分文本内容以外的文本内容；

S305、将标注后的所述原始文本发送至指定终端以供处理人员进行清洗处理。

需要说明的是，清洗录音文件虽然主要依赖处理人员的人工处理，但是，很多录音文件不仅文本内容繁多，而且通过APP客户端收集得到的录音文件数量极其庞大，绝大部分录音文件都是需要进行清洗操作后才可用作训练样本的。这就导致处理人员工作量过大，往往出现人手不足的情况。为了减轻这种状况、提高录音文件的清洗效率，本实施例通过上述步骤S301～S305的处理，在处理人员人工处理之前，预先在待清洗的录音文件所对应的原始文本上标注出处理人员需要重点关注的内容，辅助处理人员针对性地听取与核对录音文件、原始文本，有效提高处理人员清洗该录音文件的效率。

对于步骤S301，首先，可以查询待清洗目录，然后获取待清洗的录音文件，同时，获取该待清洗的录音文件所对应的原始文本。

对于步骤S302，可以理解的是，由于各个不同平台采用的语音识别模型往往各不相同，因此，不同平台对同一录音文件进行语音识别得到的识别结果也存在差异。本实施例通过利用不同平台对同一待清洗的录音文件进行语音识别，得到各个平台反馈的各个平台识别文本，再依据这些平台识别文本与原始文本的比较来确定出录音文件对应的文本内容中无需重点关注的内容。

对于步骤S303，在得到各个平台反馈的各个平台识别文本之后，可以将所述原始文本分别与各个所述平台识别文本进行对比，确定所述原始文本中与各个所述平台识别文本均一致的部分文本内容。可以理解的是，如果该原始文本中的部分文本内容均在所述各个平台识别文本中出现，则可以确定的是该录音文本对应该部分文本内容的音频是准确的，从而处理人员无需在关注这部分文本内容所对应的音频。从另一侧面也可以发现，除了该部分文本内容以外，原始文本中其它文本内容所对应的音频部分很可能存在需要清洗、修正的部分，这就需要提醒处理人员重点关注了。

对于步骤S304和S305，如上所述，该原始文本中的所述部分文本内容所对应的音频部分可以认为是无需清洗的，也即处理人员无需重点关注的地方，因此，将该部分内容以外的其它文本内容进行重点标注，增加加粗、下划线、添加底色等突出显示效果，可以使得处理人员在清洗处理该录音文件时，处理人员一边听录音文件一边查看该录音文件所对应的原始文本，并重点关注那些标注出来的文本内容，从而处理人员可以集中注意力在重点的地方，无疑提高了处理人员清洗这些录音文件的效率，更容易发现“错词”所处的位置并修正，使得处理人员更容易一次听取即可完成一个录音文件的清洗工作。

S106、获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

其中，该录音文本是指清洗后经处理人员确定的文本，可以认为该录音文本与录音文件中的音频内容是一致的。处理人员在清洗录音文件之后，可以在语音清洗平台上在原始文本或识别文本的基础上修正为录音文本，提交后语音清洗平台即可获得清洗后该录音文件对应的录音文本。

S107、将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。

可以理解的是，清洗后的录音文件已经可以被用于语音识别模型的训练了，因此可以将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。

另外，需要说明的是，上述待清洗目录在记录录音文件时，可以对录音文件进行分类，一般来说，由于不同语音识别模型往往按照应用领域来区分，比如财经、新闻、体育、电影对话等，因此，该待清洗目录也可以根据应用领域的不同分类记录待清洗的录音文件。进一步地，如图5所示，所述步骤S105可以包括：

S401、获取所述录音文件初定的应用领域；

S402、将所述录音文件记录至待清洗目录中所述初定的应用领域所属的位置上；

在上述步骤S401和S402的基础上，所述步骤S106具体为：获取所述待清洗目录中清洗后的录音文件、所述清洗后的录音文件对应的录音文本、以及第一应用领域，所述第一应用领域由处理人员在清洗所述录音文件时确定的应用领域；并且，步骤S107具体可以包括下述步骤S501-S503：

S501、判断所述录音文件的第一应用领域与初定的应用领域是否一致；

S502、若所述录音文件的第一应用领域与初定的应用领域一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述初定的应用领域所属的位置上；

S503、若所述录音文件的第一应用领域与初定的应用领域不一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述第一应用领域所属的位置上。

对于步骤S401和S402，可以理解的是，一个录音文件的应用领域可以根据该录音文件对应的原始文本所确定，由于原始文本是语音清洗平台一方提供的，因此应用领域可以预先确定并获取到。特别需要注意的是，若用户在录制录音文件时未按照原始文本来录音，那么该录音文件必然需要清洗操作，处理人员在对该录音文件清洗时，会听取该录音文件，然后重新确定该录音文件的应用领域。而关于待清洗目录，该待清洗目录中可以划分多个不同的位置分别记录属于不同应用领域的录音文件的信息，这样更方便对录音文件的管理和应用，在处理人员需要集中清洗某一应用领域的录音文件时，可以从待清洗目录的相应位置快速检索出属于该应用领域的录音文件。

为此，在上述步骤S401和S402的基础上，所述步骤S106具体可以为：获取所述待清洗目录中清洗后的录音文件、所述清洗后的录音文件对应的录音文本、以及第一应用领域，所述第一应用领域由处理人员在清洗所述录音文件时确定的应用领域。也即，处理人员在清洗该录音文件时，听取该录音文件后，不仅反馈听取得到的录音文本，而且人为确定出新的应用领域，即该第一应用领域。此时，在步骤S107将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中，为了在将清洗后的录音文件归集到模型训练集合中时更加分类清洗，本方法还可以加入上述步骤S501-S503，先判断该录音文件的第一应用领域与初定的应用领域是否一致，若一致，则表示该录音文件清洗前的初定的应用领域是准确的，因此在归集清洗后的该录音文件时，可以将其和对应的录音文本关联存储至所述模型训练集合中所述初定的应用领域所属的位置上；反之，若不一致，则表示该录音文件清洗前的初定的应用领域不准确，应当以处理人员清洗时一并确定的新的第一应用领域为准，从而将其和对应的录音文本关联存储至所述模型训练集合中所述第一应用领域所属的位置上。可见，通过对清洗后的录音文件进行应用领域上的划分，有助于当使用这些清洗后的录音文件作为样本训练语音识别模型时，可以快速地、有针对地检索出目标应用领域的录音文件来训练语音识别模型。比如当前准备训练“汽车”领域的语音识别模型，可以在该模型训练集合中“汽车”领域所属的位置上获取各个录音文件作为训练样本。

进一步地，本实施例中，由于服务器通过客户端收集用户录制的录音文件，不同用户录制的录音文件之间会存在显著的差异，有些用户录制的录音文件质量更好，比如错词率很低甚至没有错词，有些用户录制的录音文件质量则较差。显然，考虑到成本问题，录音质量好的用户更受服务器的欢迎。因此，为了从广大用户全体中筛选去录音质量稳定、优质的用户，如图6所示，本方法还可以包括：

S501、统计目标账户历史上传的各个录音文件的错词率；

S502、根据统计得到的所述历史上传的各个录音文件的错词率计算所述目标账户录制录音文件的平均错词率；

S503、判断所述目标账户的平均错词率是否小于预设阈值，若是，则执行步骤S504，若否，则执行步骤S505；

S504、将所述目标账户确定为优质录音账户，优质录音账户上传录音文件时受到预设激励机制的奖励；

S505、按照预设的流程处理。

对于步骤S501，由上述步骤S201可知，服务器在判断录音文件是否需要清洗的同时可以计算录音文件对应的识别文本的错词率，因此当需要时，服务器可以很容易的统计得到各个用户账户历史上传过的各个录音文件以及这些录音文件的错词率。

对于步骤S502，可以理解的是，该目标账户的平均错词率为该目标账户历史上传过的各个录音文件的错词率的平均值。举例说明，假设目标账户A历史上传过3个录音文件，这3个录音文件的错词率分别为0.2、0.1和0.3，则计算得到该目标账户A的平均错词率为(0.2+0.1+0.3)/3＝0.2。

对于步骤S503-S505，本实施例中，若某个用户账户的平均错词率低于某个预设阈值，可以认为该用户录制的录音文件是优质的，该用户为服务器所欢迎的用户。其中，该预设阈值可以根据实际使用情况来确定，比如可以确定为0.1，即10％，当该目标账户的平均错词率小于10％时，可以认为该目标账户为优质用户的录音账户，可以将其确定为优质录音账户，为了鼓励该优质录音账户的用户积极上传录音文件，服务器会在该优质录音账户上传录音文件时或者上传后按照预设的激励机制给予其奖励，比如可以提高该优质录音账户的权限、赠送账户系统的积分、派送小礼品等。反之，当该目标账户的平均错词率大于或等于10％时，可以认为该目标账户并非值得关注的优质用户的录音账户，因此可以按照预设的流程处理。这里说的预设的流程具体可以是不将所述目标账户确定为优质录音账户。

另外，本实施例中的服务器还可以查看各个处理人员的清洗工作状况，比如已清洗录音文件的数量、待清洗的录音文件数量，等等

本实施例中，通过对上传的录音文件进行语音识别，可以在处理人员清洗录音文件之前先判断识别出来的识别文本是否与原始文本一致，对于识别文本与原始文本一致的录音文件无需提供给处理人员清洗并直接存储至模型训练集合中，只有识别文本与原始文本不一致的录音文件才会记录到待清洗目录中由处理人员清洗，这样可以节省处理人员一部分的清洗工作，提高了处理人员清洗录音文本的效率；并且，无需清洗的录音文本和清洗后的录音文本最终均存储至模型训练集合中，便于对录音文件的管理和使用，方便了后续语音识别模型使用这些录音文本作为样本进行训练。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

在一实施例中，提供一种录音文件处理装置，该录音文件处理装置与上述实施例中录音文件处理方法一一对应。如图7所示，该录音文件处理装置包括录音文件获取模块601、语音识别模块602、文本判断模块603、第一存储模块604、文件记录模块605、清洗后文件获取模块606和第二存储模块607。各功能模块详细说明如下：

录音文件获取模块601，用于获取上传的录音文件以及与所述录音文件对应的原始文本；

语音识别模块602，用于调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

文本判断模块603，用于判断所述识别文本与所述原始文本是否一致；

第一存储模块604，用于若所述文本判断模块的判断结果为是，则将所述录音文件存储至预设的模型训练集合中；

文件记录模块605，用于若所述文本判断模块的判断结果为否，则将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

清洗后文件获取模块606，用于获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

第二存储模块607，用于将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。

进一步地，所述文本判断模块可以包括：

错词率计算单元，用于计算所述识别文本相对所述原始文本的错词率；

错词率判断单元，用于判断所述错词率是否为0；

第一确定单元，用于若所述错词率判断单元的判断结果为是，则确定所述识别文本与所述原始文本一致；

第二确定单元，用于若所述错词率判断单元的判断结果为否，则确定所述识别文本与所述原始文本不一致。

进一步地，所述文件记录模块可以包括：

初定领域获取单元，用于获取所述录音文件初定的应用领域；

第一记录单元，用于将所述录音文件记录至待清洗目录中所述初定的应用领域所属的位置上；

所述清洗后文件获取模块具体用于：获取所述待清洗目录中清洗后的录音文件、所述清洗后的录音文件对应的录音文本、以及第一应用领域，所述第一应用领域由处理人员在清洗所述录音文件时确定的应用领域；

所述第二存储模块具体可以包括：

领域判断单元，用于判断所述录音文件的第一应用领域与初定的应用领域是否一致；

第一存储单元，用于若所述领域判断单元的判断结果为是，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述初定的应用领域所属的位置上；

第二存储单元，用于若所述领域判断单元的判断结果为否，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述第一应用领域所属的位置上。

进一步地，所述录音文件处理装置还可以包括：

文件文本获取模块，用于获取待清洗的录音文件和对应的原始文本；

平台识别模块，用于将所述待清洗的录音文件和对应的原始文本发送至各个不同平台的语音识别服务接口进行语音识别，得到各个平台反馈的各个平台识别文本；

平台识别文本对比模块，用于将所述原始文本分别与各个所述平台识别文本进行对比，确定所述原始文本中与各个所述平台识别文本均一致的部分文本内容；

文本标注模块，用于标注所述原始文本中除所述部分文本内容以外的文本内容；

清洗发送模块，用于将标注后的所述原始文本发送至指定终端以供处理人员进行清洗处理。

进一步地，所述录音文件处理装置还可以包括：

统计模块，用于统计目标账户历史上传的各个录音文件的错词率；

平均错词率计算模块，用于根据统计得到的所述历史上传的各个录音文件的错词率计算所述目标账户录制录音文件的平均错词率；

平均错词率判断模块，用于判断所述目标账户的平均错词率是否小于预设阈值；

优质账户确定模块，用于若所述平均错词率判断模块的判断结果为是，则将所述目标账户确定为优质录音账户，优质录音账户上传录音文件时受到预设激励机制的奖励。

关于录音文件处理装置的具体限定可以参见上文中对于录音文件处理方法的限定，在此不再赘述。上述录音文件处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储录音文件处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种录音文件处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令，处理器执行计算机可读指令时实现上述实施例中录音文件处理方法的步骤，例如图2所示的步骤S101至步骤S107。或者，处理器执行计算机可读指令时实现上述实施例中录音文件处理装置的各模块/单元的功能，例如图7所示模块601至模块607的功能。为避免重复，这里不再赘述。

在一个实施例中，提供了一种计算机可读存储介质，该一个或多个存储有计算机可读指令的非易失性可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行计算机可读指令时实现上述方法实施例中录音文件处理方法的步骤，或者，该一个或多个存储有计算机可读指令的非易失性可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行计算机可读指令时实现上述装置实施例中录音文件处理装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

一种录音文件处理方法，其特征在于，包括：

获取上传的录音文件以及与所述录音文件对应的原始文本；

调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

判断所述识别文本与所述原始文本是否一致；

若所述识别文本与所述原始文本一致，则将所述录音文件存储至预设的模型训练集合中；

若所述识别文本与所述原始文本不一致，则将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。
根据权利要求1所述的录音文件处理方法，其特征在于，所述判断所述识别文本与所述原始文本是否一致包括：

计算所述识别文本相对所述原始文本的错词率；

判断所述错词率是否为0；

若所述错词率为0，则确定所述识别文本与所述原始文本一致；

若所述错词率不为0，则确定所述识别文本与所述原始文本不一致。
根据权利要求1所述的录音文件处理方法，其特征在于，所述将所述录音文件记录至待清洗目录包括：

获取所述录音文件初定的应用领域；

将所述录音文件记录至待清洗目录中所述初定的应用领域所属的位置上；

所述获取所述待清洗目录中清洗后的录音文件以及对应的录音文本具体为：获取所述待清洗目录中清洗后的录音文件、所述清洗后的录音文件对应的录音文本、以及第一应用领域，所述第一应用领域由处理人员在清洗所述录音文件时确定的应用领域；

所述将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中具体包括：

判断所述录音文件的第一应用领域与初定的应用领域是否一致；

若所述录音文件的第一应用领域与初定的应用领域一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述初定的应用领域所属的位置上；

若所述录音文件的第一应用领域与初定的应用领域不一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述第一应用领域所属的位置上。
根据权利要求1所述的录音文件处理方法，其特征在于，在获取所述待清洗目录中清洗后的录音文件以及对应的录音文本之前，还包括：

获取待清洗的录音文件和对应的原始文本；

将所述待清洗的录音文件和对应的原始文本发送至各个不同平台的语音识别服务接口进行语音识别，得到各个平台反馈的各个平台识别文本；

将所述原始文本分别与各个所述平台识别文本进行对比，确定所述原始文本中与各个所述平台识别文本均一致的部分文本内容；

标注所述原始文本中除所述部分文本内容以外的文本内容；

将标注后的所述原始文本发送至指定终端以供处理人员进行清洗处理。
根据权利要求1至4中任一项所述的录音文件处理方法，其特征在于，所述录音文件处理方法还包括：

统计目标账户历史上传的各个录音文件的错词率；

根据统计得到的所述历史上传的各个录音文件的错词率计算所述目标账户录制录音文件的平均错词率；

判断所述目标账户的平均错词率是否小于预设阈值；

若所述目标账户的平均错词率小于预设阈值，则将所述目标账户确定为优质录音账户，优质录音账户上传录音文件时受到预设激励机制的奖励。
一种录音文件处理装置，其特征在于，包括：

录音文件获取模块，用于获取上传的录音文件以及与所述录音文件对应的原始文本；

语音识别模块，用于调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

文本判断模块，用于判断所述识别文本与所述原始文本是否一致；

第一存储模块，用于若所述文本判断模块的判断结果为是，则将所述录音文件存储至预设的模型训练集合中；

文件记录模块，用于若所述文本判断模块的判断结果为否，则将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

清洗后文件获取模块，用于获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

第二存储模块，用于将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。
根据权利要求6所述的录音文件处理装置，其特征在于，所述文本判断模块包括：

错词率计算单元，用于计算所述识别文本相对所述原始文本的错词率；

错词率判断单元，用于判断所述错词率是否为0；

第一确定单元，用于若所述错词率判断单元的判断结果为是，则确定所述识别文本与所述原始文本一致；

第二确定单元，用于若所述错词率判断单元的判断结果为否，则确定所述识别文本与所述原始文本不一致。
根据权利要求6所述的录音文件处理装置，其特征在于，所述文件记录模块包括：

初定领域获取单元，用于获取所述录音文件初定的应用领域；

第一记录单元，用于将所述录音文件记录至待清洗目录中所述初定的应用领域所属的位置上；

所述清洗后文件获取模块具体用于：获取所述待清洗目录中清洗后的录音文件、所述清洗后的录音文件对应的录音文本、以及第一应用领域，所述第一应用领域由处理人员在清洗所述录音文件时确定的应用领域；

所述第二存储模块具体包括：

领域判断单元，用于判断所述录音文件的第一应用领域与初定的应用领域是否一致；

第一存储单元，用于若所述领域判断单元的判断结果为是，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述初定的应用领域所属的位置上；

第二存储单元，用于若所述领域判断单元的判断结果为否，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述第一应用领域所属的位置上。
根据权利要求6所述的录音文件处理装置，其特征在于，所述录音文件处理装置还包括：

文件文本获取模块，用于获取待清洗的录音文件和对应的原始文本；

平台识别模块，用于将所述待清洗的录音文件和对应的原始文本发送至各个不同平台的语音识别服务接口进行语音识别，得到各个平台反馈的各个平台识别文本；

平台识别文本对比模块，用于将所述原始文本分别与各个所述平台识别文本进行对比，确定所述原始文本中与各个所述平台识别文本均一致的部分文本内容；

文本标注模块，用于标注所述原始文本中除所述部分文本内容以外的文本内容；

清洗发送模块，用于将标注后的所述原始文本发送至指定终端以供处理人员进行清洗处理。
根据权利要求6至9中任一项所述的录音文件处理装置，其特征在于，所述录音文件处理装置还包括：

统计模块，用于统计目标账户历史上传的各个录音文件的错词率；

平均错词率计算模块，用于根据统计得到的所述历史上传的各个录音文件的错词率计算所述目标账户录制录音文件的平均错词率；

平均错词率判断模块，用于判断所述目标账户的平均错词率是否小于预设阈值；

优质账户确定模块，用于若所述平均错词率判断模块的判断结果为是，则将所述目标账户确定为优质录音账户，优质录音账户上传录音文件时受到预设激励机制的奖励。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

获取上传的录音文件以及与所述录音文件对应的原始文本；

调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

判断所述识别文本与所述原始文本是否一致；

若所述识别文本与所述原始文本一致，则将所述录音文件存储至预设的模型训练集合中；

若所述识别文本与所述原始文本不一致，则将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。
根据权利要求11所述的计算机设备，其特征在于，所述判断所述识别文本与所述原始文本是否一致包括：

计算所述识别文本相对所述原始文本的错词率；

判断所述错词率是否为0；

若所述错词率为0，则确定所述识别文本与所述原始文本一致；

若所述错词率不为0，则确定所述识别文本与所述原始文本不一致。
根据权利要求11所述的计算机设备，其特征在于，所述将所述录音文件记录至待清洗目录包括：

获取所述录音文件初定的应用领域；

将所述录音文件记录至待清洗目录中所述初定的应用领域所属的位置上；

所述获取所述待清洗目录中清洗后的录音文件以及对应的录音文本具体为：获取所述待清洗目录中清洗后的录音文件、所述清洗后的录音文件对应的录音文本、以及第一应用领域，所述第一应用领域由处理人员在清洗所述录音文件时确定的应用领域；

所述将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中具体包括：

判断所述录音文件的第一应用领域与初定的应用领域是否一致；

若所述录音文件的第一应用领域与初定的应用领域一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述初定的应用领域所属的位置上；

若所述录音文件的第一应用领域与初定的应用领域不一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述第一应用领域所属的位置上。
根据权利要求11所述的计算机设备，其特征在于，在获取所述待清洗目录中清洗后的录音文件以及对应的录音文本之前，所述处理器执行所述计算机可读指令时还实现如下步骤：

获取待清洗的录音文件和对应的原始文本；

将所述待清洗的录音文件和对应的原始文本发送至各个不同平台的语音识别服务接口进行语音识别，得到各个平台反馈的各个平台识别文本；

将所述原始文本分别与各个所述平台识别文本进行对比，确定所述原始文本中与各个所述平台识别文本均一致的部分文本内容；

标注所述原始文本中除所述部分文本内容以外的文本内容；

将标注后的所述原始文本发送至指定终端以供处理人员进行清洗处理。
根据权利要求11至14中任一项所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还实现如下步骤：

统计目标账户历史上传的各个录音文件的错词率；

根据统计得到的所述历史上传的各个录音文件的错词率计算所述目标账户录制录音文件的平均错词率；

判断所述目标账户的平均错词率是否小于预设阈值；

若所述目标账户的平均错词率小于预设阈值，则将所述目标账户确定为优质录音账户，优质录音账户上传录音文件时受到预设激励机制的奖励。
一个或多个存储有计算机可读指令的非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行如下步骤：

获取上传的录音文件以及与所述录音文件对应的原始文本；

调用语音识别接口对所述录音文件进行语音识别，得到识别文本；

判断所述识别文本与所述原始文本是否一致；

若所述识别文本与所述原始文本一致，则将所述录音文件存储至预设的模型训练集合中；

若所述识别文本与所述原始文本不一致，则将所述录音文件记录至待清洗目录，所述待清洗目录记录的录音文件由处理人员听取并反馈正确的录音文本；

获取所述待清洗目录中清洗后的录音文件以及对应的录音文本；

将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中。
根据权利要求16所述的非易失性可读存储介质，其特征在于，所述判断所述识别文本与所述原始文本是否一致包括：

计算所述识别文本相对所述原始文本的错词率；

判断所述错词率是否为0；

若所述错词率为0，则确定所述识别文本与所述原始文本一致；

若所述错词率不为0，则确定所述识别文本与所述原始文本不一致。
根据权利要求16所述的非易失性可读存储介质，其特征在于，所述将所述录音文件记录至待清洗目录包括：

获取所述录音文件初定的应用领域；

将所述录音文件记录至待清洗目录中所述初定的应用领域所属的位置上；

所述获取所述待清洗目录中清洗后的录音文件以及对应的录音文本具体为：获取所述待清洗目录中清洗后的录音文件、所述清洗后的录音文件对应的录音文本、以及第一应用领域，所述第一应用领域由处理人员在清洗所述录音文件时确定的应用领域；

所述将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中具体包括：

判断所述录音文件的第一应用领域与初定的应用领域是否一致；

若所述录音文件的第一应用领域与初定的应用领域一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述初定的应用领域所属的位置上；

若所述录音文件的第一应用领域与初定的应用领域不一致，则将所述清洗后的录音文件以及对应的录音文本关联存储至所述模型训练集合中所述第一应用领域所属的位置上。
根据权利要求16所述的非易失性可读存储介质，其特征在于，在获取所述待清洗目录中清洗后的录音文件以及对应的录音文本之前，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

获取待清洗的录音文件和对应的原始文本；

将所述待清洗的录音文件和对应的原始文本发送至各个不同平台的语音识别服务接口进行语音识别，得到各个平台反馈的各个平台识别文本；

将所述原始文本分别与各个所述平台识别文本进行对比，确定所述原始文本中与各个所述平台识别文本均一致的部分文本内容；

标注所述原始文本中除所述部分文本内容以外的文本内容；

将标注后的所述原始文本发送至指定终端以供处理人员进行清洗处理。
根据权利要求16至19中任一项所述的非易失性可读存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器还执行如下步骤：

统计目标账户历史上传的各个录音文件的错词率；

根据统计得到的所述历史上传的各个录音文件的错词率计算所述目标账户录制录音文件的平均错词率；

判断所述目标账户的平均错词率是否小于预设阈值；

若所述目标账户的平均错词率小于预设阈值，则将所述目标账户确定为优质录音账户，优质录音账户上传录音文件时受到预设激励机制的奖励。