WO2020125588A1

WO2020125588A1 - 一种语音通话识别方法、装置及存储介质

Info

Publication number: WO2020125588A1
Application number: PCT/CN2019/125707
Authority: WO
Inventors: 赵永良
Original assignee: 西安中兴新软件有限责任公司
Priority date: 2018-12-21
Filing date: 2019-12-16
Publication date: 2020-06-25
Also published as: CN111355838A

Abstract

本发明公开了一种语音通话识别方法、装置及存储介质，方法包括：当发生通话时，识别所述通话中各通话方的语音流，并转换为相应的文本信息；依据各通话方的通话属性，将各通话方与所述对应的文本信息关联，并生成通话文本；显示所述通话文本。

Description

一种语音通话识别方法、装置及存储介质

交叉引用

本发明要求在2018年12月21日提交中国专利局、申请号为201811575096.9、发明名称为“一种语音通话识别方法、装置及存储介质”的中国专利申请的优先权，该申请的全部内容通过引用结合在本发明中。

技术领域

本发明涉及通信终端技术领域，尤其涉及一种语音通话识别方法、装置及存储介质。

背景技术

从手机问世以来，通话就是一个使用最频繁和必不可少的功能之一。在通话的过程中往往存在一些重要的信息需要记录，所以很多终端厂商实现了通话录音这样的功能，具体就是将通话方的语音内容保存为音频文件供用户查看和播放。

如果需要记录通话内容的话，目前采用的主要方式就是利用手机的录音功能来记录。但这种记录方式存储占用空间大，同时也不方便查找各通话中的通话方的内容。音频文件存在存储占用空间大，不利于查找，呈现不直观的缺点，人们常采用将通话录音转换成文本的方式进行存储，因为文本节省存储空间，便于后续查找。

发明内容

本发明实施例提供一种语音通话识别方法、装置及存储介质，以解决音频文件存在存储占用空间大，不利于查找，呈现不直观的问题。

为了解决上述技术问题，本发明通过以下至少一技术方案实现：

第一方面，提供了一种语音通话识别方法，包括：当发生通话时，识别所述通话中各通话方的语音流，并转换为相应的文本信息；依据各通话方的通话属性，将各通话方与所述相应的文本信息关联，并生成通话文本；显示所述通话文本。

第二方面，本申请提供了一种语音通话识别装置，包括：语音识别装置和消息模块；所述语音识别装置，用于当发生通话时，识别所述通话中各通话方的语音流，并转换为相应的文本信息；依据各通话方的通话属性，将各通话方与所述相应的文本信息关联，并生成通话文本；所述消息模块，用于显示所述通话文本。

第三方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本申请的语音通话识别方法的实施例1的流程图；

图2为步骤S01的流程图；

图3为本申请的语音通话识别装置的消息会话页面的结构框图；

图4为本申请的语音通话识别装置的实施例4的结构框图；

图5为本申请的语音通话识别装置的实施例4的另一结构框图；

图6为本申请的语音通话识别装置的实施例4的另一结构框图；

图7为本申请的语音通话识别装置的实施例4的另一结构框图；

附图中各部件的标记如下：

1-语音识别装置，11-通话模块，111-通信单元，112-解编码单元，12-音频模块，13-语音识别模块，14-处理模块，15-联系人模块，2-消息模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本申请提供了一种语音通话识别方法，可以包括以下步骤。

S01，当发生通话时，识别所述通话中各通话方的语音流，并转换为相应的文本信息；

S02，依据各通话方的通话属性，将各通话方与所述相应的文本信息关联，并生成通话文本；

S03，显示所述通话文本。

本申请通过语音转文本的方式实现了通话记录可记录、可检索，并为大数据分析、秘书化服务提供了信息入口。

本申请将通话语音转换为文本，然后将每个通话属性信息与文本结合后呈现给用户。如此将通话方的信息交互及语音交互与联系人属性信息整合起来，更加完整连续的记录了通话方的交互内容，以一种更加直观便捷的方式呈现给用户。

实施例2：

如图2所示，在实施例1的基础上，当通话开始后，还包括：识别通话方的来电号码。

S01中所述将通话语音转换为文本的方法包括以下步骤。

S011，获取所述通话语音中的至少一个上行音频流和至少一个下行音频流；上下行音频流包括时间信息；在通话语音中捕获到传输的实时传输协议(Real-time Transport Protocol，RTP)流后，从这个RTP流中按照其中音频流的方向提取出不同方向地两条音频流；为了加以区分，我们把其中一条音频流称为上行音频流，另一条称之为下行音频流，上、下行的称谓是相对的，可以根据不同的应用场景加以定义。

S012，对所述上行音频流和所述下行音频流进行解析，分别转换为相应的文本信息，具体为：a)上行音频流对应于本地终端通话方的语音，下行音频流对应于通话方的语音；b)对所述上行音频流进行解析，生成终端通话文本；c)对所述下行音频流进行解析，生成通话方文本，包括：对这两条音频流分别进行RTP包预处理和语音解码等过程，形成上、下行两条单独的语音信号，并分别对这两条单独的语音信号进行输出、播放，或者生成文本文件加以保存；d)将终端通话方的号码、上行音频流开始时间和持续时间对应于所述终端通话文本；f)将通话方来电号码、下行音频流开始时间和持续时间对应于所述通话方文本。

所述通话属性包括电话号码；或/和所述通话属性包括电话号码和语音开始时间；或/和所述通话属性包括电话号码和语音持续时间；或/和所述通话属性包括电话号码、通话开始时间和通话持续时间。

进一步地，识别所述通话方的来电号码，还包括：将所述来电号码与存储的联系人信息进行匹配，具体为：如果来电号码与联系人列表中的电话号码相同，则将来电号码匹配到已有联系人上，如果来电号码与联系人列表中的电话号码不相同，则将该来电号码为新号码。

如果匹配成功，则将存储的所述联系人信息与下行音频流开始时间和持续时间对应于所述通话方文本；如果匹配失败，则直接执行步骤f。

实施例3：

在实施例1或2的基础上，S03中显示通话文本的方法包括：按照时间顺序，显示通话文本；或逐一显示每个所述通话方的通话文本。如图3所示，通话文本的显示形式包括：如果所述通话方存在消息会话，则将所述通话文本添加至已有所述消息会话上；可以单独添加文本，也可以与音频内容一起添加至消息会话上；如果通话方不存在消息会话，则新增消息会话，所述通话文本添加至新增消息会话上；可以单独添加文本，也可以与音频内容一起添加至消息会话上。

进一步地，本申请还包括：保存所述通话文本。

本申请将单独针对通话时上下行音频流进行语音识别转换成文本，然后结合时间信息及通话方信息将转换的文本呈现给用户，用户需要查询通话内容的时候，阅读文本文件的速率远远高于听取音频文件的，这将更加节省用户获取通话信息的时间。如此将通话方的信息交互及语音交互按时间整合起来，更加完整连续的记录了通话方的交互内容。

实施例4：

如图4所示，本申请提供了一种语音通话识别装置，用于上述的语音通话识别方法，包括：语音识别装置1和消息模块2；所述语音识别装置1，用于当发生通话时，识别所述通话中各通话方的语音流，并转换为相应的文本信息；依据各通话方的通话属性，将各通话方与所述对应的文本信息关联，并生成通话文本；所述消息模块2，用于显示所述通话文本。

进一步地，如图5所示，所述语音识别装置1包括：依次连接的通话模块11、音频模块12、语音识别模块13、处理模块14；所述通话模块11用于识别通话方的来电号码、显示来电号码、接通电话、语音聊天，以及保存通话内容；所述音频模块12用于获取所述通话模块中语音聊天产生的至少一个上行音频流和至少一个下行音频流；所述语音识别模块13用于对所述音频模块获取的所述上行音频流和所述下行音频流进行解析，转换为相应的文本信息；所述处理模块14用于依据各通话方的通话属性，将各通话方与所述相应的文本信息关联，并生成通话文本。

本申请将单独针对通话时上下行音频流进行语音识别转换成文本，然后结合时间信息及通话方信息将转换的文本注入消息模块2来呈现给用户。如此将通话方的信息交互及语音交互按时间整合起来，更加完整连续的记录了通话方的交互内容。

如图6所示，本申请提供了一种语音通话识别装置，语音识别装置1包括：依次连接的通话模块11、音频模块12、语音识别模块13、处理模块14；以及与通话模块11和处理模块14连接的联系人模块15；联系人模块15用于读取通话模块11中的来电号码，并对来电号码进行命名、存储；或/和联系人模块15用于直接对用户设备输入、储存联系人信息；处理模块14用于将通话属性信息与所述文本结合，生成通话文本。将通话方的号码、上行音频流开始时间和持续时间对应于所述终端通话文本；将通话方来电号码、下行音频流开始时间和持续时间对应于所述通话方文本。

本申请设置有联系人模块15，通过在联系人模块15中直接录入联系人信息和电话号码，或者通过读取通话模块11中的电话号码新增联系人信息，如果来电号码与已有联系人信息匹配，则将接收到的通话文本直接显示于已有消息会话上或者新增的消息会话上。

如图7所示，本申请提供了一种语音通话识别装置，语音识别装置1包括：依次连接的通话模块11、音频模块12、语音识别模块13、处理模块14；通话模块11包括：一个能够收发信号的通信单元111、一个电连接通信单元111且能够解析出来电号码的解编码单元112。

本申请通过通信单元111接收联系人的电话，且通过解编码单元112对通话模块11的来电号码进行解析，实现了通话模块能够进行通话和解析来电号码的功能。

本申请提供了一种移动终端，包括上述的语音通话识别装置；该移动终端可具有通话开启辅助模式或普通通话模式的功能按钮，当检测到用户点击普通通话模式的功能按钮时，计算机程序可控制移动终端进入普通通话界面，其中，该普通通话模式可理解就是传统语音通话模式。

本申请的移动终端具有通话、解析来电号码、识别联系信息，对通话时上下行音频流进行语音识别转换成文本，然后结合时间信息及通话方信息将转换的文本注入消息模块来呈现给用户的功能。

本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明实施例提供了一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行上述任意方法实施例中的方法。

在本发明实施例中，将通话转换为文本，然后将依据各通话方的通话属性，将各通话方与对应的文本信息关联，并生成通话文本后呈现给用户。如此将通话方的信息交互及语音交互与通话属性信息整合起来，更加完整连续的记录了通话方的交互内容，以一种更加直观便捷的方式呈现给用户。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。应说明的是，在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

一种语音通话识别方法，其中，包括：

当发生通话时，识别所述通话中各通话方的语音流，并转换为相应的文本信息；

依据各通话方的通话属性，将各通话方与所述相应的文本信息关联，并生成通话文本；

显示所述通话文本。
根据权利要求1所述的语音通话识别方法，其中，所述识别所述通话中各通话方的语音流，并转换为相应的文本信息的方法包括：

获取所述通话中的至少一个上行音频流和至少一个下行音频流；

对所述上行音频流和所述下行音频流进行解析，转换为相应的文本信息。
根据权利要求1或2所述的语音通话识别方法，其中，所述通话属性包括电话号码；或/和

所述通话属性包括电话号码和语音开始时间；或/和

所述通话属性包括电话号码和语音持续时间；或/和

所述通话属性包括电话号码、通话开始时间和通话持续时间。
根据权利要求1或2所述的语音通话识别方法，其中，所述显示所述通话文本包括：

按照时间顺序，显示通话文本；或

逐一显示每个所述通话方的通话文本。
根据权利要求4所述的语音通话识别方法，其中，如果所述通话方存在消息会话，则将所述通话文本添加至已有所述消息会话上；

如果所述通话方与不存在消息会话，则新增消息会话，且所述通话文本显示于新增所述消息会话上。
根据权利要求1或2所述的语音通话识别方法，其中，在所述通话开始后，还包括：

识别所述通话方的来电号码；

将来电号码与本机终端存储的联系人信息进行匹配；

如果匹配成功，则将存储的所述联系人信息与所述通话属性信息、文本进行结合；

如果匹配失败，则直接将通话属性信息与所述文本结合。
根据权利要求1或2任一项所述的语音通话识别方法，其中，还包括：保存所述通话文本。
一种语音通话识别装置，其中，包括：语音识别装置和消息模块；

所述语音识别装置，用于当发生通话时，识别所述通话中各通话方的语音流，并转换为相应的文本信息；依据各通话方的通话属性，将各通话方与所述对应的文本信息关联，并生成通话文本；

所述消息模块，用于显示所述通话文本。
根据权利要求8所述的语音通话识别装置，其中，所述语音识别装置包括：依次连接的通话模块、音频模块、语音识别模块和处理模块；

所述通话模块用于识别通话方的来电号码、显示来电号码、接通电话、语音聊天，以及保存通话内容；

所述音频模块用于获取所述通话模块中语音聊天产生的至少一个上行音频流和至少一个下行音频流；

所述语音识别模块用于对所述音频模块获取的所述上行音频流和所述下行音频流进行解析，转换为相应的文本信息；

所述处理模块用于依据各通话方的通话属性，将各通话方与所述相应的文本信息关联，并生成通话文本。
一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。