WO2017167047A1

WO2017167047A1 - 音频消息的处理方法及装置

Info

Publication number: WO2017167047A1
Application number: PCT/CN2017/077257
Authority: WO
Inventors: 张达平; 张黎黎; 黄益信; 陈鋆; 赖建冬; 钟浩华
Original assignee: 阿里巴巴集团控股有限公司; 张达平; 张黎黎; 黄益信; 陈鋆; 赖建冬; 钟浩华
Priority date: 2016-03-29
Filing date: 2017-03-20
Publication date: 2017-10-05
Also published as: TW201737117A; CN105869654B; US11037568B2; CN105869654A; US12046242B2; US20210266280A1; TWI808936B; US20190027150A1

Abstract

一种音频消息的处理方法及装置，该方法包括：服务器识别通讯双方之间传输的通讯消息的类型（102）；当任一通讯消息的类型为音频类型时，所述服务器获取所述任一通讯消息，并预转换为相应的文字内容（104）；当确定任一通讯方存在对所述任一通讯消息的转换需求时，所述服务器向所述任一通讯方发送所述文字内容（106）。该方法可预先对音频消息进行文字转换，从而提升对用户的音频转换需求的响应速度。

Description

音频消息的处理方法及装置

技术领域

本申请涉及通讯技术领域，尤其涉及一种音频消息的处理方法及装置。

背景技术

通过安装有通讯应用的电子设备，用户之间可以实现通讯消息的收发，从而使用户间的沟通更为方便、快捷。

通常而言，通讯应用通过采集用户手动输入的文字，以作为通讯消息进行收发。然而，手动输入存在诸多方面的限制，比如用户需要双眼盯住电子设备的屏幕，则当用户处于驾驶状态时，手动输入可能带来极大的安全风险；再比如，当电子设备较大、无法单手握持时，用户需要双手同时握持并完成输入操作，则假定用户一只手提着重物时，将难以通过另一只手来完成手动输入。

在相关技术中，一些通讯应用通过添加音频输入功能，使得用户能够更为便捷地收发音频类型的通讯消息，而消除了上述限制。

发明内容

有鉴于此，本申请提供一种音频消息的处理方法及装置，可以预先对音频消息进行文字转换，从而提升对用户的音频转换需求的响应速度。

为实现上述目的，本申请提供技术方案如下：

根据本申请的第一方面，提出了一种音频消息的处理方法，包括：

服务器识别通讯双方之间传输的通讯消息的类型；

当任一通讯消息的类型为音频类型时，所述服务器获取所述任一通讯消息，并预转换为相应的文字内容；

当确定任一通讯方存在对所述任一通讯消息的转换需求时，所述服务器向所述任一通讯方发送所述文字内容。

根据本申请的第二方面，提出了一种音频消息的处理方法，包括：

本端通讯设备在接收到用户发出的针对音频类型的任一通讯消息的音频转换命令时，向服务器发起相应的音频转换请求；

本端通讯设备接收到所述服务器返回的所述任一通讯消息对应的文字内容，并与所述任一通讯消息进行关联展示；其中，所述文字内容由所述服务器在接收到所述音频转换请求之前主动预转换得到。

根据本申请的第三方面，提出了一种音频消息的处理方法，包括：

本端通讯设备预获取音频类型的任一通讯消息对应的文字内容；

当接收到用户发出的针对所述任一通讯消息的音频转换命令时，所述本端通讯设备示出预获取的所述文字内容。

根据本申请的第四方面，提出了一种音频消息的处理方法，包括：

在生成音频类型的通讯消息的过程中，本端通讯设备依次确定已采集到的每个音频片段是否符合预设切分规则；

当任一音频片段符合所述预设切分规则时，所述本端通讯设备将所述任一音频片段实时切分并上传至服务器，以由所述服务器将所述任一音频片段预转换为相应的文字片段，且所有音频片段对应的文字片段由所述服务器依次拼接为所述通讯消息对应的文字内容。

根据本申请的第五方面，提出了一种音频消息的处理装置，包括：

识别单元，使服务器识别通讯双方之间传输的通讯消息的类型；

预转换单元，当任一通讯消息的类型为音频类型时，使所述服务器获取所述任一通讯消息，并预转换为相应的文字内容；

发送单元，当确定任一通讯方存在对所述任一通讯消息的转换需求时，使所述服务器向所述任一通讯方发送所述文字内容。

根据本申请的第六方面，提出了一种音频消息的处理装置，包括：

请求单元，使本端通讯设备在接收到用户发出的针对音频类型的任一通讯消息的音频转换命令时，向服务器发起相应的音频转换请求；

展示单元，使本端通讯设备接收到所述服务器返回的所述任一通讯消息对应的文字内容，并与所述任一通讯消息进行关联展示；其中，所述文字内容由所述服务器在接收到所述音频转换请求之前主动预转换得到。

根据本申请的第七方面，提出了一种音频消息的处理装置，包括：

预获取单元，使本端通讯设备预获取音频类型的任一通讯消息对应的文字内容；

展示单元，当接收到用户发出的针对所述任一通讯消息的音频转换命令时，使所述本端通讯设备示出预获取的所述文字内容。

根据本申请的第八方面，提出了一种音频消息的处理装置，包括：

确定单元，在生成音频类型的通讯消息的过程中，使本端通讯设备依次确定已采集到的每个音频片段是否符合预设切分规则；

处理单元，当任一音频片段符合所述预设切分规则时，使所述本端通讯设备将所述任一音频片段实时切分并上传至服务器，以由所述服务器将所述任一音频片段预转换为相应的文字片段，且所有音频片段对应的文字片段由所述服务器依次拼接为所述通讯消息对应的文字内容。

根据本申请的第九方面，提出了一种音频消息的处理装置，包括：

当接收到任一通讯方针对任一音频消息的音频转换请求时，服务器确定与所述任一通讯方相关的未响应音频消息；

所述服务器分别获取所述任一音频消息和所述未响应音频消息对应的文字内容，并返回至所述任一通讯方。

根据本申请的第十方面，提出了一种音频消息的处理装置，包括：

当接收到用户针对任一音频消息发出的音频转换命令时，本端通讯设备分别确定所述任一音频消息对应的第一文字内容，以及所述任一音频消息之外的未响应音频消息对应的第二文字内容；

所述本端通讯设备分别将所述第一文字内容与所述任一音频消息、所述第二文字内容与所述未响应音频消息进行关联展示。

根据本申请的第十一方面，提出了一种音频消息的处理装置，包括：

确定单元，当接收到任一通讯方针对任一音频消息的音频转换请求时，使服务器确定与所述任一通讯方相关的未响应音频消息；

返回单元，使所述服务器分别获取所述任一音频消息和所述未响应音频消息对应的文字内容，并返回至所述任一通讯方。

根据本申请的第十二方面，提出了一种音频消息的处理装置，包括：

确定单元，当接收到用户针对任一音频消息发出的音频转换命令时，使本端通讯设备分别确定所述任一音频消息对应的第一文字内容，以及所述任一音频消息之外的未响应音频消息对应的第二文字内容；

展示单元，使所述本端通讯设备分别将所述第一文字内容与所述任一音频消息、所述第二文字内容与所述未响应音频消息进行关联展示。

由以上技术方案可见，本申请通过预先对音频消息进行文字转换，使得用户存在音频转换需求时，能够立即反馈相应的文字内容，而无需在翻译过程中进行等待，有助于加快对用户需求的响应速度，从而提升用户的应用体验。

附图说明

图1是本申请一示例性实施例提供的一种基于服务器侧的音频消息的处理方法的流程图。

图2是本申请一示例性实施例之一提供的一种基于通讯设备侧的音频消息的处理方法的流程图。

图3是本申请一示例性实施例之二提供的一种基于通讯设备侧的音频消息的处理方法的流程图。

图4是本申请一示例性实施例提供的一种音频消息的处理方法的流程图。

图5-8是本申请一示例性实施例提供的一种基于接收方侧的通讯应用的界面示意图。

图9是本申请一示例性实施例提供的一种基于发送方侧的通讯应用的界面示意图。

图10是本申请一示例性实施例之三提供的一种基于通讯设备侧的音频消息的处理方法的流程图。

图11是本申请一示例性实施例提供的另一种音频消息的处理方法的流程图。

图12是本申请一示例性实施例提供的又一种音频消息的处理方法的流程图。

图13是本申请一示例性实施例提供的又一种音频消息的处理方法的流程图。

图14是本申请一示例性实施例提供的另一种基于服务器侧的音频消息的处理方法的流程图。

图15是本申请一示例性实施例之四提供的一种基于通讯设备侧的音频消息的处理方法的流程图。

图16是本申请一示例性实施例提供的一种电子设备的结构示意图。

图17是本申请一示例性实施例提供的一种基于服务器侧的音频消息的处理装置的框图。

图18是本申请一示例性实施例之一提供的一种基于通讯设备侧的音频消息的处理装置的框图。

图19是本申请一示例性实施例之二提供的一种基于通讯设备侧的音频消息的处理装置的框图。

图20是本申请一示例性实施例之三提供的一种基于通讯设备侧的音频消息的处理装置的框图。

图21是本申请一示例性实施例之四提供的一种基于通讯设备侧的音频消息的处理装置的框图。

图22是本申请一示例性实施例之五提供的一种基于通讯设备侧的音频消息的处理装置的框图。

具体实施方式

当用户采用音频类型的通讯消息时，存在一定的场景限制。举例而言，当用户在会议中接收到音频类型的通讯消息时，除非用户佩戴有蓝牙耳机或其他可穿戴设备，否则可能由于无法及时收听该通信消息而造成相关事件的贻误。

为了解决音频类型的通讯消息存在的上述问题，相关技术中提出了对音频消息的文字转换，具体而言：用户在接收到音频类型通讯消息时，如果不方便接听，可以向服务器发起针对该通讯消息的音频转换请求，则服务器可以主动识别音频数据，并将转换得到的文字内容返回给用户，便于用户阅读。

然而，服务器对通讯消息的音频转换操作需要一定时间，使得用户在向服务器发出音频转换请求之后，需要等待较长时间才能够看到转换后的文字内容，一方面造成用户的长时间等待，增添了用户情绪的焦虑感，另一方面造成用户长时间不回复的现象，使通讯消息的发送方用户长时间无法得到反馈，不仅影响用户的应用体验，而且造成了用户之间的沟通效率的极大降低。

因此，本申请通过对音频消息的处理过程进行改进，以解决相关技术中的上述技术问题。为对本申请进行进一步说明，提供下列实施例：

图1是本申请一示例性实施例提供的一种基于服务器侧的音频消息的处理方法的流程图，如图1所示，该方法可以包括：

步骤102，服务器识别通讯双方之间传输的通讯消息的类型。

步骤104，当任一通讯消息的类型为音频类型时，所述服务器获取所述任一通讯消息，并预转换为相应的文字内容。

步骤106，当确定任一通讯方存在对所述任一通讯消息的转换需求时，所述服务器向所述任一通讯方发送所述文字内容。

在本实施例中，服务器可以主动判定通讯方对音频消息的转换需求；比如，当任一通讯方在通讯过程中属于预设通讯角色时，服务器可以判定该任一通讯方存在转换需求，并发送相应的文字内容。举例而言，服务器可以预定义为默认接收方存在转换需求，从而只要存在音频消息时，服务器总是预先转换出相应的文字内容，并主动发送给接收方的通讯设备。

在该实施例中，通过由服务器的预转换处理，并将文字内容主动发送给通讯设备，使得相应的通讯方确实需要执行音频转换时，该通讯设备可以直接调取并展示出已经存储于本地的文字内容，而无需从服务器上实时下载，从而即便当时网络状况不佳，也不影响对音频消息的文字内容展示，即降低了对实时网络状况的需求。

在本实施例中，服务器可以根据通讯方的请求情况，判定其是否存在转换需求；比如，当接收到任一通讯方针对任一通讯消息的音频转换请求时，服务器可以判定该任一通讯方存在转换需求，并向该任一通讯方返回该任一通讯消息对应的预转换的文字内容。

在该实施例中，服务器仅在通讯方确实存在需求时，才返回相应的文字内容；通过对通讯方的真实需求的准确判断，可以减少服务器与通讯设备之间的交互次数，降低服务器与通讯设备之间的通讯数据量，这一方面有助于降低通讯设备的功耗，另一方面对于采用无线移动通讯网络的通讯设备而言，可以减少无线流量的消耗，避免给用户造成不必要的费用损失。

由上述实施例可知，在本申请的技术方案中，服务器可以在用户提出音频转换需求之前，主动且预先对音频消息进行转换并得到相应的文字内容，因而当服务器接收到来自用户的音频转换需求时，可以立即将文字内容返回至用户，而无需用户等待服务器对音频消息进行转换，极大地缩短了接收方用户的等待时间，也缩短了对端的发送方用户收到反馈的等待时间，从而不仅提升了通讯双方的用户体验，而且极大地提升通讯双方之间的通讯效率。

对应于图1所示的实施例，在用户采用的通讯设备处存在多种相应的实施例，下面进行举例说明：

图2是本申请一示例性实施例之一提供的一种基于通讯设备侧的音频消息的处理方法的流程图，如图2所示，该方法可以包括：

步骤202，本端通讯设备在接收到用户发出的针对音频类型的任一通讯消息的音频转换命令时，向服务器发起相应的音频转换请求。

步骤204，本端通讯设备接收到所述服务器返回的所述任一通讯消息对应的文字内容，并与所述任一通讯消息进行关联展示；其中，所述文字内容由所述服务器在接收到所述音频转换请求之前主动预转换得到。

在本实施例中，本端通讯设备基于用户发出的音频转换命令，主动向服务器发起音频转换请求，以表明其对于音频转换的切实需求，并由服务器相应返回其所需的文字内容。

由上述实施例可知，在本申请的技术方案中，基于服务器主动且预先对音频消息的预转换处理，本端通讯设备基于用户的音频转换命令而向服务器发起音频转换请求时，可以立即从服务器处获得相应的文字内容，不需要等待服务器对音频消息进行实时转换，有助于提升通讯双方的用户体验，而且极大地提升通讯双方之间的通讯效率。

图3是本申请一示例性实施例之二提供的一种基于通讯设备侧的音频消息的处理方法的流程图，如图3所示，该方法可以包括：

步骤302，本端通讯设备预获取音频类型的任一通讯消息对应的文字内容。

在本实施例中，本端通讯设备可以从服务器处预获取文字内容，该文字内容由该服务器预转换得到。其中，该文字内容可以由服务器主动推送至本端通讯设备；或者，本端通讯设备在确定与对端通讯设备之间传输的通讯消息的类型时，若确定任一通讯消息的类型为音频类型，则可以向服务器发起音频转换请求，以获得服务器预转换处理得到的文字内容。在该实施例中，通过利用服务器执行预转换处理，既能够充分利用服务器强大的处理能力，提升对音频消息的预转换处理的执行效率，又可以降低对本端通讯设备的处理性能需求和处理资源占用，从而降低本端通讯设备的功耗。

在本实施例中，本端通讯设备可以自行对任一通讯消息进行预转换处理，得到该文字内容；换言之，即本端通讯设备对音频消息的本地预转换处理。比如，本端通讯设备在确定与对端通讯设备之间传输的通讯消息的类型时，若确定任一通讯消息的类型为音频类型，则可以执行该本地预转换处理，以得到相应的文字内容。在该实施例中，通过采用本地预转换处理，可以消除或降低对网络的需求，从而适用于更多应用场景。

步骤304，当接收到用户发出的针对所述任一通讯消息的音频转换命令时，所述本端通讯设备示出预获取的所述文字内容。

由上述实施例可知，在本申请的技术方案中，本端通讯设备通过对文字内容的预获取，使得在用户发出音频转换命令时，本端通讯设备可以直接获取并展示出相应的文字内容，而无需用户在转换过程中进行等待，有助于提升通讯效率。同时，通过将文字内容预获取在本端通讯设备的本地，使得用户可以在发出音频转换命令时，不存在对网络环境的需求，那么即便本端通讯设备并未连接至网络，用户仍然可以查看到相应音频消息的文字内容，适合于用户在一些特殊场景下对于历史通讯消息的查阅。

下面结合通讯过程中涉及到的发送方、接收方和服务端之间的交互过程，对本申请的技术方案进行详细描述；其中，图4是本申请一示例性实施例提供的一种音频消息的处理方法的流程图，如图4所示，该方法可以包括以下步骤：

步骤402，服务器获取通讯双方之间传输的通讯消息。

在本实施例中，通讯双方在本申请的技术方案中完全对等，即每个通讯方均可以作为图4所示的发送方或接收方；因而在图4所示的实施例中，实际上是针对通讯双方之间的任一次通讯过程，确定出相应的发送方和接收方，并用于对本申请的技术方案进行举例说明。

步骤404，服务器对通讯消息进行类型识别。

在本实施例中，通讯消息可以包括很多类型，本申请中可以将任意包含音频数据的通讯消息判定为音频类型，即音频消息，比如语音消息、视频消息等；下面结合的通讯应用的界面示意图中，以基于语音消息的音频消息为例进行说明，但本申请并不对此进行限制。

步骤406，服务器对音频类型的通讯消息(即音频消息)进行预转换处理，得到相应的文字内容。

在本实施例中，服务器可以采用相关技术中的任意方式，对音频消息进行预转换处理，并得到相应的文字内容。

需要说明的是，服务器在检测到某条通讯消息为音频类型之后，即可在任意恰当的时刻执行预转换处理，以得到相应的文字内容，只要能够确保该预转换处理在步骤408之前完成即可。换言之，服务器对音频消息的预转换处理，与用户对该音频消息发起的音频转换命令无关，该预转换处理是由服务器预先、主动完成的。

因此，当用户向服务器发起对音频消息的音频转换命令时，服务器可以立即将已经预转换得到的文字内容提供至该用户，而无需服务器实时执行消息转换，避免了通讯双方的长时间等待，有助于提升通讯效率。

步骤408，服务器接收到接收方针对该音频消息的音频转换请求。

在本实施例中，与该音频消息相关的每个通讯方，比如图4所示的发送方、接收方等，均可以发出音频转换命令，并由相应的电子设备向服务器发起音频转换请求(也可以理解为发送方或接收方等用户向服务器发起音频转换请求)；此处以接收方发起音频转换请求为例进行说明。

假定用户“小白”与用户“小黑”之间实现通讯；其中，本申请并不限制两者采用的通讯应用的类型，该通讯应用可以为即时通讯应用，比如该即时通讯应用可以为企业即时通讯应用(Enterprise Instant Messaging，EIM)，例如“钉钉(DING Talk)”等。如图5所示，假定用户“小白”向用户“小黑”发送了若干条音频消息，则用户“小黑”可以通过长按(或重压等其他触发方式)希望查看的音频消息，以调起图6所示的功能选项菜单，该功能选项菜单中包含“听筒播放”、“收藏”、“转文字”、“删除”等功能选项，则当用户“小黑”选取“转文字”功能选项后，可以判定为向电子设备发出了针对相应音频消息的音频转换命令，并由该电子设备向服务器发起相应的音频转换请求。

步骤410，服务器确定其他音频消息的响应状态。

步骤412，服务器将音频消息对应的文字内容发送至接收方。

步骤414，接收方对接收到的文字内容进行展示。

在一示例性实施例中，当不包含上述的步骤410时，服务器可以直接确定出用户“小黑”在图5中选中的长度为12s的音频消息对应的文字内容，并将该文字内容返回至用户“小黑”，以展示于用户“小黑”。

用户“小黑”采用的电子设备在接收服务器返回的文字内容后，可以对相应的音频消息的展示区域进行扩展；其中，扩展后的展示区域被划分为第一区域和第二区域；该第一区域用于示出相应的音频消息、该第二区域用于示出该音频消息对应的文字内容。比如图7所示，假定总共包含三条音频消息，而用户“小黑”触发了最上方的一条音频消息，则该音频消息对应的展示区域(该展示区域可以为图7所示的“气泡框”形式；当然，本申请并不对此进行限制)可以向下方扩展，则扩展后的展示区域被划分为相当于第一区域的上侧区域，以及相当于第二区域的下侧区域，其中上侧区域用于展示该音频消息的示意性图标，而下侧区域用于展示该音频消息对应的文字内容，比如“我现在不方便打字，直接语音吧”等。当然，本领域技术人员还可以采用其他方式对扩展区域进行功能划分，本申请并不对此进行限制。

在另一示例性实施例中，本申请的实施例中可以包含上述的步骤410；相应的，在本申请的技术方案中，服务器可以确定通讯双方对传输的通讯消息的响应状态；那么，针对上述的音频消息，当接收到任一通讯方针对该音频消息发起的音频转换请求时，若存在与该任一通讯方相关的其他消息的响应状态为未响应，且该其他消息为音频类型时，服务器在步骤412中除了返回上述音频消息对应的文字内容之外，还可以返回该其他消息对应的文字内容。当然，该其他消息对应的文字内容，也是由服务器主动、预先通过预转换处理而得到，并不需要通讯方等待服务器实时执行转换。

那么，如图5所示，当用户“小黑”仅针对第一条音频消息发起音频转换请求时，若同时存在第二条音频消息和第三条音频消息，且两者均为未响应状态，则无需用户“小黑”一一手动发起音频转换请求，服务器即可主动下发所有三条音频消息对应的文字内容；相应的，如图8所示，用户“小黑”采用的电子设备可以分别对三条音频消息的展示区域进行扩展，并示出相应的文字内容，包括“我现在不方便打字，直接语音吧”、“关于上次的合同报价”、“再提高三个点”等，从而一方面可以简化用户“小黑”的触发操作(即发出音频转换命令，或发起音频转换请求)，通过一次触发即可实现对所有未响应的音频消息的查看，另一方面可以帮助用户“小黑”对多条未响应的音频消息进行同时查看，这相比于分别单独查看每一条音频消息对应的文字内容，显然具有更佳的可读性和阅读连贯性，便于用户“小黑”对用户“小白”的通讯意图的理解，有助于提升通讯效率。

在又一示例性实施例中，除了服务器通过步骤410等来确定每条通讯消息的响应状态之外，可以由接收方对每条通讯消息的响应状况进行确定和处理。比如，接收方采用的电子设备可以确定该接收方对已接收的音频类型的通讯消息的响应状态；其中，当接收到该接收方发出的针对任一音频消息的音频转换命令时，若存在除该任一音频消息之外的音频类型的未响应通讯消息，则该电子设备在向服务器发起的音频转换请求，该音频转换请求不仅与该任一音频消息相关(即可以用于获取该任一音频消息对应的文字内容)，还与其他的未响应通讯消息相关(即可以用于获取该其他的未响应通讯消息对应的文字内容)。比如，当用户“小黑”在电子设备上触发图5中的第一条音频消息后，该电子设备检测到还存在第二条音频消息、第三条音频消息，且两条音频消息的响应状态均为未响应，则该电子设备向服务器发起针对这三条音频消息的音频转换请求，从而同时获得服务器返回的这三条音频消息的文字内容，并通过如图8所示的方式进行展示，可参考上述实施例，此处不再赘述。

步骤416，服务器将该音频消息的已响应状态告知发送方。

在本实施例中，如图5所示，可以通过在通讯消息附近展示一黑色圆点，以表示其处于未响应状态。当用户“小黑”通过触发第一条音频消息而发出相应的音频转换请求后，用户“小黑”的电子设备可以判定为该音频消息被响应，从而如图7所示消除了第一条音频消息附近的黑色圆点。

同时，如图9所示，用户“小白”发出每条通讯消息后，用户“小白”的电子设备上分别在每条通讯消息附近标示出其响应状态，比如“已读”对应于已响应状态、“未读”对应于未响应状态。那么，服务器在接收到用户“小黑”针对第一条音频消息的音频转换请求，并将预转换的相应文字内容返回给用户“小黑”之后，可以判定为该第一条音频消息由未响应状态切换至已响应状态，从而向该已响应状态告知给作为发送方的用户“小白”，因而图9中的第一条音频消息附近标示出“已读”，而第二条、第三条音频消息附近仍然标示为“未读”。当然，对应于图8所示的实施例，当用户“小黑”虽然仅针对第一条音频消息发起音频转换请求，但是基于服务器向用户“小黑”返回了全部三条音频消息对应的文字内容时，服务器可以认为三条音频消息均对应于已响应状态，并告知给用户“小白”的电子设备，以使其在三条音频消息附近均标示“已读”。

图10是本申请一示例性实施例之三提供的一种基于通讯设备侧的音频消息的处理方法的流程图，如图10所示，该方法可以包括：

步骤1002，在生成音频类型的通讯消息的过程中，本端通讯设备依次确定已采集到的每个音频片段是否符合预设切分规则。

步骤1004，当任一音频片段符合所述预设切分规则时，所述本端通讯设备将所述任一音频片段实时切分并上传至服务器。

在本实施例中，服务器依次接收到该本端通讯设备按照预设规则实时切分并上传的音频片段，并分别将每个音频片段预转换为相应的文字片段；然后，服务器将所有文字片段依次拼接，得到整条音频消息对应的文字内容。

在本实施例中，切分规则可以采用多种形式，比如基于时间长度、基于音频片段的数据量等多个维度中的一个或多个维度相结合。举例而言，当采用基于时间长度的切分规则时，假定整条音频消息共12s，而预定义的切分时长为2s，则每当达到2s时即可执行实时切分操作，并将该2s的音频片段上传至服务器，且服务器可以随即执行预转换处理，得到相应的文字片段；那么，整条音频一共可以得到6个音频片段，以及相应的6个文字片段，然后由服务器将其整合拼接为对应于整条音频消息对应的文字内容。

在本实施例中，通过由发送方的电子设备(即上述的本端通讯设备)对音频消息的实时切分与上传，使得发送方在输入该音频消息的同时，服务器能够几乎不存在延迟地获得相应的音频片段，并随即执行对各个音频片段的预转换处理，相比于将音频消息完成输入后完整地上传至服务器，可使服务器更为迅速地完成对音频消息的预转换处理并得到相应的文字内容，从而即便接收方在接收到该音频消息后马上发起音频转换请求，服务器也能够确保在接收到该音频转换请求之前完成预转换处理，从而在接收到音频转换请求后立即返回相应的文字内容，那么通讯双方在通讯过程中，既可以通过音频输入而避免手动打字时的低效率和误输入问题，还解决了音频转换为文字时的延迟等待问题，即同时兼顾了音频输入时的快捷方便和文字交流时的无延迟，有助于提升通讯双方之间的沟通效率。

图11是本申请一示例性实施例提供的另一种音频消息的处理方法的流程图，如图11所示，该方法可以包括以下步骤：

步骤1102，服务器获取通讯双方之间传输的通讯消息。

步骤1104，服务器对通讯消息进行类型识别。

步骤1106，服务器对音频类型的通讯消息(即音频消息)进行预转换处理，得到相应的文字内容。

在本实施例中，步骤1102-1106可参考图4所示实施例中的步骤402-406，此处不再赘述。

步骤1108，服务器将音频消息对应的文字内容发送至接收方。

在本实施例中，服务器默认为接收方对所有音频消息均存在音频转换需求，因而不仅通过预转换处理得到所有音频消息对应的文字内容，而且主动将文字内容推送至接收方。

步骤1110，接收方的通讯设备接收到该接收方针对该音频消息的音频转换命令。

步骤1112，接收方的通讯设备确定其他音频消息的响应状态。

步骤1114，接收方的通讯设备对文字内容进行展示。

在本实施例中，在接收方发起音频转换命令之前，服务器已经预转换处理得到相应的文字内容，并主动推送至该接收方的通讯设备上；换言之，可以认为接收方的通讯设备在接收到音频转换命令之前，已经对音频消息对应的文字内容进行了“预获取”。因此，当接收方发起音频转换命令后，该通讯设备可以立即获得并展示出相应的文字内容，而无需接收方等待。

同时，相比于图4所示的实施例，本实施例通过将文字内容预获取至通讯设备的本地，使得该通讯设备在接收到音频转换命令后，直接从本地调取相应的文字内容即可，不存在对网络环境的需求。因此，对于一些场景下，比如用户希望在无网络环境下，对历史通讯消息中的音频消息进行文字转换时，图11由于不需要网络支持而仍然可以满足用户需求。

在本实施例中，与图4所示的步骤410相类似的，除了接收方直接发起音频转换命令的音频消息之外，若存在其他处于未响应状态的音频消息，该通讯设备可以一并对这些音频消息的文字内容进行展示，此处不再赘述。

步骤1116，接收方的通讯设备将执行了文字内容展示的音频消息标记为已响应状态，将该已响应状态告知服务器，并由服务器告知发送方。

在本实施例中，通讯设备可以将音频消息的已响应状态添加至响应状态切换通知，将该响应状态切换通知发送至服务器，并由服务器将其转发至发送方，从而在发送方的通讯设备上对相应的音频消息进行正确标记。

图12是本申请一示例性实施例提供的又一种音频消息的处理方法的流程图，如图12所示，该方法可以包括以下步骤：

步骤1202，通讯双方执行通讯消息的收发操作。

步骤1204，接收方的通讯设备对通讯消息进行类型识别。

步骤1206，当识别出音频消息时，接收方的通讯设备向服务器发起音频转换请求。

步骤1208，服务器对音频类型的通讯消息(即音频消息)进行预转换处理，得到相应的文字内容。

步骤1210，服务器将音频消息对应的文字内容发送至接收方。

在本实施例中，音频转换请求是由通讯设备主动向服务器发起的，而并非基于接收方发出的音频转换命令而发起；换言之，在接收方切实发出音频转换命令之前，该通讯设备通过主动向服务器发起音频转换请求，使得服务器执行预转换处理并得到相应的文字内容，即该通讯设备实现了对音频消息对应的文字内容的“预获取”操作。因此，当接收方发起音频转换命令后，该通讯设备可以立即获得并展示出相应的文字内容，而无需接收方等待。

同时，相比于图11所示实施例，本实施例中的通讯设备通过对通讯消息进行类型识别，主动向服务器发起音频转换请求，以触发服务器执行预转换处理，而非服务器自行启动预转换处理，从而使得该通讯设备分担了“类型识别”功能的执行过程，降低了服务器的处理负荷。

步骤1212，接收方的通讯设备接收到该接收方针对该音频消息的音频转换命令。

步骤1214，接收方的通讯设备确定其他音频消息的响应状态。

步骤1216，接收方的通讯设备对文字内容进行展示。

步骤1218，接收方的通讯设备将执行了文字内容展示的音频消息标记为已响应状态，将该已响应状态告知服务器，并由服务器告知发送方。

在本实施例中，步骤1212-1218可参考图11所示实施例中的步骤1110-1116，此处不再赘述。

图13是本申请一示例性实施例提供的又一种音频消息的处理方法的流程图，如图13所示，该方法可以包括以下步骤：

步骤1302，通讯双方执行通讯消息的收发操作。

步骤1304，接收方的通讯设备对通讯消息进行类型识别。

步骤1306，当识别出音频消息时，接收方的通讯设备对音频类型的通讯消息(即音频消息)进行预转换处理，得到相应的文字内容。

在本实施例中，接收方的通讯设备主动识别通讯消息的类型，并在确定为音频消息时，还主动完成对该音频消息的预转换处理，以得到相应的文字内容。那么，当网络环境差或无网络时，接收方的通讯设备仍然可以“预获取”音频消息的文字内容，使得接收方发出音频转换命令时，能够及时展示出该文字内容，避免接收方等待。

当网络环境不稳定时，通讯设备在接收到音频消息后，若依赖于服务器来执行预转换处理，则由于网络环境不稳定而可能导致通讯设备无法顺利向服务器发起音频转换请求，或者服务器无法将预转换处理的文字内容顺利发送至该通讯设备，那么可能导致接收方在发起音频转换命令之前，该通讯设备无法预获取到相应的文字内容，造成接收方需要实时向服务器发起音频转换请求，无疑增加了用户等待时间。

实际上，当网络环境不稳定时，通过本申请中任一实施例的预转换处理(或预获取)方案，即无论对音频消息的预转换处理在服务器或通讯设备上执行，均可以优化用户的使用体验。比如，当预转换处理在服务器上实现时，通过预先获得文字内容，那么在用户发起音频转换命令之前，服务器与通讯设备可以获得更多时间和机会来传输该文字内容，避免用户实时请求转换时，由于网络原因造成文字内容无法传输或反复出现传输失败的情况。

步骤1308，接收方的通讯设备接收到该接收方针对该音频消息的音频转换命令。

步骤1310，接收方的通讯设备确定其他音频消息的响应状态。

步骤1312，接收方的通讯设备对文字内容进行展示。

步骤1314，接收方的通讯设备将执行了文字内容展示的音频消息标记为已响应状态，将该已响应状态告知服务器，并由服务器告知发送方。

在本实施例中，步骤1308-1314可参考图11所示实施例中的步骤1110-1116，此处不再赘述。

图14是本申请一示例性实施例提供的一种基于服务器侧的音频消息的处理方法的流程图，如图14所示，该方法应用于服务器，可以包括以下步骤：

步骤1402，当接收到任一通讯方针对任一音频消息的音频转换请求时，服务器确定与所述任一通讯方相关的未响应音频消息。

步骤1404，所述服务器分别获取所述任一音频消息和所述未响应音频消息对应的文字内容，并返回至所述任一通讯方。

在本实施例中，服务器在接收到针对任一音频消息的音频转换请求时，主动相关联的其他未响应音频消息，使得用户无需针对每一音频消息分别发起音频转换，即可获得所有未响应音频消息对应的文字内容，从而极大地简化了用户操作。尤其是，当用户不便于触发对音频消息的音频转换命令时，比如用户一只手提着重物、仅能够通过另一只手操作，通过本申请的技术方案，用户仅需要对一条音频消息发起音频转换命令，即可读取所有音频消息对应的文字内容；再者，当多条音频消息之间的内容关联性较大时，通过将多条音频消息的文字内容主动呈现给用户，便于用户将多条音频消息的内容和逻辑相互串通，有助于提升阅读和沟通效率。

在本实施例的一种情况下，服务器可以对所有音频消息进行预转换并得到相应的文字内容，则当接收到音频转换请求时，服务器只需分别查找到上述的任一音频消息和未响应音频消息对应的预转换的文字内容即可；该场景下的技术方案可参考图4所示实施例的步骤410等，此处不再赘述。

在本实施例的另一种情况下，服务器可以在接收到音频转换请求后，分别将任一音频消息和未响应音频消息分别实时转换为对应的文字内容，并返回给用户进行展示；其中，对于每一单独音频消息的转换处理，可以参考相关技术中的处理过程，此处不再赘述。

图15是本申请一示例性实施例之一提供的一种基于通讯设备侧的音频消息的处理方法的流程图，如图15所示，该方法应用于通讯设备，可以包括以下步骤：

步骤1502，当接收到用户针对任一音频消息发出的音频转换命令时，本端通讯设备分别确定所述任一音频消息对应的第一文字内容，以及所述任一音频消息之外的未响应音频消息对应的第二文字内容。

步骤1504，所述本端通讯设备分别将所述第一文字内容与所述任一音频消息、所述第二文字内容与所述未响应音频消息进行关联展示。

在本实施例中，与图14所示实施例相类似的，由通讯设备在接收到音频转换命令时，除了该音频转换命令针对的任一音频消息，该通讯设备还主动确定出该音频转换命令未针对的未响应音频消息，并通过将两者分别对应的第一文字内容和第二文字内容进行展示，以便于简化用户操作，并有助于提升阅读和沟通效率，此处不再赘述。

一方面，从对音频消息的转换时机而言，通讯设备可以在接收到音频转换命令之前，预获取第一文字内容和第二文字内容，该过程可以参考图3所示实施例中的步骤302，此处不再赘述；或者，通讯设备可以在接收到音频转换命令之后，实时获取第一文字内容和第二文字内容。

另一方面，无论是采用预获取或实时获取，通讯设备均可以通过下述任一方式获取第一文字内容和第二文字内容：

第一种方式下，通讯设备可以主动将任一音频消息和未响应音频消息转换为第一文字内容和第二文字内容；当通讯设备采用预转换的处理方式时，该过程与图13所示实施例中的步骤1306相似，此处不再赘述。

第二种方式下，通讯设备可以向服务器发起音频转换请求，以获得服务器返回的第一文字内容和第二文字内容。其中，第一文字内容和第二文字内容可以由服务器根据音频转换请求进行实时转换得到，即服务器在接收到音频转换请求后才执行音频转换操作，该过程与图12所示实施例中的步骤1208相似，此处不再赘述；或者，第一文字内容和第二文字内容也可以由服务器预转换得到，该过程与图4所示实施例中的步骤406相似，此处不再赘述。

图16示出了根据本申请的一示例性实施例的电子设备的示意结构图。请参考图16，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成音频消息的处理装置。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在一实施例中，请参考图17，在软件实施方式中，该音频消息的处理装置可以包括识别单元、预转换单元和发送单元。其中：

可选的，所述发送单元具体用于：

当所述任一通讯方在通讯过程中属于预设通讯角色时，使所述服务器判定所述任一通讯方存在所述转换需求，并发送所述文字内容。

可选的，所述发送单元具体用于：

当接收到任一通讯方针对所述任一通讯消息的音频转换请求时，使所述服务器判定所述任一通讯方存在所述转换需求，并向所述任一通讯方返回所述任一通讯消息对应的预转换的所述文字内容。

可选的，还包括：

确定单元，使所述服务器确定通讯双方对传输的通讯消息的响应状态；

返回单元，当接收到任一通讯方针对所述任一通讯消息的音频转换请求时，若存在与所述任一通讯方相关的音频类型的未响应通讯消息，则使所述服务器还向所述任一通讯方返回所有音频类型的未响应通讯消息对应的预转换的文字内容。

可选的，还包括：

判定单元，在向所述任一通讯方返回所述任一通讯消息对应的预转换的所述文字内容之后，使所述服务器判定所述任一通讯消息切换至已响应状态；

告知单元，使所述服务器将所述已响应状态告知所述任一通讯消息的发送方。

可选的，所述预转换单元具体用于：

使所述服务器依次接收通讯方按照预设规则实时切分并上传的音频片段，并分别将每个音频片段预转换为相应的文字片段；

所述服务器将所有文字片段依次拼接，得到所述文字内容。

在一实施例中，请参考图18，在软件实施方式中，该音频消息的处理装置可以包括请求单元和展示单元。其中：

可选的，还包括：

确定单元，使所述本端通讯设备确定所述用户对已接收的音频类型的通讯消息的响应状态；

其中，当接收到所述用户发出的针对所述任一通讯消息的音频转换命令时，若存在所述任一通讯消息之外的音频类型的未响应通讯消息，则所述音频转换请求还与所述未响应通讯消息相关。

可选的，还包括：

扩展单元，使所述本端通讯设备在接收所述服务器返回的文字内容后，对相应的通讯消息的展示区域进行扩展；

其中，扩展后的展示区域被划分为第一区域和第二区域；所述第一用于示出相应的通讯消息、所述第二区域用于示出所述通讯消息对应的文字内容。

在一实施例中，请参考图19，在软件实施方式中，该音频消息的处理装置可以包括预获取单元和展示单元。其中：

可选的，所述预获取单元具体用于：

使所述本端通讯设备从服务器处预获取所述文字内容，所述文字内容由所述服务器预转换得到；

或者，使所述本端通讯设备对所述任一通讯消息进行预转换处理，得到所述文字内容。

可选的，所述预获取单元具体用于：

使所述本端通讯设备接收到服务器推送的所述文字内容；

或者，使所述本端通讯设备在确定与对端通讯设备之间传输的通讯消息的类型时，若确定所述任一通讯消息的类型为音频类型，则预获取所述任一通讯消息对应的文字内容。

可选的，当接收到用户发出的针对所述任一通讯消息的音频转换命令时，若存在处于未响应状态的音频类型的其他通讯消息，则所述展示单元还使所述本端通讯设备分别示出所述其他通讯消息对应的预获取的文字内容。

可选的，还包括：

通知单元，使所述本端通讯设备在分别示出所述其他通讯消息对应的预获取的文字内容之后，向服务器发出对应于所述其他通讯消息的响应状态切换通知，以由所述服务器将所述其他通讯消息的已响应状态告知对应的发送方。

在一实施例中，请参考图20，在软件实施方式中，该音频消息的处理装置可以包括确定单元和处理单元。其中：

在一实施例中，请参考图21，在软件实施方式中，该音频消息的处理装置可以包括确定单元和返回单元。其中：

可选的，所述返回单元具体用于：

使所述服务器分别将所述任一音频消息和所述未响应音频消息转换为对应的文字内容；

或者，使所述服务器分别查找到所述任一音频消息和所述未响应音频消息对应的预转换的文字内容。

在一实施例中，请参考图22，在软件实施方式中，该音频消息的处理装置可以包括确定单元和展示单元。其中：

可选的，还包括：

预获取单元，在接收到所述音频转换命令之前，使所述本端通讯设备预获取所述第一文字内容和所述第二文字内容；

或者，实时获取单元，在接收到所述音频转换命令之后，使所述本端通讯设备实时获取所述第一文字内容和所述第二文字内容。

可选的，还包括：

主动转换单元，使所述本端通讯设备主动将所述任一音频消息和所述未响应音频消息转换为所述第一文字内容和所述第二文字内容；

或者，请求单元，使所述本端通讯设备向服务器发起音频转换请求，以获得所述服务器返回的所述第一文字内容和所述第二文字内容；其中，所述第一文字内容和所述第二文字内容由所述服务器根据所述音频转换请求进行实时转换得到，或者由所述服务器预转换得到。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

一种音频消息的处理方法，其特征在于，包括：

服务器识别通讯双方之间传输的通讯消息的类型；

当任一通讯消息的类型为音频类型时，所述服务器获取所述任一通讯消息，并预转换为相应的文字内容；

当确定任一通讯方存在对所述任一通讯消息的转换需求时，所述服务器向所述任一通讯方发送所述文字内容。
根据权利要求1所述的方法，其特征在于，所述当确定任一通讯方存在对所述任一通讯消息的转换需求时，所述服务器向所述任一通讯方发送所述文字内容，包括：

当所述任一通讯方在通讯过程中属于预设通讯角色时，所述服务器判定所述任一通讯方存在所述转换需求，并发送所述文字内容。
根据权利要求1所述的方法，其特征在于，所述当确定任一通讯方存在对所述任一通讯消息的转换需求时，所述服务器向所述任一通讯方发送所述文字内容，包括：

当接收到任一通讯方针对所述任一通讯消息的音频转换请求时，所述服务器判定所述任一通讯方存在所述转换需求，并向所述任一通讯方返回所述任一通讯消息对应的预转换的所述文字内容。
根据权利要求3所述的方法，其特征在于，还包括：

所述服务器确定通讯双方对传输的通讯消息的响应状态；

当接收到任一通讯方针对所述任一通讯消息的音频转换请求时，若存在与所述任一通讯方相关的音频类型的未响应通讯消息，则所述服务器还向所述任一通讯方返回所有音频类型的未响应通讯消息对应的预转换的文字内容。
根据权利要求3所述的方法，其特征在于，还包括：

在向所述任一通讯方返回所述任一通讯消息对应的预转换的所述文字内容之后，所述服务器判定所述任一通讯消息切换至已响应状态；

所述服务器将所述已响应状态告知所述任一通讯消息的发送方。
根据权利要求1所述的方法，其特征在于，所述服务器获取所述任一通讯消息，并预转换为相应的文字内容，包括：

所述服务器依次接收通讯方按照预设规则实时切分并上传的音频片段，并分别将每个音频片段预转换为相应的文字片段；

所述服务器将所有文字片段依次拼接，得到所述文字内容。
一种音频消息的处理方法，其特征在于，包括：

本端通讯设备在接收到用户发出的针对音频类型的任一通讯消息的音频转换命令时，向服务器发起相应的音频转换请求；

本端通讯设备接收到所述服务器返回的所述任一通讯消息对应的文字内容，并与所述任一通讯消息进行关联展示；其中，所述文字内容由所述服务器在接收到所述音频转换请求之前主动预转换得到。
根据权利要求7所述的方法，其特征在于，还包括：

所述本端通讯设备确定所述用户对已接收的音频类型的通讯消息的响应状态；

其中，当接收到所述用户发出的针对所述任一通讯消息的音频转换命令时，若存在所述任一通讯消息之外的音频类型的未响应通讯消息，则所述音频转换请求还与所述未响应通讯消息相关。
根据权利要求7所述的方法，其特征在于，还包括：

所述本端通讯设备在接收所述服务器返回的文字内容后，对相应的通讯消息的展示区域进行扩展；

其中，扩展后的展示区域被划分为第一区域和第二区域；所述第一用于示出相应的通讯消息、所述第二区域用于示出所述通讯消息对应的文字内容。
一种音频消息的处理方法，其特征在于，包括：

本端通讯设备预获取音频类型的任一通讯消息对应的文字内容；

当接收到用户发出的针对所述任一通讯消息的音频转换命令时，所述本端通讯设备示出预获取的所述文字内容。
根据权利要求10所述的方法，其特征在于，所述本端通讯设备预获取音频类型的任一通讯消息对应的文字内容，包括：

所述本端通讯设备从服务器处预获取所述文字内容，所述文字内容由所述服务器预转换得到；

或者，所述本端通讯设备对所述任一通讯消息进行预转换处理，得到所述文字内容。
根据权利要求10所述的方法，其特征在于，所述本端通讯设备预获取音频类型的任一通讯消息对应的文字内容，包括：

所述本端通讯设备接收到服务器推送的所述文字内容；

或者，所述本端通讯设备在确定与对端通讯设备之间传输的通讯消息的类型时，若确定所述任一通讯消息的类型为音频类型，则预获取所述任一通讯消息对应的文字内容。
根据权利要求10所述的方法，其特征在于，还包括：

当接收到用户发出的针对所述任一通讯消息的音频转换命令时，若存在处于未响应状态的音频类型的其他通讯消息，则所述本端通讯设备还分别示出所述其他通讯消息对应的预获取的文字内容。
根据权利要求13所述的方法，其特征在于，还包括：

所述本端通讯设备在分别示出所述其他通讯消息对应的预获取的文字内容之后，向服务器发出对应于所述其他通讯消息的响应状态切换通知，以由所述服务器将所述其他通讯消息的已响应状态告知对应的发送方。
一种音频消息的处理方法，其特征在于，包括：

在生成音频类型的通讯消息的过程中，本端通讯设备依次确定已采集到的每个音频片段是否符合预设切分规则；

当任一音频片段符合所述预设切分规则时，所述本端通讯设备将所述任一音频片段实时切分并上传至服务器，以由所述服务器将所述任一音频片段预转换为相应的文字片段，且所有音频片段对应的文字片段由所述服务器依次拼接为所述通讯消息对应的文字内容。
一种音频消息的处理装置，其特征在于，包括：

识别单元，使服务器识别通讯双方之间传输的通讯消息的类型；

预转换单元，当任一通讯消息的类型为音频类型时，使所述服务器获取所述任一通讯消息，并预转换为相应的文字内容；

发送单元，当确定任一通讯方存在对所述任一通讯消息的转换需求时，使所述服务器向所述任一通讯方发送所述文字内容。
根据权利要求16所述的装置，其特征在于，所述发送单元具体用于：

当所述任一通讯方在通讯过程中属于预设通讯角色时，使所述服务器判定所述任一通讯方存在所述转换需求，并发送所述文字内容。
根据权利要求16所述的装置，其特征在于，所述发送单元具体用于：

当接收到任一通讯方针对所述任一通讯消息的音频转换请求时，使所述服务器判定所述任一通讯方存在所述转换需求，并向所述任一通讯方返回所述任一通讯消息对应的预转换的所述文字内容。
根据权利要求18所述的装置，其特征在于，还包括：

确定单元，使所述服务器确定通讯双方对传输的通讯消息的响应状态；

返回单元，当接收到任一通讯方针对所述任一通讯消息的音频转换请求时，若存在与所述任一通讯方相关的音频类型的未响应通讯消息，则使所述服务器还向所述任一通讯方返回所有音频类型的未响应通讯消息对应的预转换的文字内容。
根据权利要求18所述的装置，其特征在于，还包括：

判定单元，在向所述任一通讯方返回所述任一通讯消息对应的预转换的所述文字内容之后，使所述服务器判定所述任一通讯消息切换至已响应状态；

告知单元，使所述服务器将所述已响应状态告知所述任一通讯消息的发送方。
根据权利要求16所述的装置，其特征在于，所述预转换单元具体用于：

使所述服务器依次接收通讯方按照预设规则实时切分并上传的音频片段，并分别将每个音频片段预转换为相应的文字片段；

所述服务器将所有文字片段依次拼接，得到所述文字内容。
一种音频消息的处理装置，其特征在于，包括：

请求单元，使本端通讯设备在接收到用户发出的针对音频类型的任一通讯消息的音频转换命令时，向服务器发起相应的音频转换请求；

展示单元，使本端通讯设备接收到所述服务器返回的所述任一通讯消息对应的文字内容，并与所述任一通讯消息进行关联展示；其中，所述文字内容由所述服务器在接收到所述音频转换请求之前主动预转换得到。
根据权利要求22所述的装置，其特征在于，还包括：

确定单元，使所述本端通讯设备确定所述用户对已接收的音频类型的通讯消息的响应状态；

其中，当接收到所述用户发出的针对所述任一通讯消息的音频转换命令时，若存在所述任一通讯消息之外的音频类型的未响应通讯消息，则所述音频转换请求还与所述未响应通讯消息相关。
根据权利要求22所述的装置，其特征在于，还包括：

扩展单元，使所述本端通讯设备在接收所述服务器返回的文字内容后，对相应的通讯消息的展示区域进行扩展；

其中，扩展后的展示区域被划分为第一区域和第二区域；所述第一用于示出相应的通讯消息、所述第二区域用于示出所述通讯消息对应的文字内容。
一种音频消息的处理装置，其特征在于，包括：

预获取单元，使本端通讯设备预获取音频类型的任一通讯消息对应的文字内容；

展示单元，当接收到用户发出的针对所述任一通讯消息的音频转换命令时，使所述本端通讯设备示出预获取的所述文字内容。
根据权利要求25所述的装置，其特征在于，所述预获取单元具体用于：

使所述本端通讯设备从服务器处预获取所述文字内容，所述文字内容由所述服务器预转换得到；

或者，使所述本端通讯设备对所述任一通讯消息进行预转换处理，得到所述文字内容。
根据权利要求25所述的装置，其特征在于，所述预获取单元具体用于：

使所述本端通讯设备接收到服务器推送的所述文字内容；

或者，使所述本端通讯设备在确定与对端通讯设备之间传输的通讯消息的类型时，若确定所述任一通讯消息的类型为音频类型，则预获取所述任一通讯消息对应的文字内容。
根据权利要求25所述的装置，其特征在于，当接收到用户发出的针对所述任一通讯消息的音频转换命令时，若存在处于未响应状态的音频类型的其他通讯消息，则所述展示单元还使所述本端通讯设备分别示出所述其他通讯消息对应的预获取的文字内容。
根据权利要求28所述的装置，其特征在于，还包括：

通知单元，使所述本端通讯设备在分别示出所述其他通讯消息对应的预获取的文字内容之后，向服务器发出对应于所述其他通讯消息的响应状态切换通知，以由所述服务器将所述其他通讯消息的已响应状态告知对应的发送方。
一种音频消息的处理装置，其特征在于，包括：

确定单元，在生成音频类型的通讯消息的过程中，使本端通讯设备依次确定已采集到的每个音频片段是否符合预设切分规则；

处理单元，当任一音频片段符合所述预设切分规则时，使所述本端通讯设备将所述任一音频片段实时切分并上传至服务器，以由所述服务器将所述任一音频片段预转换为相应的文字片段，且所有音频片段对应的文字片段由所述服务器依次拼接为所述通讯消息对应的文字内容。
一种音频消息的处理方法，其特征在于，包括：

当接收到任一通讯方针对任一音频消息的音频转换请求时，服务器确定与所述任一通讯方相关的未响应音频消息；

所述服务器分别获取所述任一音频消息和所述未响应音频消息对应的文字内容，并返回至所述任一通讯方。
根据权利要求31所述的方法，其特征在于，所述服务器分别获取所述任一音频消息和所述未响应音频消息对应的文字内容，包括：

所述服务器分别将所述任一音频消息和所述未响应音频消息转换为对应的文字内容；

或者，所述服务器分别查找到所述任一音频消息和所述未响应音频消息对应的预转换的文字内容。
一种音频消息的处理方法，其特征在于，包括：

当接收到用户针对任一音频消息发出的音频转换命令时，本端通讯设备分别确定所述任一音频消息对应的第一文字内容，以及所述任一音频消息之外的未响应音频消息对应的第二文字内容；

所述本端通讯设备分别将所述第一文字内容与所述任一音频消息、所述第二文字内容与所述未响应音频消息进行关联展示。
根据权利要求33所述的方法，其特征在于，还包括：

在接收到所述音频转换命令之前，所述本端通讯设备预获取所述第一文字内容和所述第二文字内容；

或者，在接收到所述音频转换命令之后，所述本端通讯设备实时获取所述第一文字内容和所述第二文字内容。
根据权利要求33所述的方法，其特征在于，所述本端通讯设备通过下述任一方式获取所述第一文字内容和所述第二文字内容：

所述本端通讯设备主动将所述任一音频消息和所述未响应音频消息转换为所述第一文字内容和所述第二文字内容；

或者，所述本端通讯设备向服务器发起音频转换请求，以获得所述服务器返回的所述第一文字内容和所述第二文字内容；其中，所述第一文字内容和所述第二文字内容由所述服务器根据所述音频转换请求进行实时转换得到，或者由所述服务器预转换得到。
一种音频消息的处理装置，其特征在于，包括：

确定单元，当接收到任一通讯方针对任一音频消息的音频转换请求时，使服务器确定与所述任一通讯方相关的未响应音频消息；

返回单元，使所述服务器分别获取所述任一音频消息和所述未响应音频消息对应的文字内容，并返回至所述任一通讯方。
根据权利要求36所述的装置，其特征在于，所述返回单元具体用于：

使所述服务器分别将所述任一音频消息和所述未响应音频消息转换为对应的文字内容；

或者，使所述服务器分别查找到所述任一音频消息和所述未响应音频消息对应的预转换的文字内容。
一种音频消息的处理装置，其特征在于，包括：

确定单元，当接收到用户针对任一音频消息发出的音频转换命令时，使本端通讯设备分别确定所述任一音频消息对应的第一文字内容，以及所述任一音频消息之外的未响应音频消息对应的第二文字内容；

展示单元，使所述本端通讯设备分别将所述第一文字内容与所述任一音频消息、所述第二文字内容与所述未响应音频消息进行关联展示。
根据权利要求38所述的装置，其特征在于，还包括：

预获取单元，在接收到所述音频转换命令之前，使所述本端通讯设备预获取所述第一文字内容和所述第二文字内容；

或者，实时获取单元，在接收到所述音频转换命令之后，使所述本端通讯设备实时获取所述第一文字内容和所述第二文字内容。
根据权利要求38所述的装置，其特征在于，还包括：

主动转换单元，使所述本端通讯设备主动将所述任一音频消息和所述未响应音频消息转换为所述第一文字内容和所述第二文字内容；

或者，请求单元，使所述本端通讯设备向服务器发起音频转换请求，以获得所述服务器返回的所述第一文字内容和所述第二文字内容；其中，所述第一文字内容和所述第二文字内容由所述服务器根据所述音频转换请求进行实时转换得到，或者由所述服务器预转换得到。