WO2014079382A1

WO2014079382A1 - 语音传输方法、终端、语音服务器及语音传输系统

Info

Publication number: WO2014079382A1
Application number: PCT/CN2013/087653
Authority: WO
Inventors: 文孝木; 王永鑫; 尹凡
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-11-22
Filing date: 2013-11-22
Publication date: 2014-05-30
Also published as: CN103841002A; CN103841002B; US20150256988A1; US9832621B2

Abstract

本发明实施例提供一种语音传输方法、终端、语音服务器及语音传输系统。该语音传输方法包括采集语音音频；在语音音频采集过程中，对采集到的语音音频进行处理；在语音音频处理过程中，处理得到的语音数据的长度达到预设数据长度时，将所述语音数据作为一个语音数据段发送出去。此外本发明还提供一种语音传输终端、语音服务器以及语音传输系统。本发明技术方案可有效提高语音传输效率，可有效满足即时通讯的语音对讲对语音传输实时性的需要。

Description

说明书

语音传输方法、终端、语音服务器及语音传输系统本申请要求于 2012 年 11 月 22 日提交中国专利局、申请号为 201210479379.X, 发明名称为 "语音传输方法、终端、语音服务器及语音传输系统" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明实施例涉及通信技术，尤其涉及一种语音传输方法、终端、语音服务器及语音传输系统。背景技术

即时通讯技术^ ϋ于互联网及移动通信网发展起来的一种通信技术，其可以实现视频、文本、短消息以及语音等方式的通信，得到了用户的普遍欢迎。其中，语音对讲功能就是即时通讯技术中的一项重要语音通信方式，基于该语音通信方式，用户可进行实时的语音聊天，就好比短信聊天一样，有效满足了用户实时通信的需要，被广泛应用于手机等移动终端的即时通讯中。

现有语音对讲技术中，语音数据的传输是采用附件方式进行传输。具体地，持有移动终端 A1的用户 B1与持有移动终端 Α2的用户 Β2之间进行语音对讲的过程如下：当用户 B1向用户 Β2发送语音时，移动终端 A1检测到用户 B1 按压语音功能按键后，首先采集用户 B1在按压按键过程中发出的语音，并在检测到按压按键结束后，结束对语音的采集；其次，对采集到的语音依次进行编码和压缩处理，得到语音文件；然后，将语音文件发送至语音服务器 C; 语音服务器 C接收到的语音文件后，将语音文件转发至移动终端 B1 , 并由移动终端 B1对接收到语音文件依次进行解压缩和解码处理，得到语音，并将语音播放给用户 Β2; 同样地，当用户 Β2向用户 B1发送语音时，采用相同的处理方式，这样，就可以在两个移动终端之间实现语音对讲。

但是，现有语音传输过程中，是将语音的采集、编码和压缩全部完成得到整个语音文件后再将整个语音文件发送出去，这就使得语音数据传输的时间较长，导致语音数据传输效率低，语音传输的实时性较差；同时，采用整个语音文件进行传输的过程中，在移动通信等无线网络环境下，常常会因无线网络不稳定而导致语音传输失败，且语音传输失败后必须要重传整个语音文件，导致语音文件重传的网络资源消耗大，且这也进一步的降低了语音传输效率和语音传输的实时性，无法满足语音对讲技术中对语音实时性的要求。发明内容本发明实施例提供一种语音传输方法、终端、语音服务器及语音传输系统，可克服现有语音对讲技术中采用附件方式进行语音传输存在的传输效率低及语音传输实时性较差的问题。

本发明实施例提供一种语音传输方法，包括：

采集语音音频；

在语音音频采集过程中，对采集到的语音音频进行处理；

在语音音频处理过程中，处理得到的语音数据的长度达到预设数据长度时，将所述语音数据作为一个语音数据段发送出去。

本发明实施例又提供一种语音传输方法，包括：

接收语音发送终端通过上述实施例提供的语音传输方法发送的语音数据段；

将接收到的所述语音数据段实时转发至语音接收终端。

本发明实施例又提供一种语音传输方法，包括：

接收语音数据段，所述语音数据段为语音发送终端通过上述实施例提供的语音传输方法发送的语音数据段，或者语音服务器通过上述实施例提供的语音传输方法转发的语音发送终端发送的语音数据段；

将得到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序组合起来得到语音数据文件；

对所述语音数据文件进行解析，得到语音音频。

本发明实施例又提供一种语音传输终端，包括：

语音音频采集模块，用于采集语音音频；

语音音频处理模块，用于在语音音频采集过程中，对采集到的语音音频进行处理；

语音发送模块，用于在语音音频处理过程中，处理得到的语音数据的长度达到预设数据长度时，将所述语音数据作为一个语音数据段发送出去。本发明实施例又提供一种语音服务器，包括：

语音数据接收模块，用于接收上述实施例提供的语音传输终端发送的语音数据段；

语音数据转发模块，用于将接收到的所述语音数据段实时转发至语音接收终端。

本发明实施例又提供一种语音传输终端，包括：

接收模块，用于接收语音数据段，所述语音数据段为上述实施例提供的语音传输终端发送的语音数据段，或者为上述实施例提供的语音服务器转发的语音数据段；

组合模块，用于将得到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序组合起来得到语音数据文件；

解析模块，用于对所述语音数据文件进行解析，得到语音音频。

本发明实施例还提供一种语音传输系统，包括移动终端和语音服务器，其特征在于，所述移动终端为上述实施例提供的语音传输终端；所述语音服务器为采用上述实施例提供的语音服务器。

本发明实施例又提供了一种语音传输终端，包括：

一个或多个处理器；和

存储器；

所述存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器执行，所述一个或多个程序包含用于进行以下操作的指令：采集语音音频；

在语音音频采集过程中，对采集到的语音音频进行处理；

本发明实施例又提供了一种语音服务器，包括：

一个或多个处理器；和

存储器；

所述存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器执行，所述一个或多个程序包含用于进行以下操作的指令：接收上述实施例所述的语音传输终端发送的语音数据段；

将接收到的所述语音数据段实时转发至语音接收终端。本发明实施例还提供了一种语音传输终端，包括：

一个或多个处理器；和

存储器；

所述存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器执行，所述一个或多个程序包含用于进行以下操作的指令：接收语音数据段，所述语音数据段为上述实施例所述的语音发送终端发送的语音数据段，或者上述实施例所述的语音服务器转发的语音发送终端发送的语音数据段；

对所述语音数据文件进行解析，得到语音音频。

本发明实施例提供的语音传输方法、终端、语音服务器及语音传输系统，在语音音频采集过程中，可对语音音频进行实时处理，并可将处理的语音数据按预设数据长度的语音数据段进行实时发送，这样，可在语音音频采集过程中就进行语音处理和传输，语音的采集、处理和传输同步进行，从而提高语音传输效率，提高语音传输的实时性；同时，在语音传输时采用分段的语音数据段方式进行发送，在网络故障，例如无线通信网络不稳定而导致数据传输失败时，只需要将传输失败的语音数据段进行重传即可，从而可避免现有需要重传整个语音文件而带来的网络资源消耗较大、以及引起的语音传输效率低和语音传输实时性较差的问题。附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1为本发明一个实施例提供的语音传输方法的流程示意图；

图 2为本发明另一实施例提供的语音传输方法的流程示意图；

图 3为本发明另一实施例提供的语音传输方法中语音重传的流程示意图；图 4为本发明另一实施例提供的语音传输方法的流程示意图；图 5为本发明另一实施例提供的语音传输方法的流程示意图；图 6为本发明另一实施例提供的语音传输方法的流程示意图；

图 7为本发明一个实施例提供的语音传输终端的结构示意图；

图 8为本发明另一实施例提供的语音传输终端的结构示意图；

图 9为本发明另一实施例提供的语音传输终端的结构示意图；

图 10为本发明一个实施例提供的语音服务器的结构示意图；

图 11为本发明一个实施例提供的语音传输终端的结构示意图；

图 12为本发明另一个实施例提供的语音传输系统的结构示意图；图 13为本发明一个实施例提供的语音传输终端的结构示意图；

图 14为本发明另一实施例提供的语音服务器的结构示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1为本发明一个实施例提供的语音传输方法的流程示意图。本实施例语音传输方法应用于即时通讯中，可在语音对讲过程中实现语音数据的传输，当移动通信网络中的用户 A需要发送语音到用户 B时，用户 A可按压其手持的语音发送终端上的对讲功能按键，此时语音发送终端就可根据本实施例方法对用户 A发出的语音进行处理，具体地，如图 1所示，本实施例方法可包括如下步骤：步骤 101、语音发送终端采集语音音频；

步骤 102、语音发送终端在语音音频采集过程中，对采集到的语音音频进行处理；

步骤 103、在语音音频处理过程中，处理得到的语音数据的长度达到预设数据长度时，将该语音数据作为一个语音数据段发送出去。

本实施例中，当语音发送终端检测到用户 A按压语音对讲功能按键时，就可对语音音频进行采集，在语音音频采集过程中，可同时对采集到的语音音频进行处理，并将处理得到的语音数据按预设数据长度的语音数据段进行实时发送至网络中的语音服务器，直到语音音频采集结束；同时，语音服务器可将接收到的语音数据段实时转发至用户 B所持有的语音接收终端，以便由语音接收终端对语音数据处理后展现给用户 B, 从而可实现语音对讲中语音的传输。类似地，当用户 B向用户 A发送语音数据时，具有相同的语音传输过程。

本领域技术人员可以理解，本实施例在进行语音数据处理时，是将语音音频处理成一个个的语音数据段，其实质就是将一个大块的语音数据块分成较小的语音数据块，这样，语音发送时是基于一个个的较小的语音数据块进行发送。

本实施例中，所述的语音发送终端和语音接收终端可以为基于移动通信网络的移动终端，例如手机，或者也可以是基于现有其他无线网络，例如 wifi网络的移动终端，如平板电脑、笔记本电脑等，对此本发明实施例并不做特别限制，只要可以进行即时通讯的终端均是本实施例中所述的终端。

本发明实施例提供的语音传输方法，在语音音频采集过程中，可对语音音频进行实时处理，并可将处理的语音数据按预设数据长度的语音数据段进行实时发送，这样，可在语音音频采集过程中就进行语音处理和传输，语音的采集、处理和传输同步进行，从而提高语音传输效率，提高语音传输的实时性；同时，在语音传输时采用分段的语音数据段方式进行发送，在网络故障，例如无线通信网络不稳定而导致数据传输失败时，只需要将传输失败的语音数据段进行重传即可，从而可避免现有需要重传整个语音文件而带来的网络资源消耗较大、以及引起的语音传输效率低和语音传输实时性较差的问题。

图 2为本发明另一实施例提供的语音传输方法的流程示意图。本实施例中，用户 A通过语音发送终端发送对讲的语音时，语音发送终端可对处理得到的语音数据段增加逻辑标识，以便于接收到该语音数据段的语音接收终端可基于该逻辑标识将语音数据段重组，具体地，如图 2所示，本实施例方法可包括如下步骤：

步骤 201、用户 A按压语音发送终端上的语音对讲功能按键，以指示语音发送终端开始发送语音到用户 B所持有的语音接收终端；

步骤 202、语音发送终端检测到用户 A按压该按键后，立即进行录音，采集用户 A发出的语音音频，直到用户 A松开按键，指示停止发送语音为止；

步骤 203、在语音音频采集过程中，对采集到的语音音频进行编码处理，并对编码处理后的数据进行压缩处理；

步骤 204、在上述步骤 203对语音数据进行处理过程中，判断压缩得到的语音数据长度是否达到预设数据长度，是则执行步骤 205, 否则，继续执行步骤 203;

步骤 205、判断语音音频是否采集结束，是则执行步骤 206, 否则，执行步骤 203和步骤 208;

步骤 206、判断采集的语音音频是否全部处理完毕，是则执行步骤 207, 否则，执行步骤 203和步骤 208;

步骤 207、在处理后得到的最后一个语音数据段中增加语音结束标识，执行步骤 209;

步骤 208、在处理后得到的语音数据段中增加逻辑标识，该逻辑标识用于表示语音数据段的处理次序；

步骤 209、将语音数据段实时传输至网络中的语音服务器。

上述步骤 201和步骤 202中，用户除了可以通过按压语音发送终端上的语音对讲功能按键，指示发送语音外，实际应用中也可通过语音命令等方式向语音发送终端发起语音对讲并发送语音。对此，本实施例对语音发起的指示命令并不做特别限制。

上述步骤 202中，语音发送终端采集语音音频过程中，可实时将采集到的语音音频进行緩存，直到语音发送结束指示，即检测到用户停止按压语音对讲功能按键为止。

上述步骤 203是在步骤 202执行语音音频采集的过程中，同时对步骤 202采集到的语音音频进行编码和压缩处理，即步骤 202和步骤 203是同步执行的。

本领域技术人员可以理解，上述对语音音频进行编码是将采集的语音音频转换成适合网络传输的数字信号；所述的对编码后的数据进行压缩，是为了减少网络传输中语音数据的大小，以提高语音传输速率。具体的编码和压缩过程与传统技术相同或类似，在此不再赘述。

上述步骤 204中，可对步骤 203在压缩处理过程中的数据的长度进行检测，以在数据长度达到预设数据长度时，可将压缩后的数据作为一个语音数据段，其中所述的预设数据长度可以根据网络传输的需要设置成合适大小，例如在采用 TCP/IP协议的语音数据传输时，可将该预设数据长度设置为 1500字节，这样，可适合底层介质接入控制（Media Access Control, MAC )协议对数据包长度的限制，避免在底层对超过 1500字节的数据要重新分段重组，减少底层协议的操作，提高数据传输效率。该步骤 204和步骤 203也是同步进行的。

上述步骤 205-步骤 208中，在语音音频采集结束及采集的语音音频均处理完毕后，可在最后处理后得到语音数据段中增加语音结束标识，以表示该次语音的结束，从而可便于语音服务器以及语音接收终端可判断语音的结束。本领域技术人员可以理解，实际应用中，也可在语音音频采集结束，即用户 A指示语音发送结束后，向语音服务器以及语音接收终端发送语音结束指令，以通告语音结束，对此本发明实施例并不做特别限制。

本实施例中，所述的语音音频采集结束是指语音发送终端接收到用户的语音发送结束指令时，停止语音的采集，本实施例中就是在检测到用户不再按压语音发送终端上的语音对讲功能按键时，停止语音音频的采集，此时说明用户所要发送的语音结束。

上述步骤 208 , 是在处理后得到的语音数据段增加逻辑标识，以表示各语音数据段的处理次序，例如处理的序列号，这样，语音接收终端就可以根据这些序列号进行语音数据的重组，从而得到相应的完整的语音文件；此外，语音服务器也可基于接收到的语音数据段的逻辑标识，确定接收到的语音数据段是否丟失或者是否错乱。

上述步骤 209中，可将步骤 203处理得到的语音数据段，实时发送至语音服务器，而语音服务器接收到该语音数据段后，可实时转发至语音接收终端，以便由语音接收终端对接收到的语音数据段进行处理，并将最终得到的语音播放给语音接收的用户，其具体处理过程将在后面说明。

本领域技术人员可以理解，在进行语音数据段的发送时，具体可采用传输控制协议 ( Transmission Control Protocol, TCP )协议，将处理后得到的语音数据段实时发送至语音服务器，或者，也可采用用户数据报协议（User Datagram Protocol, UDP )协议，将处理后得到的语音数据段实时发送至语音服务器，或者也可采用其他传输协议，本实施例并不做特别限制。

本领域技术人员可以理解，在采用 TCP协议进行语音数据段的发送时，也可不在语音数据段中增加逻辑标识，而是依靠 TCP协议控制来确保各语音数据段的有序排列。

本领域技术人员可以理解，本实施例中，对语音音频采集过程中的处理过程中，就是将语音数据处理成多个分片数据，并将分片数据分别进行发送，这样可不需要对整个语音文件进行发送，使得语音数据的发送效率更高，实时性也更好，可满足即时通讯的实时性的需要。

图 3为本发明另一实施例提供的语音传输方法中语音重传的流程示意图。在上述本发明各实施例技术方案的基础上，语音发送终端为确保各语音数据段可靠发送至语音服务器，还可对发送失败的语音数据段进行重传，具体地，如图 3所示，本实施例方法还可包括如下步骤：

步骤 301、语音发送终端接收语音服务器返回的传输反馈信息，该传输反馈反馈信息包括重发标识，该重发标识用于表示需要重发的语音数据段；步骤 302、根据该重发标识，重新发送需要重发的语音数据段。

本实施例中，当语音发送终端进行语音数据段传输的网络，例如移动通信网络故障或不稳定，导致语音服务器无法接收到语音数据段出现语音数据段丟失，语音服务器就可向语音发送端返回传输反馈信息，以指示语音发送端需要重发的语音数据段，这样，语音发送端仅需重发需要重发的语音数据段。

本领域技术人员可以理解，语音发送终端在发送完各语音数据段后，会暂时存储各语音数据段，以便语音数据段传输失败时可进行重传，直到语音服务器反馈语音传输成功。实际应用中，也可将已发送的语音数据段按设定时间进行存储，对此本实施例并不做特别限制。

本实施例中，当语音发送终端在语音音频采集结束，且处理后得到的各语音数据段均发送完毕之后，预设时间段内，未接收到语音服务器返回的传输成功信息后，可重新发送所有语音数据段。本领域技术人员可以理解，当语音发送结束后，长时间内没有接收到语音服务器反馈的接收成功消息，则表示服务器未能接收到语音，因此，对语音数据进行重传可确保语音能可靠的传输至语音发送终端。

本领域技术人员可以理解，在移动通信等无线网络环境下，由于无线通信网络的不稳定性，语音数据的传输失败率是较高的，现有采用整个语音文件进行语音传输时，若语音数据传输中途失败，那么就需要重传整个语音文件，而本实施例中，由于语音传输时，是一个个的语音数据段，因此，在语音传输过程中，即使一个语音数据段传输失败，也只需要重发该语音数据段，从而可减少重传占用的网络资源，并可提供语音传输效率。

图 4为本发明另一实施例提供的语音传输方法的流程示意图。与上述本发明各实施例不同的是，本实施例可在语音音频采集结束后就提示用户 A发送成功信息，以提高用户使用语音对讲这种即时通讯方式的用户体验，具体地，如图 4所示，本实施例方法可包括如下步骤：

步骤 401、用户 A按压语音发送终端上的语音对讲功能按键，指示语音发送终端开始发送语音到语音接收终端；

步骤 402、语音发送终端检测到用户 A按压该按键后，立即进行录音，采集用户 A发出的语音音频；

步骤 403、在语音音频采集过程中，对采集到的语音音频进行编码和压缩处理，并编码和压缩处理过程中，对处理得到语音数据长度达到预设数据长度时，将语音数据作为一个语音数据段实时发送至语音服务器；

步骤 404、判断语音音频是否采集结束，是则执行步骤 405 , 否则，执行步骤 403;

步骤 405、判断采集的语音音频是否全部处理完毕，是则执行步骤 406, 否则，执行步骤 403;

步骤 406、判断处理后得到语音数据段是否全部发送完毕，是则执行步骤 407, 否则执行步骤 403;

步骤 407、检测语音发送终端的网络连接是否正常，是则执行步骤 409, 否则，执行步骤 408;

步骤 408、语音发送终端为用户提供正在发送中提示信息，继续执行步骤

407。

步骤 409、语音发送终端为用户提供发送成功提示信息；

步骤 410、在预设时间段内，确定是否接收到语音服务器返回的传输成功信息，是则结束整个语音的传输，否则，执行步骤 411 ;

步骤 411、重新发送所有的语音数据段。

上述步骤 409中，语音发送终端是在语音音频采集结束且数据发送完成后，只要检测到语音发送终端的网络连接是正常的，就为用户提供发送成功提示信息，这样，可确保用户更好的体现即时通讯的实时性，提高用户即时通讯的体验。

上述步骤 408中，当语音数据发送完毕后，检测到网络连接不正常时，说明此时数据可能还没有成功发送至语音服务器以及语音接收终端，因此，可为用户提供语音发送中提示信息。此外，实际应用中，也可设置一定的时间长度，例如 1分钟，若在该时间长度内仍旧检测网络连接不正常，则可为用户提供发送失败等提示信息。

上述步骤 410和步骤 411中，在语音音频采集结束并为用户提供发送成功提示后，通过检测语音服务器是否返回确认传输成功信息，来确保语音数据可靠的发送至语音服务器，从而可有效提高语音数据发送的可靠性。

现有技术中，语音发送终端通常是在接收到语音服务器反馈的发送成功的确认信息后，才为用户提示发送成功提示，否则，会继续等待。由于语音对讲中的语音发送终端是基于移动通信等无线网络，将语音数据发送至语音服务器，而在无线网络环境的复杂度远远大于有线网络，而且语音发送终端的上下行带宽严重不对称，在信噪比较低的无线网络环境中，语音发送终端与语音服务器之间的信令数据的丟失就会占到一定的比例，在这种情况下，真正的语音数据已经成功发送，而由于语音服务器反馈发送成功的确认信息将会延迟，导致在语音发送终端迟迟不能为用户提供成功信息，这会严重影响语音对讲的服务的体验效果。为此本实施例通过对语音发送成功的提示过程进行优化，可有效提高用户在使用即时通讯时的体验。

图 5为本发明实施例五提供的语音传输方法的流程示意图。本实施例中，语音服务器可实时接收上述本发明方法实施例中语音发送终端发送的语音数据段，并可将语音数据段实时转发至语音接收端，具体地，如图 5所示，本实施例方法可包括如下步骤：

步骤 501、语音服务器接收语音发送终端发送的语音数据段；

步骤 502、语音服务器将接收到的语音数据段实时转发至语音接收终端。本实施例中，语音服务器可实时接收上述图 1-图 4所述的语音发送终端发送来的语音数据段，并可实时将语音数据端转发至语音接收终端，以提高语音数据传输效率。

本实施例中，语音服务器在接收到语音数据段失败，导致语音数据段出现丟失时，可向语音发送终端返回传输反馈信息，该传输反馈信息中可包括重发标识，用于表示需要重发的语音数据段，以便语音发送终端可根据该重发标识重发该需要重发的语音数据段，其具体处理过程可参见上述图 3所示方法中的说明。

图 6为本发明实施例六提供的语音传输方法的流程示意图。本实施例中，语音接收终端可实时接收上述图 5所示实施例方法中语音服务器实时转发的语音数据段，具体地，如图 6所示，本发明实施例可包括如下步骤：

步骤 601、语音接收终端接收语音数据段；

步骤 602、语音接收终端将得到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序组合起来得到语音数据文件；步骤 603、语音接收终端对语音数据文件进行解析，得到语音音频。

本实施例中，语音接收终端可对语音服务器转发的上述图 1-图 4所述的语音发送终端发送的语音数据段进行实时接收，并可将接收的各语音数据段组合起来，得到完整的语音文件，并可对语音文件进行解析，得到相应的语音音频播放给用户。

本实施例中，语音接收终端具体可在接收到携带有语音结束标识的语音数据段后，对接收到的各语音数据段进行组合，得到语音数据文件。

本实施例中，语音接收终端在对接收到的各语音数据段组合时，具体可根据各语音数据段中携带的逻辑标识，按照语音数据段的处理次序组合得到语音数据文件。

本领域技术人员可以理解，上述各实施例中语音发送时，均需要通过语音服务器作为语音数据进行转发，实际应用中，在移动终端之间直接通信的情况下，也可按照上述方式进行语音的发送或接收，对此本发明实施例并不做特别限制，例如处于同一通信网络下的两个移动终端之间，直接进行语音对讲时，一个移动终端可直接将对讲的语音按照上述语音采集、处理和传输方式发送至另一移动终端。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括： ROM、 RAM, 磁碟或者光盘等各种可以存储程序代码的介质。

图 7为本发明一个实施例提供的语音传输终端的结构示意图。本实施例语音传输终端可为上述本发明方法实施例中所述的语音发送终端，以进行语音的发送，具体地，如图 7所示，本实施例语音传输终端包括语音音频采集模块 11、语音音频处理模块 12和语音发送模块 13 , 其中：

语音音频采集模块 11 , 用于采集语音音频；

语音音频处理模块 12, 用于在语音音频采集过程中，对采集到的语音音频进行处理；

语音发送模块 13, 用于在语音音频处理过程中，处理得到的语音数据的长度达到预设数据长度时，将该语音数据作为一个语音数据段发送出去。

本实施例语音传输终端可基于上述图 1、图 2、图 3或图 4所示方法实施例来进行语音的发送，其具体实现可参见上述本发明方法实施例的说明，在此不再赘述。

图 8为本发明另一实施例提供的语音传输终端的结构示意图。在上述图 7所示实施例基础上，如图 8所示，本实施例语音传输终端还可包括标识增加模块 14以及语音结束标识增加模块 15 , 其中，标识增加模块 14可用于在语音发送模块 13发送的语音数据段中增加逻辑标识，该逻辑标识表示语音数据段在语音音频处理过程中的处理次序；语音结束标识增加模块 15可用于语音音频采集结束后，在处理得到的最后一个语音数据段增加语音结束标识。

如图 8所示，本实施例语音传输终端还可包括反馈信息接收模块 16和反馈重传模块 17 , 其中，反馈信息接收模块 16可用于接收语音服务器返回的传输反馈信息，该反馈信息包括重发标识，该重发标识表示需要重发的语音数据段；反馈重传模块 17可用于根据该重发标识，重新发送需要重发的语音数据段。

进一步地，如图 8所示，本实施例语音传输终端还可包括语音音频重传模块 18, 其中，语音音频重传模块 18可用于在语音音频采集结束且处理后得到的各语音数据段均发送完毕后的预设时间段内，未接收到语音服务器返回的传输成功信息时，重新发送语音音频处理过程中的所有语音数据段。

本实施例语音传输终端可基于本发明图 2或图 3所示方法实施例来实现语音的发送，其具体实现可参见上述本发明方法实施例的说明，在此不再赘述。

图 9为本发明一个实施例提供的语音传输终端的结构示意图。在上述图 7或图 8所示实施例技术方案基础上，如图 9所示，本实施例还可包括发送成功提示模块 19, 用于在语音音频采集结束后，检测网络连接正常时，为用户提供发送成功提示信息。

本实施例语音传输终端可基于图 4所示方法实施例来实现语音的发送，其具体实现可参见上述本发明方法实施例的说明，在此不再赘述。

图 10为本发明一个实施例提供的语音服务器的结构示意图。如图 10所示，本实施例语音服务器包括语音数据接收模块 21和语音数据转发模块 22, 其中：语音数据接收模块 21 , 用于接收语音发送终端发送的语音数据段；语音数据转发模块 22, 用于将接收到的语音数据段实时转发至语音接收终端。

如图 10所示，本实施例语音服务器还可包括反馈模块 23 , 用于在语音数据段接收失败时，向语音发送终端返回传输反馈信息，该传输反馈信息包括重发标识，该重发标识表示需要重发的语音数据段，以便语音发送终端从重新发送需要重发的语音数据段。

本实施例语音服务器可基于上述图 5所示方法实施例对图 7、图 8或 9所示的语音传输终端发送的语音数据段进行处理，其具体实现可参见上述本发明方法实施例的说明，在此不再赘述。

图 11为一个本发明实施例提供的语音传输终端的结构示意图。本实施例语音传输终端可作为语音接收终端，对上述语音服务器或语音发送终端发送来的语音数据段进行接收，具体地，如图 11所示，本实施例语音传输终端可包括接收模块 31、组合模块 32和解析模块 33 , 其中：

接收模块 31 , 用于接收语音数据段；

组合模块 32, 用于将得到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序组合起来得到语音数据文件；

解析模块 33 , 用于对语音数据文件进行解析，得到语音音频。

本实施例中，上述的各语音数据段中携带有用于表示语音数据段的处理次序的逻辑标识，上述的组合模块 32具体用于根据各语音数据段中携带的逻辑标识，按照语音数据段的处理次序组合得到语音数据文件。

此外，上述的语音发送终端发送的最后一个语音数据段携带有语音结束标识，上述的组合模块 32具体可用于在接收到携带有语音结束标识的语音数据段后，对接收到的各语音数据段进行组合，得到语音数据文件。

本实施例语音传输终端可作为语音接收终端，基于上述本发明方法实施例六对接收到的语音数据段进行处理，其具体实现可参见上述本发明方法实施例的说明，在此不再赘述。

图 12为本发明一个实施例提供的语音传输系统的结构示意图。如图 12所示，本实施例系统包括作为移动终端的语音发送终端 10和语音接收终端 30, 以及语音服务器 20,语音发送终端 10和语音接收终端 30均是通过移动通信网络与语音服务器 20进行数据通信，其中，语音发送终端 10具体可采用图 6、 7或 8所示的语音传输终端，语音接收终端 30可采用图 11所示的语音传输终端，语音服务器 30具体可采用图 10所示的语音服务器。其具体结构及工作过程可参见上述本发明装置实施例的说明，在此不再赘述。

图 13为本发明一个实施例提供的语音传输终端的结构方框图，该语音传输终端用于实施上述实施例提供的语音传输方法，本发明实施例中的语音传输终端可以包括一个或多个如下组成部分：用于执行计算机程序指令以完成各种流程和方法的处理器，用于信息和存储程序指令随机接入存储器（RAM) 和只读存储器（ROM) , 用于存储数据和信息的存储器， I/O设备，界面，天线等。具体来讲：

语音传输终端 300可以包括 RF ( Radio Frequency, 射频）电路 310、存储器 320、输入单元 330、显示单元 340、传感器 350、音频电路 360、 WiFi(wireless fidelity, 无线保真)模块 370、处理器 380、电源 382、摄像头 390等部件。本领域技术人员可以理解，图 13 中示出的终端结构并不构成对语音传输终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图 13对语音传输终端 300的各个构成部件进行具体的介绍：

RF电路 310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器 380处理；另外，将设计上行的数据发送给基站。通常， RF 电路包括但不限于天线、至少一个放大器、收发信机、耦合器、 LNA ( Low Noise Amplifier, 低噪声放大器）、双工器等。此外， RF电路 310还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于 GSM(Global System of Mobile communication, 全球移动通讯系统)、 GPRS (General Packet Radio Service , 通用分组无线服务）、 CDMA(Code Division Multiple Access , 码分多址）、 WCDMA(Wideband Code Division Multiple Access, 宽带码分多址）、 LTE(Long Term Evolution,长期演进)、电子邮件、 SMS (Short Messaging Service, 短消息服务)等。

存储器 320可用于存储软件程序以及模块，处理器 380通过运行存储在存储器 320的软件程序以及模块，从而执行语音传输终端 300的各种功能应用以及数据处理。存储器 320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、图像播放功能等 )等；存储数据区可存储根据终端 300的使用所创建的数据 (比如音频数据、电话本等）等。此外，存储器 320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元 330可用于接收输入的数字或字符信息，以及产生与语音传输终端 300的用户设置以及功能控制有关的键信号输入。具体地，输入单元 330可包括触控面板 331 以及其他输入设备 332。触控面板 331 , 也称为触摸屏，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触控面板 331上或在触控面板 331附近的操作 ), 并根据预先设定的程式驱动相应的连接装置。可选的，触控面板 331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器 380, 并能接收处理器 380 发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板 331。除了触控面板 331 , 输入单元 330还可以包括其他输入设备 332。具体地，其他输入设备 332可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元 340可用于显示由用户输入的信息或提供给用户的信息以及语音传输终端 300的各种菜单。显示单元 340可包括显示面板 341 , 可选的，可以采用 LCD(Liquid Crystal Display, 液晶显示器）、 OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板 341。进一步的，触控面板 331 可覆盖显示面板 341 , 当触控面板 331检测到在其上或附近的触摸操作后，传送给处理器 380以确定触摸事件的类型，随后处理器 380根据触摸事件的类型在显示面板 341上提供相应的视觉输出。虽然在图 13中，触控面板 331与显示面板 341 是作为两个独立的部件来实现语音传输终端 300 的输入和输入功能，但是在某些实施例中，可以将触控面板 331与显示面板 341集成而实现语音传输终端 300的输入和输出功能。

语音传输终端 300还可包括至少一种传感器 350, 比如陀螺仪传感器、磁感应传感器、光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板 341的亮度，接近传感器可在终端 350移动到耳边时，关闭显示面板 341和 /或背光。作为运动传感器的一种，加速度传感器可检测各个方向上 (一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等；至于语音传输终端 300还可配置的气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。音频电路 360、扬声器 361 , 传声器 362可提供用户与语音传输终端 300 之间的音频接口。音频电路 360可将接收到的音频数据转换后的电信号，传输到扬声器 361 , 由扬声器 361转换为声音信号输出；另一方面，传声器 362将收集的声音信号转换为电信号，由音频电路 360接收后转换为音频数据，再将音频数据输出处理器 380处理后，经 RF电路 310以发送给比如另一终端，或者将音频数据输出至存储器 320以便进一步处理。

WiFi属于短距离无线传输技术，语音传输终端 300通过 WiFi模块 370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图 13示出了 WiFi模块 370, 但是可以理解的是，其并不属于语音传输终端 300的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器 380是语音传输终端 300的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器 320 内的软件程序和 /或模块，以及调用存储在存储器 320内的数据，执行语音传输终端 300的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器 380可包括一个或多个处理单元；优选的，处理器 380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器 380 中。

语音传输终端 300还包括给各个部件供电的电源 382(比如电池），优选的，电源可以通过电源管理系统与处理器 382逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

摄像头 390—般由镜头、图像传感器、接口、数字信号处理器、 CPU、显示屏幕等组成。其中，镜头固定在图像传感器的上方，可以通过手动调节镜头来改变聚焦；图像传感器相当于传统相机的"胶卷"，是摄像头采集图像的心脏；接口用于把摄像头利用排线、板对板连接器、弹簧式连接方式与终端主板连接，将采集的图像发送给所述存储器 320; 数字信号处理器通过数学运算对采集的图像进行处理，将采集的模拟图像转换为数字图像并通过接口发送给存储器 420。

尽管未示出，语音传输终端 300还可以包括蓝牙模块等，在此不再赘述。语音传输终端 300除了包括一个或者多个处理器 380，还包括有存储器 320，所述存储器 320存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器 380执行，所述一个或多个程序包含用于执行如图 1或图 2或图 3或图 4或图 6所示出的语音传输方法。

图 14是本发明一个实施例提供的语音服务器的结构示意图。所述语音服务器 400 包括中央处理单元（CPU ) 401、包括随机存取存储器（RAM ) 402 和只读存储器（ ROM ) 403的系统存储器 404 , 以及连接系统存储器 404和中央处理单元 401的系统总线 405。所述语音服务器 400还包括帮助计算机内的各个器件之间传输信息的基本输入 /输出系统（I/O 系统） 406, 和用于存储操作系统 413、应用程序 414和其他程序模块 415的大容量存储设备 407。

所述基本输入 /输出系统 406包括有用于显示信息的显示器 408和用于用户输入信息的诸如鼠标、键盘之类的输入设备 409。其中所述显示器 408和输入设备 409都通过连接到系统总线 405的输入输出控制器 410连接到中央处理单元 401。所述基本输入 /输出系统 406还可以包括输入输出控制器 410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器 410还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备 407通过连接到系统总线 405 的大容量存储控制器 (未示出）连接到中央处理单元 401。所述大容量存储设备 407及其相关联的计算机可读介质为语音服务器 400提供非易失性存储。也就是说，所述大容量存储设备 407可以包括诸如硬盘或者 CD-ROM驱动器之类的计算机可读介质 (未示出）。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括 RAM、 ROM, EPROM、 EEPROM、闪存或其他固态存储其技术， CD-ROM、 DVD 或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器 404和大容量存储设备 407可以统称为存储器。

根据本发明的各种实施例，所述语音服务器 400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即语音服务器 400可以通过连接在所述系统总线 405上的网络接口单元 411连接到网络 412, 或者说，也可以使用网络接口单元 411来连接到其他类型的网络或远程计算机系统（未示出）。所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上中央处理单元 401执行所述一个或者一个以上程序包含用于执行图 5所示实施例所提供的语音传输方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

权利要求书

1、一种语音传输方法，其特征在于，包括：

采集语音音频；

在语音音频采集过程中，对采集到的语音音频进行处理；

2、根据权利要求 1所述的语音传输方法，其特征在于，所述在语音音频采集过程中，对采集到的语音音频进行处理包括：

在语音音频采集过程中，对采集到的语音音频进行编码及压缩处理。

3、根据权利要求 1所述的语音传输方法，其特征在于，将语音数据段发送之前，还包括：

在所述语音数据段中增加逻辑标识，所述逻辑标识表示所述语音数据段在所述语音音频处理过程中的处理次序。

4、根据权利要求 1所述的语音传输方法，其特征在于，还包括：

所述语音音频采集结束后，在处理得到的最后一个语音数据段增加语音结束标识。

5、根据权利要求 1所述的语音传输方法，其特征在于，还包括：

接收语音服务器返回的传输反馈信息，所述传输反馈信息包括重发标识，所述重发标识表示需要重发的语音数据段；

根据所述重发标识，重新发送所述需要重发的语音数据段。

6、根据权利要求 1所述的语音传输方法，其特征在于，还包括：

在语音音频采集结束后，检测网络连接正常时，为用户提供发送成功提示信息。

7、根据权利要求 1-6任一所述的语音传输方法，其特征在于，还包括：在语音音频采集结束且处理后得到的各语音数据段均发送完毕后的预设时间段内，未接收到语音服务器返回的传输成功信息时，重新发送所述语音音频处理过程中得到的所有语音数据段。

8、一种语音传输方法，其特征在于，包括：

接收语音发送终端通过权利要求 1所述的语音传输方法发送的语音数据段；将接收到的所述语音数据段实时转发至语音接收终端。

9、根据权利要求 8所述的语音传输方法，其特征在于，还包括：在语音数据段接收失败时，向所述语音发送终端返回传输反馈信息，所述传输反馈信息包括重发标识，所述重发标识表示需要重发的语音数据段，以便所述语音发送终端重新发送所述需要重发的语音数据段。

10、一种语音传输方法，其特征在于，包括：

接收语音数据段，所述语音数据段为语音发送终端通过权利要求 1发送的语音数据段，或者语音服务器通过权利要求 8转发的语音发送终端发送的语音数据段；

对所述语音数据文件进行解析，得到语音音频。

11、根据权利要求 10所述的语音传输方法，其特征在于，各语音数据段中携带有逻辑标识，所述逻辑标识用于表示语音数据段在语音音频处理过程中的处理次序；

所述将得到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序组合起来得到语音数据文件，包括：

根据各语音数据段中携带的逻辑标识，按照语音数据段的处理次序组合得到语音数据文件。

12、根据权利要求 10所述的语音传输方法，其特征在于，所述语音发送终端发送的最后一个语音数据段携带有语音结束标识；

在接收到携带有语音结束标识的语音数据段后，对接收到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序进行组合，得到语音数据文件。

13、一种语音传输终端，其特征在于，包括：

语音音频采集模块，用于采集语音音频；

语音发送模块，用于在语音音频处理过程中，处理得到的语音数据的长度达到预设数据长度时，将所述语音数据作为一个语音数据段发送出去。

14、根据权利要求 13所述的语音传输终端，其特征在于，还包括：标识增加模块，用于在所述语音数据段中增加逻辑标识，所述逻辑标识表示所述语音数据段在所述语音音频处理过程中的处理次序。

15、根据权利要求 13所述的语音传输终端，其特征在于，还包括：语音结束标识增加模块，用于所述语音音频采集结束后，在处理得到的最后一个语音数据段增加语音结束标识。

16、根据权利要求 13所述的语音传输终端，其特征在于，还包括：反馈信息接收模块，用于接收语音服务器返回的传输反馈信息，所述传输反馈信息包括重发标识，所述重发标识表示需要重发的语音数据段；

反馈重传模块，用于根据所述重发标识，重新发送所述需要重发的语音数据段。

17、根据权利要求 13所述的语音传输终端，其特征在于，还包括：发送成功提示模块，用于在语音音频采集结束后，检测网络连接正常时，为用户提供发送成功提示信息。

18、根据权利要求 13-17任一所述的语音传输终端，其特征在于，还包括：语音音频重传模块，用于在语音音频采集结束且处理后得到的各语音数据段均发送完毕后的预设时间段内，未接收到语音服务器返回的传输成功信息时，重新发送所述语音音频处理过程中得到的所有语音数据段。

19、一种语音服务器，其特征在于，包括：

语音数据接收模块，用于接收权利要求 13所述的语音传输终端发送的语音数据段；

20、根据权利要求 19所述的语音服务器，其特征在于，还包括：

反馈模块，用于在语音数据段接收失败时，向所述语音发送终端返回传输反馈信息，所述传输反馈信息包括重发标识，所述重发标识表示需要重发的语音数据段，以便所述语音发送终端重新发送所述需要重发的语音数据段。

21、一种语音传输终端，其特征在于，包括：

接收模块，用于接收语音数据段，所述语音数据段为权利要求 13所述的语音传输终端发送的语音数据段，或者为权利要求 19所述的语音服务器转发的语音数据段；组合模块，用于将得到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序组合起来得到语音数据文件；

22、根据权利要求 21所述的语音传输终端，其特征在于，各语音数据段中携带有逻辑标识，所述逻辑标识用于表示语音数据段在语音音频处理过程中的处理次序；

所述组合模块，用于根据各语音数据段中携带的逻辑标识，按照语音数据段的处理次序组合得到语音数据文件。

23、根据权利要求 21所述的语音传输终端，其特征在于，所述语音发送终端发送的最后一个语音数据段携带有语音结束标识；

所述组合模块，用于在接收到携带有语音结束标识的语音数据段后，对接收到的各语音数据段按照语音数据段在语音音频处理过程中的先后次序进行组合，得到语音数据文件。

24、一种语音传输系统，包括移动终端和语音服务器，其特征在于，所述移动终端为采用权利要求 13-18任一所述的语音传输终端，或者，所述移动终端为采用权利要求 21-23任一所述的语音传输终端；所述语音服务器为采用权利要求 19或 20所述的语音服务器。

25、一种语音传输终端，其特征在于，包括：

一个或多个处理器；和

存储器；

在语音音频采集过程中，对采集到的语音音频进行处理；

26、根据权利要求 25所述的语音传输终端，其特征在于，还包括执行如下操作的指令：

27、根据权利要求 25所述的语音传输终端，其特征在于，还包括执行如下操作的指令：在所述语音数据段中增加逻辑标识，所述逻辑标识表示所述语音数据段在所述语音音频处理过程中的处理次序。

28、根据权利要求 25所述的语音传输终端，其特征在于，还包括执行如下操作的指令：

29、根据权利要求 25所述的语音传输终端，其特征在于，还包括执行如下操作的指令：

根据所述重发标识，重新发送所述需要重发的语音数据段。

30、根据权利要求 25所述的语音传输终端，其特征在于，还包括执行如下操作的指令：

31、根据权利要求 25-30任一所述的语音传输终端，其特征在于，还包括执行如下操作的指令：

在语音音频采集结束且处理后得到的各语音数据段均发送完毕后的预设时间段内，未接收到语音服务器返回的传输成功信息时，重新发送所述语音音频处理过程中得到的所有语音数据段。

32、一种语音服务器，其特征在于，包括：

一个或多个处理器；和

存储器；

所述存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器执行，所述一个或多个程序包含用于进行以下操作的指令：接收权利要求 25所述的语音传输终端发送的语音数据段；

将接收到的所述语音数据段实时转发至语音接收终端。

33、根据权利要求 32所述的语音语音服务器，其特征在于，还包括执行如下操作的指令：

在语音数据段接收失败时，向所述语音发送终端返回传输反馈信息，所述传输反馈信息包括重发标识，所述重发标识表示需要重发的语音数据段，以便所述语音发送终端重新发送所述需要重发的语音数据段。

34、一种语音传输终端，其特征在于，包括：

一个或多个处理器；和

存储器；

所述存储器存储有一个或多个程序，所述一个或多个程序被配置成由所述一个或多个处理器执行，所述一个或多个程序包含用于进行以下操作的指令：接收语音数据段，所述语音数据段为权利要求 25所述的语音发送终端发送的语音数据段，或者权利要求 32所述的语音服务器转发的语音发送终端发送的语音数据段；

对所述语音数据文件进行解析，得到语音音频。

35、根据权利要求 34所述的语音传输终端，其特征在于，各语音数据段中携带有逻辑标识，所述逻辑标识用于表示语音数据段在语音音频处理过程中的处理次序；

还包括执行如下操作的指令：

36、根据权利要求 34所述的语音传输终端，其特征在于，所述语音发送终端发送的最后一个语音数据段携带有语音结束标识；

还包括执行如下操作的指令：

37、一种语音传输系统，包括移动终端和语音服务器，其特征在于，所述移动终端为采用权利要求 25-31任一所述的语音传输终端，或者，所述移动终端为采用权利要求 34-36任一所述的语音传输终端；所述语音服务器为采用权利要求 32或 33所述的语音服务器。