WO2014086216A1

WO2014086216A1 - 即时通讯方法、系统、通讯信息处理方法、终端及存储介质

Info

Publication number: WO2014086216A1
Application number: PCT/CN2013/086132
Authority: WO
Inventors: 唐沐; 戴永裕; 叶波; 罗运广; 蔡锦彬; 宋睿
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-12-04
Filing date: 2013-10-29
Publication date: 2014-06-12
Also published as: US20150269928A1; CN103856390A; CN103856390B; US9626984B2

Abstract

本发明提出一种即时通讯方法及系统、通讯信息处理方法、终端，其即时通讯方法包括：第一终端接收用户录入的声音，并对用户录入的声音进行变音处理；第一终端将经过变音处理的声音发送给第二终端；第二终端将所接收到的经过变音处理的声音与预存的动画进行合成，形成模拟形象数据；第二终端播放所述模拟形象数据。本发明具有通讯形式丰富、操作方便以及网络传输效率高的优点。

Description

说明书即时通讯方法、系统、通讯信息处理方法、终端及存储介质本专利申请要求于 2012年 12月 04日提交的、申请号为 201210510615.X、申请人为腾讯科技（深圳）有限公司、发明名称为"即时通讯方法及系统、通讯信息处理方法、终端"的中国专利申请的优先权，该申请的全文以引用的方式并入本申请中。

技术领域

本发明涉及互联网技术领域，特别涉及一种即时通讯方法、系统、通讯信息处理方法、终端及存储介质。

背景技术

随着科学技术的迅速发展，通信科技的日新月异，移动通信终端已被人们广泛应用于日常生活和学习中，人们通过移动通信终端和网络进行通话或互发短信息，不但大大拉近了人们彼此之间的距离，还为人们的联系和信息交流带来了极大的便利。

目前，网络聊天的沟通方式包括文字、表情（包括系统表情和自定义表情）、图片（包含涂鸦）、语音消息、文本消息、视频（包含视频聊天、离线视频），虽然形式众多，但是仍然有一定局限性，无法充分满足用户的需求，具体如下：文字是使用最广泛的聊天方式，但其表现形式单一，很难表达出用户当时真实的感受与心情，从而导致聊天中误解的情况频频发生。语音消息、文本消息与文字的聊天方式一样，也有表现形式单一的缺点。图片和表情的使用可以丰富用户情感的表达，然而在使用图片或表情的过程中，用户经常要在大量的图片或表情中搜索合适自己当前状态的图片或表情，操作起来较为不便。视频聊天可以将聊天双方的影像进行真实呈现，但是视频数据的传输需要占用较大的带宽，需要较长的发送时间，也需要较多的流量费用，在网络状态不好或带宽较窄的情况下，视频效果并不理想。综上所述，目前需要一种聊天方式，以解决现有的即时聊天方式表现形式单调、操作不便以及流量大的问题。

发明内容

本发明的目的是提供一种即时通讯方法、系统、通讯信息处理方法、终端及存储介质，以解决现有的即时聊天方式表现形式单调、操作不便以及流量大的问题。

本发明提出一种即时通讯方法，包括：

第一终端接收用户录入的声音，并对所述用户录入的声音进行变音处理；第一终端将经过变音处理的声音发送给第二终端；

第二终端将所接收到的所述经过变音处理的声音与预存的动画进行合成，形成模拟形象数据；

第二终端播放所述模拟形象数据。

本发明还提出一种通讯信息处理方法，包括：

接收来自通讯对象的经过变音处理的声音；

将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据；播放所述模拟形象数据。

本发明还提出一种即时通讯系统，包括通过网络相互连接的至少两个终端，每个终端包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对用户录入的声音进行变音处理；

通讯模块，用于将所述经过变音处理的声音发送给其它终端，或者接收来自其它终端的经过变音处理的声音；

合成模块，用于将所接收到的来自其它终端的经过变音处理的声音与所述存储模块中存放的动画进行合成，形成模拟形象数据；

播放模块，用于播放所述模拟形象数据。本发明还提出一种终端，包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对用户录入的声音进行变音处理；

播放模块，用于播放所述模拟形象数据。

本发明还提供一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种即时通讯方法，所述方法包括以下步骤：

第二终端播放所述模拟形象数据。

本发明又提供一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种通讯信息处理方法，所述方法包括以下步骤：

接收来自通讯对象的经过变音处理的声音；

相对于现有技术，本发明的有益效果是：

( 1 )、本发明提出一种全新的沟通介质，采用一种既有表情动画，又包含个性化声音的全新通讯方式，并且通过智能化处理以模拟形象的形式展现，可

( 2 )、本发明通过对用户录入的声音和选择的形象进行自动匹配，来形成模拟形象数据，这样使得用户操作非常简单。

( 3 )、本发明可以只在网络中传输经过变音处理的声音，然后根据接收到的声音与本地的动画进行相应的匹配，这样大大节约了网络传输的流量，也缩短了发送响应时间，提高了通讯效率。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图 1为本发明实施例提供的一种即时通讯方法的流程图；

图 2为本发明实施例提供的一种形成模拟形象数据的过程示意图；图 3为本发明实施例提供的另一种即时通讯方法的流程图；

图 4为本发明实施例提供的一种通讯信息处理方法的流程图；

图 5为本发明实施例提供的另一种通讯信息处理方法的流程图；

图 6为本发明实施例提供的一种即时通讯系统的结构图；

图 7为本发明实施例提供的一种终端的结构图；

图 8为本发明实施例提供的另一种终端的结构图。

具体实施方式

为更进一步阐述本发明达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明所提出的即时通讯方法、系统、通讯信息处理方法、终端及存储介质的具体实施方式、方法、步骤及功效，详细说明如后。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可被清楚的呈现。通过具体实施方式的说明，可得以然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。本发明提出一种全新的沟通介质，采用一种既有表情动画，又包含声音的全新通讯方式，并且通过一些智能化处理以模拟形象的形式展现。请参见图 1 , 其为本发明实施例提供的一种即时通讯方法的流程图，其包括以下步骤：

5101 , 第一终端接收用户录入的声音，并对该用户录入的声音进行变音处理。

声音可以是通过麦克风由用户实时录入，或者也可以预先录制好后直接传输给第一终端的。在用户录入声音之后，可以使用音频处理库（Soundtouch ) 对声音进行处理。 Soundtouch主要实现变速、变调、变速同时变调等三个功能，能够对媒体流进行实时操作，也能对音频文件进行操作。在本发明中，可以通过对 Soundtouch的 rate (速度）、 tempo (节奏）、 pitch (音高）三个参数进行调节，从而对用户的声音进行变化，模拟出一些特殊的声音。例如将参数 pitch 调节成 0. 8即可模拟出较为低沉緩慢的牛和熊的声音；如果将参数调节成 1. 2 , 即可模拟出较为高亢的鸡的声音。通过变音处理后的声音会更加个性与生动，用户可以根据当前心情或状态模拟出适合的声音，这样使得通讯过程不会显得呆板而会显得更加丰富。

5102 , 第一终端将经过变音处理的声音发送给第二终端。

本发明是将声音与动画相结合的通讯方式，但是如果由第一终端直接向第二终端发送完整的动画动作和声音会浪费流量，也会需要较长的发送响应时间，因此本实施例只需要发送经过变音处理的声音给对方，对方根据接收到的声音与本地的动画进行相应的匹配，在本地形成完整的动画动作 +声音的模拟形象。这种技术逻辑解决了发送完整的动画 +声音会导致需要更长时间且更费流量的问题。

5103 , 第二终端将所接收到的经过变音处理的声音与预存的动画进行合成，形成模拟形象数据。

第二终端所预存的动画可以是多个，而与声音合成的动画可以是随机选择的，也可以是由用户选定的。合成的声音和动画要具有一致性，这样才能形象地刻画用户当前的心情，因此可以以声音的音量或音调来作为基准，匹配合适的动画。例如当用户的声音音量较大，音调较高的时候，可以选择动作较为夸张的动画；当用户的声音音量较小，音调较低沉的时候，可以选择与之风格一致的动画，以实现尽可能的模仿在交流沟通中的真实场景。

在具体实现时，可以先定义一个匹配规则： ^叚设其中一个动画可以分成 N 个动作图片，且每个动作图片的动作风格不同，如果以音量来选择相应的动画，则可以设定一个音量上限 Volmax,同时将音量从 0到 Volmax之间分成与动作图片数量相等，编号为 1到 N的 N段，然后将 N个动作图片分别对应到不同的音量上，动作幅度越小的动作图片对应的音量越小。

为经过变音处理的声音匹配合适的动作图片时，可以将经过变音处理的声音划分成多个时间段，并采样每个时间段的音量的平均值。而每个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近，这样就能找出与每个音量的平均值对应的动作图片。找出所有的各个时间段的音量平均值所对应的动作图片之后，就可以将这些动作图片组合成连续的动画，而这个动画的动作风格就可以与经过变音处理的声音的音量相符合，最后将经过变音处理的声音与动画结合起来，形成模拟形象数据，这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。如图 2 所示，其为上述形成模拟形象数据的过程示意图，其中 n为对经过变音处理的声音进行划分的而得到的时间段的数量。

S104, 第二终端播放所述模拟形象数据。

播放模拟形象数据的过程即是同时播放经变音处理的声音以及相应的动画的过程，与现有通讯方式不同的是，本发明形象生动地呈现出了通讯用户真实的状态。但是每个人的声音语速快慢，音调高低各有不同，因此在播放模拟形象数据时，要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步，身体动作的快慢也要跟语速的快慢同步匹配。

具体实现时，可以在播放经过变音处理的声音的同时，对每个时间段的音量或音调的平均值进行采样，然后根据每个时间段采样到的音量或音调的平均值，同步显示对应的动作图片，这样就可以实现动作与声音的匹配。

此外，在播放模拟形象数据的开始和结束阶段，都可以加入有一些固定的动画动作，这些动作与用户的声音无关，只是固定存在以增加趣味性的动画动作。

请参见图 3 , 其为本发明实施例提供的另一种即时通讯方法的流程图，其包括以下步骤：

5301 , 第一终端接收用户录入的声音，并对用户录入的声音进行变音处理。

5302 , 第一终端接收用户选择的形象角色标识。

5303 , 第一终端将经过变音处理的声音以及形象角色标识发送给第二终端。

5304, 第二终端将经过变音处理的声音与预存的并且是所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

5305 , 第二终端播放所述模拟形象数据。

第二实施例与第一实施例的不同在于，用户可以通过形象角色标识来选择其希望展现给对方的动画形象，其中每个形象角色标识均对应预存的一种形象的动画，这样也使得通讯内容更加丰富。

实施例一和实施例二中的通讯方法是由第一终端向第二终端发送通讯信息，并由第二终端进行播放，旨在说明通讯信息的构成以及通讯的方式，而传输方式并不仅限于此，即也可以由第二终端向第一终端发送通讯信息，并由第一终端进行播放。

本发明还提出一种通讯信息处理方法，其是一种对由动画效果和声音效果相结合而形成的通讯信息的处理方法，请参见图 4, 其包括以下步骤：

S401 , 接收来自通讯对象的经过变音处理的声音。

这里所述的通讯对象可以是用户终端或通讯平台。其中，经过变音处理的声音可以是通过麦克风由用户实时录入的，也可以是预先录制好的。而声音可以是使用音频处理库 ( Soundtouch )进行处理的，通过对 Soundtouch的 rate, tempo, pitch三个参数进行调节，可以对用户的声音进行变化，模拟出一些特殊的声音。例如将参数 pitch调节成 0. 8即可模拟出较为低沉緩慢的牛和熊的声音；如果将参数调节成 1. 2 , 即可模拟出较为高亢的鸡的声音。通过变音处理后的声音会更加个性与生动，用户可以根据当前心情或状态模拟出适合的声音，这样使得通讯过程不会显得呆板而会更加丰富。

本发明是将声音与动画相结合的通讯方式，但是如果由通讯对象直接发送完整的动画动作和声音会浪费较多流量，也需要较长的发送响应时间，因此本实施例只需要接收经过变音处理的声音，然后根据接收到的声音与本地的动画进行相应的匹配，在本地形成完整的动画动作 +声音的模拟形象。这种技术逻辑解决了发送完整的动画 +声音会需要更长时间且更费流量的问题。

5402 , 将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据。这里所述预存的动画可以是多个，而与声音合成的动画可以是从中随机选择的，也可以是由用户选定的。合成的声音和动画要具有一致性，这样才能形象地刻画用户当前的心情，因此可以以声音的音量或音调来作为基准，匹配合适的动画，以尽可能地模仿在交流沟通中的真实场景。

为经过变音处理的声音匹配合适的动作图片时，可以将经过变音处理的声音划分成多个时间段，并采样每个时间段的音量的平均值。而每个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近，这样就能找出与每个音量的平均值对应的动作图片。找出所有的各个时间段的音量平均值所对应的动作图片之后，就可以将这些动作图片组合成连续的动画，而这个动画的动作风格就可以与经过变音处理的声音的音量相符合，最后将经过变音处理的声音与动画结合起来，形成模拟形象数据，这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。

5403 , 播放所述模拟形象数据。

播放模拟形象数据的过程即为同时播放经变音处理的声音以及相应的动画的过程，与现有通讯方式不同的是，本发明形象生动地呈现出了用户真实的状态。但是每个人的声音语速快慢，音调高低各有不同，因此在播放模拟形象数据时，要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步，身体动作的快慢也要跟语速的快慢同步匹配。具体实现时，可以在播放经过变音处理的声音的同时，对每个时间段的音量或音调的平均值进行采样，然后根据每个时间段采样到的音量或音调的平均值，同步显示对应的动作图片，这样就可以实现动作与声音的匹配。

请参见图 5 , 其为本发明实施例提供的另一种通讯信息处理方法的流程图，其包括以下步骤：

5501 , 接收来自通讯对象的经过变音处理的声音。

5502 , 接收来自通讯对象的形象角色标识。

5503 , 将经过变音处理的声音与预存的并与所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

5504, 播放所述模拟形象数据。

第四实施例与第三实施例的不同在于，可以通过通讯对象发送来的形象角色标识来选择其希望展现的动画形象，其中每个形象角色标识均对应预存的一种形象的动画，这样也使得通讯内容更加丰富。

本发明还提出一种即时通讯系统，请参见图 6 , 其包括通过网络相互连接的至少两个终端 60 ,终端 60之间可以通过动画与声效相结合的模拟形象方式进行通讯。

请参见图 7 , 其为本发明实施例的一种终端的结构图，其包括存储模块 61、录音模块 62、变音模块 63、通讯模块 64、合成模块 65以及播放模块 66 , 变音模块 63与录音模块 62相连，通信模块 64分别与变音模块 63及合成模块 65相连，存储模块 61与播放模块 66均与合成模块 65相连。

终端 60之间进行通讯时（现以两个终端 60之间的一次通讯信息的传送为例来进行说明 ), 用户首先通过录音模块 62进行声音的录制，录音模块 62可以是麦克风。当然，用户也可以事先录制好声音（如常用的一些聊天语句），并存储在本地的数据库中，这样就可以直接选用已录制好的声音，从而可以提高通讯效率。声音录制完毕后，通过变音模块 63 进行变音处理。优选采用音频处理库 ( Soundtouch )作变音处理。 Soundtouch主要实现包含变速、变调、变速同时变调等三个功能，能够对媒体流实时操作，也能对音频文件操作。可以通过对 Soundtouch的 rate、 tempo, pitch三个参数进行调节, 从而对用户的声音进行变化，模拟出一些特殊的声音。例如将参数 pitch调节成 0. 8即可模拟出较为低沉緩慢的牛和熊的声音，如果将参数调节成 1. 2 , 即可模拟出较为高亢的鸡的声音。用户可以根据当前心情或状态模拟出适合的声音，从而使其变得更加个性与生动。

变音完成后，便可以通过通信模块 64发送给另一个终端 60。另一个终端 60的通信模块 64收到该经过变音处理的声音后，传送给合成模块 65进行处理。合成模块 65会将该经过变音处理的声音与存储模块 61中存放的动画进行合成，形成模拟形象数据。声音与动画的合成要一致，可以以声音的音量或音调来作为基准，匹配合适的动画。例如当用户的声音音量较大，音调较高的时候，可以选择动作较为夸张的动画；当用户的声音音量较小，音调较低沉的时候，可以选择与之风格一致的动画，以使得尽可能的模仿在交流沟通中的真实场景。

合成完毕后，模拟形象数据会被传送到播放模块 66进行播放。播放模拟形象数据的过程即为同时播放经变音处理的声音以及相应的动画的过程，至此，一次通讯数据的传输完成。与现有通讯方式不同的是，本发明形象生动地呈现出了用户真实的状态。

值得注意的是，由于动画的数据量较大，网络传输动画所需的流量也较大，也需要较长的发送响应时间，所以本实施例是由一个终端录制声音后，将经变音处理的声音传输给另一个终端，并由另一个终端完成声音与动画的合成。这种优选的数据传输方式也解决了发送完整的动画 +声音会需要更长时间且更费流量的问题。但并不以此限制本发明，如果在网络带宽充裕的情况下，也可以由一个终端完成声音和动画的合成，然后将模拟形象数据传送到另一终端上直接进行播放。这种形式下，由于声音的录制和声音 +动画的合成是在同一个终端，可以更容易地对声音与动画进行搭配，甚至可以以动态动画（Gif动态图片）为基础配以合适的声音，合成形式较为丰富。此外，在播放模拟形象数据的开始和结束阶段，都可以加入有一些固定的动画动作，这些动作与用户的声音无关，只是固定存在以增加趣味性的动画动作。

请参见图 8, 其为本发明实施例的一种较为详尽的终端的结构图。与图 7相比，本实施例的终端 60增加了交互模块 67, 其分别与通讯模块 64及存储模块 61相连，用于接收用户选择的形象角色标识，所述的形象角色标识与存储模块 61中存放的至少一个动画相对应。存储模块 61存储的动画形象可以是多种多样的，因此在一个终端上，用户可以通过交互模块 67输入的形象角色标识来选择希望展现给对方的动画形象，然后通过通讯模块 64将形象角色标识与经过变音处理的声音一同发送给另一终端，然后由另一终端根据该形象角色标识找出其在存储模块 61 中对应的动画，然后由合成模块 65将声音与动画进行合成，形成模拟形象数据。

本实施例中的合成模块 65 包括选取单元 651、分隔单元 652、第一采样单元 653、匹配单元 654及组合单元 655 , 选取单元 651分别与通讯模块 64及存储模块 61相连，分隔单元 652与通讯模块 64相连，第一采样单元 653与分隔单元 652相连，匹配单元 654分别与第一采样单元 653及选取单元 651连接，组合单元 655分别与匹配单元 654及播放模块 66相连。

本实施例的合成模块 65通过声音的音量或音调来作为基准，匹配合适的动画。为了达到声音和动画的一致性，可以先定义一个匹配规则：假设其中一个动画可以被分成 N个动作图片，且每个动作图片的动作风格不同，如果以音量来选择相应的动画，则可以设定一个音量上限 Volmax,同时将音量从 0到 Volmax 之间分成与动作图片数量相等，编号为 1到 N的 N段，然后将 N个动作图片分别对应到不同的音量上，动作幅度越小的动作图片对应的音量越小。

实际操作时，先由选取单元 651根据通讯模块 64接收到的形象角色标识从存储模块 61中选取对应的图片组（即由 N个图片组成的与形象角色标识对应动画）。同时，分隔单元 652将通讯模块 64接收到的经过变音处理的声音划分成多个时间段，并由第一采样单元 653 采样每个时间段的音量的平均值，而每个个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近。然后匹配单元 654会根据每个时间段的音量或音调的平均值获取选取单元 651选出的图片组中每个时间段所对应的动作图片。找出所有的各个时间段的音量平均值所对应的动作图片之后，就可以通过组合单元 655将这些动作图片组合成连续的动画，而这个动画的动作风格就可以与经过变音处理的声音的音量相符合，最后组合单元 655将经过变音处理的声音与动画结合起来，形成模拟形象数据，这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反应出用户的状态及心情。

由于每个人的声音语速快慢，音调高低各有不同，因此在播放模拟形象数据时，要实现声音和动作的同步匹配。例如嘴型的变化同用户说话的语速快慢基本同步，身体动作的快慢也要跟语速的快慢同步匹配。为此，本实施例的播放模块 66进一步包括声音播放单元 661、第二采样单元 662、图片提取单元 663 及显示单元 664, 声音播放单元 661与组合单元 655相连，第二采样单元 662与声音播放单元 661相连，图片提取单元 663分别与组合单元 655及第二采样单元 662相连，显示单元 664与图片提取单元 663相连。

播放时，由声音播放单元 661播放经过变音处理的声音，并在播放的同时，通过第二采样单元 662对每个时间段的音量或音调的平均值进行采样。然后图片提取单元 663根据第二采样单元 662采样到的每个时间段的音量或音调的平均值，提取相应的动作图片，并通过显示单元 664 同步显示，这样就可以实现动画动作与声音的一致匹配。

本发明还提出一种终端，该终端与图 7及图 8的实施例中所述的终端结构、功能及工作原理相同，在此不再赘述。

第二终端播放所述模拟形象数据。本发明又提供一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种通讯信息处理方法，所述方法包括以下步骤：

接收来自通讯对象的经过变音处理的声音；

本发明提出一种全新的沟通介质，采用一种既有表情动画，又包含个性化声音的全新通讯方式，并且通过智能化处理以模拟形象的形式展现，可以生动且准确地反应出用户的状态及心情。

本发明对用户录入的声音和选择的形象进行自动匹配，以形成模拟形象数据，用户操作非常简单。

本发明可以只在网络中传输经过变音处理的声音，然后根据接收到的声音与本地的动画进行相应的匹配，这样大大节约了网络传输的流量，也缩短了发送响应时间，提高了通讯效率。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，都可利用上述揭示的技术内容作出些许更动或修饰而形成等同变化的等效实施例，但凡是未脱离改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

权利要求书

1、一种即时通讯方法，其特征在于，包括：

第二终端播放所述模拟形象数据。

2、如权利要求 1所述的即时通讯方法，其特征在于，所述第一终端接收用户录入的声音，并对所述用户录入的声音进行变音处理的步骤包括：

利用音频处理库对所述用户录入的声音进行变音处理。

3、如权利要求 1所述的即时通讯方法，其特征在于，

在所述第一终端将经过变音处理的声音发送给第二终端的步骤之前还包括：第一终端接收用户选择的形象角色标识；

所述第一终端将经过变音处理的声音发送给第二终端的步骤包括：第一终端将经过变音处理的声音以及形象角色标识发送给第二终端；

所述第二终端将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据的步骤包括：第二终端将经过变音处理的声音与预存的并且是所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

4、如权利要求 3所述的即时通讯方法，其特征在于，所述第二终端将经过变音处理的声音与预存的并且是所述形象角色标识所对应的动画进行合成，形成模拟形象数据的步骤包括：

根据所述形象角色标识选取预存的图片组；

将所述经过变音处理的声音划分成多个时间段，并采样每个时间段的音量或音调的平均值；

根据所述每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片；

将动作图片组合成连续的所述动画，并结合所述声音形成所述模拟形象数据。

5、如权利要求 4所述的即时通讯方法，其特征在于，所述第二终端播放所述模拟形象数据的步骤包括：

播放所述经过变音处理的声音，并同时对每个时间段的音量或音调的平均值进行采样；

根据每个时间段采样到的音量或音调的平均值，同步显示对应的动作图片。

6、一种通讯信息处理方法，其特征在于，包括：

接收来自通讯对象的经过变音处理的声音；

7、如权利要求 6所述的通讯信息处理方法，其特征在于，所述经过变音处理的声音是利用音频处理库进行的。

8、如权利要求 6所述的通讯信息处理方法，其特征在于，

所述将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据的步骤之前包括：接收来自通讯对象的形象角色标识；

所述将经过变音处理的声音与预存的动画进行合成，形成模拟形象数据的步骤包括：将经过变音处理的声音与预存的并且是所述形象角色标识所对应的动画进行合成，形成模拟形象数据。

9、如权利要求 8所述的通讯信息处理方法，其特征在于，所述将经过变音处理的声音与预存的并且是所述形象角色标识所对应的动画进行合成，形成模拟形象数据的步骤包括：

根据形象角色标识选取预存的图片组；

10、如权利要求 9 所述的通讯信息处理方法，其特征在于，所述播放所述模拟形象数据的步骤包括：播放所述经过变音处理的声音，并同时对每个时间段的音量或音调的平均值进行采样；

11、一种即时通讯系统，包括通过网络相互连接的至少两个终端，其特征在于，每个终端包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对所述用户录入的声音进行变音处理；

播放模块，用于播放所述模拟形象数据。

12、如权利要求 11所述的即时通讯系统，其特征在于，所述变音模块利用音频处理库对所述用户录入的声音进行变音处理。

13、如权利要求 11所述的即时通讯系统，其特征在于，每个终端还包括：交互模块，用于接收用户选择的形象角色标识，所述形象角色标识与所述存储模块中存放的至少一个动画相对应；

所述通讯模块在与其它终端进行通信时，将所述形象角色标识与所述经过变音处理的声音一同发送给其它终端，或者接收来自其它终端的形象角色标识与经过变音处理的声音；

所述合成模块形成所述模拟形象数据时，将所接收到的来自其它终端的经过变音处理的声音与所述存储模块中存放的并与所接收到的来自其它终端的形象角色标识所对应的动画进行合成，并形成所述模拟形象数据。

14、如权利要求 13所述的即时通讯系统，其特征在于，所述合成模块包括：选取单元，用于根据所接收到的来自其它终端的形象角色标识从所述存储模块中选取对应的图片组；

分隔单元，用于将所接收到的来自其它终端的经过变音处理的声音划分成多个时间段；

第一采样单元，用于采样每个时间段的音量或音调的平均值；

匹配单元，用于根据每个时间段的音量或音调的平均值获取所述图片组中每个时间段所对应的动作图片；

组合单元，用于将动作图片组合成连续的所述动画，并结合所述声音形成所述模拟形象数据。

15、如权利要求 14所述的即时通讯系统，其特征在于，所述显示模块又包括：

声音播放单元，用于播放所接收到的来自其它终端的所述经过变音处理的声音；

第二采样单元，用于在所述声音播放单元进行播放的同时，对每个时间段的音量或音调的平均值进行采样；

图片提取单元，用于根据每个时间段采样到的音量或音调的平均值，同步提取相应的动作图片；

显示单元，用于同步显示所述图片提取单元提取到的动作图片。

16、一种终端，其特征在于，包括：

存储模块，用于存放多个动画；

录音模块，用于接收用户录入的声音；

变音模块，用于对所述用户录入的声音进行变音处理；

合成模块，用于将所接收到的来自其它终端的所述经过变音处理的声音与所述存储模块中存放的动画进行合成，形成模拟形象数据；

播放模块，用于播放所述模拟形象数据。

17、如权利要求 16所述的终端，其特征在于，所述变音模块利用音频处理库对所述用户录入的声音进行变音处理。

18、如权利要求 16所述的终端，其特征在于，还包括：

交互模块，用于接收用户选择的形象角色标识，所述形象角色标识与所述存储模块中存放的至少一个动画相对应；

所述合成模块形成所述模拟形象数据时，将接收到的来自其它终端的经过变音处理的声音与所述存储模块中存放的并与接收到的来自其它终端的形象角色标识所对应的动画进行合成，并形成所述模拟形象数据。

19、如权利要求 18所述的终端，其特征在于，所述合成模块又包括：选取单元，用于根据接收到的来自其它终端的形象角色标识从所述存储模块中选取对应的图片组；

分隔单元，用于将接收到的来自其它终端的经过变音处理的声音划分成多个时间段；

组合单元，用于将所述动作图片组合成连续的所述动画，并结合所述声音形成所述模拟形象数据。

20、如权利要求 19所述的终端，其特征在于，所述显示模块又包括：声音播放单元，用于播放接收到的来自其它终端的所述经过变音处理的声音；

21、一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种即时通讯方法，其特征在于，所述方法包括以下步骤：

第二终端播放所述模拟形象数据。

22、一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种通讯信息处理方法，其特征在于，所述方法包括以下步骤：接收来自通讯对象的经过变音处理的声音；