WO2014086216A1 - 即时通讯方法、系统、通讯信息处理方法、终端及存储介质 - Google Patents

即时通讯方法、系统、通讯信息处理方法、终端及存储介质 Download PDF

Info

Publication number
WO2014086216A1
WO2014086216A1 PCT/CN2013/086132 CN2013086132W WO2014086216A1 WO 2014086216 A1 WO2014086216 A1 WO 2014086216A1 CN 2013086132 W CN2013086132 W CN 2013086132W WO 2014086216 A1 WO2014086216 A1 WO 2014086216A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
sound
terminal
image data
animation
Prior art date
Application number
PCT/CN2013/086132
Other languages
English (en)
French (fr)
Inventor
唐沐
戴永裕
叶波
罗运广
蔡锦彬
宋睿
Original Assignee
腾讯科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 腾讯科技(深圳)有限公司 filed Critical 腾讯科技(深圳)有限公司
Publication of WO2014086216A1 publication Critical patent/WO2014086216A1/zh
Priority to US14/731,373 priority Critical patent/US9626984B2/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/06Message adaptation to terminal or network requirements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/56Unified messaging, e.g. interactions between e-mail, instant messaging or converged IP messaging [CPM]

Definitions

  • the instant messaging method, the system, the communication information processing method, the terminal and the storage medium The instant messaging method, the system, the communication information processing method, the terminal and the storage medium.
  • the patent application is filed on December 4, 2012, the application number is 201210510615.X, the applicant is Tencent Technology (Shenzhen) Co., Ltd., and the invention name is The priority of the Chinese patent application of the instant messaging method and system, the communication information processing method, and the terminal is incorporated herein by reference.
  • the present invention relates to the field of Internet technologies, and in particular, to an instant messaging method, system, communication information processing method, terminal, and storage medium.
  • web chat communication methods include text, expressions (including system emoticons and custom emoticons), pictures (including graffiti), voice messages, text messages, videos (including video chats, offline videos), although there are many forms, but there are still Certain limitations, can not fully meet the needs of users, as follows: Text is the most widely used chat method, but its manifestation is single, it is difficult to express the user's real feelings and mood at the time, resulting in frequent misunderstandings in the chat . Voice messages, text messages, and text chats have the same shortcomings. The use of pictures and expressions can enrich the expression of user emotions. However, in the process of using pictures or expressions, users often have to search for a picture or expression suitable for their current state in a large number of pictures or expressions, which is inconvenient to operate.
  • Video chat can present the images of both sides of the chat, but the transmission of video data requires a large bandwidth, requires a long transmission time, and requires more traffic charges. In the case of poor network status or narrow bandwidth. Underneath, the video effect is not ideal. In summary, there is a need for a chat method to solve the problem of monotonous, inconvenient operation and large traffic in the existing instant chat mode.
  • the object of the present invention is to provide an instant messaging method, a system, a communication information processing method, a terminal, and a storage medium, so as to solve the problem that the existing instant chat mode has a monotonous expression, inconvenient operation, and large traffic.
  • the invention provides an instant messaging method, which comprises:
  • the first terminal receives the voice recorded by the user, and performs a voice-changing process on the voice recorded by the user; the first terminal sends the sound processed by the voice-changing to the second terminal;
  • the second terminal synthesizes the received sound processed sound and the pre-stored animation to form simulated image data
  • the second terminal plays the simulated image data.
  • the invention also provides a communication information processing method, comprising:
  • the sound processed by the sound processing is combined with the pre-stored animation to form simulated image data; and the simulated image data is played.
  • the invention also provides an instant messaging system, comprising at least two terminals connected to each other through a network, each terminal comprising:
  • a storage module for storing a plurality of animations
  • a recording module configured to receive a sound input by a user
  • a sound-changing module for performing a voice-changing process on a voice recorded by a user
  • a communication module configured to send the voice-changed sound to other terminals, or receive a voice-changed sound from another terminal;
  • a synthesizing module configured to synthesize the received sound processed sounds from other terminals and the animation stored in the storage module to form simulated image data
  • the invention also provides a terminal, comprising:
  • a storage module for storing a plurality of animations
  • a recording module configured to receive a sound input by a user
  • a sound-changing module for performing a voice-changing process on a voice recorded by a user
  • a communication module configured to send the voice-changed sound to other terminals, or receive a voice-changed sound from another terminal;
  • a synthesizing module configured to synthesize the received sound processed sounds from other terminals and the animation stored in the storage module to form simulated image data
  • a playing module configured to play the simulated image data.
  • the present invention also provides one or more storage media containing computer executable instructions for performing an instant messaging method, the method comprising the steps of:
  • the first terminal receives the voice recorded by the user, and performs a voice-changing process on the voice recorded by the user; the first terminal sends the sound processed by the voice-changing to the second terminal;
  • the second terminal synthesizes the received sound processed sound and the pre-stored animation to form simulated image data
  • the second terminal plays the simulated image data.
  • the present invention further provides one or more storage media containing computer executable instructions for performing a communication information processing method, the method comprising the steps of:
  • the sound processed by the sound processing is combined with the pre-stored animation to form simulated image data; and the simulated image data is played.
  • the present invention proposes a brand-new communication medium, which adopts a new communication method that has both an expression animation and a personalized sound, and is displayed in an analog image through intelligent processing.
  • the present invention forms analog image data by automatically matching the voice recorded by the user with the selected image, so that the user operation is very simple.
  • the present invention can transmit the sound processed through the voice change only in the network, and then according to the received The sound is matched with the local animation, which greatly saves the traffic of the network transmission, shortens the response time and improves the communication efficiency.
  • FIG. 1 is a flowchart of an instant messaging method according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of a process for forming simulated image data according to an embodiment of the present invention
  • FIG. 3 is a flowchart of another instant messaging method according to an embodiment of the present invention
  • FIG. 4 is a flowchart of a method for processing communication information according to an embodiment of the present invention.
  • FIG. 5 is a flowchart of another method for processing communication information according to an embodiment of the present invention.
  • FIG. 6 is a structural diagram of an instant messaging system according to an embodiment of the present invention.
  • FIG. 7 is a structural diagram of a terminal according to an embodiment of the present invention.
  • FIG. 8 is a structural diagram of another terminal according to an embodiment of the present invention.
  • FIG. 1 is a flowchart of an instant messaging method according to an embodiment of the present invention, which includes the following steps:
  • the first terminal receives the voice recorded by the user, and performs voice-changing processing on the voice recorded by the user.
  • the sound can be recorded by the user in real time through a microphone, or it can be pre-recorded and transmitted directly to the first terminal.
  • the sound can be processed using the Sound Processing Library (Soundtouch).
  • Soundtouch mainly implements three functions of shifting, transposition, and variable speed simultaneous transposition, which can operate the media stream in real time and also operate on audio files.
  • the soundtouch's rate (tempo), tempo (rhythm), pitch (pitch) parameters can be adjusted to change the user's voice to simulate some special sounds. For example, adjusting the parameter pitch to 0.8 can simulate the sound of a slower and slower cow and bear; if the parameter is adjusted to 1. 2, the sound of a taller chicken can be simulated.
  • the sound after the sound processing will be more individual and vivid, and the user can simulate the appropriate sound according to the current mood or state, so that the communication process will not appear dull and will be more abundant.
  • the first terminal sends the voice that is subjected to the voice processing to the second terminal.
  • the present invention is a communication method combining sound and animation, but if a complete animation action and sound is directly transmitted to the second terminal by the first terminal, the traffic is wasted, and a long transmission response time is required, so this embodiment only It is necessary to send the sound that has been subjected to the sound processing to the other party, and the other party performs a corresponding matching with the local animation according to the received sound, and forms a complete animation motion + sound simulation image locally. This technical logic solves the problem of sending a full animation + sound that can take longer and more traffic.
  • the second terminal synthesizes the received sound processed sound and the pre-stored animation to form simulated image data.
  • the animation pre-stored by the second terminal may be multiple, and the animation synthesized with the sound may be randomly selected or selected by the user.
  • the synthesized sounds and animations must be consistent so that the user's current mood can be visually portrayed, so the sound volume or pitch can be used as a benchmark to match the appropriate animation. For example, when the user's voice volume is louder and the pitch is higher, the action can be more praised. Zhang's animation; When the user's voice volume is small and the pitch is low, you can choose the animation that is consistent with the style, in order to realize the real scene in the communication as much as possible.
  • the upper limit Volmax at the same time, divides the volume from 0 to Volmax into equal numbers of action pictures, numbered N to N segments, and then N motion pictures are respectively assigned to different volume levels, and the action picture with smaller motion amplitude corresponds to The smaller the volume.
  • the voice-changed sound can be divided into a plurality of time periods, and the average of the volume of each time period is sampled.
  • the average value of each volume will be equal to or closest to a volume point in the previously defined rule, so that an action picture corresponding to the average of each volume can be found.
  • these action pictures can be combined into a continuous animation, and the action style of the animation can match the volume of the sound processed by the sound change.
  • the sound-converted sound is combined with the animation to form the simulated image data, so that the animation effect and the sound effect contained in the simulated image data can vividly and accurately reflect the user's state and mood.
  • Fig. 2 it is a schematic diagram of the above process of forming analog image data, where n is the number of time periods obtained by dividing the sound processed by the sound processing.
  • the second terminal plays the simulated image data.
  • the process of playing the simulated image data is the process of simultaneously playing the sound-changing sound and the corresponding animation.
  • the image of the present invention vividly presents the true state of the communication user.
  • each person's voice speed is different, and the pitch is different. Therefore, when playing analog image data, the sound and motion should be synchronized.
  • the change of the mouth type is basically synchronized with the speed of the speech of the user, and the speed of the body movement is also matched with the speed of the speech rate.
  • the volume of the sound or the average of the tones of each time period may be sampled while playing the sound processed by the sound processing, and then the average value of the volume or pitch sampled according to each time period is synchronously displayed.
  • the action picture so that the action and sound can be matched.
  • some fixed animation actions can be added at the beginning and end of the playback of the simulated image data. These actions are independent of the user's voice, but are fixed to enhance the animated animation. Work.
  • FIG. 3 it is a flowchart of another instant messaging method according to an embodiment of the present invention, which includes the following steps:
  • the first terminal receives the voice recorded by the user, and performs voice processing on the voice recorded by the user.
  • the first terminal receives an image role identifier selected by a user.
  • the first terminal sends the sound processed by the voice change and the image role identifier to the second terminal.
  • the second terminal synthesizes the sound processed by the sound processing with the pre-stored animation corresponding to the image character identifier to form simulated image data.
  • the second terminal plays the simulated image data.
  • the second embodiment is different from the first embodiment in that the user can select an animated image that he wishes to display to the other party through the image character identification, wherein each of the image character identifiers corresponds to a pre-stored image of an image, which also enables communication.
  • the content is more abundant.
  • the communication method in the first embodiment and the second embodiment is that the first terminal sends the communication information to the second terminal, and is played by the second terminal, which is intended to explain the composition of the communication information and the manner of communication, and the transmission method is not limited to Therefore, the communication information may be sent by the second terminal to the first terminal, and played by the first terminal.
  • the present invention also provides a communication information processing method, which is a processing method for communication information formed by combining an animation effect and a sound effect.
  • a communication information processing method which is a processing method for communication information formed by combining an animation effect and a sound effect. Referring to FIG. 4, the method includes the following steps:
  • the communication object described here may be a user terminal or a communication platform.
  • the sound processed by the sound processing may be recorded by the user in real time through a microphone, or may be pre-recorded.
  • the sound can be processed using the sound processing library (Soundtouch).
  • Soundtouch Sound processing library
  • the user's voice can be changed to simulate some special sounds. For example, adjusting the parameter pitch to 0.8 can simulate the sound of a slower and slower cow and bear; if the parameter is adjusted to 1. 2, the sound of a taller chicken can be simulated.
  • the sound after the sound processing will be more individual and vivid, and the user can simulate the appropriate sound according to the current mood or state, so that the communication process will not appear dull and more abundant.
  • the present invention is a communication method combining sound and animation, but if directly transmitted by a communication object
  • the complete animation action and sound wastes a lot of traffic, and also requires a long transmission response time. Therefore, in this embodiment, only the sound processed by the diacritical processing needs to be received, and then the corresponding sound is matched with the local animation according to the received sound. Form a complete animation action + sound simulation image locally. This technical logic solves the problem of sending a full animation + sound that takes longer and is more fluid.
  • the pre-stored animations described herein may be plural, and the animations synthesized with the sound may be randomly selected therefrom or may be selected by the user.
  • the synthesized sounds and animations must be consistent so that the user's current mood can be visually portrayed, so the volume or pitch of the sound can be used as a benchmark to match the appropriate animation to mimic the real scene in communication as much as possible.
  • the upper limit Volmax at the same time, divides the volume from 0 to Volmax into equal numbers of action pictures, numbered N to N segments, and then N motion pictures are respectively assigned to different volume levels, and the action picture with smaller motion amplitude corresponds to The smaller the volume.
  • the voice-changed sound can be divided into a plurality of time periods, and the average of the volume of each time period is sampled.
  • the average value of each volume will be equal to or closest to a volume point in the previously defined rule, so that an action picture corresponding to the average of each volume can be found.
  • these action pictures can be combined into a continuous animation, and the action style of the animation can match the volume of the sound processed by the sound change.
  • the sound-converted sound is combined with the animation to form the simulated image data, so that the animation effect and the sound effect contained in the simulated image data can vividly and accurately reflect the user's state and mood.
  • the process of playing the simulated image data is the process of playing the sound processed sound and the corresponding animation at the same time.
  • the image of the present invention vividly presents the real state of the user.
  • each person's voice speed is different, and the pitch is different. Therefore, when playing analog image data, it is necessary to achieve synchronous matching of sound and motion.
  • the change of the mouth type is basically synchronized with the speed of the speech of the user, and the speed of the body movement is also matched with the speed of the speech rate.
  • the volume of the sound or the average of the tones of each time period may be sampled while playing the sound processed by the sound processing, and then the average value of the volume or pitch sampled according to each time period is synchronously displayed. The action picture, so that the action and sound can be matched.
  • some fixed animation actions can be added at the beginning and end of the playback of the simulated image data. These actions are independent of the user's voice, but are fixed to enhance the animated animation.
  • FIG. 5 is a flowchart of another method for processing communication information according to an embodiment of the present invention, which includes the following steps:
  • the difference between the fourth embodiment and the third embodiment is that the image character that is desired to be displayed can be selected by the image character identifier sent by the communication object, wherein each image character identifier corresponds to a pre-stored image of an image, and thus Make the communication content more abundant.
  • the present invention also proposes an instant messaging system, see Fig. 6, which includes at least two terminals 60 interconnected by a network, and the terminals 60 can communicate by means of an analog image combining animation and sound effects.
  • FIG. 7 is a structural diagram of a terminal according to an embodiment of the present invention, which includes a storage module 61, a recording module 62, a sound changing module 63, a communication module 64, a synthesizing module 65, and a playing module 66, and a sound changing module 63.
  • the communication module 64 is connected to the sound modification module 63 and the synthesis module 65, and the storage module 61 and the playback module 66 are connected to the synthesis module 65.
  • the user When the terminals 60 communicate with each other (the transmission of one communication information between the two terminals 60 is now taken as an example), the user first performs sound recording through the recording module 62, and the recording module 62 may be a microphone. Of course, the user can also record the sound in advance (such as some commonly used chat sentences), and store it in the local database, so that the recorded sound can be directly selected, thereby improving communication efficiency.
  • the sound processing is performed by the sound changing module 63.
  • an audio processing library Soundtouch's main functions include variable speed, variable pitch, and variable speed simultaneous transposition, which can operate the media stream in real time and also operate on audio files.
  • the communication module 64 of the other terminal 60 receives the voice-changed sound and transmits it to the synthesis module 65 for processing.
  • the synthesizing module 65 synthesizes the voiced sound and the animation stored in the storage module 61 to form simulated image data.
  • the sound and animation are synthesized in the same way, and the sound volume or tone can be used as a reference to match the appropriate animation. For example, when the user's voice volume is louder and the pitch is higher, the animation with more exaggerated motion can be selected. When the user's voice volume is small and the pitch is low, you can select the animation that matches the style, so as to make The imitation of the real scene in communication.
  • the simulated image data is transmitted to the playback module 66 for playback.
  • the process of playing the analog image data is the process of simultaneously playing the sound-changing sound and the corresponding animation, and thus, the transmission of one communication data is completed.
  • the image of the present invention vividly presents the real state of the user.
  • the present invention is not limited thereto. If the network bandwidth is sufficient, the synthesis of sound and animation can be completed by one terminal, and then the analog image data is transmitted to another terminal for direct playback.
  • FIG. 8 is a structural diagram of a more detailed terminal according to an embodiment of the present invention.
  • the terminal 60 of the embodiment adds an interaction module 67, which is respectively connected to the communication module 64 and the storage module 61, and is configured to receive an image role identifier selected by the user, and the image role identifier and storage module 61.
  • the animated image stored by the storage module 61 can be various, so that on one terminal, the user can select an animated image desired to be presented to the other party through the image character identification input by the interaction module 67, and then identify the image character through the communication module 64.
  • the synthesizing module 65 in this embodiment includes a selecting unit 651, a separating unit 652, a first sampling unit 653, a matching unit 654, and a combining unit 655.
  • the selecting unit 651 is respectively connected to the communication module 64 and the storage module 61, and the separating unit 652 and the communication unit are connected.
  • the modules 64 are connected to each other.
  • the first sampling unit 653 is connected to the separation unit 652.
  • the matching unit 654 is connected to the first sampling unit 653 and the selection unit 651, respectively.
  • the combining unit 655 is connected to the matching unit 654 and the playing module 66, respectively.
  • the synthesizing module 65 of the present embodiment uses the volume or pitch of the sound as a reference to match the appropriate animation.
  • the selection unit 651 first selects a corresponding picture group (ie, an animation corresponding to the image character identifier composed of N pictures) from the storage module 61 according to the image character identifier received by the communication module 64.
  • the separating unit 652 divides the sound-processed sound received by the communication module 64 into a plurality of time periods, and samples the average value of the volume of each time period by the first sampling unit 653, and the average of each volume The value will be equal to or closest to a volume point in the previously defined rule.
  • the matching unit 654 obtains the action picture corresponding to each time segment in the picture group selected by the selecting unit 651 according to the volume or the average value of the tones of each time period.
  • the action pictures can be combined into a continuous animation by the combining unit 655, and the action style of the animation can be compared with the sound processed by the sound processing.
  • the volume is matched, and finally the combining unit 655 combines the sound processed by the sound processing with the animation to form the simulated image data, so that the animation effect and the sound effect contained in the simulated image data can vividly and accurately reflect the user's State and mood.
  • the playing module 66 of the embodiment further includes a sound playing unit 661, a second sampling unit 662, a picture extracting unit 663, and a display unit 664.
  • the sound playing unit 661 is connected to the combining unit 655, and the second sampling unit 662 plays with the sound.
  • the unit 661 is connected, the picture extracting unit 663 is connected to the combining unit 655 and the second sampling unit 662, respectively, and the display unit 664 is connected to the picture extracting unit 663.
  • the sound-altered sound is played by the sound playback unit 661, and the average of the volume or pitch of each time period is sampled by the second sampling unit 662 while being played.
  • the picture extracting unit 663 extracts the corresponding action picture according to the average value of the volume or the pitch of each time period sampled by the second sampling unit 662, and displays the corresponding action picture through the display unit 664, so that the animation action and the sound are consistent. match.
  • the invention also provides a terminal, which has the same structure, function and working principle as the terminal in the embodiment of FIG. 7 and FIG. 8 , and details are not described herein again.
  • the present invention also provides one or more storage media containing computer executable instructions for performing an instant messaging method, the method comprising the steps of:
  • the first terminal receives the voice recorded by the user, and performs a voice-changing process on the voice recorded by the user; the first terminal sends the sound processed by the voice-changing to the second terminal;
  • the second terminal synthesizes the received sound processed sound and the pre-stored animation to form simulated image data
  • the second terminal plays the simulated image data.
  • the present invention further provides one or more storage media containing computer executable instructions for performing a communication information processing method, the method comprising the steps of:
  • the sound processed by the sound processing is combined with the pre-stored animation to form simulated image data; and the simulated image data is played.
  • the invention proposes a brand-new communication medium, adopts a new communication method which has both an expression animation and a personalized sound, and is displayed in the form of a simulated image through intelligent processing, which can vividly and accurately reflect the state of the user. And mood.
  • the invention automatically matches the voice entered by the user with the selected image to form simulated image data, and the user operation is very simple.
  • the invention can transmit the sound processed through the sound processing only in the network, and then correspondingly match the received sound according to the local animation, thereby greatly saving the traffic of the network transmission, shortening the transmission response time, and improving the communication efficiency. .

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Processing Or Creating Images (AREA)
  • Telephone Function (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提出一种即时通讯方法及系统、通讯信息处理方法、终端,其即时通讯方法包括:第一终端接收用户录入的声音,并对用户录入的声音进行变音处理;第一终端将经过变音处理的声音发送给第二终端;第二终端将所接收到的经过变音处理的声音与预存的动画进行合成,形成模拟形象数据;第二终端播放所述模拟形象数据。本发明具有通讯形式丰富、操作方便以及网络传输效率高的优点。

Description

说 明 书 即时通讯方法、 系统、 通讯信息处理方法、 终端及存储介质 本专利申请要求于 2012年 12月 04日提交的、 申请号为 201210510615.X、 申请人为腾讯科技(深圳)有限公司、 发明名称为"即时通讯方法及系统、 通讯 信息处理方法、 终端"的中国专利申请的优先权, 该申请的全文以引用的方式并 入本申请中。
技术领域
本发明涉及互联网技术领域, 特别涉及一种即时通讯方法、 系统、 通讯信 息处理方法、 终端及存储介质。
背景技术
随着科学技术的迅速发展, 通信科技的日新月异, 移动通信终端已被人们 广泛应用于日常生活和学习中, 人们通过移动通信终端和网络进行通话或互发 短信息, 不但大大拉近了人们彼此之间的距离, 还为人们的联系和信息交流带 来了极大的便利。
目前, 网络聊天的沟通方式包括文字、表情(包括系统表情和自定义表情)、 图片 (包含涂鸦)、 语音消息、 文本消息、 视频 (包含视频聊天、 离线视频), 虽然形式众多, 但是仍然有一定局限性, 无法充分满足用户的需求, 具体如下: 文字是使用最广泛的聊天方式, 但其表现形式单一, 很难表达出用户当时 真实的感受与心情, 从而导致聊天中误解的情况频频发生。 语音消息、 文本消 息与文字的聊天方式一样, 也有表现形式单一的缺点。 图片和表情的使用可以 丰富用户情感的表达, 然而在使用图片或表情的过程中, 用户经常要在大量的 图片或表情中搜索合适自己当前状态的图片或表情, 操作起来较为不便。 视频 聊天可以将聊天双方的影像进行真实呈现, 但是视频数据的传输需要占用较大 的带宽, 需要较长的发送时间, 也需要较多的流量费用, 在网络状态不好或带 宽较窄的情况下, 视频效果并不理想。 综上所述, 目前需要一种聊天方式, 以解决现有的即时聊天方式表现形式 单调、 操作不便以及流量大的问题。
发明内容
本发明的目的是提供一种即时通讯方法、 系统、 通讯信息处理方法、 终端 及存储介质, 以解决现有的即时聊天方式表现形式单调、 操作不便以及流量大 的问题。
本发明提出一种即时通讯方法, 包括:
第一终端接收用户录入的声音, 并对所述用户录入的声音进行变音处理; 第一终端将经过变音处理的声音发送给第二终端;
第二终端将所接收到的所述经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据;
第二终端播放所述模拟形象数据。
本发明还提出一种通讯信息处理方法, 包括:
接收来自通讯对象的经过变音处理的声音;
将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据; 播放所述模拟形象数据。
本发明还提出一种即时通讯系统, 包括通过网络相互连接的至少两个终端, 每个终端包括:
存储模块, 用于存放多个动画;
录音模块, 用于接收用户录入的声音;
变音模块, 用于对用户录入的声音进行变音处理;
通讯模块, 用于将所述经过变音处理的声音发送给其它终端, 或者接收来 自其它终端的经过变音处理的声音;
合成模块, 用于将所接收到的来自其它终端的经过变音处理的声音与所述 存储模块中存放的动画进行合成, 形成模拟形象数据;
播放模块, 用于播放所述模拟形象数据。 本发明还提出一种终端, 包括:
存储模块, 用于存放多个动画;
录音模块, 用于接收用户录入的声音;
变音模块, 用于对用户录入的声音进行变音处理;
通讯模块, 用于将所述经过变音处理的声音发送给其它终端, 或者接收来 自其它终端的经过变音处理的声音;
合成模块, 用于将所接收到的来自其它终端的经过变音处理的声音与所述 存储模块中存放的动画进行合成, 形成模拟形象数据;
播放模块, 用于播放所述模拟形象数据。
本发明还提供一个或多个包含计算机可执行指令的存储介质, 所述计算机 可执行指令用于执行一种即时通讯方法, 所述方法包括以下步骤:
第一终端接收用户录入的声音, 并对所述用户录入的声音进行变音处理; 第一终端将经过变音处理的声音发送给第二终端;
第二终端将所接收到的所述经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据;
第二终端播放所述模拟形象数据。
本发明又提供一个或多个包含计算机可执行指令的存储介质, 所述计算机 可执行指令用于执行一种通讯信息处理方法, 所述方法包括以下步骤:
接收来自通讯对象的经过变音处理的声音;
将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据; 播放所述模拟形象数据。
相对于现有技术, 本发明的有益效果是:
( 1 )、 本发明提出一种全新的沟通介质, 采用一种既有表情动画, 又包含 个性化声音的全新通讯方式, 并且通过智能化处理以模拟形象的形式展现, 可
( 2 )、 本发明通过对用户录入的声音和选择的形象进行自动匹配, 来形成 模拟形象数据, 这样使得用户操作非常简单。
( 3 )、 本发明可以只在网络中传输经过变音处理的声音, 然后根据接收到 的声音与本地的动画进行相应的匹配, 这样大大节约了网络传输的流量, 也缩 短了发送响应时间, 提高了通讯效率。
当然, 实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。 上述说明仅是本发明技术方案的概述, 为了能够更清楚了解本发明的技术 的上述和其他目的、 特征和优点能够更明显易懂, 以下特举较佳实施例, 并配 合附图, 详细说明如下。
附图说明
图 1为本发明实施例提供的一种即时通讯方法的流程图;
图 2为本发明实施例提供的一种形成模拟形象数据的过程示意图; 图 3为本发明实施例提供的另一种即时通讯方法的流程图;
图 4为本发明实施例提供的一种通讯信息处理方法的流程图;
图 5为本发明实施例提供的另一种通讯信息处理方法的流程图;
图 6为本发明实施例提供的一种即时通讯系统的结构图;
图 7为本发明实施例提供的一种终端的结构图;
图 8为本发明实施例提供的另一种终端的结构图。
具体实施方式
为更进一步阐述本发明达成预定发明目的所采取的技术手段及功效,以下 结合附图及较佳实施例, 对依据本发明所提出的即时通讯方法、 系统、 通讯信 息处理方法、 终端及存储介质的具体实施方式、 方法、 步骤及功效, 详细说明 如后。
有关本发明的前述及其他技术内容、 特点及功效, 在以下配合参考图式的 较佳实施例详细说明中将可被清楚的呈现。 通过具体实施方式的说明, 可得以 然而所附图式仅是提供参考与说明之用, 并非用来对本发明加以限制。 本发明提出一种全新的沟通介质, 采用一种既有表情动画, 又包含声音的 全新通讯方式, 并且通过一些智能化处理以模拟形象的形式展现。 请参见图 1 , 其为本发明实施例提供的一种即时通讯方法的流程图, 其包括以下步骤:
5101 , 第一终端接收用户录入的声音, 并对该用户录入的声音进行变音处 理。
声音可以是通过麦克风由用户实时录入, 或者也可以预先录制好后直接传 输给第一终端的。 在用户录入声音之后, 可以使用音频处理库 (Soundtouch ) 对声音进行处理。 Soundtouch主要实现变速、 变调、 变速同时变调等三个功能, 能够对媒体流进行实时操作, 也能对音频文件进行操作。 在本发明中, 可以通 过对 Soundtouch的 rate (速度)、 tempo (节奏)、 pitch (音高)三个参数进行 调节, 从而对用户的声音进行变化, 模拟出一些特殊的声音。 例如将参数 pitch 调节成 0. 8即可模拟出较为低沉緩慢的牛和熊的声音; 如果将参数调节成 1. 2 , 即可模拟出较为高亢的鸡的声音。 通过变音处理后的声音会更加个性与生动, 用户可以根据当前心情或状态模拟出适合的声音, 这样使得通讯过程不会显得 呆板而会显得更加丰富。
5102 , 第一终端将经过变音处理的声音发送给第二终端。
本发明是将声音与动画相结合的通讯方式, 但是如果由第一终端直接向第 二终端发送完整的动画动作和声音会浪费流量, 也会需要较长的发送响应时间, 因此本实施例只需要发送经过变音处理的声音给对方, 对方根据接收到的声音 与本地的动画进行相应的匹配, 在本地形成完整的动画动作 +声音的模拟形象。 这种技术逻辑解决了发送完整的动画 +声音会导致需要更长时间且更费流量的 问题。
5103 , 第二终端将所接收到的经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据。
第二终端所预存的动画可以是多个, 而与声音合成的动画可以是随机选择 的, 也可以是由用户选定的。 合成的声音和动画要具有一致性, 这样才能形象 地刻画用户当前的心情, 因此可以以声音的音量或音调来作为基准, 匹配合适 的动画。 例如当用户的声音音量较大, 音调较高的时候, 可以选择动作较为夸 张的动画; 当用户的声音音量较小, 音调较低沉的时候, 可以选择与之风格一 致的动画, 以实现尽可能的模仿在交流沟通中的真实场景。
在具体实现时, 可以先定义一个匹配规则: ^叚设其中一个动画可以分成 N 个动作图片, 且每个动作图片的动作风格不同, 如果以音量来选择相应的动画, 则可以设定一个音量上限 Volmax,同时将音量从 0到 Volmax之间分成与动作图 片数量相等, 编号为 1到 N的 N段, 然后将 N个动作图片分别对应到不同的音 量上, 动作幅度越小的动作图片对应的音量越小。
为经过变音处理的声音匹配合适的动作图片时, 可以将经过变音处理的声 音划分成多个时间段, 并采样每个时间段的音量的平均值。 而每个音量的平均 值会与前面定义的规则中的一个音量分点相等或最接近, 这样就能找出与每个 音量的平均值对应的动作图片。 找出所有的各个时间段的音量平均值所对应的 动作图片之后, 就可以将这些动作图片组合成连续的动画, 而这个动画的动作 风格就可以与经过变音处理的声音的音量相符合, 最后将经过变音处理的声音 与动画结合起来, 形成模拟形象数据, 这样得到的模拟形象数据中所包含的动 画效果及声音效果就能生动且准确地反应出用户的状态及心情。 如图 2 所示, 其为上述形成模拟形象数据的过程示意图, 其中 n为对经过变音处理的声音进 行划分的而得到的时间段的数量。
S104, 第二终端播放所述模拟形象数据。
播放模拟形象数据的过程即是同时播放经变音处理的声音以及相应的动画 的过程, 与现有通讯方式不同的是, 本发明形象生动地呈现出了通讯用户真实 的状态。 但是每个人的声音语速快慢, 音调高低各有不同, 因此在播放模拟形 象数据时, 要实现声音和动作的同步匹配。 例如嘴型的变化同用户说话的语速 快慢基本同步, 身体动作的快慢也要跟语速的快慢同步匹配。
具体实现时, 可以在播放经过变音处理的声音的同时, 对每个时间段的音 量或音调的平均值进行采样, 然后根据每个时间段采样到的音量或音调的平均 值, 同步显示对应的动作图片, 这样就可以实现动作与声音的匹配。
此外, 在播放模拟形象数据的开始和结束阶段, 都可以加入有一些固定的 动画动作, 这些动作与用户的声音无关, 只是固定存在以增加趣味性的动画动 作。
请参见图 3 , 其为本发明实施例提供的另一种即时通讯方法的流程图, 其包 括以下步骤:
5301 , 第一终端接收用户录入的声音, 并对用户录入的声音进行变音处理。
5302 , 第一终端接收用户选择的形象角色标识。
5303 , 第一终端将经过变音处理的声音以及形象角色标识发送给第二终端。
5304, 第二终端将经过变音处理的声音与预存的并且是所述形象角色标识 所对应的动画进行合成, 形成模拟形象数据。
5305 , 第二终端播放所述模拟形象数据。
第二实施例与第一实施例的不同在于, 用户可以通过形象角色标识来选择 其希望展现给对方的动画形象, 其中每个形象角色标识均对应预存的一种形象 的动画, 这样也使得通讯内容更加丰富。
实施例一和实施例二中的通讯方法是由第一终端向第二终端发送通讯信 息, 并由第二终端进行播放, 旨在说明通讯信息的构成以及通讯的方式, 而传 输方式并不仅限于此, 即也可以由第二终端向第一终端发送通讯信息, 并由第 一终端进行播放。
本发明还提出一种通讯信息处理方法, 其是一种对由动画效果和声音效果 相结合而形成的通讯信息的处理方法, 请参见图 4, 其包括以下步骤:
S401 , 接收来自通讯对象的经过变音处理的声音。
这里所述的通讯对象可以是用户终端或通讯平台。 其中, 经过变音处理的 声音可以是通过麦克风由用户实时录入的, 也可以是预先录制好的。 而声音可 以是使用音频处理库 ( Soundtouch )进行处理的, 通过对 Soundtouch的 rate, tempo, pitch三个参数进行调节, 可以对用户的声音进行变化, 模拟出一些特 殊的声音。 例如将参数 pitch调节成 0. 8即可模拟出较为低沉緩慢的牛和熊的 声音; 如果将参数调节成 1. 2 , 即可模拟出较为高亢的鸡的声音。 通过变音处理 后的声音会更加个性与生动, 用户可以根据当前心情或状态模拟出适合的声音, 这样使得通讯过程不会显得呆板而会更加丰富。
本发明是将声音与动画相结合的通讯方式, 但是如果由通讯对象直接发送 完整的动画动作和声音会浪费较多流量, 也需要较长的发送响应时间, 因此本 实施例只需要接收经过变音处理的声音, 然后根据接收到的声音与本地的动画 进行相应的匹配, 在本地形成完整的动画动作 +声音的模拟形象。 这种技术逻辑 解决了发送完整的动画 +声音会需要更长时间且更费流量的问题。
5402 , 将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据。 这里所述预存的动画可以是多个, 而与声音合成的动画可以是从中随机选 择的, 也可以是由用户选定的。 合成的声音和动画要具有一致性, 这样才能形 象地刻画用户当前的心情, 因此可以以声音的音量或音调来作为基准, 匹配合 适的动画, 以尽可能地模仿在交流沟通中的真实场景。
在具体实现时, 可以先定义一个匹配规则: ^叚设其中一个动画可以分成 N 个动作图片, 且每个动作图片的动作风格不同, 如果以音量来选择相应的动画, 则可以设定一个音量上限 Volmax,同时将音量从 0到 Volmax之间分成与动作图 片数量相等, 编号为 1到 N的 N段, 然后将 N个动作图片分别对应到不同的音 量上, 动作幅度越小的动作图片对应的音量越小。
为经过变音处理的声音匹配合适的动作图片时, 可以将经过变音处理的声 音划分成多个时间段, 并采样每个时间段的音量的平均值。 而每个音量的平均 值会与前面定义的规则中的一个音量分点相等或最接近, 这样就能找出与每个 音量的平均值对应的动作图片。 找出所有的各个时间段的音量平均值所对应的 动作图片之后, 就可以将这些动作图片组合成连续的动画, 而这个动画的动作 风格就可以与经过变音处理的声音的音量相符合, 最后将经过变音处理的声音 与动画结合起来, 形成模拟形象数据, 这样得到的模拟形象数据中所包含的动 画效果及声音效果就能生动且准确地反应出用户的状态及心情。
5403 , 播放所述模拟形象数据。
播放模拟形象数据的过程即为同时播放经变音处理的声音以及相应的动画 的过程, 与现有通讯方式不同的是, 本发明形象生动地呈现出了用户真实的状 态。 但是每个人的声音语速快慢, 音调高低各有不同, 因此在播放模拟形象数 据时, 要实现声音和动作的同步匹配。 例如嘴型的变化同用户说话的语速快慢 基本同步, 身体动作的快慢也要跟语速的快慢同步匹配。 具体实现时, 可以在播放经过变音处理的声音的同时, 对每个时间段的音 量或音调的平均值进行采样, 然后根据每个时间段采样到的音量或音调的平均 值, 同步显示对应的动作图片, 这样就可以实现动作与声音的匹配。
此外, 在播放模拟形象数据的开始和结束阶段, 都可以加入有一些固定的 动画动作, 这些动作与用户的声音无关, 只是固定存在以增加趣味性的动画动 作。
请参见图 5 , 其为本发明实施例提供的另一种通讯信息处理方法的流程图, 其包括以下步骤:
5501 , 接收来自通讯对象的经过变音处理的声音。
5502 , 接收来自通讯对象的形象角色标识。
5503 , 将经过变音处理的声音与预存的并与所述形象角色标识所对应的动 画进行合成, 形成模拟形象数据。
5504, 播放所述模拟形象数据。
第四实施例与第三实施例的不同在于, 可以通过通讯对象发送来的形象角 色标识来选择其希望展现的动画形象, 其中每个形象角色标识均对应预存的一 种形象的动画, 这样也使得通讯内容更加丰富。
本发明还提出一种即时通讯系统,请参见图 6 , 其包括通过网络相互连接的 至少两个终端 60 ,终端 60之间可以通过动画与声效相结合的模拟形象方式进行 通讯。
请参见图 7 , 其为本发明实施例的一种终端的结构图, 其包括存储模块 61、 录音模块 62、 变音模块 63、 通讯模块 64、 合成模块 65以及播放模块 66 , 变音 模块 63与录音模块 62相连, 通信模块 64分别与变音模块 63及合成模块 65相 连, 存储模块 61与播放模块 66均与合成模块 65相连。
终端 60之间进行通讯时 (现以两个终端 60之间的一次通讯信息的传送为 例来进行说明 ), 用户首先通过录音模块 62进行声音的录制, 录音模块 62可以 是麦克风。 当然, 用户也可以事先录制好声音(如常用的一些聊天语句), 并存 储在本地的数据库中, 这样就可以直接选用已录制好的声音, 从而可以提高通 讯效率。 声音录制完毕后, 通过变音模块 63 进行变音处理。 优选采用音频处理库 ( Soundtouch )作变音处理。 Soundtouch主要实现包含变速、 变调、 变速同时变 调等三个功能, 能够对媒体流实时操作, 也能对音频文件操作。 可以通过对 Soundtouch的 rate、 tempo, pitch三个参数进行调节, 从而对用户的声音进行 变化, 模拟出一些特殊的声音。 例如将参数 pitch调节成 0. 8即可模拟出较为 低沉緩慢的牛和熊的声音, 如果将参数调节成 1. 2 , 即可模拟出较为高亢的鸡的 声音。 用户可以根据当前心情或状态模拟出适合的声音, 从而使其变得更加个 性与生动。
变音完成后, 便可以通过通信模块 64发送给另一个终端 60。 另一个终端 60的通信模块 64收到该经过变音处理的声音后,传送给合成模块 65进行处理。 合成模块 65会将该经过变音处理的声音与存储模块 61中存放的动画进行合成, 形成模拟形象数据。 声音与动画的合成要一致, 可以以声音的音量或音调来作 为基准, 匹配合适的动画。 例如当用户的声音音量较大, 音调较高的时候, 可 以选择动作较为夸张的动画; 当用户的声音音量较小, 音调较低沉的时候, 可 以选择与之风格一致的动画, 以使得尽可能的模仿在交流沟通中的真实场景。
合成完毕后, 模拟形象数据会被传送到播放模块 66进行播放。 播放模拟形 象数据的过程即为同时播放经变音处理的声音以及相应的动画的过程, 至此, 一次通讯数据的传输完成。 与现有通讯方式不同的是, 本发明形象生动地呈现 出了用户真实的状态。
值得注意的是, 由于动画的数据量较大, 网络传输动画所需的流量也较大, 也需要较长的发送响应时间, 所以本实施例是由一个终端录制声音后, 将经变 音处理的声音传输给另一个终端, 并由另一个终端完成声音与动画的合成。 这 种优选的数据传输方式也解决了发送完整的动画 +声音会需要更长时间且更费 流量的问题。 但并不以此限制本发明, 如果在网络带宽充裕的情况下, 也可以 由一个终端完成声音和动画的合成, 然后将模拟形象数据传送到另一终端上直 接进行播放。这种形式下,由于声音的录制和声音 +动画的合成是在同一个终端, 可以更容易地对声音与动画进行搭配, 甚至可以以动态动画(Gif动态图片)为 基础配以合适的声音, 合成形式较为丰富。 此外, 在播放模拟形象数据的开始和结束阶段, 都可以加入有一些固定的 动画动作, 这些动作与用户的声音无关, 只是固定存在以增加趣味性的动画动 作。
请参见图 8, 其为本发明实施例的一种较为详尽的终端的结构图。 与图 7相 比, 本实施例的终端 60增加了交互模块 67, 其分别与通讯模块 64及存储模块 61相连, 用于接收用户选择的形象角色标识, 所述的形象角色标识与存储模块 61中存放的至少一个动画相对应。存储模块 61存储的动画形象可以是多种多样 的, 因此在一个终端上, 用户可以通过交互模块 67输入的形象角色标识来选择 希望展现给对方的动画形象, 然后通过通讯模块 64将形象角色标识与经过变音 处理的声音一同发送给另一终端, 然后由另一终端根据该形象角色标识找出其 在存储模块 61 中对应的动画, 然后由合成模块 65将声音与动画进行合成, 形 成模拟形象数据。
本实施例中的合成模块 65 包括选取单元 651、 分隔单元 652、 第一采样单 元 653、 匹配单元 654及组合单元 655 , 选取单元 651分别与通讯模块 64及存 储模块 61相连, 分隔单元 652与通讯模块 64相连, 第一采样单元 653与分隔 单元 652相连, 匹配单元 654分别与第一采样单元 653及选取单元 651连接, 组合单元 655分别与匹配单元 654及播放模块 66相连。
本实施例的合成模块 65通过声音的音量或音调来作为基准, 匹配合适的动 画。 为了达到声音和动画的一致性, 可以先定义一个匹配规则: 假设其中一个 动画可以被分成 N个动作图片, 且每个动作图片的动作风格不同, 如果以音量 来选择相应的动画,则可以设定一个音量上限 Volmax,同时将音量从 0到 Volmax 之间分成与动作图片数量相等, 编号为 1到 N的 N段, 然后将 N个动作图片分 别对应到不同的音量上, 动作幅度越小的动作图片对应的音量越小。
实际操作时, 先由选取单元 651根据通讯模块 64接收到的形象角色标识从 存储模块 61中选取对应的图片组(即由 N个图片组成的与形象角色标识对应动 画)。 同时, 分隔单元 652将通讯模块 64接收到的经过变音处理的声音划分成 多个时间段, 并由第一采样单元 653 采样每个时间段的音量的平均值, 而每个 个音量的平均值会与前面定义的规则中的一个音量分点相等或最接近。 然后匹 配单元 654会根据每个时间段的音量或音调的平均值获取选取单元 651选出的 图片组中每个时间段所对应的动作图片。 找出所有的各个时间段的音量平均值 所对应的动作图片之后, 就可以通过组合单元 655将这些动作图片组合成连续 的动画, 而这个动画的动作风格就可以与经过变音处理的声音的音量相符合, 最后组合单元 655将经过变音处理的声音与动画结合起来, 形成模拟形象数据, 这样得到的模拟形象数据中所包含的动画效果及声音效果就能生动且准确地反 应出用户的状态及心情。
由于每个人的声音语速快慢, 音调高低各有不同, 因此在播放模拟形象数 据时, 要实现声音和动作的同步匹配。 例如嘴型的变化同用户说话的语速快慢 基本同步, 身体动作的快慢也要跟语速的快慢同步匹配。 为此, 本实施例的播 放模块 66进一步包括声音播放单元 661、 第二采样单元 662、 图片提取单元 663 及显示单元 664, 声音播放单元 661与组合单元 655相连, 第二采样单元 662与 声音播放单元 661相连, 图片提取单元 663分别与组合单元 655及第二采样单 元 662相连, 显示单元 664与图片提取单元 663相连。
播放时, 由声音播放单元 661播放经过变音处理的声音, 并在播放的同时, 通过第二采样单元 662对每个时间段的音量或音调的平均值进行采样。 然后图 片提取单元 663根据第二采样单元 662采样到的每个时间段的音量或音调的平 均值, 提取相应的动作图片, 并通过显示单元 664 同步显示, 这样就可以实现 动画动作与声音的一致匹配。
本发明还提出一种终端, 该终端与图 7及图 8的实施例中所述的终端结构、 功能及工作原理相同, 在此不再赘述。
本发明还提供一个或多个包含计算机可执行指令的存储介质, 所述计算机 可执行指令用于执行一种即时通讯方法, 所述方法包括以下步骤:
第一终端接收用户录入的声音, 并对所述用户录入的声音进行变音处理; 第一终端将经过变音处理的声音发送给第二终端;
第二终端将所接收到的所述经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据;
第二终端播放所述模拟形象数据。 本发明又提供一个或多个包含计算机可执行指令的存储介质, 所述计算机 可执行指令用于执行一种通讯信息处理方法, 所述方法包括以下步骤:
接收来自通讯对象的经过变音处理的声音;
将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据; 播放所述模拟形象数据。
本发明提出一种全新的沟通介质, 采用一种既有表情动画, 又包含个性化 声音的全新通讯方式, 并且通过智能化处理以模拟形象的形式展现, 可以生动 且准确地反应出用户的状态及心情。
本发明对用户录入的声音和选择的形象进行自动匹配, 以形成模拟形象数 据, 用户操作非常简单。
本发明可以只在网络中传输经过变音处理的声音, 然后根据接收到的声音 与本地的动画进行相应的匹配, 这样大大节约了网络传输的流量, 也缩短了发 送响应时间, 提高了通讯效率。
以上所述, 仅是本发明的较佳实施例而已, 并非对本发明作任何形式上的 限制, 虽然本发明已以较佳实施例揭露如上, 然而并非用以限定本发明, 任何 熟悉本专业的技术人员, 在不脱离本发明技术方案范围内, 都可利用上述揭示 的技术内容作出些许更动或修饰而形成等同变化的等效实施例, 但凡是未脱离 改、 等同变化与修饰, 均仍属于本发明技术方案的范围内。

Claims

权 利 要 求 书
1、 一种即时通讯方法, 其特征在于, 包括:
第一终端接收用户录入的声音, 并对所述用户录入的声音进行变音处理; 第一终端将经过变音处理的声音发送给第二终端;
第二终端将所接收到的所述经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据;
第二终端播放所述模拟形象数据。
2、 如权利要求 1所述的即时通讯方法, 其特征在于, 所述第一终端接收用 户录入的声音, 并对所述用户录入的声音进行变音处理的步骤包括:
利用音频处理库对所述用户录入的声音进行变音处理。
3、 如权利要求 1所述的即时通讯方法, 其特征在于,
在所述第一终端将经过变音处理的声音发送给第二终端的步骤之前还包 括: 第一终端接收用户选择的形象角色标识;
所述第一终端将经过变音处理的声音发送给第二终端的步骤包括: 第一终 端将经过变音处理的声音以及形象角色标识发送给第二终端;
所述第二终端将经过变音处理的声音与预存的动画进行合成, 形成模拟形 象数据的步骤包括: 第二终端将经过变音处理的声音与预存的并且是所述形象 角色标识所对应的动画进行合成, 形成模拟形象数据。
4、 如权利要求 3所述的即时通讯方法, 其特征在于, 所述第二终端将经过 变音处理的声音与预存的并且是所述形象角色标识所对应的动画进行合成, 形 成模拟形象数据的步骤包括:
根据所述形象角色标识选取预存的图片组;
将所述经过变音处理的声音划分成多个时间段, 并采样每个时间段的音量 或音调的平均值;
根据所述每个时间段的音量或音调的平均值获取所述图片组中每个时间段 所对应的动作图片;
将动作图片组合成连续的所述动画, 并结合所述声音形成所述模拟形象数 据。
5、 如权利要求 4所述的即时通讯方法, 其特征在于, 所述第二终端播放所 述模拟形象数据的步骤包括:
播放所述经过变音处理的声音, 并同时对每个时间段的音量或音调的平均 值进行采样;
根据每个时间段采样到的音量或音调的平均值, 同步显示对应的动作图片。
6、 一种通讯信息处理方法, 其特征在于, 包括:
接收来自通讯对象的经过变音处理的声音;
将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据; 播放所述模拟形象数据。
7、 如权利要求 6所述的通讯信息处理方法, 其特征在于, 所述经过变音处 理的声音是利用音频处理库进行的。
8、 如权利要求 6所述的通讯信息处理方法, 其特征在于,
所述将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据的 步骤之前包括: 接收来自通讯对象的形象角色标识;
所述将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据的 步骤包括: 将经过变音处理的声音与预存的并且是所述形象角色标识所对应的 动画进行合成, 形成模拟形象数据。
9、 如权利要求 8所述的通讯信息处理方法, 其特征在于, 所述将经过变音 处理的声音与预存的并且是所述形象角色标识所对应的动画进行合成, 形成模 拟形象数据的步骤包括:
根据形象角色标识选取预存的图片组;
将所述经过变音处理的声音划分成多个时间段, 并采样每个时间段的音量 或音调的平均值;
根据所述每个时间段的音量或音调的平均值获取所述图片组中每个时间段 所对应的动作图片;
将动作图片组合成连续的所述动画, 并结合所述声音形成所述模拟形象数 据。
10、 如权利要求 9 所述的通讯信息处理方法, 其特征在于, 所述播放所述 模拟形象数据的步骤包括: 播放所述经过变音处理的声音, 并同时对每个时间段的音量或音调的平均 值进行采样;
根据每个时间段采样到的音量或音调的平均值, 同步显示对应的动作图片。
11、 一种即时通讯系统, 包括通过网络相互连接的至少两个终端, 其特征 在于, 每个终端包括:
存储模块, 用于存放多个动画;
录音模块, 用于接收用户录入的声音;
变音模块, 用于对所述用户录入的声音进行变音处理;
通讯模块, 用于将所述经过变音处理的声音发送给其它终端, 或者接收来 自其它终端的经过变音处理的声音;
合成模块, 用于将所接收到的来自其它终端的经过变音处理的声音与所述 存储模块中存放的动画进行合成, 形成模拟形象数据;
播放模块, 用于播放所述模拟形象数据。
12、 如权利要求 11所述的即时通讯系统, 其特征在于, 所述变音模块利用 音频处理库对所述用户录入的声音进行变音处理。
13、 如权利要求 11所述的即时通讯系统, 其特征在于, 每个终端还包括: 交互模块, 用于接收用户选择的形象角色标识, 所述形象角色标识与所述 存储模块中存放的至少一个动画相对应;
所述通讯模块在与其它终端进行通信时, 将所述形象角色标识与所述经过 变音处理的声音一同发送给其它终端, 或者接收来自其它终端的形象角色标识 与经过变音处理的声音;
所述合成模块形成所述模拟形象数据时, 将所接收到的来自其它终端的经 过变音处理的声音与所述存储模块中存放的并与所接收到的来自其它终端的形 象角色标识所对应的动画进行合成, 并形成所述模拟形象数据。
14、如权利要求 13所述的即时通讯系统,其特征在于, 所述合成模块包括: 选取单元, 用于根据所接收到的来自其它终端的形象角色标识从所述存储 模块中选取对应的图片组;
分隔单元, 用于将所接收到的来自其它终端的经过变音处理的声音划分成 多个时间段;
第一采样单元, 用于采样每个时间段的音量或音调的平均值;
匹配单元, 用于根据每个时间段的音量或音调的平均值获取所述图片组中 每个时间段所对应的动作图片;
组合单元, 用于将动作图片组合成连续的所述动画, 并结合所述声音形成 所述模拟形象数据。
15、 如权利要求 14所述的即时通讯系统, 其特征在于, 所述显示模块又包 括:
声音播放单元, 用于播放所接收到的来自其它终端的所述经过变音处理的 声音;
第二采样单元, 用于在所述声音播放单元进行播放的同时, 对每个时间段 的音量或音调的平均值进行采样;
图片提取单元, 用于根据每个时间段采样到的音量或音调的平均值, 同步 提取相应的动作图片;
显示单元, 用于同步显示所述图片提取单元提取到的动作图片。
16、 一种终端, 其特征在于, 包括:
存储模块, 用于存放多个动画;
录音模块, 用于接收用户录入的声音;
变音模块, 用于对所述用户录入的声音进行变音处理;
通讯模块, 用于将所述经过变音处理的声音发送给其它终端, 或者接收来 自其它终端的经过变音处理的声音;
合成模块, 用于将所接收到的来自其它终端的所述经过变音处理的声音与 所述存储模块中存放的动画进行合成, 形成模拟形象数据;
播放模块, 用于播放所述模拟形象数据。
17、 如权利要求 16所述的终端, 其特征在于, 所述变音模块利用音频处理 库对所述用户录入的声音进行变音处理。
18、 如权利要求 16所述的终端, 其特征在于, 还包括:
交互模块, 用于接收用户选择的形象角色标识, 所述形象角色标识与所述 存储模块中存放的至少一个动画相对应;
所述通讯模块在与其它终端进行通信时, 将所述形象角色标识与所述经过 变音处理的声音一同发送给其它终端, 或者接收来自其它终端的形象角色标识 与经过变音处理的声音;
所述合成模块形成所述模拟形象数据时, 将接收到的来自其它终端的经过 变音处理的声音与所述存储模块中存放的并与接收到的来自其它终端的形象角 色标识所对应的动画进行合成, 并形成所述模拟形象数据。
19、 如权利要求 18所述的终端, 其特征在于, 所述合成模块又包括: 选取单元, 用于根据接收到的来自其它终端的形象角色标识从所述存储模 块中选取对应的图片组;
分隔单元, 用于将接收到的来自其它终端的经过变音处理的声音划分成多 个时间段;
第一采样单元, 用于采样每个时间段的音量或音调的平均值;
匹配单元, 用于根据每个时间段的音量或音调的平均值获取所述图片组中 每个时间段所对应的动作图片;
组合单元, 用于将所述动作图片组合成连续的所述动画, 并结合所述声音 形成所述模拟形象数据。
20、 如权利要求 19所述的终端, 其特征在于, 所述显示模块又包括: 声音播放单元, 用于播放接收到的来自其它终端的所述经过变音处理的声 音;
第二采样单元, 用于在所述声音播放单元进行播放的同时, 对每个时间段 的音量或音调的平均值进行采样;
图片提取单元, 用于根据每个时间段采样到的音量或音调的平均值, 同步 提取相应的动作图片;
显示单元, 用于同步显示所述图片提取单元提取到的动作图片。
21、 一个或多个包含计算机可执行指令的存储介质, 所述计算机可执行指 令用于执行一种即时通讯方法, 其特征在于, 所述方法包括以下步骤:
第一终端接收用户录入的声音, 并对所述用户录入的声音进行变音处理; 第一终端将经过变音处理的声音发送给第二终端;
第二终端将所接收到的所述经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据;
第二终端播放所述模拟形象数据。
22、 一个或多个包含计算机可执行指令的存储介质, 所述计算机可执行指 令用于执行一种通讯信息处理方法, 其特征在于, 所述方法包括以下步骤: 接收来自通讯对象的经过变音处理的声音;
将经过变音处理的声音与预存的动画进行合成, 形成模拟形象数据; 播放所述模拟形象数据。
PCT/CN2013/086132 2012-12-04 2013-10-29 即时通讯方法、系统、通讯信息处理方法、终端及存储介质 WO2014086216A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/731,373 US9626984B2 (en) 2012-12-04 2015-06-04 Instant messaging method and system, communication information processing method, terminal, and storage medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210510615.XA CN103856390B (zh) 2012-12-04 2012-12-04 即时通讯方法及系统、通讯信息处理方法、终端
CN201210510615.X 2012-12-04

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/731,373 Continuation US9626984B2 (en) 2012-12-04 2015-06-04 Instant messaging method and system, communication information processing method, terminal, and storage medium

Publications (1)

Publication Number Publication Date
WO2014086216A1 true WO2014086216A1 (zh) 2014-06-12

Family

ID=50863626

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/086132 WO2014086216A1 (zh) 2012-12-04 2013-10-29 即时通讯方法、系统、通讯信息处理方法、终端及存储介质

Country Status (3)

Country Link
US (1) US9626984B2 (zh)
CN (1) CN103856390B (zh)
WO (1) WO2014086216A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI816929B (zh) * 2018-11-05 2023-10-01 美商高通公司 針對未授權新無線電的混合自動重傳請求認可回饋增強

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357171A (zh) * 2014-08-21 2016-02-24 中兴通讯股份有限公司 通话的方法及终端
CN104866116A (zh) * 2015-03-25 2015-08-26 百度在线网络技术(北京)有限公司 一种用于输出表情信息的方法和装置
CN104703043A (zh) * 2015-03-26 2015-06-10 努比亚技术有限公司 一种添加视频特效的方法和装置
CN105448300A (zh) * 2015-11-12 2016-03-30 小米科技有限责任公司 用于通话的方法及装置
CN105872838A (zh) * 2016-04-28 2016-08-17 徐文波 即时视频的媒体特效发送方法和装置
CN106228451A (zh) * 2016-05-15 2016-12-14 盛禾东林(厦门)文创科技有限公司 一种漫画聊天系统
CN106789576A (zh) * 2016-12-23 2017-05-31 上海青声网络科技有限公司 一种图像生成方法及装置
CN110300047B (zh) * 2018-03-23 2021-10-08 腾讯科技(深圳)有限公司 一种动画播放方法、装置及存储介质
CN110134305B (zh) * 2019-04-02 2022-12-09 北京搜狗科技发展有限公司 一种语速调节方法、装置和用于语速调节的装置
CN112995530A (zh) * 2019-12-02 2021-06-18 阿里巴巴集团控股有限公司 视频的生成方法、装置及设备
CN112235180A (zh) * 2020-08-29 2021-01-15 上海量明科技发展有限公司 语音消息处理方法、设备及即时通信客户端
CN113395597A (zh) * 2020-10-26 2021-09-14 腾讯科技(深圳)有限公司 一种视频通讯处理方法、设备及可读存储介质
CN112562639B (zh) * 2020-11-30 2023-09-19 努比亚技术有限公司 音频处理方法、终端及计算机可读存储介质
CN114731454A (zh) * 2021-01-21 2022-07-08 海信视像科技股份有限公司 接收装置
JP7429200B2 (ja) * 2021-01-21 2024-02-07 Tvs Regza株式会社 受信装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1639738A (zh) * 2002-02-25 2005-07-13 皇家飞利浦电子股份有限公司 产生漫画化的正在说话的头部的方法和系统
CN1936889A (zh) * 2005-09-20 2007-03-28 文化传信科技(澳门)有限公司 动画生成系统以及方法
CN101465816A (zh) * 2007-12-19 2009-06-24 腾讯科技(深圳)有限公司 即时通讯动态效果显示方法及显示系统
CN102270352A (zh) * 2010-06-02 2011-12-07 腾讯科技(深圳)有限公司 动画播放的方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7069214B2 (en) * 2001-02-26 2006-06-27 Matsushita Electric Industrial Co., Ltd. Factorization for generating a library of mouth shapes
US8108509B2 (en) * 2001-04-30 2012-01-31 Sony Computer Entertainment America Llc Altering network transmitted content data based upon user specified characteristics
JP2003181136A (ja) * 2001-12-14 2003-07-02 Sega Corp 音声制御方法
WO2007063827A1 (ja) * 2005-12-02 2007-06-07 Asahi Kasei Kabushiki Kaisha 声質変換システム
GB2443027B (en) * 2006-10-19 2009-04-01 Sony Comp Entertainment Europe Apparatus and method of audio processing
JP2009237747A (ja) * 2008-03-26 2009-10-15 Denso Corp データポリモーフィング方法及びデータポリモーフィング装置
US20100215289A1 (en) * 2009-02-24 2010-08-26 Neurofocus, Inc. Personalized media morphing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1639738A (zh) * 2002-02-25 2005-07-13 皇家飞利浦电子股份有限公司 产生漫画化的正在说话的头部的方法和系统
CN1936889A (zh) * 2005-09-20 2007-03-28 文化传信科技(澳门)有限公司 动画生成系统以及方法
CN101465816A (zh) * 2007-12-19 2009-06-24 腾讯科技(深圳)有限公司 即时通讯动态效果显示方法及显示系统
CN102270352A (zh) * 2010-06-02 2011-12-07 腾讯科技(深圳)有限公司 动画播放的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI816929B (zh) * 2018-11-05 2023-10-01 美商高通公司 針對未授權新無線電的混合自動重傳請求認可回饋增強

Also Published As

Publication number Publication date
US20150269928A1 (en) 2015-09-24
CN103856390A (zh) 2014-06-11
CN103856390B (zh) 2017-05-17
US9626984B2 (en) 2017-04-18

Similar Documents

Publication Publication Date Title
US9626984B2 (en) Instant messaging method and system, communication information processing method, terminal, and storage medium
CN104780093B (zh) 即时通讯过程中的表情信息处理方法及装置
WO2019114516A1 (zh) 媒体信息的展示方法和装置、存储介质、电子装置
Maler Musical expression among deaf and hearing song signers
US20150287403A1 (en) Device, system, and method of automatically generating an animated content-item
WO2023011221A1 (zh) 混合变形值的输出方法及存储介质、电子装置
JP2003526292A (ja) メディアツールを備えた通信システムとその方法
JP2003521750A (ja) スピーチシステム
CN105989165A (zh) 在即时聊天工具中播放表情信息的方法、装置及系统
WO2014067269A1 (zh) 一种发送消息的播放方法、系统及相关设备
TW200838294A (en) System and method to generate the interactive video images
Hajdu Embodiment and disembodiment in networked music performance
CN113538628A (zh) 表情包生成方法、装置、电子设备及计算机可读存储介质
CN110012059B (zh) 电子红包实现方法以及装置
US20140129228A1 (en) Method, System, and Relevant Devices for Playing Sent Message
KR101571687B1 (ko) 동영상 이펙트 적용 장치 및 방법
Zummo Performing Authenticity on a Digital Political Stage Politainment as Interactive Practice and (Populist?) Performance
CN115767206A (zh) 基于扩展现实的数据处理方法以及系统
CN110166351A (zh) 一种基于即时通讯的交互方法、装置和电子设备
JP2003108502A (ja) 身体性メディア通信システム
KR20230072199A (ko) 감정 표현 객체 생성 장치 및 이를 포함하는 감정 표현 객체 생성 시스템 및 그 제어방법
Cao When Documentaries Meet New Media: Interactive Documentary Projects in China and the West
Chatterjee et al. Remixing Natya: Revanta Sarabhai’s LDR and Post Natyam Collective’s Super Ruwaxi: Origins
CN117640604A (zh) 一种基于NaaS架构的实时通话智能特效生成方法及系统
KR100481585B1 (ko) 실물의 모션 정보, 음악 정보, 자막 정보 또는 메시지 정보 중 하나 이상을 포함하는 실물형 2차원 동영상 정보물을 제공하는 실물형 2차원 동영상 정보물 다운로드 서비스 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13859770

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 13/10/2015)

122 Ep: pct application non-entry in european phase

Ref document number: 13859770

Country of ref document: EP

Kind code of ref document: A1