WO2014176983A1 - 显示图像的方法、装置、移动终端及计算机存储介质 - Google Patents

显示图像的方法、装置、移动终端及计算机存储介质 Download PDF

Info

Publication number
WO2014176983A1
WO2014176983A1 PCT/CN2014/075626 CN2014075626W WO2014176983A1 WO 2014176983 A1 WO2014176983 A1 WO 2014176983A1 CN 2014075626 W CN2014075626 W CN 2014075626W WO 2014176983 A1 WO2014176983 A1 WO 2014176983A1
Authority
WO
WIPO (PCT)
Prior art keywords
avatar
virtual character
expression information
text
party
Prior art date
Application number
PCT/CN2014/075626
Other languages
English (en)
French (fr)
Inventor
王少英
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Publication of WO2014176983A1 publication Critical patent/WO2014176983A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/57Arrangements for indicating or recording the number of the calling subscriber at the called subscriber's set
    • H04M1/575Means for retrieving and displaying personal data about calling party
    • H04M1/576Means for retrieving and displaying personal data about calling party associated with a pictorial or graphical representation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72427User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting games or graphical animations

Definitions

  • the present invention relates to mobile communication technologies, and in particular to a method, device, mobile terminal and computing storage medium for displaying images during a call of a mobile terminal. Background technique
  • the call function is the basic function of the mobile terminal. During the call, a static avatar is generally displayed on the call interface of the mobile terminal, which is used to identify the identity of the caller, and the image display is relatively dull, making the call process of the user relatively boring.
  • Embodiments of the present invention provide a method, a device, a mobile terminal, and a computer storage medium for displaying an image during a call of a mobile terminal, which can display a dynamic image on a call interface of the mobile terminal to simulate a call partner during a call of the mobile terminal.
  • the call improves the experience of the user during the call.
  • An embodiment of the present invention provides a method for displaying an image, including:
  • the method before the acquiring the voice data of the calling party, the method further includes:
  • a virtual character avatar database is created, and a correspondence relationship between the virtual character avatar and the avatar expression information is stored in the virtual character avatar database.
  • the package Includes:
  • the speech text is analyzed and keywords are extracted, and the expression information of the calling party is determined according to the keyword, and the expression information includes at least the emotion and the mouth shape of the other party.
  • the text conversion of the voice data to obtain a voice text comprises: performing text conversion on the voice data by using a speech-to-text technique to obtain a voice text.
  • the determining a virtual person avatar corresponding to the expression information includes: a correspondence between a virtual person avatar and a avatar expression information stored according to the virtual person avatar database, and an expression information of the call partner , the virtual character avatar corresponding to the call.
  • An embodiment of the present invention further provides an image display apparatus, including:
  • the obtaining module is configured to obtain voice data of the other party of the call
  • the analyzing module is configured to analyze the voice data to obtain the expression information of the calling party; the processing module is configured to determine a virtual character avatar corresponding to the expression information, and display the virtual character avatar on the call interface of the mobile terminal .
  • the device further includes:
  • the database module is configured to establish a virtual character avatar database, and store a correspondence between the virtual character avatar and the avatar expression information in the avatar head image database.
  • the analysis module comprises:
  • a conversion unit configured to perform text conversion on the voice data to obtain a voice text
  • an analyzing unit configured to analyze the voice text and extract a keyword, and determine an expression information of the calling party according to the keyword, the expression
  • the information includes at least the emotions and mouth shapes of the other party.
  • the conversion unit is specifically configured to use the voice text conversion technology to the voice
  • the data is converted into text to obtain a phonetic text.
  • the processing module includes:
  • the searching unit is configured to determine a virtual person avatar corresponding to the calling party according to the correspondence between the avatar avatar and the avatar expression information, and the expression information of the calling party.
  • the embodiment of the invention further provides a computer storage medium, wherein the computer storage medium stores computer executable instructions, and the computer executable instructions are used to execute the method for displaying an image as described above.
  • the embodiment of the invention further provides a mobile terminal, comprising the image display device as described above.
  • Embodiments of the present invention have the following beneficial effects:
  • the virtual character avatar displayed on the call interface can be made, and the vocal type and emotion of the avatar correspond to the voice data of the other party, thereby making the mobile terminal user look like It is a virtual person call displayed on the call interface, which overcomes the shortcomings of only displaying a single avatar, not supporting the dynamic display and animation effects of the avatar during the current call, and improving the experience of the user during the call.
  • FIG. 1 is a schematic flow chart of a method for displaying an image according to an embodiment of the present invention
  • FIG. 2 is a schematic structural diagram of an image display device according to an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of setting a virtual character avatar during a call
  • Figure 4 is a flow chart showing the implementation of converting voice data into voice text
  • FIG. 5 is a flowchart of implementing matching of voice text and expression information
  • FIG. 6 is a schematic diagram of a virtual person avatar database style
  • Figure 7 is a schematic diagram of the mood keyword database style
  • Figure 8 is a schematic diagram of a port type keyword database
  • FIG. 9 is a flowchart of an implementation of displaying a virtual character avatar on a call interface. detailed description
  • the related art generally displays a static avatar on the call interface of the mobile terminal to identify the identity of the caller.
  • the image display mode is relatively rigid.
  • the technical solution described in the embodiment of the present invention can be moved.
  • the mobile terminal supports a dynamic image displayed on the call interface to simulate the call of the other party, thereby improving the experience of the user during the call.
  • the embodiment of the invention describes a method for displaying an image during a call of a mobile terminal, as shown in FIG. 1 , which includes the following steps:
  • Step 101 Acquire voice data of the other party.
  • the transmission method of the voice data includes: including a transmission control protocol/internet protocol
  • TCP/IP Transmission Control Protocol/IP
  • Step 102 Perform analysis on the voice data to obtain expression information of the other party.
  • Step 103 Determine a virtual character avatar corresponding to the expression information, and display the virtual character avatar on the call interface.
  • the method further includes:
  • a virtual character avatar database is created, and a correspondence relationship between the virtual character avatar and the avatar expression information is stored in the virtual character avatar database.
  • the analyzing the voice data to obtain the expression information of the other party of the call includes:
  • the speech text is analyzed and keywords are extracted, and the expression information of the other party of the call is determined according to the keyword, and the expression information includes at least the emotion and the mouth shape of the other party.
  • the speech data can be text converted using a speech-to-text technique to obtain a speech text.
  • the determining a virtual character avatar corresponding to the expression information includes:
  • the avatar corresponding to the expression information of the calling party is determined.
  • the voice data is converted into text, and the expression information is matched based on the text, and the virtual character avatar displayed on the call interface, and the mouth shape and emotion of the virtual character and the voice data of the other party during the call are enabled. Matching, it seems that the avatar displayed on the call interface is talking to the mobile terminal user, which overcomes the limitation that only a single avatar can be displayed during the current call, and the dynamic display and animation effects of the avatar are not supported, and the user is improved. The experience during the call.
  • the embodiment of the invention further describes an image display device, which is applied to a mobile terminal during a call, as shown in FIG. 2, and includes:
  • the obtaining module 21 is configured to obtain voice data of the other party of the call.
  • the analyzing module 22 is configured to analyze the voice data to obtain expression information of the calling party;
  • the processing module 23 is configured to determine a virtual character avatar corresponding to the emoticon information, and display the virtual character avatar on the call interface.
  • the device further includes:
  • the history database module 24 is configured to establish a virtual character avatar database, and store a correspondence between the virtual character avatar and the avatar expression information in the virtual character avatar database.
  • the analyzing module 22 includes a converting unit and an analyzing unit (not shown in FIG. 2): the converting unit is configured to perform text conversion on the voice data to obtain a voice text; and the analyzing unit is configured to The speech text is analyzed and the keywords are extracted. Determining the expression information of the other party according to the keyword, the expression information includes at least the emotion and the mouth shape of the other party.
  • the conversion unit is further configured to perform text conversion on the voice data by using a voice text conversion technology to obtain a voice text.
  • the processing module 23 includes:
  • a search unit (not shown in FIG. 2) configured to correspond to a relationship between the virtual character avatar stored in the virtual character avatar database and the avatar expression information, and expression information of the call partner, and determine the call partner The avatar corresponding to the avatar information.
  • the voice text conversion and the expression information are matched, and the mouth shape and emotion of the virtual character avatar displayed on the call interface can be matched with the voice content of the other party during the call, thereby the mobile terminal
  • the user looks like a virtual person call displayed on the call interface, which overcomes the limitation that only a single avatar can be displayed during the current call, and the dynamic display and animation effects of the avatar are not supported, thereby improving the experience of the user during the call.
  • the obtaining module 21, the analyzing module 22, and the processing module 23 may be implemented by a central processing unit (CPU) in the image display device; the database module 24 may be non-volatile in the image display device. Storage media and CPU implementation.
  • CPU central processing unit
  • Embodiments of the present invention also describe a mobile terminal including the image display device as described above.
  • the embodiment of the invention further describes a computer storage medium, wherein the computer storage medium stores computer executable instructions, and the computer executable instructions are used to execute the method for displaying the image shown in FIG.
  • the method for displaying an image according to the embodiment of the present invention is described in detail below.
  • the method for displaying an image during a call of a mobile terminal includes the following steps:
  • Step A Format and settings of the virtual character.
  • the virtual character avatar used can be placed on the move
  • the file name is distinguished by a different suffix in a directory on the terminal.
  • the location of a virtual character avatar is /data/data/avatar/lions/, and the file name can be OOl .png, 002.png, ...OlO.png, etc.
  • png is the format of the image file.
  • these virtual character avatars represent different emotions and mouth shapes of the avatar, and each picture represents the corresponding mood and mouth shape.
  • the specific avatar can be matched according to the voice data (which needs to be converted into text).
  • the user can enter a virtual character avatar name in the user interface, which corresponds to a folder; or select a folder in which the virtual character avatar is located from the data folder.
  • the avatar information (the avatar corresponding to the phone number, etc.) will be stored in the mobile terminal and will be valid after being saved to the file.
  • Figure 3 is a schematic diagram of the setting of the virtual character avatar used during the call.
  • the folder name of the virtual character avatar folder 1.
  • Step B The process of matching speech text and expression information.
  • the mobile terminal receives the voice data continuously sent by the other party.
  • the voice data of the other party is obtained.
  • the speech text is converted into speech text and converted into text content that can be understood by the computer.
  • the process of conversion uses a technique called Speech-to-text, which is currently relatively mature. The principle of its use is to sample the voice data and perform it with the feature database content. Align, thereby obtaining corresponding text of the voice data. Through these texts, the expression information in the voice data of the other party can be interpreted. Includes mood and mouth shape.
  • the principle of interpretation is based on text, the pronunciation and intonation of the speech data corresponding to the text, and the context of the text content (to reflect the emotions of the speaker, etc.), extracting the keywords in the text, and matching the emotions and speeches of the other party.
  • the expression processing of the mouth shape and the like, the processing flow of the matching is as shown in FIG. 5.
  • the keyword in the voice text is parsed in step 501 to obtain the emotion of the other party, and then the keyword in the voice text is parsed in step 502 to obtain the call.
  • the mouth shape of the other party is then determined in step 503 according to the emotion and mouth shape of the other party; the order of execution of step 501 and step 502 can be reversed.
  • the virtual character avatar database shown in FIG. 6, the emotion database shown in FIG. 7, and the lip type database shown in FIG. 8 may be established in advance; when the steps shown in FIG. 5 are performed, the corresponding use is performed.
  • the database is operated; taking the step 501 shown in FIG. 5 as an example, the speech text obtained by parsing the speech data is matched with the database shown in FIG. 7, and if the words such as [bastard] [blitter] are matched, Get angry emotional information, and match to [okay] [that's okay], then get peace of mind information.
  • the voice data text to a pre-established sentiment database, the emotions of the other party can be accurately matched.
  • the matching of the mouth type is similar to the above matching process.
  • the mouth shape of different characters in the voice text is different, by matching the voice text content with the mouth type database, the mouth shape corresponding to different characters can be obtained;
  • the mouth shape and emotion information, as well as the virtual avatar database shown in FIG. 6, can determine the avatar avatar corresponding to the obtained mouth shape and/or mood.
  • Step C The virtual character avatar is displayed during the call.
  • the virtual character avatar corresponding to the expression information of the other party of the call is matched, and then, by executing step 901, the corresponding virtual person avatar can be displayed on the call interface.
  • each image represents different emotions and mouth shapes of the avatar.
  • the mood of the current avatar is astonished, then the corresponding avatar The avatar is 005.png.
  • the corresponding virtual character avatar is obtained based on the emotion and/or the mouth shape, and displayed on the call interface, and the entire matching-display process is repeatedly executed until the call ends.
  • the voice data of the paragraph can be converted into a voice text, the emotion and mouth shape of the conversation partner are matched, and the virtual character avatar corresponding to the emotion and mouth shape of the conversation partner is determined, and Display on the call interface; after the call party finishes a paragraph, then obtain a new virtual character avatar, replace the virtual character avatar currently displayed on the call interface; repeat the execution of the injury until the call ends.
  • the voice data of the preset amount for example, 2 megabytes
  • the virtual character avatar corresponding to the emotion and the mouth shape is displayed on the call interface, and after receiving the preset voice data of the call partner again, acquiring a new virtual character avatar based on the acquired new voice data, replacing The avatar currently displayed on the call interface; repeat the above process until the call ends;
  • the received voice data After receiving the voice data of the calling party of the preset time length (for example, 2 seconds), the received voice data is converted into a voice text, matching the emotion and mouth shape of the other party, and determining the emotion and mouth of the other party.
  • the corresponding virtual character avatar is displayed on the call interface, and after receiving the voice data of the call partner of the preset time length, acquiring a new virtual character avatar based on the received new voice data, replacing the call
  • the avatar currently displayed on the interface repeat the above process until the end of the call
  • the voice text conversion and the expression information matching can enable the virtual character avatar displayed on the call interface, and the mouth shape and emotion of the virtual character match the speaking content of the other party during the call, thereby
  • the mobile terminal user seems to be talking with the avatar displayed on the call interface, which overcomes the limitation that only a single avatar can be displayed during the current call, and the dynamic display and animation effects of the avatar are not supported, thereby improving the experience during the user's call. .
  • embodiments of the present invention may be provided as a method, system, Or a computer program product. Accordingly, the present invention may take the form of a hardware embodiment, a software embodiment, or a combination of software and hardware. Moreover, the invention can be embodied in the form of one or more computer program products embodied on a computer usable storage medium (including but not limited to disk storage and optical storage, etc.) in which computer usable program code is embodied.
  • a computer usable storage medium including but not limited to disk storage and optical storage, etc.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the apparatus implements the functions specified in one or more blocks of a flow or a flow and/or block diagram of the flowchart.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions specified in one or more of the flow or in a block or blocks of a flow diagram.

Abstract

本发明实施例提供了一种显示图像的方法、装置、移动终端及计算机存储介质,所述方法包括:获取通话对方的语音数据;对所述语音数据进行分析得到通话对方的表情信息;确定与所述表情信息对应的虚拟人物头像,并在移动终端的通话界面上显示所述虚拟人物头像。

Description

显示图像的方法、 装置、 移动终端及计算机存储介质 技术领域
本发明涉及移动通讯技术, 特别是指一种移动终端通话过程中显示图 像的方法、 装置、 移动终端及计算存储介质。 背景技术
通话功能是移动终端的基本功能, 在通话过程中, 一般都是在移动终 端的通话界面上显示一个静态的头像, 用于标识来电人的身份, 图像显示 比较呆板, 使得用户的通话过程比较无趣。 发明内容
本发明实施例提供一种移动终端通话过程中显示图像的方法、 装置、 移动终端及计算机存储介质, 能够在移动终端通话过程中, 支持移动终端 的通话界面上显示动态的图像来模拟通话对方的通话, 提升了用户通话过 程中的体验。
本发明实施例提供技术方案如下:
本发明实施例提供一种显示图像的方法, 包括:
获取通话对方的语音数据;
对所述语音数据进行分析得到通话对方的表情信息;
确定与所述表情信息对应的虚拟人物头像, 并在移动终端的通话界面 上显示所述虚拟人物头像。
优选地, 所述获取通话对方的语音数据之前, 还包括:
建立虚拟人物头像数据库, 并在所述虚拟人物头像数据库中存储虚拟 人物头像与虚拟人物表情信息之间的对应关系。
优选地, 所述对所述语音数据进行分析得到通话对方的表情信息, 包 括:
对所述语音数据进行文本转化得到语音文本;
对所述语音文本进行分析并提取出关键词, 根据所述关键词确定通话 对方的表情信息, 所述表情信息至少包括有通话对方的情绪和口型。
优选地, 所述对所述语音数据进行文本转化得到语音文本, 包括: 利用语音文本转化( Speech-to-text )技术对所述语音数据进行文本转化, 得到语音文本。
优选地, 所述确定与所述表情信息对应的虚拟人物头像, 包括: 根据所述虚拟人物头像数据库存储的虚拟人物头像与虚拟人物表情信 息之间的对应关系、 以及所述通话对方的表情信息, 所述通话对应的虚拟 人物头像。
本发明实施例还提供了一种图像显示装置, 包括:
获取模块, 配置为获取通话对方的语音数据;
分析模块, 配置为对所述语音数据进行分析得到通话对方的表情信息; 处理模块, 配置为确定与所述表情信息对应的虚拟人物头像, 并在移 动终端的通话界面上显示所述虚拟人物头像。
优选地, 所述装置还包括:
数据库模块, 配置为建立虚拟人物头像数据库, 并在所述虚拟人物头 像数据库中存储虚拟人物头像与虚拟人物表情信息之间的对应关系。
优选地, 所述分析模块包括:
转化单元, 配置为对所述语音数据进行文本转化得到语音文本; 分析单元, 配置为对所述语音文本进行分析并提取出关键词, 根据所 述关键词确定通话对方的表情信息, 所述表情信息至少包括有通话对方的 情绪和口型。
优选地, 所述转化单元具体配置为利用语音文本转化技术对所述语音 数据进行文本转化, 得到语音文本。
优选地, 所述处理模块包括:
查找单元, 配置为根据虚拟人物头像与虚拟人物表情信息之间的对应 关系、 以及所述与通话对方的表情信息, 确定所述通话对方对应的虚拟人 物头像。
本发明实施例还提供一种计算机存储介质, 所述计算机存储介质中 存储有计算机可执行指令, 所述计算机可执行指令用于执行以上所述的 显示图像的方法。
本发明实施例还提供了一种移动终端, 包括如上所述的图像显示装置。 本发明的实施例具有以下有益效果:
在通话过程中, 通过语音文本转化和表情信息匹配, 能够使通话界面 上显示的虚拟人物头像, 且虚拟人物的口型和情绪与通话对方的语音数据 相对应, 从而使移动终端用户看起来像是通话界面上显示的虚拟人物通话, 克服了目前通话过程中只能显示单一的头像、 不支持头像的动态显示和动 画效果的缺陷, 提升了用户通话过程中的体验。 附图说明
图 1为本发明实施例中显示图像的方法流程示意图;
图 2为本发明实施例中图像显示装置的结构示意图;
图 3为设置通话过程中设置虚拟人物头像的示意图;
图 4为语音数据转化为语音文本的实现流程图;
图 5为语音文本与表情信息匹配的实现流程图;
图 6为虚拟人物头像数据库样式示意图;
图 7为情绪关键词数据库样式示意图;
图 8为口型关键词数据库样式示意图;
图 9为在通话界面上显示虚拟人物头像的实现流程图。 具体实施方式
为使本发明的实施例要解决的技术问题、 技术方案和优点更加清楚, 下面将结合附图及具体实施例进行详细描述。
相关技术在通话过程中, 一般都是在移动终端的通话界面上显示一个 静态的头像, 以标识来电人的身份, 这种图像显示方式比较呆板; 本发明 实施例记载的技术方案, 能够在移动终端通话过程中, 支持移动终端的通 话界面上显示动态的图像来模拟通话对方通话, 提升用户通话过程中的体 验。
本发明实施例记载了一种移动终端通话过程中显示图像的方法,如图 1 所示, 包括以下步骤:
步骤 101 : 获取通话对方的语音数据。
所述语音数据的传输方式包括: 包括基于传输控制协议 /网际协议
( TCP/IP ) 的网络传输; 基于移动通信网络的传输。
步骤 102: 对所述语音数据进行分析得到通话对方的表情信息。
步骤 103: 确定与所述表情信息对应的虚拟人物头像, 并在通话界面上 显示所述虚拟人物头像。
作为本发明另一实施例, 包括步骤 101至步骤 103的基础上, 所述获 取通话对方的语音数据之前, 还包括:
建立虚拟人物头像数据库, 并在所述虚拟人物头像数据库中存储虚拟 人物头像与虚拟人物表情信息之间的对应关系。
作为本发明另一实施例, 包括上述步骤 101至步骤 103的基础上, 所 述对所述语音数据进行分析得到通话对方的表情信息, 包括:
对所述语音数据进行文本转化得到语音文本;
对所述语音文本进行分析并提取出关键词, 根据所述关键词确定通话 对方的表情信息, 所述表情信息至少包括有通话对方的情绪和口型。 例如, 可以利用语音文本转化( Speech-to-text )技术对所述语音数据进 行文本转化得到语音文本。
作为本发明另一实施例, 包括上述步骤 101至步骤 103的基础上, 所 述确定与所述表情信息对应的虚拟人物头像, 包括:
根据虚拟人物头像与虚拟人物表情信息之间的对应关系, 确定与通话 对方的表情信息对应的虚拟人物头像。
本发明实施例在通话过程中, 通过语音数据转换为文本, 基于文本进 行表情信息匹配, 能够使通话界面上显示的虚拟人物头像, 且虚拟人物的 口型和情绪与通话过程中对方的语音数据相匹配, 从而看起来像是通话界 面上显示的虚拟人物在跟移动终端用户通话, 克服了目前通话过程中只能 显示单一的头像、 不支持头像的动态显示和动画效果的局限, 提升了用户 通话过程中的体验。
本发明实施例还记载了一种图像显示装置, 应用于移动终端通话过程 中, 如图 2所示, 包括:
获取模块 21, 配置为获取通话对方的语音数据;
分析模块 22, 配置为对所述语音数据进行分析得到通话对方的表情信 息;
处理模块 23, 配置为确定与所述表情信息对应的虚拟人物头像, 并在 通话界面上显示所述虚拟人物头像。
其中, 所述装置还包括:
ί史据库模块 24, 配置为建立虚拟人物头像数据库, 并在所述虚拟人物 头像数据库中存储虚拟人物头像与虚拟人物表情信息之间的对应关系。
其中, 所述分析模块 22包括转化单元和分析单元(图 2中未示出): 所述转化单元, 配置为对所述语音数据进行文本转化得到语音文本; 所述分析单元, 配置为对所述语音文本进行分析并提取出关键词, 根 据所述关键词确定通话对方的表情信息, 所述表情信息至少包括有通话对 方的情绪和口型。
其中, 所述转化单元还配置为利用语音文本转化技术对所述语音数据 进行文本转化得到语音文本。
其中, 所述处理模块 23包括:
查找单元(图 2中未示出), 配置为所述虚拟人物头像数据库存储的虚 拟人物头像与虚拟人物表情信息之间的对应关系、 以及所述通话对方的表 情信息, 确定与所述通话对方的表情信息对应的虚拟人物头像。
通过本发明实施例, 在通话过程中, 将语音文本转化和表情信息匹配, 能够使通话界面上显示的虚拟人物头像的口型和情绪, 与通话过程中对方 的语音内容相匹配, 从而移动终端用户看起来像是通话界面上显示的虚拟 人物通话, 克服了目前通话过程中只能显示单一的头像、 不支持头像的动 态显示和动画效果的局限, 提升了用户通话过程中的体验。
实际应用中, 所述获取模块 21、 分析模块 22、 处理模块 23可由图像 显示装置中的中央处理器(CPU, Central Processing Unit ) 实现; 所述数据 库模块 24可由图像显示装置中的非易失性存储介质和 CPU实现。
本发明实施例还记载了一种移动终端, 包括如上所述的图像显示装置。 本发明实施例还记载了一种计算机存储介质, 所述计算机存储介质中 存储有计算机可执行指令, 所述计算机可执行指令用于执行图 1 所示的显 示图像的方法。
下面再对本发明实施例记载的显示图像的方法进行详细说明, 在移动 终端通话过程中显示图像的方法包括以下步骤:
步骤 A: 虚拟人物的格式与设置。
首先需要设置通话过程中使用的虚拟人物头像。 由于虚拟人物的显示 是动态的, 涉及到多个头像。 因此, 所使用的虚拟人物头像可以放在移动 终端上的某一个目录下, 并用不同的后缀对文件名加以区分。 例如, 指定 一个虚拟人物头像的位置为 /data/data/avatar/lions/, 文件名可以为 OOl .png, 002.png, ...OlO.png等等, png为图像文件的格式。 另外, 这些虚拟人物头 像表示了虚拟人物不同的情绪和口型, 每一张图片代表对应的情绪和口型。 在匹配虚拟人物头像的过程中, 可以根据语音数据(需要转化成文本) 匹 配具体的虚拟人物头像。
例如, 可以在用户界面上让用户输入一个虚拟人物头像名, 它对应一 个文件夹; 或者从数据文件夹选择一个虚拟人物头像所在的文件夹。 设置 完成后, 该虚拟人物头像信息 (电话号码对应的虚拟人物头像等)将存于 移动终端中, 待保存到文件中以后即可生效。
图 3为通话过程中所用虚拟人物头像设置的一个示意图, 如图 3所示, 打开虚拟人物头像设置界面后, 输入姓名: 王; 号码: 1234567890, 然后 虚拟人物头像所在的文件夹名: 文件夹 1。 简单起见, 可以把虚拟人物头像 文件夹和电话本记录文件存放在同一个目录下, 这样只需要输入虚拟人物 头像文件夹名即可, 无需输入虚拟人物头像文件夹的路径。 如果虚拟人物 头像的所在文件夹和电话本记录文件不在同一个目录, 则需要输入完整的 路径。
步骤 B: 语音文本转化与表情信息匹配过程。
在通话过程中, 移动终端会接收到通话对方持续发送的语音数据, 如 图 4所示, 在步骤 401 中, 获取通话对方的语音数据; 在通话对方的语音 数据传过来以后, 步骤 402 中, 对语音数据进行语音文本转化, 转化成计 算机可以理解的文本内容。 转化的过程使用的是一种称为语音文本转换 ( Speech-to-text )的技术, 这种技术目前比较成熟, 其釆用的原理是对语音 数据进行样本釆集, 并与特征数据库内容进行比对, 从而获得语音数据的 对应文本。 通过这些文本, 可以解读出通话对方的语音数据中的表情信息, 包括情绪和口型。 解读的原理是基于文本、 文本对应的语音数据的读音和 语调, 以及文本内容的上下文(以反映说话者的情绪等)进行分析, 提取 出文本中关键词, 并匹配出通话对方的情绪和说话的口型等表情信息, 匹 配的处理流程如图 5所示, 首先, 在步骤 501 中解析语音文本中的关键词 获得通话对方的情绪, 之后在步骤 502 中解析语音文本中的关键词获得通 话对方的口型, 然后在步骤 503 中根据通话对方的情绪和口型确定对应的 虚拟人物头像; 步骤 501和步骤 502的执行顺序可以对调。
为了更加精确地实施匹配, 可以预先建立图 6所示的虚拟人物头像数 据库、 图 7所示的情绪数据库、 以及图 8所示的口型数据库; 在执行图 5 所示的步骤时, 使用相应的数据库进行操作; 以执行图 5 所示的步骤 501 为例, 利用解析语音数据后得到的语音文本与图 7所示的数据库进行匹配, 如果匹配到 【混蛋】【混账】等这些词, 则获得愤怒的情绪信息, 而匹配到 【好吧】【那好吧】, 则获得平和的情绪信息。 通过将语音数据文本与预先 建立的情绪数据库匹配, 可以精确地匹配出通话对方的情绪。 口型的匹配 与上述匹配处理类似, 由于语音文本中不同文字的口型是不一样的, 因此 通过将语音文本内容与口型数据库来匹配, 可以获得不同文字对应的口型; 基于所获取的口型和情绪信息, 以及图 6所示的虚拟头像数据库, 可以确 定与所获得的口型和 /或情绪对应的虚拟人物头像。
步骤 C: 通话过程中虚拟人物头像显示。
如图 9所示, 在确定通话对方的表情信息之后, 匹配到与通话对方的 表情信息相对应的虚拟人物头像,之后通过执行步骤 901, 即可将对应的虚 拟人物头像显示在通话界面。
对于某一种具体的虚拟人物头像, 它对应的是一系列的头像, 表示该 虚拟人物的不同情绪和口型。 如图 6 所示, 每个图像表示虚拟人物的不同 情绪和口型, 例如, 当前的虚拟人物的心情是惊讶, 那么对应的虚拟人物 头像就是 005.png。在获得通话对方的情绪和口型后,基于情绪和 /或口型获 得对应的虚拟人物头像, 并在通话界面上进行显示, 整个匹配 -显示的过程 不断重复执行, 直到通话结束。 例如, 可以在通话对方说完一段话之后, 对这一段话的语音数据进行转化成语音文本, 匹配通话对方的情绪和口型, 确定与通话对方的情绪和口型对应的虚拟人物头像, 并在通话界面上进行 显示; 之后在通话对方再说完一段话之后, 再获取新的虚拟人物头像, 替 换通话界面当前显示的虚拟人物头像; 重复执行伤处处理直至通话结束。 实际应用中, 可以在每次接收到通话对方预设量(例如 2 兆) 的语音数据 之后, 对接收的语音数据进行转化成语音文本, 匹配通话对方的情绪和口 型, 确定与通话对方的情绪和口型对应的虚拟人物头像, 并在通话界面上 进行显示, 之后在再次接收到通话对方预设量的语音数据之后, 基于所获 取的新的语音数据, 获取新的虚拟人物头像, 替换通话界面当前显示的虚 拟人物头像; 重复执行上述处理直至通话结束;
还可以在接收到预设时间长度(比如 2秒) 的通话对方的语音数据之 后, 对接收的语音数据进行转化成语音文本, 匹配通话对方的情绪和口型, 确定与通话对方的情绪和口型对应的虚拟人物头像, 并在通话界面上进行 显示, 之后在再接收到预设时间长度的通话对方的语音数据之后, 基于所 接收的新的语音数据, 获取新的虚拟人物头像, 替换通话界面当前显示的 虚拟人物头像, 重复上述处理直至通话结束
本发明实施例在通话过程中, 通过语音文本转化和表情信息匹配, 能 够使通话界面上显示的虚拟人物头像, 且虚拟人物的口型和情绪与通话过 程中对方的说话内容相匹配, 从而使移动终端用户看起来像是与通话界面 上显示的虚拟人物通话, 克服了目前通话过程中只能显示单一的头像、 不 支持头像的动态显示和动画效果的局限, 提升了用户通话过程中的体验。
本领域内的技术人员应明白, 本发明的实施例可提供为方法、 系统、 或计算机程序产品。 因此, 本发明可釆用硬件实施例、 软件实施例、 或结 合软件和硬件方面的实施例的形式。 而且, 本发明可釆用在一个或多个其 中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘 存储器和光学存储器等 )上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、 设备(系统)、 和计算机程序 产品的流程图和 /或方框图来描述的。 应理解可由计算机程序指令实现流程 图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。 可提供这些计算机程序指令到通用计算机、 专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器, 使得 在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功 能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理 设备以特定方式工作的计算机可读存储器中, 使得存储在该计算机可读存 储器中的指令产生包括指令装置的制造品, 该指令装置实现在流程图一个 流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备 上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机 实现的处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现 在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功 能的步骤。
以上所述仅是本发明实施例的实施方式, 应当指出, 对于本技术领域 的普通技术人员来说, 在不脱离本发明实施例原理的前提下, 还可以作出 若干改进和润饰, 这些改进和润饰也应视为本发明实施例的保护范围。

Claims

权利要求书
1. 一种显示图像的方法, 包括:
获取通话对方的语音数据;
对所述语音数据进行分析得到通话对方的表情信息;
确定与所述表情信息对应的虚拟人物头像, 并在移动终端的通话界面 上显示所述虚拟人物头像。
2. 根据权利要求 1所述的显示图像的方法, 其中, 所述获取通话对方 的语音数据之前, 所述方法还包括:
建立虚拟人物头像数据库, 并在所述虚拟人物头像数据库中存储虚拟 人物头像与虚拟人物表情信息之间的对应关系。
3. 根据权利要求 2所述的显示图像的方法, 其中, 所述对所述语音数 据进行分析得到通话对方的表情信息, 包括:
对所述语音数据进行文本转化得到语音文本;
对所述语音文本进行分析并提取出关键词, 根据所述关键词确定通话 对方的表情信息, 所述表情信息至少包括有通话对方的情绪和口型。
4. 根据权利要求 3所述的显示图像的方法, 其中, 所述对所述语音数 据进行文本转化得到语音文本, 包括:
利用语音文本转化 Speech-to-text技术对所述语音数据进行文本转化得 到语音文本。
5. 根据权利要求 3所述的显示图像的方法, 其中, 所述确定与所述表 情信息对应的虚拟人物头像, 包括:
根据所述虚拟人物头像数据库存储的虚拟人物头像与虚拟人物表情信 息之间的对应关系、 以及所述通话对方的表情信息, 确定与所述通话对方 的表情信息对应的虚拟人物头像。
6. 一种图像显示装置, 包括: 获取模块, 配置为获取通话对方的语音数据;
分析模块, 配置为对所述语音数据进行分析得到通话对方的表情信息; 处理模块, 配置为确定与所述表情信息对应的虚拟人物头像, 并在移 动终端的通话界面上显示所述虚拟人物头像。
7. 根据权利要求 6所述的图像显示装置, 其中, 所述装置还包括: 数据库模块, 配置为建立虚拟人物头像数据库, 并在所述虚拟人物头 像数据库中存储虚拟人物头像与虚拟人物表情信息之间的对应关系。
8. 根据权利要求 7所述的图像显示装置, 其中, 所述分析模块包括: 转化单元, 配置为对所述语音数据进行文本转化得到语音文本; 分析单元, 配置为对所述语音文本进行分析并提取出关键词, 根据所 述关键词确定通话对方的表情信息, 所述表情信息至少包括有通话对方的 情绪和口型。
9. 根据权利要求 8所述的图像显示装置, 其中, 所述转化单元还配置 为利用语音文本转化 Speech-to-text技术对所述语音数据进行文本转化得到 语音文本。
10. 根据权利要求 8所述的图像显示装置, 其中, 所述处理模块包括: 查找单元, 配置为根据所述虚拟人物头像数据库存储的虚拟人物头像 与虚拟人物表情信息之间的对应关系、 以及所述通话对方的表情信息, 确 定所述通话对方对应的虚拟人物头像。
11. 一种移动终端, 包括如权利要求 6至 10中任一项所述的图像显示 装置。
12. 一种计算机存储介质, 所述计算机存储介质中存储有计算机可 执行指令, 所述计算机可执行指令用于执行权利要求 1至 5 中任一项所 述的显示图像的方法。
PCT/CN2014/075626 2013-09-25 2014-04-17 显示图像的方法、装置、移动终端及计算机存储介质 WO2014176983A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310442754.8A CN104468959A (zh) 2013-09-25 2013-09-25 移动终端通话过程中显示图像的方法、装置及移动终端
CN201310442754.8 2013-09-25

Publications (1)

Publication Number Publication Date
WO2014176983A1 true WO2014176983A1 (zh) 2014-11-06

Family

ID=51843116

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2014/075626 WO2014176983A1 (zh) 2013-09-25 2014-04-17 显示图像的方法、装置、移动终端及计算机存储介质

Country Status (2)

Country Link
CN (1) CN104468959A (zh)
WO (1) WO2014176983A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107566653A (zh) * 2017-09-22 2018-01-09 维沃移动通信有限公司 一种通话界面展示方法及移动终端
CN112925411A (zh) * 2021-01-20 2021-06-08 深圳市金大智能创新科技有限公司 一种基于带有虚拟人物交互的实现方法、智能音箱及智能终端
CN113506360A (zh) * 2021-07-12 2021-10-15 北京顺天立安科技有限公司 一种虚拟人物表情驱动方法和系统
CN114356068A (zh) * 2020-09-28 2022-04-15 北京搜狗智能科技有限公司 一种数据处理方法、装置和电子设备

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106062764B (zh) * 2015-02-04 2019-07-23 华为技术有限公司 一种在通话界面上隐藏个人信息的方法和设备
CN106817349B (zh) * 2015-11-30 2020-04-14 厦门黑镜科技有限公司 一种在通信过程中使通信界面产生动画效果的方法及装置
CN105930035A (zh) * 2016-05-05 2016-09-07 北京小米移动软件有限公司 显示界面背景的方法及装置
CN106024014B (zh) * 2016-05-24 2019-08-23 努比亚技术有限公司 一种语音转换方法、装置及移动终端
CN106209791B (zh) * 2016-06-28 2021-10-22 联想(北京)有限公司 数据处理方法、装置和电子设备
CN108234735A (zh) * 2016-12-14 2018-06-29 中兴通讯股份有限公司 一种媒体显示方法及终端
CN108881784B (zh) * 2017-05-12 2020-07-03 腾讯科技(深圳)有限公司 虚拟场景实现方法、装置、终端及服务器
CN107016949A (zh) * 2017-05-17 2017-08-04 广东美的制冷设备有限公司 信息展示方法、装置及其设备
CN108304072A (zh) * 2018-02-09 2018-07-20 北京北行科技有限公司 一种vr虚拟世界角色表情植入装置以及植入方法
CN108519977A (zh) * 2018-03-30 2018-09-11 联想(北京)有限公司 一种信息处理方法及电子设备
CN109040479A (zh) * 2018-08-30 2018-12-18 珠海格力电器股份有限公司 多媒体内容推送系统、方法与显示系统、方法及移动电话
CN110086937A (zh) * 2019-04-28 2019-08-02 上海掌门科技有限公司 通话界面的显示方法、电子设备和计算机可读介质
CN110062116A (zh) * 2019-04-29 2019-07-26 上海掌门科技有限公司 用于处理信息的方法和设备
JP6807621B1 (ja) * 2020-08-05 2021-01-06 株式会社インタラクティブソリューションズ 音声に基づいて画像を変更するためのシステム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427626A (zh) * 2001-12-20 2003-07-02 松下电器产业株式会社 虚拟电视通话装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741953A (zh) * 2009-12-21 2010-06-16 中兴通讯股份有限公司 一种通话时应用卡通动画显示语音信息的方法和装置
CN103258340B (zh) * 2013-04-17 2015-12-09 中国科学技术大学 富有情感表达能力的三维可视化中文普通话发音词典的发音方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1427626A (zh) * 2001-12-20 2003-07-02 松下电器产业株式会社 虚拟电视通话装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107566653A (zh) * 2017-09-22 2018-01-09 维沃移动通信有限公司 一种通话界面展示方法及移动终端
CN114356068A (zh) * 2020-09-28 2022-04-15 北京搜狗智能科技有限公司 一种数据处理方法、装置和电子设备
CN114356068B (zh) * 2020-09-28 2023-08-25 北京搜狗智能科技有限公司 一种数据处理方法、装置和电子设备
CN112925411A (zh) * 2021-01-20 2021-06-08 深圳市金大智能创新科技有限公司 一种基于带有虚拟人物交互的实现方法、智能音箱及智能终端
CN113506360A (zh) * 2021-07-12 2021-10-15 北京顺天立安科技有限公司 一种虚拟人物表情驱动方法和系统

Also Published As

Publication number Publication date
CN104468959A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
WO2014176983A1 (zh) 显示图像的方法、装置、移动终端及计算机存储介质
US10586541B2 (en) Communicating metadata that identifies a current speaker
WO2022052481A1 (zh) 基于人工智能的vr互动方法、装置、计算机设备及介质
US9318104B1 (en) Methods and systems for sharing of adapted voice profiles
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
WO2017054122A1 (zh) 语音识别系统及方法、客户端设备及云端服务器
CN108986826A (zh) 自动生成会议记录的方法、电子装置及可读存储介质
US20140236596A1 (en) Emotion detection in voicemail
WO2013184953A1 (en) Spoken names recognition
JP2013521567A (ja) クライアント・コンピューティング・デバイスを含むシステム、メディア・オブジェクトにタグ付けする方法、および音声タグ付きメディア・オブジェクトを含むデジタル・データベースをサーチする方法
CN107707745A (zh) 用于提取信息的方法和装置
CN103514882B (zh) 一种语音识别方法及系统
JP5913394B2 (ja) 音声同期処理装置、音声同期処理プログラム、音声同期処理方法及び音声同期システム
US11574633B1 (en) Enhanced graphical user interface for voice communications
CN109460891A (zh) 基于满意度评价的数据处理方法、装置和计算机设备
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN111739509B (zh) 电子书音频生成方法、电子设备及存储介质
CN106873798A (zh) 用于输出信息的方法和装置
CN114067842A (zh) 客户满意度鉴别方法及装置、存储介质及电子设备
JP6401488B2 (ja) 外国語会話理解支援装置、外国語会話理解支援方法及びプログラム
CN111968630B (zh) 信息处理方法、装置和电子设备
JP2017167433A (ja) サマリ生成装置、サマリ生成方法及びサマリ生成プログラム
WO2023195105A1 (ja) 付与装置、付与方法および付与プログラム
WO2023160515A1 (zh) 视频处理方法、装置、设备及介质
CN104717339A (zh) 联系人查询系统及方法、通信装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14791896

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14791896

Country of ref document: EP

Kind code of ref document: A1