WO2015117373A1

WO2015117373A1 - 一种语音消息可视化服务的实现方法及装置

Info

Publication number: WO2015117373A1
Application number: PCT/CN2014/088985
Authority: WO
Inventors: 李超; 何栩翊
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-07-22
Filing date: 2014-10-20
Publication date: 2015-08-13
Also published as: EP3174052A4; EP3174052A1; CN105282621A; US20170270948A1

Abstract

一种语音消息可视化服务的实现方法及装置，该装置至少包括：信息接收模块（401），接收消息发送方发送的或者本地存储的原始消息以及人像图片，其中，所述原始消息为文本消息或语音消息；动态视频生成模块（402），从所述人像图片中提取面部特征，生成面部表情，并将所述面部表情与所述原始消息合成为动态视频信息，其中，生成的面部表情与原始消息内容相对应；将所述动态视频信息发送给消息接收方并在消息接收方的终端显示。该技术方案较大限度地利用了资源，使用户更方便更有趣的发送信息。

Description

一种语音消息可视化服务的实现方法及装置

技术领域

本发明涉及语音消息可视化服务的实现技术领域，具体地说涉及一种综合的统一的语音消息服务。

背景技术

在信息通讯快速发展的今天，人们在使用电话进行通讯时，可能经常困扰于如下的情形：因为对方人不在，长时间拨打无人接听；因为外出办事错过了重要电话；在进行重要工作、会议时，不方便接听电话。于是，语音消息业务便产生了。语音消息服务可将用户未能及时接听的来电转至语音消息中，让来电者留言；并在将来的某个时间，提示被叫，让被叫方便地收听留言。

这是语音消息业务发展的初始阶段。但是，随着3G技术、下一代网络技术的不断成熟并走向商用，基于3G网络上的业务应用也越来越丰富。智能手机的出现，更加丰富了用户与语音消息业务之间的交互手段，最大的特点就是用户可以通过智能手机上传位置信息、图片等多种数据。

如图1所示，用户使用现今的语音消息系统时，用户发送什么信息就接收什么信息。现今比较流行的语音消息系统基本架构如图2所示，其核心组成模块包括信息接收模块、信息存储模块、信息下发模块。基本工作原理如下：用户(语音消息发送者)发送消息给语音消息系统，信息接收模块接收消息，并调用信息存储模块存储，然后信息下发模块将语音消息下发给语音消息接收者。

发明内容

本发明所要解决的技术问题是，提供一种语音消息可视频化的实现方法及装置，以实现用户发送基于自己面部特征生成的视频信息。

为了解决上述技术问题，采用如下技术方案：

一种语音消息可视化的实现装置，包括信息接收模块和动态视频生成模块，其中：

所述信息接收模块设置成：接收消息发送方发送的或者本地存储的原始消息以及人像图片，其中，所述原始消息为文本消息或语音消息；

所述动态视频生成模块设置成：从所述人像图片中提取面部特征，生成面部表情，并将所述面部表情与所述原始消息合成为动态视频信息，其中，生成的面部表情与所述原始消息的内容相对应，将所述动态视频信息发送给消息接收方，并在所述消息接收方的终端显示。

可选地，所述动态视频生成模块包括面部特征提取子模块、面部表情生成子模块和信息转换子模块，其中：

所述面部特征提取子模块设置成：从所述人像图片中提取面部特征；

所述面部表情生成子模块设置成：根据提取的所述面部特征生成面部表情；

所述信息转换子模块设置成：根据词语库将文本或语音消息拆为单个词语，根据词语分析语境、情感，根据语境、情感从生成的面部表情中选择相应的面部表情图片，将面部表情图片与所述文本消息或语音消息合成为所述动态视频信息。

可选地，该装置置于语音消息系统侧。

可选地，该装置还包括信息存储模块和信息下发模块，其中：

所述信息存储模块设置成：存储所述消息发送方发送的原始消息以及人像图片，以及存储所述动态视频生成模块所生成的动态视频信息以及对应的接收方信息；

所述信息下发模块设置成：将所述信息存储模块存储的动态视频信息下发给所述消息接收方。

可选地，所述消息接收方为移动终端用户或交互式网络电视(IPTV)用户。

一种语音消息可视化的实现方法，包括：

接收消息发送方发送的或者本地存储的原始消息以及人像图片，其中，所述原始消息为文本消息或语音消息；

从所述人像图片中提取面部特征，生成面部表情，并将生成的面部表情与所述原始消息合成为动态视频信息，其中，生成的面部表情与所述原始消息的内容相对应；

将所述动态视频信息发送给消息接收方，并在所述消息接收方的终端显示。

可选地，所述将生成的面部表情与所述原始消息合成为动态视频信息的步骤包括：

根据词语库将文本或语音消息拆为单个词语，根据词语分析语境、情感，根据语境、情感从生成的面部表情中选择相应的面部表情图片，将面部表情图片与所述文本消息或语音消息合成为所述动态视频信息。

可选地，该方法还包括：

将合成的动态视频信息下发给所述消息接收方。

上述技术方案将文本消息、语音消息转换了基于用户面部特征生成的视频消息，较大限度地利用了资源，使用户更方便更有趣的发送信息，提高市场的竞争力，有明显的经济效益和社会效益。

附图概述

图1为目前语音消息系统的原理示意图；

图2为目前语音消息系统的架构示意图；

图3为本发明实施例的改进后的语音消息系统原理示意图；

图4为本发明实施例的改进后的语音消息系统结构示意图；

图5为本发明实施例中用户发送消息流程图；

图6为本发明实施例中用户接收消息流程图；

图7为本发明应用场景一流程图；

图8为本实施例中语音消息转化为动态视频的流程图；

图9为本发明应用场景二流程图；

图10为本实施例中文本消息转化为动态视频的流程图；

图11为本发明应用场景三流程图。

本发明的较佳实施方式

下文将结合附图对本发明技术方案作进一步详细说明。需要说明的是，在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

实施例1

由于在图1所示的传统语音消息系统中，消息发送者只能单纯发送信息。因此本申请发明人考虑，如果架构一种如图3所示的语音消息系统，让用户发送信息的同时可以上传自己的照片，从而让系统生成基于自己面部特征生成的动态视频信息，再发送给消息接收者。这样，将较大限度地利用各种数据，提高用户的满意度和市场的竞争力。

基于上述思想，本实施例提供一种语音消息可视化的实现装置，如图4所示，至少包括信息接收模块401和动态视频生成模块402。

其中，信息接收模块401设置成：接收消息发送方发送的原始消息、以及人像图片，本实施例中原始消息为文本消息或语音消息；

动态视频生成模块402设置成：从收到的人像图片中提取面部特征，生成面部表情，并将生成的面部表情与收到的原始消息合成为动态视频信息，其中，生成的面部表情与原始消息内容相对应；

将所述动态视频信息在消息接收方的终端显示或发送给消息接收方。

具体地，动态视频生成模块402包括面部特征提取子模块4021、面部表情生成子模块4022和信息转换子模块4023。

其中，信息接收模块401与下面提到的信息存储模块403、面部特征提取子模块4021相连。信息接收模块401设置成：接收用户(消息发送者)发送的原始消息(即为文本或语音消息)、人像图片。当接收到消息上传请求后，首先调用面部特征提取子模块4021进行信息转换处理流程，最后向消息发送者返回结果。

而面部特征提取子模块4021与信息接收模块401、面部表情生成子模块4022相连。面部特征提取子模块4021设置成：从用户上传的图片中提取面部特征，然后调用面部表情生成子模块4022。

面部表情生成子模块4022与面部特征提取子模块4021、信息转换子模块4023相连。面部表情生成子模块4022设置成：根据面部特征生成面部表情，然后调用信息转换子模块4023。

信息转换子模块4023与面部表情生成子模块4022相连，信息转换子模块4023设置成：将发送者的原始消息息、面部表情合成为新的动态视频信息。其根据词语库将文本或语音消息拆为单个词语，根据词语分析语境、情感，根据语境、情感从生成的面部表情中选择相应的面部表情图片，将面部表情图片与文本或语音消息合成为动态视频。也就是说，信息转换子模块4023生成的动态视频可反应出原始的文本或者语音消息的内容，以用户通过动态画面也可以获取消息内容。

需要说明的是，本实施例中的装置可以置于语音消息系统侧，此时，其还可以包括信息存储模块403和信息下发模块404，该信息存储模块403与信息接收模块401、信息转换子模块4023、信息下发模块404相连(此时整个装置架构如图4所示)。信息存储模块403主要负责保存生成的动态视频信息以及对应的接收方上、以便信息下发模块查询用户消息。优选地，该信息存储模块403，还设置成存储消息发送方发送的原始消息和人像图片。此时，信息下发模块404，将信息存储模块403存储的动态视频信息下发给对应的接收方即可。

具体地，信息下发模块404在探测到用户(即接收方)开机后，调用信息存储模块403查询出该用户的语音消息(即本实施例中的动态视频信息)，然后下发该消息。

以下以用户发送信息流程、用户接收信息流程为例，对本实施例的装置中信息发送进行详细说明：

如图5所示为本实施例提供的装置中用户发送信息流程，包括如下步骤：

步骤501、用户发送信息的同时，发送人像图片。

该步骤中，用户发送原始消息后，在一设定时间内发送人像图片均可。

步骤502、语音消息系统侧的语音消息可视化的实现装置接收消息。

步骤503、面部特征提取子模块根据图片提取发送者的面部特征。

步骤504、面部表情生成子模块根据发送者的面部特征生成相应的面部表情。

步骤505、信息转换子模块将发送者的原始信息、面部表情合成为新的视频信息。

其中，生成的面部表情与原始消息内容相对应。即生成的动态视频可反应出原始的文本或者语音消息的内容，以用户通过动态画面也可以获取消息内容。

步骤506、信息存储模块将信息存储起来。

如图6所示为本实施列提供的装置中用户接收信息流程，包括如下步骤：

步骤601、用户登陆语音消息系统。

步骤602、语音消息可视化的实现装置判断用户是否有消息需要接收，如果有符合条件的消息，则下发。

步骤603、用户接收到他人发送的信息。

下面再以具体应用场景说明上述语音消息系统的工作过程。

应用场景一：

通过本实施例的装置可以将语音消息转换为基于用户面部特征生成的视频，再下发给用户(接收者)，该过程如图7所示，包括如下操作：

步骤701、用户A发送语音消息给用户B的同时上传自己的照片。

步骤702、语音消息可视化的实现装置接收消息，并转换消息为视频。

即将语音消息与人像图片合成动态视频信息，具体过程如图8所示，包括如下操作：

步骤800，根据音频分析，将语音消息转换为文本；

步骤802，根据词语库将文本拆为单个词语；

步骤804，根据词语分析语境、情感；

步骤806，根据语境、情感选择相应的面部表情图片；

其中，面部表情图片是由人像图片中提取面部特征所生成的。

步骤808，将面部表情图片合成为动态视频。

步骤703、存储转换后的消息，待用户B接收。

步骤704、用户B登录语音消息系统后，接收到转换后的消息。

此应用场景中，用户B是残障人士，不能收听语音，但是可以读唇语，故通过合成的动态视频信息即可获知原始消息的内容，即语音消息的内容。

应用场景二：

通过本实施例的装置可以将文本消息转换为基于用户面部特征生成的视频，再下发给用户(接收者)，该过程如图9所示，包括如下操作：

步骤901、用户A发送文本消息给用户B的同时上传一张人像图片。

步骤902、语音消息可视化的实现装置接收消息，并转换消息为视频。

即将文本消息与人像图片合成动态视频信息，具体包括如下操作，如图10所示：

步骤1000，根据词语库将文本消息拆为单个词语；

步骤1002，根据词语分析语境、情感；

步骤1004，根据语境、情感选择相应的面部表情图片；

步骤1006，将面部表情图片合成为动态视频。

步骤903、语音消息可视化的实现装置存储转换后的消息，待用户B接收。

步骤904、用户B登录语音消息系统后，接收到转换后的消息。

应用场景三：

本实施例中的装置与IPTV系统具有接口互通消息，因此可以将本实施例中的装置与IPTV系统结合，使IPTV用户在电视上接收转换后的信息，具体实现过程如图11所示，包括如下操作：

步骤1101、用户A发送文本消息给用户B的同时上传一张人像图片。

步骤1102、语音消息可视化的实现装置接收消息，并转换消息为视频。

即将文本消息与人像图片合成动态视频信息，具体操作如前文所述。

步骤1103、语音邮件服务的实现装置存储转换后的消息，并将消息转发给IPTV系统。

步骤1104、用户B登录IPTV系统后，接收到转换后的消息。

实施例2

本实施例提供一种语音消息可视化的实现方法，可基于上述实施例1中的装置实现。该方法包括如下操作：

接收消息发送方发送的原始消息、以及人像图片，其中，所述原始消息为文本消息或语音消息；

从所收到的人像图片中提取面部特征，生成面部表情，并将生成的面部表情与所收到的原始消息合成为动态视频信息，其中，生成的面部表情与原始消息内容相对应；

在上述方法的基础上，还可以存储所合成的动态视频信息以及对应的接收方信息，以便向用户下发消息时，查询对应的动态视频信息。

当然，还可以存储消息发送方发送的原始消息以及人像图片。

最后，将合成的动态视频信息下发给对应的接收方即可。

具体地，本实施例中，从人像图片中提取面部特征，生成面部表情，并将生成的面部表情与原始消息合成为动态视频信息的过程如下：

首先，从所接收的人像图片中提取面部特征；

再根据提取的面部特征生成面部表情；

最后根据词语库将原始消息(例如文本或语音消息)拆为单个词语，根据词语分析语境、情感，根据语境、情感从生成的面部表情中选择相应的面部表情图片，将面部表情图片与文本或语音消息合成为动态视频。

还要说明的是，上述方法中所涉及到的接收方可以为移动终端用户或者IPTV用户。

上述方法的具体实现还可参见上述实施例1的相应内容，在此不再赘述。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述，仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

上述技术方案将文本消息、语音消息转换了基于用户面部特征生成的视频消息，较大限度地利用了资源，使用户更方便更有趣的发送信息，提高市场的竞争力，因此具有很强的工业实用性。

Claims

一种语音消息可视化的实现装置，包括信息接收模块和动态视频生成模块，其中：

所述信息接收模块设置成：接收消息发送方发送的或者本地存储的原始消息以及人像图片，其中，所述原始消息为文本消息或语音消息；

所述动态视频生成模块设置成：从所述人像图片中提取面部特征，生成面部表情，并将所述面部表情与所述原始消息合成为动态视频信息，其中，生成的面部表情与所述原始消息的内容相对应，将所述动态视频信息发送给消息接收方，并在所述消息接收方的终端显示。
如权利要求1所述的实现装置，其中，所述动态视频生成模块包括面部特征提取子模块、面部表情生成子模块和信息转换子模块，其中：

所述面部特征提取子模块设置成：从所述人像图片中提取面部特征；

所述面部表情生成子模块设置成：根据提取的所述面部特征生成面部表情；

所述信息转换子模块设置成：根据词语库将文本或语音消息拆为单个词语，根据词语分析语境、情感，根据语境、情感从生成的面部表情中选择相应的面部表情图片，将面部表情图片与所述文本消息或语音消息合成为所述动态视频信息。
如权利要求1或2所述的实现装置，该装置置于语音消息系统侧。
如权利要求3所述的实现装置，该装置还包括信息存储模块和信息下发模块，其中：

所述信息存储模块设置成：存储所述消息发送方发送的原始消息以及人像图片，以及存储所述动态视频生成模块所生成的动态视频信息以及对应的接收方信息；

所述信息下发模块设置成：将所述信息存储模块存储的动态视频信息下发给所述消息接收方。
如权利要求4所述的实现装置，其中，所述消息接收方为移动终端用户或交互式网络电视(IPTV)用户。
一种语音消息可视化的实现方法，包括：

接收消息发送方发送的或者本地存储的原始消息以及人像图片，其中，所述原始消息为文本消息或语音消息；

从所述人像图片中提取面部特征，生成面部表情，并将生成的面部表情与所述原始消息合成为动态视频信息，其中，生成的面部表情与所述原始消息的内容相对应；

将所述动态视频信息发送给消息接收方，并在所述消息接收方的终端显示。
如权利要求6所述的实现方法，其中，所述将生成的面部表情与所述原始消息合成为动态视频信息的步骤包括：

根据词语库将文本或语音消息拆为单个词语，根据词语分析语境、情感，根据语境、情感从生成的面部表情中选择相应的面部表情图片，将面部表情图片与所述文本消息或语音消息合成为所述动态视频信息。
如权利要求6或7所述的实现方法，该方法还包括：

将合成的动态视频信息下发给所述消息接收方。
如权利要求8所述的实现方法，其中，所述消息接收方为移动终端用户或交互式网络电视(IPTV)用户。
一种计算机程序，包括程序指令，当该程序指令被语音消息可视化的实现装置执行时，使得该语音消息可视化的实现装置可执行权利要求6-9中任一项所述的语音消息可视化的实现方法。
一种载有权利要求10所述计算机程序的载体。