WO2019029073A1

WO2019029073A1 - 传屏方法、装置、电子设备及计算机可读存储介质

Info

Publication number: WO2019029073A1
Application number: PCT/CN2017/116067
Authority: WO
Inventors: 欧阳宇基
Original assignee: 广州视源电子科技股份有限公司; 广州视臻信息科技有限公司
Priority date: 2017-08-07
Filing date: 2017-12-14
Publication date: 2019-02-14
Also published as: CN107527623A; CN107527623B

Abstract

一种传屏方法、装置(600)、电子设备及计算机可读存储介质，通过接收源端设备(220)采集并发送过来的周围环境的声音信息(1#)，结合自身采集的周围环境的声音信息(0#)，通过特征识别将与同一发言人对应的声音信息转换成同一文本信息(S110)，在投屏画面中渲染文本信息(S120)。由于发言人通常与自己持有的源端设备(220)邻近，因而源端设备(220)采集到声音信息(1#)中该发言人的声音更清晰，提高了从声音信息中区分各发言人的准确性，便于依据同一发言人对应的声音信息转换文本信息，提高了语音识别的准确性。

Description

传屏方法、装置、电子设备及计算机可读存储介质

技术领域

本发明涉及传屏技术领域，尤其涉及一种传屏方法、装置、电子设备及计算机可读存储介质。

背景技术

传屏技术主要是指将手机、电脑等设备的屏幕上显示的内容和播放的声音(桌面数据)同步到投影仪、电视机、会议平板等显示设备进行展示的技术。手机、电脑等设备具有操作方便、处理能力强等优势，而会议平板等显示设备具有屏幕大、音效好等优势，通过传屏技术就可以将两者具备的优势结合，在会议等场景下被大量使用。

以会议场景为例，参会人员可能使用不同的语言、口音、语速，导致其他参会人员可能无法完全理解会议信息。目前的语音识别虽然可以将语音转换成字幕，但是，在会议讨论过程中人多口杂，生成的字幕也是混乱的，因此，语音识别在会议场景中的应用效果不佳，使得会议上发布、讨论的信息失真或遗漏，降低了会议沟通的效率。

发明内容

有鉴于此，本发明提供一种传屏方法、装置、电子设备及计算机可读存储介质，以克服目前会议场景中应用语音识别效果不佳的问题。

具体地，本发明是通过如下技术方案实现的：

一种传屏方法，包括以下步骤：

接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息；

在投屏画面中渲染所述文本信息。

一个实施例中，所述接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息的步骤包括：

对自身采集的周围环境的声音信息进行分析处理，根据特征识别将声音信息转换成与发言人对应的第一文本信息；

接收源端设备采集并发送过来的周围环境的声音信息，根据该声音信息对第一文本信息进行校正。

接收源端设备采集并发送过来的周围环境的声音信息，将该声音信息与自身采集的周围环境的声音信息进行分析处理，提取与发言人对应的声音信息；

将与发言人对应的声音信息转换成文本信息。

一个实施例中，所述将该声音信息与自身采集的周围环境的声音信息进行分析处理，提取与发言人对应的声音信息的步骤包括：

以从源端设备接收的声音信息作为参考信息，将自身采集的声音信息与参考信息进行相关性运算，去除环境噪声和/或其他发言人的声音信息，提取与单一发言人对应的声音信息。

一个实施例中，所述投屏画面为对源端设备发送来的桌面数据进行展示所得的画面，所述提取与单一发言人对应的声音信息的步骤之后，还包括：

将发言人对应的声音信息进行语音处理，所述语音处理包括增益处理、衰减处理，使声音信息对应的音量处于预设范围内；

根据时间戳将处理后的声音信息与桌面数据相关联。

一个实施例中，所述文本信息包括以下至少之一：

与声音信息语种对应的文本信息；

与目标语种对应的文本信息；

与声音信息中主语种对应的文本信息；

与声音信息中次语种对应的文本信息。

一个实施例中，在投屏画面中渲染所述文本信息的步骤包括：

匹配与不同发言人对应的渲染属性，依据所述渲染属性在投屏画面中渲染所述文本信息；

其中，所述渲染属性包括以下至少之一：字体颜色、字体大小、字体粗细、显示方位、个性化标记；所述个性化标记包括以下任一：下划线、文字突出显示颜色。

匹配发送桌面数据的源端设备所发送的周围环境的声音信息，将该声音信息对应的单一发言人作为主讲人，以区别于其他发言人的形式着重显示所述主讲人的文本信息。

一个实施例中，所述通过特征识别将与同一发言人对应的声音信息转换成同一文本信息的步骤之后，还包括：

根据时间戳将文本信息与桌面数据相关联。

本发明还公开了一种传屏装置，包括：

处理模块，用于接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息；

渲染模块，用于在投屏画面中渲染所述文本信息。

本发明还公开了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如前任意一项所述的传屏方法。

本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前任意一项所述的传屏方法。

本发明通过接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将与同一发言人对应的声音信息转换成同一文本信息，在投屏画面中渲染所述文本信息。由于发言人通常与自己持有的源端设备邻近，因而该源端设备采集到声音信息中该发言人的声音更清晰，提高了从声音信息中区分各发言人的准确性，便于依据同一发言人对应的声音信息转换文本信息，提高了语音识别的准确性。

附图说明

图1是本发明一示例性实施例示出的一种传屏方法的流程图；

图2a是本发明一示例性实施例示出的会议场景的示例图；

图2b是本发明一示例性实施例示出的对声音信息的处理方法的细化示例图；

图2c是本发明一示例性实施例示出的对声音信息的处理方法的细化示例图；

图3是本发明一示例性实施例示出的一种传屏方法的流程图；

图4是本发明一示例性实施例示出的一种渲染文本信息的效果图；

图5是本发明一示例性实施例示出的一种电子设备的逻辑框图；

图6是本发明一示例性实施例示出的一种传屏装置的逻辑框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

会议平板等设备因具有大屏幕、音效好、支持手写输入等优势，近年来，在会议场合被广泛使用。通常来说，主讲人通过传屏技术将自己使用的手机、电脑等设备的屏幕上显示的内容和播放的声音(桌面数据)同步到会议平板等显示设备进行展示。然而，参会人员可能使用不同的语言、口音、语速，导致其他参会人员可能无法完全理解会议信息。目前的语音识别虽然可以将语音转换成字幕，但是，在会议讨论过程中人多口杂，生成的字幕也是混乱的，因此，语音识别在会议场景中的应用效果不佳，使得会议上发布、讨论的信息失真或遗漏，降低了会议沟通的效率。

对此，本发明提出了一种传屏方法，如图1所示，该方法包括：

S110、接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息；

S120、在投屏画面中渲染所述文本信息。

通常来说，会议平板等设备(以下简称传屏设备)需要放置在便于全体与会人员观看的位置，因此传屏设备的位置与参会人员保持一定距离。如图2a所示为一场小型会议示意图，4位参会人员230沿圆桌240依次落坐，传屏设备210放置在参会人员230的对面(例如，墙上)，会议的主讲人配置有源端设备220(例如电脑、麦克风等)，其他参会人员230也可以配置源端设备220。由于所有参会人员230都可能发言(将当前在说话的人称为发言人)，各发言人距离传屏设备210均较远，由于声波传输存在衰减、周围环境的噪声及其它干扰的存在，传屏设备210采集声音的质量通常来说要低于源端设备220采集声音的质量，且发言人有配套的源端设备220时，该源端设备220采集的该发言人的声音会更清晰。

图2a中传屏设备210中的单元211表示麦克风等能采集发言人的声音，当然，也可以是与传屏设备210连接的外置的采集声音的设备(例如，全向麦克风等)，本发明对此不作限制。源端设备220也可以采集发言人的声音，并将采集的声音信息发送到传屏设备210，传屏设备210中的单元212表示通信装置，当然，也可能是蓝牙或无线网络等方式发送该声音信息，同时，会议主讲人还通过源端设备220将桌面数据发送给传屏设备210，传屏设备210展示源端设备220桌面数据的内容(投屏画面)。

传屏设备210将自身采集的声音信息与源端设备220采集的声音信息进行综合分析处理，从而能够准确的识别出各发言人的声音信息，并可以将声音信息转化成文本信息(可以针对每一发言人设置一文本信息，或者在一数据中记录各发言人的文本信息)，再将该文本信息渲染在投屏画面中，渲染效果可以类似于字幕。

将自身采集的声音信息与源端设备220采集的声音信息进行综合分析处理的方式可以有多种，例如：

如图2b所示，传屏设备210及源端设备220同时采集周围环境的声音信息，传屏设备210将自身采集的声音信息0#进行分析处理，根据特征识别从声音信息0#中识别出与各发言人对应的声音信息并转化成第一文本信息(可以针对每一发言人设置一第一文本信息，或者在一数据中记录各发言人的第一文本信息)，源端设备220将自身采集的声音信息1#发送给传屏设备210，传屏设备210根据声音信息1#对第一文本信息进行校正，从而得到准确度高的文本信息。其中，校正方式可以是将声音信息1#转换成文本信息1#，将第一文本信息与文本信息1#进行比较以进行校正；也可以是通过声音信息1#对第一文本信息进行复核；本申请中通过声音校正文本的具体方式不局限于此，还可以采用其它的校正方式。

当然，还可以采用如下方式对声音信息进行处理：

将与发言人对应的声音信息转换成文本信息。

如图2c所示，传屏设备210及源端设备220同时采集周围环境的声音信息，源端设备220将自身采集的声音信息1#发送给传屏设备210，传屏设备210将自身采集的声音信息0#与声音信息1#进行分析处理，从而提取出与各发言人对应的声音信息(提取的声音信息可以是针对单一发言人的，也可以是包含多个发言人的)，将与发言人对应的声音信息转换成文本信息，由于提取的声音信息滤除了噪声甚至其他发言人的声音信息(记为纯净语音信息)，纯净语音可以通过以下方式得到：以从源端设备210接收的声音信息作为参考信息，将自身采集的声音信息与参考信息进行相关性运算，相关性运算的方法有多种，设计者可根据实际使用情况选用；从而可以去除环境噪声和/或其他发言人的声音信息，从而就可以提取出与单一发言人对应的声音信息(纯净语音信息)。当然，源端设备210也可以将采集的声音信息进行衰减和滤波等处理，仅保留使用该源端设备210的发言人的声音信息，再将该声音信息发送至传屏设备210，通过提高参考信息的精度，能够进一步提高与单一发言人对应的声音信息的纯度。

根据纯净语音信息转化文本信息的准确性更高，且纯净语音信息还可以做进一步地优化处理。例如，部分发言人的嗓音太小、太大或者嗓音大小波动较大，对这类声音信息进行语音处理将提高听觉效果，特别是录屏后回看(听)和/或将录屏数据发送给异地远程参加会议的与会人员时，处理过程如图3所示：

将发言人对应的声音信息进行语音处理，所述语音处理包括增益处理和/或衰减处理，使声音信息对应的音量处于预设范围内；

根据时间戳将处理后的声音信息与桌面数据相关联。

将纯净语音信息的语音处理到预设范围内，去除尖峰低谷，能够提高听觉效果，当然，也可以进行音量调整后再将声音信息转换成文本信息，没有尖峰低谷的干扰，还可以提高转换成文本信息的准确度。

随着国际化水平越来越高，一场会议中可能会使用多种语言，例如汉语、英语、日语等，从而文本信息可以包括以下至少之一：

与声音信息语种对应的文本信息；例如，将汉语转化成中文、英语转化英文、中英混用的转化成中英文等；

与目标语种对应的文本信息；例如，目标语种是中文，则将汉语转化成中文、英语转化中文、中英混用的转化成中文等；

与声音信息中主语种对应的文本信息；例如，中英混用的声音信息中主语种是中文，则将该中英混用的转化成中文；中英混用的声音信息中主语种是英文，则将该中英混用的转化成英文等；

与声音信息中次语种对应的文本信息；例如，中英混用的声音信息中次语种是中文，则将该中英混用的转化成中文；中英混用的声音信息中次语种是英文，则将该中英混用的转化成英文等。

当然，还可以将方言转成目标语种对应的文本信息，例如，粤语转中文等。

由于会议中可能存在多人同时发言，特别是争论等过程中，可能很难分辨出谁说了什么话，通过前述实施例可知，本发明可以针对每一发言人生成对应的文本信息，因而，在投屏画面中渲染所述文本信息(字幕)时，可以采用不同形式的字幕来区分不同发言人的文本信息：

如图4所示，一个发言人的字幕带底色，另一发言人的字幕无底色，当然，渲染属性的种类很多，还可以是采用不同的颜色等方式。可以将每一发言人的字幕在屏幕对应的一固定位置显示，也可以不固定字幕出现的位置，或者类似弹幕普通发言人的字幕在两端显示、主讲人的字幕在中间显示等。

通常来说，会议的主讲人的发言内容是重点，因此，可以将与主讲人对应的文本信息以区别于其他发言人的形式着重显示。可以认为发送桌面数据的源端设备即为主讲人使用的源端设备，可以根据源端设备的MAC(Media Access Control，媒体访问控制)地址等，从而区分出哪些声音信息是主讲人的，将该声音信息对应的单一发言人作为主讲人，以区别于其他发言人的形式着重显示所述主讲人的文本信息。例如，如图4所示，带底色的字幕可以认为是主讲人的字幕，无底色的字幕属于普通发言人的。当然，也可以修改渲染属性，例如，设置与MAC地址对应的渲染属性，根据发送声音信息的MAC地址区分各发言人及对应的文本信息，进而为文本信息加载对应的渲染属性渲染到投屏画面中形成字幕。图4所示虽为由单一主讲人投屏(传屏设备中仅显示一源端设备的桌面数据)的情况，但目前已有在一个传屏设备中接收并展示多个源端设备桌面数据的实现方式，显然，传屏设备中展示一个或多个源端设备的桌面数据，没有改变本发明传屏方案的使用条件，因此，本发明的方案也适用于在传屏设备中展示多个源端设备桌面数据的情况。

开会通常需要进行会议记录，常规的录像或录屏等仅有画面和/或声音，回看录像时枯燥无味，且对于不熟悉会议情况的人，光听声音难以分辨出哪些话是谁说的，为此，本发明提出根据时间戳将文本信息与桌面数据相关联，在后续回放录制的桌面数据时，在对应的时间依次展示文本信息，当然，该文本信息也可以与前述声音信息同时出现，从而，在回看录像时容易辨识各发言人的发言内容；例如，有红、黑、蓝三种颜色的字幕，分别对应甲、乙、丙三个发言人，观看录像时通过将红色字幕与甲的声音对应、黑色字幕与乙的声音对应、蓝色字幕与丙的声音对应，能够轻松的分辨各发言人的发言内容。当然，该方式也可以应用于远程会议中，将本地的桌面数据、声音信息和/或文本信息发送至外地设备中，增加了异地参加会议的人了解会议内容的方式，提高了会议传达效果。

与前述传屏方法的实施例相对应，本发明还提供了传屏装置的实施例。

本发明传屏装置的实施例可以应用在会议平板上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在会议平板的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明传屏装置所在会议平板的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的会议平板通常根据该传屏的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图6，该传屏装置600包括：

处理模块610，用于接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息；

渲染模块620，用于在投屏画面中渲染所述文本信息。

进一步地，本发明还提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

进一步地，本发明还提出了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如前任意一项所述的传屏方法。

本发明所述的会议平板具有传屏功能，且在原在传屏功能基础上增加了音频转文字等功能，该功能可以是利用现有的音译软件实现，由传屏功能调用音译软件的音译结果；也可以将音译软件的功能复合在传屏功能中；当然，也可以根据实际情况设计其它能实现该功能的插件，本发明对此不作限定。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

一种传屏方法，其特征在于，包括以下步骤：

接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息；

在投屏画面中渲染所述文本信息。
如权利要求1所述的传屏方法，其特征在于，所述接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息的步骤包括：

对自身采集的周围环境的声音信息进行分析处理，根据特征识别将声音信息转换成与发言人对应的第一文本信息；

接收源端设备采集并发送过来的周围环境的声音信息，根据该声音信息对第一文本信息进行校正。
如权利要求1所述的传屏方法，其特征在于，所述接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息的步骤包括：

接收源端设备采集并发送过来的周围环境的声音信息，将该声音信息与自身采集的周围环境的声音信息进行分析处理，提取与发言人对应的声音信息；

将与发言人对应的声音信息转换成文本信息。
如权利要求3所述的传屏方法，其特征在于，所述将该声音信息与自身采集的周围环境的声音信息进行分析处理，提取与发言人对应的声音信息的步骤包括：

以从源端设备接收的声音信息作为参考信息，将自身采集的声音信息与参考信息进行相关性运算，去除环境噪声和/或其他发言人的声音信息，提取与单一发言人对应的声音信息。
如权利要求3所述的传屏方法，其特征在于，所述投屏画面为对源端设备发送来的桌面数据进行展示所得的画面，所述提取与单一发言人对应的声音信息的步骤之后，还包括：

将发言人对应的声音信息进行语音处理，所述语音处理包括增益处理和/或衰减处理，使声音信息对应的音量处于预设范围内；

根据时间戳将处理后的声音信息与桌面数据相关联。
如权利要求1所述的传屏方法，其特征在于，所述文本信息包括以下至少之一：

与声音信息语种对应的文本信息；

与目标语种对应的文本信息；

与声音信息中主语种对应的文本信息；

与声音信息中次语种对应的文本信息。
如权利要求1至6中任一项所述的传屏方法，其特征在于，在投屏画面中渲染所述文本信息的步骤包括：

匹配与不同发言人对应的渲染属性，依据所述渲染属性在投屏画面中渲染所述文本信息；

其中，所述渲染属性包括以下至少之一：字体颜色、字体大小、字体粗细、显示方位、个性化标记；所述个性化标记包括以下任一：下划线、文字突出显示颜色。
如权利要求7所述的传屏方法，其特征在于，在投屏画面中渲染所述文本信息的步骤包括：

匹配发送桌面数据的源端设备所发送的周围环境的声音信息，将该声音信息对应的单一发言人作为主讲人，以区别于其他发言人的形式着重显示所述主讲人的文本信息。
如权利要求8所述的传屏方法，其特征在于，所述通过特征识别将与同一发言人对应的声音信息转换成同一文本信息的步骤之后，还包括：

根据时间戳将文本信息与桌面数据相关联。
一种传屏装置，其特征在于，包括：

处理模块，用于接收源端设备采集并发送过来的周围环境的声音信息，结合自身采集的周围环境的声音信息，通过特征识别将声音信息转换成与发言人对应的文本信息；

渲染模块，用于在投屏画面中渲染所述文本信息。
一种电子设备，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述权利要求1-9中任意一项所述的传屏方法。
一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任意一项所述的传屏方法。