WO2019029073A1 - 传屏方法、装置、电子设备及计算机可读存储介质 - Google Patents

传屏方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
WO2019029073A1
WO2019029073A1 PCT/CN2017/116067 CN2017116067W WO2019029073A1 WO 2019029073 A1 WO2019029073 A1 WO 2019029073A1 CN 2017116067 W CN2017116067 W CN 2017116067W WO 2019029073 A1 WO2019029073 A1 WO 2019029073A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound information
information
speaker
screen
source device
Prior art date
Application number
PCT/CN2017/116067
Other languages
English (en)
French (fr)
Inventor
欧阳宇基
Original Assignee
广州视源电子科技股份有限公司
广州视臻信息科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 广州视源电子科技股份有限公司, 广州视臻信息科技有限公司 filed Critical 广州视源电子科技股份有限公司
Publication of WO2019029073A1 publication Critical patent/WO2019029073A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • G06F3/1454Digital output to display device ; Cooperation and interconnection of the display device with other functional units involving copying of the display data of a local workstation or window to a remote workstation or window so that an actual copy of the data is displayed simultaneously on two or more displays, e.g. teledisplay
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuits Of Receivers In General (AREA)

Abstract

一种传屏方法、装置(600)、电子设备及计算机可读存储介质,通过接收源端设备(220)采集并发送过来的周围环境的声音信息(1#),结合自身采集的周围环境的声音信息(0#),通过特征识别将与同一发言人对应的声音信息转换成同一文本信息(S110),在投屏画面中渲染文本信息(S120)。由于发言人通常与自己持有的源端设备(220)邻近,因而源端设备(220)采集到声音信息(1#)中该发言人的声音更清晰,提高了从声音信息中区分各发言人的准确性,便于依据同一发言人对应的声音信息转换文本信息,提高了语音识别的准确性。

Description

传屏方法、装置、电子设备及计算机可读存储介质 技术领域
本发明涉及传屏技术领域,尤其涉及一种传屏方法、装置、电子设备及计算机可读存储介质。
背景技术
传屏技术主要是指将手机、电脑等设备的屏幕上显示的内容和播放的声音(桌面数据)同步到投影仪、电视机、会议平板等显示设备进行展示的技术。手机、电脑等设备具有操作方便、处理能力强等优势,而会议平板等显示设备具有屏幕大、音效好等优势,通过传屏技术就可以将两者具备的优势结合,在会议等场景下被大量使用。
以会议场景为例,参会人员可能使用不同的语言、口音、语速,导致其他参会人员可能无法完全理解会议信息。目前的语音识别虽然可以将语音转换成字幕,但是,在会议讨论过程中人多口杂,生成的字幕也是混乱的,因此,语音识别在会议场景中的应用效果不佳,使得会议上发布、讨论的信息失真或遗漏,降低了会议沟通的效率。
发明内容
有鉴于此,本发明提供一种传屏方法、装置、电子设备及计算机可读存储介质,以克服目前会议场景中应用语音识别效果不佳的问题。
具体地,本发明是通过如下技术方案实现的:
一种传屏方法,包括以下步骤:
接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息;
在投屏画面中渲染所述文本信息。
一个实施例中,所述接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息的步骤 包括:
对自身采集的周围环境的声音信息进行分析处理,根据特征识别将声音信息转换成与发言人对应的第一文本信息;
接收源端设备采集并发送过来的周围环境的声音信息,根据该声音信息对第一文本信息进行校正。
一个实施例中,所述接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息的步骤包括:
接收源端设备采集并发送过来的周围环境的声音信息,将该声音信息与自身采集的周围环境的声音信息进行分析处理,提取与发言人对应的声音信息;
将与发言人对应的声音信息转换成文本信息。
一个实施例中,所述将该声音信息与自身采集的周围环境的声音信息进行分析处理,提取与发言人对应的声音信息的步骤包括:
以从源端设备接收的声音信息作为参考信息,将自身采集的声音信息与参考信息进行相关性运算,去除环境噪声和/或其他发言人的声音信息,提取与单一发言人对应的声音信息。
一个实施例中,所述投屏画面为对源端设备发送来的桌面数据进行展示所得的画面,所述提取与单一发言人对应的声音信息的步骤之后,还包括:
将发言人对应的声音信息进行语音处理,所述语音处理包括增益处理、衰减处理,使声音信息对应的音量处于预设范围内;
根据时间戳将处理后的声音信息与桌面数据相关联。
一个实施例中,所述文本信息包括以下至少之一:
与声音信息语种对应的文本信息;
与目标语种对应的文本信息;
与声音信息中主语种对应的文本信息;
与声音信息中次语种对应的文本信息。
一个实施例中,在投屏画面中渲染所述文本信息的步骤包括:
匹配与不同发言人对应的渲染属性,依据所述渲染属性在投屏画面中渲染所述文本信息;
其中,所述渲染属性包括以下至少之一:字体颜色、字体大小、字体粗细、显示方位、个性化标记;所述个性化标记包括以下任一:下划线、文字突出显示颜色。
一个实施例中,在投屏画面中渲染所述文本信息的步骤包括:
匹配发送桌面数据的源端设备所发送的周围环境的声音信息,将该声音信息对应的单一发言人作为主讲人,以区别于其他发言人的形式着重显示所述主讲人的文本信息。
一个实施例中,所述通过特征识别将与同一发言人对应的声音信息转换成同一文本信息的步骤之后,还包括:
根据时间戳将文本信息与桌面数据相关联。
本发明还公开了一种传屏装置,包括:
处理模块,用于接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息;
渲染模块,用于在投屏画面中渲染所述文本信息。
本发明还公开了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如前任意一项所述的传屏方法。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前任意一项所述的传屏方法。
本发明通过接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将与同一发言人对应的声音信息转换成同一文本信息,在投屏画面中渲染所述文本信息。由于发言人通常与自己持有的源端设备邻近,因而该源端设备采集到声音信息中该发言人的声音更清晰,提高了从声音信息中区分各发言人的准确性,便于依据同一发言人对应的声音信息转换文本信息,提高了语音识别的准确性。
附图说明
图1是本发明一示例性实施例示出的一种传屏方法的流程图;
图2a是本发明一示例性实施例示出的会议场景的示例图;
图2b是本发明一示例性实施例示出的对声音信息的处理方法的细化示例图;
图2c是本发明一示例性实施例示出的对声音信息的处理方法的细化示例图;
图3是本发明一示例性实施例示出的一种传屏方法的流程图;
图4是本发明一示例性实施例示出的一种渲染文本信息的效果图;
图5是本发明一示例性实施例示出的一种电子设备的逻辑框图;
图6是本发明一示例性实施例示出的一种传屏装置的逻辑框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
会议平板等设备因具有大屏幕、音效好、支持手写输入等优势,近年来,在会议场合被广泛使用。通常来说,主讲人通过传屏技术将自己使用的手机、电脑等设备的屏幕上显示的内容和播放的声音(桌面数据)同步到会议平板等显示设备进行展示。然而,参会人员可能使用不同的语言、口音、语速,导致其他参会人员可能无法完全理解会议信息。目前的语音识别虽然可以将语音转换成字幕,但是,在会议讨论过程中人多口杂,生成的字幕也是混乱 的,因此,语音识别在会议场景中的应用效果不佳,使得会议上发布、讨论的信息失真或遗漏,降低了会议沟通的效率。
对此,本发明提出了一种传屏方法,如图1所示,该方法包括:
S110、接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息;
S120、在投屏画面中渲染所述文本信息。
通常来说,会议平板等设备(以下简称传屏设备)需要放置在便于全体与会人员观看的位置,因此传屏设备的位置与参会人员保持一定距离。如图2a所示为一场小型会议示意图,4位参会人员230沿圆桌240依次落坐,传屏设备210放置在参会人员230的对面(例如,墙上),会议的主讲人配置有源端设备220(例如电脑、麦克风等),其他参会人员230也可以配置源端设备220。由于所有参会人员230都可能发言(将当前在说话的人称为发言人),各发言人距离传屏设备210均较远,由于声波传输存在衰减、周围环境的噪声及其它干扰的存在,传屏设备210采集声音的质量通常来说要低于源端设备220采集声音的质量,且发言人有配套的源端设备220时,该源端设备220采集的该发言人的声音会更清晰。
图2a中传屏设备210中的单元211表示麦克风等能采集发言人的声音,当然,也可以是与传屏设备210连接的外置的采集声音的设备(例如,全向麦克风等),本发明对此不作限制。源端设备220也可以采集发言人的声音,并将采集的声音信息发送到传屏设备210,传屏设备210中的单元212表示通信装置,当然,也可能是蓝牙或无线网络等方式发送该声音信息,同时,会议主讲人还通过源端设备220将桌面数据发送给传屏设备210,传屏设备210展示源端设备220桌面数据的内容(投屏画面)。
传屏设备210将自身采集的声音信息与源端设备220采集的声音信息进行综合分析处理,从而能够准确的识别出各发言人的声音信息,并可以将声音信息转化成文本信息(可以针对每一发言人设置一文本信息,或者在一数据中记录各发言人的文本信息),再将该文本信息渲染在投屏画面中,渲染效果可以类似于字幕。
将自身采集的声音信息与源端设备220采集的声音信息进行综合分析处理的方式可以有多种,例如:
对自身采集的周围环境的声音信息进行分析处理,根据特征识别将声音信息转换成与发言人对应的第一文本信息;
接收源端设备采集并发送过来的周围环境的声音信息,根据该声音信息对第一文本信息 进行校正。
如图2b所示,传屏设备210及源端设备220同时采集周围环境的声音信息,传屏设备210将自身采集的声音信息0#进行分析处理,根据特征识别从声音信息0#中识别出与各发言人对应的声音信息并转化成第一文本信息(可以针对每一发言人设置一第一文本信息,或者在一数据中记录各发言人的第一文本信息),源端设备220将自身采集的声音信息1#发送给传屏设备210,传屏设备210根据声音信息1#对第一文本信息进行校正,从而得到准确度高的文本信息。其中,校正方式可以是将声音信息1#转换成文本信息1#,将第一文本信息与文本信息1#进行比较以进行校正;也可以是通过声音信息1#对第一文本信息进行复核;本申请中通过声音校正文本的具体方式不局限于此,还可以采用其它的校正方式。
当然,还可以采用如下方式对声音信息进行处理:
接收源端设备采集并发送过来的周围环境的声音信息,将该声音信息与自身采集的周围环境的声音信息进行分析处理,提取与发言人对应的声音信息;
将与发言人对应的声音信息转换成文本信息。
如图2c所示,传屏设备210及源端设备220同时采集周围环境的声音信息,源端设备220将自身采集的声音信息1#发送给传屏设备210,传屏设备210将自身采集的声音信息0#与声音信息1#进行分析处理,从而提取出与各发言人对应的声音信息(提取的声音信息可以是针对单一发言人的,也可以是包含多个发言人的),将与发言人对应的声音信息转换成文本信息,由于提取的声音信息滤除了噪声甚至其他发言人的声音信息(记为纯净语音信息),纯净语音可以通过以下方式得到:以从源端设备210接收的声音信息作为参考信息,将自身采集的声音信息与参考信息进行相关性运算,相关性运算的方法有多种,设计者可根据实际使用情况选用;从而可以去除环境噪声和/或其他发言人的声音信息,从而就可以提取出与单一发言人对应的声音信息(纯净语音信息)。当然,源端设备210也可以将采集的声音信息进行衰减和滤波等处理,仅保留使用该源端设备210的发言人的声音信息,再将该声音信息发送至传屏设备210,通过提高参考信息的精度,能够进一步提高与单一发言人对应的声音信息的纯度。
根据纯净语音信息转化文本信息的准确性更高,且纯净语音信息还可以做进一步地优化处理。例如,部分发言人的嗓音太小、太大或者嗓音大小波动较大,对这类声音信息进行语音处理将提高听觉效果,特别是录屏后回看(听)和/或将录屏数据发送给异地远程参加会议的与会人员时,处理过程如图3所示:
将发言人对应的声音信息进行语音处理,所述语音处理包括增益处理和/或衰减处理,使声音信息对应的音量处于预设范围内;
根据时间戳将处理后的声音信息与桌面数据相关联。
将纯净语音信息的语音处理到预设范围内,去除尖峰低谷,能够提高听觉效果,当然,也可以进行音量调整后再将声音信息转换成文本信息,没有尖峰低谷的干扰,还可以提高转换成文本信息的准确度。
随着国际化水平越来越高,一场会议中可能会使用多种语言,例如汉语、英语、日语等,从而文本信息可以包括以下至少之一:
与声音信息语种对应的文本信息;例如,将汉语转化成中文、英语转化英文、中英混用的转化成中英文等;
与目标语种对应的文本信息;例如,目标语种是中文,则将汉语转化成中文、英语转化中文、中英混用的转化成中文等;
与声音信息中主语种对应的文本信息;例如,中英混用的声音信息中主语种是中文,则将该中英混用的转化成中文;中英混用的声音信息中主语种是英文,则将该中英混用的转化成英文等;
与声音信息中次语种对应的文本信息;例如,中英混用的声音信息中次语种是中文,则将该中英混用的转化成中文;中英混用的声音信息中次语种是英文,则将该中英混用的转化成英文等。
当然,还可以将方言转成目标语种对应的文本信息,例如,粤语转中文等。
由于会议中可能存在多人同时发言,特别是争论等过程中,可能很难分辨出谁说了什么话,通过前述实施例可知,本发明可以针对每一发言人生成对应的文本信息,因而,在投屏画面中渲染所述文本信息(字幕)时,可以采用不同形式的字幕来区分不同发言人的文本信息:
匹配与不同发言人对应的渲染属性,依据所述渲染属性在投屏画面中渲染所述文本信息;
其中,所述渲染属性包括以下至少之一:字体颜色、字体大小、字体粗细、显示方位、个性化标记;所述个性化标记包括以下任一:下划线、文字突出显示颜色。
如图4所示,一个发言人的字幕带底色,另一发言人的字幕无底色,当然,渲染属性的种类很多,还可以是采用不同的颜色等方式。可以将每一发言人的字幕在屏幕对应的一固定 位置显示,也可以不固定字幕出现的位置,或者类似弹幕普通发言人的字幕在两端显示、主讲人的字幕在中间显示等。
通常来说,会议的主讲人的发言内容是重点,因此,可以将与主讲人对应的文本信息以区别于其他发言人的形式着重显示。可以认为发送桌面数据的源端设备即为主讲人使用的源端设备,可以根据源端设备的MAC(Media Access Control,媒体访问控制)地址等,从而区分出哪些声音信息是主讲人的,将该声音信息对应的单一发言人作为主讲人,以区别于其他发言人的形式着重显示所述主讲人的文本信息。例如,如图4所示,带底色的字幕可以认为是主讲人的字幕,无底色的字幕属于普通发言人的。当然,也可以修改渲染属性,例如,设置与MAC地址对应的渲染属性,根据发送声音信息的MAC地址区分各发言人及对应的文本信息,进而为文本信息加载对应的渲染属性渲染到投屏画面中形成字幕。图4所示虽为由单一主讲人投屏(传屏设备中仅显示一源端设备的桌面数据)的情况,但目前已有在一个传屏设备中接收并展示多个源端设备桌面数据的实现方式,显然,传屏设备中展示一个或多个源端设备的桌面数据,没有改变本发明传屏方案的使用条件,因此,本发明的方案也适用于在传屏设备中展示多个源端设备桌面数据的情况。
开会通常需要进行会议记录,常规的录像或录屏等仅有画面和/或声音,回看录像时枯燥无味,且对于不熟悉会议情况的人,光听声音难以分辨出哪些话是谁说的,为此,本发明提出根据时间戳将文本信息与桌面数据相关联,在后续回放录制的桌面数据时,在对应的时间依次展示文本信息,当然,该文本信息也可以与前述声音信息同时出现,从而,在回看录像时容易辨识各发言人的发言内容;例如,有红、黑、蓝三种颜色的字幕,分别对应甲、乙、丙三个发言人,观看录像时通过将红色字幕与甲的声音对应、黑色字幕与乙的声音对应、蓝色字幕与丙的声音对应,能够轻松的分辨各发言人的发言内容。当然,该方式也可以应用于远程会议中,将本地的桌面数据、声音信息和/或文本信息发送至外地设备中,增加了异地参加会议的人了解会议内容的方式,提高了会议传达效果。
与前述传屏方法的实施例相对应,本发明还提供了传屏装置的实施例。
本发明传屏装置的实施例可以应用在会议平板上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在会议平板的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明传屏装置所在会议平板的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的会议平板通常根据该传屏的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图6,该传屏装置600包括:
处理模块610,用于接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息;
渲染模块620,用于在投屏画面中渲染所述文本信息。
进一步地,本发明还提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行如前任意一项所述的传屏方法。
进一步地,本发明还提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前任意一项所述的传屏方法。
本发明所述的会议平板具有传屏功能,且在原在传屏功能基础上增加了音频转文字等功能,该功能可以是利用现有的音译软件实现,由传屏功能调用音译软件的音译结果;也可以将音译软件的功能复合在传屏功能中;当然,也可以根据实际情况设计其它能实现该功能的插件,本发明对此不作限定。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

  1. 一种传屏方法,其特征在于,包括以下步骤:
    接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息;
    在投屏画面中渲染所述文本信息。
  2. 如权利要求1所述的传屏方法,其特征在于,所述接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息的步骤包括:
    对自身采集的周围环境的声音信息进行分析处理,根据特征识别将声音信息转换成与发言人对应的第一文本信息;
    接收源端设备采集并发送过来的周围环境的声音信息,根据该声音信息对第一文本信息进行校正。
  3. 如权利要求1所述的传屏方法,其特征在于,所述接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息的步骤包括:
    接收源端设备采集并发送过来的周围环境的声音信息,将该声音信息与自身采集的周围环境的声音信息进行分析处理,提取与发言人对应的声音信息;
    将与发言人对应的声音信息转换成文本信息。
  4. 如权利要求3所述的传屏方法,其特征在于,所述将该声音信息与自身采集的周围环境的声音信息进行分析处理,提取与发言人对应的声音信息的步骤包括:
    以从源端设备接收的声音信息作为参考信息,将自身采集的声音信息与参考信息进行相关性运算,去除环境噪声和/或其他发言人的声音信息,提取与单一发言人对应的声音信息。
  5. 如权利要求3所述的传屏方法,其特征在于,所述投屏画面为对源端设备发送来的桌面数据进行展示所得的画面,所述提取与单一发言人对应的声音信息的步骤之后,还包括:
    将发言人对应的声音信息进行语音处理,所述语音处理包括增益处理和/或衰减处理,使声音信息对应的音量处于预设范围内;
    根据时间戳将处理后的声音信息与桌面数据相关联。
  6. 如权利要求1所述的传屏方法,其特征在于,所述文本信息包括以下至少之一:
    与声音信息语种对应的文本信息;
    与目标语种对应的文本信息;
    与声音信息中主语种对应的文本信息;
    与声音信息中次语种对应的文本信息。
  7. 如权利要求1至6中任一项所述的传屏方法,其特征在于,在投屏画面中渲染所述文本信息的步骤包括:
    匹配与不同发言人对应的渲染属性,依据所述渲染属性在投屏画面中渲染所述文本信息;
    其中,所述渲染属性包括以下至少之一:字体颜色、字体大小、字体粗细、显示方位、个性化标记;所述个性化标记包括以下任一:下划线、文字突出显示颜色。
  8. 如权利要求7所述的传屏方法,其特征在于,在投屏画面中渲染所述文本信息的步骤包括:
    匹配发送桌面数据的源端设备所发送的周围环境的声音信息,将该声音信息对应的单一发言人作为主讲人,以区别于其他发言人的形式着重显示所述主讲人的文本信息。
  9. 如权利要求8所述的传屏方法,其特征在于,所述通过特征识别将与同一发言人对应的声音信息转换成同一文本信息的步骤之后,还包括:
    根据时间戳将文本信息与桌面数据相关联。
  10. 一种传屏装置,其特征在于,包括:
    处理模块,用于接收源端设备采集并发送过来的周围环境的声音信息,结合自身采集的周围环境的声音信息,通过特征识别将声音信息转换成与发言人对应的文本信息;
    渲染模块,用于在投屏画面中渲染所述文本信息。
  11. 一种电子设备,其特征在于,包括:
    处理器;
    用于存储处理器可执行指令的存储器;
    其中,所述处理器被配置为执行所述权利要求1-9中任意一项所述的传屏方法。
  12. 一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9中任意一项所述的传屏方法。
PCT/CN2017/116067 2017-08-07 2017-12-14 传屏方法、装置、电子设备及计算机可读存储介质 WO2019029073A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710666179.8 2017-08-07
CN201710666179.8A CN107527623B (zh) 2017-08-07 2017-08-07 传屏方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
WO2019029073A1 true WO2019029073A1 (zh) 2019-02-14

Family

ID=60680627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/116067 WO2019029073A1 (zh) 2017-08-07 2017-12-14 传屏方法、装置、电子设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN107527623B (zh)
WO (1) WO2019029073A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914115A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 一种声音信息的处理方法、装置及电子设备

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109151642B (zh) * 2018-09-05 2019-12-24 北京今链科技有限公司 一种智能耳机、智能耳机处理方法、电子设备及存储介质
CN111770319B (zh) * 2019-10-18 2022-04-12 北京沃东天骏信息技术有限公司 投影方法、装置、系统和存储介质
CN113687803A (zh) * 2020-05-19 2021-11-23 华为技术有限公司 投屏方法、投屏源端、投屏目的端、投屏系统及存储介质
CN112019786B (zh) * 2020-08-24 2021-05-25 上海松鼠课堂人工智能科技有限公司 智能教学录屏方法和系统
CN112887781A (zh) * 2021-01-27 2021-06-01 维沃移动通信有限公司 字幕处理方法及装置
CN112684967A (zh) * 2021-03-11 2021-04-20 荣耀终端有限公司 一种用于字幕显示的方法及电子设备
CN113746911A (zh) * 2021-08-26 2021-12-03 科大讯飞股份有限公司 音频处理方法及相关装置、电子设备、存储介质
CN114125358A (zh) * 2021-11-11 2022-03-01 北京有竹居网络技术有限公司 云会议字幕显示方法、系统、装置、电子设备和存储介质
CN115052126B (zh) * 2022-08-12 2022-10-28 深圳市稻兴实业有限公司 一种基于人工智能的超高清视频会议分析管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof
CN104240718A (zh) * 2013-06-12 2014-12-24 株式会社东芝 转录支持设备和方法
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议系统
CN106057193A (zh) * 2016-07-13 2016-10-26 深圳市沃特沃德股份有限公司 基于电话会议的会议记录生成方法和装置
CN106911832A (zh) * 2017-04-28 2017-06-30 上海与德科技有限公司 一种语音记录的方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456305B (zh) * 2013-09-16 2016-03-09 东莞宇龙通信科技有限公司 终端和基于多个声音采集单元的语音处理方法
GB2530983A (en) * 2014-09-30 2016-04-13 Ibm Content mirroring
CN104796584A (zh) * 2015-04-23 2015-07-22 南京信息工程大学 具有语音识别功能的提词装置
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
CN106910504A (zh) * 2015-12-22 2017-06-30 北京君正集成电路股份有限公司 一种基于语音识别的演讲提示方法及装置
CN105704538A (zh) * 2016-03-17 2016-06-22 广东小天才科技有限公司 一种音视频字幕生成方法及系统
CN105913845A (zh) * 2016-04-26 2016-08-31 惠州Tcl移动通信有限公司 一种移动终端识别语音生成字幕的方法、系统及移动终端
CN106657865B (zh) * 2016-12-16 2020-08-25 联想(北京)有限公司 会议纪要的生成方法、装置及视频会议系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120245936A1 (en) * 2011-03-25 2012-09-27 Bryan Treglia Device to Capture and Temporally Synchronize Aspects of a Conversation and Method and System Thereof
CN104240718A (zh) * 2013-06-12 2014-12-24 株式会社东芝 转录支持设备和方法
CN205647778U (zh) * 2016-04-01 2016-10-12 安徽听见科技有限公司 一种智能会议系统
CN106057193A (zh) * 2016-07-13 2016-10-26 深圳市沃特沃德股份有限公司 基于电话会议的会议记录生成方法和装置
CN106911832A (zh) * 2017-04-28 2017-06-30 上海与德科技有限公司 一种语音记录的方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914115A (zh) * 2019-05-08 2020-11-10 阿里巴巴集团控股有限公司 一种声音信息的处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN107527623A (zh) 2017-12-29
CN107527623B (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
WO2019029073A1 (zh) 传屏方法、装置、电子设备及计算机可读存储介质
US11699456B2 (en) Automated transcript generation from multi-channel audio
US9414013B2 (en) Displaying participant information in a videoconference
US6771302B1 (en) Videoconference closed caption system and method
CN205647778U (zh) 一种智能会议系统
US8120638B2 (en) Speech to text conversion in a videoconference
US8655654B2 (en) Generating representations of group interactions
US20050209859A1 (en) Method for aiding and enhancing verbal communication
US11650790B2 (en) Centrally controlling communication at a venue
US9584761B2 (en) Videoconference terminal, secondary-stream data accessing method, and computer storage medium
CN110933485A (zh) 一种视频字幕生成方法、系统、装置和存储介质
WO2021057957A1 (zh) 视频通话方法、装置、计算机设备和存储介质
TWM574267U (zh) 即時語音自動同步轉譯字幕直播系統
US20200184973A1 (en) Transcription of communications
CN114531563A (zh) 一种视频会议控制方法和系统
CN108281145B (zh) 语音处理方法、语音处理装置和电子设备
TW202009750A (zh) 即時語音自動同步轉譯字幕直播系統及方法
TW201410028A (zh) 影音文字紀錄系統
JP2003339034A (ja) ネットワーク会議システム、ネットワーク会議方法およびネットワーク会議プログラム
CN111816183B (zh) 基于音视频录制的语音识别方法、装置、设备及存储介质
KR20180068655A (ko) 음성 신호에 기초한 문자 생성 장치 및 방법
JP2013201505A (ja) テレビ会議システム及び多地点接続装置並びにコンピュータプログラム
JP2022113375A (ja) 情報処理方法及び監視システム
CN113919299A (zh) 一种纪要文本生成方法、投影装置和计算机可读存储介质
JP2006229902A (ja) 会議支援システム及び会議支援方法、並びにコンピュータ・プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17920770

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 17.06.2020)

122 Ep: pct application non-entry in european phase

Ref document number: 17920770

Country of ref document: EP

Kind code of ref document: A1