WO2014173370A1

WO2014173370A1 - 会议纪要的提取方法及装置

Info

Publication number: WO2014173370A1
Application number: PCT/CN2014/079792
Authority: WO
Inventors: 王建欢
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-08-22
Filing date: 2014-06-12
Publication date: 2014-10-30
Also published as: WO2015024413A1; CN104427292A

Abstract

本发明公开了一种会议纪要的提取方法及装置。该方法包括：获取从视频会议信号中采集的音频信号，并将音频信号转化为文本；从音频信号中通过声纹识别技术标识各个发言者的身份，并将发言者与文本中的相应内容进行关联，形成会议纪要。

Description

会议纪要的提取方法及装置技术领域

本发明涉及计算机技术领域，特别是涉及一种会议纪要的提取方法及装置。背景技术

在现有技术中，会议电视已经被广泛的使用在生活和工作中的多个场景里，通过会议电视可以很方便地在多个不同的场景进行同时视频会话，极大的提高了工作效率。但是在传统的会议电视中仍然还存在着一些弊端，具体包括： 1、不支持会议纪要和记录整理的功能，只能通过手动记录或者录音功能记录，这样往往无法对会议过程或会议内容进行最大化的记录； 2、视频会议中常常会出现多方多人在进行会议，这样很容易在多人讨论中漏掉许多重要信息； 3、视频会议往往是不同地方的多个人员进行的，这样会议纪要的共享将存在很大的不便。

目前已有从音视频会议中提取会议纪要的方法，这些方法基本都是从会议中提取语音信息，然后通过语音识别转换成文字并存储。这样同样会存在弊端，例如，同时在几个不同的会场，有多个人进行 2个小时的会议时，生成的会议纪要将会非常冗长，而且记录中谁说了什么内容也完全不知道，这样得到的将是冗长混乱的会议纪要。

另外，在现有技术中，也有对无法得到有针对性的会议纪要的问题提供了一些关于会议纪要的提取方法和装置，但是这些功能的实现以及视频会议都是在一个终端上运行，这样终端将承受巨大的压力，严重影响到视频会议的正常进行。

综上所述，在会议电视应用场景中，目前在相关技术中存在自动生成会议纪要的方式与终端性能不可兼得的问题，急需有效的解决方案。发明内容

有鉴于此，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题。

本发明实施例提供一种会议纪要的提取方法，包括：获取从视频会议信号中采集的音频信号，并将音频信号转化为文本；从音频信号中通过声纹识别技术标识各个发言者的身份，并将发言者与文本中的相应内容进行关联，形成会议纪要。

优选地，会议纪要为对白形式的会议纪要。

优选地，上述方法具体包括：云服务器获取从视频会议信号中采集的音频信号，并将音频信号转化为文本；云服务器从音频信号中通过声纹识别技术标识各个发言者的身份，并将发言者与文本中的相应内容进行关联，形成会议纪要。

优选地，上述方法进一步包括：云服务器对会议纪要进行多语种翻译。优选地，上述方法进一步包括：云服务器对会议纪要进行实时共享。本发明实施例还提供了一种会议纪要的提取装置，包括：会议电视终端，用于从视频会议信号中采集音频信号；云服务器，用于获取会议电视终端采集的音频信号，将音频信号转化为文本，从音频信号中通过声纹识别技术标识各个发言者的身份，并将发言者与文本中的相应内容进行关联，形成会议纪要。

优选地，上述会议纪要为对白形式的会议纪要。

优选地，上述云服务器进一步包括：翻译模块，用于对会议纪要进行多语种翻译。

优选地，上述云服务器进一步包括：共享模块，用于对会议纪要进行实时共享。本发明实施例有益效果如下：

通过将发言者与文本中的相应内容进行关联，解决了现有技术中会议纪要冗长混乱的问题，能够在会议纪要中向用户清楚的展示在会议中的发言者和其发言的内容。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图 1是本发明实施例的会议纪要的提取方法的流程图；

图 2是本发明实施例的会议纪要提取的基本流程图；

图 3是本发明实施例的云服务器业务处理的流程图；

图 4是本发明实施例的会议电视终端云客户端处理的流程图；图 5是本发明实施例的获取发言者身份 ID的流程图；

图 6是本发明实施例的会议纪要的提取装置的结构示意图。具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。为了解决现有技术中在会议电视应用场景中获取会议纪要时与终端性能不可兼得的问题、以及现有技术中会议纪要冗长混乱的问题，本发明实施例提供了一种会议纪要的提取方法及装置，一个方面，针对会议纪要的提取提出了相关的方法，包括：

从视频会议信号中获取音视频信号 , 并将音视频信号中的语音信号转化成对应的文本；

从获取的语音信号中通过声纹识别技术来区分发言者的身份，并可以将发言者与对应的文本关联起来，形成对白式的文本。

另一方面，对自动生成多语言的会议纪要与终端性能不可同时兼得的问题，实现了一种解决方案使用云端服务，会议电视中提取会议纪要的主要实现功能都将在云服务器中进行。也就是说，在云服务器中主要完成的功能有：上一点提到的自动会议纪要提取的基本方法、会议纪要多语种翻译、以及会议纪要实时共享等。云服务的使用将原来由会议电视终端完成的会议纪要提取工作分离出来，使得会议电视终端可以只做与视频会议通讯方面的业务，大大减轻了终端的压力，提高性能。以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

方法实施例

根据本发明的实施例，提供了一种会议纪要的提取方法，图 1是本发明实施例的会议纪要的提取方法的流程图，包括如下处理：

步骤 101 ,从视频会议信号中采集音频信号；将所述音频信号转化为文本；

步骤 102,从所述音频信号中标识各个发言者的身份，并将所述发言者与所述文本中的相应内容进行关联，形成会议纪要。

优选地，会议纪要为对白形式的会议纪要。其中，所述标识各个发言者的身份可以采用声纹识别技术先对各个发言者的身份进行识别，再通过声纹识别技术标识各个发言者的身份。

为了解决现有技术中在会议电视应用场景中获取会议纪要时与终端性能不可兼得的问题，还需要进行如下处理：建立用于实现会议纪要提取和存储的云服务器，并在会议电视终端设置与云服务器连接的云客户端；通过云客户端利用云服务器形成会议纪要。也就是说，云服务器获取从视频会议信号中采集的音频信号，并将音频信号转化为文本；云服务器从音频信号中通过声纹识别技术标识各个发言者的身份，并将发言者与文本中的相应内容进行关联，形成会议纪要。

优选地，在实际应用中，具体包括如下处理：

第一步，建立一个用于实现会议纪要提取和存储主要功能的云服务器；第二步，建立便于用户使用和操作会议纪要的云客户端，该应用将被安装在会议电视终端，与会者直接可以通过该客户端进行会议纪要的获取、存储、转换等操作。

在本发明实施例中，可以通过云客户端利用云服务器对会议纪要进行多语种翻译、以及对会议纪要进行实时共享。

以下结合附图，对本发明实施例的上述技术方案进行详细说明。

图 2是本发明实施例的会议纪要提取的基本流程图，如图 2所示，具体包括如下处理：

步骤 201 ,在会议电视终端通过麦克风采集到发言者的声音，通过终端上的客户端设置的参数，云服务器会自动获取终端上相关的音频数据；步骤 202, 云服务器通过声纹识别获取发言者的身份 ID;

步骤 203, 云服务器将音频数据转换为文本，并将步骤 202中获取的发言者的身份 ID与该文本中的相应内容进行关联；

步骤 204, 将转换好的文本保存在文件中，并存储在云服务器上。图 3是本发明实施例的云服务器业务处理的流程图，如图 3所示，包括如下处理：

步骤 301 , 云服务器接收到终端上的云客户端发起的请求；

步骤 302, 云服务器将根据不同的请求执行不同的业务，包括语音数据处理和文本文件处理；

步骤 303 ,客户端请求是语音数据处理时，云服务器将启动语音处理识别模块；

步骤 304, 云服务器将根据客户端请求的参数，来确定是否保存获取的语音数据；

步骤 305 , 如果需要保存语音数据，则将语音数据写入文件；步骤 306, 云服务器将获取的语音数据转换为文字保存，同时还可以通过声纹识别来获取语音对应的发言者；

步骤 307 , 在云服务器中，首先会将语音文件转换为对应语种的文字，如与会者采用中文发言，则首先将语音文件转换为中文，然后再根据用户的要求进行语言种类的转换；会议发起者在会议注册的时候可以通过设置响应的参数来获取对应语种类型的会议纪要，该步骤就是获取该参数值；步骤 308, 如果会议注册是没有设置语种类型参数则取默认值，默认语言种类为中文，即如果在会议注册的时候没有设置该项参数，则最终输出的会议纪要将为中文文件；

步骤 309,如果语种类型参数被设置，则最后将会议纪要转换为所需要的语种类型进行保存；

步骤 310, 保存已经转换好的会议纪要到云服务器；

步骤 311 , 如果云服务器接收到的请求为文本处理，这进入文本处理流程，在该流程中用户可以进行会议纪要的查询和管理；

步骤 312, 首先用户可以将会议纪要转换为自己需要的语种类型；步骤 313 ,用户操作可以是下载相关的会议纪要或者是对会议纪要进行其他的操作；

步骤 314, 非下载用户可以进行其他操作；

步骤 315 , 需要下载会议纪要的用户进入下载界面；

步骤 316, 下载需要的会议纪要。

图 4是本发明实施例的会议电视终端云客户端处理的流程图，如图 4 所示，具体包括如下处理：

步骤 401 , 会议电视终端用户启动云客户端进行登录；

步骤 402,检验登录用户是否为有效用户，如果是有效用户则允许登录云客户端进行会议流程注册或对会议内容管理，无效用户则拒绝登陆管理界面；

步骤 403 , 用户可以选择参加会议或者是会议内容管理业务；

步骤 404,如果用户选择的是参加会议，那么用户可以是会议的创建者，或者只是参与者；

步骤 405 , 如果是会议的创建者，则需要注册会议，并设置会议模式对应的一些参数，比如有哪些会场、会议纪要采用哪种语种等；

步骤 406, 设置完会议模式参数后，请求云服务器启动会议模式；步骤 407, 不管是会议的创建者，或者是会议的参与者都需要在会议开始前进行声音样本的采集，方便会议中获取发言者的身份；

步骤 408,如果用户不是参加会议，也可以进行会议内容的管理，比如，会议内容的生成，查询，翻译，下载等操作；

步骤 409, 用户对会议内容进行的操作是受权限限制的，用户只可以进行自己被授权的操作；

步骤 410, 执行可以进行的各种会议内容操作。

图 5是本发明实施例的获取发言者身份 ID的流程图，如图 5所示，具体包括如下处理：

步骤 501 , 客户端用户注册会议后，启动为会议模式，开始会议；步骤 502,发言者开始发言，会议电视终端可以通过麦克风采集到语音；步骤 503 , 云端服务器自动获取会议电视终端采集到的语音数据；步骤 504, 云端服务器自动分析获取到的语音数据；

步骤 505 , 云端服务器通过分析获取的语音信息，以及相关参数，获取到发言者所在会场、发言时间等信息；

步骤 506, 在语音识别模块中通过声纹识别来获取发言者的身份；步骤 507, 会议被注册后，在会议开始前，都需要采集与会者的声音样本和会场等信息进行身份注册，所以在会议中需要获取发言者身份是，系统会检查是否存在该声音的样本；

步骤 508, 将获取的声音与保存的声音样本进行匹配，如果存在则直接可以获取发言者的身份 ID;

步骤 509, 如果没有匹配的声音样本，这说明该身份未注册，则保存声音样本，并根据会场和发言时间等信息生成新的发言者身份，并保存；步骤 510, 与从语音转换来的文本进行身份关联；

步骤 511 ,将关联了发言者身份的文本保存起来，生成完整的会议纪要。综上，借助于本发明实施例的技术方案，不仅能够在会议纪要中向用户清楚的展示在会议中的发言者和其发言的内容，并且，云服务的使用将原来由会议电视终端完成的会议记录提取工作分离出来，使得会议电视终端可以只做与视频会议通讯方面的业务，大大减轻了终端的压力，提高性能。

装置实施例

根据本发明的实施例，提供了一种会议纪要的提取装置，图 6是本发明实施例的会议纪要的提取装置的结构示意图，如图 6所示，根据本发明实施例的会议纪要的提取装置包括：会议电视终端 60、以及云服务器 62, 以下对本发明实施例的各个模块进行详细的说明。

会议电视终端 60, 用于从视频会议信号中采集音频信号；

云服务器 62, 用于获取音频信号，将音频信号转化为文本，从音频信号中通过声纹识别技术标识各个发言者的身份，并将发言者与文本中的相应内容进行关联，形成会议纪要。

在实际应用中，云服务器 62从语音信号中通过声纹识别技术标识各个发言者的身份时，可以使用唯一的标识将发言者的身份存储在发言者目录中，供后面使用。优选地，会议纪要为对白形式的会议纪要。

也就是说，云服务器 62用于将保存的文本与发言者身份进行映射，得出——对应的关系，并使两者关联起来。

在实际应用中，会议电视终端 60中可以设置有云客户端，用于与云服务器进行交互，对装置在云服务器中的操作进行控制，利用云服务器形成会议纪要。

优选地，上述云服务器 62进一步用于：在云客户端的控制下利用云服务器对会议纪要进行多语种翻译。在云客户端的控制下利用云服务器对会议纪要进行实时共享。

需要说明的是，本发明实施例的会议纪要的提取装置中各个模块的处理可以参考上述方法实施例中的相关描述进行理解，在此不再赘述。

综上所述，借助于本发明实施例的技术方案，不仅能够在会议纪要中向用户清楚的展示在会议中的发言者和其发言的内容，并且，云服务的使用将原来由会议电视终端完成的会议记录提取工作分离出来，使得会议电视终端可以只做与视频会议通讯方面的业务，大大减轻了终端的压力，提高性能。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求书

1、一种会议纪要的提取方法，所述方法包括：

从视频会议信号中采集音频信号；

将所述音频信号转化为文本；

从所述音频信号中标识各个发言者的身份，并将所述发言者与所述文本中的相应内容进行关联，形成会议纪要。

2、根据权利要求 1所述的方法，其中，所述会议纪要为对白形式的会议纪要。

3、根据权利要求 1或 2所述的方法，其中，所述方法包括：

云服务器获取从视频会议信号中采集的音频信号 , 并将所述音频信号转化为文本；

所述云服务器从所述音频信号中通过声纹识别技术标识各个发言者的身份，并将所述发言者与所述文本中的相应内容进行关联，形成会议纪要。

4、根据权利要求 3所述的方法，其中，所述方法还包括：

所述云服务器对所述会议纪要进行多语种翻译。

5、根据权利要求 3所述的方法，其中，所述方法还包括：

所述云服务器对所述会议纪要进行实时共享。

6、一种会议纪要的提取装置，包括：

会议电视终端，配置为从视频会议信号中采集音频信号；

云服务器，配置为获取所述音频信号，将所述音频信号转化为文本，从所述音频信号中标识各个发言者的身份，并将所述发言者与所述文本中的相应内容进行关联，形成会议纪要。

7、根据权利要求 6所述的装置，其中，所述会议纪要为对白形式的会议纪要。

8、根据权利要求 6所述的装置，其中，所述云服务器包括：翻译模块，配置为对所述会议纪要进行多语种翻译。

9、根据权利要求 6所述的装置，其中，所述云服务器还包括：共享模块，配置为对所述会议纪要进行实时共享。