WO2020232865A1

WO2020232865A1 - 会议分角色语音合成方法、装置、计算机设备和存储介质

Info

Publication number: WO2020232865A1
Application number: PCT/CN2019/102448
Authority: WO
Inventors: 岳鹏昱; 闫冬
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-05-21
Filing date: 2019-08-26
Publication date: 2020-11-26
Also published as: CN110322869B; CN110322869A

Abstract

本申请涉及人工智能技术领域，尤其涉及一种会议分角色语音合成方法、装置、计算机设备和存储介质。该方法包括：获取用户输入的参会人员信息及与麦克风的关联关系；通过多个麦克风接收多条语音流，分别将每条语音流进行断点检测，截取多条有效语音流，将多条有效语音流、音频开始时间、音频长度、关联的参会人员信息一起进行保存；将多条有效语音流合成一段音频信息，将音频开始时间、音频长度、对应的参会人员信息合并成一段角色信息，将音频信息和角色信息一起定义为会议音频进行保存。本申请通过对会议室麦克风对应设置参会人员信息，对每段音频都对应参会人员信息，能容易确定会议过程中所有发言人的发言内容。

Description

会议分角色语音合成方法、装置、计算机设备和存储介质

本申请要求于2019年05月21日提交中国专利局、申请号为201910424720.3、发明申请名称为“会议分角色语音合成方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种会议分角色语音合成方法、装置、计算机设备和存储介质。

背景技术

多媒体会议作为一种经济高效的会议解决方案，逐步在企业得到越来越多的应用，大大提高了人们沟通、协作的效率。会议作为一种多人交流的手段，会议记录往往是必要的，对于多媒体会议来讲，多媒体会议的录音就是一种会议记录的形式。例如，用户在参加会议的过程中，有其他事件需要暂时离开会议，但是又不想错过会议中的某些会议参与者的重要发言的情况下，或者用户想要对会议中某些会议参与者的发言进行录音时，就需要启动会议录音，对会议进行记录。但是目前的会议录音一般都是针对整个会议过程的，也就是说，在会议过程中，如果启动了录音，会对会议中所有人的发言进行录音，无法针对会议中指定参与者进行录音，也无法区分参与者角色进行录音，当用户想要记录会议主要发言人的发言时，只能从对会议中所有人的发言的录音中对发言进行整理，以获取需要的发言内容，这就导致用户后续需要花费过多的时间去整理会议录音，为用户带来不便。

发明内容

有鉴于此，有必要针对会议录音时无法区分角色保存音频文件的问题，提供一种会议分角色语音合成方法、装置、计算机设备和存储介质。

一种会议分角色语音合成方法，包括：

获取用户输入的参会人员信息及与麦克风的关联关系，每个所述参会人员关联一个所述麦克风；

接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风；

按照所述音频开始时间顺序，从时间最早开始，将多条所述有效语音流合成一段音频信息，按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息，将所述音频信息中所述有效语音流与所述角色信息中对应的所述音频开始时间进行映射后，将所述音频信息和所述角色信息一起定义为会议音频进行保存。

一种会议分角色语音合成装置，包括：

获取信息模块，设置为获取用户输入的参会人员信息及与麦克风的关联关系，每个所述参会人员关联一个所述麦克风；

接收并保存语音流模块，设置为接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风；

生成会议音频模块，设置为按照所述音频开始时间顺序，从时间最早开始，将多条所述有效语音流合成一段音频信息，按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息，将所述音频信息中所述有效语音流与所述角色信息中对应的所述音频开始时间进行映射后，将所述音频信息和所述角色信息一起定义为会议音频进行保存。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

上述会议分角色语音合成方法、装置、计算机设备和存储介质，包括获取用户输入的参会人员信息及与麦克风的关联关系，每个所述参会人员关联一个所述麦克风；接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风；按照所述音频开始时间顺序，从时间最早开始，将多条所述有效语音流合成一段音频信息，按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息，将所述音频信息中所述有效语音流与所述角色信息中对应的所述音频开始时间进行映射后，将所述音频信息和所述角色信息一起定义为会议音频进行保存。本申请通过对会议室麦克风对应设置参会人员信息，通过静音检测技术分段截取音频，在会议结束后，对每段音频按时间顺序合成为会议音频，对每段音频都可知对应的角色信息，能容易确定会议过程中所有发言人的发言内容。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。

图1为本申请一个实施例中的会议分角色语音合成方法的流程图；

图2为本申请一个实施例中步骤S2的一种流程图；

图3为本申请一个实施例中会议分角色语音合成装置的结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

图1为本申请一个实施例中的会议分角色语音合成方法的流程图，如图1所示，一种会议分角色语音合成方法，包括以下步骤：

步骤S1，获取信息：获取用户输入的参会人员信息及与麦克风的关联关系，每个参会人员关联一个麦克风。

本步骤可以通过会议系统中预设的管理界面，接收用户输入的参会人员信息及所有参会人员与麦克风的关联关系。在管理界面中呈现会议室座位示意图，在示意图上标注有每个麦克风在会议室中的位置信息。用户通过点击对应麦克风，触发输入界面，通过输入界面输入对应参会人员信息，完成参会人员与麦克风在系统层面的关联关系。参会人员信息可以是参会人员的姓名、工号或在公司的其他唯一标识，用于区分各个参会人员。

本步骤中的多个麦克风基于树莓派的收音设备与会议系统连接，以收音设备的MAC地址作为唯一标识，将麦克风名称与对应的MAC地址进行对应，进而完成了参与人员与麦克风的物理关联关系。

步骤S2，接收并保存语音流：接收开始录音信号，开启多个麦克风，通过多个麦克风接收多条语音流，分别将每条语音流进行断点检测，截取多条有效语音流，将多条有效语音流、有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个麦克风。

本步骤在独立接收多个麦克风发送的语音流后，可以开启多条独立线程，并发执行本步骤对每条语音流均进行断点检测，截取有效语音流。本步骤在对有效语音流进行保存时，还对其对应的参会人员信息一同进行保存，以便于确定哪条有效语音流是哪个参会人员发言的。

在一个实施例中，步骤S2，如图2所示，包括：

步骤S201，开始录音：接收开始录音信号，对多个已关联的麦克风开启录音功能，分别接收每个麦克风传送的语音流。

本步骤可以通过会议系统的管理界面接收开始录音信号，对已关联的麦克风自动开启录音功能，且分别接收多个麦克风传送的语音流。

步骤S202，断点检测及截取有效语音流：分别对每条语音流进行断点检测，若存在断点时，截取一段有效语音流，将截取的有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中，并继续对当前条语音流进行断点检测。

断点检测用于从连续的语音流中检测出一段段有效语音流。其包括检测出有效语音流的起始点即前断点，检测出有效语音流的结束点即后断点。从连续的语音流中分离出有效语音流，可以降低存储的数据量，使用断点检测也可以简化人机交互，比如必要时，可以无需步骤S203接收结束录音信号，直接通过对接收的语音流实时断点检测，确定结束录音操作。

本步骤在对语音流进行断点检测时，在一个实施例中，采用如下方式：

步骤S20201，分割语音流：将语音流按照固定时长进行分割，将每个分割单元定义为一帧语音，对每帧语音采集数量相同的N个采样点。

本步骤中的固定时长可以是20ms，30ms等，将语音流按照此固定时长进行分割，将语音流分割为若干帧语音。由于即使同一个参会人员在讲话过程中，对于同一个词的讲话音量可能也不一样，因此在进行本步骤分割语音流之前，还可以对语音流进行归一化处理：取每条语音流中幅度最大的点将其幅度拉大到接近1，记录拉大的比例，再将其他所有点均按此比例进行拉伸。

步骤S20202，计算能量值：计算每帧语音的能量值，能量值的计算公式如下：

其中，E为一帧语音的能量值，f _k为第k个采样点的峰值，N为一帧语音的采样点总个数；

一帧语音的能量值既与其中的采样值大小有关，又与其中包含的采样点数量有关，而采样值即上述的峰值，一般包含正值和负值，而计算能量值时不需要考虑正负值，因此本步骤使用采样值的平方和来定义一帧语音的能量值。

步骤S20203，确定前后断点：若连续M帧语音的能量值高于预设阈值，则将连续M帧语音中高于预设值的第一帧语音定义为一段音频的前断点，若从M+1帧的能量值开始低于预设阈值，且持续一预设时长，则将M+1帧语音定义为一段音频的后断点，截取前断点和后断点之间的音频为一段有效语音流。

若一段语音流的前面几帧语音的能量值低于预设阈值，而连续M帧语音的能量值均高于预设阈值，则在能量值刚高于预设阈值的第一帧语音定义为前断点。若连续的M帧语音的能量值均较高，随后的一帧语音能量值变小，并且持续一预设时长，可以认为在能量值减少的地方为后断点。截取前断点和后断点之间的音频作为一段有效语音流进行保存。

本步骤连续M帧对应的音频时长越小，断点检测灵敏度越高。本步骤由于是在会议录音过程中，存在接收大段语音流情况，中间可能会出现较长时间的停顿，宜将灵敏度降低，因此本步骤的M值可以设置为较大值，对应的音频时长为2000ms-2500ms之间。

本步骤理想的静音能量值为0，因此本步骤中的预设阈值在理想状态下取0，但是在采集的语音流中，往往存在一定强度的背景音，此背景音也算静音，显然能量值高于0，因此在设置预设阈值时通常不为0。本步骤的预设阈值可以是一个动态阈值：可以在对每条语音流进行断点检测时，首先采集语音流起始时长的平均能量值，例如语音流起始100ms-1000ms的平均能量值E0或前100帧语音的平均能量值E0，将能量值E0加上一系数或乘以大于1的系数，得到本步骤的预设阈值。

本实施例通过对单条语音流进行分割成多帧语音，对每帧语音计算能量值，根据能量值判断是否存在断点的过程，将单条语音流截取成多条有效语音流，将静音部分舍去，将截取的多条有效语音流进行保存，减少了存储压力。

步骤S203，结束录音：接收结束录音信号，对多个已关联的麦克风关闭录音功能。

本步骤也可以通过会议系统的管理界面接收结束录音信号，对已关联的麦克风自动关闭录音功能，停止接收语音流。

步骤S204，保存有效语音流：在接收结束录音信号后，若还不存在断点时，则截取从断点检测开始至音频信号结束的语音流为有效语音流，将有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中。

每条语音流通过步骤S202，实时进行断点检测及截取有效语音流，在检测过程中，接收到结束录音信号后，还进行步骤S202的检测，直到音频信号结束。此过程中，若存在前后断点，则进行步骤S202的截取有效语音流。若不存在断点，则认为从断点检测开始到音频信号结束的此段音频均为有效语音流，进行截取和保存。

本实施例对麦克风传送的每条语音流都分别进行断点检测和截取有效语音流直至接收到结束录音信号，停止接收语音流，对每条有效语音流均和对应的音频开始时间、音频长度、关联的参会人员信息一起保存，为后续区分会议角色的音频信息提供准确数据。

步骤S3，生成会议音频：按照音频开始时间顺序，从时间最早开始，将多条有效语音流合成一段音频信息，按照音频开始时间顺序，将音频开始时间、音频长度、对应的参会人员信息合并成一段角色信息，将音频信息中有效语音流与角色信息中对应的音频开始时间进行映射后，将音频信息和角色信息一起定义为会议音频进行保存。

本步骤在对会议音频进行保存时，获取用户输入的音频名称，将会议音频的文件名称重命名为会议音频后进行保存，若设定时间内未获取到音频名称，则将会议音频的文件名称重命名为最早的音频开始时间后进行保存。

本步骤可以通过管理界面获取用户输入的音频名称，可以在用户通过管理界面触发结束录音信号后，展示输入界面，用户通过输入界面输入音频名称。若在设定时间内，如5分钟内未获取到用户输入的任何信息，则进行默认存储。

在一个实施例中，还包括步骤S4，音频展示：

步骤S401，接收请求并展示：接收用户发送的音频回放请求，展示会议音频的文件名称。

用户可以通过与会议系统连接的API接口进行音频回放请求，也可以通过http请求向会议系统发送音频回放请求。会议系统接收到音频回放请求后，将存储的所有会议音频进行展示，展示时，按会议音频的文件名称进行排序后展示。例如将文件名称按存储时间先后进行排序后展示，或将文件名称按英语首字母降序排序后展示。

步骤S402，播放音频信息及同步展示角色信息：当用户触发任一文件名称后，将文件名称对应的音频信息进行播放，将文件名称对应的角色信息进行展示。

由于音频信息中的每条有效语音流均映射对应的角色信息，因此，本步骤在播放用户触发的音频信息时，还可以同步展示对应的角色信息，为用户提供音频信息对应的会议发言者。

本实施例为用户提供了音频回放渠道，在进行音频回放时，还同步展示角色信息，用户无需再对会议内容进行整理，可以直观的了解录音内容对应的会议发言者。

在一个实施例中，在步骤S2后，还包括：

将音频信息中的每条有效语音流通过预设的语音识别软件转换为翻译文本；按照音频开始时间顺序，将音频开始时间、音频长度、对应的参会人员信息合并成一段角色信息时，还将翻译文本一起合并成一段角色信息，并将音频信息中语音流与翻译文本也进行映射；当用户触发任一文件名称后，将文件名称对应的音频信息进行播放，将文件名称对应的角色信息进行展示时，将翻译文本也进行同步展示。

在步骤S2对每条语音流截取出多条有效语音流后，本实施例还对每条有效语音流通过预设的语音识别软件转换为翻译文本。语音识别软件通过声学模型对有效语音流进行语音解码，通过语言模型对解码后的语音进行搜索算法，得到翻译文本。其中，声学模型可以采用神经网络模型，语言模型可以采用N-GRAM模型(N元统计模型)，搜索算法可以采用Viterbi算法(维特比算法)。

在步骤S3合并成一段角色信息时，将音频开始时间、音频长度、对应的参会人员信息和翻译文本一起合并成一段角色信息。

在步骤S4，对音频进行展示时，也包括对翻译文本进行展示。由于有效语音流与翻译文本存在映射关系，因此当用户点击某段翻译文本后，也可以实现跳转到对应的一段有效语音流进行播放，并同步展示翻译文本及角色信息。

本实施例给出了有效语音流对应的翻译文本，并在音频展示时，将翻译文本一同展示，便于用户进一步直观的了解具体的会议内容。

在一个实施例中，还可以对会议音频进行检索：

接收用户发送的检索请求，获取关键字，在保存的多个会议音频中检索是否存在关键字，若存在，则将关键字对应的会议音频的文件名称进行展示；当用户触发任一文件名称后，将文件名称对应的音频信息进行播放，将文件名称对应的角色信息和翻译文本进行展示。

本实施例的用户可以通过会议系统的管理界面接收检索请求，获取关键字，用户也可以通过与会议系统连接的API接口进检索请求，还可以通过http请求向会议系统发送检索请求。

其中，关键字包括音频名称、音频开始时间、参会人员信息或通用词语等，通过关键字检索保存的会议音频中是否含有此关键字，若含有，则将所有含有此关键字的音频信息或角色信息对应的会议音频的文件名称进行展示。例如，关键字为区块链，此关键字是通用词语，通过关键字检索出某一会议音频的角色信息中，在参会人员为张三的某一翻译文本中提到此关键字，在参会人员为李四的另一翻译文本中提到此关键字，则将参与人员为张三的某段翻译文本对应的会议音频的文件名称、参与人员为李四的某段翻译文本对应的会议音频的文件名称一起进行展示。本实施例为用户提供了检索渠道，为用户提供了更多的扩展功能。

本实施例会议分角色语音合成方法，通过对会议室麦克风对应设置角色关系，通过断点检测技术分段截取有效语音流，在会议结束后，对每段有效语音流按时间顺序合成为会议音频，对每段有效语音流都可知对应的参会人员信息和翻译文本，为用户提供了直观的会议内容。

在一个实施例中，提出了一种会议分角色语音合成装置，如图3所示，包括如下模块：

获取信息模块，设置为获取用户输入的参会人员信息及与麦克风的关联关系，每个参会人员关联一个麦克风；

接收并保存语音流模块，设置为接收开始录音信号，开启多个麦克风，通过多个麦克风接收多条语音流，分别将每条语音流进行断点检测，截取多条有效语音流，将多条有效语音流、有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个麦克风；

生成会议音频模块，设置为按照音频开始时间顺序，从时间最早开始，将多条有效语音流合成一段音频信息，按照音频开始时间顺序，将音频开始时间、音频长度、对应的参会人员信息合并成一段角色信息，将音频信息中有效语音流与角色信息中对应的音频开始时间进行映射后，将音频信息和角色信息一起定义为会议音频进行保存。

在一个实施例中，接收并保存语音流模块，包括：录音单元，设置为接收开始录音信号，对多个已关联的麦克风开启录音功能，分别接收每个麦克风传送的语音流；断点检测单元，设置为分别对每条语音流进行断点检测，若存在断点时，截取一段有效语音流，将截取的有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中，并继续对当前条语音流进行断点检测；关闭录音单元，设置为接收结束录音信号，对多个已关联的麦克风关闭录音功能；保存单元，设置为在接收结束录音信号后，若还不存在断点时，则截取从断点检测开始至音频信号结束的语音流为有效语音流，将有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中。

在一个实施例中，断点检测单元，还设置为将语音流按照固定时长进行分割，将每个分割单元定义为一帧语音，对每帧语音采集数量相同的N个采样点；

计算每帧语音的能量值，能量值的计算公式如下：

其中，E为一帧语音的能量值，f _k为第k个采样点的峰值，N为一帧语音的采样点总个数；若连续M帧语音的能量值高于预设阈值，则将连续M帧语音中高于预设值的第一帧语音定义为一段音频的前断点，若从M+1帧的能量值开始低于预设阈值，且持续一预设时长，则将M+1帧语音定义为一段音频的后断点，截取前断点和后断点之间的音频为一段有效语音流。

在一个实施例中，生成会议音频模块还设置为获取用户输入的音频名称，将会议音频的文件名称重命名为会议音频后进行保存，若设定时间内未获取到音频名称，则将会议音频的文件名称重命名为最早的音频开始时间后进行保存。

在一个实施例中，还包括：展示模块，设置为接收用户发送的音频回放请求，展示会议音频的文件名称；播放模块，设置为当用户触发任一文件名称后，将文件名称对应的音频信息进行播放，将文件名称对应的角色信息进行展示。

在一个实施例中，还包括：转换模块，设置为将音频信息中的每条有效语音流通过预设的语音识别软件转换为翻译文本；合并模块，设置为按照音频开始时间顺序，将音频开始时间、音频长度、对应的参会人员信息合并成一段角色信息时，还将翻译文本一起合并成一段角色信息，并将音频信息中语音流与翻译文本也进行映射；同步展示模块，设置为当用户触发任一文件名称后，将文件名称对应的音频信息进行播放，将文件名称对应的角色信息进行展示时，将翻译文本也进行同步展示。

在一个实施例中，还包括：检索模块，设置为接收用户发送的检索请求，获取关键字，在保存的多个会议音频中检索是否存在关键字，若存在，则将关键字对应的会议音频的文件名称进行展示；当用户触发任一文件名称后，将文件名称对应的音频信息进行播放，将文件名称对应的角色信息和翻译文本进行展示。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行计算机可读指令时实现上述各实施例的会议分角色语音合成方法中的步骤。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得处理器执行上述各实施例的会议分角色语音合成方法中的步骤。其中，存储介质可以为非易失性存储介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁盘或光盘等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请一些示例性实施例，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种会议分角色语音合成方法，包括：

获取用户输入的参会人员信息及与麦克风的关联关系，每个所述参会人员关联一个所述麦克风；

接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风；

按照所述音频开始时间顺序，从时间最早开始，将多条所述有效语音流合成一段音频信息，按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息，将所述音频信息中所述有效语音流与所述角色信息中对应的所述音频开始时间进行映射后，将所述音频信息和所述角色信息一起定义为会议音频进行保存。
根据权利要求1所述的会议分角色语音合成方法，其中，所述接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风，包括：

接收开始录音信号，对多个已关联的所述麦克风开启录音功能，分别接收每个所述麦克风传送的语音流；

分别对每条所述语音流进行断点检测，若存在断点时，截取一段有效语音流，将截取的所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中，并继续对当前条所述语音流进行断点检测；

接收结束录音信号，对多个已关联的所述麦克风关闭录音功能；

在接收结束录音信号后，若还不存在断点时，则截取从断点检测开始至音频信号结束的所述语音流为有效语音流，将所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中。
根据权利要求2所述的会议分角色语音合成方法，其中，所述分别对每条所述语音流进行断点检测，若存在断点时，截取一段有效语音流，包括：

将所述语音流按照固定时长进行分割，将每个分割单元定义为一帧语音，对每帧语音采集数量相同的N个采样点；

计算每帧语音的能量值，所述能量值的计算公式如下：

其中，E为一帧语音的能量值，f _k为第k个采样点的峰值，N为一帧语音的采样点总个数；

若连续M帧语音的能量值高于预设阈值，则将连续M帧语音中高于预设值的第一帧语音定义为一段音频的前断点，若从M+1帧的能量值开始低于预设阈值，且持续一预设时长，则将M+1帧语音定义为一段音频的后断点，截取所述前断点和所述后断点之间的音频为一段所述有效语音流。
根据权利要求1所述的会议分角色语音合成方法，其中，所述将所述音频信息和所述角色信息一起定义为会议音频进行保存，包括：

获取用户输入的音频名称，将所述会议音频的文件名称重命名为所述会议音频后进行保存，若设定时间内未获取到所述音频名称，则将所述会议音频的文件名称重命名为最早的音频开始时间后进行保存。
根据权利要求1所述的会议分角色语音合成方法，其中，还包括：

接收用户发送的音频回放请求，展示所述会议音频的文件名称；

当用户触发任一所述文件名称后，将所述文件名称对应的所述音频信息进行播放，将所述文件名称对应的角色信息进行展示。
根据权利要求5所述的会议分角色语音合成方法，其中，还包括：

将所述音频信息中的每条所述有效语音流通过预设的语音识别软件转换为翻译文本；

按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息时，还将所述翻译文本一起合并成一段角色信息，并将所述音频信息中所述语音流与所述翻译文本也进行映射；

当用户触发任一所述文件名称后，将所述文件名称对应的所述音频信息进行播放，将所述文件名称对应的角色信息进行展示时，将所述翻译文本也进行同步展示。
根据权利要求6所述的会议分角色语音合成方法，其中，还包括：

接收用户发送的检索请求，获取关键字，在保存的多个所述会议音频中检索是否存在所述关键字，若存在，则将所述关键字对应的所述会议音频的文件名称进行展示；

当用户触发任一所述文件名称后，将所述文件名称对应的所述音频信息进行播放，将所述文件名称对应的角色信息和翻译文本进行展示。
一种会议分角色语音合成装置，包括：

获取信息模块，设置为获取用户输入的参会人员信息及与麦克风的关联关系，每个所述参会人员关联一个所述麦克风；

接收并保存语音流模块，设置为接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风；

生成会议音频模块，设置为按照所述音频开始时间顺序，从时间最早开始，将多条所述有效语音流合成一段音频信息，按照所述音频开始时间顺序，将所述音频开始时间、音频长度、对应的参会人员信息合并成一段角色信息，将所述音频信息中所述有效语音流与所述角色信息中对应的所述音频开始时间进行映射后，将所述音频信息和所述角色信息一起定义为会议音频进行保存。
根据权利要求8所述的会议分角色语音合成装置，其中，所述接收并保存语音流模块，包括：

录音单元，设置为接收开始录音信号，对多个已关联的所述麦克风开启录音功能，分别接收每个所述麦克风传送的语音流；

断点检测单元，设置为分别对每条所述语音流进行断点检测，若存在断点时，截取一段有效语音流，将截取的所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中，并继续对当前条所述语音流进行断点检测；

关闭录音单元，设置为接收结束录音信号，对多个已关联的所述麦克风关闭录音功能；

保存单元，设置为接收结束录音信号后，若还不存在断点时，则截取从断点检测开始至音频信号结束的所述语音流为有效语音流，将所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中。
根据权利要求9所述的会议分角色语音合成装置，其中，所述断点检测单元，还设置为将所述语音流按照固定时长进行分割，将每个分割单元定义为一帧语音，对每帧语音采集数量相同的N个采样点；

计算每帧语音的能量值，所述能量值的计算公式如下：

其中，E为一帧语音的能量值，f _k为第k个采样点的峰值，N为一帧语音的采样点总个数；

若连续M帧语音的能量值高于预设阈值，则将连续M帧语音中高于预设值的第一帧语音定义为一段音频的前断点，若从M+1帧的能量值开始低于预设阈值，且持续一预设时长，则将M+1帧语音定义为一段音频的后断点，截取所述前断点和所述后断点之间的音频为一段所述有效语音流。
根据权利要求8所述的会议分角色语音合成装置，其中，所述生成会议音频模块还设置为获取用户输入的音频名称，将所述会议音频的文件名称重命名为所述会议音频后进行保存，若设定时间内未获取到所述音频名称，则将所述会议音频的文件名称重命名为最早的音频开始时间后进行保存。
根据权利要求8所述的会议分角色语音合成装置，其中，还包括：

展示模块，设置为接收用户发送的音频回放请求，展示所述会议音频的文件名称；

播放模块，设置为当用户触发任一所述文件名称后，将所述文件名称对应的所述音频信息进行播放，将所述文件名称对应的角色信息进行展示。
根据权利要求12所述的会议分角色语音合成装置，其中，还包括：

转换模块，设置为将所述音频信息中的每条所述有效语音流通过预设的语音识别软件转换为翻译文本；

合并模块，设置为按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息时，还将所述翻译文本一起合并成一段角色信息，并将所述音频信息中所述语音流与所述翻译文本也进行映射；

同步展示模块，设置为当用户触发任一所述文件名称后，将所述文件名称对应的所述音频信息进行播放，将所述文件名称对应的角色信息进行展示时，将所述翻译文本也进行同步展示。
根据权利要求13所述的会议分角色语音合成装置，其中，还包括：

检索模块，设置为接收用户发送的检索请求，获取关键字，在保存的多个所述会议音频中检索是否存在所述关键字，若存在，则将所述关键字对应的所述会议音频的文件名称进行展示；当用户触发任一所述文件名称后，将所述文件名称对应的所述音频信息进行播放，将所述文件名称对应的角色信息和翻译文本进行展示。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行以下步骤：

获取用户输入的参会人员信息及与麦克风的关联关系，每个所述参会人员关联一个所述麦克风；

接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风；

按照所述音频开始时间顺序，从时间最早开始，将多条所述有效语音流合成一段音频信息，按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息，将所述音频信息中所述有效语音流与所述角色信息中对应的所述音频开始时间进行映射后，将所述音频信息和所述角色信息一起定义为会议音频进行保存。
根据权利要求15所述的计算机设备，其中，所述接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风时，使得所述处理器执行以下步骤：

接收开始录音信号，对多个已关联的所述麦克风开启录音功能，分别接收每个所述麦克风传送的语音流；

分别对每条所述语音流进行断点检测，若存在断点时，截取一段有效语音流，将截取的所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中，并继续对当前条所述语音流进行断点检测；

接收结束录音信号，对多个已关联的所述麦克风关闭录音功能；

在接收结束录音信号后，若还不存在断点时，则截取从断点检测开始至音频信号结束的所述语音流为有效语音流，将所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中。
根据权利要求16所述的计算机设备，其中，所述分别对每条所述语音流进行断点检测，若存在断点时，截取一段有效语音流，使得所述处理器执行以下步骤：

将所述语音流按照固定时长进行分割，将每个分割单元定义为一帧语音，对每帧语音采集数量相同的N个采样点；

计算每帧语音的能量值，所述能量值的计算公式如下：

其中，E为一帧语音的能量值，f _k为第k个采样点的峰值，N为一帧语音的采样点总个数；

若连续M帧语音的能量值高于预设阈值，则将连续M帧语音中高于预设值的第一帧语音定义为一段音频的前断点，若从M+1帧的能量值开始低于预设阈值，且持续一预设时长，则将M+1帧语音定义为一段音频的后断点，截取所述前断点和所述后断点之间的音频为一段所述有效语音流。
一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：获取用户输入的参会人员信息及与麦克风的关联关系，每个所述参会人员关联一个所述麦克风；

接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风；

按照所述音频开始时间顺序，从时间最早开始，将多条所述有效语音流合成一段音频信息，按照所述音频开始时间顺序，将所述音频开始时间、所述音频长度、所述对应的参会人员信息合并成一段角色信息，将所述音频信息中所述有效语音流与所述角色信息中对应的所述音频开始时间进行映射后，将所述音频信息和所述角色信息一起定义为会议音频进行保存。
根据权利要求18所述的存储介质，其中，所述接收开始录音信号，开启多个所述麦克风，通过多个所述麦克风接收多条语音流，分别将每条所述语音流进行断点检测，截取多条有效语音流，将多条所述有效语音流、所述有效语音流对应的音频开始时间、音频长度、关联的参会人员信息一起进行保存，直至接收到结束录音信号，关闭多个所述麦克风时，使得一个或多个处理器执行以下步骤：接收开始录音信号，对多个已关联的所述麦克风开启录音功能，分别接收每个所述麦克风传送的语音流；

分别对每条所述语音流进行断点检测，若存在断点时，截取一段有效语音流，将截取的所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中，并继续对当前条所述语音流进行断点检测；

接收结束录音信号，对多个已关联的所述麦克风关闭录音功能；

在接收结束录音信号后，若还不存在断点时，则截取从断点检测开始至音频信号结束的所述语音流为有效语音流，将所述有效语音流及对应的音频开始时间、音频长度、关联的参会人员信息一起保存至存储介质中。
根据权利要求19所述的存储介质，其中，所述分别对每条所述语音流进行断点检测，若存在断点时，截取一段有效语音流，使得一个或多个处理器执行以下步骤：将所述语音流按照固定时长进行分割，将每个分割单元定义为一帧语音，对每帧语音采集数量相同的N个采样点；计算每帧语音的能量值，所述能量值的计算公式如下：

其中，E为一帧语音的能量值，f _k为第k个采样点的峰值，N为一帧语音的采样点总个数；

若连续M帧语音的能量值高于预设阈值，则将连续M帧语音中高于预设值的第一帧语音定义为一段音频的前断点，若从M+1帧的能量值开始低于预设阈值，且持续一预设时长，则将M+1帧语音定义为一段音频的后断点，截取所述前断点和所述后断点之间的音频为一段所述有效语音流。