WO2016201765A1

WO2016201765A1 - 一种录音控制方法和装置

Info

Publication number: WO2016201765A1
Application number: PCT/CN2015/084954
Authority: WO
Inventors: 李百玲
Original assignee: 中兴通讯股份有限公司
Priority date: 2015-06-16
Filing date: 2015-07-23
Publication date: 2016-12-22
Also published as: CN106326804A; CN106326804B

Abstract

本发明提供的录音控制方法和装置，属于通信领域。本发明提供的录音控制方法和装置，先确定录音目标对象，然后检测录音目标对象当前的语音状态，最后根据检测结果对录音目标对象进行录音控制。与现有技术相比，不是针对所有的人员进行录音，只有确定是目标人员在说话时才进行录音，不用进行提取，用户能够很容易得到目标用户的语音，能够避免对所有人员进行录音后想要得到目标人员的语音需要进行提取的复杂过程，以及提取目标人员语音需要必须通过专业人员才可以提取操作难度高问题，提高用户体验度。

Description

一种录音控制方法和装置

技术领域

本发明涉及通信领域，特别涉及一种录音控制方法和装置。

背景技术

手机作为一种方便人们通信的工具，已成为日常生活中不可或缺的必需品，手机使用越来越广泛，基本手机都有录音功能，但是这个录音只是简单的录制功能，设定以下生活场景：某项目多人讨论会议中，只对项目负责人的会议发言感兴趣；公司级会议中，只对某个领导的会议讲话感兴趣；与客户沟通过程中，重点想了解客户的需求，想把客户的讲话提取出来等等。普通的录音功能，录音只能选择录制所有人员，录音筛选必须通过专业人员才可以提取，普通用户难以操作。

发明内容

本发明实施例要解决的主要技术问题是，提供一种录音控制方法和装置，解决现有只能选择录制所有人员，录音筛选必须通过专业人员才可以提取制定人员语音的问题。

为解决上述问题，本发明实施例提供一种录音控制方法，包括：确定录音目标对象；检测所述录音目标对象当前的语音状态；根据检测结果对所述录音目标对象进行录音控制。

在本发明的一种实施例中，所述检测所述录音目标对象当前的语音状态包括：检测所述目标对象当前的语音动作信息，根据所述语音动作信息确定所述目标对象当前的语音状态。

在本发明的一种实施例中，所述语音动作信息包括嘴的状态和/或喉结的状态。

在本发明的一种实施例中，所述嘴的状态包括张嘴或闭嘴，所述检测所述目标对象当前的语音动作信息包括：通过图像采集装置实时或按照预设周期采集所述目标对象的嘴部图像，通过当前嘴部图像与前一次嘴部图像进行比较，嘴唇张开，则嘴的状态为张嘴；嘴唇闭合，则嘴的状态为闭嘴；所述喉结的状态包括喉结起伏和喉结静止，所述检测所述目标对象当前的语音动作信息包括：通过图像采集装置实时或按照预设周期采集所述目标对象的喉结图像，通过当前喉结图像与前一次喉结图像进行比较，喉结移动，则喉结的状态为喉结起伏；喉结没有移动，则喉结的状态为喉结静止。

在本发明的一种实施例中，所述语音状态包括语音进行状态或语音停止状态；所述根据所述语音动作信息确定所述目标对象当前的语音状态包括：判断所述目标用户是张嘴和/或喉结起伏，则是语音进行状态；判断所述目标用户是闭嘴和/或喉结静止，则是语音停止状态。

在本发明的一种实施例中，所述检测所述录音目标对象当前的语音状态包括：检测所述目标对象当前的语音发声状态，根据所述语音发声状态确定所述目标对象当前的语音状态。

在本发明的一种实施例中，所述语音发声状态包括有声或无声，所述检测所述目标对象当前的语音发声状态包括：通过音频检测装置实时或按照预设周期检测所述目标对象的声音，检测到所述目标对象的声音，则语音发声状态为有声，没有检测到所述目标对象的声音，语音发声状态为无声。

在本发明的一种实施例中，所述语音状态包括语音进行状态或语音停止状态；所述根据所述语音动作信息确定所述目标对象当前的语音状态包括：判断所述目标用户是有声，则是语音进行状态；判断所述目标用户是无声，则是语音停止状态。

在本发明的一种实施例中，所述语音状态包括语音进行状态或语音停止状态；所述根据检测结果对所述录音目标对象进行录音控制包括：判断所述语音状态是语音进行状态，则进行录音；判断所述语音状态是语音停止状态，则停止录音。

为解决上述问题，本发明实施例还提供一种录音控制装置，包括确定模块、检测模块和控制模块：所述确定模块设置为确定录音目标对象；所述检测模块设置为检测所述录音目标对象当前的语音状态；所述控制模块设置为根据检测结果对所述录音目标对象进行录音控制。

在本发明的一种实施例中，所述检测模块包括动作检测子模块：所述动作检测子模块设置为检测所述目标对象当前的语音动作信息，根据所述语音动作信息确定所述目标对象当前的语音状态。

在本发明的一种实施例中，所述检测模块还包括声音检测子模块：所述声音检测子模块设置为检测所述目标对象当前的语音发声状态，根据所述语音发声状态确定所述目标对象当前的语音状态。

在本发明的一种实施例中，所述语音状态包括语音进行状态或语音停止状态；所述控制模块还设置为：判断所述语音状态是语音进行状态，则进行录音；判断所述语音状态是语音停止状态，则停止录音。

本发明实施例的有益效果是：

本发明实施例提供的录音控制方法和装置，先确定录音目标对象，然后检测录音目标对象当前的语音状态，最后根据检测结果对录音目标对象进行录音控制。与现有技术相比，不是针对所有的人员进行录音，只有确定是目标人员在说话时才进行录音，不用进行提取，用户能够很容易得到目标用户的语音，能够避免对所有人员进行录音后想要得到目标人员的语音需要进行提取的复杂过程，以及提取目标人员语音需要必须通过专业人员才可以提取操作难度高问题，提高用户体验度。

附图说明

图1为本发明实施例一提供的录音控制方法流程示意图；

图2为本发明实施例二提供的录音控制方法流程示意图；

图3为本发明实施例三提供的录音控制装置结构示意图一；

图4为本发明实施例三提供的录音控制装置结构示意图二；

图5为本发明实施例三提供的录音控制装置结构示意图三。

具体实施方式

为使本领域技术人员更好地理解本发明实施例的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

实施例一

本实施例的录音控制方法，如图1所示，包括以下步骤：

步骤S101：确定录音目标对象；

在该步骤中，这里的目标对象是指用户想要得到语音的那个人，例如项目会议讨论时，录音项目主管的讲话，那么项目主管则为目标对象；与客户沟通会议时，重点录入客户的需求录音，那么客户则为目标对象；公司会议，重点录入公司领导的发言，那么公司领导则为目标对象，如有在听讲学习过程中，录制老师的讲课，那么老师则为目标对象。

步骤S102：检测录音目标对象当前的语音状态；

在该步骤中，可选地，语音输出状态包括：语音进行状态和语音停止状态。语音进行状态表示目标对象正在进行讲话，发出声音的状态；语音停止状态表示目标对象没有进行讲话，没有发出声音的状态，该状态可能存在其他的声音，例如老师讲课过程中让同学发言，主管会议讨论过程中，其他人员的发言等。

步骤S103：根据检测结果对录音目标对象进行录音控制。

在该步骤中，根据检测结果对录音目标对象进行录音控制，可选地可以是当目标对象在进行说话时进行录音，当目标对象没有进行说话时，就暂停录音，在目标对象没有进行说话时，其他人员说话不进行录音，即如果录音状态是语音进行状态，则进行录音；如果语音状态是语音停止状态，则停止录音。这样可以保证只针对目标对象一个的语音进行录音，最终得到的是目标对象的语音，这样就不用进行语音提取就能得到想要的语音，操作简单。值得注意是，本实施例中的停止录音可以是最终录音完成后的停止录音，也可以是录音过程中的暂停录音。

可选地，在上述步骤S102中，获取目标对象的语音状态可以是获取目标对象的语音动作信息，根据语音动作信息确定目标对象的语音状态。应该理解为，不仅仅限于语音动作信息，只要能够确定目标对象是否在进行说话或者不说话的其他方式都应包含在内。可选地，语音动作信息包括嘴的状态和/或喉结的状态。应该理解为，其他可以用来体现目标对象是在进行说话或者不说话的动作信息都可以实现。其中，嘴的状态包括张嘴或闭嘴，检测目标对象当前的语音动作信息可以是通过图像采集装置实时采集目标对象的嘴部图像，通过当前嘴部图像与前一次嘴部图像进行比较，嘴唇张开，则嘴的状态为张嘴；嘴唇闭合，则嘴的状态为闭嘴；由于一般说话之间可能会存在一定的停顿，优选的，检测目标对象当前的语音动作信息还可以是通过图像采集装置按照预设周期采集目标对象的嘴部图像，通过当前嘴部图像与前一次嘴部图像进行比较，嘴唇张开，则嘴的状态为张嘴；嘴唇闭合，则嘴的状态为闭嘴；值得注意的是这里的预设周期可以根据具体情况进行具体设置。其中，喉结的状态包括喉结起伏和喉结静止，检测目标对象当前的语音动作信息可以是通过图像采集装置实时采集目标对象的喉结图像，通过当前喉结图像与前一次喉结图像进行比较，喉结移动，则喉结的状态为喉结起伏；喉结没有移动，则喉结的状态为喉结静止。由于一般说话之间可能会存在一定的停顿，优选的，检测目标对象当前的语音动作信息还可以是通过图像采集装置按照预设周期采集目标对象的喉结图像，通过当前喉结图像与前一次喉结图像进行比较，喉结移动，则喉结的状态为喉结起伏；喉结没有移动，则喉结的状态为喉结静止；值得注意的是这里的预设周期可以根据具体情况进行具体设置。可选地，语音状态包括语音进行状态或语音停止状态；根据语音动作信息确定目标对象当前的语音状态包括：判断目标用户是张嘴和/或喉结起伏，则是语音进行状态；判断目标用户是闭嘴和/或喉结静止，则是语音停止状态。即如果目标用户嘴的状态是张嘴则是语音进行状态，目标用户喉结的状态是喉结起伏则是语音进行状态，当然，可以通过单个语音动作信息来判断目标对象是否在进行说话与不说话，为了提高精确度，也可以通过多个语音动作信息来判断目标对象是否在进行说话与不说话。例如，单个时，嘴的状态，通过目标对象嘴的状态是张嘴就是说话，不张嘴(闭嘴)就是不说话；多个时，嘴的状态和喉结的状态，通过目标对象嘴的状态为张嘴和喉结的状态是喉结起伏时就是说话，如果只是嘴的状态为张嘴，喉结的状态为喉结静止为不说话。应该理解为，具体判断标准可以通过具体的情况进行具体设置。

可选地，在上述步骤S102中，检测录音目标对象当前的语音状态可以是实时检测目标对象当前的语音发声状态，根据语音发声状态确定目标对象当前的语音状态。由于一般说话之间可能会存在一定的停顿，优选的，检测录音目标对象当前的语音状态还可以是按照预设周期检测目标对象当前的语音发声状态，根据语音发声状态确定目标对象当前的语音状态。值得注意的是这里的预设周期可以根据具体情况进行具体设置。应该理解为，不仅仅限于目标对象当前的语音发声状态，只要能够确定目标对象是否在进行说话或者不说话的其他方式都应包含在内。其中，语音发声状态包括有声或无声，检测目标对象当前的语音发声状态可以通过音频检测装置检测目标对象的声音，检测到目标对象的声音，则语音发声状态为有声，没有检测到目标对象的声音，语音发声状态为无声。可选地，语音状态包括语音进行状态或语音停止状态；根据语音动作信息确定目标对象当前的语音状态包括：判断目标用户是有声，则是语音进行状态；判断目标用户是无声，则是语音停止状态。

实施例二

本实施例的录音控制方法，本实施例主要以嘴部的状态进行举例说明，如图2所示，包括以下步骤：

步骤S201：启动摄像模块；可选地可以是智能终端的摄像头，智能终端可以是手机、平板等以及其他带有摄像功能的终端；

步骤S202：判断目标对象是否张嘴，如果张嘴则进入步骤S203；如果没张嘴，则继续判断；

步骤S203：启动录音；

步骤S204：判断目标对象是否闭嘴，如果闭嘴则进入步骤S205；如果没闭嘴，则进入步骤S208；

步骤S205：暂停录音；

步骤S206：判断摄像模块是否关闭，如果关闭，则进入步骤S210，如果没关闭则进入步骤S207；

步骤S207：判断目标对象是否张嘴，如果张嘴则进入步骤S208；如果没张嘴，则继续判断；

步骤S208：继续录音；

步骤S209：判断摄像模块是否关闭，如果关闭，则进入步骤S210，如果没关闭则进入步骤S204；

步骤S210：结束并保存录音。

值得注意的是，本实施例可以拥有如下几个场景：项目会议讨论时，录音项目主管的讲话；与客户沟通会议时，重点录入客户的需求录音；公司会议，重点录入公司领导的发言；当然还可以用于其他需要进行某个人进行录音的场景。在录制过程中，需要将设备转向某个特定方向的目标对象。开启摄像模式，并调整摄像的范围，将目标对象放在屏幕的中并启动摄像模式。根据摄像内容，每5ms截取一次图片并与前一个图片比较，判断嘴巴(唇)是否张开，如果没有张开，继续判断嘴巴是否张开；如果嘴巴张开则启动录音模块开始录音。录音过程中同时进行每5ms截取一次图片并与前一个图片比较，判断目标对象是否闭嘴，如果闭嘴则暂停录音模块，否则继续录音。暂停录音后，每5ms截取一次图片比较，判断嘴巴是否张开，张开则继续录音。如果还是闭嘴状态，则继续判断嘴巴是否张开。继续录音过程中，如果用户结束摄像，则录音模块停止录音并保存录音内容，删除摄像内容。否则继续录音过程中，重新判断目标对象是否闭嘴，继续循环。

本实施例的录音控制方法，只需要录制某个特定方向的目标对象录音时，只需要将设备转向目标对象一方，启动设备摄像模式并根据摄像图片判断目标对象是否张嘴说话，如果判断到目标对象张嘴说话，则启动录音机录音，一旦判定到目标对象闭嘴，则暂停录音模式。

实施例三

本实施例提供的录音控制装置300，如图3所示，包括确定模块301、检测模块302和控制模块303：确定模块301设置为确定录音目标对象；检测模块302设置为检测录音目标对象当前的语音状态；控制模块303设置为根据检测结果对录音目标对象进行录音控制。

本实施例提供的另外一种录音控制装置300，如图4所示，检测模块302包括动作检测子模块3021：动作检测子模块3021设置为检测目标对象当前的语音动作信息，根据语音动作信息确定目标对象当前的语音状态。

本实施例提供的再一种录音控制装置300，如图5所示，，检测模块302还包括声音检测子模块3022：声音检测子模块3022设置为检测目标对象当前的语音发声状态，根据语音发声状态确定目标对象当前的语音状态。

可选地，语音状态包括语音进行状态或语音停止状态；控制模块303还设置为：判断语音状态是语音进行状态，则进行录音；判断语音状态是语音停止状态，则停止录音。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，上述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明实施例不限制于任何特定形式的硬件和软件的结合。

以上实施例仅用以说明本发明实施例的技术方案而非限制，仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的权利要求范围当中。

工业实用性

如上所述，通过上述实施例及优选实施方式，不是针对所有的人员进行录音，只有确定是目标人员在说话时才进行录音，不用进行提取，用户能够很容易得到目标用户的语音，能够避免对所有人员进行录音后想要得到目标人员的语音需要进行提取的复杂过程，以及提取目标人员语音需要必须通过专业人员才可以提取操作难度高问题，提高用户体验度。

Claims

一种录音控制方法，包括：

确定录音目标对象；

检测所述录音目标对象当前的语音状态；

根据检测结果对所述录音目标对象进行录音控制。
如权利要求1所述的录音控制方法，其中，所述检测所述录音目标对象当前的语音状态包括：检测所述目标对象当前的语音动作信息，根据所述语音动作信息确定所述目标对象当前的语音状态。
如权利要求2所述的录音控制方法，其中，所述语音动作信息包括嘴的状态和/或喉结的状态。
如权利要求3所述的录音控制方法，其中，

所述嘴的状态包括张嘴或闭嘴，所述检测所述目标对象当前的语音动作信息包括：通过图像采集装置实时或按照预设周期采集所述目标对象的嘴部图像，通过当前嘴部图像与前一次嘴部图像进行比较，嘴唇张开，则嘴的状态为张嘴；嘴唇闭合，则嘴的状态为闭嘴；

所述喉结的状态包括喉结起伏和喉结静止，所述检测所述目标对象当前的语音动作信息包括：通过图像采集装置实时或按照预设周期采集所述目标对象的喉结图像，通过当前喉结图像与前一次喉结图像进行比较，喉结移动，则喉结的状态为喉结起伏；喉结没有移动，则喉结的状态为喉结静止。
如权利要求4所述的录音控制方法，其中，所述语音状态包括语音进行状态或语音停止状态；所述根据所述语音动作信息确定所述目标对象当前的语音状态包括：

判断所述目标用户是张嘴和/或喉结起伏，则是语音进行状态；

判断所述目标用户是闭嘴和/或喉结静止，则是语音停止状态。
如权利要求1所述的录音控制方法，其中，所述检测所述录音目标对象当前的语音状态包括：检测所述目标对象当前的语音发声状态，根据所述语音发声状态确定所述目标对象当前的语音状态。
如权利要求5所述的录音控制方法，其中，所述语音发声状态包括有声或无声，所述检测所述目标对象当前的语音发声状态包括：通过音频检测装置实时或按照预设周期检测所述目标对象的声音，检测到所述目标对象的声音，则语音发声状态为有声，没有检测到所述目标对象的声音，语音发声状态为无声。
如权利要求7所述的录音控制方法，其中，所述语音状态包括语音进行状态或语音停止状态；所述根据所述语音动作信息确定所述目标对象当前的语音状态包括：

判断所述目标用户是有声，则是语音进行状态；

判断所述目标用户是无声，则是语音停止状态。
如权利要求1-8任一项所述的录音控制方法，其中，所述语音状态包括语音进行状态或语音停止状态；所述根据检测结果对所述录音目标对象进行录音控制包括：

判断所述语音状态是语音进行状态，则进行录音；

判断所述语音状态是语音停止状态，则停止录音。
一种录音控制装置，包括确定模块、检测模块和控制模块：

所述确定模块设置为确定录音目标对象；

所述检测模块设置为检测所述录音目标对象当前的语音状态；

所述控制模块设置为根据检测结果对所述录音目标对象进行录音控制。
如权利要求10所述的录音控制装置，其中，所述检测模块包括动作检测子模块：所述动作检测子模块设置为检测所述目标对象当前的语音动作信息，根据所述语音动作信息确定所述目标对象当前的语音状态。
如权利要求10所述的录音控制装置，其中，所述检测模块还包括声音检测子模块：所述声音检测子模块设置为检测所述目标对象当前的语音发声状态，根据所述语音发声状态确定所述目标对象当前的语音状态。
如权利要求10-12任一项所述的录音控制装置，其中，所述语音状态包括语音进行状态或语音停止状态；所述控制模块还设置为：

判断所述语音状态是语音进行状态，则进行录音；

判断所述语音状态是语音停止状态，则停止录音。