WO2017045512A1 - 一种语音识别的方法、装置、终端及语音识别设备 - Google Patents

一种语音识别的方法、装置、终端及语音识别设备 Download PDF

Info

Publication number
WO2017045512A1
WO2017045512A1 PCT/CN2016/096217 CN2016096217W WO2017045512A1 WO 2017045512 A1 WO2017045512 A1 WO 2017045512A1 CN 2016096217 W CN2016096217 W CN 2016096217W WO 2017045512 A1 WO2017045512 A1 WO 2017045512A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio signal
audio
gain
signal
attenuation coefficient
Prior art date
Application number
PCT/CN2016/096217
Other languages
English (en)
French (fr)
Inventor
骆磊
Original Assignee
深圳前海达闼科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳前海达闼科技有限公司 filed Critical 深圳前海达闼科技有限公司
Publication of WO2017045512A1 publication Critical patent/WO2017045512A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • Voice interaction refers to the voice communication between the person and the machine, allowing the machine to understand what the person is saying.
  • Speech recognition technology is a high-tech technique that allows a machine to transform a speech signal into a corresponding text or command through an identification and understanding process.
  • the recognition rate of the voice interaction is greatly reduced, especially when the volume of the audio is large, the voice interaction may not be recognized. Respond or identify the wrong situation.
  • the existing noise reduction technology is not effective in the scene when the device speaker has audio output, and there is a problem that the speech recognition rate is low, and the noise reduction effect needs to be further improved.
  • the embodiment of the invention provides a method, a device, a terminal and a voice recognition device for voice recognition, which are used to solve the problem that the existing voice recognition technology has a low voice recognition rate when the device speaker has audio output.
  • a method for speech recognition includes the following steps:
  • the first audio signal being an audio signal output by a local audio output device
  • Embodiments of the present invention provide a device for voice recognition, which is applied to a voice recognition device when an speaker has audio output, including: sound
  • a receiving unit configured to receive an audio input signal
  • An acquiring unit configured to acquire a first audio signal, where the first audio signal is an audio signal output by a local audio output device;
  • a determining unit configured to determine an interference audio signal according to the first audio signal
  • a filtering unit configured to filter the interference audio signal from the audio input signal to obtain a second audio signal
  • An identification processing unit configured to perform voice recognition processing on the second audio signal.
  • An embodiment of the present invention provides a terminal, including: a local audio input device, a local audio output device, and a voice recognition device.
  • the local audio input device is configured to receive an audio signal
  • the local audio output device is configured to output an audio signal
  • the device for voice recognition is configured to perform voice recognition processing according to an audio signal received by the local audio input device and an audio signal output by the local audio output device.
  • the embodiment of the invention provides a voice recognition device, including:
  • a local audio input device for receiving an audio signal
  • the first audio signal being an audio signal output by the local audio output device
  • the method, device, terminal and voice recognition device provided by the embodiment of the present invention filter out the interference audio signal from the audio signal received by the local audio input device according to the first audio signal, taking into account the local audio output device and
  • the audio propagation path between the audio input device of the local machine and the gain or loss of the frequency of the audio signal outputted by the local audio output device after passing through the propagation path can accurately obtain the interference audio signal, thereby effectively improving the audio output device in the local machine.
  • FIG. 2 is a schematic structural diagram of an apparatus for voice recognition according to an embodiment of the present invention.
  • FIG. 3 is a schematic structural diagram of a terminal in an embodiment of the present invention.
  • An embodiment of the present invention provides a method for voice recognition, including the following steps:
  • the first audio signal being an audio signal output by a local audio output device
  • FIG. 1 is a schematic flowchart of a method for voice recognition according to an embodiment of the present invention. As shown in FIG. 1 , the voice recognition method may include the following steps:
  • Step 101 Receive an audio input signal
  • Step 102 Acquire a first audio signal, where the first audio signal is an audio signal output by the local audio output device;
  • Step 103 Obtain a gain/attenuation coefficient, and the gain/attenuation coefficient is a coefficient of gain or attenuation of at least one frequency point of the first audio signal at the position of the local audio input device;
  • Step 104 Determine an interference audio signal according to the gain/attenuation coefficient and the first audio signal.
  • the interference audio signal is an audio signal output by the local audio output device received by the local audio input device
  • Step 105 Filter out the interference audio signal from the audio input signal to obtain a second audio signal.
  • Step 106 Perform speech recognition processing on the second audio signal.
  • the method for voice recognition can be applied to devices such as mobile terminals, personal computers, and robots.
  • the local audio input device is a device for receiving an audio signal
  • the local audio input device may be a microphone, and other forms of devices or devices that can receive audio signals may occur in the future.
  • the local audio output device is a device for outputting an audio signal to the local machine.
  • the present local audio output device may be a speaker, and other types of devices or devices that may output an audio signal may occur in the future.
  • the local audio input device receives the background noise of the environment in which the machine is located and the audio signal received by the local audio input device and received by the local audio input device while receiving the audio signal to be recognized. .
  • multiple microphones can be used.
  • One microphone collects audio signals carrying background noise, and one or more microphones collect background noise.
  • the background noise volume picked up by the above two microphones It is basically the same, and the recorded vocals will have a volume difference of about 6 dB.
  • the first audio signal that is, the audio signal output by the local audio output device
  • the first audio signal is received by the local audio input device after a certain distance, and a certain loss occurs due to the transmission of the first audio signal over a certain distance.
  • the first audio signal and the gain/attenuation coefficient need to be obtained.
  • the acquisition timing of the two is not specifically limited, and the first audio signal may be acquired first, or Get the gain/attenuation coefficient first.
  • the method for voice recognition provided by the embodiment of the present invention may be based on the gain or attenuation of the frequency of the first audio signal output by the local audio output device at the position of the local audio input device and the first audio signal output by the local audio output device. Determining that the first audio signal output by the local audio output device interferes with the interfering audio signal of the speech recognition, and then filtering the interfering audio signal from the audio input signal to obtain the second audio signal, where the second audio signal is the final speech to be recognized signal.
  • the audio output device has the purpose of performing a voice recognition rate of speech recognition when the audio is output.
  • the method for voice recognition determines the interference audio signal according to the first audio signal and the gain/attenuation coefficient, and then filters out the interference audio signal from the audio signal received by the local audio input device, taking into account the local audio.
  • the audio propagation path between the output device and the local audio input device and the gain or loss of the frequency of the audio signal output by the local audio output device after passing through the propagation path can accurately obtain the interference audio signal, effectively improving the locality Audio input
  • the speech recognition rate for speech recognition when the device has audio output.
  • the gain/attenuation coefficient is obtained by calculating the gain/attenuation coefficient.
  • the gain/attenuation coefficient may be preset on the device or device that implements the voice recognition method, and is stored on the storage module of the device or device, and is specifically stored therein, which is not specifically limited herein.
  • the gain/attenuation coefficient is obtained from the memory module.
  • the gain/attenuation coefficient can be obtained before the first audio signal is acquired.
  • calculating the gain/attenuation coefficient may specifically include:
  • the third audio signal being an audio signal output by the local audio input device and output by the local audio output device;
  • the gain/attenuation coefficient is calculated according to the relationship between the first audio signal and the third audio signal, which may specifically include:
  • A is the attenuation coefficient (in dB).
  • the gain which is generally a magnification, is electronically the ratio of the signal output to the signal input of a system, expressed as a common logarithm of the ratio of the output signal to the input signal.
  • G is the gain coefficient
  • frequency V 2 (f i, t) is acquired at time t f i as a third audio signal
  • the frequency V 1 (f i, t) is acquired at time t f i of a first audio signal.
  • the audio signal refers to a sound that can be heard by the human ear at a frequency between 20 Hz and 20 kHz.
  • a specific frequency of the frequency point can be determined by a person skilled in the art according to actual needs.
  • the frequency range of 20HZ to 20KHz can be equally divided to determine the corresponding frequency point, and the frequency point can also be determined according to the audio sensitivity characteristics of the human ear.
  • the gain coefficient After determining the frequency point, after obtaining the signal component of the first audio signal at each frequency point and the signal component of the third audio signal at the corresponding frequency point, the gain coefficient can be calculated by using the above formula.
  • the audio signal output by the audio output device after being transmitted in the air medium and received by the local audio input device may have a certain loss or attenuation relative to the audio signal output from the local audio output device.
  • the gain or loss of the frequency of the audio signal outputted by the local audio output device at the position of the local audio input device can be relatively accurately obtained, and further, when the audio signal output by the local audio output device is determined for speech recognition, The interference signal brought is ready.
  • a device for voice recognition is also provided in the embodiment of the present invention. Since the principle of solving the problem is similar to the method for voice recognition, the implementation of the device can be referred to the implementation of the method. No longer.
  • An embodiment of the present invention provides a device for voice recognition, including:
  • a receiving unit configured to receive an audio input signal
  • An acquiring unit configured to acquire a first audio signal, where the first audio signal is an audio signal output by a local audio output device;
  • a determining unit configured to determine an interference audio signal according to the first audio signal
  • a filtering unit configured to filter the interference audio signal from the audio input signal to obtain a second audio signal
  • An identification processing unit configured to perform voice recognition processing on the second audio signal.
  • the device for voice recognition may include:
  • the receiving unit 201 is configured to receive an audio input signal
  • the acquiring unit 202 is configured to acquire a first audio signal, where the first audio signal is an audio signal output by the local audio output device;
  • the obtaining unit 202 is further configured to obtain a gain/attenuation coefficient, and the gain/attenuation coefficient is the first tone The gain or attenuation of the frequency signal at the frequency of the local audio input device;
  • a determining unit 203 configured to determine an interference audio signal according to the gain/attenuation coefficient and the first audio signal
  • the filtering unit 204 is configured to filter the interference audio signal from the audio input signal to obtain the second audio signal;
  • the identification processing unit 205 is configured to perform voice recognition processing on the second audio signal.
  • the method, device and terminal for voice recognition provided by the embodiment of the invention determine the interference audio signal according to the first audio signal and the gain/attenuation coefficient, and then filter out the interference audio signal from the audio signal received by the local audio input device, When the audio propagation path between the local audio output device and the local audio input device and the audio signal output by the local audio output device pass through the propagation path, the gain or loss of the frequency can accurately obtain the interference audio signal, effectively improving The speech recognition rate for speech recognition when the local audio output device has audio output.
  • the acquiring unit may be specifically configured to obtain a gain/attenuation coefficient by reading a preset gain/attenuation coefficient;
  • the gain/attenuation coefficient is obtained by calculating the gain/attenuation coefficient.
  • the obtaining unit may be further configured to obtain a gain/attenuation coefficient before acquiring the first audio signal.
  • the obtaining unit may further include:
  • a first acquiring subunit configured to acquire a first audio signal
  • G is the gain coefficient
  • V 2 (f i , t) is a signal component of the third audio signal frequency f i acquired at time t
  • V 1 (f i , t) is the first obtained at time t the audio signal frequency component of the signal f i;
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device. Instructions are provided for implementation The steps of a function specified in a block or blocks of a flow or a flow and/or a block diagram of a flow chart.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

一种语音识别的方法、装置及终端,包括:接收音频输入信号(101);获取第一音频信号,所述第一音频信号为本机音频输出装置输出的音频信号(102);根据所述第一音频信号确定干扰音频信号;从所述音频输入信号中滤除所述干扰音频信号得到第二音频信号(105);对所述第二音频信号进行语音识别(106)。采用该技术方案,能够有效提高在本机音频输出装置有音频输出时进行语音识别的语音识别率。

Description

一种语音识别的方法、装置、终端及语音识别设备 技术领域
本发明涉及音频分析或处理技术领域,特别涉及一种语音识别的方法、装置、终端及语音识别设备。
背景技术
语音交互是指人与机器进行语音交流,让机器听懂人说的话。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。
目前的语音识别方案,在设备的扬声器有音频输出时(播放音乐或者输出声音)的情况下,语音交互的识别率就会大幅降低,尤其在音频的音量较大时,语音交互会出现没有识别反应或识别错误的情况。而现有的降噪技术,在设备扬声器有音频输出时的场景下是不生效的,存在语音识别率较低的问题,降噪效果有待进一步提升。
发明内容
本发明实施例提出了一种语音识别的方法、装置、终端及语音识别设备,用以解决现有的语音识别技术在设备扬声器有音频输出时,存在的语音识别率较低的问题。
本发明实施例提供了一种语音识别的方法,包括如下步骤:
一种语音识别的方法,包括如下步骤:
接收音频输入信号;
获取第一音频信号,所述第一音频信号为本机音频输出装置输出的音频信号;
根据所述第一音频信号确定干扰音频信号;
从所述音频输入信号中滤除所述干扰音频信号得到第二音频信号;
对所述第二音频信号进行语音识别处理。
本发明实施例提供了一种语音识别的装置,应用于扬器有音频输出时的语音识别设备,包括:声
接收单元,用于接收音频输入信号;
获取单元,用于获取第一音频信号,所述第一音频信号为本机音频输出装置输出的音频信号;
确定单元,用于根据所述第一音频信号确定干扰音频信号;
滤除单元,用于从所述音频输入信号中滤除所述干扰音频信号得到第二音频信号;
识别处理单元,用于对所述第二音频信号进行语音识别处理。
本发明实施例提供了一种终端,包括:本机音频输入装置、本机音频输出装置及语音识别的装置,
所述本机音频输入装置,用于接收音频信号;
所述本机音频输出装置,用于输出音频信号;
所述语音识别的装置,用于根据所述本机音频输入装置接收到的音频信号及所述本机音频输出装置输出的音频信号,进行语音识别处理。
本发明实施例提供了一种语音识别设备,包括:
本机音频输入装置,用于接收音频信号;
本机音频输出装置,用于输出音频信号;以及
处理器,用于:
根据第一音频信号确定干扰音频信号,所述第一音频信号为所述本机音频输出装置输出的音频信号;
从音频输入信号中滤除所述干扰音频信号得到第二音频信号,所述音频输入信号为所述本机音频输入装置接收到的音频信号;
对所述第二音频信号进行语音识别处理。
本发明有益效果如下:
本发明实施例提供的语音识别的方法、装置、终端及语音识别设备,根据第一音频信号从本机音频输入装置接收到的音频信号中滤除干扰音频信号,考虑到了本机音频输出装置与本机音频输入装置之间的音频传播路径及本机音频输出装置输出的音频信号经过该传播路径后的频点的增益或损耗,可以准确得到干扰音频信号,有效提高了在本机音频输出装置有音频输出时进行语音识别的语音识别率。
附图说明
下面将参照附图描述本发明的具体实施例,其中:
图1为本发明实施例中的语音识别的方法流程示意图;
图2为本发明实施例中的语音识别的装置结构示意图;
图3为本发明实施例中的终端结构示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。并且在不冲突的情况下,本说明书中的实施例及实施例中的特征可以互相结合。
本发明实施例提供一种语音识别的方法,包括如下步骤:
接收音频输入信号;
获取第一音频信号,所述第一音频信号为本机音频输出装置输出的音频信号;
根据所述第一音频信号确定干扰音频信号;
从所述音频输入信号中滤除所述干扰音频信号得到第二音频信号;
对所述第二音频信号进行语音识别处理。
图1为本发明实施例中的语音识别的方法流程示意图,如图1所示,语音识别的方法可以包括如下步骤:
步骤101:接收音频输入信号;
步骤102:获取第一音频信号,第一音频信号为本机音频输出装置输出的音频信号;
步骤103:获取增益/衰减系数,增益/衰减系数为第一音频信号在本机音频输入装置位置的至少一个频点的增益或衰减的系数;
步骤104:根据增益/衰减系数及第一音频信号确定干扰音频信号;
其中,干扰音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号;
步骤105:从音频输入信号中滤除干扰音频信号得到第二音频信号;
第二音频信号为本机音频输入装置接收到的待识别音频信号;
步骤106:对第二音频信号进行语音识别处理。
具体实施中,该语音识别的方法可以应用于移动终端、个人电脑、机器人等设备。其中,本机音频输入装置为本机接收音频信号的装置,例如,目前本机音频输入装置可以是麦克风,也不排除未来的可能会出现的其他形式的可以接收音频信号的装置或器件。本机音频输出装置为本机输出音频信号的装置,例如,目前本机音频输出装置可以是扬声器,也不排除未来的可能会出现的其他形式的可以输出音频信号的装置或器件。
语音识别的时候,本机音频输入装置在接收待识别音频信号的同时,还会接收本机所处环境的背景噪音以及由本机音频输出装置输出的被本机音频输入装置接收到的音频信号。其中,滤除背景噪音已有较成熟的解决方案,可以用多个麦克风,一个麦克风采集携带背景噪音的音频信号,另一个或多个麦克风采集背景噪音,上述两种麦克风所拾取的背景噪声音量 是基本相同的,而记录的人声会有6dB左右的音量差,对这些实时采样的数字信号进行频谱分析,在和背景噪音信息库进行比对后,让讲话者的声音频谱通过,而对背景噪音的频谱进行抑制,根据信号消除原理叠加在原有通话信号上以达到较明显的消除背景噪音的效果,从带背景噪音的语音信号中提取尽可能纯净的原始语音。而对于本机音频输出装置输出的音频信号造成对语音识别的干扰,上述方案则无法解决。
第一音频信号,即:本机音频输出装置输出的音频信号,经过一段距离被本机音频输入装置接收,由于第一音频信号经过一段距离的传输后,会产生一定的损耗。为了能够更为准确的获知干扰音频信号,需要获取第一音频信号及增益/衰减系数,但在具体实施中,对上述二者的获取时序不作具体限定,可以先获取第一音频信号,也可以先获取增益/衰减系数。
本发明实施例提供的语音识别的方法可以根据本机音频输出装置输出的第一音频信号在本机音频输入装置位置的频点的增益或衰减及本机音频输出装置输出的第一音频信号,确定本机音频输出装置输出的第一音频信号干扰语音识别的干扰音频信号,进而从音频输入信号中滤除干扰音频信号,以得到第二音频信号,第二音频信号即为最终待识别的语音信号。
需要指出的是,即便不获取增益/衰减系数,而是将第一音频信号作为干扰音频信号,后续在音频输入信号中只滤除第一音频信号,也能够实现本发明实施例提高在本机音频输出装置有音频输出时进行语音识别的语音识别率的目的。
本发明实施例提供的语音识别的方法,根据第一音频信号及增益/衰减系数确定干扰音频信号,进而从本机音频输入装置接收到的音频信号中滤除干扰音频信号,考虑到了本机音频输出装置与本机音频输入装置之间的音频传播路径及本机音频输出装置输出的音频信号经过该传播路径后的频点的增益或损耗,可以准确得到干扰音频信号,有效提高了在本机音频输 出装置有音频输出时进行语音识别的语音识别率。
实施中,获取增益/衰减系数,可以具体包括:
通过读取预设的增益/衰减系数,获取增益/衰减系数;或者,
通过计算增益/衰减系数,获取增益/衰减系数。
具体实施中,可以在实施语音识别的方法的设备或装置上,预设增益/衰减系数,并存在设备或装置的存储模块上,具体如何存储,这里不作具体限定。在实施语音识别时,从存储模块上获取增益/衰减系数。
也可以通过实时计算的方式来获取增益/衰减系数。
实施中,可以在获取第一音频信号的之前,获取增益/衰减系数。
具体实施中,因为实施语音识别的装置或设备的位置可能随时变化,进而音频信号的传输环境也随着发生变化,经传输后的损耗也可能不同,因此实时获取声音会得到更好的语音识别效果,保证语音识别的准确率,可以在获取第一音频信号之前,获取增益/衰减系数。即,可以根据当前时刻的第一音频信号及之前的增益/衰减系数确定当前时刻的干扰音频信号。
实施中,计算增益/衰减系数,可以具体包括:
获取第三音频信号,第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号;
根据第一音频信号及第三音频信号的关系,计算增益/衰减系数。
具体实施中,第一音频信号是由实施语音识别的设备或装置播放的,可以通过增加接口等方式来获取。第三音频信号可以在仅有本机音频输出装置输出的音频信号的情况下,同时获取本机音频输入装置接收到的音频信号得到,该过程中的背景噪音可以通过现有技术中的多麦克风等方案来滤除。
在获取了第一音频信号和第三音频信号后,就可以将二者进行比较计算,以得到增益/衰减系数。
实施中,根据第一音频信号及第三音频信号的关系,计算增益/衰减系数,具体可以包括:
根据第一音频信号及第三音频信号的关系,计算增益系数,如下:
Figure PCTCN2016096217-appb-000001
其中,G为增益系数(单位为dB),V2(fi,t)为t时刻获取的频点为fi的第三音频信号(单位为伏特),V1(fi,t)为t时刻获取的频点为fi的第一音频信号(单位为伏特);或者,
根据第一音频信号及第三音频信号的关系,计算衰减系数,如下:
Figure PCTCN2016096217-appb-000002
其中,A为衰减系数(单位为dB)。
具体实施中,增益,一般而言就是放大倍数,在电子学上,通常为一个系统的信号输出与信号输入的比率,以输出信号同输入信号比值的常用的对数表示。
计算频点增益系数,采用的计算公式具体可以如下:
Figure PCTCN2016096217-appb-000003
G为增益系数,V2(fi,t)为t时刻获取的频点为fi的第三音频信号,V1(fi,t)为t时刻获取的频点为fi的第一音频信号。
音频信号是指人耳可以听到的频率在20HZ~20KHz之间的声音。具体实施中,本领域技术人员可以根据实际需要来确定频点的具体频率。例如,最简单的,可以将20HZ~20KHz的频率范围进行等分而确定相应的频点,也可以根据人耳的音频敏感特性等来确定频点。
确定了频点后,获取第一音频信号在各个频点的信号分量及相应频点上的第三音频信号的信号分量后,采用上述公式即可计算得出增益系数。
信号在传输介质中传播时,将会有一部分能量转化成热能或者被传输介质吸收,从而造成信号强度不断减弱,这种现象称为损耗或衰减。本机 音频输出装置输出的音频信号在空气介质中传输后被本机音频输入装置接收后的音频信号相对于本机音频输出装置输出的音频信号会存在一定的损耗或衰减。
同上述增益系数的计算方式,计算频点衰减系数,可以如下:
Figure PCTCN2016096217-appb-000004
通过上述计算,可以较为准确的获取本机音频输出装置输出的音频信号在本机音频输入装置位置的频点的增益或损耗,进而为确定由本机音频输出装置输出的音频信号对语音识别时带来的干扰信号做好准备工作。
基于同一发明构思,本发明实施例中还提供了一种语音识别的装置,由于该装置解决问题的原理与一种语音识别的方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供一种语音识别的装置,包括:
接收单元,用于接收音频输入信号;
获取单元,用于获取第一音频信号,所述第一音频信号为本机音频输出装置输出的音频信号;
确定单元,用于根据所述第一音频信号确定干扰音频信号;
滤除单元,用于从所述音频输入信号中滤除所述干扰音频信号得到第二音频信号;
识别处理单元,用于对所述第二音频信号进行语音识别处理。
图2为本发明实施例中的语音识别的装置结构示意图,如图2所示,语音识别的装置可以包括:
接收单元201,用于接收音频输入信号;
获取单元202,用于获取第一音频信号,第一音频信号为本机音频输出装置输出的音频信号;
获取单元202进一步用于获取增益/衰减系数,增益/衰减系数为第一音 频信号在本机音频输入装置位置的频点的增益或衰减;
确定单元203,用于根据增益/衰减系数及第一音频信号确定干扰音频信号;
滤除单元204,用于从音频输入信号中滤除干扰音频信号得到第二音频信号;
识别处理单元205,用于对第二音频信号进行语音识别处理。
本发明实施例提供的语音识别的方法、装置及终端,根据第一音频信号及增益/衰减系数确定干扰音频信号,进而从本机音频输入装置接收到的音频信号中滤除干扰音频信号,考虑到了本机音频输出装置与本机音频输入装置之间的音频传播路径及本机音频输出装置输出的音频信号经过该传播路径后的频点的增益或损耗,可以准确得到干扰音频信号,有效提高了在本机音频输出装置有音频输出时进行语音识别的语音识别率。
实施中,获取单元可以具体用于通过读取预设的增益/衰减系数,获取增益/衰减系数;或者,
通过计算增益/衰减系数,获取增益/衰减系数。
实施中,获取单元可以进一步用于在获取第一音频信号的之前,获取增益/衰减系数。
实施中,获取单元可以进一步包括:
第一获取子单元,用于获取第一音频信号;
第二获取子单元,用于获取第三音频信号,第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号;
确定子单元,用于根据第一音频信号及第三音频信号的关系,计算增益/衰减系数。
实施中,确定子单元可以具体用于:
根据第一音频信号及第三音频信号的关系,计算频点增益系数,如下:
Figure PCTCN2016096217-appb-000005
其中,G为增益系数,V2(fi,t)为t时刻获取的频点为fi的第三音频信号的信号分量,V1(fi,t)为t时刻获取的频点为fi的第一音频信号的信号分量;或者,
根据第一音频信号及第三音频信号的关系,计算频点衰减系数,如下:
Figure PCTCN2016096217-appb-000006
其中,A为衰减系数。
基于同一发明构思,本发明实施例中还提供了一种终端。图3为本发明实施例中的终端结构示意图,如图3所示,终端可以包括:本机音频输入装置、本机音频输出装置及上述的语音识别的装置,其中:
本机音频输入装置301,用于接收音频信号;
本机音频输出装置302,用于输出音频信号;
语音识别的装置303,用于根据本机音频输入装置接收到的音频信号及本机音频输出装置输出的音频信号,进行语音识别处理。
本发明实施例提供一种语音识别设备,包括:
本机音频输入装置,用于接收音频信号;
本机音频输出装置,用于输出音频信号;以及
处理器,用于:
根据第一音频信号确定干扰音频信号,所述第一音频信号为所述本机音频输出装置输出的音频信号;
从音频输入信号中滤除所述干扰音频信号得到第二音频信号,所述音频输入信号为所述本机音频输入装置接收到的音频信号;
对所述第二音频信号进行语音识别处理。
所述处理器进一步用于获取增益/衰减系数,所述增益/衰减系数为所述第一音频信号在本机音频输入装置位置的至少一个频点的增益或衰减的系数,所述处理器进一步用于根据所述增益/衰减系数和所述第一音频信号确 定干扰音频信号。
所述处理器进一步用于获取增益/衰减系数,所述增益/衰减系数为所述第一音频信号在本机音频输入装置位置的至少一个频点的增益或衰减的系数;
所述处理器进一步用于根据所述增益/衰减系数和所述第一音频信号确定干扰音频信号。
所述处理器具体用于根据所述第一音频信号及第三音频信号的关系,计算所述增益/衰减系数,所述第三音频信号为所述本机音频输入装置接收到的由所述本机音频输出装置输出的音频信号。
所述处理器根据所述第一音频信号及所述第三音频信号的关系,计算所述增益系数,如下:
Figure PCTCN2016096217-appb-000007
其中,G为所述增益系数,V2(fi,t)为t时刻获取的第三音频信号频点为fi的信号分量,V1(fi,t)为t时刻获取的第一音频信号频点为fi的信号分量;或者,
根据所述第一音频信号及所述第三音频信号的关系,计算所述衰减系数,如下:
Figure PCTCN2016096217-appb-000008
其中,A为所述衰减系数。
所述设备为机器人装置或终端。
具体实施中,由于该终端包括了上述的语音识别的装置,可以在本机音频输出装置输出音频信号的情况下的语音识别时,根据本机音频输出装置输出的音频信号及本机音频输出装置输出的音频信号在本机音频输入装置位置的频点的增益或衰减确定本机音频输入装置接收到的由本机音频输出装置输出的音频信号,进而从本机音频输入装置接收到的音频信号中滤除本机音频输出装置输出的音频导致的音频干扰信号,考虑到了本机音频 输出装置与本机音频输入装置之间的音频传播路径及本机音频输出装置输出的音频信号经过该传播路径后的频点的增益或损耗,可以准确得到本机音频输出装置输出的音频对本机音频输入装置的音频干扰信号,有效提高了在本机音频输出装置有音频输出时进行语音识别的语音识别率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现 在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (17)

  1. 一种语音识别的方法,其特征在于,包括如下步骤:
    接收音频输入信号;
    获取第一音频信号,所述第一音频信号为本机音频输出装置输出的音频信号;
    根据所述第一音频信号确定干扰音频信号;
    从所述音频输入信号中滤除所述干扰音频信号得到第二音频信号;
    对所述第二音频信号进行语音识别处理。
  2. 如权利要求1所述的方法,其特征在于,还包括:获取增益/衰减系数,所述增益/衰减系数为所述第一音频信号在本机音频输入装置位置的至少一个频点的增益或衰减的系数;所述根据所述第一音频信号确定干扰音频信号的步骤进一步包括:根据所述增益/衰减系数和所述第一音频信号确定干扰音频信号。
  3. 如权利要求2所述的方法,其特征在于,所述获取增益/衰减系数,具体包括:
    通过读取预设的所述增益/衰减系数,获取所述增益/衰减系数;或者,
    通过计算所述增益/衰减系数,获取所述增益/衰减系数。
  4. 如权利要求3所述的方法,其特征在于,所述计算所述增益/衰减系数,具体包括:
    获取第三音频信号,所述第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号;
    根据所述第一音频信号及所述第三音频信号的关系,计算所述增益/衰减系数。
  5. 如权利要求4所述的方法,其特征在于,所述根据所述第一音频信号及所述第三音频信号的关系,计算所述增益/衰减系数,具体包括:
    根据所述第一音频信号及所述第三音频信号的关系,计算所述增益系数,如下:
    Figure PCTCN2016096217-appb-100001
    其中,G为所述增益系数,V2(fi,t)为t时刻获取的第三音频信号频点为fi的信号分量,V1(fi,t)为t时刻获取的第一音频信号频点为fi的信号分量;或者,
    根据所述第一音频信号及所述第三音频信号的关系,计算所述衰减系数,如下:
    Figure PCTCN2016096217-appb-100002
    其中,A为所述衰减系数。
  6. 一种语音识别的装置,其特征在于,包括:
    接收单元,用于接收音频输入信号;
    获取单元,用于获取第一音频信号,所述第一音频信号为本机音频输出装置输出的音频信号;
    确定单元,用于根据所述第一音频信号确定干扰音频信号;
    滤除单元,用于从所述音频输入信号中滤除所述干扰音频信号得到第二音频信号;
    识别处理单元,用于对所述第二音频信号进行语音识别处理。
  7. 如权利要求6所述的装置,其特征在于,获取单元,进一步用于获取增益/衰减系数,所述增益/衰减系数为所述第一音频信号在所述本机音频输入装置位置的至少一个频点的增益或衰减的系数,所述确定单元进一步用于根据所述增益/衰减系数和所述第一音频信号确定干扰音频信号。
  8. 如权利要求7所述的装置,其特征在于,所述获取单元具体用于通过读取预设的所述增益/衰减系数,获取所述增益/衰减系数;或者,
    通过计算所述增益/衰减系数,获取所述增益/衰减系数。
  9. 如权利要求7所述的装置,其特征在于,所述获取单元进一步用于 获取所述增益/衰减系数。
  10. 如权利要求7所述的装置,其特征在于,所述获取单元,进一步包括:
    第一获取子单元,用于获取所述第一音频信号;
    第二获取子单元,用于获取第三音频信号,所述第三音频信号为本机音频输入装置接收到的由本机音频输出装置输出的音频信号;
    确定子单元,用于根据所述第一音频信号及所述第三音频信号的关系,计算所述增益/衰减系数。
  11. 如权利要求10所述的装置,其特征在于,所述确定子单元具体用于:
    根据所述第一音频信号及所述第三音频信号的关系,计算所述增益系数,如下:
    Figure PCTCN2016096217-appb-100003
    其中,G为所述增益系数,V2(fi,t)为t时刻获取的第三音频信号频点为fi的信号分量,V1(fi,t)为t时刻获取的第一音频信号频点为fi的信号分量;或者,
    根据所述第一音频信号及所述第三音频信号的关系,计算所述衰减系数,如下:
    Figure PCTCN2016096217-appb-100004
    其中,A为所述衰减系数。
  12. 一种终端,其特征在于,包括:本机音频输入装置、本机音频输出装置及权利要求6至11任一所述的语音识别的装置,
    所述本机音频输入装置,用于接收音频信号;
    所述本机音频输出装置,用于输出音频信号;
    所述语音识别的装置,用于根据所述本机音频输入装置接收到的音频信号及所述本机音频输出装置输出的音频信号,进行语音识别处理。
  13. 一种语音识别设备,其特征在于,包括:
    本机音频输入装置,用于接收音频信号;
    本机音频输出装置,用于输出音频信号;以及
    处理器,用于:
    根据第一音频信号确定干扰音频信号,所述第一音频信号为所述本机音频输出装置输出的音频信号;
    从音频输入信号中滤除所述干扰音频信号得到第二音频信号,所述音频输入信号为所述本机音频输入装置接收到的音频信号;
    对所述第二音频信号进行语音识别处理。
  14. 如权利要求13所述的设备,其特征在于,所述处理器进一步用于获取增益/衰减系数,所述增益/衰减系数为所述第一音频信号在本机音频输入装置位置的至少一个频点的增益或衰减的系数;
    所述处理器进一步用于根据所述增益/衰减系数和所述第一音频信号确定干扰音频信号。
  15. 如权利要求14所述的设备,其特征在于,所述处理器具体用于根据所述第一音频信号及第三音频信号的关系,计算所述增益/衰减系数,所述第三音频信号为所述本机音频输入装置接收到的由所述本机音频输出装置输出的音频信号。
  16. 如权利要求15所述的设备,其特征在于,所述处理器根据所述第一音频信号及所述第三音频信号的关系,计算所述增益系数,如下:
    Figure PCTCN2016096217-appb-100005
    其中,G为所述增益系数,V2(fi,t)为t时刻获取的第三音频信号频点为fi的信号分量,V1(fi,t)为t时刻获取的第一音频信号频点为fi的信号分量;或者,
    根据所述第一音频信号及所述第三音频信号的关系,计算所述衰减系数,如下:
    Figure PCTCN2016096217-appb-100006
    其中,A为所述衰减系数。
  17. 如权利要求13所述的设备,其特征在于,所述设备为机器人装置或终端。
PCT/CN2016/096217 2015-09-18 2016-08-22 一种语音识别的方法、装置、终端及语音识别设备 WO2017045512A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510600314X 2015-09-18
CN201510600314.XA CN105261363A (zh) 2015-09-18 2015-09-18 一种语音识别的方法、装置及终端

Publications (1)

Publication Number Publication Date
WO2017045512A1 true WO2017045512A1 (zh) 2017-03-23

Family

ID=55101022

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2016/096217 WO2017045512A1 (zh) 2015-09-18 2016-08-22 一种语音识别的方法、装置、终端及语音识别设备

Country Status (2)

Country Link
CN (1) CN105261363A (zh)
WO (1) WO2017045512A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712624A (zh) * 2018-08-08 2018-10-26 上海启诺信息科技有限公司 基于文字记录的录像存档装置及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261363A (zh) * 2015-09-18 2016-01-20 深圳前海达闼科技有限公司 一种语音识别的方法、装置及终端
CN108600805A (zh) * 2018-03-29 2018-09-28 珠海迈科智能科技股份有限公司 一种机顶盒及其去除电视节目声音源干扰的方法
CN108650584B (zh) * 2018-05-31 2021-12-24 联想(北京)有限公司 音频装置、信息处理系统和声音处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1202051A (zh) * 1997-06-11 1998-12-16 冲电气工业株式会社 采用多段增益的回声消除器
JP2001044896A (ja) * 1999-08-03 2001-02-16 Matsushita Electric Ind Co Ltd 通話装置および通話方法
CN1717720A (zh) * 2003-09-05 2006-01-04 松下电器产业株式会社 声处理系统、声处理装置、声处理方法、声处理程序及存储媒体
CN101339769A (zh) * 2007-07-03 2009-01-07 富士通株式会社 回音抑制器、回音抑制方法
US20090089054A1 (en) * 2007-09-28 2009-04-02 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
CN102057428A (zh) * 2008-06-11 2011-05-11 三菱电机株式会社 回声消除器
CN105261363A (zh) * 2015-09-18 2016-01-20 深圳前海达闼科技有限公司 一种语音识别的方法、装置及终端

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1202051A (zh) * 1997-06-11 1998-12-16 冲电气工业株式会社 采用多段增益的回声消除器
JP2001044896A (ja) * 1999-08-03 2001-02-16 Matsushita Electric Ind Co Ltd 通話装置および通話方法
CN1717720A (zh) * 2003-09-05 2006-01-04 松下电器产业株式会社 声处理系统、声处理装置、声处理方法、声处理程序及存储媒体
CN101339769A (zh) * 2007-07-03 2009-01-07 富士通株式会社 回音抑制器、回音抑制方法
US20090089054A1 (en) * 2007-09-28 2009-04-02 Qualcomm Incorporated Apparatus and method of noise and echo reduction in multiple microphone audio systems
CN102057428A (zh) * 2008-06-11 2011-05-11 三菱电机株式会社 回声消除器
CN105261363A (zh) * 2015-09-18 2016-01-20 深圳前海达闼科技有限公司 一种语音识别的方法、装置及终端

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108712624A (zh) * 2018-08-08 2018-10-26 上海启诺信息科技有限公司 基于文字记录的录像存档装置及方法

Also Published As

Publication number Publication date
CN105261363A (zh) 2016-01-20

Similar Documents

Publication Publication Date Title
CN102388416B (zh) 信号处理装置及信号处理方法
US9892721B2 (en) Information-processing device, information processing method, and program
CN109845288B (zh) 用于麦克风之间的输出信号均衡的方法和装置
EP2643834B1 (en) Device and method for producing an audio signal
US20160351179A1 (en) Single-channel, binaural and multi-channel dereverberation
US11069366B2 (en) Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium
CN109493877B (zh) 一种助听装置的语音增强方法和装置
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
WO2015184893A1 (zh) 移动终端通话语音降噪方法及装置
JP4816711B2 (ja) 通話音声処理装置および通話音声処理方法
JP2010112996A (ja) 音声処理装置、音声処理方法およびプログラム
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
TWI523006B (zh) 利用聲紋識別進行語音辨識的方法及其電子裝置
CN108476072A (zh) 用于声音识别的众包数据库
JP4462063B2 (ja) 音声処理装置
KR102378207B1 (ko) 오디오 신호들을 정제하는 멀티 오럴 mmse 분석 기술들
JP2004325127A (ja) 音源検出方法、音源分離方法、およびこれらを実施する装置
CN106710602A (zh) 一种声学混响时间估计方法和装置
US20220392472A1 (en) Audio signal processing device, audio signal processing method, and storage medium
US11528556B2 (en) Method and apparatus for output signal equalization between microphones
CN106328159B (zh) 一种音频流的处理方法及装置
WO2018227560A1 (zh) 耳机控制方法及系统
JP2003263189A (ja) 信号分離装置およびその方法、信号分離プログラム並びにそのプログラムを記録した記録媒体
CN114302286A (zh) 一种通话语音降噪方法、装置、设备及存储介质
CN113038338A (zh) 降噪处理方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16845626

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16845626

Country of ref document: EP

Kind code of ref document: A1