WO2017031846A1 - 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质 - Google Patents

噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质 Download PDF

Info

Publication number
WO2017031846A1
WO2017031846A1 PCT/CN2015/095364 CN2015095364W WO2017031846A1 WO 2017031846 A1 WO2017031846 A1 WO 2017031846A1 CN 2015095364 W CN2015095364 W CN 2015095364W WO 2017031846 A1 WO2017031846 A1 WO 2017031846A1
Authority
WO
WIPO (PCT)
Prior art keywords
audio data
voiceprint
parameter
processed
original audio
Prior art date
Application number
PCT/CN2015/095364
Other languages
English (en)
French (fr)
Inventor
李士岩
Original Assignee
百度在线网络技术(北京)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 百度在线网络技术(北京)有限公司 filed Critical 百度在线网络技术(北京)有限公司
Publication of WO2017031846A1 publication Critical patent/WO2017031846A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to noise processing techniques, and more particularly to a noise cancellation, voice recognition method, apparatus, device, and non-volatile computer storage medium.
  • the current noise reduction technology mainly uses dual microphone active noise reduction, and uses a certain algorithm to use the audio data collected by one microphone (ie, the voice signal corresponding to the noise signal and the weak signal strength) to the audio data collected by the other microphone. (ie, corresponding to a noise signal and a signal signal having a strong signal strength), noise suppression processing is performed.
  • the voice signal may be determined to be noise, so that the voice signal is also suppressed to the same degree as the noise signal. , seriously affecting the sound quality after noise reduction, resulting in a reduction in the reliability of noise reduction.
  • aspects of the present invention provide a noise cancellation, speech recognition method, apparatus, device, and non-volatile computer storage medium for improving the reliability of noise reduction.
  • a noise cancellation method comprising:
  • the valid audio data is obtained from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching.
  • the specific voiceprint parameter is a voiceprint parameter of a target user
  • Obtaining valid audio data from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching including:
  • the method further includes:
  • the specific voiceprint parameter is a voiceprint parameter of a noise signal of a target environment
  • Obtaining valid audio data from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching including:
  • Audio data with successful voiceprint matching is removed from the original audio data to be processed as the effective audio data.
  • the method further includes:
  • a voiceprint parameter of the noise signal is obtained based on the acquired noise signal of the target environment.
  • a noise canceling apparatus comprising:
  • a voiceprint matching unit configured to perform voiceprint matching on the acquired original audio data to be processed based on a specific voiceprint parameter
  • a valid audio data acquiring unit configured to obtain valid audio data from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching.
  • the specific voiceprint parameter is a voiceprint parameter of a target user
  • the effective audio data acquiring unit is configured to obtain audio data with successful voiceprint matching from the original audio data to be processed as the valid audio data.
  • noise cancellation device further includes:
  • a voice signal acquiring unit configured to acquire a voice signal of the target user
  • a first voiceprint parameter obtaining unit configured to obtain a voiceprint parameter of the target user based on the acquired voice signal of the target user.
  • the specific voiceprint parameter being a voiceprint parameter of a noise signal of a target environment
  • the effective audio data acquiring unit is configured to remove audio data with successful voiceprint matching from the original audio data to be processed as the valid audio data.
  • noise cancellation device further includes:
  • a noise signal acquiring unit configured to acquire a noise signal of the target environment
  • a second voiceprint parameter obtaining unit configured to obtain a voiceprint parameter of the noise signal based on the acquired noise signal of the target environment.
  • a speech recognition method comprising:
  • the specific voiceprint parameter is a voiceprint parameter of a target user
  • Obtaining valid audio data from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching including:
  • any possible implementation manner further provide an implementation manner, before the voiceprint matching is performed on the acquired original audio data to be processed based on the specific voiceprint parameter include:
  • the specific voiceprint parameter being a voiceprint parameter of a noise signal of a target environment
  • Obtaining valid audio data from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching including:
  • Audio data with successful voiceprint matching is removed from the original audio data to be processed as the effective audio data.
  • any possible implementation manner further provide an implementation manner, before the voiceprint matching is performed on the acquired original audio data to be processed based on the specific voiceprint parameter include:
  • a voiceprint parameter of the noise signal is obtained based on the acquired noise signal of the target environment.
  • a speech recognition apparatus comprising:
  • An original audio data acquiring unit configured to acquire original audio data to be processed
  • a voice recognition unit configured to perform voice recognition processing on the valid audio data.
  • an apparatus comprising:
  • One or more processors are One or more processors;
  • One or more programs the one or more programs being stored in the memory, when executed by the one or more processors:
  • the valid audio data is obtained from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching.
  • a nonvolatile computer storage medium stores one or more programs that, when executed by a device, cause the device to:
  • the valid audio data is obtained from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching.
  • an apparatus comprising:
  • One or more processors are One or more processors;
  • One or more programs the one or more programs being stored in the memory, when executed by the one or more processors:
  • a nonvolatile computer storage medium storing one or more programs when the one or more programs are executed by a device causes The device:
  • the embodiment of the present invention performs voiceprint matching on the acquired original audio data to be processed based on a specific voiceprint parameter, so that the voiceprint matching result according to the voiceprint matching can be obtained.
  • Obtaining effective audio data in the processing of the original audio data, and eliminating the need for an additional sound collecting device to collect other sound signals, such as noise signals, can avoid the change in the distance between the signal source corresponding to the voice signal and the two microphones in the prior art.
  • the problem of suppressing the speech signal to the same degree as the noise signal is improved, thereby improving the reliability of the noise reduction and effectively improving the sound quality after noise reduction.
  • the embodiment of the present invention obtains the original audio data to be processed, and then performs voiceprint matching on the acquired original audio data to be processed based on the specific voiceprint parameter, so that a voiceprint matching result of the voiceprint matching, obtaining valid audio data from the original audio data to be processed, and performing voice recognition processing on the valid audio data, since the effective audio data is based on a specific voiceprint parameter, the original to be processed
  • the audio data extracted from the audio data which can be regarded as the voice signal of the user who uses the terminal, therefore, the effective audio data no longer contains the noise signal, thereby effectively improving the sound quality.
  • FIG. 1 is a schematic flowchart of a noise cancellation method according to an embodiment of the present invention
  • FIG. 2 is a schematic flow chart of a noise canceling method in a case where a specific voiceprint parameter is a voiceprint parameter of a target user in the embodiment corresponding to FIG. 1;
  • FIG. 3 is a schematic flow chart of a noise canceling method in a case where a specific voiceprint parameter is a voiceprint parameter of a noise signal of a target environment in the embodiment corresponding to FIG. 1;
  • FIG. 4 is a schematic flowchart of a voice recognition method according to another embodiment of the present invention.
  • FIG. 5 is a schematic structural diagram of a noise canceling apparatus according to another embodiment of the present invention.
  • FIG. 6 is a schematic structural diagram of a noise canceling apparatus in a case where a specific voiceprint parameter is a voiceprint parameter of a target user in the embodiment corresponding to FIG. 5;
  • FIG. 7 is a schematic structural diagram of a noise canceling apparatus in a case where a specific voiceprint parameter is a voiceprint parameter of a noise signal of a target environment in the embodiment corresponding to FIG. 5;
  • FIG. 8 is a schematic structural diagram of a voice recognition apparatus according to another embodiment of the present invention.
  • the terminals involved in the embodiments of the present invention may include, but are not limited to, a mobile phone, a personal digital assistant (PDA), a wireless handheld device, a tablet computer, and a personal computer (Personal Computer, PC). ), MP3 player, MP4 player, wearable device (for example, smart glasses, smart watches, smart bracelets, etc.).
  • PDA personal digital assistant
  • PC Personal Computer
  • FIG. 1 is a schematic flowchart of a noise cancellation method according to an embodiment of the present invention, as shown in FIG. 1 .
  • execution entities of 101 to 102 may be applications located in the local terminal, or may be plug-ins or software development kits (SDKs) in the application of the local terminal.
  • SDKs software development kits
  • the processing engine in the server on the network side, or the distributed system on the network side, may not be specifically limited in this embodiment.
  • the application may be a local application (nativeApp) installed on the terminal, or may be a web application (webApp) of the browser on the terminal, which is not specifically limited in this embodiment.
  • the original audio data to be processed can be acquired by using a sound collection device.
  • the sound collection device may be a microphone built in or external to the terminal, and is not particularly limited in this embodiment.
  • the sound collection device may be used to collect a sound signal including a voice signal that the terminal needs to process.
  • a noise signal may be doped in the sound signal. Then, the collected sound signal can be converted into original audio data to be processed.
  • the so-called original audio data to be processed is a digital signal converted from an audio signal.
  • the sound signal may be sampled, quantized, and encoded to obtain Pulse Code Modulation (PCM) data as raw audio data to be processed.
  • PCM Pulse Code Modulation
  • the original audio data to be processed may be subjected to a framing process to obtain at least one frame of data, and further, for each of at least one frame of data.
  • the frame data is subjected to audio analysis processing to obtain voiceprint features of each frame of data.
  • the voiceprint feature of the original audio data to be processed is matched. If the two match, the match is successful. If the two are inconsistent, the match fails.
  • the so-called consistency may mean that all are identical, that is, completely identical, or may also be partially consistent, which is not specifically limited in this embodiment.
  • the original audio data to be processed may be subjected to framing processing according to a preset time interval, for example, 20 ms, and some data overlap between adjacent frames, for example, 50% of data overlap, so that At least one frame of data of the original audio data to be processed.
  • a preset time interval for example, 20 ms
  • some data overlap between adjacent frames for example, 50% of data overlap
  • voiceprint feature which is a feature specific to audio data, refers to a content-based digital signature that can represent an important acoustic feature of a piece of audio data. Its main purpose is to establish an effective mechanism to compare the perceptual hearing of two audio data. quality. Note that instead of directly comparing the usually large audio data itself, it is to compare its correspondingly small voiceprint features.
  • the voiceprint features may include, but are not limited to, acoustic features related to the anatomical structure of a human's pronunciation mechanism, such as spectrum, cepstrum, formant, pitch, reflection coefficient, etc. .
  • the specific voiceprint parameter may be further configured to serve as a reference parameter for voiceprint matching.
  • the specific voiceprint parameter may be a voiceprint parameter of the target user, or may also be a voiceprint parameter of the noise signal of the target environment, which is not specifically limited in this embodiment.
  • the noise cancellation method of the present embodiment provides the noise cancellation method of the noise signal.
  • FIG. 2 is a schematic flow chart of a noise canceling method in a case where a specific voiceprint parameter is a voiceprint parameter of a target user in the embodiment corresponding to FIG. 1, as shown in FIG. 2.
  • the voice signal of the target user may be further acquired, and then, according to the acquired voice signal of the target user, The voiceprint parameters of the target user.
  • the target user's voice signal may be sampled, quantized, and encoded to obtain PCM data as user audio data.
  • the user audio data may be subjected to frame processing to obtain at least one frame of data, and then audio analysis processing is performed on each frame of the at least one frame of data to obtain a voiceprint parameter of each frame of data.
  • the user audio data may be subjected to framing processing according to a preset time interval, for example, 20 ms, and some data overlap between adjacent frames, for example, 50% of data overlap, so that the user can be obtained. At least one frame of data of the audio data.
  • the specific voiceprint parameter refers to the obtained voiceprint parameter of the voice signal of the target user according to the voice signal of the target user. Therefore, the matching voiceprint feature can be considered as the voiceprint feature corresponding to the voice signal sent by the target user of the terminal.
  • FIG. 3 is a schematic flow chart of a noise canceling method in a case where a specific voiceprint parameter is a voiceprint parameter of a noise signal of a target environment in the embodiment corresponding to FIG. 1, as shown in FIG. 3.
  • the noise signal of the target environment may be further acquired, and then, the acquired noise signal of the target environment may be obtained.
  • the voiceprint parameters of the noise signal may be obtained before the 301.
  • the voice signal of the target environment may be sampled, quantized, and encoded to obtain PCM data as environment audio data.
  • the ambient audio data may be subjected to frame processing to obtain at least one frame of data, and then audio analysis processing is performed on each frame of the at least one frame of data to obtain a voiceprint parameter of each frame of data.
  • the ambient audio data may be subjected to framing processing according to a preset time interval, for example, 20 ms, and partial data overlap between adjacent frames, for example, 50% of data overlap, so that the environment can be obtained. At least one frame of data of the audio data.
  • the specific voiceprint parameter refers to the voiceprint parameter of the obtained noise signal of the target environment according to the noise signal of the target environment. Therefore, the matching voiceprint feature can be considered as the voiceprint feature corresponding to the noise signal generated in the target environment where the terminal is located.
  • At least one empirical parameter can be used as the specific voiceprint parameter in addition to the two specific voiceprint parameters described above.
  • the specific voiceprint parameters obtained may be specifically stored in a storage device of the terminal.
  • the storage device of the terminal may be a slow storage device, specifically a hard disk of the computer system, or may be a non-operating memory of the mobile phone, that is, physical memory, for example, a read-only memory (Read- Only Memory, ROM, memory card, and the like are not particularly limited in this embodiment.
  • a slow storage device specifically a hard disk of the computer system
  • a non-operating memory of the mobile phone that is, physical memory, for example, a read-only memory (Read- Only Memory, ROM, memory card, and the like are not particularly limited in this embodiment.
  • the storage device of the terminal may also be a fast storage device, which may be a memory of the computer system, or may be a running memory of the mobile phone, that is, system memory, for example, a random access memory (Random Access Memory). , RAM, etc., this embodiment is not particularly limited.
  • a fast storage device which may be a memory of the computer system, or may be a running memory of the mobile phone, that is, system memory, for example, a random access memory (Random Access Memory). , RAM, etc., this embodiment is not particularly limited.
  • the voice recognition processing may be further performed on the valid audio data.
  • the effective audio data is audio data extracted from the original audio data to be processed according to a specific voiceprint parameter
  • the part of the audio data can be regarded as a voice signal of the user who uses the terminal, and therefore, the effective audio data no longer contains noise. Signals, which effectively improve the sound quality.
  • the voice recognition processing is performed on the effective audio data, and the obtained recognition result has a high accuracy.
  • the voiceprint matching is performed on the acquired original audio data to be processed based on the specific voiceprint parameter, so that the voiceprint matching result according to the voiceprint matching can be obtained from the original audio data to be processed.
  • Effective audio data no additional sound collecting device is required to collect other sound signals, such as noise signals, etc., which can avoid the noise and noise of the voice signal caused by the change of the distance between the signal source corresponding to the voice signal and the two microphones in the prior art.
  • the problem of equal suppression of the signal improves the reliability of noise reduction and at the same time effectively improves the sound quality after noise reduction.
  • FIG. 4 is a schematic flowchart of a voice recognition method according to another embodiment of the present invention, as shown in FIG. 4 .
  • part or all of the execution entities of 401 to 404 may be applications located in the local terminal, or may be plug-ins or software development kits (SDKs) in the application of the local terminal.
  • SDKs software development kits
  • the processing engine in the server on the network side, or the distributed system on the network side, may not be specifically limited in this embodiment.
  • the application may be a local application (nativeApp) installed on the terminal, or may be a web application (webApp) of the browser on the terminal, which is not specifically limited in this embodiment.
  • the original audio data to be processed is obtained, and then the obtained original audio data to be processed is voice-pattern matched based on the specific voiceprint parameter, so that the voiceprint matching result according to the voiceprint matching can be obtained.
  • Obtaining valid from the original audio data to be processed Audio data and performing speech recognition processing on the valid audio data. Since the effective audio data is audio data extracted from the original audio data to be processed according to a specific voiceprint parameter, the audio data may be regarded as a user who uses the terminal. The voice signal, therefore, the noise signal is no longer included in the effective audio data, thereby effectively improving the sound quality.
  • the voice recognition processing is performed on the effective audio data, and the obtained recognition result has a high accuracy.
  • FIG. 5 is a schematic structural diagram of a noise canceling apparatus according to another embodiment of the present invention, as shown in FIG. 5.
  • the noise canceling apparatus of the present embodiment may include a voiceprint matching unit 51 and an effective audio data acquiring unit 52.
  • the voiceprint matching unit 51 is configured to perform voiceprint matching on the acquired original audio data to be processed based on the specific voiceprint parameter;
  • the effective audio data acquiring unit 52 is configured to match the voiceprint matching result according to the voiceprint And obtaining valid audio data from the original audio data to be processed.
  • the application is located in the application of the local terminal, or may be a plug-in or a software development kit (SDK) in a local terminal application, or may be a processing engine located in a server on the network side, or It may also be a distributed system located on the network side, which is not particularly limited in this embodiment.
  • SDK software development kit
  • the application may be a local application (nativeApp) installed on the terminal, or may be a web application (webApp) of the browser on the terminal, which is not specifically limited in this embodiment.
  • the specific voiceprint parameter is a voiceprint parameter of the target user; correspondingly, the effective audio data acquiring unit 52 may be specifically configured to use the The audio data in which the voiceprint matching is successfully obtained in the original audio data is processed as the effective audio data.
  • the noise cancellation apparatus provided in this embodiment may further include:
  • a voice signal acquiring unit 61 configured to acquire a voice signal of the target user
  • the first voiceprint parameter obtaining unit 62 is configured to obtain the voiceprint parameter of the target user based on the acquired voice signal of the target user.
  • the specific voiceprint parameter is a voiceprint parameter of a noise signal of the target environment; correspondingly, the effective audio data acquiring unit 52 may be specifically used to The audio data to be successfully matched by the voiceprint is removed from the original audio data to be processed as the valid audio data.
  • the noise cancellation apparatus provided in this embodiment may further include:
  • a noise signal acquiring unit 71 configured to acquire a noise signal of the target environment
  • the second voiceprint parameter obtaining unit 72 is configured to obtain a voiceprint parameter of the noise signal based on the acquired noise signal of the target environment.
  • the voiceprint matching unit performs voiceprint matching on the acquired original audio data based on the specific voiceprint parameter, so that the effective audio data acquiring unit can match the voiceprint matching result according to the voiceprint.
  • the effective audio data is obtained in the original audio data to be processed, and no additional sound collecting device is required to collect other sound signals, such as noise signals, etc., which can avoid the distance between the signal source corresponding to the voice signal and the two microphones in the prior art.
  • the problem of the speech signal being suppressed to the same degree as the noise signal is improved, thereby improving the reliability of the noise reduction and effectively improving the sound quality after noise reduction.
  • FIG. 8 is a schematic structural diagram of a voice recognition apparatus according to another embodiment of the present invention, as shown in FIG. 8.
  • the voice recognition apparatus of the present embodiment may include the original audio data acquiring unit 81, the noise canceling means 82 and the voice recognition unit 83 provided by the embodiments corresponding to any of Figs. 5 to 7.
  • the original audio data acquiring unit 81 is configured to acquire original audio data to be processed, and the voice recognition unit 83 is configured to perform voice recognition processing on the valid audio data.
  • noise canceling device 82 For the detailed description of the noise canceling device 82, refer to the related content in the embodiment corresponding to FIG. 5 to FIG. 7 , and details are not described herein again.
  • the application is located in the application of the local terminal, or may be a plug-in or a software development kit (SDK) in a local terminal application, or may be a processing engine located in a server on the network side, or It may also be a distributed system located on the network side, which is not particularly limited in this embodiment.
  • SDK software development kit
  • the application may be a local application (nativeApp) installed on the terminal, or may be a web application (webApp) of the browser on the terminal, which is not specifically limited in this embodiment.
  • the original audio data is to be processed by the original audio data acquiring unit, and then the voiceprint matching unit performs voiceprint matching on the acquired original audio data based on the specific voiceprint parameter, so that the effective audio data is obtained.
  • the obtaining unit is capable of acquiring valid audio data from the original audio data to be processed according to the voiceprint matching result of the voiceprint matching, and performing voice recognition processing on the valid audio data by the voice recognition unit, since the effective audio data is According to the specific voiceprint parameter, the audio data extracted from the original audio data to be processed, this part of the audio data can be regarded as the voice signal of the user who uses the terminal, and therefore, the effective audio data no longer contains the noise signal, thereby effectively improving The sound quality.
  • the voice recognition processing is performed on the effective audio data, and the obtained recognition result has a high accuracy.
  • the disclosed systems, devices, and methods may be implemented in other manners.
  • the device embodiments described above are merely illustrative.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or Can be integrated into another system, or some features can be ignored or not executed.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, and may be electrical, mechanical or otherwise.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the purpose of the solution of the embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of hardware plus software functional units.
  • the above-described integrated unit implemented in the form of a software functional unit can be stored in a computer readable storage medium.
  • the above software functional unit is stored in a storage medium and includes instructions for causing a computer device (which may be a personal computer, a server, or a network device, etc.) or a processor to perform the methods of the various embodiments of the present invention. Part of the steps.
  • the foregoing storage medium includes: a U disk, a mobile hard disk, and a read only memory. (Read-Only Memory, ROM), Random Access Memory (RAM), disk or optical disk, and other media that can store program code.

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Telephone Function (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质。其中该噪声消除方法通过基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配(101),使得能够根据声纹匹配的声纹匹配结果,从待处理原始音频数据中获取有效音频数据(102),无需额外的声音采集装置采集其他声音信号例如噪声信号等,能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题,从而提高了降噪的可靠性,同时能够有效提高降噪之后的声音质量。

Description

噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质
本申请要求了申请日为2015年08月25日,申请号为201510524909.1发明名称为“噪声消除、语音识别方法及装置”的中国专利申请的优先权。
技术领域
本发明涉及噪声处理技术,尤其涉及一种噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质。
背景技术
随着声音处理技术发展越来越快,终端对需要处理的声音质量的要求也越来越高,降噪技术应运而生。目前的降噪技术主要是采用双麦克风主动降噪,通过一定算法,利用一个麦克风采集到的音频数据(即对应于噪声信号和信号强度较弱的语音信号)对另一个麦克风采集到的音频数据(即对应于噪声信号和信号强度较强的语音信号),进行噪声抑制处理。
然而,如果语音信号对应的信号源(例如:人的嘴巴)与两个麦克风之间的距离发生变化,可能导致语音信号被确定为噪声,使得对语音信号也进行了与噪声信号同等程度的抑制,严重影响了降噪之后的声音质量,导致了降噪的可靠性的降低。
发明内容
本发明的多个方面提供一种噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质,用以提高降噪的可靠性。
本发明的一方面,提供一种噪声消除方法,包括:
基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特定声纹参数是目标用户的声纹参数,以及
所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配之前,所述方法还包括:
获取所述目标用户的语音信号;
基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式, 所述特定声纹参数是目标环境的噪声信号的声纹参数,以及
所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
从所述待处理原始音频数据中去除声纹匹配成功的音频数据,作为所述有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配之前,所述方法还包括:
获取所述目标环境的噪声信号;
基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
本发明的另一方面,提供一种噪声消除装置,包括:
声纹匹配单元,用于基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
有效音频数据获取单元,用于根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特定声纹参数是目标用户的声纹参数,以及
所述有效音频数据获取单元用于从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述噪声消除装置还包括:
语音信号获取单元,用于获取所述目标用户的语音信号;
第一声纹参数获得单元,用于基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特定声纹参数是目标环境的噪声信号的声纹参数,以及
所述有效音频数据获取单元用于从所述待处理原始音频数据中去除声纹匹配成功的音频数据,作为所述有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述噪声消除装置还包括:
噪声信号获取单元,用于获取所述目标环境的噪声信号;
第二声纹参数获得单元,用于基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
本发明的另一方面,提供一种语音识别方法,包括:
获取待处理原始音频数据;
基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配;
根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中 获取有效音频数据;
对所述有效音频数据进行语音识别处理。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特定声纹参数是目标用户的声纹参数,以及
所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配之前,所述方法还包括:
获取所述目标用户的语音信号;
基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述特定声纹参数是目标环境的噪声信号的声纹参数,以及
所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
从所述待处理原始音频数据中去除声纹匹配成功的音频数据,作为所述有效音频数据。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配之前,所述方法还包括:
获取所述目标环境的噪声信号;
基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
本发明的另一方面,提供一种语音识别装置,包括:
原始音频数据获取单元,用于获取待处理原始音频数据;
如上所述的噪声消除装置;
语音识别单元,用于对所述有效音频数据进行语音识别处理。
本发明的另一方面,提供一种设备,包括:
一个或者多个处理器;
存储器;
一个或者多个程序,所述一个或者多个程序存储在所述存储器中,当被所述一个或者多个处理器执行时:
基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
本发明的另一方面,提供一种非易失性计算机存储介质,所述非易 失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:
基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
本发明的另一方面,提供一种设备,包括:
一个或者多个处理器;
存储器;
一个或者多个程序,所述一个或者多个程序存储在所述存储器中,当被所述一个或者多个处理器执行时:
获取待处理原始音频数据;
基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配;
根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据;
对所述有效音频数据进行语音识别处理。
本发明的另一方面,提供一种非易失性计算机存储介质,所述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:
获取待处理原始音频数据;
基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹 匹配;
根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据;
对所述有效音频数据进行语音识别处理。
由上述技术方案可知,一方面,本发明实施例通过基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配,使得能够根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,无需额外的声音采集装置采集其他声音信号例如噪声信号等,能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题,从而提高了降噪的可靠性,同时能够有效提高降噪之后的声音质量。
由上述技术方案可知,另一方面,本发明实施例通过获取待处理原始音频数据,进而基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配,使得能够根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,并对所述有效音频数据进行语音识别处理,由于有效音频数据是根据特定声纹参数,在待处理原始音频数据中提取出来的音频数据,这部分音频数据可以认为是使用终端的用户的语音信号,因此,该有效音频数据中不再包含噪声信号,从而有效提高了声音质量。
另外,采用本发明提供的技术方案,只需要一个声音采集装置,能 够有效降低成本。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的噪声消除方法的流程示意图;
图2为图1对应的实施例中特定声纹参数是目标用户的声纹参数的情况下的噪声消除方法的流程示意图;
图3为图1对应的实施例中特定声纹参数是目标环境的噪声信号的声纹参数的情况下的噪声消除方法的流程示意图;
图4为本发明另一实施例提供的语音识别方法的流程示意图;
图5为本发明另一实施例提供的噪声消除装置的结构示意图;
图6为图5对应的实施例中特定声纹参数是目标用户的声纹参数的情况下的噪声消除装置的结构示意图;
图7为图5对应的实施例中特定声纹参数是目标环境的噪声信号的声纹参数的情况下的噪声消除装置的结构示意图;
图8为本发明另一实施例提供的语音识别装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴设备(例如,智能眼镜、智能手表、智能手环等)等。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本发明一实施例提供的噪声消除方法的流程示意图,如图1所示。
101、基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配。
102、根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
需要说明的是,101~102的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
这样,通过基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配,使得能够根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,无需额外的声音采集装置采集其他声音信号例如噪声信号等,能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题,从而提高了降噪的可靠性,同时能够有效提高降噪之后的声音质量。
本发明中,可以利用声音采集装置,获取所述待处理原始音频数据。其中,所述声音采集装置,可以为终端内置或外置的麦克风等,本实施例对此不进行特别限定。
具体可以利用声音采集装置,采集包含终端需要处理的语音信号的声音信号。通常,该声音信号中可能会掺杂噪声信号。然后,则可以将所采集的所述声音信号转换为待处理原始音频数据。
具体地,所谓的待处理原始音频数据,是由对音频信号转换而来的数字信号。例如,具体可以对所述声音信号进行抽样、量化和编码处理,以获得脉冲编码调制(Pulse Code Modulation,PCM)数据,作为待处理原始音频数据。
本实施例中,无需采用额外的声音采集装置再额外采集辅助的音频数据,而仅需要采用一个声音采集装置采集待处理原始音频数据即可,能够有效降低成本。
可选地,在本实施例的一个可能的实现方式中,在101中,具体可以对所述待处理原始音频数据进行分帧处理,以获得至少一帧数据,进而对至少一帧数据中每帧数据进行音频分析处理,以获得每帧数据的声纹特征。然后,基于特定声纹参数,对所述待处理原始音频数据的声纹特征进行匹配处理。二者一致,则说明匹配成功,二者不一致,则说明匹配失败。
所谓的一致,可以是指全部一致即完全一致,或者还可以是指部分一致,本实施例对此不进行特别限定。
具体地,可以对所述待处理原始音频数据按照预设时间间隔,例如,20ms,进行分帧处理,且相邻帧之间有部分的数据重叠,例如50%的数据重叠,这样,能够获得所述待处理原始音频数据的至少一帧数据。
所谓的声纹特征,是一个音频数据专属的特征,是指可以代表一段音频数据的重要声学特征的基于内容的数字签名,其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量。注意这里不是直接比较通常很大的音频数据本身,而是比较其相应通常较小的声纹特征。
在一个具体的实现过程中,所述声纹特征,可以包括但不限于与人类的发音机制的解剖学结构有关的声学特征,例如,频谱、倒频谱、共振峰、基音、反射系数,等等。
可选地,在本实施例的一个可能的实现方式中,在101之前,还可以进一步设置所述特定声纹参数,用以作为声纹匹配的基准参数。具体来说,所述特定声纹参数可以是目标用户的声纹参数,或者还可以是目标环境的噪声信号的声纹参数,本实施例对此不进行特别限定。下面将分别详细说明两种特定声纹参数分别为目标用户的声纹参数和目标环境 的噪声信号的声纹参数时,本实施例所提供的噪声消除方法。
图2为图1对应的实施例中特定声纹参数是目标用户的声纹参数的情况下的噪声消除方法的流程示意图,如图2所示。
201、基于目标用户的声纹参数,对所获取的待处理原始音频数据进行声纹匹配。
可选地,在本实施例的一个可能的实现方式中,在201之前,还可以进一步获取所述目标用户的语音信号,进而,则可以基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
具体地,具体可以对目标用户的语音信号进行抽样、量化和编码处理,以获得PCM数据,作为用户音频数据。然后,则可以对所述用户音频数据进行分帧处理,以获得至少一帧数据,进而对至少一帧数据中每帧数据进行音频分析处理,以获得每帧数据的声纹参数。
例如,可以对所述用户音频数据按照预设时间间隔,例如,20ms,进行分帧处理,且相邻帧之间有部分的数据重叠,例如50%的数据重叠,这样,能够获得所述用户音频数据的至少一帧数据。
202、从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
在这个实现方式中,所述特定声纹参数是指根据目标用户的语音信号,所获得的所述目标用户的语音信号的声纹参数。因此,匹配成功的声纹特征,则可以认为是使用终端的目标用户所发出的语音信号所对应的声纹特征。
图3为图1对应的实施例中特定声纹参数是目标环境的噪声信号的声纹参数的情况下的噪声消除方法的流程示意图,如图3所示。
301、基于目标环境的噪声信号的声纹参数,对所获取的待处理原始音频数据进行声纹匹配。
可选地,在本实施例的一个可能的实现方式中,在301之前,还可以进一步获取所述目标环境的噪声信号,进而,则可以基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
具体地,具体可以对目标环境的语音信号进行抽样、量化和编码处理,以获得PCM数据,作为环境音频数据。然后,则可以对所述环境音频数据进行分帧处理,以获得至少一帧数据,进而对至少一帧数据中每帧数据进行音频分析处理,以获得每帧数据的声纹参数。
例如,可以对所述环境音频数据按照预设时间间隔,例如,20ms,进行分帧处理,且相邻帧之间有部分的数据重叠,例如50%的数据重叠,这样,能够获得所述环境音频数据的至少一帧数据。
302、从所述待处理原始音频数据中去除声纹匹配成功的音频数据,作为所述有效音频数据。
在这个实现方式中,所述特定声纹参数是指根据目标环境的噪声信号,所获得的所述目标环境的噪声信号的声纹参数。因此,匹配成功的声纹特征,则可以认为是终端所在的目标环境中所产生的噪声信号所对应的声纹特征。
可以理解的是,除了上述两种特定声纹参数之外,还可以将至少一个经验参数,作为所述特定声纹参数。
需要说明的是,在获得所述特定声纹参数之后,还需要进一步将所获得的特定声纹参数进行存储处理。具体地,具体可以将所获得的特定声纹参数,在终端的存储设备中进行存储。
在一个具体的实现过程中,所述终端的存储设备可以为慢速存储设备,具体可以为计算机系统的硬盘,或者还可以为手机的非运行内存即物理内存,例如,只读存储器(Read-Only Memory,ROM)和内存卡等,本实施例对此不进行特别限定。
在另一个具体的实现过程中,所述终端的存储设备还可以为快速存储设备,具体可以为计算机系统的内存,或者还可以为手机的运行内存即系统内存,例如,随机存储器(Random Access Memory,RAM)等,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,在102之后,还可以进一步对所述有效音频数据进行语音识别处理。
由于有效音频数据是根据特定声纹参数,在待处理原始音频数据中提取出来的音频数据,这部分音频数据可以认为是使用终端的用户的语音信号,因此,该有效音频数据中不再包含噪声信号,从而有效提高了声音质量。
进一步地,对该有效音频数据进行语音识别处理,所获得的识别结果,准确率较高。
本实施例中,通过基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配,使得能够根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,无需额外的声音采集装置采集其他声音信号例如噪声信号等,能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题,从而提高了降噪的可靠性,同时能够有效提高降噪之后的声音质量。
另外,采用本发明提供的技术方案,只需要一个声音采集装置,能够有效降低成本。
图4为本发明另一实施例提供的语音识别方法的流程示意图,如图4所示。
401、获取待处理原始音频数据。
402、基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配。
403、根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
404、对所述有效音频数据进行语音识别处理。
需要说明的是,401~404的执行主体的部分或全部可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
本发明中,402与403的详细描述,可以参见图1~图3所对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过获取待处理原始音频数据,进而基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配,使得能够根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效 音频数据,并对所述有效音频数据进行语音识别处理,由于有效音频数据是根据特定声纹参数,在待处理原始音频数据中提取出来的音频数据,这部分音频数据可以认为是使用终端的用户的语音信号,因此,该有效音频数据中不再包含噪声信号,从而有效提高了声音质量。
进一步地,对该有效音频数据进行语音识别处理,所获得的识别结果,准确率较高。
另外,采用本发明提供的技术方案,只需要一个声音采集装置,能够有效降低成本。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图5为本发明另一实施例提供的噪声消除装置的结构示意图,如图5所示。本实施例的噪声消除装置可以包括声纹匹配单元51和有效音频数据获取单元52。其中,声纹匹配单元51,用于基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;有效音频数据获取单元52,用于根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
需要说明的是,本实施例所提供的噪声消除装置的部分或全部可以 为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述特定声纹参数是目标用户的声纹参数;相应地,所述有效音频数据获取单元52,具体可以用于从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
可选地,在本实施例的一个可能的实现方式中,如图6所示,本实施例所提供的噪声消除装置还可以进一步包括:
语音信号获取单元61,用于获取所述目标用户的语音信号;
第一声纹参数获得单元62,用于基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
可选地,在本实施例的一个可能的实现方式中,所述特定声纹参数是目标环境的噪声信号的声纹参数;相应地,所述有效音频数据获取单元52,具体可以用于从所述待处理原始音频数据中去除声纹匹配成功的音频数据,作为所述有效音频数据。
可选地,在本实施例的一个可能的实现方式中,如图7所示,本实施例所提供的噪声消除装置还可以进一步包括:
噪声信号获取单元71,用于获取所述目标环境的噪声信号;
第二声纹参数获得单元72,用于基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
需要说明的是,图1~图3对应的实施例中方法,均可以由本实施例提供的噪声消除装置实现。详细描述可以参见图1~图3对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过声纹匹配单元基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配,使得有效音频数据获取单元能够根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,无需额外的声音采集装置采集其他声音信号例如噪声信号等,能够避免现有技术中由于语音信号对应的信号源与两个麦克风之间的距离发生变化导致的对语音信号进行与噪声信号同等程度的抑制的问题,从而提高了降噪的可靠性,同时能够有效提高降噪之后的声音质量。
另外,采用本发明提供的技术方案,只需要一个声音采集装置,能够有效降低成本。
图8为本发明另一实施例提供的语音识别装置的结构示意图,如图8所示。本实施例的语音识别装置可以包括原始音频数据获取单元81、如图5~图7任一附图所对应的实施例所提供的噪声消除装置82和语音识别单元83。其中,原始音频数据获取单元81,用于获取待处理原始音频数据;语音识别单元83,用于对所述有效音频数据进行语音识别处理。
本发明中,噪声消除装置82的详细描述,可以参见图5~图7所对应的实施例中的相关内容,此处不再赘述。
需要说明的是,本实施例所提供的语音识别装置的部分或全部可以 为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(Software Development Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可以理解的是,所述应用可以是安装在终端上的本地程序(nativeApp),或者还可以是终端上的浏览器的一个网页程序(webApp),本实施例对此不进行特别限定。
需要说明的是,图4对应的实施例中方法,均可以由本实施例提供的语音识别装置实现。详细描述可以参见图4对应的实施例中的相关内容,此处不再赘述。
本实施例中,通过原始音频数据获取单元获取待处理原始音频数据,进而由声纹匹配单元基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配,使得有效音频数据获取单元能够根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,并由语音识别单元对所述有效音频数据进行语音识别处理,由于有效音频数据是根据特定声纹参数,在待处理原始音频数据中提取出来的音频数据,这部分音频数据可以认为是使用终端的用户的语音信号,因此,该有效音频数据中不再包含噪声信号,从而有效提高了声音质量。
进一步地,对该有效音频数据进行语音识别处理,所获得的识别结果,准确率较高。
另外,采用本发明提供的技术方案,只需要一个声音采集装置,能够有效降低成本。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上 述描述的系统,设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (20)

  1. 一种噪声消除方法,其特征在于,包括:
    基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
    根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
  2. 根据权利要求1所述的噪声消除方法,其特征在于,所述特定声纹参数是目标用户的声纹参数,以及
    所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
    从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
  3. 根据权利要求2所述的噪声消除方法,其特征在于,在所述基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配之前,所述方法还包括:
    获取所述目标用户的语音信号;
    基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
  4. 根据权利要求1所述的噪声消除方法,其特征在于,所述特定声纹参数是目标环境的噪声信号的声纹参数,以及
    所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
    从所述待处理原始音频数据中去除声纹匹配成功的音频数据,作为所述有效音频数据。
  5. 根据权利要求4所述的噪声消除方法,其特征在于,在所述基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配之前,所述方法还包括:
    获取所述目标环境的噪声信号;
    基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
  6. 一种噪声消除装置,其特征在于,包括:
    声纹匹配单元,用于基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
    有效音频数据获取单元,用于根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
  7. 根据权利要求6所述的噪声消除装置,其特征在于,所述特定声纹参数是目标用户的声纹参数,以及
    所述有效音频数据获取单元用于从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
  8. 根据权利要求7所述的噪声消除装置,其特征在于,所述噪声消除装置还包括:
    语音信号获取单元,用于获取所述目标用户的语音信号;
    第一声纹参数获得单元,用于基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
  9. 根据权利要求6所述的噪声消除装置,其特征在于,所述特定声纹参数是目标环境的噪声信号的声纹参数,以及
    所述有效音频数据获取单元用于从所述待处理原始音频数据中去除 声纹匹配成功的音频数据,作为所述有效音频数据。
  10. 根据权利要求9所述的噪声消除装置,其特征在于,所述噪声消除装置还包括:
    噪声信号获取单元,用于获取所述目标环境的噪声信号;
    第二声纹参数获得单元,用于基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
  11. 一种语音识别方法,其特征在于,包括:
    获取待处理原始音频数据;
    基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配;
    根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据;
    对所述有效音频数据进行语音识别处理。
  12. 根据权利要求11所述的语音识别方法,其特征在于,所述特定声纹参数是目标用户的声纹参数,以及
    所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
    从所述待处理原始音频数据中获取声纹匹配成功的音频数据,作为所述有效音频数据。
  13. 根据权利要求12所述的语音识别方法,其特征在于,在所述基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配之前,所述方法还包括:
    获取所述目标用户的语音信号;
    基于所获取的所述目标用户的语音信号,获得所述目标用户的声纹参数。
  14. 根据权利要求11所述的语音识别方法,其特征在于,所述特定声纹参数是目标环境的噪声信号的声纹参数,以及
    所述根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据,包括:
    从所述待处理原始音频数据中去除声纹匹配成功的音频数据,作为所述有效音频数据。
  15. 根据权利要求14所述的语音识别方法,其特征在于,在所述基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配之前,所述方法还包括:
    获取所述目标环境的噪声信号;
    基于所获取的所述目标环境的噪声信号,获得所述噪声信号的声纹参数。
  16. 一种语音识别装置,其特征在于,包括:
    原始音频数据获取单元,用于获取待处理原始音频数据;
    如权利要求6到10中任一权利要求所述的噪声消除装置;
    语音识别单元,用于对所述有效音频数据进行语音识别处理。
  17. 一种设备,包括:
    一个或者多个处理器;
    存储器;
    一个或者多个程序,所述一个或者多个程序存储在所述存储器中,当被所述一个或者多个处理器执行时:
    基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
    根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
  18. 一种非易失性计算机存储介质,所述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:
    基于特定声纹参数,对所获取的待处理原始音频数据进行声纹匹配;
    根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据。
  19. 一种设备,包括:
    一个或者多个处理器;
    存储器;
    一个或者多个程序,所述一个或者多个程序存储在所述存储器中,当被所述一个或者多个处理器执行时:
    获取待处理原始音频数据;
    基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配;
    根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据;
    对所述有效音频数据进行语音识别处理。
  20. 一种非易失性计算机存储介质,所述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:
    获取待处理原始音频数据;
    基于特定声纹参数,对所获取的所述待处理原始音频数据进行声纹匹配;
    根据所述声纹匹配的声纹匹配结果,从所述待处理原始音频数据中获取有效音频数据;
    对所述有效音频数据进行语音识别处理。
PCT/CN2015/095364 2015-08-25 2015-11-24 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质 WO2017031846A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510524909.1 2015-08-25
CN201510524909.1A CN106486130B (zh) 2015-08-25 2015-08-25 噪声消除、语音识别方法及装置

Publications (1)

Publication Number Publication Date
WO2017031846A1 true WO2017031846A1 (zh) 2017-03-02

Family

ID=58099552

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2015/095364 WO2017031846A1 (zh) 2015-08-25 2015-11-24 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质

Country Status (2)

Country Link
CN (1) CN106486130B (zh)
WO (1) WO2017031846A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110060689A (zh) * 2019-04-10 2019-07-26 南京启诺信息技术有限公司 一种具有特征人声识别的智能穿戴设备及其使用方法
CN110265038A (zh) * 2019-06-28 2019-09-20 联想(北京)有限公司 一种处理方法及电子设备
CN110708625A (zh) * 2019-09-25 2020-01-17 华东师范大学 基于智能终端的环境声抑制与增强可调节耳机系统与方法
CN111161719A (zh) * 2018-11-08 2020-05-15 联想新视界(北京)科技有限公司 一种通过语音操作的ar眼镜及通过语音操作ar眼镜的方法
CN111883159A (zh) * 2020-08-05 2020-11-03 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置
CN111951802A (zh) * 2020-08-10 2020-11-17 山东金东数字创意股份有限公司 基于ai语音识别的可视化表现系统和方法
CN112464021A (zh) * 2020-11-25 2021-03-09 上海眼控科技股份有限公司 一种抗法音视频确定方法、装置、设备及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293293A (zh) * 2017-05-22 2017-10-24 深圳市搜果科技发展有限公司 一种语音指令识别方法、系统及机器人
CN107172256B (zh) * 2017-07-27 2020-05-05 Oppo广东移动通信有限公司 耳机通话自适应调整方法、装置、移动终端及存储介质
CN107945815B (zh) * 2017-11-27 2021-09-07 歌尔科技有限公司 语音信号降噪方法及设备
CN108171118B (zh) * 2017-12-05 2020-10-02 东软集团股份有限公司 眨眼信号数据处理方法、装置、可读存储介质及电子设备
CN108062949A (zh) * 2017-12-11 2018-05-22 广州朗国电子科技有限公司 语音控制跑步机的方法及装置
CN108305637B (zh) * 2018-01-23 2021-04-06 Oppo广东移动通信有限公司 耳机语音处理方法、终端设备及存储介质
CN109166575A (zh) * 2018-07-27 2019-01-08 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、智能设备和存储介质
CN109410938A (zh) * 2018-11-28 2019-03-01 途客电力科技(天津)有限公司 车辆控制方法、装置及车载终端
CN109493870A (zh) * 2018-11-28 2019-03-19 途客电力科技(天津)有限公司 充电桩身份认证方法、装置及电子设备
CN109360580B (zh) * 2018-12-11 2022-01-04 珠海一微半导体股份有限公司 一种基于语音识别的迭代去噪装置和清洁机器人
CN113347519B (zh) * 2020-02-18 2022-06-17 宏碁股份有限公司 消除特定对象语音的方法及应用其的耳戴式声音信号装置
CN111696565B (zh) * 2020-06-05 2023-10-10 北京搜狗科技发展有限公司 语音处理方法、装置和介质
CN113516994B (zh) * 2021-04-07 2022-04-26 北京大学深圳研究院 实时语音识别方法、装置、设备及介质
CN112992153B (zh) * 2021-04-27 2021-08-17 太平金融科技服务(上海)有限公司 音频处理方法、声纹识别方法、装置、计算机设备
CN115440198B (zh) * 2022-11-08 2023-05-02 南方电网数字电网研究院有限公司 混合音频信号的转换方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181391A (ja) * 2003-12-16 2005-07-07 Sony Corp 音声処理装置および音声処理方法
US20060149547A1 (en) * 2005-01-06 2006-07-06 Fuji Photo Film Co., Ltd. Recording apparatus and voice recorder program
US7995713B2 (en) * 2006-04-03 2011-08-09 Agere Systems Inc. Voice-identification-based signal processing for multiple-talker applications
CN102694891A (zh) * 2011-03-21 2012-09-26 鸿富锦精密工业(深圳)有限公司 通话噪音去除系统及方法
CN102781075A (zh) * 2011-05-12 2012-11-14 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
CN103971696A (zh) * 2013-01-30 2014-08-06 华为终端有限公司 语音处理方法、装置及终端设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103594092A (zh) * 2013-11-25 2014-02-19 广东欧珀移动通信有限公司 一种单麦克风语音降噪方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005181391A (ja) * 2003-12-16 2005-07-07 Sony Corp 音声処理装置および音声処理方法
US20060149547A1 (en) * 2005-01-06 2006-07-06 Fuji Photo Film Co., Ltd. Recording apparatus and voice recorder program
US7995713B2 (en) * 2006-04-03 2011-08-09 Agere Systems Inc. Voice-identification-based signal processing for multiple-talker applications
CN102694891A (zh) * 2011-03-21 2012-09-26 鸿富锦精密工业(深圳)有限公司 通话噪音去除系统及方法
CN102781075A (zh) * 2011-05-12 2012-11-14 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
CN103165131A (zh) * 2011-12-17 2013-06-19 富泰华工业(深圳)有限公司 语音处理系统及语音处理方法
CN103971696A (zh) * 2013-01-30 2014-08-06 华为终端有限公司 语音处理方法、装置及终端设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111161719A (zh) * 2018-11-08 2020-05-15 联想新视界(北京)科技有限公司 一种通过语音操作的ar眼镜及通过语音操作ar眼镜的方法
CN110060689A (zh) * 2019-04-10 2019-07-26 南京启诺信息技术有限公司 一种具有特征人声识别的智能穿戴设备及其使用方法
CN110265038A (zh) * 2019-06-28 2019-09-20 联想(北京)有限公司 一种处理方法及电子设备
CN110265038B (zh) * 2019-06-28 2021-10-22 联想(北京)有限公司 一种处理方法及电子设备
CN110708625A (zh) * 2019-09-25 2020-01-17 华东师范大学 基于智能终端的环境声抑制与增强可调节耳机系统与方法
CN111883159A (zh) * 2020-08-05 2020-11-03 龙马智芯(珠海横琴)科技有限公司 语音的处理方法及装置
CN111951802A (zh) * 2020-08-10 2020-11-17 山东金东数字创意股份有限公司 基于ai语音识别的可视化表现系统和方法
CN112464021A (zh) * 2020-11-25 2021-03-09 上海眼控科技股份有限公司 一种抗法音视频确定方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106486130B (zh) 2020-03-31
CN106486130A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
WO2017031846A1 (zh) 噪声消除、语音识别方法、装置、设备及非易失性计算机存储介质
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
WO2021082941A1 (zh) 视频人物识别方法、装置、存储介质与电子设备
US10614803B2 (en) Wake-on-voice method, terminal and storage medium
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US10270736B2 (en) Account adding method, terminal, server, and computer storage medium
WO2018149077A1 (zh) 声纹识别方法、装置、存储介质和后台服务器
US8731936B2 (en) Energy-efficient unobtrusive identification of a speaker
WO2020224217A1 (zh) 语音处理方法、装置、计算机设备及存储介质
US8655656B2 (en) Method and system for assessing intelligibility of speech represented by a speech signal
TW201905675A (zh) 資料更新方法、客戶端及電子設備
Liu et al. Bone-conducted speech enhancement using deep denoising autoencoder
WO2019019256A1 (zh) 电子装置、身份验证的方法、系统及计算机可读存储介质
US20160064008A1 (en) Systems and methods for noise reduction using speech recognition and speech synthesis
WO2021179717A1 (zh) 一种语音识别的前端处理方法、装置及终端设备
JP2017506767A (ja) 話者辞書に基づく発話モデル化のためのシステムおよび方法
US8571873B2 (en) Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal
CN108335694A (zh) 远场环境噪声处理方法、装置、设备和存储介质
Zhang et al. Sensing to hear: Speech enhancement for mobile devices using acoustic signals
JP2015082093A (ja) 異常会話検出装置、異常会話検出方法及び異常会話検出用コンピュータプログラム
US9531333B2 (en) Formant amplifier
WO2019041871A1 (zh) 语音对象识别方法及装置
WO2022199405A1 (zh) 一种语音控制方法和装置
CN114220430A (zh) 多音区语音交互方法、装置、设备以及存储介质
Zheng et al. Bandwidth extension WaveNet for bone-conducted speech enhancement

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15902115

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15902115

Country of ref document: EP

Kind code of ref document: A1