WO2021093380A1 - 一种噪声处理方法、装置、系统 - Google Patents

一种噪声处理方法、装置、系统 Download PDF

Info

Publication number
WO2021093380A1
WO2021093380A1 PCT/CN2020/105992 CN2020105992W WO2021093380A1 WO 2021093380 A1 WO2021093380 A1 WO 2021093380A1 CN 2020105992 W CN2020105992 W CN 2020105992W WO 2021093380 A1 WO2021093380 A1 WO 2021093380A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice information
target user
information
audio information
module
Prior art date
Application number
PCT/CN2020/105992
Other languages
English (en)
French (fr)
Inventor
吴科苇
刘兵兵
刘如意
王峰
车洋
Original Assignee
苏宁云计算有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏宁云计算有限公司 filed Critical 苏宁云计算有限公司
Priority to CA3160740A priority Critical patent/CA3160740A1/en
Publication of WO2021093380A1 publication Critical patent/WO2021093380A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Definitions

  • the invention belongs to the field of acoustics, and particularly relates to a noise processing method, device and system.
  • Intelligent voice interaction equipment realizes the voice interaction between humans and equipment, so that the equipment can perform some operations and controls in place of humans according to the meaning of humans, and liberate human hands as much as possible. It is an indispensable intelligent device in the future.
  • microphone arrays are usually used to do beamforming or blind source separation to enhance the sound in a specific direction to suppress the sound in other directions or to separate the sound of a specific target person.
  • the present invention proposes a noise processing method, device, and system.
  • This method can not only solve the environmental noise interference, but also solve the human voice interference in the same, close, and distant directions, and improve the interaction experience between people and equipment.
  • the present invention provides a noise processing method, the method including:
  • the voice information after filtering is recognized and the corresponding feedback is given according to the recognition result.
  • the filtering of the voice information according to the pre-stored audio information of the target user specifically includes:
  • acoustic model is a Gaussian mixture model, the variable of which is the voice information, and the initial value of the parameter is the covariance matrix obtained by calculating the audio information of the target user;
  • the method further includes:
  • the method further includes:
  • the audio information sent by the target user according to the operation instruction is stored.
  • the algorithm for detecting the collected audio information includes any one of a pitch detection algorithm, a double threshold method, and a posterior signal-to-noise ratio frequency domain iterative algorithm.
  • the present invention provides a noise processing device, which includes:
  • the detection module is used to detect the collected audio information
  • the analysis module is used to filter the voice information according to the pre-stored audio information of the target user when the voice information is detected;
  • the judgment module is used to judge whether there is voice information after the filtering process
  • the recognition module is used to recognize the filtered voice information when it exists and give corresponding feedback according to the recognition result.
  • the analysis module specifically includes:
  • the construction module is used to construct an acoustic model; wherein the acoustic model is a Gaussian mixture model, the variables of which are the voice information, and the initial values of the parameters are the covariance matrix obtained by calculating the audio information of the target user ;
  • the correction module is used to correct the parameters of the acoustic model according to the EM algorithm
  • the processing module is used to determine whether the number of iterations of the EM algorithm reaches a preset value; when it reaches, obtain the output result of the acoustic model; and perform filtering processing on the voice information according to the output result.
  • the analysis module further includes:
  • the echo cancellation module is used to perform echo cancellation on the voice information when the voice information is detected.
  • the device further includes a storage module for:
  • the audio information sent by the target user according to the operation instruction is stored.
  • the present invention provides a computer system, including:
  • One or more processors are One or more processors.
  • a memory associated with the one or more processors where the memory is used to store program instructions, and when the program instructions are read and executed by the one or more processors, perform the following operations:
  • the voice information after filtering is recognized and the corresponding feedback is given according to the recognition result.
  • the present invention first obtains the target person’s voice as a priori information. Therefore, when the non-target person issues an instruction, it suppresses the non-target person’s instructions according to the prior information.
  • the target person issues the instruction, there is interference from other human voices.
  • the prior information can be used to suppress human voice interference and environmental noise in the same position, close position, and distant position, so as to obtain instructions that do not contain other human voices and environmental noise, and improve the clarity of the target person Enhance the interactive experience.
  • FIG. 1 is an application environment diagram of a noise processing method provided by an embodiment of the present application
  • FIG. 2 is a flowchart of a noise processing method provided in Embodiment 1 of the present application.
  • FIG. 3 is a schematic structural diagram of a noise processing device provided in Embodiment 2 of the present application.
  • FIG. 4 is a schematic diagram of the positions of a noise processing device and experimental users provided in the second embodiment of the present application;
  • FIG. 5 is an architecture diagram of a computer system provided by Embodiment 3 of the present application.
  • This application provides a noise processing method, which can be applied to the application environment as shown in FIG. 1.
  • the server 12 communicates with the database 11 and the terminal 13 through the network.
  • the terminal 13 can be, but is not limited to, various personal computers, notebook computers, smart phones, tablet computers, and portable wearable devices.
  • the server 12 can be implemented as an independent server or a server cluster composed of multiple servers.
  • this application provides a noise processing method, which specifically includes the following steps:
  • the detection algorithm may include any one of a pitch detection algorithm, a double-threshold method, and a posterior signal-to-noise ratio frequency domain iterative algorithm.
  • the echo in this solution refers to acoustic echo.
  • it can be achieved by an acoustic echo cancellation method commonly used in the art, such as an echo suppression algorithm or an acoustic echo cancellation algorithm, which is not limited in the present invention.
  • the detected voice information includes environmental noise and/or human voice interference noise.
  • Filtering the voice information according to the pre-stored audio information of the target user specifically includes the following steps:
  • the acoustic model is a Gaussian mixture model
  • the variable is voice information
  • the initial value of the parameter is the covariance matrix obtained after calculating the audio information of the target user
  • the Gaussian Mixture Model (GMM) can be expressed by the following formula:
  • x is the voice information
  • ⁇ k , ⁇ k) is the k-th component in the model
  • ⁇ k is the mixing coefficient, that is, the weight of each component
  • ⁇ k , ⁇ k , ⁇ k are Gaussian mixtures
  • the parameters of the model the initial value of which is the covariance matrix obtained by calculating the audio information of the target user;
  • the EM algorithm is the maximum expectation algorithm.
  • step 2 specifically includes the following two sub-steps:
  • the number of iterations is set according to the empirical value.
  • the number of executions of the EM algorithm the number of executions of steps a and b above
  • the output result is the posterior probability calculated according to the parameters of the last iteration.
  • the detected voice information When it does not exist, it indicates that the detected voice information is the voice uttered by a non-target user; when it does, it indicates that the detected voice information includes the voice uttered by the target user.
  • the filtered speech information is converted into text content, and word segmentation technology is used to recognize and judge the user's intention, and provide corresponding feedback. At the same time, it also outputs evaluation indicators to evaluate the accuracy of the speech recognition process.
  • the evaluation index can be sentence error rate (SER), sentence correct rate (S.Corr), word error rate (WER/CER), etc.
  • the acquisition of pre-stored audio information of the target user includes the following steps:
  • the request sent by the target user can be a reset request for the device.
  • send operation instructions to the target user such as:
  • the target user sends the corresponding audio information according to the operation instruction.
  • reply “Sitting posture has been adjusted”
  • reply “Little Biu Little Biu”
  • the operation instructions are sent at the set time interval.
  • the present invention first obtains the target person’s voice as a priori information. Therefore, when the non-target person issues an instruction, it suppresses the non-target person’s instructions according to the prior information.
  • the target person issues the instruction, there is interference from other human voices.
  • the prior information can be used to suppress human voice interference and environmental noise in the same position, close position, and distant position, so as to obtain instructions that do not contain other human voices and environmental noises, and improve the clarity of the target person’s voice Enhance the interactive experience.
  • the present application provides a noise processing device, which specifically includes:
  • the detection module 31 is used to detect the collected audio information
  • the analysis module 32 is configured to filter the voice information according to the pre-stored audio information of the target user when the voice information is detected;
  • the judging module 33 is used to judge whether there is voice information after the filtering process
  • the recognition module 34 is used for recognizing the filtered voice information when it exists, and giving corresponding feedback according to the recognition result.
  • the aforementioned analysis module 32 specifically includes:
  • the construction module 321 is used to construct an acoustic model; where the acoustic model is a Gaussian mixture model, the variables of which are voice information, and the initial values of the parameters are the covariance matrix obtained by calculating the audio information of the target user;
  • the correction module 322 is used to correct the parameters of the acoustic model according to the EM algorithm
  • the processing module 323 is used to determine whether the number of iterations of the EM algorithm reaches a preset value; when it reaches, obtain the output result of the acoustic model; and perform filtering processing on the voice information according to the output result.
  • the aforementioned analysis module 32 further includes:
  • the echo cancellation module 324 is used to perform echo cancellation on the voice information when the voice information is detected.
  • the above-mentioned device also includes a storage module 35 for:
  • the aforementioned algorithm for detecting the collected audio information includes any one of a pitch detection algorithm, a double-threshold method, and a posterior signal-to-noise ratio frequency domain iterative algorithm.
  • the intelligent interactive device includes a voice interactive system and a voice recognition system.
  • the voice interactive system includes the above-mentioned detection module 31, analysis module 32, judgment module 33, and storage module 35, and voice recognition
  • the system includes the identification module 34 described above.
  • Figure 4 includes five users, namely user No. 1, user No. 2, user No. 3, user No. 4, and user No. 5.
  • the experiment process is:
  • the recognition module 34 in the speech recognition system is used to recognize the filtered speech information and provide corresponding feedback according to the recognition result; in addition, it is also used to output evaluation indicators to evaluate the accuracy of the speech recognition process.
  • the evaluation indicator is WER (Word Error Rate).
  • the existing noise reduction method is also a Gaussian mixture model
  • the variable is voice information
  • the initial value of the parameter is a preset value, which is not the covariance matrix obtained after calculating the target user's audio information in this solution.
  • the Gaussian mixture model uses the EM algorithm for parameter correction, and during the correction, the optimal parameters are obtained through an adaptive algorithm.
  • the third embodiment of the present application provides a computer system, including:
  • One or more processors are One or more processors.
  • the memory is used to store program instructions. When the program instructions are read and executed by one or more processors, the following operations are performed:
  • the voice information after filtering is recognized and the corresponding feedback is given according to the recognition result.
  • FIG. 5 exemplarily shows the architecture of the computer system, which specifically may include a processor 52, a video display adapter 54, a disk drive 56, an input/output interface 58, a network interface 510, and a memory 512.
  • the processor 52, the video display adapter 54, the disk drive 56, the input/output interface 58, the network interface 510, and the memory 512 may be communicatively connected through the communication bus 514.
  • the processor 52 may be implemented by a general CPU (Central Processing Unit, central processing unit), microprocessor, application specific integrated circuit (Application Specific Integrated Circuit, ASIC), or one or more integrated circuits, etc., for Perform relevant procedures to realize the technical solutions provided in this application.
  • a general CPU Central Processing Unit, central processing unit
  • microprocessor microprocessor
  • application specific integrated circuit Application Specific Integrated Circuit, ASIC
  • integrated circuits etc.
  • the memory 512 may be implemented in the form of ROM (Read Only Memory), RAM (Random Access Memory, random access memory), static storage device, dynamic storage device, etc.
  • the memory 512 may store an operating system 516 used to control the operation of the computer system 50, and a basic input output system (BIOS) 518 used to control low-level operations of the computer system.
  • BIOS basic input output system
  • a web browser 520, a data storage management system 522, etc. can also be stored.
  • the technical solution provided by the present application is implemented through software or firmware, the related program code is stored in the memory 512, and is called and executed by the processor 52.
  • the input/output interface 58 is used to connect an input/output module to realize information input and output.
  • the input/output/module can be configured in the device as a component (not shown in the figure), or it can be connected to the device to provide corresponding functions.
  • the input device may include a keyboard, a mouse, a touch screen, a microphone, various sensors, etc., and an output device may include a display, a speaker, a vibrator, an indicator light, and the like.
  • the network interface 510 is used to connect a communication module (not shown in the figure) to realize the communication interaction between the device and other devices.
  • the communication module can realize communication through wired means (such as USB, network cable, etc.), or through wireless means (such as mobile network, WIFI, Bluetooth, etc.).
  • the communication bus 514 includes a path to transmit information between various components of the device (for example, the processor 52, the video display adapter 54, the disk drive 56, the input/output interface 58, the network interface 510, and the memory 512.
  • the computer system can also obtain information about specific receiving conditions from the virtual resource object receiving condition information database for condition judgment, and so on.
  • the above device only shows the processor 52, the video display adapter 54, the disk drive 56, the input/output interface 58, the network interface 510, the memory 512, the communication bus 514, etc., in the specific implementation process,
  • the device may also include other components necessary for normal operation.
  • those skilled in the art can understand that the above-mentioned device may also include only the components necessary to implement the solution of the present application, and not necessarily include all the components shown in the figure.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种噪声处理方法、装置、系统,方法包括:对采集到的音频信息进行检测(S21);当检测到语音信息时,根据预存储的目标用户的音频信息对语音信息进行滤波处理(S22);判断滤波处理后是否存在语音信息(S23);当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈(S24)。该方法将获取到的目标人的语音作为先验信息,因此当非目标人发出指令时,根据该先验信息对可以非目标人的指令进行抑制,当目标人在发出指令的同时存在其他人声干扰、环境噪声时,可以根据该先验信息对同方位、相近方位、远方位的人声干扰以及环境噪声进行抑制,从而得到不含其他人声、环境噪音的指令,提高了目标人声音的清晰度,提高了交互体验。

Description

一种噪声处理方法、装置、系统 技术领域
本发明属于声学领域,尤其涉及一种噪声处理方法、装置、系统。
背景技术
随着人工智能的发展,越来越多的生活环境将体现更多的智能化,如车载环境、家居环境、教室环境、会议室环境等。在这些环境中应用的多种智能化设备中,智能语音交互设备扮演着重要的角色。智能语音交互设备实现了人类与设备的语音交互,使得设备可以按照人类的意思代替人类做出一些操作和控制,尽可能的解放人类的双手,是未来不可缺少的智能设备。
由于实际的生活环境往往很复杂,除了目标人的声音,还会存在很多的噪声和干扰声。这些噪声和干扰声不是我们所期望的,它们的存在会严重干扰人与语音设备的交互,降低交互体验。为了避免这些噪声和干扰声的干扰,通常会采用麦克风阵列,做波束形成或者盲源分离,增强特定方向的声音抑制其他方向的声音或者分离特定目标人的声音。
然而,传统的波束形成或者盲源分离并不能在所有环境下都可以有效的抑制干扰或者有效的分离目标声音。当干扰的声音同样为人声,且和目标声音所在的方位很近或者在相同方位或者很远时,上述提到的方法效果就会急剧下降。
发明内容
为了解决现有技术的问题,本发明提出一种噪声处理方法、装置、系统。该方法不仅可以解决环境噪声干扰,还可以解决同方位、相近方位、远方位的人声干扰,提高人与设备的交互体验。
本发明实施例提供的具体技术方案如下:
第一方面,本发明提供一种噪声处理方法,所述方法包括:
对采集到的音频信息进行检测;
当检测到语音信息时,根据预存储的目标用户的音频信息对所述语音信息进行滤波处理;
判断滤波处理后是否存在语音信息;
当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
优选的,所述根据预先存储的目标用户的音频信息对所述语音信息进行滤波处具体包括:
构建一声学模型;其中,所述声学模型为高斯混合模型,其变量为所述语音信息、参数的初始值为对所述目标用户的音频信息进行计算后得到的协方差矩阵;
根据EM算法对所述声学模型的参数进行修正;
判断所述EM算法的迭代次数是否达到预设值;
当达到时,获取所述声学模型的输出结果;
根据所述输出结果对所述语音信息进行滤波处理。
优选的,当检测到语音信息时,所述方法还包括:
对所述语音信息进行回声消除。
优选的,所述方法还包括:
根据接收到的所述目标用户发送的请求向所述目标用户发送操作指令;
接收所述目标用户根据所述操作指令发送的音频信息;
将所述目标用户根据所述操作指令发送的音频信息进行存储。
优选的,所述对采集到的音频信息进行检测的算法包括基音检测算法、双门限法、后验信噪比频域迭代算法中的任意一种。
第二方面,本发明提供一种噪声处理装置,所述装置包括:
检测模块,用于对采集到的音频信息进行检测;
分析模块,用于当检测到语音信息时,根据预存储的目标用户的音频信息对所述语音信息进行滤波处理;
判断模块,用于判断滤波处理后是否存在语音信息;
识别模块,用于当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
优选的,所述分析模块具体包括:
构建模块,用于构建一声学模型;其中,所述声学模型为高斯混合模型,其变量为所述语音信息、参数的初始值为对所述目标用户的音频信息进行计算后得到的协方差矩阵;
修正模块,用于根据EM算法对所述声学模型的参数进行修正;
处理模块,用于判断所述EM算法的迭代次数是否达到预设值;当达到时,获取所述声学模型的输出结果;根据所述输出结果对所述语音信息进行滤波处理。
优选的,所述分析模块还包括:
回声消除模块,用于当检测到语音信息时,对所述语音信息进行回声消除。
优选的,所述装置还包括存储模块,用于:
根据接收到的所述目标用户发送的请求向所述目标用户发送操作指令;
接收所述目标用户根据所述操作指令发送的音频信息;
将所述目标用户根据所述操作指令发送的音频信息进行存储。
第三方面,本发明提供一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
对采集到的音频信息进行检测;
当检测到语音信息时,根据预存储的目标用户的音频信息对所述语音信息 进行滤波处理;
判断滤波处理后是否存在语音信息;
当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
本发明实施例具有如下有益效果:
本发明首先获取目标人的语音作为先验信息,因此当非目标人发出指令时,根据该先验信息对可以非目标人的指令进行抑制,当目标人在发出指令的同时存在其他人声干扰、环境噪声时,可以根据该先验信息对同方位、相近方位、远方位的人声干扰以及环境噪声进行抑制,从而得到不含其他人声、环境噪音的指令,提高了目标人声音的清晰度,提高了交互体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种的噪声处理方法的应用环境图;
图2是本申请实施例一提供的一种噪声处理方法的流程图;
图3是本申请实施例二提供的一种噪声处理装置的结构示意图;
图4是本申请实施例二提供的一种噪声处理装置和实验用户的位置示意图;
图5是本申请实施例三提供的一种计算机系统架构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的 实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请提供一种噪声处理方法,可以应用于如图1所示的应用环境中。其中,服务端12通过网络与数据库11和终端13进行通信。终端13可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端12可以用独立的服务端或者是多个服务端组成的服务端集群来实现。
实施例一
如图2所示,本申请提供了一种噪声处理方法,具体包括如下步骤:
S21、对采集到的音频信息进行检测。
其中,检测算法可以包括基音检测算法、双门限法、后验信噪比频域迭代算法中的任意一种。
此外,还可以为其他的可以实现语音断点检测的任意一种算法,本方案对算法的选择不加以限定。
S22、当检测到语音信息时,根据预存储的目标用户的音频信息对语音信息进行滤波处理。
其中,当检测到语音信息时,还包括如下步骤:
对语音信息进行回声消除。
本方案中的回声指声学回声,在进行回声消除时,可以通过回声抑制算法或者声学回声消除算法等本领域常用的声学回声消除方法来实现,本发明对此不加以限定。
其中,检测到的语音信息中包括环境噪声和/或人声干扰噪声。
根据预存储的目标用户的音频信息对语音信息进行滤波处理具体包括以下步骤:
1、构建一声学模型;
其中,声学模型为高斯混合模型,其变量为语音信息、参数的初始值为对目 标用户的音频信息进行计算后得到的协方差矩阵;
高斯混合模型(GMM)可以用下式表示:
Figure PCTCN2020105992-appb-000001
其中,x为语音信息,N(x|μ k,∑k)为模型中第k个的分量;π k是混合系数,即每个分量的权重;π k、μ k、∑k为高斯混合模型的参数,其初始值为对目标用户的音频信息进行计算后得到的协方差矩阵;
2、根据EM算法对声学模型的参数进行修正;
其中,EM算法为最大期望算法。
上述步骤2具体包括以下两个子步骤:
a、根据当前的参数的初始值计算后验概率;
b、根据后验概率对参数进行修正。
3、判断EM算法的迭代次数是否达到预设值;
本方案中,按照经验值来设置迭代次数,当EM算法执行次数(上述步骤a、b执行次数)达到预设值时,则表明此时迭代结束。
4、当达到时,获取声学模型的输出结果;
输出结果即为根据最后一次迭代时的参数计算得到的后验概率。
5、根据输出结果对语音信息进行滤波处理。
如此,便能有效地将环境噪声、同方位人声、相近方位人声、远方位人声干扰进行抑制。
S23、判断滤波处理后是否存在语音信息。
当不存在时,表明检测到的语音信息为非目标用户发出的语音;当存在时,表明检测到的语音信息包括目标用户发出的语音。
S24、当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
具体的,将滤波处理后的语音信息转换成文字内容,利用分词技术等手段来 识别从而判断用户的意图,并进行相应的反馈,同时还输出评估指标,用于评价语音识别过程的准确性。
其中,评估指标可以为句错率(SER)、句正确率(S.Corr)字错率(WER/CER)等。
此外,预存储的目标用户的音频信息的获取包括如下步骤:
1、根据接收到的目标用户发送的请求向目标用户发送操作指令;
本方法可以应用于一智能语音交互设备中,因此,目标用户发送的请求可以为对该设备的复位请求。根据目标用户发送的请求,向目标用户发送操作指令,如:
语音提示:“请调整好坐姿”、“请说出小Biu小Biu”、“请让头部向左倾斜10cm左右,然后说出小Biu小Biu”、“请让头部向右倾斜10cm左右,然后说出小Biu小Biu”、“请让身体向前倾斜10cm左右,然后说出小Biu小Biu”等。
2、接收目标用户根据操作指令发送的音频信息;
目标用户根据操作指令,发送对应的音频信息,如,当接收到“请调整好坐姿”操作指令时,回复:“已调整坐姿”;当接收到“请说出小Biu小Biu”操作指令时,回复“小Biu小Biu”;当接收到“请让头部向左倾斜10cm左右,然后说出小Biu小Biu”操作指令时,继续按照该指令进行相应动作并进行回复。
需要说明的时,当操作指令具有多个时,按照设定的时间间隔发送操作指令。
如:每隔2s发送一条操作指令。
3、将目标用户根据操作指令发送的音频信息进行存储。
如:将目标用户回复的“已调整坐姿”、“小Biu小Biu”等语音进行存储。
本发明首先获取目标人的语音作为先验信息,因此当非目标人发出指令时,根据该先验信息对可以非目标人的指令进行抑制,当目标人在发出指令的同时存在其他人声干扰、环境噪声时,可以根据该先验信息对同方位、相近方位、远方位的人声干扰以及环境噪声进行抑制,从而得到不含其他人声、环境噪音的指令,提高了目标人声音的清晰度,提高了交互体验。
实施例二
如图3所示,本申请提供了一种噪声处理装置,具体包括:
检测模块31,用于对采集到的音频信息进行检测;
分析模块32,用于当检测到语音信息时,根据预存储的目标用户的音频信息对语音信息进行滤波处理;
判断模块33,用于判断滤波处理后是否存在语音信息;
识别模块34,用于当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
优选的,上述分析模块32具体包括:
构建模块321,用于构建一声学模型;其中,声学模型为高斯混合模型,其变量为语音信息、参数的初始值为对目标用户的音频信息进行计算后得到的协方差矩阵;
修正模块322,用于根据EM算法对声学模型的参数进行修正;
处理模块323,用于判断EM算法的迭代次数是否达到预设值;当达到时,获取声学模型的输出结果;根据输出结果对语音信息进行滤波处理。
优选的,上述分析模块32还包括:
回声消除模块324,用于当检测到语音信息时,对语音信息进行回声消除。
上述装置还包括存储模块35,用于:
根据接收到的目标用户发送的请求向目标用户发送操作指令;
接收目标用户根据操作指令发送的音频信息;
将目标用户根据操作指令发送的音频信息进行存储。
优选的,上述对采集到的音频信息进行检测的算法包括基音检测算法、双门限法、后验信噪比频域迭代算法中的任意一种。
当上述噪声处理装置为一智能交互设备时,智能交互设备包括语音交互系统和语音识别系统,其中,语音交互系统包括上述的检测模块31、分析模块32、判断模块33、存储模块35,语音识别系统包括上述的识别模块34。
利用上述智能交互设备进行交互实验,用户按照预设的位置进行排列。
参考图4,图4中包括5个用户,分别为1号用户、2号用户、3号用户、4号用户和5号用户。
实验过程为:
1、1号用户和2号用户同时说话,1号为目标用户;
2、1号用户和3号用户同时说话,1号为目标用户;
3、1号用户和4号用户同时说话,1号为目标用户;
4、1号用户和5号用户同时说话,1号为目标用户;
5、1号、2号、3号用户同时说话,1号为目标用户;
6、1号、3号、4号用户同时说话,1号为目标用户;
7、1号、4号、5号用户同时说话,1号为目标用户;
8、所有用户同时说话,1号为目标用户。
其中,语音识别系统中的识别模块34,用于对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈;此外,还用于输出评估指标,用于评价语音识别过程的准确性。
本方案中,评估指标为WER(字错率)。
上述实验得到的实验结果如下表1所示:
表1
Figure PCTCN2020105992-appb-000002
Figure PCTCN2020105992-appb-000003
其中,现有的降噪方法同样为高斯混合模型,其变量为语音信息,参数的初始值为一预设值,并非如本方案中对目标用户的音频信息进行计算后得到的协方差矩阵,此外,该高斯混合模型使用EM算法进行参数修正,在修正时,通过自适应算法获取最优参数。
根据上述实验结果可以得到,由于本申请使用了目标用户的音频信息作为先验信息,因此可以提高后续语音识别的效果,从而提高交互体验。
实施例三
如图5所示,本申请实施例三提供一种计算机系统,包括:
一个或多个处理器;以及
与一个或多个处理器关联的存储器,存储器用于存储程序指令,程序指令在被一个或多个处理器读取执行时,执行如下操作:
对采集到的音频信息进行检测;
当检测到语音信息时,根据预存储的目标用户的音频信息对语音信息进行滤波处理;
判断滤波处理后是否存在语音信息;
当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
其中,图5示例性的展示出了计算机系统的架构,具体可以包括处理器52,视频显示适配器54,磁盘驱动器56,输入/输出接口58,网络接口510,以及存 储器512。上述处理器52、视频显示适配器54、磁盘驱动器56、输入/输出接口58、网络接口510,与存储器512之间可以通过通信总线514进行通信连接。
其中,处理器52可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器512可以采用ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器512可以存储用于控制计算机系统50运行的操作系统516,用于控制计算机系统的低级别操作的基本输入输出系统(BIOS)518。另外,还可以存储网页浏览器520,数据存储管理系统522等等。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器512中,并由处理器52来调用执行。
输入/输出接口58用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口510用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
通信总线514包括一通路,在设备的各个组件(例如处理器52、视频显示适配器54、磁盘驱动器56、输入/输出接口58、网络接口510,与存储器512之间传输信息。
另外,该计算机系统还可以从虚拟资源对象领取条件信息数据库中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器52、视频显示适配器54、磁 盘驱动器56、输入/输出接口58、网络接口510,存储器512,通信总线514等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,云服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
尽管已描述了本发明实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。另外,上述实施例提供的噪声处理装置、计算机系统与噪声处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

  1. 一种噪声处理方法,其特征在于,所述方法包括:
    对采集到的音频信息进行检测;
    当检测到语音信息时,根据预存储的目标用户的音频信息对所述语音信息进行滤波处理;
    判断滤波处理后是否存在语音信息;
    当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
  2. 根据权利要求1所述的方法,其特征在于,所述根据预先存储的目标用户的音频信息对所述语音信息进行滤波处理具体包括:
    构建一声学模型;其中,所述声学模型为高斯混合模型,其变量为所述语音信息、参数的初始值为对所述目标用户的音频信息进行计算后得到的协方差矩阵;
    根据EM算法对所述声学模型的参数进行修正;
    判断所述EM算法的迭代次数是否达到预设值;
    当达到时,获取所述声学模型的输出结果;
    根据所述输出结果对所述语音信息进行滤波处理。
  3. 根据权利要求1所述的方法,其特征在于,当检测到语音信息时,所述方法还包括:
    对所述语音信息进行回声消除。
  4. 根据权利要求1~3任意一项所述的方法,其特征在于,所述方法还包括:
    根据接收到的所述目标用户发送的请求向所述目标用户发送操作指令;
    接收所述目标用户根据所述操作指令发送的音频信息;
    将所述目标用户根据所述操作指令发送的音频信息进行存储。
  5. 根据权利要求1~3任意一项所述的方法,其特征在于,所述对采集到的 音频信息进行检测的算法包括基音检测算法、双门限法、后验信噪比频域迭代算法中的任意一种。
  6. 一种噪声处理装置,其特征在于,所述装置包括:
    检测模块,用于对采集到的音频信息进行检测;
    分析模块,用于当检测到语音信息时,根据预存储的目标用户的音频信息对所述语音信息进行滤波处理;
    判断模块,用于判断滤波处理后是否存在语音信息;
    识别模块,用于当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
  7. 根据权利要求6所述的装置,其特征在于,所述分析模块具体包括:
    构建模块,用于构建一声学模型;其中,所述声学模型为高斯混合模型,其变量为所述语音信息、参数的初始值为对所述目标用户的音频信息进行计算后得到的协方差矩阵;
    修正模块,用于根据EM算法对所述声学模型的参数进行修正;
    处理模块,用于判断所述EM算法的迭代次数是否达到预设值;当达到时,获取所述声学模型的输出结果;根据所述输出结果对所述语音信息进行滤波处理。
  8. 根据权利要求6所述的装置,其特征在于,所述分析模块还包括:
    回声消除模块,用于当检测到语音信息时,对所述语音信息进行回声消除。
  9. 根据权利要求6~9任意一项所述的装置,其特征在于,所述装置还包括存储模块,用于:
    根据接收到的所述目标用户发送的请求向所述目标用户发送操作指令;
    接收所述目标用户根据所述操作指令发送的音频信息;
    将所述目标用户根据所述操作指令发送的音频信息进行存储。
  10. 一种计算机系统,其特征在于,包括:
    一个或多个处理器;以及
    与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
    对采集到的音频信息进行检测;
    当检测到语音信息时,根据预存储的目标用户的音频信息对所述语音信息进行滤波处理;
    判断滤波处理后是否存在语音信息;
    当存在时,对滤波处理后的语音信息进行识别并根据识别结果进行相应的反馈。
PCT/CN2020/105992 2019-11-13 2020-07-30 一种噪声处理方法、装置、系统 WO2021093380A1 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CA3160740A CA3160740A1 (en) 2019-11-13 2020-07-30 Noise processing method, device, and system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911106466.9A CN110942779A (zh) 2019-11-13 2019-11-13 一种噪声处理方法、装置、系统
CN201911106466.9 2019-11-13

Publications (1)

Publication Number Publication Date
WO2021093380A1 true WO2021093380A1 (zh) 2021-05-20

Family

ID=69907610

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/105992 WO2021093380A1 (zh) 2019-11-13 2020-07-30 一种噪声处理方法、装置、系统

Country Status (3)

Country Link
CN (1) CN110942779A (zh)
CA (1) CA3160740A1 (zh)
WO (1) WO2021093380A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229987A (zh) * 2022-12-13 2023-06-06 广州市保伦电子有限公司 一种校园语音识别的方法、装置及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统
CN111508473B (zh) * 2020-06-12 2023-03-14 佛山科学技术学院 一种语音识别率分析装置、方法及存储介质
CN112202653A (zh) * 2020-09-21 2021-01-08 海尔优家智能科技(北京)有限公司 一种语音信息输出方法、存储介质及电子设备
CN112700771A (zh) * 2020-12-02 2021-04-23 珠海格力电器股份有限公司 空调、立体声控识别方法、计算机设备、存储介质及终端
CN112927691B (zh) * 2021-02-23 2023-01-20 中国人民解放军陆军装甲兵学院 一种语音识别控制装置和方法
CN114598922A (zh) * 2022-03-07 2022-06-07 深圳创维-Rgb电子有限公司 语音消息交互方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592607A (zh) * 2012-03-30 2012-07-18 北京交通大学 一种使用盲语音分离的语音转换系统和方法
CN102859592A (zh) * 2010-06-04 2013-01-02 苹果公司 用于语音质量改进的用户特定的噪声抑制
CN104637494A (zh) * 2015-02-02 2015-05-20 哈尔滨工程大学 基于盲源分离的双话筒移动设备语音信号增强方法
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
CN107180644A (zh) * 2016-03-11 2017-09-19 Gn瑞声达A/S 使用基于码本的方法的基于卡尔曼滤波的语音增强
CN108198569A (zh) * 2017-12-28 2018-06-22 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101552004B (zh) * 2009-05-13 2011-04-06 哈尔滨工业大学 一种集内说话者的识别方法
KR101614756B1 (ko) * 2014-08-22 2016-04-27 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법
CN104966517B (zh) * 2015-06-02 2019-02-01 华为技术有限公司 一种音频信号增强方法和装置
CN105280183B (zh) * 2015-09-10 2017-06-20 百度在线网络技术(北京)有限公司 语音交互方法和系统
CN109473102A (zh) * 2017-09-07 2019-03-15 上海新同惠自动化系统有限公司 一种机器人秘书智能会议记录方法及系统
CN108922515A (zh) * 2018-05-31 2018-11-30 平安科技(深圳)有限公司 语音模型训练方法、语音识别方法、装置、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102859592A (zh) * 2010-06-04 2013-01-02 苹果公司 用于语音质量改进的用户特定的噪声抑制
US20140142935A1 (en) * 2010-06-04 2014-05-22 Apple Inc. User-Specific Noise Suppression for Voice Quality Improvements
CN102592607A (zh) * 2012-03-30 2012-07-18 北京交通大学 一种使用盲语音分离的语音转换系统和方法
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
CN104637494A (zh) * 2015-02-02 2015-05-20 哈尔滨工程大学 基于盲源分离的双话筒移动设备语音信号增强方法
CN107180644A (zh) * 2016-03-11 2017-09-19 Gn瑞声达A/S 使用基于码本的方法的基于卡尔曼滤波的语音增强
CN108198569A (zh) * 2017-12-28 2018-06-22 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
CN110942779A (zh) * 2019-11-13 2020-03-31 苏宁云计算有限公司 一种噪声处理方法、装置、系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229987A (zh) * 2022-12-13 2023-06-06 广州市保伦电子有限公司 一种校园语音识别的方法、装置及存储介质
CN116229987B (zh) * 2022-12-13 2023-11-21 广东保伦电子股份有限公司 一种校园语音识别的方法、装置及存储介质

Also Published As

Publication number Publication date
CA3160740A1 (en) 2021-05-20
CN110942779A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
WO2021093380A1 (zh) 一种噪声处理方法、装置、系统
US11830499B2 (en) Providing answers to voice queries using user feedback
US11996091B2 (en) Mixed speech recognition method and apparatus, and computer-readable storage medium
US11887582B2 (en) Training and testing utterance-based frameworks
US10705789B2 (en) Dynamic volume adjustment for virtual assistants
JP6099556B2 (ja) 音声識別方法および装置
EP3819903A1 (en) Audio data processing method and apparatus, device and storage medium
US20200058293A1 (en) Object recognition method, computer device, and computer-readable storage medium
CN112863510B (zh) 对客户端装置平台执行操作的方法和客户端装置平台
CN107507621B (zh) 一种噪声抑制方法及移动终端
US20160019886A1 (en) Method and apparatus for recognizing whisper
US12010108B2 (en) Techniques to provide sensitive information over a voice connection
CN110335593B (zh) 语音端点检测方法、装置、设备及存储介质
WO2014114048A1 (zh) 一种语音识别的方法、装置
US20220301573A1 (en) Targeted voice separation by speaker for speech recognition
CN109616098A (zh) 基于频域能量的语音端点检测方法和装置
JP2023531398A (ja) ホットワードしきい値自動チューニング
CN111326159B (zh) 一种语音识别方法、装置、系统
WO2023142409A1 (zh) 调整播放音量的方法、装置、设备以及存储介质
US20230297321A1 (en) Handling of noise and interruption during online meetings
KR20200078018A (ko) 전자 장치 및 이의 제어 방법
Panek et al. Challenges in adopting speech control for assistive robots
WO2021184211A1 (zh) 风险评估方法、装置、电子设备及存储介质
CN112382296A (zh) 一种声纹遥控无线音频设备的方法和装置
KR102310725B1 (ko) 대화 예측 모델의 입력 결정 방법 및 장치, 텍스트 임베딩 방법 및 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20887809

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 3160740

Country of ref document: CA

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20887809

Country of ref document: EP

Kind code of ref document: A1