WO2013177981A1 - 一种基于环境声音的场景识别方法、装置及移动终端 - Google Patents

一种基于环境声音的场景识别方法、装置及移动终端 Download PDF

Info

Publication number
WO2013177981A1
WO2013177981A1 PCT/CN2013/074355 CN2013074355W WO2013177981A1 WO 2013177981 A1 WO2013177981 A1 WO 2013177981A1 CN 2013074355 W CN2013074355 W CN 2013074355W WO 2013177981 A1 WO2013177981 A1 WO 2013177981A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
module
scene
signal
feature information
Prior art date
Application number
PCT/CN2013/074355
Other languages
English (en)
French (fr)
Inventor
薛涛
杜军朝
刘惠
刘悦韡
陈文靖
Original Assignee
中兴通讯股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 中兴通讯股份有限公司 filed Critical 中兴通讯股份有限公司
Priority to US14/395,538 priority Critical patent/US9542938B2/en
Priority to EP13797320.2A priority patent/EP2827326A4/en
Publication of WO2013177981A1 publication Critical patent/WO2013177981A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Definitions

  • the present invention relates to the field of intelligent terminal technologies, and in particular, to a scene recognition method, device and mobile terminal based on ambient sound.
  • Voice recognition technology is widely used in communication systems. For example, the application of voice recognition detection technology in mobile communication systems can improve the system's traffic processing capabilities. In addition, voice recognition technology is increasingly applied to the field of speech recognition, and the technology is quite mature, such as IBM voice recognition input system ViaVoice, Microsoft speech recognition system SpeechSDK and so on.
  • the technical problem to be solved by the present invention is to provide a scene recognition method, device and mobile terminal based on ambient sound, which solves the problem that the mobile terminal cannot recognize the current scene.
  • the present invention provides a scene recognition device based on ambient sound, comprising: a sound collection module, a preprocessing module, a feature extraction module, a scene recognition module, and a database;
  • the sound collection module is configured to collect a sound signal and transmit the sound signal to the preprocessing module;
  • the preprocessing module is configured to process the sound signal into a frequency domain signal and transmit the signal to the feature extraction module ;
  • the feature extraction module is configured to extract sound feature information from the frequency domain signal; the database is configured to store weight values of sound sample models of different scenes; and the scene recognition module is configured to be in advance
  • the sound feature information is input under the model, and the model output result is matched with the weight value of the sound sample model of the different scene, and the scene corresponding to the sound feature information is determined.
  • the scene refers to a spatial scene in different sound environments.
  • the sound collection module, the preprocessing module, the feature extraction module, the scene recognition module, and the database are all located in a mobile terminal.
  • the sound collection module, the pre-processing module, the feature extraction module, and the scene recognition module are all located in a mobile terminal, and the database is located at a server device.
  • the sound collection module, the preprocessing module, and the feature extraction module are all located in a mobile terminal, and the scene recognition module and the database are located at a server device;
  • the mobile terminal further includes a scene recognition control module configured to receive sound feature information and And sent to the server device, and is further configured to receive the recognition result output by the scene recognition module.
  • a scene recognition control module configured to receive sound feature information and And sent to the server device, and is further configured to receive the recognition result output by the scene recognition module.
  • the present invention further provides a mobile terminal, including: a sound collection module, a preprocessing module, a feature extraction module, a scene recognition module, and a database;
  • the sound collection module is configured to collect a sound signal and transmit the sound signal to the preprocessing module;
  • the preprocessing module is configured to process the sound signal into a frequency domain signal and transmit the signal to the feature extraction module ;
  • the feature extraction module is configured to extract sound feature information from the frequency domain signal; the database is configured to store weight values of sound sample models of different scenes; and the scene recognition module is configured to receive The sound feature information is input, and the sound feature information is input under a preset model, and the model output result is matched with the weight value of the sound sample model of the different scene, and the scene corresponding to the sound feature information is determined.
  • the present invention further provides a mobile terminal, including: a sound collection module, a preprocessing module, a feature extraction module, and a scene recognition module;
  • the sound collection module is configured to collect a sound signal and transmit the sound signal to the preprocessing module;
  • the preprocessing module is configured to process the sound signal into a frequency domain signal and transmit the signal to the feature extraction module ;
  • the feature extraction module is configured to extract sound feature information from the frequency domain signal;
  • the scene recognition module is configured to receive the sound feature information, and is further configured to receive a sound sample model of the scene from the server device
  • the weight value is input to the sound feature information under a preset model, the model output result is matched with the weight value of the scene sound sample model, and the scene corresponding to the sound feature information is determined.
  • the present invention further provides a mobile terminal, including: a sound collection module, a preprocessing module, a feature extraction module, and an identification control module;
  • the sound collection module is configured to collect a sound signal and transmit the sound signal to the preprocessing module;
  • the preprocessing module is configured to process the sound signal into a frequency domain signal and transmit the signal to the feature extraction module ;
  • the feature extraction module is configured to extract sound feature information from the frequency domain signal;
  • the identification control module is configured to receive the sound feature information, and send the sound feature information to a server device, and Receive the scene recognition result returned by the server device.
  • the present invention also provides an environment sound based scene recognition method, including:
  • the sound feature information is input under a preset model, the model output result is matched with the weight value of the scene sound sample model, and the scene corresponding to the sound feature information is determined.
  • the scene refers to a spatial scene in different sound environments.
  • the invention relies on the background sound information as the feature of the scene to achieve positioning, so that the mobile terminal can quickly and accurately identify the current scene while maintaining low energy consumption.
  • the scene location of the present invention can be complementary to antenna position location, and together improve accuracy and improve mobile terminal performance.
  • FIG. 1 is a schematic flow chart of a voice recognition process in the prior art
  • FIG. 2 is a schematic structural diagram of a scene recognition device based on ambient sound in an embodiment
  • FIG. 3 is a schematic structural diagram of a scene recognition apparatus in Embodiment 1;
  • FIG. 4 is a schematic structural diagram of a scene recognition apparatus in Embodiment 2;
  • FIG. 5 is a schematic structural diagram of a scene recognition apparatus in Embodiment 3.
  • FIG. 6 is a schematic diagram of a feature vector extraction process in a specific embodiment
  • FIG. 7 is a schematic structural diagram of a scene classification recognition model in a specific embodiment.
  • FIG. 1 is a schematic flow chart of a voice recognition process in the prior art, which performs sound segmentation and feature extraction, and then recognizes sound through a classifier.
  • the scene recognition method based on ambient sound includes: collecting a sound signal; processing the sound signal into a frequency domain signal; extracting sound feature information from the frequency domain signal; inputting the sound feature information under a preset model, The model output result is matched with the weight value of the scene sound sample model, and the scene corresponding to the sound feature information is determined.
  • the scene refers to a spatial scene in different sound environments, for example, the scene refers to one of the following: a canteen, a classroom, a laboratory, a dormitory, a corridor, a badminton court, a table tennis court, an elevator, a conference room, a playground, and a street.
  • the scene recognition device based on the ambient sound in the solution includes: a sound collection module (201), a preprocessing module (202), a feature extraction module (203), a scene recognition module (204), and a database (205). ).
  • a sound collection module (201) configured to collect sound signals and transmit to the preprocessing module (202);
  • a preprocessing module (202) configured to process the sound signal into a frequency domain signal and transmit the signal to the feature extraction module (203);
  • a feature extraction module (203) configured to extract sound feature information from the frequency domain signal
  • a database (205) configured to store weight values of sound sample models of different scenes
  • a scene recognition module (204), setting thereof The sound feature information is input under a preset model, and the model output result is matched with the weight value of the sound sample model of the different scene, and the scene corresponding to the sound feature information is determined.
  • the pre-processing module (202) samples the collected sound signal, sets the sampling frequency to 8000 Hz, and sets the sample length to 15 s, and then performs segmentation operation on the segment sound samples, each frame containing 256 samples. Point, that is, each frame length is 32ms. In this way, the original audio becomes 468 frames of length 32ms.
  • the purpose of the framing operation is that any sound sample will randomly appear some large or small burst sounds. The sudden sound is not regular, and it is not a sound that can represent the scene features, which will cause a large glitch in the sound waveform. Therefore, the accuracy of the sound recognition is affected, and the shorter the audio waveform is, the more stable the performance is. However, too short a frame length will result in an increase in the computational cost.
  • the sound feature extracted in the feature extraction module (203) may be a Mel Cepstral Coefficient (MFCC), such as a 13-dimensional MFCC coefficient.
  • MFCC Mel Cepstral Coefficient
  • 468 sets of 13-dimensional feature vectors can be extracted from each 15 s sound sample. After calculating the eigenvectors for each frame, the 468 sets of eigenvectors must be arithmetically averaged.
  • the above-mentioned each sound sample is divided into frames of length 32ms in order to eliminate burrs in the sound sample, but only for each piece of audio framing can not play the role of eliminating burrs.
  • the scheme After extracting the feature vector for each frame of audio, the scheme must arithmetically average the 468 sets of feature vectors to obtain a unique-group 13-dimensional feature vector. Such a set of eigenvectors reduces the effects of glitch in the sample and correctly represents the characteristics of the scene.
  • the preset model in this scheme may be a classification model such as a neural network.
  • This scheme uses an algorithm in the domain classification domain.
  • the algorithm is divided into two parts, the training part and the identification part.
  • the algorithm uses a training set of a certain size to generate a number of what we call an intermediate matrix data set.
  • these matrices are used to operate on the feature vectors extracted from the sound samples to obtain the final result, that is, the recognition result.
  • the training part of the algorithm does not need to be written into the mobile phone system, and no calculation is required every time the recognition is performed, so that the calculation time can be greatly reduced.
  • the training set used by the recognition algorithm is collected in each scene to be identified, and each scene needs to collect 160 to 200 sound samples, and extract feature vectors for each sound sample, and unify the feature vectors of these sound samples as parameters. Passed to the training part of the algorithm, and finally the intermediate matrix.
  • These intermediate matrices are stored in the database and are called for identification by the algorithm. Since the accuracy of scene recognition needs to be continuously improved, and the scenes to be identified need to be continuously updated, the intermediate matrix required by the classification recognition algorithm in this scheme needs to be continuously updated. As the scene is updated, the technology will have more timeliness and usability.
  • the voice collection module (201), the preprocessing module (202), the feature extraction module (203), the scene recognition module (204), and the database (205) in the first embodiment are all located in the mobile terminal.
  • the voice collection module (201), the preprocessing module (202), the feature extraction module (203), and the scene recognition module (204) in the second embodiment are all located in the mobile terminal, and the database (205) is located in the service. End device.
  • the voice collection module (201), the preprocessing module (202), and the feature extraction module (203) in the third embodiment are all located in the mobile terminal, and the scene recognition module (204) and the database (205) are located at the server end. device.
  • the mobile terminal further includes a scene recognition control module (206) configured to receive the sound feature information and send it to the server device, and is further configured to receive the recognition result output by the scene recognition module (204).
  • the invention is based on the development of the Android system, and a smart phone is selected as the testing machine.
  • the identification process comprises the following steps:
  • Step 1 the sound collection process
  • the sound collection is performed by the microphone in the smart phone, the sampling rate is 8000 Hz, the sampling code is 16 bits, and the length of each sound sample is 15 s.
  • Step 2 the scene recognition process
  • the audio is framed and the signal is converted from a time domain signal to a frequency domain signal.
  • the real risk found that when the frame length is 256 and the instant length is 32ms, the highest recognition accuracy rate can be obtained.
  • the frame length is 256 and the instant length is 32ms, the highest recognition accuracy rate can be obtained.
  • one frame per minute can be passed as a parameter to the feature extraction function for calculation. Thus, it is only necessary to store the feature vectors extracted from each frame without the need for a waste control for storing the audio of each frame.
  • the steps of extracting features include:
  • Step 2.1 Perform a fast Fourier transform to transform the time domain signal into a frequency domain signal.
  • Step 2.2 Calculate the square of the spectrum of the signal, and obtain the power spectrum.
  • Step 2.3 as shown in Figure 6, using a set of Meyer frequency markers on a linearly distributed triangular window filter (a total of 24 triangular window filters) to filter the power spectrum of the signal, the range covered by each triangular window filter Both approximate a critical bandwidth of the human ear to simulate the masking effect of the human ear.
  • Mel Frequency standard 25961.
  • step 2.4 the logarithm of the power frequency of each pass filter can be approximated to the homomorphic transform.
  • w is the power spectrum of the audio signal and is the filter bank.
  • Step 2.6 Store the 13-dimensional feature vector in the memory, and when the feature vector of each frame of the sound sample is calculated, perform arithmetic average to obtain the feature vector of the audio sample.
  • Step 3 the scene recognition process
  • the set of 13-dimensional feature vectors is passed as a parameter to the classification recognition algorithm.
  • the recognition classification algorithm is divided into two parts, a training part and a recognition part.
  • Step 3.3 After step 3.2 is completed, a special network can be obtained, that is, the input layer unit and the mode layer unit are completely connected, and the mode layer unit to the category layer unit are connected by coefficients. Record the first part of the first sample; t component is recorded as the connection weight coefficient of this component to the first mode layer unit, where j is 1, 2, ⁇ . ⁇ , !,] ⁇ 2 1,2 , ⁇ ,d.
  • the matrix w that appears in this algorithm is the intermediate matrix, which will be used in the identification part of the algorithm.
  • the identification part of the algorithm is mainly calculated around two elements, the first is called net activation. Using it to construct a nonlinear function ⁇ 1) ⁇ 2 , where ⁇ is a custom parameter and is set to 10 in the algorithm. Secondly, the discriminant function & (X) calculated by 6 ( " - 1) £ 72 is used to identify the scene of the sound feature information input to the neural network by calculating mg, . (x) at the end of the algorithm.
  • the invention relies on the background sound information as the feature of the scene to achieve positioning, so that the mobile terminal can quickly and accurately identify the current scene while maintaining low energy consumption.
  • the scene location of the present invention can be complementary to antenna position location, and together improve accuracy and improve mobile terminal performance.
  • the invention is not limited to any specific form of combination of hardware and software.
  • Industrial Applicability The present invention relies on background sound information as a feature of a scene to achieve positioning, so that the mobile terminal can quickly and accurately identify the current scene while maintaining low energy consumption.
  • the scene location of the present invention can be complementary to antenna position location, and together improve accuracy and improve mobile terminal performance.

Abstract

本发明提供了一种基于环境声音的场景识别方法、装置及移动终端,所述装置包括:声音采集模块、预处理模块、特征提取模块、场景识别模块和数据库;声音采集模块设置成采集声音信号并传输到预处理模块;预处理模块设置成将声音信号处理为频域信号并传输至特征提取模块;特征提取模块设置成从频域信号中提取声音特征信息;数据库设置成存储不同场景的声音样本模型的权重值;识别控制模块设置成在预设模型下输入声音特征信息,将模型输出结果与场景声音样本模型的权重值进行匹配,并确定声音特征信息对应的场景。本发明依靠背景声音信息作为场景的特征来实现定位,使移动终端在保持低能耗的状态下快速准确地识别当前所在的场景。

Description

一种基于环境声音的场景识别方法、 装置及移动终端
技术领域
本发明涉及智能终端技术领域,尤其涉及基于环境声音的场景识别方法、 装置及移动终端。
背景技术
声音识别技术广泛应用于通讯系统, 例如, 在移动通信系统中应用声音 识别检测技术, 可以提高系统的流量处理能力。 此外, 声音识别技术被越来 越多的应用到语音识别的领域, 并且技术已经相当成熟, 如 IBM语音识别输 入系统 ViaVoice, 微软语音识别系统 SpeechSDK等等。
随着智能手机在日常生活中越来越常见, 语音识别也很好地被运用到智 能手机中, iphone就发布了一个语音识别的应用 Google Mobile App。 该语音 搜索的另外一个改进是可以选择口音, Google可以顺利识别不同地域性的发 音。
由于智能手机的流行, 定位技术也是智能手机应用的一大热点, 目前, 场景识别问题可以利用已经被广泛研究过的基于天线的定位技术 (例如 WIFI, GSM和 GPS )来解决。 对于室外定位而言, GPS已经提供了非常理想 的识别精度。 但是, 对于室内定位, 当前尚未出现一个理想且全面的定位解 决方案。 受制于建筑物内部的拓朴和强烈的电磁干扰等因素, 天线信号的强 度往往会不规则的变化, 从而使得感知设备无法进行合理的位置推测。 研究 发现, WIFI信号在一天的不同时间段内波动很大, 并且其强度的变化并不均 匀, 况且我们不能保证 WIFI信号在所有环境中都存在。 另一方面, 基站的信 号在不同时间上显得更加稳定。 但是由于其部署的不够密集, 其在定位上也 遇到了许多困难。 另外, 这类定位方法往往对基础设施的完善有极高的要求。 但是对于发展中区域而言, 这样的成本无疑太高了。 基于 GPS, GSM, WIFI 信号的定位, 在室内环境中不能工作, 或者存在较大的定位误差, 不能区分 地理位置上比较近的室内场所。 发明内容
本发明要解决的技术问题是提供一种基于环境声音的场景识别方法、 装 置及移动终端, 解决移动终端无法识别当前所在场景的问题。
为了解决上述技术问题, 本发明提供了一种基于环境声音的场景识别装 置, 包括: 声音釆集模块、 预处理模块、 特征提取模块、 场景识别模块, 以 及数据库;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块;
所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述数据库, 其设置成存储不同场景的声音样本模型的权重值; 所述场景识别模块, 其设置成在预设模型下输入所述声音特征信息, 将 模型输出结果与所述不同场景的声音样本模型的权重值进行匹配, 并确定所 述声音特征信息对应的场景。
上述装置还可以具有以下特点:
所述场景是指不同声音环境下的空间场景。
上述装置还可以具有以下特点:
所述声音釆集模块、 所述预处理模块、 所述特征提取模块、 所述场景识 别模块、 所述数据库均位于移动终端。
上述装置还可以具有以下特点:
所述声音釆集模块、 所述预处理模块、 所述特征提取模块、 所述场景识 别模块均位于移动终端中, 所述数据库位于服务端设备。
上述装置还可以具有以下特点:
所述声音釆集模块、 所述预处理模块、 所述特征提取模块均位于移动终 端中, 所述场景识别模块和所述数据库位于服务端设备;
所述移动终端还包括场景识别控制模块, 其设置成接收声音特征信息并 发送至所述服务端设备, 以及, 其还设置成接收所述场景识别模块输出的识 别结果。
为了解决上述技术问题, 本发明还提供了一种移动终端, 包括: 声音釆 集模块、 预处理模块、 特征提取模块、 场景识别模块, 以及数据库;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块;
所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述数据库, 其设置成存储不同场景的声音样本模型的权重值; 所述场景识别模块, 其设置成接收所述声音特征信息, 在预设模型下输 入所述声音特征信息, 将模型输出结果与所述不同场景的声音样本模型的权 重值进行匹配, 并确定所述声音特征信息对应的场景。
为了解决上述技术问题, 本发明还提供了一种移动终端, 包括: 声音釆 集模块、 预处理模块、 特征提取模块, 以及场景识别模块;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块;
所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述场景识别模块, 其设置成接收所述声音特征信息, 还设置成从服务 端设备接收场景的声音样本模型的权重值, 在预设模型下输入所述声音特征 信息, 将模型输出结果与所述场景声音样本模型的权重值进行匹配, 并确定 所述声音特征信息对应的场景。
为了解决上述技术问题, 本发明还提供了一种移动终端, 包括: 声音釆 集模块、 预处理模块、 特征提取模块, 以及识别控制模块;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块; 所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述识别控制模块, 其设置成接收所述声音特征信息, 将所述声音特征 信息发送至服务端设备, 并接收服务端设备返回的场景识别结果。
为了解决上述技术问题, 本发明还提供了一种基于环境声音的场景识别 方法, 包括:
釆集声音信号;
将所述声音信号处理为频域信号;
从所述频域信号中提取声音特征信息;
在预设模型下输入所述声音特征信息, 将模型输出结果与场景声音样本 模型的权重值进行匹配, 并确定所述声音特征信息对应的场景。
上述方法还可以具有以下特点:
所述场景是指不同声音环境下的空间场景。
本发明依靠背景声音信息作为场景的特征来实现定位, 使移动终端在保 持低能耗的状态下快速准确地识别当前所在的场景。 本发明的场景定位可以 与天线位置定位互补, 并且共同提高精度, 以及提高移动终端性能。 附图概述
图 1是现有技术中声音识别处理的流程示意图;
图 2是实施例中基于环境声音的场景识别装置的结构示意图;
图 3是实施例一中场景识别装置的结构示意图;
图 4是实施例二中场景识别装置的结构示意图;
图 5是实施例三中场景识别装置的结构示意图;
图 6是具体实施例中特征向量提取过程的示意图;
图 7是具体实施例中场景分类识别模型的结构示意图。
本发明的较佳实施方式 图 1是现有技术中声音识别处理的流程示意图, 对声音进行分割以及特 征提取后通过分类器对声音进行识别。
基于环境声音的场景识别方法包括: 釆集声音信号; 将所述声音信号处 理为频域信号; 从所述频域信号中提取声音特征信息; 在预设模型下输入所 述声音特征信息, 将模型输出结果与场景声音样本模型的权重值进行匹配, 并确定所述声音特征信息对应的场景。
所述场景是指不同声音环境下的空间场景 ,例如场景是指以下中的一种: 食堂、 教室、 实验室、 宿舍、 楼道、 羽毛球场、 乒乓球场、 电梯、 会议室、 操场和街道。
如图 2所示, 本方案中基于环境声音的场景识别装置包括: 声音釆集模 块( 201 )、预处理模块( 202 )、特征提取模块( 203 )、场景识别模块( 204 ) 、 数据库( 205 ) 。
声音釆集模块(201 ) , 其设置成釆集声音信号并传输到所述预处理模块 ( 202 ) ;
预处理模块( 202 ) , 其设置成将所述声音信号处理为频域信号并传输至 所述特征提取模块( 203 ) ;
特征提取模块(203 ) , 其设置成从所述频域信号中提取声音特征信息; 数据库(205 ) , 其设置成存储不同场景的声音样本模型的权重值; 场景识别模块(204 ) , 其设置成在预设模型下输入所述声音特征信息将 模型输出结果与所述不同场景的声音样本模型的权重值进行匹配, 并确定所 述声音特征信息对应的场景。
预处理模块 ( 202 ) 对釆集到的声音信号进行釆样, 设定釆样频率为 8000Hz, 釆集样本长度为 15s, 再对段声音样本进行分帧操作, 每个帧包含 256个釆样点, 即每段帧长为 32ms。 这样, 原始音频就会变成 468个长度为 32ms的帧。分帧操作的目的在于任何一段声音样本都会随机出现一些或大或 小的突发声音, 突发声音没有规律可言, 并不是能够代表场景特征的声音, 会导致声音波形出现较大的毛刺, 从而影响声音识别的准确率, 时长越短的 音频波形表现的越发平稳。 但是, 帧长过短也会导致运算成本的增加, 即计 算能耗和耗时的增加。本方案釆用了 32ms作为每一帧的长度, 达到了精确度 和计算成本的平衡。 特征提取模块 ( 203 )中提取的声音特征可以是梅尔倒谱系数 ( MFCC ) , 例如 13维的 MFCC系数。 例如, 从每段 15s声音样本都可以提取出 468组 13维的特征向量。 在计算出每一帧的特征向量后, 必须要对这 468组特征向 量进行算术平均。上述将每段声音样本分成长度为 32ms的帧是为了消除声音 样本中的毛刺, 但是只对每段音频分帧还是不能起到消除毛刺的作用。 所以, 本方案在对每帧音频提取特征向量后, 必须把这 468组特征向量进行算术平 均, 从而得到唯——组 13维特征向量。 这样的一组特征向量降低了样本中的 毛刺带来的影响, 正确的表示了该段场景的特征。
本方案中的预设模型可以是神经网络等分类模型。
本方案使用了一个模式分类领域的算法。 该算法分为两个部分, 训练部 分和识别部分。 在训练部分, 该算法使用一定规模的训练集, 生成若干个我 们称之为中间矩阵数据集合。 在识别部分, 使用这些矩阵与从声音样本中提 取的特征向量进行运算, 从而获得最终结果, 即识别结果。 在开发的过程中, 所述算法的训练部分不需要写入手机系统, 不需要每次识别都进行运算, 这 样可以很大程度地减少运算时间。 所述识别算法使用的训练集釆集于每个需 要识别的场景, 每个场景需要收集 160到 200段声音样本, 并对每段声音样 本提取特征向量, 把这些声音样本的特征向量统一作为参数传给算法的训练 部分, 最终得到中间矩阵。 这些中间矩阵存储于数据库中, 供所述算法的识 别部分调用。 由于场景识别的准确率需要不断提高, 同时需要识别的场景要 不断进行更新, 所以, 本方案中的分类识别算法所需要的中间矩阵就需要不 断的更新。 随着场景的更新, 该技术就会拥有更强大的时效性和可用性。
如图 3所示, 实施例一中声音釆集模块(201 ) 、 预处理模块(202 ) 、 特征提取模块(203 ) 、 场景识别模块(204 ) 、 数据库(205 )均位于移动终 端内。
如图 4所示, 实施例二中声音釆集模块(201 ) 、 预处理模块(202 ) 、 特征提取模块( 203 )、场景识别模块( 204 )均位于移动终端内,数据库( 205 ) 位于服务端设备。 如图 5所示, 实施例三中声音釆集模块(201 ) 、 预处理模块(202 ) 、 特征提取模块( 203 )均位于移动终端, 场景识别模块( 204 )、 数据库( 205 ) 位于服务端设备。 移动终端还包括场景识别控制模块(206 ) , 其设置成接收 声音特征信息,并发送至服务端设备,还设置成接收所述场景识别模块(204 ) 输出的识别结果。
下面通过具体实施例进行详细说明。
本发明是基于 Android 系统开发, 选用了一台智能手机作为试验机, 识 别过程包括以下步骤:
步骤 1 , 声音釆集过程
由智能手机中的麦克风进行声音釆集工作, 釆样率为 8000Hz, 釆样编码 为 16bit, 每段声音样本的时长都是 15s。
步骤 2, 场景识别过程
在预处理过程中, 对音频进行分帧处理并将信号从时域信号转换为频域 信号。 实险发现, 当帧长为 256, 即时长为 32ms时, 可以得到最高的识别正 确率。 同时, 在每段音频的开始, 都会出现若干个坏点, 所以删去每段音频 最开始的一些釆样点, 保证留下的音频釆样点都能显示出该段音频的特征。 为了节省更多的硬件空间, 可以每分出一个帧, 就把它作为参数传给特征提 取函数进行计算。 这样, 只需要存储从每个帧提取的特征向量, 而不需要浪 费控件用于存储每个帧的音频。
提取特征的步骤包括:
步骤 2.1 , 执行快速傅里叶变换, 将时域信号变换成频域信号。
Xa (k) = x{n)e ^ , 0 < k≤N
式中, x(«)为输入的音频信号, N为傅里叶变换的点数。
步骤 2.2, 对信号的频谱幅度求算术平方, 可以得到功率谱。
步骤 2.3 , 如图 6所示, 用一组梅尔频标上线性分布的三角窗滤波器(共 24个三角窗滤波器) , 对信号的功率谱滤波, 每一个三角窗滤波器覆盖的范 围都近似于人耳的一个临界带宽, 以此来模拟人耳的掩蔽效应。 其中, 梅尔 频标 = 25961。gl。(l + ^) , 三角滤波器的中心频率为 /Cv)j = l,2,...,24 , 且三角滤波 器的频率响应定义式如下式所示:
0 ,k<f(y-l)
HAk)-
Figure imgf000010_0001
0 ,k≥f(y+l)
步骤 2.4,对每个通过滤波器的功率频语取对数, 可以得到近似于同态变 换的 。
Figure imgf000010_0002
式中, 。w是音频信号的功率谱, 是滤波器组。
各得到最终的特征向量 c(«)。
Figure imgf000010_0003
式中, 《表示所求得特征向量的维数, 设定特征向量有 13维, 设置 n为
12即可。
步骤 2.6, 把所求 13维的特征向量存储在内存中, 待这段声音样本每帧 的特征向量都计算完成的时候, 做算术平均, 求得该段音频样本的特征向量。
步骤 3, 场景识别过程
特征向量提取完成后,这组 13维的特征向量就要作为参数传给分类识别 算法。 釆用概率神经网络结构(如图 7所示) , 其中, 有 d个输入层单元, n 个模式层单元和 c个类别层单元。 每一个模式层单元能够对它的权重向量和 归一化的样本相连 X做内积, 得到 z = w ' c , 然后映射为 exp[(z-l)/a ]。
识别分类算法分为两个部分, 即训练部分和识别部分。
训练部分:
步骤 3.1, 归一化参加训练的样本 X为单位长度, 也就是说 έ =ι, 第一 个经过归一化的样本被至于输入层单元上。 '― 1
步骤 3.2, 连接输入单元和第一个模式层单元的那些连接被初始化为 ^ = ^ 然后, 从模式层的第一个单元到类别层中代表 所属的类别的那个单 元之间建立了一个连接。 同样的过程对剩下的各个模式单元都重复进行, 即 wk =xk , 其中 = 1,2,3, ···,«。
步骤 3.3, 在步骤 3.2完成后, 可以得到一个特殊的网络, 即输入层单元 与模式层单元之间是完全连通的, 而模式层单元到类别层单元之间是系数连 接的。 记第 个样本的第; t个分量记为 , 把这个分量到第 个模式层单元的 连接权重系数记为 ^, 其中 j二 1,2, ·.·,!!,]<二 1,2,··、d。
在这个算法中出现的矩阵 w就是中间矩阵, 中间矩阵将会在算法的识别 部分中使用。
算法的识别部分主要是围绕着两个元素进行计算, 首先是被称为净激活 的
Figure imgf000011_0001
, 利用它构造关于 的非线性函数 ^ — 1)σ2 , 其中, σ为自定 参数, 在本算法中被设定为 10。 其次, 就是利用6(" -1)£72计算出来的判别函 数& (X) , 通过在算法最后计算 m g,.(x)来识别出输入此神经网络的声音特征 信息的场景。
本发明依靠背景声音信息作为场景的特征来实现定位, 使移动终端在保 持低能耗的状态下快速准确的识别当前所在的场景。 本发明的场景定位可以 与天线位置定位互补, 并且共同提高精度, 以及提高移动终端性能。
需要说明的是, 在不冲突的情况下, 本申请中的实施例及实施例中的特 征可以相互任意组合。 当然, 本发明还可有其他多种实施例, 在不背离本发明精神及其实质的 但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。 本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序 来指令相关硬件完成, 所述程序可以存储于计算机可读存储介质中, 如只读 存储器、 磁盘或光盘等。 可选地, 上述实施例的全部或部分步骤也可以使用 一个或多个集成电路来实现。 相应地, 上述实施例中的各模块 /单元可以釆用 硬件的形式实现, 也可以釆用软件功能模块的形式实现。 本发明不限制于任 何特定形式的硬件和软件的结合。 工业实用性 本发明依靠背景声音信息作为场景的特征来实现定位, 使移动终端在保 持低能耗的状态下快速准确地识别当前所在的场景。 本发明的场景定位可以 与天线位置定位互补, 并且共同提高精度, 以及提高移动终端性能。

Claims

权 利 要 求 书
1、 一种基于环境声音的场景识别装置, 包括: 声音釆集模块、 预处理 模块、 特征提取模块、 场景识别模块, 以及数据库;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块;
所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述数据库, 其设置成存储不同场景的声音样本模型的权重值; 所述场景识别模块, 其设置成在预设模型下输入所述声音特征信息, 将 模型输出结果与所述不同场景的声音样本模型的权重值进行匹配, 并确定所 述声音特征信息对应的场景。
2、 如权利要求 1所述的装置, 其中,
所述场景是指不同声音环境下的空间场景。
3、 如权利要求 1所述的装置, 其中,
所述声音釆集模块、 所述预处理模块、 所述特征提取模块、 所述场景识 别模块、 所述数据库均位于移动终端。
4、 如权利要求 1所述的装置, 其中,
所述声音釆集模块、 所述预处理模块、 所述特征提取模块、 所述场景识 别模块均位于移动终端中, 所述数据库位于服务端设备。
5、 如权利要求 1所述的装置, 其中,
所述声音釆集模块、 所述预处理模块、 所述特征提取模块均位于移动终 端中, 所述场景识别模块和所述数据库位于服务端设备;
所述移动终端还包括场景识别控制模块, 其设置成接收声音特征信息并 发送至所述服务端设备, 以及, 其还设置成接收所述场景识别模块输出的识 别结果。
6、 一种移动终端, 包括: 声音釆集模块、 预处理模块、 特征提取模块、 场景识别模块, 以及数据库;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块;
所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述数据库, 其设置成存储不同场景的声音样本模型的权重值; 所述场景识别模块, 其设置成接收所述声音特征信息, 在预设模型下输 入所述声音特征信息, 将模型输出结果与所述不同场景的声音样本模型的权 重值进行匹配, 并确定所述声音特征信息对应的场景。
7、 一种移动终端, 包括: 声音釆集模块、 预处理模块、 特征提取模块, 以及场景识别模块;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块;
所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述场景识别模块, 其设置成接收所述声音特征信息, 还设置成从服务 端设备接收场景的声音样本模型的权重值, 在预设模型下输入所述声音特征 信息, 将模型输出结果与所述场景声音样本模型的权重值进行匹配, 并确定 所述声音特征信息对应的场景。
8、 一种移动终端, 包括: 声音釆集模块、 预处理模块、 特征提取模块, 以及识别控制模块;
所述声音釆集模块, 其设置成釆集声音信号并传输到所述预处理模块; 所述预处理模块, 其设置成将所述声音信号处理为频域信号并传输至所 述特征提取模块;
所述特征提取模块, 其设置成从所述频域信号中提取声音特征信息; 所述识别控制模块, 其设置成接收所述声音特征信息, 将所述声音特征 信息发送至服务端设备, 并接收服务端设备返回的场景识别结果。
9、 一种基于环境声音的场景识别方法, 其中,
釆集声音信号;
将所述声音信号处理为频域信号;
从所述频域信号中提取声音特征信息;
在预设模型下输入所述声音特征信息, 将模型输出结果与场景声音样本 模型的权重值进行匹配, 并确定所述声音特征信息对应的场景。
10、 如权利要求 9所述的方法, 其中,
所述场景是指不同声音环境下的空间场景。
PCT/CN2013/074355 2012-05-28 2013-04-18 一种基于环境声音的场景识别方法、装置及移动终端 WO2013177981A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/395,538 US9542938B2 (en) 2012-05-28 2013-04-18 Scene recognition method, device and mobile terminal based on ambient sound
EP13797320.2A EP2827326A4 (en) 2012-05-28 2013-04-18 METHOD, DEVICE AND MOBILE TERMINAL FOR RECOGNIZING SCENE BASED ON AMBIENT SOUND

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210167980.5 2012-05-28
CN201210167980.5A CN103456301B (zh) 2012-05-28 2012-05-28 一种基于环境声音的场景识别方法及装置及移动终端

Publications (1)

Publication Number Publication Date
WO2013177981A1 true WO2013177981A1 (zh) 2013-12-05

Family

ID=49672375

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/074355 WO2013177981A1 (zh) 2012-05-28 2013-04-18 一种基于环境声音的场景识别方法、装置及移动终端

Country Status (4)

Country Link
US (1) US9542938B2 (zh)
EP (1) EP2827326A4 (zh)
CN (1) CN103456301B (zh)
WO (1) WO2013177981A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608082A (zh) * 2021-07-30 2021-11-05 环宇集团(南京)有限公司 一种基于音频信号的环网柜放电状态识别方法

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9626963B2 (en) * 2013-04-30 2017-04-18 Paypal, Inc. System and method of improving speech recognition using context
KR20160014625A (ko) * 2013-05-28 2016-02-11 톰슨 라이센싱 가전 기기를 제어하는 음성 커맨드와 연관된 로케이션을 식별하는 방법 및 시스템
CN104880693B (zh) * 2014-02-27 2018-07-20 华为技术有限公司 室内定位方法和装置
CN104464733B (zh) * 2014-10-28 2019-09-20 百度在线网络技术(北京)有限公司 一种语音对话的多场景管理方法及装置
CN104952449A (zh) * 2015-01-09 2015-09-30 珠海高凌技术有限公司 环境噪声声源识别方法及装置
CN105118516A (zh) * 2015-09-29 2015-12-02 浙江图维电力科技有限公司 基于声音线性预测倒谱系数的工程机械的识别方法
CN105355201A (zh) * 2015-11-27 2016-02-24 百度在线网络技术(北京)有限公司 基于场景的语音服务处理方法、装置和终端设备
CN105761657B (zh) * 2016-05-11 2019-07-26 梁辉 一种采用彩色点阵显示音乐频谱或动画的方法和系统
CN107492153B (zh) * 2016-06-07 2020-04-07 腾讯科技(深圳)有限公司 考勤系统、方法、考勤服务器及考勤终端
CN106128476A (zh) * 2016-06-15 2016-11-16 汤美 网络课程的老师识别方法及系统
US10475471B2 (en) * 2016-10-11 2019-11-12 Cirrus Logic, Inc. Detection of acoustic impulse events in voice applications using a neural network
CN106941653A (zh) * 2017-04-03 2017-07-11 浙江诺尔康神经电子科技股份有限公司 人工耳蜗智能预测系统和方法
CN107103901B (zh) * 2017-04-03 2019-12-24 浙江诺尔康神经电子科技股份有限公司 人工耳蜗声音场景识别系统和方法
CN107105095B (zh) * 2017-04-25 2020-03-31 努比亚技术有限公司 一种声音处理方法及移动终端
CN107247928B (zh) * 2017-05-23 2020-06-23 武汉秀宝软件有限公司 一种基于识别图的水平角度构建ar场景的方法及系统
CN109036461A (zh) * 2017-06-12 2018-12-18 杭州海康威视数字技术股份有限公司 一种通知信息的输出方法、服务器及监控系统
CN107644641B (zh) * 2017-07-28 2021-04-13 深圳前海微众银行股份有限公司 对话场景识别方法、终端以及计算机可读存储介质
CN107316035A (zh) * 2017-08-07 2017-11-03 北京中星微电子有限公司 基于深度学习神经网络的对象识别方法及装置
CN107690034A (zh) * 2017-10-27 2018-02-13 中国科学技术大学苏州研究院 基于环境背景声音的智能情景模式切换系统及方法
CN107967457B (zh) * 2017-11-27 2024-03-19 全球能源互联网研究院有限公司 一种适应视觉特征变化的地点识别与相对定位方法及系统
CN107808659A (zh) * 2017-12-02 2018-03-16 宫文峰 智能语音信号模式识别系统装置
CN108257596B (zh) * 2017-12-22 2021-07-23 北京小蓦机器人技术有限公司 一种用于提供目标呈现信息的方法与设备
CN109977731B (zh) * 2017-12-27 2021-10-29 深圳市优必选科技有限公司 一种场景的识别方法、识别设备及终端设备
CN110164426B (zh) * 2018-02-10 2021-10-26 佛山市顺德区美的电热电器制造有限公司 语音控制方法和计算机存储介质
CN110365721A (zh) 2018-03-26 2019-10-22 华为技术有限公司 一种基于用户场景感知触发服务的方法、终端设备及系统
CN108538311B (zh) * 2018-04-13 2020-09-15 腾讯音乐娱乐科技(深圳)有限公司 音频分类方法、装置及计算机可读存储介质
JP2019205114A (ja) 2018-05-25 2019-11-28 ヤマハ株式会社 データ処理装置、及びデータ処理方法。
CN108766454A (zh) * 2018-06-28 2018-11-06 浙江飞歌电子科技有限公司 一种语音噪声抑制方法及装置
CN108711419B (zh) * 2018-07-31 2020-07-31 浙江诺尔康神经电子科技股份有限公司 一种人工耳蜗的环境声感知方法和系统
CN109298642B (zh) * 2018-09-20 2021-08-27 三星电子(中国)研发中心 采用智能音箱进行监控的方法及装置
CN109448702A (zh) * 2018-10-30 2019-03-08 上海力声特医学科技有限公司 人工耳蜗听觉场景识别方法
CN111194039B (zh) * 2018-11-15 2022-05-10 华为技术有限公司 网络场景识别的方法及接入网设备
KR20200063290A (ko) * 2018-11-16 2020-06-05 삼성전자주식회사 오디오 장면을 인식하는 전자 장치 및 그 방법
CN111276138B (zh) * 2018-12-05 2023-07-18 北京嘀嘀无限科技发展有限公司 一种语音唤醒系统中处理语音信号的方法及装置
US11531516B2 (en) 2019-01-18 2022-12-20 Samsung Electronics Co., Ltd. Intelligent volume control
CN109783047B (zh) * 2019-01-18 2022-05-06 三星电子(中国)研发中心 一种终端上的智能音量控制方法和装置
CN109741747B (zh) * 2019-02-19 2021-02-12 珠海格力电器股份有限公司 语音场景识别方法和装置、语音控制方法和设备、空调
CN110414312A (zh) * 2019-06-05 2019-11-05 平安科技(深圳)有限公司 人脸识别方法、装置、服务器及存储介质
CN110730473B (zh) * 2019-09-03 2023-04-28 中国人民解放军陆军工程大学 面向WiFi活动识别的信号特征提取方法
CN111145915A (zh) * 2019-12-31 2020-05-12 重庆医科大学附属儿童医院 儿童保健随访及病案管理系统
CN111161876A (zh) * 2019-12-31 2020-05-15 重庆医科大学附属儿童医院 一种儿童病案辅助判断系统的训练方法
CN113409041B (zh) * 2020-03-17 2023-08-04 华为技术有限公司 一种电子卡的选取方法、装置、终端以及存储介质
CN113491513B (zh) * 2020-04-08 2023-06-30 华为技术有限公司 一种心律检测控制方法及终端
WO2022232457A1 (en) * 2021-04-29 2022-11-03 Dolby Laboratories Licensing Corporation Context aware audio processing
CN113470654A (zh) * 2021-06-02 2021-10-01 国网浙江省电力有限公司绍兴供电公司 一种声纹自动识别系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1835073A (zh) * 2006-04-20 2006-09-20 南京大学 基于语音特征判别的静音检测方法
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US6959276B2 (en) * 2001-09-27 2005-10-25 Microsoft Corporation Including the category of environmental noise when processing speech signals
FR2842014B1 (fr) * 2002-07-08 2006-05-05 Lyon Ecole Centrale Procede et appareil pour affecter une classe sonore a un signal sonore
JP4357867B2 (ja) * 2003-04-25 2009-11-04 パイオニア株式会社 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
US7469209B2 (en) * 2003-08-14 2008-12-23 Dilithium Networks Pty Ltd. Method and apparatus for frame classification and rate determination in voice transcoders for telecommunications
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
WO2006077532A1 (en) * 2005-01-21 2006-07-27 Koninklijke Philips Electronics N.V. Operation mode adjustment device and method of adjusting an operation mode of an electronic product
CN101529929B (zh) * 2006-09-05 2012-11-07 Gn瑞声达A/S 具有基于直方图的声环境分类的助听器
CN101175265A (zh) * 2006-10-31 2008-05-07 英华达(上海)电子有限公司 对手机上情景模式进行自动切换的方法
CN100507971C (zh) * 2007-10-31 2009-07-01 北京航空航天大学 基于独立分量分析的车辆声音识别方法
US8121837B2 (en) * 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
CN201315622Y (zh) * 2008-11-21 2009-09-23 康佳集团股份有限公司 一种可自动调节铃音的手机
US8219386B2 (en) * 2009-01-21 2012-07-10 King Fahd University Of Petroleum And Minerals Arabic poetry meter identification system and method
US8990142B2 (en) * 2009-10-30 2015-03-24 The Nielsen Company (Us), Llc Distributed audience measurement systems and methods
CN101790000B (zh) * 2010-02-20 2014-08-13 华为终端有限公司 一种环境声音提醒方法和移动终端
CN101840700B (zh) * 2010-04-28 2012-05-23 宇龙计算机通信科技(深圳)有限公司 基于移动终端的声音识别方法及移动终端
US8812310B2 (en) * 2010-08-22 2014-08-19 King Saud University Environment recognition of audio input
CN101984340B (zh) * 2010-10-28 2012-01-25 浙江工业大学 一种基于人工智能的软性磨粒两相湍流流型识别方法
CN102247124B (zh) * 2011-04-13 2013-01-23 深圳市理邦精密仪器股份有限公司 一种监护仪自适应环境的方法
CN202221609U (zh) * 2011-08-02 2012-05-16 杭州威威网络科技有限公司 基于音频识别的联网报警装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1835073A (zh) * 2006-04-20 2006-09-20 南京大学 基于语音特征判别的静音检测方法
CN101980336A (zh) * 2010-10-18 2011-02-23 福州星网视易信息系统有限公司 一种基于隐马尔可夫模型的汽车声音识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2827326A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113608082A (zh) * 2021-07-30 2021-11-05 环宇集团(南京)有限公司 一种基于音频信号的环网柜放电状态识别方法
CN113608082B (zh) * 2021-07-30 2024-03-22 环宇集团(南京)有限公司 一种基于音频信号的环网柜放电状态识别方法

Also Published As

Publication number Publication date
EP2827326A1 (en) 2015-01-21
CN103456301A (zh) 2013-12-18
CN103456301B (zh) 2019-02-12
US20150120291A1 (en) 2015-04-30
US9542938B2 (en) 2017-01-10
EP2827326A4 (en) 2015-08-12

Similar Documents

Publication Publication Date Title
WO2013177981A1 (zh) 一种基于环境声音的场景识别方法、装置及移动终端
CN107408386B (zh) 基于语音方向控制电子装置
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
US11620983B2 (en) Speech recognition method, device, and computer-readable storage medium
CN110176226B (zh) 一种语音识别、及语音识别模型训练方法及装置
CN108899044B (zh) 语音信号处理方法及装置
CN108346433A (zh) 一种音频处理方法、装置、设备及可读存储介质
KR20190022432A (ko) 전자장치, 신분 검증 방법, 시스템 및 컴퓨터 판독 가능한 저장매체
CN113129917A (zh) 基于场景识别的语音处理方法及其装置、介质和系统
CN109036460A (zh) 基于多模型神经网络的语音处理方法和装置
CN110995933A (zh) 移动终端的音量调节方法、装置、移动终端及存储介质
CN113257283B (zh) 音频信号的处理方法、装置、电子设备和存储介质
CN108877809A (zh) 一种说话人语音识别方法及装置
CN107690034A (zh) 基于环境背景声音的智能情景模式切换系统及方法
CN108449502A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
US11869493B2 (en) Method and apparatus for audio data processing
CN110931000A (zh) 语音识别的方法和装置
CN108449506A (zh) 语音通话数据处理方法、装置、存储介质及移动终端
CN109919295A (zh) 一种基于轻量级卷积神经网络的嵌入式音频事件检测方法
CN111081275B (zh) 基于声音分析的终端处理方法、装置、存储介质及终端
JP6448950B2 (ja) 音声対話装置及び電子機器
CN107197404B (zh) 一种音效自动调节方法、装置和一种录播系统
CN110797008B (zh) 一种远场语音识别方法、语音识别模型训练方法和服务器
CN108630208A (zh) 服务器、基于声纹的身份验证方法及存储介质
CN106790963B (zh) 音频信号的控制方法及装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13797320

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2013797320

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 14395538

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE