KR20200066367A - 타겟 음성 검출 방법 및 장치 - Google Patents

타겟 음성 검출 방법 및 장치 Download PDF

Info

Publication number
KR20200066367A
KR20200066367A KR1020207014261A KR20207014261A KR20200066367A KR 20200066367 A KR20200066367 A KR 20200066367A KR 1020207014261 A KR1020207014261 A KR 1020207014261A KR 20207014261 A KR20207014261 A KR 20207014261A KR 20200066367 A KR20200066367 A KR 20200066367A
Authority
KR
South Korea
Prior art keywords
detection
model
target voice
module
target
Prior art date
Application number
KR1020207014261A
Other languages
English (en)
Other versions
KR102401217B1 (ko
Inventor
펭 마
하이쿤 왕
지구오 왕
구오핑 후
Original Assignee
아이플라이텍 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아이플라이텍 캄파니 리미티드 filed Critical 아이플라이텍 캄파니 리미티드
Publication of KR20200066367A publication Critical patent/KR20200066367A/ko
Application granted granted Critical
Publication of KR102401217B1 publication Critical patent/KR102401217B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

타겟 음성 검출 방법 및 장치. 방법은, 마이크로폰 어레이를 기반으로 수집된 사운드 신호를 수신하는 단계(101); 상이한 방향의 웨이브 빔들을 획득하기 위해, 사운드 신호에 빔포밍 처리를 수행하는 단계(102); 프레임마다, 사운드 신호와 상이한 방향의 웨이브 빔들에 기반하여, 검출 특징을 추출하는 단계(103); 모델 출력 결과를 획득하기 위해, 현재 프레임의 추출된 검출 특징을 미리 구성된 타겟 음성 검출 모델로 입력하는 단계(104); 및 모델 출력 결과에 따라, 현재 프레임에 대응하는 타겟 음성 검출 결과를 획득하는 단계(105)를 포함한다. 이에 따라, 검출 결과의 정확도가 향상될 수 있다.

Description

타겟 음성 검출 방법 및 장치
본원은, 2017년 10월 23일에 출원된 "타겟 음성 검출 방법 및 장치"라는 명칭의 중국 특허 출원 제201710994194.5호에 대한 우선권을 주장하며, 그 전체가 참조로서 본 문서에 포함된다.
본 개시는 음성 신호 처리의 분야에 관한 것이며, 특히 타겟 음성(target voice) 검출 방법 및 타겟 음성 검출 장치에 관한 것이다.
가장 자연스럽고 편리하며 빠른 상호 작용 방법들 중 하나로서의 음성은 사람들의 일상 생활 및 업무에 널리 사용되어 왔다. 또한, 음성 코딩 및 노이즈 감소와 같은 음성 신호들의 처리는, 관련 분야들의 연구원들에게 연구의 핫스팟(hotspot)이 되었다. 예를 들면, 음성으로부터의 노이즈 감소를 취하는 경우, 타겟 음성 검출이 노이즈 감소에서 가장 중요한 단계들 중 하나이며, 이에 따라 타겟 음성 검출의 정확도는 노이즈 감소의 효과에 직접적인 영향을 미친다. 타겟 음성 검출이 정확하지 않으면, 노이즈 감소 프로세스에서 유효 음성이 심하게 왜곡될 것이다. 따라서, 정확한 타겟 음성 검출이 매우 중요하다.
기존의 타겟 음성 검출 방법들은 주로 다음의 두 가지 타입들을 포함한다.
1. 강도 차이(intensity difference) 기반 타겟 음성 검출 방법
예를 들면, 먼저, 노이즈 감소가 프라이머리(primary) 마이크로폰(microphone) 신호에 대해 수행되고, 그런 다음, 음성 검출이 노이즈 감소가 수행된 후의 프라이머리 마이크로폰 신호와 세컨더리(secondary) 마이크로폰 신호 사이의 신호 세기들(strengths)의 차이에 기반하여 수행된다; 대안적으로, 타겟 음성 검출은 음성 기준 신호와 노이즈 기준 신호 사이의 에너지들의 차이에 기반하여 수행된다. 이러한 타입의 방법은, 프라이머리 마이크로폰에 의해 수집된 타겟 신호의 강도(intensity)가 세컨더리 마이크로폰에 의해 수집된 타겟 신호의 강도 보다 크고, 프라이머리 마이크로폰과 세컨더리 마이크로폰에서의 노이즈 신호들의 강도들이 동일하다는 가정을 기반으로 한다. 예를 들면, 신호-대-잡음비(signal-to-noise ratio)가 높으면, 프라이머리 마이크로폰에 의해 수집된 신호의 에너지 대 세컨더리 마이크로폰에 의해 수집된 신호의 에너지의 비율이 1 보다 크고, 신호-대-잡음비가 낮으면, 프라이머리 마이크로폰에 의해 수집된 신호의 에너지 대 세컨더리 마이크로폰에 의해 수집된 신호의 에너지의 비율이 1 보다 작다.
강도 차이 기반 타겟 음성 검출 방법의 적용 시나리오는 제한적이다. 즉, 방법은 프라이머리 마이크로폰에 도달하는 타겟 신호의 강도와 세컨더리 마이크로폰에 도달하는 타겟 신호의 강도 사이의 차이가 특정 임계 값에 도달하는 경우(예를 들어, 차이는 3db 보다 큼)에만 효과적이다. 더욱이, 노이즈가 크고 신호-대-잡음비가 낮으면, 타겟 음성의 검출될 확률이 낮다.
2. 머신 러닝(machine learning) 기반 타겟 음성 검출 방법
예를 들면, 노이즈를 갖는 단일-채널 신호가 입력으로서 사용되고, 이상적인 이진 마스크(ideal binary mask)(IBM) 또는 이상적인 비율 마스크(ideal ratio mask)(IRM)이 출력으로서 사용되면, 출력의 값이 타겟 음성의 존재의 기초로서 사용될 수 있다. 대안적으로, 다중-채널 데이터가 사용되면, 마스크를 획득하기 위해, 입력으로서 다수의 채널들이 하나의 채널로 결합된다.
기존의 머신 러닝 기반 타겟 음성 검출 방법은 다음의 문제점들을 갖는다. 단일-채널 정보만이 사용되면, 정보가 완전히 활용되지 않고, 이에 따라 타겟 음성 검출의 효과가 좋지 않다. 다중-채널 정보가 사용되더라도, 하나의 채널 상의 원래의(original) 신호 또는 혼합된(mixed) 신호는 신경망(neural network)에 의해 처리될 수 있고, 다수의 채널들의 공간 정보(space information)이 잘 활용되지 않는다. 노이즈에서 다른 방향으로 사람 음향 간섭이 있으면, 방법의 효과가 급격이 감소된다.
본 개시의 실시예들에 따라, 기존의 타겟 음성 검출 방법들에서의 제한된 적용 시나리오들, 낮은 신호-대-잡음비 환경으로 인한 낮은 검출 효과, 및 정보의 불충분한 사용으로 인한 낮은 검출 효과와 같은 하나 이상의 문제점들을 해결하기 위해, 타겟 음성 검출 장치 및 타겟 음성 검출 방법이 제공된다.
따라서, 본 개시에 따라, 다음의 기술적 해결 수단들이 제공된다.
타겟 음성 검출 방법은, 마이크로폰 어레이(microphone array)에 의해 수집된 사운드(sound) 신호들을 수신하는 단계; 상이한 방향들의 빔들(beams)을 획득하기 위해, 상기 사운드 신호들에 대해 빔포밍 프로세스(beamforming process)를 수행하는 단계; 상기 사운드 신호들과 상기 상이한 방향들의 빔들에 기반하여, 각 프레임(frame)의 검출 특징을 추출하는 단계; 모델(model) 출력 결과를 획득하기 위해, 현재 프레임의 추출된 검출 특징을 미리 구성된 타겟 음성 검출 모델로 입력하는 단계; 및 상기 모델 출력 결과에 기반하여, 상기 현재 프레임의 타겟 음성 검출 결과를 획득하는 단계를 포함한다.
바람직하게는, 상기 타겟 음성 검출 모델을 구성하는 프로세스는, 상기 타겟 음성 검출 모델의 토폴로지 구조(topological structure)를 결정하는 단계; 클린(clean) 음성과 시뮬레이트된(simulated) 노이즈에 기반하여, 트레이닝 데이터(training data)를 생성하고, 상기 트레이닝 데이터의 타겟 음성을 라벨링(labeling)하기 위한 라벨링 정보를 생성하는 단계; 상기 트레이닝 데이터의 검출 특징을 추출하는 단계; 및 상기 검출 특징과 상기 라벨링 정보에 기반하여 트레이닝을 수행함으로써, 상기 타겟 음성 검출 모델의 파라미터들을 획득하는 단계를 포함한다.
바람직하게는, 상기 타겟 음성 검출 모델은, 분류(classification) 모델 또는 회귀(regression) 모델이고, 상기 타겟 음성 검출 모델의 출력은, 상기 현재 프레임의 각 주파수 포인트(point)에 대한 이상적인 이진 마스크 또는 이상적인 비율 마스크이다.
바람직하게는, 사기 검출 특징은, 공간 차원(space dimension) 정보, 주파수 차원(frequency dimension) 정보, 및 시간 차원(time dimension) 정보를 포함한다.
바람직하게는, 상기 사운드 신호들과 상기 상이한 방향들의 빔들에 기반하여, 각 프레임의 검출 특징을 추출하는 단계는, 다차원 공간 벡터를 획득하기 위해, 상기 마이크로폰 어레이에 의해 수집된 상기 사운드 신호들과 각 프레임의 각 주파수 포인트에서의 빔 신호들을 연결하는 단계; 상기 다차원 공간 벡터의 각 엘리먼트(element)의 모듈러스(modulus)를 계산한 다음, 공간 정보를 포함하는 다차원 주파수 벡터를 획득하기 위해, 각 프레임의 모든 주파수 포인트들에 대한 모듈러스들을 연결하는 단계; 및 공간 정보와 주파수 정보를 포함하는 다차원 시간 벡터를 획득하기 위해, 상기 공간 정보를 포함하는 다차원 주파수 벡터에 대해 프레임 확장을 수행하는 단계를 포함한다.
바람직하게는, 상기 방법은, 강도 차이 기반 검출 결과를 획득하기 위해, 강도 차이에 기반하여 타겟 음성 검출을 수행하는 단계를 더 포함한다. 상기 모델 출력 결과에 기반하여, 상기 현재 프레임이 타겟 음성 프레임인 지의 여부를 판단하는 단계는, 상기 현재 프레임의 타겟 음성 검출 결과를 획득하기 위해, 상기 강도 차이 기반 검출 결과와 상기 모델 출력 결과를 융합하는 단계를 포함한다.
바람직하게는, 상기 강도 차이 기반 검출 결과를 획득하기 위해, 강도 차이에 기반하여 타겟 음성 검출을 수행하는 단계는, 상기 상이한 방향들의 빔들에 기반하여, 음성 기준 신호와 노이즈 기준 신호를 획득하는 단계; 상기 음성 기준 신호의 파워와 상기 노이즈 기준 신호의 파워를 계산하는 단계; 상기 음성 기준 신호의 파워 대 상기 노이즈 기준 신호의 파워의 파워 비율을 계산하는 단계; 및 상기 파워 비율에 기반하여, 상기 강도 차이 기반 검출 결과를 획득하는 단계를 포함한다.
타겟 음성 검출 장치는, 신호 수신 모듈, 빔포밍 모듈, 검출 특징 추출 모듈, 제1 검출 모듈, 및 검출 결과 출력 모듈을 포함한다. 상기 신호 수신 모듈은, 마이크로폰 어레이에 의해 수집된 사운드 신호들을 수신하고, 상기 사운드 신호들을 상기 빔포밍 모듈로 출력하도록 구성된다. 상기 빔포밍 모듈은, 상이한 방향들의 빔들을 획득하기 위해, 상기 사운드 신호들에 대해 빔포밍 프로세스를 수행하도록 구성된다. 상기 검출 특징 추출 모듈의 입력은, 상기 신호 수신 모듈의 출력 및 상기 빔포밍 모듈의 출력에 연결되고, 상기 검출 특징 추출 모듈은, 상기 사운드 신호들과 상기 상이한 방향들의 빔들에 기반하여, 각 프레임의 검출 특징을 추출하고, 상기 추출된 검출 특징을 상기 제1 검출 모듈로 출력하도록 구성된다. 상기 제1 검출 모듈은, 모델 출력 결과를 획득하기 위해, 상기 검출 특징 추출 모듈에 의해 추출된 현재 프레임의 검출 특징을 미리 구성된 타겟 음성 검출 모델로 입력하고, 상기 모델 출력 결과를 상기 검출 결과 출력 모듈로 전송하도록 구성된다. 상기 검출 결과 출력 모듈은, 상기 모델 출력 결과에 기반하여, 상기 현재 프레임의 타겟 음성 검출 결과를 획득하도록 구성된다.
바람직하게는, 상기 장치는, 상기 타겟 음성 검출 모델을 구성하도록 구성되는 모델 구성(constructing) 모듈을 더 포함한다. 상기 모델 구성 모듈은, 상기 타겟 음성 검출 모델의 토폴로지 구조를 결정하도록 구성되는 구조 디자인(design) 유닛; 클린 음성과 시뮬레이트된 노이즈에 기반하여, 트레이닝 데이터를 생성하고, 트레이닝 데이터의 타겟 음성을 라벨링하기 위한 라벨링 정보를 생성하도록 구성되는 트레이닝 데이터 처리 유닛; 상기 트레이닝 데이터의 검출 특징을 추출하도록 구성되는 특징 추출 유닛; 및 상기 검출 특징과 상기 라벨링 정보에 기반하여 트레이닝을 수행함으로써, 상기 타겟 음성 검출 모델의 파라미터들을 획득하도록 구성되는 트레이닝 유닛을 포함한다.
바람직하게는, 상기 타겟 음성 검출 모델은, 분류 모델 또는 회귀 모델이다.
바람직하게는, 상기 장치는, 상기 빔포밍 모듈의 출력에 연결되는 입력을 갖고, 강도 차이 기반 검출 결과를 획득하기 위해, 강도 차이에 기반하여 타겟 음성 검출을 수행하고, 상기 강도 차이 기반 검출 결과를 상기 검출 결과 출력 모듈로 전송하도록 구성되는 제2 검출 모듈을 더 포함한다. 상기 검출 결과 출력 모듈은, 상기 현재 프레임의 상기 타겟 음성 검출 결과를 획득하기 위해, 상기 강도 차이 기반 검출 결과와 상기 모델 출력 결과를 융합하도록 구성된다.
바람직하게는, 상기 제2 검출 모듈은, 상기 상이한 방향의 빔들에 기반하여, 음성 기준 신호와 노이즈 기준 신호를 획득하도록 구성되는 기준 신호 획득 유닛; 상기 음성 기준 신호의 파워와 상기 노이즈 기준 신호의 파워를 계산하고, 상기 음성 기준 신호의 파워 대 상기 노이즈 기준 신호의 파워의 파워 비율을 계산하도록 구성되는, 계산 유닛; 및 상기 파워 비율에 기반하여, 상기 강도 차이 기반 검출 결과를 획득하도록 구성되는 검출 결과 유닛을 포함한다.
컴퓨터 판독 가능 저장 매체는, 컴퓨터 프로그램 코드들을 포함한다. 컴퓨터 프로그램 코드들은, 컴퓨터 유닛에 의해 실행될 때, 상기 컴퓨터 유닛이 전술된 타겟 음성 검출 방법을 수행하도록 한다.
타겟 음성 검출 장치는, 프로세서, 메모리, 및 시스템 버스(system bus)를 포함한다. 상기 프로세서와 상기 메모리는 상기 시스템 버스를 통해 연결된다. 상기 메모리는 하나 이상의 프로그램들을 저장한다. 상기 하나 이상의 프로그램들은, 명령어들을 포함한다. 상기 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서가 전술된 타겟 음성 검출 방법을 수행하도록 한다.
컴퓨터 프로그램 제품은, 단말 장치 상에서 실행될 때, 상기 단말 장치가 전술된 타겟 음성 검출 방법을 수행하도록 한다.
본 개시의 실시예들에 따른 타겟 음성 검출 방법 및 타겟 음성 검출 장치에 의해, 마이크로폰 어레이에 의해 수집된 사운드 신호들이 수신되고, 상이한 방향들의 빔들을 획득하기 위해, 빔포밍 프로세스가 사운드 신호들에 대해 수행되고, 각 프레임의 검출 특징이 사운드 신호들과 상이한 방향들의 빔들에 기반하여 추출되며, 타겟 음성이 미리 구성된 타겟 음성 검출 모델 및 다중-채널 정보를 사용하여 검출되고, 이로써 타겟 음성의 정확도가 효과적으로 향상된다. 더욱이, 제한된 적용 시나리오들의 문제가 없고, 정확한 검출 결과가 낮은 신호-대-노이즈 환경에서도 획득될 수 있다.
게다가, 현재 프레임의 타겟 음성 검출 결과가 강도 차이 기반 검출 결과를 조합함으로써, 즉 강도 차이 기반 검출 결과와 모델 기반 검출 결과를 융합함으로써, 획득되며, 이로써 검출 결과의 정확도가 더 향상될 수 있다.
실시예들의 설명에 사용되는 도면들이 이하에서 간략하게 설명되며, 이에 따라 본 개시의 실시예들 또는 기존의 기술에 따른 기술적 해결 수단들이 보다 명확해진다. 명확하게는, 이하의 도면들은 본 개시의 일부 실시예들만을 예시한다. 이 기술 분야에서 통상의 기술자에게는, 이들 도면들에 따라, 다른 도면들이 획득될 수 있다.
도 1은 본 개시의 일 실시예에 따른 타겟 음성 검출 방법의 흐름도이다;
도 2는 본 개시의 일 실시예에 따라 타겟 음성 검출 모델을 구성하는 흐름도이다;
도 3은 본 개시의 다른 실시예에 따른 타겟 음성 검출 방법의 흐름도이다;
도 4는 본 개시의 일 실시예에 따른 타겟 음성 검출 장치의 개략적인 구조도이다;
도 5는 본 개시의 일 실시예에 따른 모델 구성 모듈의 개략도이다; 그리고
도 6은 본 개시의 다른 실시예에 따른 타겟 음성 검출 장치의 개략적인 구조도이다.
이 기술 분야에서 통상의 지식을 가진 자가 본 개시의 실시예들에 따른 해결 수단들을 보다 잘 이해할 수 있도록 하기 위해, 본 개시의 실시예들이 도면들과 실시예들을 연관시켜 후술될 것이다.
본 개시의 일 실시예에 따른 타겟 음성 검출 방법의 흐름도인 도 1을 참조한다. 방법은, 다음의 단계 101 내지 단계 105를 포함한다.
단계 101에서, 마이크로폰 어레이에 의해 수집된 사운드 신호들이 수신된다.
특정 적용들에서, 사운드 신호들이 수집된 후에, 수집된 사운드 신호들에 대해, 전처리가 수행된다.
일 예로, 사운드 신호들을 수집하기 위해 M 개의 마이크로폰들을 포함하는 마이크로폰 어레이를 취하는 경우, 수집된 사운드 신호들은
Figure pct00001
이다.
전처리는 주로 수신된 사운드 신호들을 시간 도메인(time domain)에서 주파수 도메인(frequency domain)으로 변환하여, 주파수 도메인 신호들
Figure pct00002
을 획득하는 것을 지칭하고, 여기서
Figure pct00003
는 주파수 도메인 신호들의 주파수들(0, 1, ?, K)를 나타내며,
Figure pct00004
은 프레임 번호(frame number)를 나타낸다.
단계 102에서, 상이한 방향들의 빔들을 획득하기 위해, 빔포밍 프로세스가 사운드 신호들에 대해 수행된다.
빔포밍 알고리즘의 경우, 방향 추정을 기초로 하는 적응 알고리즘 및 신호 구조를 기초로 하는 빔포밍 알고리즘과 같은 기존의 기술이 채택될 수 있으며, 이는 본 개시의 실시예에서 제한되지 않는다. 마이크로폰 어레이에 의해 수집된 신호들은 빔포밍 알고리즘으로 처리되고, 이에 따라 하나의 방향으로 하나의 빔이 형성되는 것처럼, 마이크로폰 어레이는 공간 도메인(space domain)에서 특정 방향들의 신호들에 대해 큰 이득(gain)을 가지며, 공간 도메인에서 다른 방향들의 신호들에 대해 작은 이득을 갖는다.
N 개의 상이한 방향들을 지시하는 메인 로브(main lobe) 분포들을 갖는 빔들은 M 개의 마이크로폰들을 기반으로 형성되고, N 개의 방향들의 빔들은 빔포머(beamformer)에 의해 획득될 수 있다.
Figure pct00005
여기서,
Figure pct00006
는 k 번째 주파수 포인트(point)에서 n 번째 방향을 지시하는 빔포머의 계수(coefficient)를 나타내며,
Figure pct00007
는 다른 빔포밍 알고리즘에 의해 결정될 수 있다.
단계 103에서, 각 프레임의 검출 특징이 사운드 신호들과 상이한 방향의 빔들에 기반하여 추출된다.
검출 특징은, 공간 차원 정보, 주파수 차원 정보, 및 시간 차원 정보를 포함하는 포괄적인 정보이다. 구체적은 추출 프로세스는 다음과 같다.
Figure pct00008
는 타겟 방향으로의 미리 설정된 출력 신호들이고,
Figure pct00009
는 비-타겟(non-target) 방향으로의 출력 신호들인 것으로 가정한다.
1. 공간 차원 정보
Figure pct00010
구체적으로, 다차원 공간 벡터를 획득하기 위해, 획득된 빔 신호들 및 각 프레임의 각 주파수 포인트에서 마이크로폰 어레이에 의해 수집된 사운드 신호들이 연결된다. 예를 들면, N 개의 상이한 방향들을 지시하는 메인 로브 분포들을 갖는 빔들은 M 개의 마이크로폰들을 기반으로 형성되며, N 개의 빔 신호들과 M 개의 마이크로폰 신호들은 각 프레임의 각 주파수 포인트에서 (M+N) 차원 공간 벡터
Figure pct00011
로 연결된다.
Figure pct00012
실제로, 타겟 방향 출력 신호들
Figure pct00013
, 비-타겟 방향 출력 신호들
Figure pct00014
, 및 마이크로폰에 의해 수집된 사운드 신호들의 연결 순서에는 제한이 없음에 유의해야 한다.
2. 주파수 차원 정보
먼저, 다차원 공간 벡터의 각 엘리먼트의 모듈러스가 계산된 다음, 공간 정보를 포함하는 다차원 주파수 벡터를 획득하기 위해, 각 프레임의 모든 주파수 포인트들에 대한 모듈러스들이 연결된다. 예를 들면,
Figure pct00015
의 각 엘리먼트의 모듈러스가
Figure pct00016
로 계산되고, 여기서
Figure pct00017
이며, 그런 다음 (M+N)*K 차원 주파수 벡터를 획득하기 위해, I 번째 프레임의 모든 주파수 포인트들에 대한 모듈러스들
Figure pct00018
이 연결된다.
Figure pct00019
3. 시간 차원 정보
공간 정보와 주파수 정보를 포함하는 다차원 시간 벡터를 획득하기 위해, 프레임 확장(Frame expansion)이 공간 정보를 포함하는 다차원 주파수 벡터에 대해 수행된다. 예를 들면, (M+N)*K*2P 차원의 시간 차원 정보를 획득하기 위해, P 개의 프레임들을 각각 앞뒤로 확장하는 주파수 확장이
Figure pct00020
에 대해 수행된다.
Figure pct00021
단계 104에서, 모델 출력 결과를 획득하기 위해, 현재 프레임의 추출된 검출 특징이 미리 구성된 타겟 음성 검출 모델로 입력된다.
즉, 공간 차원 정보, 주파수 차원 정보, 및 시간 차원 정보를 포함하는, 현재 프레임
Figure pct00022
의 검출 특징
Figure pct00023
이 미리 구성된 타겟 음성 검출 모델로 입력된다. 타겟 음성 검출 모델의 출력은 현재 프레임
Figure pct00024
의 각 주파수 포인트 k에 대한 이상적인 이진 마스크(IBM) 또는 이상적인 비율 마스크(IRM)이다. 일 예로, IRM인 타겟 음성 검출 모델의 출력을 취하면, 모델의 출력은
Figure pct00025
로 정의될 수 있다.
타겟 음성 검출 모델은 분류 모델 또는 회귀 모델로서 구성될 수 있다. 출력이 IRM이면, 타겟 음성 검출 모델은 회귀 모델로서 구성되며; 출력이 IRM이 아니면, 타겟 음성 검출 모델은 분류 모델로서 구성된다.
구체적으로, 타겟 음성 검출 모델은 심층(deep) 신경망(DNN) 또는 순환(recurrent) 신경망과 같은 신경망 모델로서 구성될 수 있다.
단계 105에서, 현재 프레임의 타겟 음성 검출 결과가 모델 출력 결과에 기반하여 획득된다.
모델 출력 결과는 IBM 또는 IRM일 수 있다. 타겟 음성 검출 모델의 출력이 IBM이면, 출력에 기반하여, 현재 프레임이 타겟 음성 프레임인 지의 여부가 판단될 수 있다. 타겟 음성 검출 모델의 출력이 IRM이면, 미리 설정된 임계 값에 기반하여, 현재 프레임이 타겟 음성 프레임인 지의 여부가 판단되도록 요구된다. 타겟 음성 검출 모델의 출력이 미리 설정된 임계 값 보다 크면, 현재 프레임은 타겟 음성 프레임으로 결정되며; 타겟 음성 검출 모델의 출력이 미리 설정된 임계 값 이하이면, 현재 프레임이 비-타겟 음성 프레임으로 결정된다. 타겟 음성 검출 모델에 의해 출력된 IRM은 대응하는 검출 결과로서 직접 사용될 수 있음이 명백하다.
타겟 음성 검출 모델을 구성하는 흐름도인 도 2를 참조한다. 타겟 음성 검출 모델은, 다음의 단계 201 내지 단계 204에 의해 구성된다.
단계 201에서, 타겟 음성 검출 모델의 토폴로지 구조가 결정된다.
상술된 바와 같이, 타겟 음성 검출 모델이 분류 모델 또는 회귀 모델로서 구성될 수 있으며, 이는 본 개시의 실시예들에서 제한되지 않는다.
단계 202에서, 트레이닝 데이터가 클린 음성 및 시뮬레이트된 노이즈에 기반하여 생성되고, 트레이닝 데이터의 타겟 음성을 라벨링하기 위한 라벨링 정보가 생성된다.
클린 음성은 타겟 음성을 포함한다.
단계 203에서, 트레이닝 데이터의 검출 특징이 추출된다.
검출 특징은, 공간 차원 정보, 주파수 차원 정보, 및 시간 차원 정보를 포함하는 포괄적인 정보이다. 검출 특징을 추출하는 구체적인 프로세스는 상술되었다.
단계 204에서, 검출 특징과 라벨링 정보에 기반하여 트레이닝을 수행함으로써, 타겟 음성 검출 모델의 파라미터들이 획득된다.
본 개시의 실시예들에 따른 타겟 음성 검출 방법에 의해, 사운드 신호들이 마이크로폰 어레이에 의해 수집되고, 상이한 방향들의 빔들을 획득하기 위해, 빔포밍 프로세스가 사운드 신호들에 대해 수행되고, 각 프레임의 검출 특징이 사운드 신호들과 상이한 방향들의 빔들에 기반하여, 추출되고, 타겟 음성이 미리 구성된 타겟 음성 검출 모델과 다중-채널 정보를 사용하여, 검출되며, 이로써 타겟 음성 검출의 정확도가 효과적으로 향상된다. 더욱이, 제한된 적용 시나리오들의 문제가 없고, 정확한 검출 결과가 낮은 신호-대-노이즈 환경에서도 획득될 수 있다.
타겟 음성 검출 결과의 정확도를 더 향상시키기 위해, 본 개시의 다른 실시예에 따라, 강도 차이 기반 검출 방법과 검출 모델 기반 검출 방법을 기반으로 하는 타겟 음성 검출 방법이 더 제공된다.
본 개시의 일 실시예에 따른 타겟 음성 검출 방법의 흐름도인 도 3을 참조한다. 방법은, 다음의 단계 301 내지 단계 305를 포함한다.
단계 301에서, 마이크로폰 어레이에 의해 수집된 사운드 신호들이 수신된다.
단계 302에서, 상이한 방향들의 빔들을 획득하기 위해, 빔포밍 프로세스가 사운드 신호들에 대해 수행된다.
단계 303에서, 강도 차이 기반 검출 결과를 획득하기 위해, 타겟 음성 검출이 강도 차이에 기반하여 수행된다.
구체적으로, 먼저, 음성 기준 신호와 노이즈 기준 시호가 상이한 방향들의 빔들에 기반하여 획득된다. 그리고, 음성 기준 신호의 파워와 노이즈 기준 신호의 파워가 계산된다. 음성 기준 신호의 파워 대 노이즈 기준 신호의 파워의 파워 비율이 계산된다. 마지막으로, 강도 차이 기반 검출 결과가 파워 비율에 기반하여 획득된다.
음성 기준 신호가 F이고, 노이즈 기준 신호가 U인 것으로 가정하면, 음성 기준 신호의 에너지 대 노이즈 기준 신호의 에너지의 비율이 하기 [수학식 5]로 정의된다.
Figure pct00026
Figure pct00027
Figure pct00028
는 음성 기준 신호와 노이즈 기준 신호의 파워 추정치들을 각각 나타내고, 파워 추정은 1차 재귀(recursion)를 사용하여 수행될 수 있다.
Figure pct00029
Figure pct00030
Figure pct00031
는 음성 기준 신호, 즉 타겟 방향을 지시하는 메인 로브를 갖는 빔포밍된 신호를 나타내고, 이는 지연 및 합산 빔포밍(Delay and Sumbeamforming), 일정한 빔폭 빔포밍(Constant Beam-widthbeam-former), 및 수퍼 이득 빔포밍(Super-Gainbeamforming)과 같은, 타겟 음성을 지시하는 메인 로브를 갖는 고정된 빔포밍 알고리즘에 의해 획득될 수 있다.
Figure pct00032
는 노이즈 기준 신호, 즉 타겟 방향을 지시하는 널(null) 방향을 갖는 빔포밍된 신호를 나타내고, 이는 적응형 블로킹 매트릭스(adaptive blocking matrix)에 의해 획득될 수 있다. 예를 들면, 주파수 도메인 정규화된 최소 평균 제곱(normalized least mean square)(NLMS) 적응 알고리즘이 노이즈 기준 신호를 획득하기 위해 필터를 업데이트하는 데 사용될 수 있다.
Figure pct00033
Figure pct00034
은 적응형 블로킹 매트릭스 계수를 나타내고;
Figure pct00035
는 고정된 학습(learning) 단계 사이즈를 나타내고, 예를 들어 단계 사이즈는 0.05로 설정될 수 있고; 위첨자 *는 복소수를 공액하는 것을 나타내고;
Figure pct00036
는 작은 양수를 나타내고, 예를 들어
Figure pct00037
는 0.001로 설정될 수 있으며;
Figure pct00038
는 현재 주파수 포인트에 대한 타겟 음성 검출 결과를 나타낸다.
Figure pct00039
임계 값들 th1과 th2가 다수의 실험들 및/또는 경험에 기반하여 획득되며, 예를 들어 th2=2이고, th1=0.5이다.
임계 값 th가 더 설정될 수 있음에 유의해야 한다.
Figure pct00040
가 임계 값 th 보다 크면, 현재 프레임은 타겟 음성 프레임으로 결정되고;
Figure pct00041
가 임계 값 th 보다 크지 않으면, 현재 프레임은 비-타겟 음성 프레임으로 결정된다.
단계 304에서, 모델기반 검출 결과를 획득하기 위해, 타겟 음성 검출이 검출 모델에 기반하여 수행된다.
검출 모델을 기반으로 하는 타겟 음성 검출에 대해, 도 1에 도시된 단계 103 내지 단계 104가 참조될 수 있으며, 여기서 다시 설명되지 않는다.
단계 305에서, 현재 프레임의 타겟 음성 검출 결과를 획득하기 위해, 강도 차이 기반 검출 결과 및 모델 기반 검출 결과가 융합된다.
구체적으로,
Figure pct00042
Figure pct00043
에 기반하여, 공동 결정이 이루어질 수 있다. 일 예로, 음성으로부터의 노이즈 감소에 적응 노이즈 제거(Adaptive Noise Cancellation)(ANC)를 취하는 경우, 하기 [수학식 10]과 같이 타겟 음성이 있는 지의 여부가 결정된다.
Figure pct00044
임계 값들 th3, th4, th5 및 th6가 다수의 실험들 및/또는 경험에 기반하여 획득되며, 예를 들어 th3=0.5이고, th4=0.5이고, th5=0.25이며, th6=0.25이다.
타겟 음성 검출 모델이 분류 모델로 구성되고, 강도 차이 기반 검출 결과가 이전 결과이면, 즉 강도 차이 기반 검출 결과가 0 또는 1과 동일하면, 강도 차이 기반 검출 결과와 모델 기반 검출 결과를 융합하는 것에, 논리 "AND" 또는 "OR"의 융합 모드가 채택될 수 있다. 실제 적용들에서, 다른 융합 모드들이 채택될 수 있으며, 이는 본 개시의 실시예들에서 제한되지 않는다는 것이 명백하다.
상이한 방법들을 기반으로 하는 타겟 음성 검출 프로세스들이 단계 303 및 단계 304에 각각 기술되어 있음에 유의해야 한다. 단계 303 및 단계 304는 독립적으로 수행되며, 단계 303과 단계 304 사이에 시간적 관계는 없다. 단계 303 및 단계 304는 병렬로 수행될 수 있으며, 또는 단계 303 및 단계 304 중 어느 하나가 먼저 수행될 수 있다.
본 개시의 실시예들에 따른 타겟 음성 검출 방법에 의해, 정확한 검출 결과가 낮은 신호-대-노이즈 환경에서도 획득될 수 있고, 강도 차이 기반 검출 결과가 더 고려될 수 있으며, 이로써, 검출 결과의 정확도가 더 향상될 수 있음을 알 수 있다.
본 개시의 일 실시예에 따른 컴퓨터 판독 가능 저장 매체가 더 제공된다. 컴퓨터 판독 가능 저장 매체는 컴퓨터 프로그램 코드들을 포함한다. 컴퓨터 프로그램 코드들은, 컴퓨터 유닛에 의해 실행될 때, 컴퓨터 유닛이 본 개시의 실시예들에 따른 타겟 음성 검출 방법을 수행하도록 한다.
타겟 음성 검출 장치는 프로세서, 메모리, 및 시스템 버스를 포함한다. 프로세서와 메모리는 시스템 버스를 통해 연결된다. 메모리는 하나 이상의 프로그램들을 저장한다. 하나 이상의 프로그램들은 명령어들을 포함한다. 명령어들은, 프로세서에 의해 실행될 때, 프로세서가 본 개시의 실시예들에 따른 타겟 음성 검출 방법을 수행하도록 한다.
컴퓨터 프로그램 제품은, 단말 장치 상에서 실행될 때, 단말 장치가 본 개시의 실시예들에 따른 타겟 음성 검출 방법을 수행하도록 한다.
본 개시의 일 실시예에 따른 타겟 음성 검출 장치가 더 제공된다. 장치의 개략적인 구조도를 도시하는 도 4를 참조한다.
실시예에 따르면, 타겟 음성 검출 장치는 신호 수신 모듈(401), 빔포밍 모듈(402), 검출 특징 추출 모듈(403), 제1 검출 모듈(404), 및 검출 결과 출력 모듈(405)을 포함한다.
신호 수신 모듈(401)은 마이크로폰 어레이에 의해 수집된 사운도 신호들을 수신하고, 사운드 신호들을 빔포밍 모듈(402)로 출력하도록 구성된다.
빔포밍 모듈(402)은 상이한 방향들의 빔들을 획득하기 위해, 입력된 사운드 신호들에 대해 빔포밍 프로세스를 수행하도록 구성된다.
검출 특징 추출 모듈(403)의 입력은 신호 수신 모듈(401)의 출력 및 빔포밍 모듈(402)의 출력에 연결된다. 검출 특징 추출 모듈(403)은 사운드 신호들과 상이한 방향들의 빔들에 기반하여, 각 프레임의 검출 특징을 추출하고, 추출된 검출 특징을 제1 검출 모듈(404)로 출력하도록 구성된다.
제1 검출 모듈(404)은 모델 출력 결과를 획득하기 위해, 검출 특징 추출 모듈(403)에 의해 추출된 현재 프레임의 검출 특징을 미리 구성된 타겟 음성 검출 모델(400)로 입력하고, 모델 출력 결과를 검출 결과 출력 모듈(405)로 전송하도록 구성된다.
검출 결과 출력 모듈(405)은 모델 출력 결과에 기반하여, 현재 프레임의 타겟 음성 검출 결과를 획득하도록 구성된다.
신호 수신 모듈(401)이 사운드 신호들을 수집한 후에, 신호 수신 모듈(401)이 수집된 사운드 신호들에 대해 전처리를 수행하도록 구성된다는 점에 유의해야 한다. 전처리는 주로 수신된 사운드 신호들을 시간 도메인에서 주파수 도메인으로 변환하여, 주파수 도메인 신호들을 획득하는 것을 지칭한다.
검출 특징 추출 모듈(403)에 의해 추출된 검출 특징은 공간 차원 정보, 주파수 차원 정보, 및 시간 차원 정보를 포함하는 포괄적인 정보이다. 구체적인 추출 프로세스는 본 개시의 실시예들에 따른 타겟 음성 검출 방법에 대한 설명을 참조할 수 있으며, 여기서 다시 설명되지 않는다.
타겟 음성 검출 모델(400)은 분류 모델 또는 회귀 모델일 수 있으며, 구체적으로 모듈에 의해 미리 구성될 수 있다. 모델 구성 모듈은 본 개시에 따른 장치의 일부일 수 있고 또는 본 개시에 따른 장치에 대해 독립적일 수 있으며, 이는 본 개시의 실시예들에서 제한되지 않는다.
도 5는 본 개시의 일 실시예에 따른 모델 구성 모듈의 구조를 도시한다. 모델 구성 모듈은 구조 디자인 유닛(51), 트레이닝 데이터 처리 유닛(52), 특징 추출 유닛(53), 및 트레이닝 유닛(54)을 포함한다.
구조 디자인 유닛(51)은 타겟 음성 검출 모델의 토폴로지 구조를 결정하도록 구성된다.
트레이닝 데이터 처리 유닛(52)은 클린 음성과 시뮬레이트된 노이즈에 기반하여, 트레이닝 데이터를 생성하고, 트레이닝 데이터의 타겟 음성을 라벨링하기 위한 라벨링 정보를 생성하도록 구성된다.
특징 추출 유닛(53)은 트레이닝 데이터의 검출 특징을 추출하도록 구성된다.
트레이닝 유닛(54)은 검출 특징과 라벨링 정보에 기반하여 트레이닝을 수행함으로써, 타겟 음성 검출 모델의 파라미터들을 획득하도록 구성된다.
또한, 타겟 음성 검출 모델을 구성하는 프로세스에서, 특징 추출 유닛(53)에 의해 추출된 검출 특징은 공간 차원 정보, 주파수 차원 정보, 및 시간 차원 정보를 포함하는 포괄적인 정보임에 유의해야 한다. 검출 특징을 추출하는 구체적인 프로세스는 본 개시의 실시예들에 따른 타겟 음성 검출 방법에 대한 설명을 참조할 수 있으며, 여기서 다시 설명되지 않는다.
본 개시의 실시예들에 따른 타겟 음성 검출 장치에 의해, 사운드 신호들이 마이크로폰 어레이에 의해 수집되고, 상이한 방향들의 빔들을 획득하기 위해, 빔포밍 프로세스가 사운드 신호들에 대해 수행되고, 각 프레임의 검출 특징이 사운드 신호들과 상이한 방향들의 빔들에 기반하여 추출되고, 타겟 음성이 미리 구성된 타겟 음성 검출 모델과 다중-채널 정보를 사용하여 검출되고, 이로써 타겟 음성 검출의 정확도가 효과적으로 향상된다. 더욱이, 제한된 적용 시나리오들의 문제가 없고, 정확한 검출 결과가 낮은 신호-대-노이즈 환경에서도 획득될 수 있다.
본 개시의 다른 실시예에 따른 타겟 음성 검출 장치의 개략적인 구조도를 도시하는 도 6을 참조한다. 도 5에 도시된 실시예와 다르게, 도 6에 도시된 장치는, 빔포밍 모듈(402)의 출력에 연결되는 입력을 갖고, 강도 차이 기반 검출 결과를 획득하기 위해, 강도 차이에 기반하여 타겟 음성 검출을 수행하고, 강도 차이 기반 검출 결과를 검출 결과 출력 모듈(405)로 전송하도록 구성되는 제2 검출 모듈(406)을 더 포함한다.
제2 검출 모듈(406)은 기준 신호 획득 유닛, 계산 유닛, 및 검출 결과 유닛을 포함한다.
기준 신호 획득 유닛은 상이한 방향들의 빔들에 기반하여, 음성 기준 신호와 노이즈 기준 신호를 획득하도록 구성된다.
계산 유닛은 음성 기준 신호의 파워와 노이즈 기준 신호의 파워를 계산하고, 음성 기준 신호의 파워 대 노이즈 기준 신호의 파워의 파워 비율을 계산하도록 구성된다.
검출 결과 유닛은 파워 비율에 기반하여, 강도 차이 기반 검출 결과를 획득하도록 구성된다.
따라서, 실시예에 따르면, 검출 결과 출력 모듈(405)은 현재 프레임의 타겟 음성 검출 결과를 획득하기 위해, 강도 차이 기반 검출 결과와 모델 출력 결과를 융합하도록 구성된다. 구체적인 융합 모드는 본 개시의 실시예들에 따른 타겟 음성 검출 방법에 대한 설명을 참조할 수 있으며, 여기서 다시 설명되지 않는다.
본 개시의 실시예들에 따른 타겟 음성 검출 장치에 의해, 타겟 음성이 모델 기반 검출 방법과 강도 차이 기반 검출 방법에 기반하여 검출되고, 두 개의 상이한 방법들의 검출 결과들이 포괄적으로 고려되며, 이로써 더 정확한 검출 결과가 획득된다.
본 개시에서, 실시예들은 진행 순서로 설명된다. 실시예들에서 유사한 부분들에 대해 참조가 이루어질 수 있으며, 각 실시예는 주로 다른 실시예들과의 차이에 중점을 둔다. 더욱이, 상술된 장치 실시예들은 개략적일 뿐이며, 여기서 개별 구성 요소들로 설명된 유닛들은 물리적으로 분리되거나 물리적으로 분리되지 않을 수 있고, 유닛들로 표시되는 구성 요소들은 물리적인 유닛들이거나 물리적인 유닛들이 아닐 수 있으며, 즉 그들은 한 곳에 위치되거나 여러 네트워크 요소들에 분산될 수 있다. 모듈들 중 일부 또는 전부는 본 실시예의 해결 수단의 목적을 달성하기 위한 실제 요구들에 따라 선택될 수 있다. 이 기술 분야에서 통상의 기술을 가진 자는 어떤 창조적인 노력들 없이 상기를 이해하고 구현할 수 있다.
본 개시의 실시예들이 위에서 상세하게 소개된다. 본 개시를 설명하기 위해, 구체적인 실시예들이 명세서 내에서 사용된다. 상술된 실시예들은 본 개시에 따른 방법과 장치의 이해를 돕기 위해서만 사용된다. 이 기술 분야에서 통상의 지식을 가진 자에 있어서, 본 개시의 개념에 기초하여, 실시예들과 적용들에 변경이 이루어질 수 있다. 요약하면, 명세서는 본 개시를 제한하는 것으로 이해되어서는 안된다.

Claims (15)

  1. 타겟 음성(target voice) 검출 방법에 있어서,
    마이크로폰 어레이(microphone array)에 의해 수집된 사운드(sound) 신호들을 수신하는 단계;
    상이한 방향들의 빔들을 획득하기 위해, 상기 사운드 신호들에 대해 빔포밍 프로세스(beamforming process)를 수행하는 단계;
    상기 사운드 신호들과 상기 상이한 방향들의 빔들에 기반하여, 각 프레임(frame)의 검출 특징을 추출하는 단계;
    모델(model) 출력 결과를 획득하기 위해, 현재 프레임의 추출된 검출 특징을 미리 구성된 타겟 음성 검출 모델로 입력하는 단계; 및
    상기 모델 출력 결과에 기반하여, 상기 현재 프레임의 타겟 음성 검출 결과를 획득하는 단계를 포함하는, 방법.
  2. 제1 항에 있어서,
    상기 타겟 음성 검출 모델을 구성하는 프로세스는,
    상기 타겟 음성 검출 모델의 토폴로지 구조(topological structure)를 결정하는 단계;
    클린(clean) 음성과 시뮬레이트된(simulated) 노이즈에 기반하여, 트레이닝 데이터(training data)를 생성하고, 상기 트레이닝 데이터의 타겟 음성을 라벨링(labeling)하기 위한 라벨링 정보를 생성하는 단계;
    상기 트레이닝 데이터의 검출 특징을 추출하는 단계; 및
    상기 검출 특징과 상기 라벨링 정보에 기반하여 트레이닝을 수행함으로써, 상기 타겟 음성 검출 모델의 파라미터들을 획득하는 단계를 포함하는, 방법.
  3. 제1 항에 있어서,
    상기 타겟 음성 검출 모델은,
    분류(classification) 모델 또는 회귀(regression) 모델이고,
    상기 타겟 음성 검출 모델의 출력은,
    상기 현재 프레임의 각 주파수 포인트(point)에 대한 이상적인(ideal) 이진 마스크(binary mask) 또는 이상적인 비율 마스크(ratio mask)인, 방법
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서,
    상기 검출 특징은,
    공간 차원(space dimension) 정보, 주파수 차원(frequency dimension) 정보, 및 시간 차원(time dimension) 정보를 포함하는, 방법.
  5. 제1 항에 있어서,
    상기 사운드 신호들과 상기 상이한 방향들의 빔들에 기반하여, 각 프레임의 검출 특징을 추출하는 단계는,
    다차원 공간 벡터를 획득하기 위해, 상기 마이크로폰 어레이에 의해 수집된 상기 사운드 신호들과 각 프레임의 각 주파수 포인트에서의 빔 신호들을 연결하는 단계;
    상기 다차원 공간 벡터의 각 엘리먼트(element)의 모듈러스(modulus)를 계산한 다음, 공간 정보를 포함하는 다차원 주파수 벡터를 획득하기 위해, 각 프레임의 모든 주파수 포인트들에 대한 모듈러스들을 연결하는 단계; 및
    공간 정보와 주파수 정보를 포함하는 다차원 시간 벡터를 획득하기 위해, 상기 공간 정보를 포함하는 다차원 주파수 벡터에 대해 프레임 확장을 수행하는 단계를 포함하는, 방법.
  6. 제1 항 내지 제3 항 및 제5 항 중 어느 한 항에 있어서,
    강도 차이 기반 검출 결과를 획득하기 위해, 강도 차이에 기반하여 타겟 음성 검출을 수행하는 단계를 더 포함하고,
    상기 모델 출력 결과에 기반하여, 상기 현재 프레임이 타겟 음성 프레임인 지의 여부를 판단하는 단계는,
    상기 현재 프레임의 타겟 음성 검출 결과를 획득하기 위해, 상기 강도 차이 기반 검출 결과와 상기 모델 출력 결과를 융합하는 단계를 포함하는, 방법.
  7. 제6 항에 있어서,
    상기 강도 차이 기반 검출 결과를 획득하기 위해, 강도 차이에 기반하여 타겟 음성 검출을 수행하는 단계는,
    상기 상이한 방향들의 빔들에 기반하여, 음성 기준 신호와 노이즈 기준 신호를 획득하는 단계;
    상기 음성 기준 신호의 파워와 상기 노이즈 기준 신호의 파워를 계산하는 단계;
    상기 음성 기준 신호의 파워 대 상기 노이즈 기준 신호의 파워의 파워 비율을 계산하는 단계; 및
    상기 파워 비율에 기반하여, 상기 강도 차이 기반 검출 결과를 획득하는 단계를 포함하는, 방법.
  8. 타겟 음성 검출 장치에 있어서,
    신호 수신 모듈, 빔포밍 모듈, 검출 특징 추출 모듈, 제1 검출 모듈, 및 검출 결과 출력 모듈을 포함하고,
    상기 신호 수신 모듈은, 마이크로폰 어레이에 의해 수집된 사운드 신호들을 수신하고, 상기 사운드 신호들을 상기 빔포밍 모듈로 출력하도록 구성되고,
    상기 빔포밍 모듈은, 상이한 방향들의 빔들을 획득하기 위해, 상기 사운드 신호들에 대해 빔포밍 프로세스를 수행하도록 구성되고,
    상기 검출 특징 추출 모듈의 입력은, 상기 신호 수신 모듈의 출력 및 상기 빔포밍 모듈의 출력에 연결-되고, 상기 검출 특징 추출 모듈은, 상기 사운드 신호들과 상기 상이한 방향들의 빔들에 기반하여, 각 프레임의 검출 특징을 추출하고, 상기 추출된 검출 특징을 상기 제1 검출 모듈로 출력하도록 구성되고,
    상기 제1 검출 모듈은, 모델 출력 결과를 획득하기 위해, 상기 검출 특징 추출 모듈에 의해 추출된 현재 프레임의 검출 특징을 미리 구성된 타겟 음성 검출 모델로 입력하고, 상기 모델 출력 결과를 상기 검출 결과 출력 모듈로 전송하도록 구성되고,
    상기 검출 결과 출력 모듈은, 상기 모델 출력 결과에 기반하여, 상기 현재 프레임의 타겟 음성 검출 결과를 획득하도록 구성되는, 장치.
  9. 제8 항에 있어서,
    상기 타겟 음성 검출 모델을 구성하도록 구성되는 모델 구성(constructing) 모듈을 더 포함하고,
    상기 모델 구성 모듈은,
    상기 타겟 음성 검출 모델의 토폴로지 구조를 결정하도록 구성되는 구조 디자인(design) 유닛,
    클린 음성과 시뮬레이트된 노이즈에 기반하여, 트레이닝 데이터를 생성하고, 트레이닝 데이터의 타겟 음성을 라벨링하기 위한 라벨링 정보를 생성하도록 구성되는 트레이닝 데이터 처리 유닛,
    상기 트레이닝 데이터의 검출 특징을 추출하도록 구성되는 특징 추출 유닛, 및
    상기 검출 특징과 상기 라벨링 정보에 기반하여 트레이닝을 수행함으로써, 상기 타겟 음성 검출 모델의 파라미터들을 획득하도록 구성되는 트레이닝 유닛을 포함하는, 장치.
  10. 제8 항에 있어서,
    상기 타겟 음성 검출 모델은,
    분류 모델 또는 회귀 모델인, 장치.
  11. 제8 항 내지 제10 항 중 어느 한 항에 있어서,
    상기 빔포밍 모듈의 출력에 연결되는 입력을 갖고, 강도 차이 기반 검출 결과를 획득하기 위해, 강도 차이에 기반하여 타겟 음성 검출을 수행하고, 상기 강도 차이 기반 검출 결과를 상기 검출 결과 출력 모듈로 전송하도록 구성되는 제2 검출 모듈을 더 포함하고,
    상기 검출 결과 출력 모듈은,
    상기 현재 프레임의 상기 타겟 음성 검출 결과를 획득하기 위해, 상기 강도 차이 기반 검출 결과와 상기 모델 출력 결과를 융합하도록 구성되는, 장치.
  12. 제11 항에 있어서,
    상기 제2 검출 모듈은,
    상기 상이한 방향의 빔들에 기반하여, 음성 기준 신호와 노이즈 기준 신호를 획득하도록 구성되는 기준 신호 획득 유닛;
    상기 음성 기준 신호의 파워와 상기 노이즈 기준 신호의 파워를 계산하고, 상기 음성 기준 신호의 파워 대 상기 노이즈 기준 신호의 파워의 파워 비율을 계산하도록 구성되는, 계산 유닛; 및
    상기 파워 비율에 기반하여, 상기 강도 차이 기반 검출 결과를 획득하도록 구성되는 검출 결과 유닛을 포함하는, 장치.
  13. 컴퓨터 프로그램 코드들을 포함하고,
    상기 컴퓨터 프로그램 코드들은,
    컴퓨터 유닛에 의해 실행될 때, 상기 컴퓨터 유닛이 제1 항 내지 제7 항 중 어느 한 항에 기재된 인간-컴퓨터 인터랙션 적용 방법을 수행하도록 하는,
    컴퓨터 판독 가능 저장 매체.
  14. 프로세서, 메모리, 및 시스템 버스(system bus)를 포함하고,
    상기 프로세서와 상기 메모리는 상기 시스템 버스를 통해 연결되고,
    상기 메모리는 하나 이상의 프로그램들을 저장하고,
    상기 하나 이상의 프로그램들은, 명령어들을 포함하고,
    상기 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서가 제1 항 내지 제7 항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
    타겟 음성 검출 장치.
  15. 단말 장치 상에서 실행될 때, 상기 단말 장치가 제1 항 내지 제7 항 중 어느 한 항에 기재된 방법을 수행하도록 하는,
    컴퓨터 프로그램 제품.
KR1020207014261A 2017-10-23 2018-07-16 타겟 음성 검출 방법 및 장치 KR102401217B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710994194.5A CN107785029B (zh) 2017-10-23 2017-10-23 目标语音检测方法及装置
CN201710994194.5 2017-10-23
PCT/CN2018/095758 WO2019080551A1 (zh) 2017-10-23 2018-07-16 目标语音检测方法及装置

Publications (2)

Publication Number Publication Date
KR20200066367A true KR20200066367A (ko) 2020-06-09
KR102401217B1 KR102401217B1 (ko) 2022-05-23

Family

ID=61433874

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207014261A KR102401217B1 (ko) 2017-10-23 2018-07-16 타겟 음성 검출 방법 및 장치

Country Status (7)

Country Link
US (1) US11308974B2 (ko)
EP (1) EP3703054B1 (ko)
JP (1) JP7186769B2 (ko)
KR (1) KR102401217B1 (ko)
CN (1) CN107785029B (ko)
ES (1) ES2964131T3 (ko)
WO (1) WO2019080551A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785029B (zh) 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN111445905B (zh) * 2018-05-24 2023-08-08 腾讯科技(深圳)有限公司 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN110164446B (zh) * 2018-06-28 2023-06-30 腾讯科技(深圳)有限公司 语音信号识别方法和装置、计算机设备和电子设备
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN110223708B (zh) * 2019-05-07 2023-05-30 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110265065B (zh) * 2019-05-13 2021-08-03 厦门亿联网络技术股份有限公司 一种构建语音端点检测模型的方法及语音端点检测系统
CN111613247B (zh) * 2020-04-14 2023-03-21 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112562649B (zh) * 2020-12-07 2024-01-30 北京大米科技有限公司 一种音频处理的方法、装置、可读存储介质和电子设备
CN113077803B (zh) * 2021-03-16 2024-01-23 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN113345469A (zh) * 2021-05-24 2021-09-03 北京小米移动软件有限公司 语音信号的处理方法、装置、电子设备及存储介质
CN115240698A (zh) * 2021-06-30 2022-10-25 达闼机器人股份有限公司 模型训练方法、语音检测定位方法、电子设备及存储介质
CN116580723B (zh) * 2023-07-13 2023-09-08 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
JP2005253071A (ja) * 2004-03-02 2005-09-15 Microsoft Corp マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
KR20120098211A (ko) * 2011-02-28 2012-09-05 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
US20170278513A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2359511T3 (es) * 2005-07-06 2011-05-24 Koninklijke Philips Electronics N.V. Aparato y procedimiento para conformación de haz acústico.
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN101192411B (zh) * 2007-12-27 2010-06-02 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN102074246B (zh) * 2011-01-05 2012-12-19 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
JP5318258B1 (ja) 2012-07-03 2013-10-16 株式会社東芝 集音装置
TW201443875A (zh) * 2013-05-14 2014-11-16 Hon Hai Prec Ind Co Ltd 收音方法及收音系統
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
CN105590631B (zh) 2014-11-14 2020-04-07 中兴通讯股份有限公司 信号处理的方法及装置
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
CN104766093B (zh) * 2015-04-01 2018-02-16 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
CN105336340B (zh) * 2015-09-30 2019-01-01 中国电子科技集团公司第三研究所 一种用于低空目标声探测系统的风噪抑制方法和装置
JP6594222B2 (ja) 2015-12-09 2019-10-23 日本電信電話株式会社 音源情報推定装置、音源情報推定方法、およびプログラム
CN205621437U (zh) * 2015-12-16 2016-10-05 宁波桑德纳电子科技有限公司 一种声像联合定位的远距离语音采集装置
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
CN105869651B (zh) * 2016-03-23 2019-05-31 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN105788607B (zh) * 2016-05-20 2020-01-03 中国科学技术大学 应用于双麦克风阵列的语音增强方法
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
CN106328156B (zh) * 2016-08-22 2020-02-18 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106483502B (zh) * 2016-09-23 2019-10-18 科大讯飞股份有限公司 一种声源定位方法及装置
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
CN106782618B (zh) * 2016-12-23 2020-07-31 云知声(上海)智能科技有限公司 基于二阶锥规划的目标方向语音检测方法
CN106710603B (zh) * 2016-12-23 2019-08-06 云知声(上海)智能科技有限公司 利用线性麦克风阵列的语音识别方法及系统
BR112019013555A2 (pt) * 2017-01-03 2020-01-07 Koninklijke Philips N.V. Aparelho para captura de áudio, método de captura de áudio e produto de programa de computador
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
US10546593B2 (en) * 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
JP2005253071A (ja) * 2004-03-02 2005-09-15 Microsoft Corp マイクロフォン・アレイを使用するビーム・フォーミングのシステムおよび方法
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
KR20120098211A (ko) * 2011-02-28 2012-09-05 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치
US20170278513A1 (en) * 2016-03-23 2017-09-28 Google Inc. Adaptive audio enhancement for multichannel speech recognition
CN106952653A (zh) * 2017-03-15 2017-07-14 科大讯飞股份有限公司 噪声去除方法、装置和终端设备

Also Published As

Publication number Publication date
EP3703054A1 (en) 2020-09-02
ES2964131T3 (es) 2024-04-04
EP3703054A4 (en) 2021-07-28
US11308974B2 (en) 2022-04-19
JP7186769B2 (ja) 2022-12-09
JP2021500593A (ja) 2021-01-07
CN107785029A (zh) 2018-03-09
KR102401217B1 (ko) 2022-05-23
EP3703054B1 (en) 2023-09-20
WO2019080551A1 (zh) 2019-05-02
EP3703054C0 (en) 2023-09-20
CN107785029B (zh) 2021-01-29
US20200342890A1 (en) 2020-10-29

Similar Documents

Publication Publication Date Title
KR102401217B1 (ko) 타겟 음성 검출 방법 및 장치
CN110600017B (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
CN110364166B (zh) 实现语音信号识别的电子设备
CN110503969A (zh) 一种音频数据处理方法、装置及存储介质
Zeng et al. Distributed delay and sum beamformer for speech enhancement via randomized gossip
US11869481B2 (en) Speech signal recognition method and device
CN102708874A (zh) 麦克风阵列的噪声自适应波束形成
Brutti et al. Comparison between different sound source localization techniques based on a real data collection
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
Mazur et al. An approach for solving the permutation problem of convolutive blind source separation based on statistical signal models
EP3624117A1 (en) Method, apparatus for blind signal seperating and electronic device
CN112652320B (zh) 声源定位方法和装置、计算机可读存储介质、电子设备
CN107221338A (zh) 声波提取装置以及提取方法
Laufer-Goldshtein et al. Multi-view source localization based on power ratios
JP2019054344A (ja) フィルタ係数算出装置、収音装置、その方法、及びプログラム
Ihara et al. Multichannel speech separation and localization by frequency assignment
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN111462743A (zh) 一种语音信号处理方法及装置
Ju et al. Tracking the moving sound target based on distributed microphone pairs
Zheng et al. Exploiting joint sparsity for far-field microphone array sound source localization
Zhang et al. Microphone clustering and BP network based acoustic source localization in distributed microphone arrays
CN117054968B (zh) 基于线性阵列麦克风的声源定位系统及其方法
Brendel et al. Tracking of multiple sources in an acoustic sensor network using an extended Gaussian mixture PHD filter
Kugler et al. A novel approach for hardware based sound localization

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant