KR101711302B1 - 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법 - Google Patents

변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법 Download PDF

Info

Publication number
KR101711302B1
KR101711302B1 KR1020150148802A KR20150148802A KR101711302B1 KR 101711302 B1 KR101711302 B1 KR 101711302B1 KR 1020150148802 A KR1020150148802 A KR 1020150148802A KR 20150148802 A KR20150148802 A KR 20150148802A KR 101711302 B1 KR101711302 B1 KR 101711302B1
Authority
KR
South Korea
Prior art keywords
power level
calculating
vector
voice
level difference
Prior art date
Application number
KR1020150148802A
Other languages
English (en)
Inventor
황승현
장준혁
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Priority to KR1020150148802A priority Critical patent/KR101711302B1/ko
Application granted granted Critical
Publication of KR101711302B1 publication Critical patent/KR101711302B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Abstract

변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법이 제시된다. 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법은 잡음 신호로부터 복수의 기초벡터들을 각각 추출하는 단계; 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 상기 기초벡터의 음성존재확률을 계산하는 단계; 계산된 상기 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 단계; 입력 신호로부터 추출된 상기 복수의 기초벡터들에 각각 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계; 및 계산된 각각의 상기 기초벡터의 음성존재확률에 상기 가중치를 적용하여 최적 음성존재확률을 도출하여 음성존재구간을 검출하는 단계를 포함할 수 있다.

Description

변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법{Discriminative Weight Training for Dual-Microphone based Voice Activity Detection and Method thereof}
아래의 실시예들은 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법에 관한 것이다. 더욱 상세하게는, 변별적 가중치 학습기법을 통해 도출된 최적화된 가중치를 기초벡터에 적용하여 최적화된 음성 존재 확률을 도출하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법에 관한 것이다.
음성 검출 기술(Voice Activity Detection)은 입력된 음성 신호를 음성 존재구간과 부재구간으로 분류하는 기술로 음성인식, 음성개선 등 음성 통신 시스템에서의 필수적인 요소이다.
다중 채널 기반의 음성 검출 장치(음성 검출기)는 입력신호 사이의 상대적인 공간정보(Spatial Information)를 사용할 수 있기 때문에 단일 채널 기반의 음성 검출 장치보다 매우 우수한 성능을 가지는 것으로 알려져 있다. 그 중 전력레벨 차이의 비율 기반(Power level difference ratio) 음성 검출 장치는 두 마이크 간의 전력레벨 차이와 잡음신호의 전력레벨 차이를 추정하고 이를 기반으로 두 전력레벨의 비율을 계산하여 음성 존재구간을 검출하게 된다.
이러한 종래의 전력레벨 차이의 비율 기반 음성 검출 장치는 다양한 공간정보 중 전력레벨 차이 기반의 공간정보만을 사용하기 때문에 음성의 짧은 시간 변화를 효과적으로 특징지을 수 없어서 다양한 잡음환경에서 성능이 떨어지는 문제점이 있다.
실시예들은 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법에 관하여 기술하며, 보다 구체적으로 변별적 가중치 학습기법을 통해 도출된 최적화된 가중치를 기초벡터에 적용하여 최적화된 음성 존재 확률을 도출함으로써, 다양한 잡음 환경에서 우수한 성능을 가지는 음성 검출 장치 및 음성 검출 방법을 제공한다.
실시예들은 음성 신호로부터 추출한 2 채널 마이크 기반의 다양한 기초 벡터들을 변별적 가중치 학습기법으로 각각의 가중치를 계산하고, 이를 기반으로 입력 신호의 기초벡터로 계산된 최적화된 음성 존재 확률 값에 문턱 값을 적용하여 음성 신호를 검출함으로써, 열악한 잡음 환경에서도 우수한 성능의 음성 검출이 가능한 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법을 제공하는데 있다.
일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법은 잡음 신호로부터 복수의 기초벡터들을 각각 추출하는 단계; 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 상기 기초벡터의 음성존재확률을 계산하는 단계; 계산된 상기 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 단계; 입력 신호로부터 추출된 상기 복수의 기초벡터들에 각각 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계; 및 계산된 각각의 상기 기초벡터의 음성존재확률에 상기 가중치를 적용하여 최적 음성존재확률을 도출하여 음성존재구간을 검출하는 단계를 포함한다.
여기서 상기 기초벡터의 최적화된 가중치를 산출하는 단계는, GPD(Generalized Probabilistic Descent)에 기반한 MCE(Minimum Classification Error) 기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출할 수 있다.
상기 기초벡터는, 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나일 수 있다.
상기 음성존재확률을 계산하는 단계는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하는 단계; 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율을 산출하는 단계; 및 상기 롱텀 전력레벨 차이비율을 기하평균으로 나타낸 후 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계를 포함할 수 있다.
상기 음성존재확률을 계산하는 단계는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하는 단계; 상기 숏텀 전력레벨 차이(ST-PLD)로부터 상기 숏텀 전력레벨 차이비율을 산출하는 단계; 및 상기 롱텀 전력레벨 차이비율을 반영하여 상기 숏텀 전력레벨 차이비율을 기하평균으로 나타낸 후, 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계를 포함할 수 있다.
상기 음성존재확률을 계산하는 단계는, 두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하는 단계; 및 고유 분해된 고유벡터 행렬을 정규화하여 각 주파수별 위상벡터로부터 현재 프레임의 상기 위상벡터를 산출하고 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계를 포함할 수 있다.
상기 음성존재확률을 계산하는 단계는, 상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여, 현재 프레임의 상기 코히어런스(Coherence) 함수를 산정하는 단계; 및 상기 코히어런스(Coherence) 함수를 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계를 포함할 수 있다.
상기 최적 음성존재확률을 도출하여 음성존재구간을 검출하는 단계는, MAP(maximum a posteriori probability) 기법에 의해 최종적으로 음성존재구간을 검출할 수 있다.
상기 MAP 기법에 의해 도출된 값이 미리 설정된 문턱값보다 클 경우 상기 입력 신호는 음성 신호로 판단되며, 상기 미리 설정된 문턱값보다 작을 경우 상기 입력 신호는 비음성 신호로 판단될 수 있다.
다른 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치는 잡음 신호로부터 복수의 기초벡터들을 각각 추출하고, 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 상기 기초벡터의 음성존재확률을 계산하며, 계산된 상기 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 기초벡터 가중치 산정부; 입력부를 통해 입력되는 입력 신호로부터 추출된 상기 복수의 기초벡터들에 각각 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하고, 계산된 각각의 상기 기초벡터의 음성존재확률에 상기 가중치를 적용하여 최적 음성존재확률을 도출하는 음성 검출 제어부; 및 상기 제어부에서 도출된 상기 최적 음성존재확률을 이용하여 음성존재구간을 검출하는 음성 검출 판단부를 포함한다.
상기 기초벡터는, 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나일 수 있다.
상기 음성 검출 제어부는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하고, 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율을 산출하여 기하평균으로 나타낸 후 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산할 수 있다.
상기 음성 검출 제어부는, 상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하고, 상기 숏텀 전력레벨 차이(ST-PLD)로부터 상기 숏텀 전력레벨 차이비율을 산출하며, 상기 롱텀 전력레벨 차이비율을 반영하여 상기 숏텀 전력레벨 차이비율을 기하평균으로 나타낸 후, 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산할 수 있다.
상기 음성 검출 제어부는, 두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하고, 고유 분해된 고유벡터 행렬을 정규화하여 각 주파수별 위상벡터로부터 현재 프레임의 상기 위상벡터를 산출하고 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산할 수 있다.
상기 음성 검출 제어부는, 상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여, 현재 프레임의 상기 코히어런스(Coherence) 함수를 산정하고, 상기 코히어런스(Coherence) 함수를 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산할 수 있다.
상기 음성 검출 판단부는, MAP(maximum a posteriori probability) 기법에 의해 최종적으로 음성존재구간을 검출하며, 상기 MAP 기법에 의해 도출된 값이 미리 설정된 문턱값보다 클 경우 상기 입력 신호는 음성 신호로 판단되며, 상기 미리 설정된 문턱값보다 작을 경우 상기 입력 신호는 비음성 신호로 판단될 수 있다.
실시예들에 따르면 변별적 가중치 학습기법을 통해 도출된 최적화된 가중치를 기초벡터에 적용하여 최적화된 음성 존재 확률을 도출함으로써, 다양한 잡음 환경에서 우수한 성능을 가지는 음성 검출 장치 및 음성 검출 방법을 제공할 수 있다.
실시예들에 따르면 음성 신호로부터 추출한 2 채널 마이크 기반의 다양한 기초 벡터들을 변별적 가중치 학습기법으로 각각의 가중치를 계산하고, 이를 기반으로 입력 신호의 기초벡터로 계산된 최적화된 음성 존재 확률 값에 문턱 값을 적용하여 음성 신호를 검출함으로써, 열악한 잡음 환경에서도 우수한 성능의 음성 검출이 가능한 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법을 제공할 수 있다.
도 1은 일 실시예에 따른 음성 검출 방법을 수행하기 위한 음성 검출 장치의 구성을 나타내는 블록도이다.
도 2는 일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법을 개념적으로 나타낸 도면이다.
도 3은 일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법을 나타내는 흐름도이다.
도 4는 잡음의 위상 0도에서 기존 음성 검출 장치와 일 실시예에 따른 음성 검출 장치와의 ROC 커브를 비교한 도면이다.
도 5는 잡음의 위상 90도에서 기존 음성 검출 장치와 일 실시예에 따른 음성 검출 장치와의 ROC 커브를 비교한 도면이다.
도 6은 잡음의 위상 180도에서 기존 음성 검출 장치와 일 실시예에 따른 음성 검출 장치와의 ROC 커브를 비교한 도면이다.
이하, 첨부된 도면을 참조하여 실시예들을 설명한다. 그러나, 기술되는 실시예들은 여러 가지 다른 형태로 변형될 수 있으며, 본 발명의 범위가 이하 설명되는 실시예들에 의하여 한정되는 것은 아니다. 또한, 여러 실시예들은 당해 기술분야에서 평균적인 지식을 가진 자에게 본 발명을 더욱 완전하게 설명하기 위해서 제공되는 것이다. 도면에서 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
아래의 실시예들은 변별적 가중치 학습기법을 이용한 2채널 마이크 기반의 음성 검출 방법에 따르면, 음성 신호로부터 추출한 2 채널 마이크 기반의 다양한 기초 벡터들을 변별적 가중치 학습기법으로 각각의 가중치를 계산하고, 이를 기반으로 입력 신호의 기초벡터로 계산된 최적화된 음성 존재 확률 값에 문턱 값을 적용하여 음성 신호를 검출함으로써, 열악한 잡음 환경에서도 우수한 성능의 음성 검출이 가능하다.
도 1은 일 실시예에 따른 음성 검출 방법을 수행하기 위한 음성 검출 장치의 구성을 나타내는 블록도이다.
도 1을 참조하면, 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법을 수행하기 위한 음성 검출 장치는 음성 검출 제어부(100), 기초벡터 가중치 산정부(110), 및 음성 검출 판단부(120)를 포함할 수 있다. 실시예에 따라 음성 검출 제어부(100)는 메모리를 더 포함하여 이루어질 수 있으며, 음성 검출 제어부(100)는 입력부(130)와 전기적으로 연결될 수 있다.
음성 검출 제어부(100)는 학습 과정을 통하여 최적화된 기초벡터의 가중치를 전달 받아 기초벡터에 적용하여 음성 검출 확률을 산출하는 부분으로서, 소정의 연산 속도를 갖는 연산 유닛을 포함할 수 있다. 예를 들어, 음성 검출 제어부(100)는 CPU(central processing unit), GPU(graphical processing unit) 등과 같은 연산 유닛을 포함할 수 있다. 또한, 음성 검출 제어부(100)는 소정의 프로세스에 필요한 데이터를 저장하기 위한 메모리를 더 포함할 수 있다.
기초벡터 가중치 산정부(110)는 학습 과정을 통하여 최적화된 기초벡터의 가중치를 산출하고 업데이트 하는 것으로, 잡음으로부터 기초벡터를 추출하고 시그모이드 함수를 적용하여 가중치를 산정할 수 있다. 기초벡터 가중치 산정부(110)는 소정의 연산 속도를 갖는 연산 유닛을 포함할 수 있다.
음성 검출 판단부(120)는 최적 음성존재확률로부터 음성존재구간을 검출하는 부분으로서, 소정의 연산 속도를 갖는 연산 유닛을 포함할 수 있다.
입력부(130)는 음성 검출 제어부(100)에 대하여 소정의 입력 데이터를 전송하는 부분으로서, 예를 들어 마이크로폰 등과 같이 소리를 전기 신호로 변환하는 입력 수단을 포함할 수 있다. 예를 들어, 입력부(130)에 제공되는 오염된 음성 신호(즉, 주변 잡음에 의해 오염된 음성 신호)는, 음성 검출 제어부(100)에 제공될 수 있다. 이러한 입력부(130)는 두 개의 마이크로폰(마이크)로 이루어져 2 채널의 마이크로 구성될 수 있다.
아래에서 음성 검출 장치의 각각의 구성에 대해 하나의 실시예를 이용하여 더 구체적으로 설명한다.
일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치는 음성 검출 제어부(100), 기초벡터 가중치 산정부(110), 및 음성 검출 판단부(120)를 포함할 수 있다.
먼저, 기초벡터 가중치 산정부(110)는 잡음 신호로부터 복수의 기초벡터들을 각각 추출하고, 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 기초벡터의 음성존재확률을 계산할 수 있다. 그리고 계산된 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 기초벡터의 최적화된 가중치를 산출할 수 있다. 기초벡터 가중치 산정부(110)에서 산출된 최적화된 가중치는 음성 검출 제어부(100)로 전달될 수 있다.
여기서 기초벡터는 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나일 수 있다.
음성 검출 제어부(100)는 입력부(130)를 통해 입력되는 입력 신호로부터 추출된 복수의 기초벡터들에 각각 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다. 음성 검출 제어부(100)는 기초벡터 가중치 산정부(110)에서 산출된 최적화된 가중치를 전달 받아, 각각의 기초벡터의 음성존재확률에 가중치를 적용하여 최적 음성존재확률을 도출할 수 있다.
여기서 기초벡터는, 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나일 수 있으며, 복수의 기초벡터들은 상기의 기초벡터들의 조합으로 이루어질 수 있다.
각각의 기초벡터로부터 아래의 방법을 이용하여 음성존재확률을 계산할 수 있다.
음성 검출 제어부(100)는 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하고, 롱텀 전력레벨 차이(LT-PLD)로부터 롱텀 전력레벨 차이비율을 산출하여 기하평균으로 나타낸 후 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
음성 검출 제어부(100)는 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하고, 숏텀 전력레벨 차이(ST-PLD)로부터 숏텀 전력레벨 차이비율을 산출하며, 롱텀 전력레벨 차이비율을 반영하여 숏텀 전력레벨 차이비율을 기하평균으로 나타낸 후, 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
음성 검출 제어부(100)는 두 개의 마이크를 통해 입력된 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하고, 고유 분해된 고유벡터 행렬을 정규화하여 각 주파수별 위상벡터로부터 현재 프레임의 위상벡터를 산출하고 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
음성 검출 제어부(100)는 두 개의 마이크로 입력된 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여, 현재 프레임의 코히어런스(Coherence) 함수를 산정하고, 코히어런스(Coherence) 함수를 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
음성 검출 판단부(120)는 제어부에서 도출된 최적 음성존재확률을 이용하여 음성존재구간을 검출하는 음성 검출 판단부를 포함한다.
더 구체적으로, 음성 검출 판단부(120)는 MAP(maximum a posteriori probability) 기법에 의해 최종적으로 음성존재구간을 검출하며, MAP 기법에 의해 도출된 값이 미리 설정된 문턱값보다 클 경우 입력 신호는 음성 신호로 판단되며, 미리 설정된 문턱값보다 작을 경우 입력 신호는 비음성 신호로 판단될 수 있다.
도 2는 일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법을 개념적으로 나타낸 도면이다.
도 2를 참조하면, 일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법은 음성의 짧은 시간 변화를 효과적으로 특징 짓기 위해서 입력신호의 전력레벨 차이비율과 코히어런스(coherence), 위상벡터(phase vector)를 기초벡터로 하여, 이를 기반으로 변별적 가중치 학습기법인 MCE(minimum classification error) 방법을 통해 도출된 최적화된 가중치를 각 기초벡터에 적용하여 최적화된 음성 존재 확률을 도출함으로써, 다양한 잡음 환경에서 우수한 성능을 가지는 음성 검출 방법을 제공한다.
즉, 전력레벨 차이비율 기반의 음성 검출 장치에 코히어런스와 위상벡터 기반의 기초벡터를 계산하는 로직과, 이를 기반으로 변별적 가중치 학습을 통하여 최적화된 가중치를 계산하여 각 기초벡터에 적용하는 로직들이 추가될 수 있다.
도 2에 도시된 바와 같이, 잡음 신호로부터 각 기초벡터들을 추출(211)한 다음 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여(212) 각 기초벡터별로 음성존재확률을 계산(213)하고, 이를 기반으로 변별적 가중치 학습기법인 MCE 방법을 사용하여 최적화된 가중치를 산출(214)할 수 있다. 이후, 입력 신호로부터 추출된 기초벡터(201, 202, 203)에 시그모이드 함수의 파라미터를 이용(212)하여 음성존재확률을 계산(204, 205, 206, 207)한 후 가중치를 적용하여 최적의 음성존재확률을 도출(208)하여 음성존재구간을 검출(209)할 수 있다.
이와 같이 변별적 가중치 학습기법을 통해 도출된 최적화된 가중치를 기초벡터에 적용하여 최적화된 음성 존재 확률을 도출함으로써, 다양한 잡음 환경에서 우수한 성능을 가지는 음성 검출 장치 및 음성 검출 방법을 제공할 수 있다.
또한 음성 신호로부터 추출한 2 채널 마이크 기반의 다양한 기초 벡터들을 변별적 가중치 학습기법으로 각각의 가중치를 계산하고, 이를 기반으로 입력 신호의 기초벡터로 계산된 최적화된 음성 존재 확률 값에 문턱 값을 적용하여 음성 신호를 검출함으로써, 열악한 잡음 환경에서도 우수한 성능의 음성 검출이 가능한 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법을 제공할 수 있다.
아래에서는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법에 대해 하나의 실시예를 이용하여 더 구체적으로 설명하기로 한다.
도 3은 일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법을 나타내는 흐름도이다.
도 3을 참조하면, 일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법은 잡음 신호로부터 복수의 기초벡터들을 각각 추출하는 단계, 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 기초벡터의 음성존재확률을 계산하는 단계, 계산된 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 기초벡터의 최적화된 가중치를 산출하는 단계, 입력 신호로부터 추출된 복수의 기초벡터들에 각각 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산하는 단계, 및 계산된 각각의 기초벡터의 음성존재확률에 가중치를 적용하여 최적 음성존재확률을 도출하여 음성존재구간을 검출하는 단계를 포함하여 이루어질 수 있다.
여기서 기초벡터는 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나일 수 있다. 이에 따라 복수의 기초벡터들은 상기의 기초벡터의 조합으로 이루어질 수 있다.
아래에서는 일 실시예에 따른 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법의 각 단계에 대해 상세히 설명하기로 한다.
단계(310)에서, 음성 검출 장치의 기초벡터 가중치 산정부(120)는 잡음 신호로부터 복수의 기초벡터들을 각각 추출할 수 있다. 그리고 단계(320)에서, 음성 검출 장치의 기초벡터 가중치 산정부(120)는 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 기초벡터의 음성존재확률을 계산할 수 있다. 또한, 단계(330)에서, 음성 검출 장치의 기초벡터 가중치 산정부(120)는 계산된 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 기초벡터의 최적화된 가중치를 산출할 수 있다. 이와 같은 가중치 산정 방법에 대해서는 아래에서 더 구체적으로 설명하기로 한다.
단계(340)에서, 음성 검출 장치의 음성 검출 제어부(100)는 입력 신호로부터 추출된 복수의 기초벡터들에 각각 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
잡음에 의하여 오염된 음성 입력 신호는 깨끗한 원래 음성 신호와 잡음 신호가 더해져 형성된다고 가정할 수 있으며, 아래의 수학식 1과 같이 나타낼 수 있다.
[수학식 1]
Figure 112015103812959-pat00001
여기서,
Figure 112015103812959-pat00002
은 잡음이 포함된 입력 신호의 이산 푸리에 변환 계수 벡터를 나타내고,
Figure 112015103812959-pat00003
는 원래의 음성 신호의 이산 푸리에 변환 계수 벡터를 나타내며,
Figure 112015103812959-pat00004
은 잡음 신호의 이산 푸리에 변환 계수 벡터를 나타낼 수 있다. 그리고 i 는 마이크 인덱스이고, k n 은 주파수 성분과 프레임 인덱스를 각각 나타낼 수 있다.
또한, 주어진 가설 H0, H₁이 각각 음성의 부재와 존재를 표현한다고 하면 각 주파수 채널별로 다음 수학식 2와 같이 표현할 수 있다.
[수학식 2]
Figure 112015103812959-pat00005
이 때, 음성 신호와 잡음 신호가 독립적이라는 전제하에서 두 마이크의 전력 스펙트럼 밀도는 다음 수학식 3과 같이 나타낼 수 있다.
아래에서는 전력레벨 비율차이 기초벡터에 대해 구체적으로 설명하기로 한다.
음성 검출 장치의 음성 검출 제어부(100)는 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하고, 롱텀 전력레벨 차이(LT-PLD)로부터 롱텀 전력레벨 차이비율을 산출하며, 롱텀 전력레벨 차이비율을 기하평균으로 나타낸 후 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
[수학식 3]
Figure 112015103812959-pat00006
상기의 수학식 3으로부터 두 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)는 다음 수학식 4와 같이 나타낼 수 있다.
[수학식 4]
Figure 112015103812959-pat00007
위 식의 전력레벨 차이에 재귀평균기법을 도입하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 다음 수학식 5와 같이 산정할 수 있다.
[수학식 5]
Figure 112015103812959-pat00008
여기서
Figure 112015103812959-pat00009
는, 일례로 0.9로 정할 수 있다. 상기의 롱텀 전력레벨 차이(LT-PLD)로부터 롱텀(long term) 전력레벨 차이비율을 다음 수학식 6과 같이 산출할 수 있다.
[수학식 6]
Figure 112015103812959-pat00010
이 때,
Figure 112015103812959-pat00011
은 MCRA(minima controlled recursive averaging)로 추정한 잡음전력으로 수학식 7과 같이 산출할 수 있다.
즉, 음성 검출 장치의 기초벡터 가중치 산정부(120)는 잡음 신호로부터 복수의 기초벡터들을 각각 추출하고, 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 기초벡터의 음성존재확률을 계산할 수 있다. 또한, 음성 검출 장치의 기초벡터 가중치 산정부(120)는 계산된 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 기초벡터의 최적화된 가중치를 산출할 수 있다.
[수학식 7]
Figure 112015103812959-pat00012
여기서, 가중치 파라미터
Figure 112015103812959-pat00013
는 다음 수학식 8과 같이 나타낼 수 있다.
[수학식 8]
Figure 112015103812959-pat00014
여기서
Figure 112015103812959-pat00015
는 일례로, 0.95로 정해지고 각 서브밴드의 음성존재확률인
Figure 112015103812959-pat00016
은 다음 수학식 9와 같이 나타낼 수 있다.
[수학식 9]
Figure 112015103812959-pat00017
이 때,
Figure 112015103812959-pat00018
는 일례로 0.2로 나타낼 수 있고
Figure 112015103812959-pat00019
은 다음 수학식 10과 같이 표현될 수 있다.
[수학식 10]
Figure 112015103812959-pat00020
여기서, 문턱값
Figure 112015103812959-pat00021
는 1.5이고
Figure 112015103812959-pat00022
은 다음 수학식 11과 같이 나타낼 수 있다.
[수학식 11]
Figure 112015103812959-pat00023
이 때,
Figure 112015103812959-pat00024
는 전력레벨 차이의 연속된 윈도우에서의 로컬 미니멈(local minimum)이다.
현재 프레임의 롱텀(Long-term) 전력레벨 비율차이는 다음과 같이 각 주파수별 롱텀(Long-term) 전력레벨 비율차이를 기하평균으로 나타내면, 다음 수학식 12와 같이 산출 수 있다.
[수학식 12]
Figure 112015103812959-pat00025
그리고 상기의 식으로부터 시그모이드 함수 피팅을 이용하여 사후 확률(a posteriori probability)을 다음 수학식 13과 같이 산출할 수 있다.
[수학식 13]
Figure 112015103812959-pat00026
이 때,
Figure 112015103812959-pat00027
는 시그모이드 함수의 기울기 이고
Figure 112015103812959-pat00028
는 바이어스 텀이 될 수 있다.
음성 검출 장치의 음성 검출 제어부(100)는 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하고, 숏텀 전력레벨 차이(ST-PLD)로부터 숏텀 전력레벨 차이비율을 산출하고, 롱텀 전력레벨 차이비율을 반영하여 숏텀 전력레벨 차이비율을 기하평균으로 나타낸 후, 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
아래에서는 숏텀(Short-term) 전력레벨 비율차이에 대해 구체적으로 설명한다.
숏텀(Short-term) 전력레벨 차이는 다음 수학식 14와 같이 산출할 수 있다.
[수학식 14]
Figure 112015103812959-pat00029
이 때,
Figure 112015103812959-pat00030
는 0.3이고 숏텀(Short-term) 전력레벨 차이비율은 다음 수학식 15와 같이 나타낼 수 있다.
[수학식 15]
Figure 112015103812959-pat00031
여기서,
Figure 112015103812959-pat00032
는 다음 수학식 16과 같이 나타낼 수 있다.
[수학식 16]
Figure 112015103812959-pat00033
여기서,
Figure 112015103812959-pat00034
는 다음 수학식 17과 같이 표현될 수 있다.
[수학식 17]
Figure 112015103812959-pat00035
또한,
Figure 112015103812959-pat00036
는 수학식 18과 같이 표현될 수 있다.
[수학식 18]
Figure 112015103812959-pat00037
현재 프레임의 숏텀(Short-term) 전력레벨 비율차이는 다음과 같이 각 주파수별 숏텀(Short-term) 전력레벨 비율차이를 기하평균을 적용하여 다음 수학식 19와 같이 산출할 수 있다.
[수학식 19]
Figure 112015103812959-pat00038
그리고, 상기의 식으로부터 시그모이드 함수 피팅을 이용하여 사후 확률(a posteriori probability)을 다음 수학식 20과 같이 산출할 수 있다.
[수학식 20]
Figure 112015103812959-pat00039
이 때,
Figure 112015103812959-pat00040
는 시그모이드 함수의 기울기 이고
Figure 112015103812959-pat00041
는 바이어스 텀이 될 수 있다.
음성 검출 장치의 음성 검출 제어부(100)는 두 개의 마이크를 통해 입력된 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하고, 고유 분해된 고유벡터 행렬을 정규화하여 각 주파수별 위상벡터로부터 현재 프레임의 위상벡터를 산출하고 시그모이드 함수의 파라미터를 이용하여 기초벡터의 음성존재확률을 계산할 수 있다.
아래에서는 위상벡터(phase vector) 기초벡터에 대해 구체적으로 설명한다.
앞에서 설명한 수학식 1은 다음 수학식 21과 같이 벡터형식으로 나타낼 수 있다.
[수학식 21]
Figure 112015103812959-pat00042
위 식에서 상관(correlation) 행렬은 다음 수학식 22와 같이 고유분해를 사용하여 산출할 수 있다.
[수학식 22]
Figure 112015103812959-pat00043
이 때,
Figure 112015103812959-pat00044
Figure 112015103812959-pat00045
는 각각 단위 고유행렬과 대각행렬이다. 가장 큰 고유값을 가진 주(principal) 고유벡터 행렬은 다음 수학식 23과 같이 나타낼 수 있다.
[수학식 23]
Figure 112015103812959-pat00046
그리고 행렬의 첫 번째 성분으로 정규화하면 다음 수학식 24와 같이 나타낼 수 있다.
[수학식 24]
Figure 112015103812959-pat00047
상기의 식으로부터 위상벡터는 다음 수학식 25와 같이 계산할 수 있다.
[수학식 25]
Figure 112015103812959-pat00048
각 주파수별 위상벡터로부터 다음 수학식 26으로 현재 프레임의 위상벡터를 산출할 수 있다.
[수학식 26]
Figure 112015103812959-pat00049
이 때 시그모이드 함수 피팅을 사용하여 사후 확률(a posteriori probability)을 산출할 수 있다.
[수학식 27]
Figure 112015103812959-pat00050
이 때,
Figure 112015103812959-pat00051
는 시그모이드 함수의 기울기이고
Figure 112015103812959-pat00052
는 바이어스 텀이 될 수 있다.
음성 검출 장치의 음성 검출 제어부(100)는 두 개의 마이크로 입력된 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여, 현재 프레임의 코히어런스(Coherence) 함수를 산정할 수 있다. 그리고, 코히어런스(Coherence) 함수를 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산할 수 있다.
아래에서는 코히어런스(Coherence) 기초벡터에 대해 구체적으로 설명한다.
코히어런스(Coherence) 함수는 수학식 2로부터 다음과 같이 산출할 수 있다.
[수학식 28]
Figure 112015103812959-pat00053
이 때,
Figure 112015103812959-pat00054
,
Figure 112015103812959-pat00055
는 각각 마이크로 입력되는 신호의 전력 스펙트럼 밀도를 나타내고,
Figure 112015103812959-pat00056
는 두 마이크에 대한 교차 전력 스펙트럼 밀도를 나타낼 수 있다.
그리고
Figure 112015103812959-pat00057
은 잡음 신호의 교차 전력 스펙트럼 밀도를 나타내고, 다음 수학식 29와 같이 나타낼 수 있다.
[수학식 29]
Figure 112015103812959-pat00058
또한, 수학식 28로부터 현재 프레임의 코히어런스(Coherence) 값을 다음 수학식 30과 같이 산출할 수 있다.
[수학식 30]
Figure 112015103812959-pat00059
[수학식 31]
Figure 112015103812959-pat00060
이 때,
Figure 112015103812959-pat00061
는 시그모이드 함수의 기울기이고
Figure 112015103812959-pat00062
는 바이어스 텀이 될 수 있다.
단계(350)에서, 음성 검출 장치의 음성 검출 판단부(120)는 계산된 각각의 기초벡터의 음성존재확률에 가중치를 적용하여 최적 음성존재확률을 도출하여 음성존재구간을 검출할 수 있다.
즉, 음성 검출 장치의 음성 검출 판단부(120)는 위에서 각각 구해진 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스 함수와 위상벡터들의 사후 확률(a posteriori probability) 값(여기서, 음성존재확률을 의미할 수 있다.)에 최적화된 가중치를 적용하여 다음 수학식 32와 같이 새로운 사후 확률(a posteriori probability)(여기서, 최적 음성존재확률을 의미할 수 있다.)을 산출할 수 있다.
[수학식 32]
Figure 112015103812959-pat00063
이 때, 각 가중치
Figure 112015103812959-pat00064
는 다음 수학식 33의 정규화 조건을 만족하여야 한다.
[수학식 33]
Figure 112015103812959-pat00065
변별적 가중치는 GPD(Generalized Probabilistic Descent)에 기반한 MCE(Minimum Classification Error) 기법을 통하여 값이 산출될 수 있다. 이는 인식된 신호의 인식 오류에 기반하여 산출되는 손실함수를 최소화함으로써 인식 오류 확률을 최소화 한다.
여기서, 손실함수는 다음 수학식 34와 같이 나타낼 수 있다.
[수학식 34]
Figure 112015103812959-pat00066
이 때,
Figure 112015103812959-pat00067
는 시그모이드 함수의 기울기를 나타내는 값이고, 손실함수가 최소가 되는 가중치로 정해질 수 있다.
Figure 112015103812959-pat00068
는 다음 수학식 35와 같이 나타낼 수 있다.
[수학식 35]
Figure 112015103812959-pat00069
여기서,
Figure 112015103812959-pat00070
Figure 112015103812959-pat00071
은 미리 정하여진 문턱값으로, 다음 수학식 36과 같이 나타낼 수 있다.
[수학식 36]
Figure 112015103812959-pat00072
MCE 방법을 통하여 가중치를 구하는 과정에서, 수학식 33의 조건을 만족하기 위하여 가중치
Figure 112015103812959-pat00073
에 log를 적용할 수 있다.
[수학식 37]
Figure 112015103812959-pat00074
그리고 산출된 각 가중치는 다음 수학식 38에 의해 업데이트 될 수 있다.
[수학식 38]
Figure 112015103812959-pat00075
이 때,
Figure 112015103812959-pat00076
은 가중치의 변화량을 조절하기 위하여 정하여지는 값으로 초기값에 비해 점차 감소하는 1차 함수로 정의될 수 있다. 로그를 적용한 가중치
Figure 112015103812959-pat00077
가 업데이트 된 후, 가중치는 다음 수학식 39에 의해 원래의 가중치로 바뀌어진다.
[수학식 39]
Figure 112015103812959-pat00078
음성 검출 장치의 음성 검출 제어부(100)는, 수학식 39에 의해 도출된 가중치를 수학식 32에 적용하여 최종적으로 사후 확률(a posteriori probability)이 계산할 수 있다. 그리고 음성 검출 장치의 음성 검출 판단부(120)는 계산된 사후 확률(a posteriori probability)은 다음 수학식 40과 같이 MAP(maximum a posteriori probability) 기법에 의해 최종적으로 음성존재구간을 검출할 수 있다.
[수학식 40]
Figure 112015103812959-pat00079
음성 검출 장치의 음성 검출 판단부(120)는 MAP 기법에 의해 도출된 값이 문턱값
Figure 112015103812959-pat00080
보다 클 경우 입력 신호가 음성 신호에 해당(H₁) 되는 것으로 판단하며, 문턱값
Figure 112015103812959-pat00081
보다 작을 경우 입력신호가 비음성 신호에 해당(H0)에 해당되는 것으로 판단할 수 있다.
아래에서는 본 실시예에 따른 음성 검출 방법의 성능을 검증하기 위해 다양한 잡음환경에서 실험을 진행하였다. 훈련과 실험과정을 위해서 네 명의 남성화자와 네 명의 여성화자의 음성신호는 1 m, 3 m, 5 m 거리에서 녹음되었으며, 음성 신호와 잡음신호와의 위상은 0°, 90°, 180°에서 녹음되었다.
제안된 기술은 총 네 가지 기초 벡터들의 조합으로 실험되었다.
The proposed(A): LT-전력레벨 비율차이, ST-전력레벨 비율차이, 위상벡터
The proposed(B): LT-전력레벨 비율차이, ST-전력레벨 비율차이, 코히어런스(Coherence)
The proposed(C): LT-전력레벨 비율차이, 위상벡터, 코히어런스(Coherence)
The proposed(D): LT-전력레벨 비율차이, ST-전력레벨 비율차이, 위상벡터, 코히어런스(Coherence)
아래의 표 1은 음성신호와 잡음신호의 위상이 0° 일 때, 기존 단일 기초벡터들과 제안하는 음성구간 검출 기술에 대한 성능을 나타낸 것이다.
Figure 112015103812959-pat00082
여기서,
Figure 112015103812959-pat00083
는 음성이 존재하는 구간을 맞춘 확률을 나타내며,
Figure 112015103812959-pat00084
는 음성 부재구간을 맞춘 확률을 나타내고, 수치가 높을수록 성능이 좋은 것을 의미한다.
표 1에서 가장 좋은 기술은 진하게 표시되었다. 모든 잡음신호 상황에서 제안하는 기술이 기존의 단일 기초벡터를 이용한 음성 검출 기술보다 정확함을 확인할 수 있다. 그 중에서도 특히 proposed(A)가 가장 높은 적중도를 보이는 것을 확인할 수 있다.
아래의 표 2 및 표 3은 음성 신호와 잡음 신호의 위상이 각각 90°, 180° 일 때, 기존 단일 기초벡터들과 제안하는 음성구간 검출 기술에 대한 성능을 나타낸다.
Figure 112015103812959-pat00085
Figure 112015103812959-pat00086
표 2 및 표 3을 참조하면, 표 1과 마찬가지로 모든 잡음신호 상황에서 본 실시예에 따른 음성 검출 방법이 기존의 단일 기초벡터를 이용한 음성 검출 방법보다 정확함을 확인할 수 있다. 특히, babble과 office 잡음 환경에서 음성 검출 성능이 뛰어남을 확인할 수 있다.
도 4 내지 도 6은 기존 전력레벨 비율차이 음성 검출 장치와 제안하는 음성 검출 장치에 대한 ROC 커브를 나타낸다.
도 4는 잡음의 위상 0도에서 기존 음성 검출 장치와 일 실시예에 따른 음성 검출 장치와의 ROC 커브를 비교한 도면이다.
도 5는 잡음의 위상 90도에서 기존 음성 검출 장치와 일 실시예에 따른 음성 검출 장치와의 ROC 커브를 비교한 도면이다.
도 6은 잡음의 위상 180도에서 기존 음성 검출 장치와 일 실시예에 따른 음성 검출 장치와의 ROC 커브를 비교한 도면이다.
도 4 내지 도 6을 참조하면, 그래프는 실제 음성을 음성으로 검출한 음성 검출 확률과, 음성 부재구간을 음성으로 검출한 오경보 확률을 각각 y축과 x축으로 하여, 보다 그래프의 면적이 넓을수록 높은 성능을 나타낸다. 제안된 그래프는 각각 (a) babble (b) office (c) white (d) factory 잡음을 나타낸다. 모든 잡음상황에서 본 실시예에 따른 음성 검출 장치가 뛰어난 성능을 나타낸다.
이와 같이 기존 전력레벨 비율차이 음성 검출 장치 등을 비롯한 2 채널 마이크 기반의 음성 검출 장치는 다양한 잡음환경에서 취약하다. 이상에서 설명한 실시예들에 따르면 다양한 공간정보를 기반으로 한 기초벡터를 기반으로 상이한 가중치를 산출하고, 이를 기초벡터에 적용하여 도출한 값이 미리 설정된 문턱값과 비교하여 상기 신호가 음성신호 인지를 판단하는 음성 검출 장치 및 음성 검출 방법을 제공할 수 있다. 이에 따라 2 채널 기반의 음성 검출 장치를 보다 다양한 잡음환경에 강인하게 함으로써, 다양한 통신기술에 적용하여 음성인식의 확률이나 음성의 품질을 높일 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (16)

  1. 잡음 신호로부터 복수의 기초벡터들을 각각 추출하는 단계;
    최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 상기 기초벡터의 음성존재확률을 계산하는 단계;
    계산된 상기 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 단계;
    입력 신호로부터 추출된 상기 복수의 기초벡터들에 각각 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계; 및
    계산된 각각의 상기 기초벡터의 음성존재확률에 상기 가중치를 적용하여 최적 음성존재확률을 도출하여 음성존재구간을 검출하는 단계를 포함하고,
    상기 기초벡터는, 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나이며,
    상기 음성존재확률을 계산하는 단계는,
    두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하는 단계; 및
    고유 분해된 고유벡터 행렬을 정규화하여 각 주파수별 위상벡터로부터 현재 프레임의 상기 위상벡터를 산출하고 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계
    를 포함하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법.
  2. 제1항에 있어서,
    상기 기초벡터의 최적화된 가중치를 산출하는 단계는,
    GPD(Generalized Probabilistic Descent)에 기반한 MCE(Minimum Classification Error) 기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법.
  3. 삭제
  4. 제1항에 있어서,
    상기 음성존재확률을 계산하는 단계는,
    상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하는 단계;
    상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율을 산출하는 단계; 및
    상기 롱텀 전력레벨 차이비율을 기하평균으로 나타낸 후 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계
    를 포함하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법.
  5. 제4항에 있어서,
    상기 음성존재확률을 계산하는 단계는,
    상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하는 단계;
    상기 숏텀 전력레벨 차이(ST-PLD)로부터 상기 숏텀 전력레벨 차이비율을 산출하는 단계; 및
    상기 롱텀 전력레벨 차이비율을 반영하여 상기 숏텀 전력레벨 차이비율을 기하평균으로 나타낸 후, 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계
    를 포함하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법.
  6. 삭제
  7. 잡음 신호로부터 복수의 기초벡터들을 각각 추출하는 단계;
    최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 상기 기초벡터의 음성존재확률을 계산하는 단계;
    계산된 상기 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 단계;
    입력 신호로부터 추출된 상기 복수의 기초벡터들에 각각 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계; 및
    계산된 각각의 상기 기초벡터의 음성존재확률에 상기 가중치를 적용하여 최적 음성존재확률을 도출하여 음성존재구간을 검출하는 단계를 포함하고,
    상기 기초벡터는, 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나이며,
    상기 음성존재확률을 계산하는 단계는,
    상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하는 단계;
    상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율을 산출하는 단계; 및
    상기 롱텀 전력레벨 차이비율을 기하평균으로 나타낸 후 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계를 포함하고,
    상기 음성존재확률을 계산하는 단계는,
    상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여, 현재 프레임의 상기 코히어런스(Coherence) 함수를 산정하는 단계; 및
    상기 코히어런스(Coherence) 함수를 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 단계
    를 더 포함하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법.
  8. 제1항 또는 제7항에 있어서,
    상기 최적 음성존재확률을 도출하여 음성존재구간을 검출하는 단계는,
    MAP(maximum a posteriori probability) 기법에 의해 최종적으로 음성존재구간을 검출하는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법.
  9. 제8항에 있어서,
    상기 MAP 기법에 의해 도출된 값이 미리 설정된 문턱값보다 클 경우 상기 입력 신호는 음성 신호로 판단되며, 상기 미리 설정된 문턱값보다 작을 경우 상기 입력 신호는 비음성 신호로 판단되는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 방법.
  10. 잡음 신호로부터 복수의 기초벡터들을 각각 추출하고, 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 상기 기초벡터의 음성존재확률을 계산하며, 계산된 상기 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 기초벡터 가중치 산정부;
    입력부를 통해 입력되는 입력 신호로부터 추출된 상기 복수의 기초벡터들에 각각 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하고, 계산된 각각의 상기 기초벡터의 음성존재확률에 상기 가중치를 적용하여 최적 음성존재확률을 도출하는 음성 검출 제어부; 및
    상기 제어부에서 도출된 상기 최적 음성존재확률을 이용하여 음성존재구간을 검출하는 음성 검출 판단부를 포함하고,
    상기 기초벡터는, 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나이며,
    상기 음성 검출 제어부는,
    두 개의 마이크를 통해 입력된 상기 입력 신호를 이산 푸리에 변환 벡터 기반 벡터 형식으로 나타내어 상관(correlation) 행렬을 고유분해 하고, 고유 분해된 고유벡터 행렬을 정규화하여 각 주파수별 위상벡터로부터 현재 프레임의 상기 위상벡터를 산출하고 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치.
  11. 삭제
  12. 제10항에 있어서,
    상기 음성 검출 제어부는,
    상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하고, 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율을 산출하여 기하평균으로 나타낸 후 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치.
  13. 제12항에 있어서,
    상기 음성 검출 제어부는,
    상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 숏텀 전력레벨 차이(Short-term Power Level Difference, ST-PLD)를 산정하고, 상기 숏텀 전력레벨 차이(ST-PLD)로부터 상기 숏텀 전력레벨 차이비율을 산출하며, 상기 롱텀 전력레벨 차이비율을 반영하여 상기 숏텀 전력레벨 차이비율을 기하평균으로 나타낸 후, 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치.
  14. 삭제
  15. 잡음 신호로부터 복수의 기초벡터들을 각각 추출하고, 최적화된 시그모이드(sigmoid) 함수의 파라미터를 구하여 각각의 상기 기초벡터의 음성존재확률을 계산하며, 계산된 상기 기초벡터의 음성존재확률을 기반으로 변별적 가중치 학습기법을 이용하여 각각의 상기 기초벡터의 최적화된 가중치를 산출하는 기초벡터 가중치 산정부;
    입력부를 통해 입력되는 입력 신호로부터 추출된 상기 복수의 기초벡터들에 각각 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하고, 계산된 각각의 상기 기초벡터의 음성존재확률에 상기 가중치를 적용하여 최적 음성존재확률을 도출하는 음성 검출 제어부; 및
    상기 제어부에서 도출된 상기 최적 음성존재확률을 이용하여 음성존재구간을 검출하는 음성 검출 판단부를 포함하고,
    상기 기초벡터는, 롱텀(Long-term) 전력레벨 비율차이, 숏텀(Short-term) 전력레벨 비율차이, 코히어런스(Coherence) 함수, 및 위상벡터(phase vector) 중 적어도 하나이며,
    상기 음성 검출 제어부는,
    상기 입력 신호가 입력되는 두 개의 마이크 사이의 전력레벨 차이(Power Level Difference, PLD)에 재귀평균기법을 적용하여 롱텀 전력레벨 차이(Long-term Power Level Difference, LT-PLD)를 산정하고, 상기 롱텀 전력레벨 차이(LT-PLD)로부터 상기 롱텀 전력레벨 차이비율을 산출하여 기하평균으로 나타낸 후 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하며, 상기 두 개의 마이크로 입력된 상기 입력 신호의 전력 스펙트럼 밀도, 교차 전력 스펙트럼 밀도, 및 상기 롱텀 전력레벨 차이비율 기반의 잡음 신호의 교차 스펙트럼 밀도를 반영하여, 현재 프레임의 상기 코히어런스(Coherence) 함수를 산정하고, 상기 코히어런스(Coherence) 함수를 상기 시그모이드 함수의 파라미터를 이용하여 상기 기초벡터의 음성존재확률을 계산하는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치.
  16. 제10항 또는 제15항에 있어서,
    상기 음성 검출 판단부는,
    MAP(maximum a posteriori probability) 기법에 의해 최종적으로 음성존재구간을 검출하며, 상기 MAP 기법에 의해 도출된 값이 미리 설정된 문턱값보다 클 경우 상기 입력 신호는 음성 신호로 판단되며, 상기 미리 설정된 문턱값보다 작을 경우 상기 입력 신호는 비음성 신호로 판단되는 것
    을 특징으로 하는 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치.
KR1020150148802A 2015-10-26 2015-10-26 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법 KR101711302B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150148802A KR101711302B1 (ko) 2015-10-26 2015-10-26 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150148802A KR101711302B1 (ko) 2015-10-26 2015-10-26 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR101711302B1 true KR101711302B1 (ko) 2017-03-02

Family

ID=58427240

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150148802A KR101711302B1 (ko) 2015-10-26 2015-10-26 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101711302B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112967738A (zh) * 2021-02-01 2021-06-15 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质
CN113598759A (zh) * 2021-09-13 2021-11-05 曲阜师范大学 一种基于肌电特征优化的下肢动作识别方法及系统
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jae-Hun Choi, et al., ‘Dual-microphone voice activity detection technique based on two-step power level difference ratio’, IEEE/ACM Trans. on Audio, Speech, and Language Processing, Vol.22, No.6, pp.1* *
강상익, 장준혁, ‘궤환구조를 가지는 변별적 가중치 학습에 기반한 음성검출기’, 한국음향학회지, 제27권, 제8호, pp.443~449, 2008년.* *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021253235A1 (zh) * 2020-06-16 2021-12-23 华为技术有限公司 语音活动检测方法和装置
CN112967738A (zh) * 2021-02-01 2021-06-15 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质
CN113598759A (zh) * 2021-09-13 2021-11-05 曲阜师范大学 一种基于肌电特征优化的下肢动作识别方法及系统
CN113598759B (zh) * 2021-09-13 2023-09-22 曲阜师范大学 一种基于肌电特征优化的下肢动作识别方法及系统

Similar Documents

Publication Publication Date Title
KR101704926B1 (ko) 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법
US11395061B2 (en) Signal processing apparatus and signal processing method
EP3479377B1 (en) Speech recognition
US10127922B2 (en) Sound source identification apparatus and sound source identification method
KR101871604B1 (ko) 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
KR102605736B1 (ko) 주파수 변화에 강인한 음향 이벤트 검출 방법 및 그 장치
JP2021516369A (ja) 混合音声の認識方法、装置及びコンピュータ可読記憶媒体
US9384760B2 (en) Sound processing device and sound processing method
US9208782B2 (en) Speech processing device, speech processing method, and speech processing program
US8693287B2 (en) Sound direction estimation apparatus and sound direction estimation method
KR102087307B1 (ko) 잔향 환경에 강인한 음원 방향 추정을 위한 심화 신경망 기반의 앙상블 음원 방향 추정 방법 및 장치
KR20150093801A (ko) 신호 소스 분리
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
US10748544B2 (en) Voice processing device, voice processing method, and program
KR101811524B1 (ko) 심화신경망을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 방법
KR101711302B1 (ko) 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법
Dov et al. Kernel-based sensor fusion with application to audio-visual voice activity detection
US11900949B2 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
US11562765B2 (en) Mask estimation apparatus, model learning apparatus, sound source separation apparatus, mask estimation method, model learning method, sound source separation method, and program
KR101704925B1 (ko) Evs 코덱 파라미터를 이용한 심화 신경망 기반의 음성 검출 장치 및 그 방법
JP6538624B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP5994639B2 (ja) 有音区間検出装置、有音区間検出方法、及び有音区間検出プログラム
WO2019194300A1 (ja) 信号分析装置、信号分析方法および信号分析プログラム
KR20180068467A (ko) 음성 인식 방법 및 음성 인식 장치
US11297418B2 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200102

Year of fee payment: 4