KR20110034360A - 사용자 음성을 이용한 위치 추적 장치 및 그 방법 - Google Patents
사용자 음성을 이용한 위치 추적 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20110034360A KR20110034360A KR1020090091867A KR20090091867A KR20110034360A KR 20110034360 A KR20110034360 A KR 20110034360A KR 1020090091867 A KR1020090091867 A KR 1020090091867A KR 20090091867 A KR20090091867 A KR 20090091867A KR 20110034360 A KR20110034360 A KR 20110034360A
- Authority
- KR
- South Korea
- Prior art keywords
- voice
- channel
- signal
- sound source
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004807 localization Effects 0.000 title description 5
- 238000005516 engineering process Methods 0.000 claims abstract description 27
- 238000000926 separation method Methods 0.000 claims description 30
- 238000012795 verification Methods 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 14
- 238000011084 recovery Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 abstract description 7
- 238000006731 degradation reaction Methods 0.000 abstract description 7
- 239000000872 buffer Substances 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000009432 framing Methods 0.000 description 8
- 230000003139 buffering effect Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 230000000903 blocking effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000012880 independent component analysis Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 사용자의 음성을 이용한 위치 추적 장치 및 그 방법에 관한 것으로, 입력되는 2채널의 음원 신호를 각각의 음원별로 분리하는 음원 분리부에 의해 분리된 각각의 음원 신호로부터 산란 잡음을 제거하고, 음원 위치 추적을 위해 잔여 신호 성분을 강조하도록 필터링하는 스테레오 위너 필터부, 사용자의 음성을 인식하고, 음성 인식 결과에 대한 신뢰도를 측정하는 음성 인식부, 상기 음성 인식부로부터의 음성 인식 결과와 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 채널 선택부, 타겟 채널의 신호 및 간섭 채널의 신호를 분석하여 음원 위치를 추적하는 음원 위치 추적부를 포함한다. 본 발명에 따르면, 암묵적 음원 분리 기술, 스테레오 위너 필터 기술, 음성인식 및 발화검증 기술, 음원 위치 추적 기술을 유기적으로 통합함으로써, 보다 정확하고 주변 환경에 강인한 사용자 음성 위치 추적이 가능한 이점이 있다.
Description
본 발명은 사용자 음성을 이용한 위치 추적 장치 및 그 방법에 관한 것으로, 가정 내 부가잡음 및 반향에 의한 음성 인식 및 화자 위치 추적의 성능저하 문제를 극복하고, 이로 인해 사용자 음성을 이용하여 보다 정확한 음원 위치 추적이 가능하도록 하는 사용자 음성을 이용한 위치 추적 장치 및 그 방법에 관한 것이다.
본 발명은 지식 경제부의 IT성장동력기술개발산업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].
우리들이 일상생활을 영위하는 가정환경(Domestic Environment)에는 여러 가지 종류의 부가 잡음원(Additive Noise Source)이 존재하기 때문에 가정환경에서 발성된 화자(Speaker)의 음성신호는 부가 잡음원들에 의해 원래의 특성이 손상되는 경우가 많이 발생하게 된다.
가정환경에서 흔히 찾아 볼 수 있는 부가 잡음원들에는 텔레비전과 같은 멀티미디어 전자장치, 라디오와 같은 오디오 음향 장치, 각종 게임기기, 진공청소기, 수도시설, 냉장고, 에어컨, 기타 등과 같은 가정기기(Domestic Appliance)들이 있다.
이와 같은 부가 잡음원에 의하여 손상된 음성신호로부터 음성발성 화자의 위치를 추적하는 것은 현재의 디지털 신호처리 기술(Digital Signal Processing)로서는 매우 어렵다.
또한, 우리들의 주거 공간인 집의 실내공간에서 음성을 발성하는 경우, 원래의 음성신호 이외에도 음성신호가 벽면 혹은 가구 등에 반사되어 발생하는 반향음(Reverberation) 신호 성분이 발생하게 된다.
반향음의 특성은 방의 크기와 벽의 구성재료, 가구의 배치 및 그 구성재료, 화자의 위치, 기온과 습도 등의 영향을 받아 같은 실내환경에서도 그 특성이 일정하게 유지되지 않는 특징을 가지고 있다.
이러한 반향음은 화자의 원래 음성신호 성분 외에 가상의 음성신호 성분(Virtual Speech Signal Component)을 만들어 내기 때문에 부가 잡음(Additive Noise)과 더불어, 가정환경에서 자동음성인식 시스템(Automatic Speech Recognition System) 및 화자위치추적 시스템(Speaker Localization System)의 성능을 저하시키는 주요원인으로 알려져 있다.
부가 잡음에 의해 오염된 음성신호로부터 반향성분을 제거하는 기술은 현재기술 수준으로도 그 해결이 어려워 기존의 사용자 음원 위치 추적 알고리즘인 Generalized Cross-Correlation(GCC) Method, Phase-Transform(PHAT) 방법 등을 적용하여도 그 성능이 크게 저하되는 문제를 가지고 있다.
또한, 부가 잡음 및 반향 잡음 문제에 강인한 사용자 음원 위치 추적을 위하여 음원 분리 알고리즘이 최근 적용되고 있는데, 이 방법을 살펴보면 음원 분리를 위하여 주변 환경을 신호 혼합 필터로 linear approximation 한다.
이후, 이렇게 구한 신호 혼합 필터의 역변환 필터를 이용하여 각각의 음원을 분리해 내고, 주요 화자의 음성을 검출하여 주요 화자의 음성신호가 포함되어 있는 채널 출력을 선택한다.
그런 다음, 선택된 타겟 채널 신호를 음원 분리에 사용된 신호 혼합 필터를 이용하여 다채널 입력신호로 복원한다. 마지막으로 기존의 사용자 음원 위치 추적 알고리즘인 Generalized Cross-Correlation(GCC) Method, Phase-Transform(PHAT) 방법 등을 적용하여 타겟 화자의 위치를 찾는다.
이러한 알고리즘을 적용할 경우, 타겟 화자의 출력 채널을 찾고 이 타겟 화자의 음성신호와 신호 혼합 필터를 적용하여 다채널 신호로 복원하는 과정 등에 많은 계산량이 소요되게 된다.
상기한 문제를 해결하기 위한 본 발명의 목적은, 2채널 마이크로폰, 암묵적 음원분리기술(Blind Source Separation, BSS), HMM(Hidden Markov Model)을 이용한 자동음성인식기술(Automatic Speech Recognition, ASR), 발화 검증(Utterance Verification, UV)기술, 음원 위치 추적기술(Sound Source Localization, SSL)을 유기적으로 통합하여 가정내, 부가잡음 및 반향에 의한 음성 인식 성능저하 문제를 극복하도록 하는 사용자의 음성을 이용한 위치 추적 장치 및 그 방법을 제공함에 있다.
또한, 본 발명의 다른 목적은, 부가잡음 및 반향에 의한 음성 인식 성능저하 문제를 해결하고, 사용자 음성을 이용하여 보다 정확한 음원 위치 추적이 가능하도록 하는 사용자의 음성을 이용한 위치 추적 장치 및 그 방법을 제공함에 있다.
상기한 목적을 달성하기 위한 본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치는, 입력되는 2채널의 신호를 각각의 음원별로 분리하는 음원 분리부, 상기 음원 분리부에 의해 분리된 각각의 음원 신호로부터 산란 잡음을 제거하고, 잔여 신호 성분을 강조하도록 필터링하는 스테레오 위너 필터부, 상기 각각의 음원 신호로부터 사용자의 음성을 인식하고, 음성 인식 결과에 대한 신뢰도를 측정하는 음성 인식부, 상기 음성 인식부로부터의 음성 인식 결과와 상기 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 채널 선택부, 및 상기 채널 선택부 에 의해 선택된 타겟 채널의 신호와, 간섭 채널의 신호를 분석하여 음원 위치를 추적하는 음원 위치 추적부를 포함한다.
상기 음원 분리부는, 암묵적 음원 분리 기술을 이용하여 상기 2채널의 신호를 각각의 음원별로 분리하는 것을 특징으로 한다.
상기 스테레오 위너 필터부는, 스테레오 위너 필터 기술을 이용하여 상기 각각의 음원 신호를 필터링하는 것을 특징으로 한다.
상기 스테레오 위너 필터부는, 입력된 음원 신호에 대한 프레임 에너지 기반의 음성 활동을 감지하는 음성 활동 감지부, 상기 음성 활동 감지부로부터 입력된 신호에 근거하여 위너 필터 계수를 추정하는 위너 필터 계수 추정부, 상기 추정된 위너 필터 계수를 이용하여 상기 입력된 채널의 신호에 대한 스테레오 위너 필터링을 수행하는 위너 필터부, 및 상기 필터링된 각 채널의 신호를 복원하는 신호 복원부를 포함하는 것을 특징으로 한다.
상기 각 채널의 신호로부터 음성 신호의 끝점을 각각 검출하는 음성 끝점 검출부를 더 포함하는 것을 특징으로 한다.
상기 음성 인식부는, 각 채널의 음원 신호로부터 음성 인식을 위한 음성 특징을 추출하는 특징 추출부, 상기 특징 추출부로부터 추출된 음성 특징에 근거하여 각 채널의 신호에 대한 사용자의 음성을 인식하는 음성 인식 디코더, 및 상기 음성 인식 디코더로부터의 음성 인식 결과에 대한 음성 인식 신뢰도를 측정하여 상기 음성 인식 디코더로부터의 음성 인식 결과를 검증하는 발화 검증부를 포함하는 것을 특징으로 한다.
상기 채널 선택부는, 상기 각 채널의 음원 신호 중 하나의 채널에서만 사용자의 음성이 검출되고, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높은 경우, 해당 채널을 타겟 채널로 선택하는 것을 특징으로 한다.
상기 채널 선택부는, 상기 각 채널의 음원 신호에서 사용자의 음성이 모두 검출된 경우, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높고, 두 채널의 신호 중 음성 인식 결과에 대한 신뢰도가 높은 채널을 타겟 채널로 선택하는 것을 특징으로 한다.
상기 채널 선택부에 의해 선택된 타겟 채널의 신호로부터 유성음 프레임을 검출하는 유성음 프레임 검출부를 더 포함하는 것을 특징으로 한다.
상기 유성음 프레임 검출부는, 변경 시간 주파수 특징, 고주파수-저주파수 밴드 에너지 비, 제로 크로싱 비율, 레벨 크로싱 비율, 정규화된 자기 상관 최대 값, 유성음 확률, 자기 상관 함수의 피크 대 밸리 비, AMDF 최소 값 중 적어도 하나의 유성음 특징을 이용하여 유성음 프레임을 검출하는 것을 특징으로 한다.
상기 유성음 프레임 검출부는, 입력된 타겟 채널의 신호로부터 프레임을 추출하여 에너지를 추정하고, 추출된 프레임에 대한 파워 추정 결과에 근거하여 특정 주파수 영역에서의 에너지를 산정하여, 상기 추정된 에너지와 상기 산정된 에너지로부터 상기 변경 시간 주파수 특징을 구하는 것을 특징으로 한다.
상기 유성음 프레임 검출부는, 상기 유성음 특징을 임계값과 비교하여 음성 특징 비(Voicing Feature Ratio)를 산출하고, 상기 산출된 음성 특징 비가 기 정의된 임계값 보다 크면, 해당 프레임을 유성음 프레임으로 판별하는 것을 특징으로 한다.
상기 채널 선택부에 의해 선택된 타겟 채널의 신호와, 타겟 채널로 선택되지 않은 간섭 채널의 신호에 대하여 음성 주파수 구간을 강조하도록 필터링하는 밴드 패스 필터부를 더 포함하는 것을 특징으로 한다.
한편, 상기한 목적을 달성하기 위한 사용자의 음성을 이용한 위치 추적 방법은, 입력된 2채널의 신호를 각각의 음원별로 분리하는 단계, 상기 음원 분리하는 단계에서 분리된 각각의 음원 신호를 필터링하는 단계, 상기 각각의 음원 신호로부터 음성의 끝점을 검출하고, 상기 끝점이 검출된 신호를 이용하여 음성을 인식하는 단계, 상기 음성을 인식하는 단계의 음성 인식 결과 및 상기 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 단계, 및 상기 타겟 채널의 신호로부터 검출된 유성음 프레임과, 상기 타겟 채널 및 간섭 채널의 음성 주파수 구간을 분석하여 음원 위치를 추적하는 단계를 포함하는 것을 특징으로 한다.
상기 필터링하는 단계는, 입력된 각각의 음원 신호에 대한 프레임 에너지 기반의 음성 활동을 감지하는 단계, 상기 음성 활동 감지 결과 및 PSD 스펙트럼 추정 결과에 근거하여 위너 필터 계수를 추정하는 단계, 상기 추정된 위너 필터 계수를 이용하여 상기 입력된 각각의 음원 신호에 대한 스테레오 위너 필터링을 수행하는 단계, 및 상기 스테레오 위너 필터링된 각각의 음원 신호를 복원하는 단계를 더 포함하는 것을 특징으로 한다.
상기 각 채널의 음원 신호로부터 음성 신호의 끝점을 각각 검출하는 단계를 더 포함하는 것을 특징으로 한다.
상기 음성을 인식하는 단계는, 각 채널의 음원 신호로부터 음성 인식을 위한 음성 특징을 추출하는 단계, 상기 추출된 음성 특징에 근거하여 각 채널의 음원 신호에 대한 사용자의 음성을 인식하는 단계, 및 상기 음성 인식 결과에 대한 음성 인식 신뢰도를 측정하여 상기 음성 인식 결과를 검증하는 단계를 포함하는 것을 특징으로 한다.
상기 타겟 채널을 선택하는 단계는, 상기 각 채널의 음원 신호 중 하나의 채널에서만 사용자의 음성이 검출되고, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높은 경우, 해당 채널을 타겟 채널로 선택하고, 상기 각 채널의 음원 신호에서 사용자의 음성이 모두 검출된 경우, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높고, 두 채널의 신호 중 음성 인식 결과에 대한 신뢰도가 높은 채널을 타겟 채널로 선택하는 것을 특징으로 한다.
상기 타겟 채널을 선택하는 단계에서 선택된 타겟 채널의 신호로부터 유성음 프레임을 검출하는 단계를 더 포함하며, 상기 유성음 프레임을 검출하는 단계는, 상기 유성음 특징을 임계값과 비교하여 음성 특징 비(Voicing Feature Ratio)를 산출하고, 상기 산출된 음성 특징 비가 기 정의된 임계값 보다 크면, 해당 프레임을 유성음 프레임으로 판별하는 것을 특징으로 한다.
상기 타겟 채널을 선택하는 단계에서 선택된 타겟 채널의 신호와, 타겟 채널로 선택되지 않은 간섭 채널의 신호에 대하여 음성 주파수 구간을 강조하도록 필터링하는 단계를 더 포함하는 것을 특징으로 한다.
본 발명에 따르면, 암묵적 음원 분리 기술, 스테레오 위너 필터 기술, 음성인식 및 발화검증 기술, 그리고 인간의 음성신호성분을 강조하는 음원 위치 추적 기술을 유기적으로 통합함으로써, 간섭잡음, 산란잡음, 그리고 반향음에 의한 음성인식 저하 문제 및 화자 위치 추적 알고리즘의 성능저하 문제를 해소하고, 이로 인하여 보다 정확하고 주변 환경에 강인한 사용자 음성 위치 추적이 가능한 이점이 있다.
이하, 첨부된 도면을 참조하여 본 발명의 구체적인 실시예를 설명한다.
본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치 및 그 방법은 2채널 마이크로폰, 암묵적 음원분리(Blind Source Separation, BSS) 기술, HMM(Hidden Markov Model)을 이용한 자동음성인식(Automatic Speech Recognition, ASR) 기술, 발화 검증(Utterance Verification, UV) 기술, 음원 위치 추적(Sound Source Localization, SSL) 기술을 유기적으로 통합하여 가정 내 부가잡음 및 반향음에 의한 화자 위치 추적의 성능저하 문제를 극복하고자 한다.
먼저, 암묵적 음원분리(Blind Source Separation, BSS) 기술은 Multi-channel Input, Multi-channel Output(MIMO) 방식의 음원 분리 및 음질 향상 기술로서, 사용자의 음성신호와 부가잡음을 분리하여, 사용자의 음성신호에 대한 음질을 향상시키는데 이용된다.
이때, 암묵적 음원분리 기술은 주로 cocktail party problem을 해결하기 위 한 방안으로 다양한 알고리즘들이 개발되고 있다.
여기서, Cocktail party problem이란, 칵테일 파티에서와 같이 여러 명의 화자가 동시에 얘기를 하는 경우 특정화자의 음성에 집중을 할 수 있는 능력을 말한다.
이러한, 암묵적 음원 분리기술의 원리는 다중 채널 입력 신호(Multi-channel Input Signal)들로부터 주변환경 파라미터(Environmental Parameter)들을 추정하고, 그 역필터(Inverse Filter)를 이용하여 필터링(Filtering)함으로써, 음원들 각각의 원래 신호를 복원하는 것이다.
또한, 각각의 출력 채널에는 잔여 신호(Residual Signal)라 불리는 간섭 음원의 신호성분(Interference Signal Components)이 존재하게 된다.
따라서, 본 발명에서는 실시간 암묵적 음원 분리(Real-time Blind Source Separation, RT BSS) 기술을 적용하여 얻어진 사용자 음성신호와 사용자 음성신호의 잔여 신호 성분을 이용하여 사용자의 위치를 추적한다.
또한, 본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치에 적용되는 암묵적 음원 분리 기술은 2channel time-domain independent component analysis(TD-ICA) 알고리즘을 적용하고, 분리된 사용자 음성신호의 음질을 더욱 향상시키고 간섭채널에 잔존하는 사용자 음성 신호 성분을 강조하기 위하여 stereo Wiener Filter 기술을 적용한다.
본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치는 상기와 같은 암묵 적 음원분리 기술을 front-end processor로 사용함으로써, 부가 잡음과 반향음에 의한 화자 위치 추적 알고리즘의 성능저하 문제를 해소할 수 있다.
본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치에 대한 구체적인 설명은, 도면 설명과 함께 아래의 실시예를 참조한다.
먼저, 도 1은 본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치의 구성을 설명하는데 참조되는 블록도이다.
도 1에 도시된 바와 같이, 본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치는 2채널 마이크로폰, 음원 분리부(10), 스테레오 위너 필터부(20, 30), 끝점 추출부(40, 50), 음성 인식부(60, 70), 채널 선택부(80), 채널 버퍼링부(90), 유성음 프레임 검출부(100), 밴드 패스 필터부(110, 120), 및 음원 위치 추적부(130)를 포함한다.
먼저, 음원 분리부(10)는 2채널 마이크로폰으로부터 입력되는 2채널의 여러 음원들이 혼합된 신호를 각각의 음원별로 분리한다. 이때, 음원 분리부(10)는 time-domain independent component analysis(TD-ICA) 알고리즘 기반의 암묵적 음원 분리 기술을 적용하여 분리한다. 이때, 음원 분리부(10)에 의해 분리된 각 음원들은 스테레오 위너 필터부(20, 30)로 전달된다.
또한, 스테레오 위너 필터부(20, 30)는 음원 분리부(10)에 의해 분리된 각각 의 음원 신호를 필터링한다. 이때, 스테레오 위너 필터부(20, 30)는 제1 필터부(20)와, 제2 필터부(30)를 포함한다.
여기서, 스테레오 위너 필터부(20, 30)는 스테레오 위너 필터(Stereo Wiener filter)를 이용하여 입력된 음원 신호를 필터링한다. 이때, 스테레오 위너 필터부(20, 30)는 음원 분리 후 남아있는 산란 잡음(diffused noise)을 제거하고, 다른 채널에 남아 있는 잔여 신호 성분을 강조한다.
예를 들어, 제1 필터부(20)는 채널1을 reference signal로 하여 위너 필터 계수를 추정하고, 음원 분리부(10)에 의해 음원 분리된 채널1, 2의 출력신호에 동일하게 적용하여 채널2에 남아 있는 채널1의 잔여 신호 성분(Residual Signal Component)를 강조한다.
한편, 제2 필터부(30)는 제1 필터부(20)와는 반대로, 채널2를 대조 신호(reference signal)로 하여 위너 필터 계수를 추정하고, 음원 분리부(10)에 의해 분리된 채널1, 2의 출력신호에 동일하게 적용하여 채널1에 남아 있는 채널2의 잔여 신호 성분(Residual Signal Component)을 강조한다.
스테레오 위너 필터부(20, 30)는 분리된 각각의 음원 신호로부터 자동 음성 인식의 성능을 저하시키는 산란 잡음(diffused noise)을 제거하고, 각 음원 신호에 남아 있는 잔여 신호 성분을 강조함으로써, 화자의 음성을 인식함에 있어서 보다 정확한 음성 인식 결과를 도출해 낼 수 있다. 스테레오 위너 필터부(20, 30)에 대한 구체적인 동작은 도 2의 설명을 참조한다.
한편, 끝점 검출부(40, 50)는 채널1의 신호로부터 끝점을 검출하여 버퍼링하는 제1 끝점 검출부(40)와, 채널2의 신호로부터 끝점을 검출하여 버퍼링하는 제2 끝점 검출부(50)를 포함한다.
제1 끝점 검출부(40)와 제2 끝점 검출부(50)는 스테레오 위너 필터부(20, 30)로부터 입력된 각 채널의 신호를 이용하여 음성의 끝점을 검출하고, 끝점이 검출된 각 채널의 신호와 이에 상응하는 다른 채널의 신호를 버퍼링한다.
예를 들어, 제1 끝점 검출부(40)는 채널 1의 신호를 이용하여 음성의 끝점을 검출하는 역할을 수행하고, 아울러 끝점이 검출된 채널 1의 신호와 이에 상응하는 채널 2의 신호를 버퍼링한다.
한편, 제2 끝점 검출부(50)는 채널 2의 신호를 이용하여 음성의 끝점을 검출하는 역할을 수행하고, 아울러 끝점이 검출된 채널 2의 신호와 이에 상응하는 채널 1의 신호를 버퍼링해 둔다. 향후, 제1 끝점 검출부(40)와 제2 끝점 검출부(50)에 의해 버퍼링된 신호는 사용자의 위치를 추적하는데 이용된다.
또한, 음성 인식부(60, 70)는 자동음성인식 기술을 이용하여 끝점 검출부(40, 50)부에 의해 끝점이 검출된 각 채널의 신호로부터 음성을 인식한다. 이때, 음성 인식부(60, 70)는 채널1의 신호로부터 음성을 인식하는 제1 음성 인식부(60)와, 채널2의 신호로부터 음성을 인식하는 제2 음성 인식부(70)를 포함한다.
음성 인식부(60, 70)로 입력된 신호는 암묵적 음원 분리기술과 위너 필터 기술이 이미 적용되어 음질이 향상된 신호이므로, 음성을 인식하는데 더욱 용이한 효 과를 나타낸다.
한편, 채널 선택부(80)는 제1 음성 인식부(60)와 제2 음성 인식부(70)로부터 입력된 두 채널의 신호 중 사용자의 음성이 포함된 채널을 선택한다.
이때, 채널 선택부(80)는 제1 음성 인식부(60)와 제2 음성 인식부(70)의 음성인식 결과와 음성인식 신뢰도 측정값을 기반으로 사용자의 음성이 포함된 타겟(target) 채널을 선택한다.
만일, 하나의 채널에서만 음성이 검출되고 자동음성인식 결과 신뢰도 값이 임계값 보다 높은 경우, 채널 선택부(80)는 해당 채널을 타겟 채널로 선택한다.
한편, 채널 선택부(80)는 두 채널에서 동시에 음성이 검출된 경우에는 자동음성인식 결과 신뢰도가 임계값 보다 높고, 두 채널 중 상대적으로 신뢰도가 높은 채널을 타겟 채널로 선택한다.
채널 선택부(80)에 대한 구체적인 동작은 도 3 및 도 4의 설명을 참조한다.
채널 버퍼링부(90)는 채널 선택부(80)에 의해 타겟 채널이 선택되면, 선택된 타겟 채널의 스테레오 위너 필터(stereo Wiener filter)로부터의 출력 신호를 버퍼링한다.
만일, 채널1이 타겟 채널로 선택되면, 제1 필터부(20)에 의해 필터링된 신호를 버퍼링하고, 채널2가 타겟 채널로 선택되면, 제2 필터부(30)에 의해 필터링된 신호를 버퍼링한다.
유성음 프레임 검출부(100)는 채널 버퍼링부(90)에 의해 버퍼링된 신호로부터 유성음 프레임을 검출한다. 이때, 유성음 프레임 검출부(100)는 타겟 채널 신호로부터 유성음 프레임을 검출한다.
유성음 프레임 검출부(100)에 대한 구체적인 동작은 도 5의 설명을 참조한다.
밴드 패스 필터부(110, 120)는 채널 버퍼링부(90)에 의해 버퍼링된 신호를 이용하여 각 채널 신호를 필터링 한다. 이때, 밴드 패스 필터부(110, 120)는 각 채널 신호에 포함된 음성의 주파수 구간을 강조한다.
또한, 밴드 패스 필터부(110, 120)는 타겟 채널의 신호를 필터링하는 제1 밴드 패스 필터부(110)와, 간섭 채널(두 채널의 신호 중 사용자의 음성을 포함하는 타겟 채널을 제외한 채널은 간섭 채널로 인식함)의 신호를 필터링하는 제2 밴드 패스 필터부(120)를 포함한다.
여기서, 제1 밴드 패스 필터부(110)는 타겟 채널에 대한 음성 주파수 구간(2~4kHz)을 강조하고, 제2 밴드 패스 필터부(120)는 간섭 채널의 음성 주파수 구간(2~4kHz)을 강조한다.
이때, 밴드 패스 필터부(110, 120)에서 각 채널에 대한 음성 주파수 구간을 강조하는데 적용되는 식은 아래 [수학식 1]과 같다.
밴드 패스 필터부(110, 120)는 각 채널의 음성 주파수 구간이 강조된 신호를 음원 위치 추적부(130)로 전달한다.
따라서, 음원 위치 추적부(130)는 밴드 패스 필터부(110, 120)로부터 각 채널에 대한 음성 주파수 구간이 강조된 신호를 입력받음으로써, 음원 위치를 추적하는데 있어서 보다 정확한 위치를 추적할 수 있는 이점이 있다.
이때, 음원 위치 추적부(130)는 phase-transform(PHAT) 알고리즘을 적용하여 사용자의 음원 위치를 추적한다.
여기서, phase-transform(PHAT) 알고리즘은, "A. Brutti, M. Omologo, and P Svizer, Comparison between different sound source localization techniques based on a real data collection,◎in Proc . Joint Workshop on Hands - Free Speech Communication and Microphone Arrays, pp. 69-72, May 2008"의 내용을 참조한다.
앞에서 설명한 바와 같이, 스테레오 위너 필터는 각각 정해진 채널의 신호를 대조 신호로 하고, 이를 기반으로 위너 필터 기반의 전달함수(Transfer Function)를 구한다. 이렇게 구해진 위너 필터 전달함수(Wiener Filter Transfer Function) 를 이용하여 2채널 신호에 동일하게 적용함으로써, 대조 채널에서는 대조 신호의 음질을 향상시킬 뿐만 아니라 간섭 채널에 남아 있는 대조 신호의 잔여 신호 성분을 강조하는 역할을 수행하게 된다. 따라서 이렇게 얻어진 2채널 신호는 향후, 타겟 채널이 선택된 후, 화자 위치 추적을 위해 사용되게 된다.
도 2는 본 발명에 따른 스테레오 위너 필터부의 구성을 설명하는데 참조되는 블록도로서, 상세하게는 제1 필터부의 구성을 도시한 블록도이다.
도 2에 도시된 바와 같이, 제1 필터부(20)는 신호 프레이밍부(21), 음성 활동 감지부(22), 퓨리에 변환부(23), PSD 스펙트럼 추정부(24), 위너 필터 계수 추정부(25), 위너 필터부(26), 및 신호 복원부(27)를 포함한다. 여기서, 제1 필터부(20)는 음원 분리부(10)에 의해 분리된 채널1의 신호뿐만 아니라 채널2의 신호 또한 함께 입력받는다.
신호 프레이밍부(21)는 채널1의 신호를 가지고 Time-domain signal framing 기능을 수행하는 제1 신호 프레이밍부(21a)와, 채널2의 신호를 가지고 Time-domain signal framing 기능을 수행하는 제2 신호 프레이밍부(21b)를 포함한다.
이때, 제1 신호 프레이밍부(21a)는 채널1의 신호를 음성 활동 감지부(22)와 퓨리에 변환부(23)로 전달한다. 한편, 제2 신호 프레이밍부(21b)는 채널2의 신호를 위너 필터부(제2 위너 필터부(26b))로 전달한다.
또한, 음성 활동 감지부(22)는 채널1의 신호에 대한 프레임 에너지 기반의 음성 활동 감지(Voiced Activity Detection, VAD) 기능을 수행한다.
퓨리에 변환부(23)는 채널1의 신호에 대한 빠른 퓨리에 변환(Fast Fourier Transform, FFT) 기능을 수행한다.
PSD 스펙트럼 추정부(24)는 퓨리에 변환된 채널1의 신호로부터 (Power Spectral Density, PSD) 스펙트럼을 추정하는 기능을 수행한다.
위너 필터 계수 추정부(25)는 음성 활동 감지부(22) 및 PSD 스펙트럼 추정부(24)로부터 입력된 신호에 기초하여 채널1에 대한 위너 필터 계수(Wiener filter coefficient)를 추정하는 기능을 수행한다. 이때, 위너 필터 계수 추정부(25)는 추정된 위너 필터 계수를 위너 필터부(26)로 전달한다.
또한, 위너 필터부(26)는 입력된 신호에 대하여 위너 필터 기능을 수행한다. 이때, 위너 필터부(26)는 채널1의 신호를 위너 필터 계수 추정부(25)로부터 추정된 위너 필터 계수를 이용하여 위너 필터 기능을 수행하는 제1 위너 필터부(26a)와, 채널2의 신호를 위너 필터 계수 추정부(25)로부터 추정된 위너 필터 계수를 이용하여 위너 필터 기능을 수행하는 제2 위너 필터부(26b)를 포함한다.
신호 복원부(27)는 위너 필터부(26)에 의해 필터링된 신호에 대하여 Time-domain de-noised signal reconstruction 기능을 수행한다. 이때, 신호 복원부(27)는 제1 위너 필터부(26a)에 의해 필터링된 신호를 복원하는 제1 신호 복원부(27a)와, 제2 위너 필터부(26b)에 의해 필터링된 신호를 복원하는 제2 신호 복원부(27b)를 포함한다.
물론, 도 2는 제1 필터부(20)의 구성을 구체적으로 도시한 것이나, 제2 필터부(30) 또한 동일한 방법으로 동작함은 당연한 것이다. 단, 제2 필터부(30)에서는 채널1과 채널2가 서로 반대로 적용된다.
도 3은 본 발명에 따른 음성 인식부의 구성을 설명하는데 참조되는 블록도이다. 특히, 도 3은 음성 인식부와 끝점 검출부 및 채널 선택부와의 관계를 나타낸 것이다.
앞에서 설명한 바와 같이, 2채널의 출력 신호 중에서 사용자의 음성 신호가 존재하는 타겟 채널을 검출하기 위해서는 타겟 채널 선택 알고리즘을 이용한다.
도 3에 도시된 바와 같이, 본 발명에 따른 음성 인식부는 특징 추출부, 음성 인식 디코더, 및 발화 검증부를 포함한다.
먼저, 특징 추출부는 채널1의 신호를 입력받아 처리하는 제1 특징 추출부(61)와, 채널2의 신호를 입력받아 처리하는 제2 특징 추출부(71)를 포함한다.
이때, 제1 특징 추출부(61)는 채널1의 신호로부터 끝점을 추출하는 제1 음성 끝점 검출부(40)로부터 신호를 입력받는다. 또한, 제2 특징 추출부(71)는 채널1의 신호로부터 끝점을 추출하는 제2 음성 끝점 검출부(50)로부터 신호를 입력받는다.
한편, 음성 인식 디코더는 채널1의 신호를 입력받아 처리하는 제1 음성 인식 디코더(65)와, 채널2의 신호를 입력받아 처리하는 제2 음성 인식 디코더(75)를 포함한다.
또한, 발화 검증부(Utterance verification)는 채널1의 신호를 입력받아 처리하는 제1 발화 검증부(69)와, 채널2의 신호를 입력받아 처리하는 제2 발화 검증부(79)를 포함한다.
먼저, 제1 음성 끝점 검출부(40)는 채널1의 신호로부터 음성의 끝점을 검출하여 버퍼링하고, 버퍼링된 신호를 제1 특징 추출부(61)로 전달한다.
이때, 제1 특징 추출부(61)는 채널1의 신호로부터 음성 인식을 위한 음성 특징을 추출한다. 이후, 제1 특징 추출부(61)는 추출된 음성 특징 정보를 제1 음성 인식 디코더(65)로 전달한다.
한편, 제1 음성 인식 디코더(65)는 제1 특징 추출부(61)로부터 추출된 음성 특징에 근거하여 채널1의 신호에 대한 사용자의 음성을 인식한다.
이후, 제1 발화 검증부(69)는 제1 음성 인식 디코더(65)로부터의 음성 인식 결과에 대한 신뢰도를 판단하여 해당 음성 신호를 검증한다. 여기서, 제1 발화 검증부(69)는 채널1의 음성 신호에 대한 검증 결과를 채널 선택부(80)로 전달한다.
한편, 제2 음성 끝점 검출부(50)는 채널1의 신호로부터 음성의 끝점을 검출하여 버퍼링하고, 버퍼링된 신호를 제2 특징 추출부(71)로 전달한다.
이때, 제2 특징 추출부(71)는 채널2의 신호로부터 음성 인식을 위한 음성 특징을 추출한다. 이후, 제2 특징 추출부(71)는 추출된 음성 특징 정보를 제1 음성 인식 디코더(75)로 전달한다.
한편, 제2 음성 인식 디코더(75)는 제2 특징 추출부(71)로부터 추출된 음성 특징에 근거하여 채널2의 신호에 대한 사용자의 음성을 인식한다.
제2 발화 검증부(79)는 제2 음성 인식 디코더(75)로부터의 음성 인식 결과에 대한 신뢰도를 판단하여 해당 음성 신호를 검증한다. 제2 발화 검증부(79)는 채널2의 음성 신호에 대한 검증 결과를 채널 선택부(80)로 전달한다.
이때, 채널 선택부(80)는 채널1과 채널2에 대한 제1 발화 검증부(69) 및 제2 발화 검증부(79)로부터의 음성 인식 신뢰도를 기반으로 타겟 채널을 선택한다.
채널 선택부(80)에서 채널1과 채널2 중 타겟 채널을 선택하는 동작은 도 4를 참조한다.
도 4는 채널 선택부(80)에서 타겟 채널을 선택하기 위한 프로그래밍 소스를 나타낸 것이다.
도 4를 참조하면, 채널 선택부(80)는 채널1과 채널2로부터 끝점이 감지되었는지를 판단한다. 만일, 채널 선택부(80)는 채널1과 채널2에서 끝점이 모두 감지된 것으로 판단되면, 채널1 및 채널2의 신뢰도(CV_ch1, CV_ch2)와 임계치(Th)를 비교한다.
채널 선택부(80)는 CV_ch1와, CV_ch2가 모두 임계치(Th)보다 큰 경우에는, CV_ch1과 CV_ch2를 비교하여, CV_ch1가 크면 채널1을 타겟 채널로 선택하고, CV_ch2가 크면 채널2를 타겟 채널로 선택한다.
또한, 채널 선택부(80)는 CV_ch1가 임계치(Th)보다 크고, CV_ch2는 임계 치(Th) 보다 작은 경우에는 채널1을 타겟 채널로 선택하고, 그 반대인 경우에는 채널2를 타겟 채널로 선택한다.
한편, 채널 선택부(80)는 채널1에서만 끝점이 감지된 경우에는 CV_ch1가 임계치(Th) 보다 크면 채널1을 타겟 채널로 선택한다.
만일, 채널 선택부(80)는 채널2에서만 끝점이 감지된 경우에는 CV_ch2가 임계치(Th) 보다 크면 채널2를 타겟 채널로 선택한다.
도 5는 본 발명에 따른 유성음 프레임 검출부(100)의 구성을 설명하는데 참조되는 블록도이다.
유성음 프레임 검출부(100)는 채널 버퍼링부(90)로부터의 입력신호로부터 유성음 프레임 구간을 검출한다. 이때, 유성음 프레임 검출부(100)는 아래와 같은 8개의 유성음 특징을 이용하여 유성음 프레임을 검출한다.
1. 잡음에 강한 밴드 에너지 기반의 변경 시간 주파수 특징(Modified time-frequency(TF) feature based on noise robust band energy).
2. 고주파수에서 저주파수의 밴드 에너지 비(High-to-low frequency band energy ratio, HLFBER).
3. 제로 크로싱 비율(Zero crossing rate, ZCR).
4. 레벨 크로싱 비율(Level crossing rate, LCR).
5. 정규화된 자기 상관 최대 값(Normalized autocorrelation maximum value, NAMV).
6. YIN 알고리즘 기반의 유성음 확률(Voicing probability based on YIN algorithm).
7. 자기 상관 함수의 피크 대 밸리 비(Peak-to-valley ratio, PVR).
8. AMDF(Average magnitude difference function) 최소 값.
이 중, 도 5는 첫번째 유성음 특징인 잡음에 강한 밴드 에너지 기반의 변경 시간 주파수 특징을 구하는데 적용되는 구성을 나타낸 것이다.
도 5에 도시된 바와 같이, 본 발명에 따른 유성음 프레임 검출부(100)는 프레임 블로킹부(101), 에너지 추정부(102), 퓨리에 변환부(103), FFT 파워 추정부(104), 에너지 산정부(105), 조정부(106), 및 양자화부(107)를 포함한다.
먼저, 프레임 블로킹부(101)는 채널 버퍼링부(90)로부터의 입력신호로부터 프레임을 블로킹하여, 에너지 추정부(102), 퓨리에 변환부(103)로 전달하는 기능을 수행한다.
에너지 추정부(102)는 프레임 블로킹부(101)에 의해 블로킹된 프레임 중 시간 영역 프레임(Time-Domain frame)에 대한 에너지를 추정한다. 이후, 에너지 추정부(102)에 의해 추정된 에너지는 에너지 산정부(105)에 의해 산정된 에너지와 함께 잡음에 강한 밴드 에너지 기반의 변경 시간 주파수 특징을 구하는데 이용된다.
한편, 퓨리에 변환부(103)는 프레임 블로킹부(101)에 의해 블로킹된 프레임에 대한 빠른 퓨리에 변환(Fast Fourier Transform, FFT)을 수행하고, 수행 결과를 FFT 파워 추정부(104)로 전달한다. 이때, FFT 파워 추정부(104)는 퓨리에 변환부(103)로부터 빠른 퓨리에 변환된 프레임에 대한 파워를 추정한다.
이후, 에너지 산정부(105)는 파워 추정부(104)의 파워 추정 결과에 근거하여 특정 주파수 영역에서의 에너지를 산정한다. 다시 말해, 에너지 산정부(105)는 250~3600Hz 주파수 영역에서의 에너지를 산정한다.
조정부(106)는 에너지 추정부(102)에 의해 추정된 에너지를 조정하고, 에너지 산정부(105)에 의해 산정된 에너지를 조정한다.
양자화부(107)는 에너지 추정부(102)에 의해 추정된 에너지와 에너지 신정부에 의해 산정된 에너지를 이용하여 양자화를 수행함으로써, 잡음에 강한 밴드 에너지 기반의 변경 시간 주파수 특징을 구하게 된다.
한편, 유성음 프레임 검출부(100)는 아래 [수학식 2]를 이용하여 두번째 유성음 특징인 고주파수에서 저주파수로의 밴드 에너지 비(HLFBER)를 산출한다.
[수학식 2]에서와 같이, 고주파수에서 저주파수로의 밴드 에너지 비(HLFBER)는 고주파수 영역 에너지인 highbandE를 저주파수 영역 에너지인 lowbandE로 나누어 구할 수 있다. 이때, 고주파수 영역은 4kHz 내지 8kHz 영역으로서, highbandE는 4kHz 내지 8kHz 영역의 에너지를 말한다. 또한, 저주파수 영역은 0kHz 내지 4kHz 영역으로서, lowbandE는 0kHz 내지 4kHz 영역의 에너지를 말한다.
그 외에, 세번째 유성음 특징 내지 여덟 번째 유성음 특징은 통상적으로 널리 알려져 있는 방법을 이용하여 구할 수 있으며, 이에 대한 구체적일 설명은 생략한다.
유성음 프레임 검출부(100)는 앞서 검출된 여덟 개의 유성음 특징들을 임계값과 비교하여 음성 특징 비(Voicing Feature Ratio)를 산출한다. 이때, 유성음 프레임 검출부(100)는 음성 특징비를 산출하는데, 아래 [수학식 3]을 이용한다.
여기서, Voicing Counter는 특징값이 기 정의된 문턱치와 비교하여, 유성음으로 판별이 될 수 있는 경우를 카운트한 값이다.
한편, 유성음 프레임 검출부(100)는 [수학식 3]에 의해 산출된 음성 특징 비가 기 정의된 임계값 보다 높으면, 해당 프레임이 유성음 프레임으로 판별하게 된다.
이때, 기 정의된 문턱치와 임계값은 선험적인 방법으로 구할 수 있다.
유성음 프레임 검출부(100)는 상기에서 서술한 방법으로 검출한 유성음 프레임을 음원 위치 추적부(130)로 전달한다.
상기와 같이 구성되는 본 발명의 동작 방법을 설명하면 다음과 같다.
도 6은 본 발명에 따른 사용자의 음성을 이용한 위치 추적 방법에 대한 동작 흐름을 도시한 순서도이다.
도 6에 도시된 바와 같이, 2채널 마이크로폰을 통해 2채널의 여러 음원들이 혼합된 신호가 입력되면(S600), 음원 분리부(10)는 입력된 2채널의 신호에 대하여 암묵적 음원 분리를 수행한다(S610). 이때, 음원 분리부(10)는 2채널의 신호를 각각의 음원별로 분리한다.
'S610' 과정에서 음원 분리가 완료되면, 스테레오 위너 필터부는 'S610' 과정에서 분리된 각각의 음원 신호를 필터링 한다(S620). 이때, 'S620' 과정에서는 스테레오 위터 필터를 이용하여 각 음원 신호를 필터링 한다.
또한, 제1 끝점 검출부(40) 및 제2 끝점 검출부(50)는 각 채널 신호로부터 음성의 끝점을 검출한 후, 버퍼링을 수행한다(S630). 'S630' 과정에서 끝점이 검출되지 않은 채널은 간섭 채널(interference channel)로 인식된다.
이후, 'S630' 과정에서 끝점이 검출된 채널의 신호를 이용하여 음성 인식 동작을 수행하는데(S640), 채널 선택부(80)는 'S640' 과정의 음성 인식 결과를 각 채널별로 비교하여(S650), 타겟 채널(terget channel)을 선택하게 된다(S660). 이때, 채널 선택부(80)는 음성 인식 결과 각 채널의 신호 중 사용자의 음성이 포함된 채널을 타겟 채널로 선택한다.
한편, 채널 인식부는 'S630' 과정에서 끝점이 검출되지 않은 채널은 타겟 채널 선택 대상에서 제외시킨다.
'S660' 과정에서 선택된 타겟 채널 신호에 대한 스테레오 위너 필터의 출력 신호를 버퍼링 하고(S670), 이때 유성음 프레임 검출부(100)는 'S670' 과정에서 버퍼링된 신호로부터 유성음 프레임을 검출한다(S680).
또한, 밴드 패스 필터부는 'S660' 과정에서 선택된 타겟 채널 신호와 간섭 채널 신호 각각에 대하여 음성 주파수 구간을 필터링한다(S690).
마지막으로, 음원 위치 추적부(130)는 'S680' 및 'S690' 과정의 결과로부터 음원 위치를 추적하고(S700), 음원 위치 추적 결과를 출력한다(S710).
본 발명에 따른 사용자의 음성을 이용한 음원 위치 추적 장치 및 그 방법은 암묵적 음원 분리 기술을 이용하여 채널별로 신호를 분리하고, 스테레오 위터 필터를 이용하여 타겟 채널 신호의 음질을 더욱 향상시킬 뿐만 아니라, 간섭 채널에 존재하는 사용자의 음성 신호 성분 또한 강조함으로써, 음원 위치를 추적하는데 용이하다.
이상에서와 같이 본 발명에 따른 사용자 음성을 이용한 위치 추적 장치 및 그 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
도 1 은 본 발명에 따른 사용자의 음성을 이용한 위치 추적 장치에 대한 구성을 도시한 블록도이다.
도 2 는 본 발명에 따른 스테레오 위너 필터부의 세부 구성을 도시한 블록도이다.
도 3 은 본 발명에 따른 음성 인식부의 구성을 도시한 블록도이다.
도 4 는 본 발명에 따른 채널 선택부의 동작 설명에 참조되는 예시도이다.
도 5 는 본 발명에 따른 유성음 프레임 검출부의 세부 구성을 도시한 블록도이다.
도 6 은 본 발명에 따른 사용자의 음성을 이용한 위치 추적 방법에 대한 동작 흐름을 도시한 순서도이다.
Claims (20)
- 입력되는 2채널의 신호를 각각의 음원별로 분리하는 음원 분리부;상기 음원 분리부에 의해 분리된 각각의 음원 신호로부터 산란 잡음을 제거하고, 잔여 신호 성분을 강조하도록 필터링하는 스테레오 위너 필터부;상기 각각의 음원 신호로부터 사용자의 음성을 인식하고, 음성 인식 결과에 대한 신뢰도를 측정하는 음성 인식부;상기 음성 인식부로부터의 음성 인식 결과와 상기 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 채널 선택부; 및상기 채널 선택부에 의해 선택된 타겟 채널의 신호와, 간섭 채널의 신호를 분석하여 음원 위치를 추적하는 음원 위치 추적부;를 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 음원 분리부는,암묵적 음원 분리 기술을 이용하여 상기 2채널의 신호를 각각의 음원별로 분리하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 스테레오 위너 필터부는,스테레오 위너 필터 기술을 이용하여 상기 각각의 음원 신호를 필터링하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 스테레오 위너 필터부는,입력된 음원 신호에 대한 프레임 에너지 기반의 음성 활동을 감지하는 음성 활동 감지부;상기 음성 활동 감지부로부터 입력된 신호에 근거하여 위터 필터 계수를 추정하는 위너 필터 계수 추정부;상기 추정된 위너 필터 계수를 이용하여 상기 입력된 채널의 신호에 대한 스테레오 위너 필터링을 수행하는 위너 필터부; 및상기 필터링된 각 채널의 신호를 복원하는 신호 복원부;를 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 각 채널의 신호로부터 음성 신호의 끝점을 각각 검출하는 음성 끝점 검출부;를 더 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 음성 인식부는,각 채널의 음원 신호로부터 음성 인식을 위한 음성 특징을 추출하는 특징 추출부;상기 특징 추출부로부터 추출된 음성 특징에 근거하여 각 채널의 신호에 대한 사용자의 음성을 인식하는 음성 인식 디코더; 및상기 음성 인식 디코더로부터의 음성 인식 결과에 대한 음성 인식 신뢰도를 측정하여 상기 음성 인식 디코더로부터의 음성 인식 결과를 검증하는 발화 검증부;를 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 채널 선택부는,상기 각 채널의 음원 신호 중 하나의 채널에서만 사용자의 음성이 검출되고, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높은 경우, 해당 채널을 타겟 채널로 선택하는 것을 특징으로 하는 사용자의 음성을 이용한 음원 위치 추적 장치.
- 청구항 1에 있어서,상기 채널 선택부는,상기 각 채널의 음원 신호에서 사용자의 음성이 모두 검출된 경우, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높고, 두 채널의 신호 중 음성 인식 결과에 대한 신뢰도가 높은 채널을 타겟 채널로 선택하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 채널 선택부에 의해 선택된 타겟 채널의 신호로부터 유성음 프레임을 검출하는 유성음 프레임 검출부;를 더 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 9에 있어서,상기 유성음 프레임 검출부는,변경 시간 주파수 특징, 고주파수-저주파수 밴드 에너지 비, 제로 크로싱 비율, 레벨 크로싱 비율, 정규화된 자기 상관 최대 값, 유성음 확률, 자기 상관 함수의 피크 대 밸리 비, AMDF 최소 값 중 적어도 하나의 유성음 특징을 이용하여 유성음 프레임을 검출하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 9에 있어서,상기 유성음 프레임 검출부는,입력된 타겟 채널의 신호로부터 프레임을 추출하여 에너지를 추정하고, 추출된 프레임에 대한 파워 추정 결과에 근거하여 특정 주파수 영역에서의 에너지를 산정하여, 상기 추정된 에너지와 상기 산정된 에너지로부터 상기 변경 시간 주파수 특징을 구하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 10에 있어서,상기 유성음 프레임 검출부는,상기 유성음 특징을 임계값과 비교하여 음성 특징 비(Voicing Feature Ratio)를 산출하고, 상기 산출된 음성 특징 비가 기 정의된 임계값 보다 크면, 해당 프레임을 유성음 프레임으로 판별하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 청구항 1에 있어서,상기 채널 선택부에 의해 선택된 타겟 채널의 신호와, 타겟 채널로 선택되지 않은 간섭 채널의 신호에 대하여 음성 주파수 구간을 강조하도록 필터링하는 밴드 패스 필터부;를 더 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 장치.
- 입력된 2채널의 신호를 각각의 음원별로 분리하는 단계;상기 음원 분리하는 단계에서 분리된 각각의 음원 신호를 필터링하는 단계;상기 각각의 음원 신호로부터 음성의 끝점을 검출하고, 상기 끝점이 검출된 신호를 이용하여 음성을 인식하는 단계;상기 음성을 인식하는 단계의 음성 인식 결과 및 상기 음성 인식 결과에 대한 신뢰도에 근거하여 타겟 채널을 선택하는 단계; 및상기 타겟 채널의 신호로부터 검출된 유성음 프레임과, 상기 타겟 채널 및 간섭 채널의 음성 주파수 구간을 분석하여 음원 위치를 추적하는 단계;를 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 방법.
- 청구항 14에 있어서,상기 필터링하는 단계는,입력된 각각의 음원 신호에 대한 프레임 에너지 기반의 음성 활동을 감지하는 단계;상기 음성 활동 감지 결과 및 PSD 스펙트럼 추정 결과에 근거하여 위너 필터 계수를 추정하는 단계;상기 추정된 위너 필터 계수를 이용하여 상기 입력된 각각의 음원 신호에 대한 스테레오 위너 필터링을 수행하는 단계; 및상기 스테레오 위너 필터링된 각각의 음원 신호를 복원하는 단계;를 더 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 방법.
- 청구항 14에 있어서,상기 각 채널의 음원 신호로부터 음성 신호의 끝점을 각각 검출하는 단계;를 더 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 방법.
- 청구항 14에 있어서,상기 음성을 인식하는 단계는,각 채널의 음원 신호로부터 음성 인식을 위한 음성 특징을 추출하는 단계;상기 추출된 음성 특징에 근거하여 각 채널의 음원 신호에 대한 사용자의 음성을 인식하는 단계; 및상기 음성 인식 결과에 대한 음성 인식 신뢰도를 측정하여 상기 음성 인식 결과를 검증하는 단계;를 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 방법.
- 청구항 14에 있어서,상기 타겟 채널을 선택하는 단계는,상기 각 채널의 음원 신호 중 하나의 채널에서만 사용자의 음성이 검출되고, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높은 경우, 해당 채널을 타겟 채널로 선택하고,상기 각 채널의 음원 신호에서 사용자의 음성이 모두 검출된 경우, 음성 인식 결과에 대한 신뢰도가 임계값 보다 높고, 두 채널의 신호 중 음성 인식 결과에 대한 신뢰도가 높은 채널을 타겟 채널로 선택하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 방법.
- 청구항 14에 있어서,상기 타겟 채널을 선택하는 단계에서 선택된 타겟 채널의 신호로부터 유성음 프레임을 검출하는 단계;를 더 포함하며,상기 유성음 프레임을 검출하는 단계는, 상기 유성음 특징을 임계값과 비교하여 음성 특징 비(Voicing Feature Ratio)를 산출하고, 상기 산출된 음성 특징 비가 기 정의된 임계값 보다 크면, 해당 프레임을 유성음 프레임으로 판별하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 방법.
- 청구항 14에 있어서,상기 타겟 채널을 선택하는 단계에서 선택된 타겟 채널의 신호와, 타겟 채널로 선택되지 않은 간섭 채널의 신호에 대하여 음성 주파수 구간을 강조하도록 필터링하는 단계;를 더 포함하는 것을 특징으로 하는 사용자의 음성을 이용한 위치 추적 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090091867A KR101253610B1 (ko) | 2009-09-28 | 2009-09-28 | 사용자 음성을 이용한 위치 추적 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090091867A KR101253610B1 (ko) | 2009-09-28 | 2009-09-28 | 사용자 음성을 이용한 위치 추적 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110034360A true KR20110034360A (ko) | 2011-04-05 |
KR101253610B1 KR101253610B1 (ko) | 2013-04-11 |
Family
ID=44042965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090091867A KR101253610B1 (ko) | 2009-09-28 | 2009-09-28 | 사용자 음성을 이용한 위치 추적 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101253610B1 (ko) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150114714A (ko) * | 2014-04-02 | 2015-10-13 | 한국과학기술연구원 | 잡음 환경에서 음원 위치를 추정하는 장치 및 방법 |
WO2019198857A1 (ko) * | 2018-04-13 | 2019-10-17 | 삼성전자 주식회사 | 공기 조화기 및 공기 조화기의 제어 방법 |
KR20200010124A (ko) * | 2018-07-19 | 2020-01-30 | 난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드 | 음성을 인식하기 위한 방법 및 장치 |
CN112201275A (zh) * | 2020-10-09 | 2021-01-08 | 深圳前海微众银行股份有限公司 | 声纹分割方法、装置、设备及可读存储介质 |
CN113270099A (zh) * | 2021-06-29 | 2021-08-17 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
KR20210155421A (ko) * | 2020-06-15 | 2021-12-23 | 주식회사 스쿨버스 | 통학차량 탑승자 관리 시스템 및 그 제어 방법 |
CN114402632A (zh) * | 2019-07-30 | 2022-04-26 | 杜比实验室特许公司 | 在包含智能音频装置的系统中估计用户位置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020009203A1 (en) * | 2000-03-31 | 2002-01-24 | Gamze Erten | Method and apparatus for voice signal extraction |
JP4225430B2 (ja) | 2005-08-11 | 2009-02-18 | 旭化成株式会社 | 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム |
KR100917460B1 (ko) * | 2007-08-07 | 2009-09-14 | 한국과학기술원 | 잡음제거 장치 및 방법 |
KR101449433B1 (ko) * | 2007-11-30 | 2014-10-13 | 삼성전자주식회사 | 마이크로폰을 통해 입력된 사운드 신호로부터 잡음을제거하는 방법 및 장치 |
-
2009
- 2009-09-28 KR KR1020090091867A patent/KR101253610B1/ko not_active IP Right Cessation
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150114714A (ko) * | 2014-04-02 | 2015-10-13 | 한국과학기술연구원 | 잡음 환경에서 음원 위치를 추정하는 장치 및 방법 |
WO2019198857A1 (ko) * | 2018-04-13 | 2019-10-17 | 삼성전자 주식회사 | 공기 조화기 및 공기 조화기의 제어 방법 |
EP3748247A4 (en) * | 2018-04-13 | 2021-03-31 | Samsung Electronics Co., Ltd. | AIR CONDITIONER AND AIR CONDITIONER CONTROL PROCESS |
US11428426B2 (en) | 2018-04-13 | 2022-08-30 | Samsung Electronics Co., Ltd. | Air conditioner and method for controlling air conditioner |
KR20200010124A (ko) * | 2018-07-19 | 2020-01-30 | 난징 호라이즌 로보틱스 테크놀로지 컴퍼니 리미티드 | 음성을 인식하기 위한 방법 및 장치 |
US11183179B2 (en) | 2018-07-19 | 2021-11-23 | Nanjing Horizon Robotics Technology Co., Ltd. | Method and apparatus for multiway speech recognition in noise |
CN114402632A (zh) * | 2019-07-30 | 2022-04-26 | 杜比实验室特许公司 | 在包含智能音频装置的系统中估计用户位置 |
KR20210155421A (ko) * | 2020-06-15 | 2021-12-23 | 주식회사 스쿨버스 | 통학차량 탑승자 관리 시스템 및 그 제어 방법 |
CN112201275A (zh) * | 2020-10-09 | 2021-01-08 | 深圳前海微众银行股份有限公司 | 声纹分割方法、装置、设备及可读存储介质 |
CN112201275B (zh) * | 2020-10-09 | 2024-05-07 | 深圳前海微众银行股份有限公司 | 声纹分割方法、装置、设备及可读存储介质 |
CN113270099A (zh) * | 2021-06-29 | 2021-08-17 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
CN113270099B (zh) * | 2021-06-29 | 2023-08-29 | 深圳市欧瑞博科技股份有限公司 | 智能语音提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR101253610B1 (ko) | 2013-04-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101253610B1 (ko) | 사용자 음성을 이용한 위치 추적 장치 및 그 방법 | |
Aneeja et al. | Single frequency filtering approach for discriminating speech and nonspeech | |
US9384759B2 (en) | Voice activity detection and pitch estimation | |
US9959886B2 (en) | Spectral comb voice activity detection | |
US9437213B2 (en) | Voice signal enhancement | |
Ratnarajah et al. | Towards improved room impulse response estimation for speech recognition | |
CN110349598A (zh) | 一种低信噪比环境下的端点检测方法 | |
Al-Karawi et al. | Early reflection detection using autocorrelation to improve robustness of speaker verification in reverberant conditions | |
EP2745293B1 (en) | Signal noise attenuation | |
Hayashida et al. | Close/distant talker discrimination based on kurtosis of linear prediction residual signals | |
KR101184394B1 (ko) | 윈도우 분리 직교 모델을 이용한 잡음신호 분리방법 | |
Kallasjoki et al. | Mask estimation and sparse imputation for missing data speech recognition in multisource reverberant environments | |
Unoki et al. | MTF-based power envelope restoration in noisy reverberant environments | |
Giannoulis et al. | The Athena-RC system for speech activity detection and speaker localization in the DIRHA smart home | |
KR101073632B1 (ko) | 반향 환경에서의 영교차 기반 다음원 국지화 방법 및 장치 | |
Tachioka et al. | Dereverberation method with reverberation time estimation using floored ratio of spectral subtraction | |
Wu et al. | Improving speech enhancement with phonetic embedding features | |
Brown et al. | Speech separation based on the statistics of binaural auditory features | |
Farahani et al. | Robust feature extraction of speech via noise reduction in autocorrelation domain | |
Borsky et al. | Noise and channel normalized cepstral features for far-speech recognition | |
Graf et al. | Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra. | |
Fan et al. | Power-normalized PLP (PNPLP) feature for robust speech recognition | |
US12119017B2 (en) | Information processing device, information processing system and information processing method | |
Unoki et al. | Unified denoising and dereverberation method used in restoration of MTF-based power envelope | |
Park et al. | Statistical model-based voice activity detection using spatial cues and log energy for dual-channel noisy speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20160211 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20170616 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180405 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |