KR20110038447A - 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법 - Google Patents

통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법 Download PDF

Info

Publication number
KR20110038447A
KR20110038447A KR1020090095740A KR20090095740A KR20110038447A KR 20110038447 A KR20110038447 A KR 20110038447A KR 1020090095740 A KR1020090095740 A KR 1020090095740A KR 20090095740 A KR20090095740 A KR 20090095740A KR 20110038447 A KR20110038447 A KR 20110038447A
Authority
KR
South Korea
Prior art keywords
signal
target signal
correlation function
target
frame
Prior art date
Application number
KR1020090095740A
Other languages
English (en)
Inventor
이성주
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090095740A priority Critical patent/KR20110038447A/ko
Publication of KR20110038447A publication Critical patent/KR20110038447A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명은 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법에 관한 것으로, 사용자의 위치가 이미 알려져 있다는 가정하에 필터뱅크 출력신호들의 정규화된 상호상관함수를 특징벡터로 하고, 이를 통계적 모델을 이용하여 모델링함으로써, 다양한 음향적 잡음원들과 음성이 혼재하는 열악한 잡음 환경에서 사용자의 음성이 존재하는 음성 프레임 구간을 검출함으로써, 기존에서와 같이 전문가의 선험적인 파라미터 튜닝을 필연적으로 수행하여야만 하는 사용상의 불편한 문제점을 해결할 수 있다. 또한, 본 발명은 통계적 모델을 기반으로 화자위치를 이용한 목표 신호 검출 장치 및 그 방법을 제공함으로써, 사용자의 음성이 존재하는 음성 프레임 구간을 잡음 환경에 무관하게 검출할 수 있다.
목표 신호, 검출, 통계적 모델, 오디오 신호, 프레임

Description

통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법{APPARATUS FOR DETECTING TARGET SIGNAL BY USING STATISTICAL MODEL AND ITS METHOD}
본 발명은 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법에 관한 것으로, 보다 상세하게는 음향적 잡음원과 음성이 혼재하는 상황에서 음성이 존재하는 신호 구간을 검출하도록 하는 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-04, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성 인터페이스 기술개발].
음향적 잡음원은 일상의 환경에서 가장 흔하게 존재하는 잡음원으로서, 이 잡음원들에 의해 발생된 부가 잡음들로부터 사용자의 음성신호만을 녹취하는 방법에 대한 연구는 음성통신분야, 음성인식분야, 청각 장애인을 위한 보청기 분야 등, 여러 가지 응용분야에서 유용하게 사용될 수 있는 잠재적 가치가 매우 큰 연구분야이다.
최근 들어, 부가 잡음을 제거하여 사용자의 깨끗한 음성신호를 얻기 위하여 다채널 마이크로폰 배열(multi-channel microphone array) 이용에 대한 연구가 활발히 진행중에 있는데, 이는 단채널 음질 향상 기술(single-channel signal enhancement technology)의 한계를 뛰어 넘을 수 있는 잠재적인 능력을 다채널 음질 향상 기술(multi-channel signal enhancement technology)이 가지고 있기 때문이다.
상술한 바와 같이, 다채널 마이크로폰 배열을 이용한 음질 향상 기술을 실제 환경에 적용하기 위해서는 시간에 따라 변화하는 각각의 입력채널의 특성을 동등화하여야 하고 반향이 없어야 하며 화자의 위치 추적을 없애야 하며 목표 신호 검출 등을 원활하게 수행해야 한다.
이 중, 목표 신호 검출은 잡음원(noise source)과 사용자의 음성이 혼재하는 상황에서 사용자의 위치를 이미 알고 있다는 가정하에 사용자의 음성이 존재하는 신호 구간을 검출해 내는 기술을 의미한다.
즉, 차량의 텔레메틱스(telematics) 환경처럼 사용자의 위치와 마이크로폰 배열의 위치가 고정되어 있거나, 화상전화 사용시와 같이 사용자가 항상 마이크로폰 배열 정면에서 말을 하며, 혹은 화자 위치 추적(speaker localization) 기술과 통합되어 화자의 위치를 파악할 수 있는 경우와 같이 사용자의 위치를 미리 파악할 수 있는 경우에 입력 신호로부터 사용자의 음성구간 만을 검출해 내는 기술이다.
이러한 목표 신호 검출에 대한 기술은 GSC(generaliozed side-lobe canceller) 계열의 음향적 빔포머의 주요 구성 요소 기술 중의 하나인 적응 모드 제어(adaptive mode controller) 기술로 사용되거나 암묵적 신호 분리 기술에서 목 표 채널을 찾기 위한 주요 요소 기술로 사용되는 것과 같이 수 많은 잠재적 응용 분야를 지닌 다채널 마이크로폰 배열 기술의 주요한 요소기술들 중의 하나이다.
하지만, 상술한 바와 같이 종래 기술에서 언급된 목표 신호 검출에 대한 기술은 정규화된 상호상관함수를 이용하는 기술이기 때문에 전문가에 의한 선험적인 지식에 의존하므로 인하여 전문가의 선험적인 파라미터 튜닝을 필연적으로 수행하여야만 하는 사용상의 불편한 문제점이 있다.
이에, 본 발명의 기술적 과제는 상술한 바와 같은 문제점을 해결하기 위해 안출한 것으로, 사용자의 위치가 이미 알려져 있다는 가정하에 필터뱅크 출력신호들의 정규화된 상호상관함수를 특징벡터로 하고, 이를 통계적 모델을 이용하여 모델링함으로써, 다양한 음향적 잡음원들과 음성이 혼재하는 열악한 잡음 환경에서 사용자의 음성이 존재하는 음성 프레임 구간을 검출하도록 하는 통계적 모델을 기반으로 화자위치를 이용한 목표 신호 검출 장치 및 그 방법을 제공한다.
본 발명의 일 관점에 따른 통계적 모델을 이용한 목표 신호 검출 장치는, 오디오 신호에 해당하는 다수개의 음원 프레임에 대한 조건부 확률들을 계산하고, 조건부 확률들을 통해 정규화된 상호상관함수에 대한 목표신호존재의 경우와 부재의 경우의 조건부 확률의 우도(Λk)를 추정하는 상호상관함수 추정부와, 상호상관함수에 대하여 이동평균으로 밀도를 추정하고, 밀도를 통해 조건부 목표신호부재확률(target signal absence probability)을 생성하는 밀도 추정부와, 조건부 목표신호부재확률에서 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 평균 및 편차를 추정하는 간섭신호 밀도 추정부와, 조건부 목표신호부재확률에 통계적 평균 및 편차를 적용하여 생성시킨 목표신호부재확률을 기정의된 문턱치(threshold)와 비교하여 목표신호프레임을 검출하는 타겟 프레임 검출부와, 다수개의 음원 프레임에 대하여 임계값을 기반으로 VAD(voice activity detection) 정보를 검출하는 음성 활성 검출부와, 통계적 모델을 이용한 목표신호프레임 검출 결과와 입력신호의 에너지를 이용한 VAD 정보 모두가 목표 프레임으로 판별되는 경우 목표신호로 결정하는 타겟 프레임 결정부를 포함한다.
상술한 목표 신호 검출 장치는, 오디오 신호를 디지털 방식으로 변환하는 A/D 변환부와, 디지털 방식의 오디오 신호에 대한 채널의 증폭 및 위상을 동기화하는 채널 동기화부와, 동기화된 디지털 방식의 오디오 신호에 대하여 시간지연으로 필터링하는 필터부와, 필터링된 디지털 방식의 오디오 신호에 대하여 잡음의 에너지가 높은 주파수 대역을 필터링하는 잡음 제거 필터링부와, 고주파 성분이 필터링된 디지털 방식의 오디오 신호에 대하여 필터 뱅크 대역폭에 따른 주파수 성분을 분석하는 분석부와, 주파수 성분이 분석된 디지털 방식의 오디오 신호에 대한 음원 프레이밍 작업으로 다수개의 음원 프레임을 생성하여 상호상관함수 추정부에 제공 하는 프레이밍부와, 주파수 성분이 분석된 디지털 방식의 오디오 신호에 대하여 지연 및 합 빔포밍(delay-and-sum beamforming)을 수행하는 음향적 빔포밍부와, 다수개의 음원 프레임에서 에너지 분광 밀도(power spectral density)를 추정하는 에너지 추정부와, 에너지 분광 밀도가 추정된 다수개의 음원 프레임에 대하여 로그함수로 양자화를 수행하여 음성 활성 검출부에 제공하는 양자화부를 더 포함한다.
상술한 상호상관함수 추정부는, 다수개의 음원 프레임에 대하여 목표신호부재(H0) 및 목표신호존재(H1)로 구분하여 조건부 확률들을 계산하는 것을 특징으로 한다.
상술한 목표신호부재(H0)의 정규화된 상호상관함수에 대한 조건부 확률은,
[수학식]
Figure 112009061752239-PAT00001
(여기서, Rx1x2(n,k)는 n번째 프레임, k번째 필터뱅크(filter bank) 출력의 정규화된 상호상관함수를 의미하고, λn,k는 간섭신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 편차(variance)를 의미하며, mn,k는 간섭신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 평균(mean)을 의미한다.)
을 통해 계산되는 것을 특징으로 한다.
상술한 목표신호존재(H1)의 정규화된 상호상관함수에 대한 조건부 확률은,
[수학식]
Figure 112009061752239-PAT00002
(여기서, Rx1x2(n,k)는 n번째 프레임, k번째 필터뱅크 출력의 정규화된 상호상관함수를 의미하고, λin,k는 간섭신호와 음성신호를 모두 포함한 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 편차를 의미하며, min,k는 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 평균(mean)을 의미한다.)
을 통해 계산되는 것을 특징으로 한다.
상술한 정규화된 상호상관함수에 대한 목표신호존재의 경우와 부재의 경우의 조건부 확률의 우도(Λk)는,
[수학식]
을 통해 계산되는 것을 특징으로 한다.
상술한 조건부 목표신호부재확률은,
[수학식]
Figure 112009061752239-PAT00003
(여기서, q=p(H1)/p(H0)를 나타내며, p(H0)=1-p(H1)인 관계를 의미한다.)
을 통해 계산되는 것을 특징으로 한다.
상술한 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 평균 및 편차는,
[수학식]
Figure 112009061752239-PAT00004
Figure 112009061752239-PAT00005
(여기서,
Figure 112009061752239-PAT00006
n+1,k는 통계적 평균이고,
Figure 112009061752239-PAT00007
n+1,k는 통계적 편차를 의미하고, 간섭신호와 음성신호를 모두 포함한 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 통계적 평균 및 편차를 구하기 위해 if 조건을 제외하고 입력신호에 대해서 평균과 편차를 계속 업데이트 하면서 추정하는 것이 바람직하다.)
을 통해 계산되는 것을 특징으로 한다.
본 발명의 다른 관점에 따른 통계적 모델을 이용한 목표 신호 검출 방법은, 오디오 신호에 해당하는 다수개의 음원 프레임에 대한 조건부 확률들을 계산하고, 조건부 확률들을 통해 정규화된 상호상관함수에 대한 목표신호존재의 경우와 부재의 경우의 조건부 확률의 우도(Λk)를 추정하는 단계와, 상호상관함수에 대하여 이동평균으로 밀도를 추정하고, 밀도를 통해 조건부 목표신호부재확률을 생성하는 단계와, 조건부 목표신호부재확률에서 간섭신호 프레임을 갖는 정규화된 상호상관함 수의 통계적 평균 및 편차를 추정하는 단계와, 조건부 목표신호부재확률에 통계적 평균 및 편차를 적용하여 생성시킨 목표신호부재확률(target absence probability)을 기정의된 문턱치와 비교하여 목표신호프레임을 검출하는 단계와, 다수개의 음원 프레임에 대하여 임계값을 기반으로 입력신호의 에너지를 이용한 VAD 정보를 검출하는 단계와, 통계적 모델을 이용한 목표신호프레임 검출 결과와 입력신호의 에너지를 이용한 VAD 정보 모두가 목표 프레임으로 판별되는 경우 목표신호로 결정하는 단계를 포함한다.
상술한 우도(Λk)를 추정하는 단계는, 오디오 신호를 디지털 방식으로 변환하는 단계와, 디지털 방식의 오디오 신호에 대한 채널의 증폭 및 위상을 동기화하는 단계와, 동기화된 디지털 방식의 오디오 신호에 대하여 시간지연으로 필터링하는 단계와, 필터링된 디지털 방식의 오디오 신호에 대하여 고주파 성분으로 필터링하는 단계와, 고주파 성분이 필터링된 디지털 방식의 오디오 신호에 대하여 필터 뱅크 대역폭에 따른 주파수 성분을 분석하는 단계와, 주파수 성분이 분석된 디지털 방식의 오디오 신호에 대한 음원 프레이밍 작업으로 다수개의 음원 프레임을 생성하여 우도(Λk)를 추정하는 단계를 포함한다.
상술한 입력신호의 에너지를 이용한 VAD 정보를 검출하는 단계는, 주파수 성분이 분석된 디지털 방식의 오디오 신호에 대하여 지연 및 합 빔포밍을 수행하는 단계와, 다수개의 필터뱅크 출력신호에 대하여 빔모밍한 음원 프레임에서 에너지 분광 밀도를 추정하는 단계와, 에너지 분광 밀도가 추정된 다수개의 음원 프레임에 대하여 로그함수로 양자화를 수행하여 VAD 정보를 검출하는 단계를 포함한다.
상술한 목표신호로 결정하는 단계는, 목표신호프레임의 검출 결과와 VAD 정보의 결과에 대하여 모두 목적하는 신호 프레임으로 검출되는 경우, 목표 프레임이 검출된 것으로 판별되고, 검출된 목표 프레임의 결과가 미디언 필터를 이용한 스무딩 과정 그리고 목표 프레임의 끝나는 시점의 hangover 과정을 통해 목표 프레임 검출 결과의 후처리 과정이 수행되어 목표신호가 결정되는 것을 특징으로 한다.
본 발명은 사용자의 위치가 이미 알려져 있다는 가정하에 필터뱅크 출력신호들의 정규화된 상호상관함수를 특징벡터로 하고, 이를 통계적 모델을 이용하여 모델링함으로써, 다양한 음향적 잡음원들과 음성이 혼재하는 열악한 잡음 환경에서 사용자의 음성이 존재하는 음성 프레임 구간을 검출함으로써, 기존에서와 같이 전문가의 선험적인 파라미터 튜닝을 필연적으로 수행하여야만 하는 사용상의 불편한 문제점을 해결할 수 있다.
또한, 본 발명은 통계적 모델을 기반으로 화자위치를 이용한 목표 신호 검출 장치 및 그 방법을 제공함으로써, 사용자의 음성이 존재하는 음성 프레임 구간을 잡음 환경에 무관하게 검출할 수 있다는 이점이 있다.
이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하 기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 통계적 모델을 이용한 목표 신호 검출 장치에 대한 블록 구성도로서, A/D(analog/digital) 변환부(11-1,11-2)와 채널 동기화부(13-1,13-2)와 필터부(15-1,15-2)와 잡음 제거 필터부(17-1,17-2)와 분석부(19-1,19-2)와 프레이밍(framing)부(21-1,21-2)와 상호상관함수 추정부(23-1,23-2)와 밀도 추정부(25)와 간섭신호 프레임 검출부(27)와 간섭신호 밀도 추정부(29)와 타겟 프레임 검출부(31)와 음향적 빔포밍부(33)와 프레이밍부(35)와 에너지 추정부(37)와 양자화부(39)와 음성 활성 검출부(41)와 타겟 프레임 결정부(43) 등을 포함할 수 있다.
A/D(analog/digital) 변환부(11-1,11-2)는 2채널 마이크로폰(S1,S2)으로부터 각각 입력되는 아날로그 방식의 오디오 신호를 디지털 방식의 오디오 신호로 변환하고, 이 변환된 디지털 방식의 오디오 신호를 채널 동기화부(13-1,13-2) 각각에 제공한다.
채널 동기화부(13-1,13-2)는 A/D 변환부(11-1,11-2)로부터 입력되는 디지털 방식의 오디오 신호의 특성이 채널별로 상이함에 따라 이 서로 특성이 다른 두 채널의 증폭 및 위상(amplitude and phase) 특성을 동기화하고, 이 동기화된 디지털 방식의 오디오 신호를 필터부(15-1,15-2)에 제공한다.
필터부(15-1,15-2)는 예컨대, 스티어링(steering) 필터로서, 채널 동기화부(13-1,13-2)로부터 입력되는 동기화된 디지털 방식의 오디오 신호를 사용자의 위치에 대한 시간지연현상을 보상하기 위해 필터링 작업을 수행하고, 이 시간지연현상이 필터링된 디지털 방식의 오디오 신호를 잡음 제거 필터부(17-1,17-2)에 제공한다.
잡음 제거 필터부(17-1,17-2)는 필터부(15-1,15-2)로부터 입력되는 시간지연현상이 필터링된 디지털 방식의 오디오 신호에 대하여 컷 오프 주파수(cutoff frequency)(예컨대, 200∼500㎐)를 갖는 필터를 사용하여 목표신호검출 알고리즘에 악영향을 미치는 잡음의 에너지가 높은 주파수 대역을 필터링, 일 예로 자동차 잡음이 밀집되어 있는 경우에는 0∼500㎐ 대역의 주파수 성분을 필터링하고, 이 필터링된 디지털 방식의 오디오 신호를 분석부(19-1,19-2)에 제공한다.
여기서, 잡음 제거 필터부(17-1,17-2)는 잡음원의 주파수 특성에 따라 컷 오프 주파수의 값을 가변할 수 있는 것이 바람직하다.
분석부(19-1,19-2)는 잡음 제거 필터부(17-1,17-2)로부터 입력되는 주파수 성분이 필터링된 디지털 방식의 오디오 신호에 대하여 각 채널별로 타임 도메인 필터 뱅크를 이용하여 필터 뱅크 대역폭에 따른 주파수 성분을 분석하고, 이 분석된 디지털 방식의 오디오 신호를 프레이밍부(21-1,21-2)와 음향적 빔포밍부(33) 각각 에 제공한다.
프레이밍부(21-1,21-2)는 분석부(19-1,19-2)로부터 입력되는 주파수 성분이 분석된 디지털 방식의 오디오 신호에 대한 음원 프레이밍 작업을 수행하여 다수개의 음원 프레임을 생성하고, 이 생성된 다수개의 음원 프레임을 상호상관함수 추정부(23-1,23-2)에 제공한다.
상호상관함수 추정부(23-1,23-2)는 프레이밍부(21-1,21-2)로부터 입력되는 다수개의 음원 프레임에 대하여 목표신호부재(H0)인 경우 [수학식 1]
Figure 112009061752239-PAT00008
(여기서, Rx1x2(n,k)는 n번째 프레임, k번째 필터뱅크(filter bank) 출력의 정규화된 상호상관함수를 의미하고, λn,k는 간섭신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 편차(variance)를 의미하며, mn,k는 간섭신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 평균(mean)을 의미한다.)
을 통해 H0의 정규화된 상호상관함수에 대한 조건부 확률을 계산하고,
더불어, 목표신호존재(H1)인 경우 [수학식 2]
Figure 112009061752239-PAT00009
(여기서, Rx1x2(n,k)는 n번째 프레임, k번째 필터뱅크 출력의 정규화된 상호상관함수를 의미하고, λin,k는 간섭신호와 음성신호를 모두 포함한 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 편차를 의미하며, min,k는 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 평균(mean)을 의미한다.)
를 통해 H1의 정규화된 상호상관함수에 대한 조건부 확률을 계산하며,
상술한 [수학식 1]과 [수학식 2]의 조건부 확률을 [수학식 3]
Figure 112009061752239-PAT00010
을 통해 정규화된 상호상관함수의 조건부 확률에 대한 목표신호존재의 경우와 부재의 경우의 우도(likelihood ratio)(Λk)를 얻고, 이 조건부 확률에 대한 우도(Λk)가 얻어진 정규화된 상호상관함수를 밀도 추정부(25)에 제공한다.
밀도 추정부(25)는 상호상관함수 추정부(23-1,23-2)로부터 입력되는 우도(Λ k)가 얻어진 정규화된 상호상관함수에 대하여 이동평균(moving average)을 이용하여 밀도를 추정하고, 이 조건부 확률에 대한 우도(Λk)가 얻어진 정규화된 상호상관함수의 밀도를 [수학식 4]
Figure 112009061752239-PAT00011
(여기서, q=p(H1)/p(H0)를 나타내며, p(H0)=1-p(H1)인 관계를 의미한다.)
를 통해 목표신호와 간섭신호를 모두 포함한 전체 입력신호의 정규화된 상호상관함수의 통계적 특성(예컨대, 평균과 분산)인 조건부 목표신호부재확률(Target signal Absence Probability, 이하 TAP라 함)을 생성하고, 이 생성된 조건부 TAP를 간섭신호 프레임 검출부(27) 및 간섭신호 밀도 추정부(29)와 타겟 프레임 검출부(31) 각각에 제공한다.
간섭신호 프레임 검출부(27)는 밀도 추정부(25)로부터 입력되는 조건부 TAP에서 간섭신호 프레임을 검출하고, 이 검출된 간섭신호 프레임을 간섭신호 밀도 추정부(29)에 제공한다.
간섭신호 밀도 추정부(29)는 간섭신호 프레임 검출부(27)로부터 입력되는 간섭신호 프레임과 밀도 추정부(25)로부터 입력되는 조건부 TAP에 대하여 [수학식 5]
Figure 112009061752239-PAT00012
Figure 112009061752239-PAT00013
(여기서,
Figure 112009061752239-PAT00014
n+1,k는 통계적 평균이고,
Figure 112009061752239-PAT00015
n+1,k는 통계적 편차를 의미하고, 간섭신호와 음성신호를 모두 포함한 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 통계적 평균 및 편차를 구하기 위해 if 조건을 제외하고 입력신호에 대해서 평균과 편차를 계속 업데이트 하면서 추정하는 것이 바람직하다.)
를 통해 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 특성(평균(
Figure 112009061752239-PAT00016
n+1,k)과 편차(
Figure 112009061752239-PAT00017
n+1,k))을 추정하고, 이 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 특성을 타겟 프레임 검출부(31)에 제공한다.
타겟 프레임 검출부(31)는 밀도 추정부(25)로부터 입력되는 조건부 TAP에 대하여 간섭신호 밀도 추정부(29)로부터 입력되는 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 특성을 조건부에 적용하여 TAP를 구하고, 이 구한 TAP를 기정의된 문턱치(threshold)와 비교하여 목표신호프레임을 검출하고, 이 검출된 목표신호프레임을 타겟 프레임 결정부(43)에 제공한다.
음향적 빔포밍부(33)는 분석부(19-1,19-2)로부터 입력되는 주파수 성분이 분석된 각 채널별 디지털 방식의 오디오 신호에 대하여 지연 및 합 빔포밍(delay-and-sum beamforming)을 수행하고, 이 지연 및 합 빔포밍이 수행된 오디오 신호를 프레이밍부(35)에 제공한다.
프레이밍부(35)는 음향적 빔포밍부(33)로부터 입력되는 지연 및 합 빔포밍이 수행된 오디오 신호에 대한 음원 프레이밍 작업을 수행하여 다수개의 음원 프레임을 생성하고, 이 생성된 다수개의 음원 프레임을 에너지 추정부(37)에 제공한다.
에너지 추정부(37)는 프레이밍부(35)로부터 입력되는 다수개의 음원 프레임에서 에너지가 강한 일 예로, (200∼500)∼4600㎐ 대역의 에너지 분광 밀도(power spectral density)를 추정하고, 이 에너지 분광 밀도가 추정된 다수개의 음원 프레임을 양자화부(39)에 제공한다.
양자화부(39)는 에너지 추정부(37)로부터 입력되는 에너지 분광 밀도가 추정된 다수개의 음원 프레임에 대하여 로그함수를 이용하여 양자화를 수행하고, 이 양자화가 수행된 다수개의 음원 프레임을 음성 활성 검출부(41)에 제공한다.
음성 활성 검출부(41)는 양자화부(39)로부터 입력되는 양자화가 수행된 다수개의 음원 프레임에 대하여 임계값을 기반으로 활성화된 음성 정보인 VAD(voice activity detection) 정보를 검출하고, 이 검출된 VAD 정보를 타겟 프레임 결정부(43)에 제공한다.
타겟 프레임 결정부(43)는 타겟 프레임 검출부(31)로부터 입력되는 목표신호프레임 검출 결과와 음성 활성 검출부(41)로부터 입력되는 VAD 정보의 결과가 모두 목적하는 신호 프레임으로 검출되는 경우, 즉 통계적 모델을 이용한 목표신호프레임 검출 결과와 입력신호의 에너지를 이용한 VAD 정보 모두가 목표 프레임으로 판별되는 경우 목표 프레임이 검출된 것으로 판별하고, 그 검출된 목표 프레임의 결 과를 미디언 필터 등을 이용한 스무딩(smoothing) 과정 그리고 목표 프레임의 끝나는 시점의 hangover 과정 등을 통하여 목표 프레임 검출 결과의 후처리 과정을 수행하여 최종적으로 목표신호를 결정한다.
따라서, 본 발명은 사용자의 위치가 이미 알려져 있다는 가정하에 필터뱅크 출력신호들의 정규화된 상호상관함수를 특징벡터로 하고, 이를 통계적 모델을 이용하여 모델링함으로써, 다양한 음향적 잡음원들과 음성이 혼재하는 열악한 잡음 환경에서 사용자의 음성이 존재하는 음성 프레임 구간을 검출함으로써, 기존에서와 같이 전문가의 선험적인 파라미터 튜닝을 필연적으로 수행하여야만 하는 사용상의 불편한 문제점을 해결할 수 있다.
다음에, 상술한 바와 같은 구성을 갖는 본 발명의 일 실시예에서 통계적 모델을 이용한 목표 신호 검출 과정에 대하여 설명한다.
도 2는 본 발명의 일 실시예에 따른 통계적 모델을 이용한 목표 신호 검출 방법에 대하여 순차적으로 도시한 흐름도이다.
먼저, 다채널(예컨대, 2채널) 마이크로폰(S1,S2)을 통해 생성(S201)된 아날로그 방식의 오디오 신호가 채널별로 각각 A/D 변환부(11-1,11-2)에 제공된다.
아날로그 방식의 오디오 신호에 대하여 A/D(analog/digital) 변환부(11-1,11-2)를 통해 채널별로 디지털 방식의 오디오 신호로 변환(S203)되어 채널 동기화부(13-1,13-2) 각각에 제공된다.
디지털 방식의 오디오 신호에 대하여 채널 동기화부(13-1,13-2)를 통해 채널별로 상이한 디지털 방식의 오디오 신호의 특성이 증폭 및 위상(amplitude and phase) 특성이 동기화(S205)되어 필터부(15-1,15-2)에 제공된다.
동기화된 디지털 방식의 오디오 신호에 대하여 스티어링 필터부(15-1,15-2)를 통해 사용자의 위치에 대한 시간지연현상을 보상하도록 필터링(S207)되어 잡음 제거 필터부(17-1,17-2)에 제공된다.
사용자의 위치에 대한 시간지연현상이 보상되도록 필터링된 디지털 방식의 오디오 신호에 대하여 컷 오프 주파수(cutoff frequency)(예컨대, 200∼500㎐)를 갖는 잡음 제거 필터부(17-1,17-2)를 통해 목표신호검출 알고리즘에 악영향을 미치는 잡음의 에너지가 높은 주파수 대역이 필터링(S209)되어 분석부(19-1,19-2)에 제공된다.
주파수 성분이 필터링된 디지털 방식의 오디오 신호에 대하여 분석부(19-1,19-2)를 통해 각 채널별로 타임 도메인 필터 뱅크에 의해 필터 뱅크 대역폭에 따른 주파수 성분이 분석(S211)되어 프레이밍부(21-1,21-2)와 음향적 빔포밍부(33) 각각에 제공된다.
주파수 성분이 분석된 디지털 방식의 오디오 신호에 대하여 프레이밍부(21-1,21-2)를 통해 음원 프레이밍 작업이 수행되어 다수개의 음원 프레임을 생성(S213)되어 상호상관함수 추정부(23-1,23-2)에 제공된다.
다수개의 음원 프레임에 대하여 상호상관함수 추정부(23-1,23-2)를 통해 목표신호부재(H0)인지 아니면, 목표신호존재(H1)인지를 판단(S215)한다.
상기 판단(S215)결과, 다수개의 음원 프레임에 대하여 목표신호부재(H0)인 경우 상술한 [수학식 1]을 통해 H0의 정규화된 상호상관함수에 대한 조건부 확률을 계산(S217)하고, 더불어, 목표신호존재(H1)인 경우 상술한 [수학식 2]를 통해 H1의 정규화된 상호상관함수에 대한 조건부 확률을 계산(S219)한다.
이어서, 상술한 바와 같이 계산된 [수학식 1]과 [수학식 2]의 조건부 확률에 대하여 상호상관함수 추정부(23-1,23-2)의 [수학식 3]을 통해 정규화된 상호상관함수의 조건부 확률에 대한 우도(Λk)가 얻어진(S221) 정규화된 상호상관함수가 밀도 추정부(25)에 제공된다.
조건부 확률에 대한 우도(Λk)가 얻어진 정규화된 상호상관함수에 대하여 밀도 추정부(25)를 통해 이동평균(moving average)을 이용하여 밀도가 추정(S223)되도록 하고, 이 조건부 확률에 대한 우도(Λk)가 얻어진 정규화된 상호상관함수의 밀도가 [수학식 4]를 통해 목표신호와 간섭신호를 모두 포함한 전체 입력신호의 정규화된 상호상관함수의 통계적 특성(예컨대, 평균과 분산)인 조건부 TAP가 생성(S225)되어 간섭신호 프레임 검출부(27) 및 간섭신호 밀도 추정부(29)와 타겟 프레임 검출부(31) 각각에 제공된다.
조건부 TAP에 대하여 간섭신호 프레임 검출부(27)를 통해 간섭신호 프레임이 검출(S227)되어 간섭신호 밀도 추정부(29)에 제공된다.
간섭신호 프레임 검출부(27)로부터 입력되는 간섭신호 프레임과 밀도 추정부(25)로부터 입력되는 조건부 TAP에 대하여 간섭신호 밀도 추정부(29)의 [수학식 5]를 통해 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 특성(평균(
Figure 112009061752239-PAT00018
n+1,k)과 편차(
Figure 112009061752239-PAT00019
n+1,k))이 추정(S229)되어 타겟 프레임 검출부(31)에 제공된다.
밀도 추정부(25)로부터 입력되는 조건부 TAP에 대하여 타겟 프레임 검출부(31)를 통해 간섭신호 밀도 추정부(29)로부터 입력되는 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 특성이 조건부에 적용되어 TAP가 구하여 지고, 이 구하여진 TAP와 기정의된 문턱치(threshold)와 비교하여 목표신호프레임이 검출(S231)되어 타겟 프레임 결정부(43)에 제공된다.
또한, 분석부(19-1,19-2)로부터 입력되는 주파수 성분이 분석된 각 채널별 디지털 방식의 오디오 신호에 대하여 음향적 빔포밍부(33)를 통해 지연 및 합 빔포밍(delay-and-sum beamforming)이 수행(S233)되어 프레이밍부(35)에 제공된다.
음향적 빔포밍부(33)로부터 입력되는 지연 및 합 빔포밍이 수행된 오디오 신호에 대하여 프레이밍부(35)를 통해 음원 프레이밍 작업을 수행되어 다수개의 음원 프레임을 생성(S235)되어 에너지 추정부(37)에 제공된다.
프레이밍부(35)로부터 입력되는 다수개의 음원 프레임에서 에너지 추정부(37)를 통해 에너지가 강한 일 예로, (200∼500)∼4600㎐ 대역의 에너지 분광 밀도가 추정(S237)되어 양자화부(39)에 제공된다.
에너지 분광 밀도가 추정된 다수개의 음원 프레임에 대하여 양자화부(39)를 통해 로그함수를 기반으로 양자화가 수행(S239)되어 음성 활성 검출부(41)에 제공된다.
양자화가 수행된 다수개의 음원 프레임에 대하여 음성 활성 검출부(41)를 통해 임계값을 기반으로 활성화된 음성 정보인 VAD 정보가 검출(S241)되어 타겟 프레임 결정부(43)에 제공된다.
타겟 프레임 검출부(31)로부터 입력되는 목표신호프레임 검출 결과와 음성 활성 검출부(41)로부터 입력되는 VAD 정보의 결과에 대하여 모두 목적하는 신호 프레임으로 검출되는 경우, 즉 통계적 모델을 이용한 목표신호프레임 검출 결과와 입력신호의 에너지를 이용한 VAD 정보 모두가 목표 프레임으로 판별되는 경우 타겟 프레임 결정부(43)를 통해 목표 프레임이 검출된 것으로 판별되고, 그 검출된 목표 프레임의 결과가 미디언 필터 등을 이용한 스무딩 과정 그리고 목표 프레임의 끝나는 시점의 hangover 과정 등을 통하여 목표 프레임 검출 결과의 후처리 과정이 수행되어 최종 목표신호가 결정(S243)된다.
한편, 상술한 바와 같이 다양한 실시예를 제시하고 있는 본 발명의 통계적 모델을 이용한 목표 신호 검출 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 실행할 수 있는 코드로서 구현할 수 있는데, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치 등을 포함할 수 있다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기테이프, 플로피디스크, 광 데이터 저장장치와 캐리어 웨이브(예컨대, 인터넷을 통한 송신 등) 등이 있으며, 컴퓨터로 실행할 수 있는 코드 또는 프로그램은 본 발명의 기능을 분산적으로 수행하기 위해 네트워크로 연결된 컴퓨터 시스템에 분산되어 실행될 수 있다.
이상에서와 같이, 본 발명은 통계적 모델을 기반으로 화자위치를 이용한 목표 신호 검출 장치 및 그 방법을 제공함으로써, 사용자의 음성이 존재하는 음성 프레임 구간을 잡음 환경에 무관하게 검출할 수 있다.
지금까지 본 발명에 대하여 그 일부 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
도 1은 본 발명의 일 실시예에 따른 통계적 모델을 이용한 목표 신호 검출 장치에 대한 블록 구성도,
도 2는 본 발명의 일 실시예에 따른 통계적 모델을 이용한 목표 신호 검출 방법에 대하여 순차적으로 도시한 흐름도.
<도면의 주요부분에 대한 부호의 설명>
11-1,11-2 : A/D 변환부 13-1,13-2 : 채널 동기화부
15-1,15-2 : 필터부 17-1,17-2 : 잡음 제거 필터부
19-1,19-2 : 분석부 21-1,21-2 : 프레이밍부
23-1,23-2 : 상호상관함수 추정부 25 : 밀도 추정부
27 : 간섭신호 프레임 검출부 29 : 간섭신호 밀도 추정부
31 : 타겟 프레임 검출부 33 : 음향적 빔포밍부
35 : 프레이밍부 37 : 에너지 추정부
39 : 양자화부 41 : 음성 활성 검출부
43 : 타겟 프레임 결정부

Claims (12)

  1. 오디오 신호에 해당하는 다수개의 음원 프레임에 대한 조건부 확률들을 계산하고, 상기 조건부 확률들을 통해 정규화된 상호상관함수에 대한 목표신호존재의 경우와 부재의 경우의 조건부 확률의 우도(likelihood ratio)(Λk)를 추정하는 상호상관함수 추정부와,
    상기 상호상관함수에 대하여 이동평균으로 밀도를 추정하고, 상기 밀도를 통해 조건부 목표신호부재확률(target signal absence probability)을 생성하는 밀도 추정부와,
    상기 조건부 목표신호부재확률에서 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 평균 및 편차를 추정하는 간섭신호 밀도 추정부와,
    상기 조건부 목표신호부재확률에 상기 통계적 평균 및 편차를 적용하여 생성시킨 목표신호부재확률을 기정의된 문턱치(threshold)와 비교하여 목표신호프레임을 검출하는 타겟 프레임 검출부와,
    상기 다수개의 음원 프레임에 대하여 임계값을 기반으로 VAD(voice activity detection) 정보를 검출하는 음성 활성 검출부와,
    통계적 모델을 이용한 목표신호프레임 검출 결과와 입력신호의 에너지를 이용한 VAD 정보 모두가 목표 프레임으로 판별되는 경우 목표신호로 결정하는 타겟 프레임 결정부
    를 포함하는 통계적 모델을 이용한 목표 신호 검출 장치.
  2. 제 1 항에 있어서,
    상기 목표 신호 검출 장치는,
    상기 오디오 신호를 디지털 방식으로 변환하는 A/D 변환부와,
    상기 디지털 방식의 오디오 신호에 대한 채널의 증폭 및 위상을 동기화하는 채널 동기화부와,
    동기화된 상기 디지털 방식의 오디오 신호에 대하여 시간지연으로 필터링하는 필터부와,
    필터링된 상기 디지털 방식의 오디오 신호에 대하여 잡음의 에너지가 높은 주파수 대역을 필터링하는 잡음 제거 필터링부와,
    고주파 성분이 필터링된 상기 디지털 방식의 오디오 신호에 대하여 필터 뱅크 대역폭에 따른 주파수 성분을 분석하는 분석부와,
    주파수 성분이 분석된 상기 디지털 방식의 오디오 신호에 대한 음원 프레이밍 작업으로 다수개의 음원 프레임을 생성하여 상기 상호상관함수 추정부에 제공하는 프레이밍부와,
    상기 주파수 성분이 분석된 상기 디지털 방식의 오디오 신호에 대하여 지연 및 합 빔포밍(delay-and-sum beamforming)을 수행하는 음향적 빔포밍부와,
    상기 다수개의 음원 프레임에서 에너지 분광 밀도(power spectral density) 를 추정하는 에너지 추정부와,
    상기 에너지 분광 밀도가 추정된 상기 다수개의 음원 프레임에 대하여 로그함수로 양자화를 수행하여 상기 음성 활성 검출부에 제공하는 양자화부
    를 더 포함하는 통계적 모델을 이용한 목표 신호 검출 장치.
  3. 제 1 항에 있어서,
    상기 상호상관함수 추정부는,
    상기 다수개의 음원 프레임에 대하여 목표신호부재(H0) 및 목표신호존재(H1)로 구분하여 상기 조건부 확률들을 계산하는 통계적 모델을 이용한 목표 신호 검출 장치.
  4. 제 3 항에 있어서,
    상기 목표신호부재(H0)의 정규화된 상호상관함수에 대한 조건부 확률은,
    [수학식]
    Figure 112009061752239-PAT00020
    (여기서, Rx1x2(n,k)는 n번째 프레임, k번째 필터뱅크(filter bank) 출력의 정규화된 상호상관함수를 의미하고, λn,k는 간섭신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 편차(variance)를 의미하며, mn,k는 간섭신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 평균(mean)을 의미한다.)
    을 통해 계산되는 통계적 모델을 이용한 목표 신호 검출 장치.
  5. 제 3 항에 있어서,
    상기 목표신호존재(H1)의 정규화된 상호상관함수에 대한 조건부 확률은,
    [수학식]
    Figure 112009061752239-PAT00021
    (여기서, Rx1x2(n,k)는 n번째 프레임, k번째 필터뱅크 출력의 정규화된 상호상관함수를 의미하고, λin,k는 간섭신호와 음성신호를 모두 포함한 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 편차를 의미하며, min,k는 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 평균(mean)을 의미한다.)
    을 통해 계산되는 통계적 모델을 이용한 목표 신호 검출 장치.
  6. 제 1 항에 있어서,
    상기 정규화된 상호상관함수에 대한 목표신호존재의 경우와 부재의 경우의 조건부 확률의 우도(Λk)는,
    [수학식]
    을 통해 계산되는 통계적 모델을 이용한 목표 신호 검출 장치.
  7. 제 1 항에 있어서,
    상기 조건부 목표신호부재확률은,
    [수학식]
    Figure 112009061752239-PAT00022
    (여기서, q=p(H1)/p(H0)를 나타내며, p(H0)=1-p(H1)인 관계를 의미한다.)
    을 통해 계산되는 통계적 모델을 이용한 목표 신호 검출 장치.
  8. 제 1 항에 있어서,
    상기 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 평균 및 편차는,
    [수학식]
    Figure 112009061752239-PAT00023
    Figure 112009061752239-PAT00024
    (여기서,
    Figure 112009061752239-PAT00025
    n+1,k는 통계적 평균이고,
    Figure 112009061752239-PAT00026
    n+1,k는 통계적 편차를 의미하고, 간섭신호와 음성신호를 모두 포함한 전체 입력신호의 k번째 필터뱅크 출력의 정규화된 상호상관함수의 통계적 평균 및 편차를 구하기 위해 if 조건을 제외하고 입력신호에 대해서 평균과 편차를 계속 업데이트 하면서 추정한다.)
    을 통해 계산되는 통계적 모델을 이용한 목표 신호 검출 장치.
  9. 오디오 신호에 해당하는 다수개의 음원 프레임에 대한 조건부 확률들을 계산하고, 상기 조건부 확률들을 통해 정규화된 상호상관함수에 대한 목표신호존재의 경우와 부재의 경우의 조건부 확률의 우도(Λk)를 추정하는 단계와,
    상기 상호상관함수에 대하여 이동평균으로 밀도를 추정하고, 상기 밀도를 통해 조건부 목표신호부재확률(target absence probability)을 생성하는 단계와,
    상기 조건부 목표신호부재확률에서 간섭신호 프레임을 갖는 정규화된 상호상관함수의 통계적 평균 및 편차를 추정하는 단계와,
    상기 조건부 목표신호부재확률에 상기 통계적 평균 및 편차를 적용하여 생성시킨 목표신호부재확률을 기정의된 문턱치와 비교하여 목표신호프레임을 검출하는 단계와,
    상기 다수개의 음원 프레임에 대하여 임계값을 기반으로 입력신호의 에너지를 이용한 VAD 정보를 검출하는 단계와,
    통계적 모델을 이용한 목표신호프레임 검출 결과와 입력신호의 에너지를 이용한 VAD 정보 모두가 목표 프레임으로 판별되는 경우 목표신호로 결정하는 단계
    를 포함하는 통계적 모델을 이용한 목표 신호 검출 방법.
  10. 제 9 항에 있어서,
    상기 우도(Λk)를 추정하는 단계는,
    상기 오디오 신호를 디지털 방식으로 변환하는 단계와,
    상기 디지털 방식의 오디오 신호에 대한 채널의 증폭 및 위상을 동기화하는 단계와,
    동기화된 상기 디지털 방식의 오디오 신호에 대하여 시간지연으로 필터링하는 단계와,
    필터링된 상기 디지털 방식의 오디오 신호에 대하여 고주파 성분으로 필터링하는 단계와,
    고주파 성분이 필터링된 상기 디지털 방식의 오디오 신호에 대하여 필터 뱅크 대역폭에 따른 주파수 성분을 분석하는 단계와,
    주파수 성분이 분석된 상기 디지털 방식의 오디오 신호에 대한 음원 프레이밍 작업으로 다수개의 음원 프레임을 생성하여 상기 우도(Λk)를 추정하는 단계
    를 포함하는 통계적 모델을 이용한 목표 신호 검출 방법.
  11. 제 9 항에 있어서,
    상기 입력신호의 에너지를 이용한 VAD 정보를 검출하는 단계는,
    상기 주파수 성분이 분석된 상기 디지털 방식의 오디오 신호에 대하여 지연 및 합 빔포밍을 수행하는 단계와,
    상기 다수개의 필터뱅크 출력신호에 대하여 빔모밍한 음원 프레임에서 에너지 분광 밀도를 추정하는 단계와,
    상기 에너지 분광 밀도가 추정된 상기 다수개의 음원 프레임에 대하여 로그함수로 양자화를 수행하여 상기 VAD 정보를 검출하는 단계
    를 포함하는 통계적 모델을 이용한 목표 신호 검출 방법.
  12. 제 9 항에 있어서,
    상기 목표신호로 결정하는 단계는,
    상기 목표신호프레임의 검출 결과와 상기 VAD 정보의 결과에 대하여 모두 목적하는 신호 프레임으로 검출되는 경우, 목표 프레임이 검출된 것으로 판별되고, 상기 검출된 목표 프레임의 결과가 미디언 필터를 이용한 스무딩 과정 그리고 목표 프레임의 끝나는 시점의 hangover 과정을 통해 목표 프레임 검출 결과의 후처리 과정이 수행되어 상기 목표신호가 결정되는 통계적 모델을 이용한 목표 신호 검출 방법.
KR1020090095740A 2009-10-08 2009-10-08 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법 KR20110038447A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090095740A KR20110038447A (ko) 2009-10-08 2009-10-08 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090095740A KR20110038447A (ko) 2009-10-08 2009-10-08 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20110038447A true KR20110038447A (ko) 2011-04-14

Family

ID=44045514

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090095740A KR20110038447A (ko) 2009-10-08 2009-10-08 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR20110038447A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101525207B1 (ko) * 2014-11-24 2015-06-04 가락전자 주식회사 오디오 스트림 사이의 신호 동기화 방법
WO2016085011A1 (ko) * 2014-11-24 2016-06-02 가락전자 주식회사 오디오 스트림 사이의 신호 동기화 방법
KR20190020471A (ko) 2017-08-21 2019-03-04 국방과학연구소 음성 존재 구간 판별 장치 및 방법
WO2020055051A1 (en) * 2018-09-10 2020-03-19 Samsung Electronics Co., Ltd. Electronic device including electromagnetic sensor module and control method thereof

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101525207B1 (ko) * 2014-11-24 2015-06-04 가락전자 주식회사 오디오 스트림 사이의 신호 동기화 방법
WO2016085011A1 (ko) * 2014-11-24 2016-06-02 가락전자 주식회사 오디오 스트림 사이의 신호 동기화 방법
KR20190020471A (ko) 2017-08-21 2019-03-04 국방과학연구소 음성 존재 구간 판별 장치 및 방법
WO2020055051A1 (en) * 2018-09-10 2020-03-19 Samsung Electronics Co., Ltd. Electronic device including electromagnetic sensor module and control method thereof
CN112673264A (zh) * 2018-09-10 2021-04-16 三星电子株式会社 包括电磁传感器模块的电子装置及其控制方法
US11586245B2 (en) 2018-09-10 2023-02-21 Samsung Electronics Co., Ltd. Electronic device including electromagnetic sensor module and control method thereof

Similar Documents

Publication Publication Date Title
US7158933B2 (en) Multi-channel speech enhancement system and method based on psychoacoustic masking effects
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
EP3189521B1 (en) Method and apparatus for enhancing sound sources
KR101340520B1 (ko) 잡음을 제거하는 장치 및 방법
CN102543095B (zh) 用于减少音频处理算法中的非自然信号的方法和装置
JP6019969B2 (ja) 音響処理装置
Roman et al. Pitch-based monaural segregation of reverberant speech
KR101581885B1 (ko) 복소 스펙트럼 잡음 제거 장치 및 방법
EP1995722B1 (en) Method for processing an acoustic input signal to provide an output signal with reduced noise
WO2019205796A1 (zh) 减少频域处理量的方法、装置及设备
KR100917460B1 (ko) 잡음제거 장치 및 방법
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
KR20110038447A (ko) 통계적 모델을 이용한 목표 신호 검출 장치 및 그 방법
KR101529647B1 (ko) 빔포밍 기술을 이용한 음원 분리 방법 및 시스템
KR20120059431A (ko) 적응적 잡음추정 장치 및 방법
JP2007093635A (ja) 既知雑音除去装置
KR101068666B1 (ko) 잡음 환경에서 적응적인 잡음 제거도에 기초한 잡음 제거 방법 및 장치
KR101966175B1 (ko) 잡음 제거 장치 및 방법
EP1653445A1 (en) Periodic signal enhancement system
JP2005157086A (ja) 音声認識装置
WO2019205797A1 (zh) 噪音处理方法、装置及设备
JP5251473B2 (ja) 音声処理装置、及び、音声処理方法
Zeremdini et al. Contribution to the Multipitch Estimation by Multi-scale Product Analysis
Graf et al. Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra.
KR101086624B1 (ko) Stfd용 헤드셋에서의 잡음 제거 시스템

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination