KR20100111499A - 목적음 추출 장치 및 방법 - Google Patents

목적음 추출 장치 및 방법 Download PDF

Info

Publication number
KR20100111499A
KR20100111499A KR1020090029957A KR20090029957A KR20100111499A KR 20100111499 A KR20100111499 A KR 20100111499A KR 1020090029957 A KR1020090029957 A KR 1020090029957A KR 20090029957 A KR20090029957 A KR 20090029957A KR 20100111499 A KR20100111499 A KR 20100111499A
Authority
KR
South Korea
Prior art keywords
sound
matrix
interference
training noise
noise
Prior art date
Application number
KR1020090029957A
Other languages
English (en)
Inventor
정소영
오광철
정재훈
김규홍
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020090029957A priority Critical patent/KR20100111499A/ko
Priority to US12/754,990 priority patent/US20100254539A1/en
Publication of KR20100111499A publication Critical patent/KR20100111499A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

사운드 신호에서 간섭음을 제거하고 목적음을 추출하는 기술이 개시된다. 본 발명의 일 양상에 따르면, 훈련용 잡음을 이용하여 간섭음을 모델링하고, 모델링된 간섭음을 이용하여 혼합음을 분해하는 것이 가능하다. 보다 상세하게는, 모델링된 간섭음의 기저 행렬을 이용하여 혼합음을 목적음과 간섭음으로 분해한다. 이러한 본 발명의 일 양상에 따른 분해 기법은 semi-blind 비음수 행렬 인수분해라 칭할 수 있다.
Non-negative matrix factorization, mixture sound, noise, target sound

Description

목적음 추출 장치 및 방법{Apparatus and Method for extracting target sound from mixture sound}
혼합음에서 간섭음을 제거하고 목적음을 추출하는 기술과 관련된다.
다양한 사운드 입력 기능을 갖는 CE(consumer electronics) 디바이스에서 특정 음원이 간섭 음원으로 유입되는 경우가 많이 있다. 예를 들어, 디지탈 카메라나 캠코더의 경우, 촬영 시 광학 줌 기능을 작동시키면 줌 렌즈 모터소음이 다른 소리와 함께 녹음되는 경우가 빈번하다. 이러한 모터 소음은 귀에 거슬린다.
이를 해결하기 위해, 광학 줌 기능이 작동할 때는 사운드 입력 기능을 수동적으로 off 시키거나 기계적으로 값비싼 silent wave motor(SWM)를 사용하기도 한다.
그러나, 외부 렌즈 장착용 DSLR 카메라에서는 줌 인/아웃 시 외부 렌즈 모터의 소음이 유입되기 때문에 기계적으로 줄일 방법이 없다. 그리고, 비디오 녹화 시 정지 영상을 찍을 때 카메라 셔터음이 함께 녹음되는 경우도 있다. 한편, 휴대용 오디오/보이스 레코더/랩탑으로 강의나 회의록 녹음 시 주변에서 나는 키보드 버튼/마우스 클릭등에 의한 입력 소음이 함께 들어가는 경우도 있다. 또한, 로봇 음성 대화 시스템에서는 로봇 이동을 위한 로봇 내부 모터에 의해 발생하는 소음을 제거해야 할 필요가 있다.
이러한 소음들의 특징은 비정상적(nonstationary), 충격적(impulsive), 일시적(transient)으로 발생한다는 데에 있다. 일반적인 잡음 제거 방법을 이용해 이러한 nonstationary, impulsive, transient 잡음을 제거하기 위해서는 우선 잡음이 발생하는 구간을 정확하게 detect하고, 이 구간에 대해 잡음 스펙트럼을 추정하여 제거해야 한다.
그러나, 잡음의 특성이 nonstationary, impulsive, transient 하기 때문에, 발생 구간 detection에 오차가 있을 수 밖에 없고, 목적 음원에 비해 간섭 잡음이 매우 크게 유입되기 때문에 잡음 스펙트럼 제거 시 목적 음원까지도 제거되어 결국 음원의 왜곡이 발생하게 될 가능성이 크다.
본 명세서에서는, 혼합음으로부터 목적음을 정확하게 추출하기 위한 장치 및 방법이 개시된다.
본 발명의 일 양상에 따른 장치 및 방법은, 훈련용 잡음을 이용하여 간섭음을 모델링하는 것이 가능하다. 간섭음의 모델링은 훈련용 잡음을 비음수 행렬 인수분해(non-negative matrix factorization, NMF)하여 훈련용 잡음의 기저 행렬을 추출하는 방식이 이용될 수 있다.
또한, 본 발명의 일 양상에 따른 장치 및 방법은, 모델링된 간섭음의 기저 행렬을 이용하여 혼합음을 목적음과 간섭음으로 분해하는 것이 가능하다. 분해 방법은 본 발명의 일 양상에 따른 semi-blind 비음수 행렬 인수분해(semi-blind non-negative matrix factorization, semi-blind NMF)가 사용될 수 있다.
또한, 본 발명의 일 양상에 따른 장치 및 방법은, 목적음과 간섭음을 disjoint 하게 분해하는 것이 가능하다. Disjoint란 사운드 스펙트로그램 상에서 목적음과 간섭음이 겹치지 아니함을 의미할 수 있다.
또한, 본 발명의 일 양상에 따른 장치 및 방법은, 목적음은 더 강화시키고 간섭음은 더 약화시키는 적응형 필터를 이용하여 혼합음을 필터링하는 것이 가능하다.
개시된 내용에 따르면, 제거 대상이 되는 간섭음을 훈련용 잡음으로 모델링하고, 적응형 필터를 이용하여 이러한 간섭음을 제거하기 때문에 목적음과 간섭음을 정밀하게 분해할 수 있고, 목적음이 왜곡되면서 간섭음이 제거되는 것을 방지할 수가 있다.
이하, 첨부된 도면을 참조하여 본 발명의 실시를 위한 구체적인 예를 상세히 설명한다. 후술되는 실시 예들은 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 권리범위가 특정 실시 예에 한정되지 아니한다.
도 1은 본 발명의 일 실시 예에 따른 목적음 추출 장치의 구성을 도시한다.
본 실시 예에 따른 목적음 추출 장치(100)는 다양한 디지털 휴대용 기기에서 비정상적(nonstationary), 충격적(impulsive), 일시적(transient)으로 발생하는 잡음을 제거하고, 목표로 하는 사운드만 추출하는 것이 가능하다.
본 실시 예에서, 목적음이란 추출하고자 하는 사운드 신호가, 간섭음이란 이러한 사운드 신호를 제외한 간섭 사운드 신호가 될 수 있다.
예를 들어, 디지털 캠코더 및 카메라의 경우, 촬영 시 발생하는 촬영 대상자의 대화 소리가 목적음이되고 광학 줌 인/아웃과 같은 기기 동작 소리가 간섭음이 될 수 있다.
일 예로써, 목적음 추출 장치(100)는 이러한 광학 줌 인/아웃과 같은 소리를 제거하기 위해 디지털 캠코더 및 카메라에 이용될 수 있다. 또 다른 예로써, 목적음 추출 장치(100)는 로봇 내부의 모터에서 발생하는 소음을 제거하기 위해 로봇의 음성 대화 시스템에 적용되거나, 버튼 조작에 의한 소음을 제거하기 위해 디지털 휴대용 녹음 장치에 적용되는 것이 가능하다.
이러한 목적음 추출 장치(100)는, 도 1과 같이, 모델링부(101), 사운드 분해부(102), 필터부(103)로 구성될 수 있다.
사운드 분해부(102)는 혼합음을 목적음과 간섭음으로 분해한다. 여기서 간섭음은 기기 구동 소리, 로봇 내부의 모터 소리, 버튼 조작 소리 등이 될 수 있고, 목적음은 이러한 간섭음을 제외한 나머지 소리가 될 수 있다.
사운드 분해부(102)는 본 발명의 일 실시 예에 따른 신호 분해 기법을 통해 혼합음을 목적음과 간섭음으로 분해한다. 이때 간섭음에 대한 정보는 모델링부(101)의 모델링 데이터에 의해 제공 받을 수 있다.
모델링부(101)는 훈련용 잡음으로부터 모델링 데이터를 생성하는 것이 가능하다. 훈련용 잡음은 간섭음에 대응된다. 예컨대, 본 실시 예에 따른 목적음 추출 장치(100)가 디지털 캠코더에 이용되는 경우, 훈련용 잡음은 기기 구동 소리, 로봇 내부의 모터 소리, 버튼 조작 소리 등이 될 수 있다.
간섭음은 혼합음에 섞여서 들어오고 그것이 비정상적, 충격적, 일시적으로 발생하는 소리이지만, 훈련용 잡음은 프로파일 형태로 제조 과정에서 미리 저장되어 있는 소리이거나 사용자가 본 실시 예에 따른 잡음 제거 기능을 사용하기 전에 미리 취득한 소리가 될 수 있다. 디지털 캠코더를 예로 들면, 사용자가 촬영 전에 렌즈의 줌 인/아웃을 구동시켜서 훈련용 잡음을 획득하는 것이 가능하다.
훈련용 잡음을 수신한 모델링부(101)는 비음수 행렬 인수분해(Non-negative matrix factorization, NMF)를 이용하여 훈련용 잡음을 기저 행렬(basis matrix)과 계수 행렬(coefficient matrix)로 분해한다. 비음수 행렬 인수분해란 신호 분해 기법 중 하나로 어떠한 데이터 행렬을 비음수 엘리먼트로 구성된 두 개의 행렬로 분해하는 기법이다.
사운드 분해부(102)는 모델링부(101)의 출력, 즉 훈련용 잡음의 기저 행렬을 이용하여 혼합음을 목적음과 간섭음으로 분해하는 것이 가능하다. 사운드 분해부(102)의 신호 분해 방법은, 본 발명의 일 실시 예에 따라, semi-blind NMF로 명명될 수 있다. 예를 들어, 사운드 분해부(102)는 간섭음에 대한 기저 행렬을 훈련용 잡음의 기저 행렬과 같은 값으로 놓고 비음수 행렬 인수분해를 적용하는 것이 가능하다.
사운드 분해부(102)는 본 발명의 일 실시 예에 따른 semi-blind NMF를 적용하여 혼합음을 분해하는 것이 가능하며, 목적음과 간섭음을 orthogonal disjoint하게 분해하는 것도 가능하다. Orthogonal disjoint한 분해란 목적음과 간섭음이 사운드 스펙트로그램 상에서 공통 성분을 갖지 않도록 분해하는 것을 말한다. 공통 성분이란 신호의 시간-주파수 그래프에서 동일한 좌표에 동일한 값이 할당된 것을 의미할 수 있으며, 본 발명의 일 실시 예에 따라 사운드 스펙트로그램 상에서 어떤 좌표의 목적음 성분이 1이라면, 동일한 좌표의 간섭음 성분은 0이 되도록 분해하는 것이 가능하다.
필터부(103)는 분해된 목적음과 간섭음을 이용하여 적응형 필터를 생성한다. 여기서 적응형 필터란 향상된 목적음 추출을 위해 목적음은 더 강화시키고 간섭음 은 더 약화시키는 필터를 말한다. 그리고 필터부(103)는 이러한 적응형 필터를 혼합음에 적용하여 혼합음에서 간섭음을 제거한다.
도 2를 참조하여, 모델링부(101) 및 훈련용 잡음의 기저 행렬을 추출하는 방법을 구체적으로 설명한다. 이것은 간섭음의 기저 행렬을 모델링하는 방법에 관한 일 예가 될 수 있다.
도 2에서, ys Train(t)는 시간 영역의 훈련용 잡음을 나타낸다. ys Train(t)는 STFT(Short-Time Fourier Transform)를 거쳐 시간-주파수 영역의 Ys Train(τ,k)로 변환된다. 여기서, τ는 시간-프레임 축을 나타내고, k는 주파수 축을 나타낸다. 그리고 Ys Train(τ,k)에 절대값을 취한 값을 편의상 Ys Train이라고 한다.
Ys Train은 수학식 1과 같이 (m × r) 차원을 갖는 기저 행렬(basis matrix)와 (r × T) 차원을 갖는 계수 행렬(coefficient matrix)로 분해된다. 여기서 r은 기저 행렬을 구성하는 기저 벡터(basis vector)의 개수를 나타내고, V는 모델링 오차를 나타낸다.
Figure 112009020906561-PAT00001
그리고, 기저 행렬인 As Train과 계수 행렬 Xs Train을 구하기 위해 다음과 같은 mean-squared error criterion을 정의한다.
Figure 112009020906561-PAT00002
그리고, 수학식 2에 대하여 steepest-decent 기법을 적용하면 기저 행렬인 As Train을 구하는 것이 가능하다.
일 예로써, 수학식 3과 같이 gradient를 구하고, 수학식 4와 같이 Xs Train 및 As Train을 update 시키는 것이 가능하다.
Figure 112009020906561-PAT00003
Figure 112009020906561-PAT00004
Figure 112009020906561-PAT00005
수학식 4에서, ⓧ 및 Θ는 Hadamard matrix operator를 나타낸다.
이와 같이 구해진 훈련용 잡음의 기저 행렬 As Train은 도 2의 AIntf Train과 같으며, 이것은 제거하고자 하는 간섭음의 기저 행렬로 이용될 수 있다.
도 3을 참조하여, 사운드 분해부(102) 및 혼합음에서 목적음과 간섭음을 분해하는 방법을 더욱 구체적으로 설명한다. 이것은 본 발명의 일 실시 예에 따른 semi-blind NMF 적용에 대한 일 예가 될 수 있다.
도 3에서, yTest(t)는 시간 영역의 혼합음을 나타낸다. 그리고 yTest(t)는 STFT(Short-Time Fourier Transform)를 거쳐 시간-주파수 영역의 YTest(τ,k)로 변환된다. 여기서, τ는 시간-프레임 축을 나타내고, k는 주파수 축을 나타낸다. 그리 고 YTest(τ,k)에 절대값을 취한 값을 편의상 YTest라고 한다.
YTest는 semi-blind NMF를 통해 목적음인 Ys Test와 간섭음인 Yn Test로 분해된다.
이것을 구체적인 수식으로 나타내면 다음과 같다.
Figure 112009020906561-PAT00006
수학식 5에서, 목적음의 기저 행렬 As Test는 임의의 값으로 초기화하고, 간섭음의 기저 행렬 An Test는 수학식 1 내지 수학식 4를 통해 계산된 훈련용 잡음의 기저 행렬 AIntf Train과 동일하다고 가정한다.
이렇게 되면, 수학식 5에서, YTest와 ATest가 주어지므로, 계수 행렬인 XTest를 least square 기법을 통해 추정하는 것이 가능하다. 또한, 계수 행렬인 XTest가 추정 되면, 추정된 계수 행렬을 이용해서 다시 목적음의 기저 행렬 As Test를 least square 기법을 통해 추정하는 것이 가능하다.
이 때의 error criterion은 [수학식 2] 내지 [수학식 4]를 응용할 수도 있으나, 전술한 orthogonal disjointness를 고려하여 다음과 같은 error criterion을 이용하는 것도 가능하다.
Figure 112009020906561-PAT00007
수학식 6에서, β는 상수이고, Φd(As, Xs, Xn)은 다음과 같이 정의된다.
Figure 112009020906561-PAT00008
수학식 7을 참조하면, 시간-주파수 차원에서 목적음(AsXs)과 간섭음(AnXn)이 서로 orthogonal disjoint하면 Φd(As, Xs, Xn)값이 제로가 되고, 그렇지 아니하면 Φd(As, Xs, Xn)값이 양수가 됨을 알 수 있다. 예를 들어, 목적음과 간섭음을 사운드 스펙트로그램으로 나타내었을 때, 목적음이 1이고 간섭음이 0이면 서로 orthogonal disjoint한 것으로 볼 수 있다. 즉, orthogonal disjoint란 목적음과 간섭음이 사운드 스펙트로그램 상에서 공통 성분을 갖지 아니함을 의미할 수 있다.
이러한 disjointedness measure를 정의하고, 수학식 7에서 정의된 오차 함수를 최소화하는 As, Xs, Xn을 구하기 위해 다음과 같은 수학식 8을 정의하고, 수학식 4와 같은 steepest decent rule을 적용하면 수학식 9와 같은 결과를 얻을 수 있다.
Figure 112009020906561-PAT00009
Figure 112009020906561-PAT00010
수학식 9에서, ε, μ 등은 상수로써 매우 작은 값의 양수로 정의될 수 있다.
다음으로, 도 4를 참조하여 혼합음에서 목적음을 추출하는 방법을 구체적으로 설명한다. 이것은 adaptive soft masking filter를 적용하는 방법에 관한 일 예 가 될 수 있다.
도 4에서, 필터는 M(τ,k)로 주어진다. 이 때, τ는 시간-프레임 축을 나타내고, k는 주파수 축을 나타낸다. 그리고 M(τ,k)는 다음과 같이 정의될 수 있다.
Figure 112009020906561-PAT00011
수학식 10을 참조하면, M(τ,k)는 SNRTF(τ,k)를 지수감소적으로 반영하고, SNRTF(τ,k)는 목적음과 간섭음의 비율로 정해지는 것을 알 수 있다. 즉, 어떠한 (τ,k) 좌표에서 목적음과 간섭음을 비교하여 목적음이 더 우세한 곳에서는 M(τ,k)값이 커지고 간섭음이 더 우세한 곳에서는 M(τ,k)값이 작아짐을 알 수 있다.
따라서 다음과 같이 필터를 적용하여 혼합음에서 간섭음을 제거하고 목적음만 추출하는 것이 가능하다.
Figure 112009020906561-PAT00012
도 5는 본 발명의 일 실시 예에 따른 목적음 추출 방법을 도시한다.
도 5를 참조하면, 본 실시 예에 따른 목적음 추출 방법은 크게 간섭음을 모델링하는 단계(501)와 목적음을 분리 및 추출하는 단계(502)로 구분할 수 있다.
간섭음의 모델링은(501)은 모델링부(101)가 훈련용 잡음을 비음수 행렬 인수분해하고 훈련용 잡음에 대한 기저 행렬을 추출하는 방식으로 수행될 수 있다. 일 예로써, 전술한 수학식 1 내지 수학식 4를 통해 훈련용 잡음의 기저 행렬을 추출하는 것이 가능하다.
목적음의 분리 및 추출(502)은 분해부(102)가 혼합음에 본 발명의 일 실시 예에 따른 semi-blind 비음수 행렬 인수분해를 적용하고, 필터부(103)가 적응형 필터를 이용하여 혼합음을 필터링하는 방식으로 수행될 수 있다. 일 예로써, 전술한 수학식 6 내지 수학식 9를 통해 혼합음에서 목적음과 간섭음을 분리하고, 수학식 10 및 수학식 11을 통해 혼합음을 필터링하는 것이 가능하다.
본 발명의 일 실시 예에 따른 semi-blind 비음수 행렬 인수분해를 보다 구체적으로 설명하면 도 6과 같다.
도 6을 참조하면, 분해부(102)는 혼합음 및 모델링된 간섭음의 기저 행렬을 수신한다(601, 602). 모델링된 간섭음의 기저 행렬은 훈련용 잡음을 NMF하여 추출된 훈련용 잡음의 기저 행렬이 될 수 있다.
이어서, 목적음의 기저 행렬을 임의의 값으로 초기화한다(603).
이어서, 혼합음의 계수 행렬을 추정한다(604). 추정 방법은 least square 기법이 사용될 수 있다.
이어서, 추정된 혼합음의 계수 행렬을 고정하고, 임의의 값으로 초기화된 목적음의 기저 행렬을 추정한다(605). 추정 방법은 least square 기법이 사용될 수 있다.
이어서, 주어진 error criterion을 이용하여 추정된 각각의 값이 오차 범위 내로 수렴하였는지 여부를 판단한다(606). Error criterion은 전술한 수학식 2 또는 수학식 6이 이용될 수 있다.
추정 값이 충분히 수렴되었다면 각각의 기저 행렬 및 계수 행렬을 이용하여 목적음과 간섭음을 분리하고(607), 그러하지 아니하면 위 과정을 반복한다.
이상에서 살펴본 바와 같이, 개시된 실시 예에 의하면, 제거 대상이 되는 간섭음을 훈련용 잡음으로 모델링하고 적응형 필터를 이용하여 이러한 간섭음을 제거하기 때문에 목적음과 간섭음을 정밀하게 분해하는 것이 가능하다.
도 1은 본 발명의 일 실시 예에 따른 목적음 추출 장치의 구성을 도시한다.
도 2는 본 발명의 일 실시 예에 따른 모델링부의 구성을 도시한다.
도 3은 본 발명의 일 실시 예에 따른 사운드 분해부의 구성을 도시한다.
도 4는 본 발명의 일 실시 예에 따른 필터부의 구성을 도시한다.
도 5는 본 발명의 일 실시 예에 따른 목적음 추출 방법을 도시한다.
도 6은 본 발명의 일 실시 예에 따른 semi-blind NMF 방법을 도시한다.

Claims (14)

  1. 훈련용 잡음으로부터 상기 훈련용 잡음의 기저 행렬을 추출하는 모델링부; 및
    상기 추출된 훈련용 잡음의 기저 행렬을 이용하여 수신된 혼합음을 목적음과 간섭음으로 분해하는 사운드 분해부; 를 포함하는 목적음 추출 장치.
  2. 제 1 항에 있어서,
    상기 간섭음은, 상기 훈련용 잡음의 기저 행렬로 모델링되는 목적음 추출 장치.
  3. 제 1 항에 있어서,
    상기 모델링부는, 상기 훈련용 잡음을 시간-주파수 영역으로 변환하고, 변환된 상기 훈련용 잡음을 비음수 행렬 인수분해하는 목적음 추출 장치.
  4. 제 1 항에 있어서,
    상기 사운드 분해부는, 상기 훈련용 잡음의 기저 행렬과 상기 간섭음의 기저 행렬이 동일하다고 가정한 상태에서 상기 혼합음을 비음수 행렬 인수분해하는 목적음 추출 장치.
  5. 제 4 항에 있어서,
    상기 사운드 분해부는, 상기 목적음의 기저 행렬을 임의의 값으로 초기화한 후 상기 혼합음의 계수 행렬을 추정하고, 상기 추정된 혼합음의 계수 행렬을 이용하여 상기 목적음의 기저 행렬을 추정하는 목적음 추출 장치.
  6. 제 1 항에 있어서,
    상기 사운드 분해부는, 상기 목적음과 상기 간섭음이 사운드 스펙트로그램 상에서 공통 성분을 갖지 않도록 분해하는 목적음 추출 장치.
  7. 제 1 항에 있어서,
    상기 혼합음으로부터 상기 간섭음을 제거하는 필터부; 를 더 포함하며,
    상기 필터부는 상기 목적음은 강화하고 상기 간섭음은 약화시키는 적응형 필터를 상기 혼합음에 적용하는 목적음 추출 장치.
  8. 훈련용 잡음으로부터 상기 훈련용 잡음의 기저 행렬을 추출하는 모델링 단계; 및
    상기 추출된 훈련용 잡음의 기저 행렬을 이용하여 수신된 혼합음을 목적음과 간섭음으로 분해하는 사운드 분해 단계; 를 포함하는 목적음 추출 방법.
  9. 제 8 항에 있어서,
    상기 간섭음은, 상기 훈련용 잡음의 기저 행렬로 모델링되는 목적음 추출 방법.
  10. 제 8 항에 있어서,
    상기 모델링 단계는, 상기 훈련용 잡음을 시간-주파수 영역으로 변환하고, 변환된 상기 훈련용 잡음을 비음수 행렬 인수분해하는 과정을 포함하는 목적음 추출 방법.
  11. 제 8 항에 있어서,
    상기 사운드 분해 단계는, 상기 훈련용 잡음의 기저 행렬과 상기 간섭음의 기저 행렬이 동일하다고 가정한 상태에서 상기 혼합음을 비음수 행렬 인수분해하는 과정을 포함하는 목적음 추출 방법.
  12. 제 11 항에 있어서,
    상기 사운드 분해 단계는, 상기 목적음의 기저 행렬을 임의의 값으로 초기화한 후 상기 혼합음의 계수 행렬을 추정하고, 상기 추정된 혼합음의 계수 행렬을 이용하여 상기 목적음의 기저 행렬을 추정하는 과정을 포함하는 목적음 추출 방법.
  13. 제 8 항에 있어서,
    상기 사운드 분해 단계는, 상기 목적음과 상기 간섭음이 사운드 스펙트로그 램 상에서 공통 성분을 갖지 않도록 분해하는 과정을 포함하는 목적음 추출 방법.
  14. 제 8 항에 있어서,
    상기 혼합음으로부터 상기 간섭음을 제거하는 필터링 단계; 를 더 포함하며,
    상기 필터링 단계는, 상기 목적음은 강화하고 상기 간섭음은 약화시키는 적응형 필터를 상기 혼합음에 적용하는 과정을 포함하는 목적음 추출 방법.
KR1020090029957A 2009-04-07 2009-04-07 목적음 추출 장치 및 방법 KR20100111499A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090029957A KR20100111499A (ko) 2009-04-07 2009-04-07 목적음 추출 장치 및 방법
US12/754,990 US20100254539A1 (en) 2009-04-07 2010-04-06 Apparatus and method for extracting target sound from mixed source sound

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090029957A KR20100111499A (ko) 2009-04-07 2009-04-07 목적음 추출 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20100111499A true KR20100111499A (ko) 2010-10-15

Family

ID=42826199

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090029957A KR20100111499A (ko) 2009-04-07 2009-04-07 목적음 추출 장치 및 방법

Country Status (2)

Country Link
US (1) US20100254539A1 (ko)
KR (1) KR20100111499A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014003B2 (en) 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5942420B2 (ja) * 2011-07-07 2016-06-29 ヤマハ株式会社 音響処理装置および音響処理方法
JP5662276B2 (ja) * 2011-08-05 2015-01-28 株式会社東芝 音響信号処理装置および音響信号処理方法
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
JP6054142B2 (ja) * 2012-10-31 2016-12-27 株式会社東芝 信号処理装置、方法およびプログラム
EP3005363A1 (en) 2013-06-05 2016-04-13 Thomson Licensing Method of audio source separation and corresponding apparatus
US9310800B1 (en) * 2013-07-30 2016-04-12 The Boeing Company Robotic platform evaluation system
JP2015031889A (ja) * 2013-08-05 2015-02-16 株式会社半導体理工学研究センター 音響信号分離装置、音響信号分離方法及び音響信号分離プログラム
CN103559888B (zh) * 2013-11-07 2016-10-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
EP2887233A1 (en) * 2013-12-20 2015-06-24 Thomson Licensing Method and system of audio retrieval and source separation
CN103971681A (zh) * 2014-04-24 2014-08-06 百度在线网络技术(北京)有限公司 一种语音识别方法及系统
US10141003B2 (en) * 2014-06-09 2018-11-27 Dolby Laboratories Licensing Corporation Noise level estimation
JP2015064602A (ja) * 2014-12-04 2015-04-09 株式会社東芝 音響信号処理装置、音響信号処理方法および音響信号処理プログラム
JP7000991B2 (ja) * 2018-05-23 2022-01-19 株式会社リコー 状態識別装置、状態識別方法および状態識別プログラム
JP7149197B2 (ja) * 2019-02-06 2022-10-06 株式会社日立製作所 異常音検知装置および異常音検知方法
WO2020208926A1 (ja) * 2019-04-08 2020-10-15 ソニー株式会社 信号処理装置、信号処理方法及びプログラム
CN110728987B (zh) * 2019-10-23 2022-02-11 随锐科技集团股份有限公司 Windows计算机实时与会共享音频的采集方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6738481B2 (en) * 2001-01-10 2004-05-18 Ericsson Inc. Noise reduction apparatus and method
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
EP2210427B1 (en) * 2007-09-26 2015-05-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for extracting an ambient signal
US8015003B2 (en) * 2007-11-19 2011-09-06 Mitsubishi Electric Research Laboratories, Inc. Denoising acoustic signals using constrained non-negative matrix factorization
US8223988B2 (en) * 2008-01-29 2012-07-17 Qualcomm Incorporated Enhanced blind source separation algorithm for highly correlated mixtures

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014003B2 (en) 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation

Also Published As

Publication number Publication date
US20100254539A1 (en) 2010-10-07

Similar Documents

Publication Publication Date Title
KR20100111499A (ko) 목적음 추출 장치 및 방법
WO2018190547A1 (ko) 심화신경망 기반의 잡음 및 에코의 통합 제거 방법 및 장치
Malik Acoustic environment identification and its applications to audio forensics
Huang et al. A blind channel identification-based two-stage approach to separation and dereverberation of speech signals in a reverberant environment
WO2018111038A1 (ko) 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법 및 장치
KR101153093B1 (ko) 다감각 음성 향상을 위한 방법 및 장치
EP2643834B1 (en) Device and method for producing an audio signal
EP1891627B1 (en) Multi-sensory speech enhancement using a clean speech prior
JP2007523514A (ja) 適応ビームフォーマ、サイドローブキャンセラー、方法、装置、及びコンピュータープログラム
KR101305373B1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법
KR100394840B1 (ko) 독립 성분 분석을 이용한 능동 잡음 제거방법
Yen et al. Adaptive co-channel speech separation and recognition
US7752040B2 (en) Stationary-tones interference cancellation
CN111883154B (zh) 回声消除方法及装置、计算机可读的存储介质、电子装置
US10904688B2 (en) Source separation for reverberant environment
JP2836271B2 (ja) 雑音除去装置
KR101334991B1 (ko) 단일채널 음성신호에 대한 반향신호 제거방법 및 이를 이용한 음성인식장치
CN108074580B (zh) 一种噪声消除方法及装置
Dobre et al. Investigation on the performances of APA in forensic noise reduction
KR101096091B1 (ko) 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법
de Cheveigné The cancellation principle in acoustic scene analysis
JP6519801B2 (ja) 信号解析装置、方法、及びプログラム
Zhang et al. Blind estimation of reverberation time in occupied rooms
KR102505653B1 (ko) 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치
Lin et al. Blind speech dereverberation in the presence of common acoustical zeros

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application