KR20110012946A - 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 - Google Patents
소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 Download PDFInfo
- Publication number
- KR20110012946A KR20110012946A KR1020090070867A KR20090070867A KR20110012946A KR 20110012946 A KR20110012946 A KR 20110012946A KR 1020090070867 A KR1020090070867 A KR 1020090070867A KR 20090070867 A KR20090070867 A KR 20090070867A KR 20110012946 A KR20110012946 A KR 20110012946A
- Authority
- KR
- South Korea
- Prior art keywords
- sound
- independent
- signal
- basis vector
- sound signal
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 230000005236 sound signal Effects 0.000 claims abstract description 101
- 239000013598 vector Substances 0.000 claims abstract description 56
- 238000000926 separation method Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000004445 quantitative analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치를 제공한다. 소리의 복원 방법에 있어서, 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 소리의 주파수 기저벡터를 이용하여 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 따라서 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.
소리 복원, 잡음, 다중 경로 암묵 음원 분리, 스펙트로그램, 비음수 행렬 분해, 주파수 기저벡터, 관측소리신호, 독립소리신호, 음성신호
Description
본 발명은 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것으로서, 더욱 상세하게는 소리의 주파수 기저벡터를 이용하는 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것이다.
멀티 모달(multi modal) 사용자 인터페이스에 대한 수요의 증가 및 관련 기술의 발달로 음성, 영상 및 햅틱(haptic) 등의 다양한 센서들을 이용한 사용자 인터페이스들이 개발되고 있다. 특히, 음성의 경우 저가의 센서를 이용하여 손쉽게 음성신호를 얻을 수 있으며, 휴대성이 뛰어나 다른 모바일 기기와 연계하여 사용자 인터페이스를 개발하기 쉽기 때문에 많은 주목을 받고 있다. 그러나 실제 환경에서의 음성신호는 항상 잡음과 소음에 노출되어 있어, 이에 따른 인식 성능의 저하는 음성기반 사용자 인터페이스 개발의 큰 걸림돌로 작용하고 있다.
실제 환경에서의 잡음과 소음의 영향을 제거하고 깨끗한 음성신호만을 얻기 위해, 잡음제거나 음성강조 및 음원분리 기술들이 적용되고 있다. 특히, 음원분리기술은 여러 신호가 섞인 혼합신호에서 독립적인 신호들을 복원하는 기술이므로, 여러 잡음이 섞인 음성신호에서 음성신호와 비 음성신호들을 분리해 내고자 할 때 효과적이다. 다만 사무실이나 방과 같이 제한된 공간에서는 장애물이나 벽에 부딪쳐 반사되어 돌아오는 신호들에 의해 다중 경로 혼합(convolutive mixture) 문제가 발생하게 되는데, 이는 수학적으로도 모델링이 복잡하여 잡음제거나 음원분리 문제를 어렵게 한다.
최근 기존의 음원분리 성능 향상을 위해 다른 부가적인 정보를 이용하는 시도가 있어왔다. 센서들과 음원들 사이의 기하학적 정보를 이용하는 빔 형성(beam forming) 접근방법이나 센서들에게 가장 우세한 파워를 나타내는 음원을 선택적으로 분리하는 방법 등의 음원분리 성능을 높이기 위하여 관측신호 이외의 정보를 분리과정에 적용하는 방법들이 제안되었다. 그러나 이 접근 방법들은 대부분 음원이 관측되는 환경에 대한 부차적 정보를 이용 할 뿐, 음원(음성)이 가지는 고유의 특성정보를 음원분리에 적용하여 성능을 향상시키는 시도는 없었다.
본 발명의 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 제공하는 것이다.
본 발명의 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 기록한 기록매체를 제공하는 것이다.
본 발명의 또 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 수행하는 장치를 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위한 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.
여기에서, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다.
여기에서, 상기 비음수 행렬 인수분해 방법은 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.
여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.
상술한 본 발명의 다른 목적을 달성하기 위한 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.
상술한 본 발명의 또 다른 목적을 달성하기 위한 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나 의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있다.
여기에서, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다.
여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.
상기와 같은 소리 복원 방법에 따르면, 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나 의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.
도 1과 도 2를 병행하여 참조하면, 본 발명의 일 실시예에 따른 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110), 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단계 120) 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)를 포함하여 구성될 수 있다.
먼저, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110)는 복수의 마이크로폰(microphone)을 이용하여 복원되어야 할 소리와 잡음을 함께 입력받는 것일 수 있다. 상기 소리는 복원되어야 할 신호를 의미하며, 상기 잡음은 소리와 별개의 음원에서 발생된 것일 수 있으며, 소리의 음원과 동일한 음원에서 발생되었지만 반사체에서 반사되는 등의 이유로 복원되어야할 소리와는 다른 경로를 통하여 입력받는 신호를 모두 포함하는 것일 수 있다.
다음으로, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다. 상기 소리의 주파수 기저벡터는 특정 소리를 이용하여 특정 소리의 주파수 특성을 잘 나타내는 주파수 특성 기저벡터를 학습하는 것을 통하여 생성된다. 여기에서, 스펙트로그램은(spectrogram) 주어진 신호의 시간-주파수 특성을 보고자 할 때 많이 쓰이는 방법이다. 일반적으로 분석하는 소리는 시간에 따라 주파수 및 진폭이 변화하는 매우 복잡한 특징을 가지며, 스펙트로그램(spectrogram)은 주파수와 진폭의 시간에 따른 변화를 보여주는 삼차원적인 그래프이므로, 스펙트로그램을 이용하면 상기 소리의 특성을 잘 나타낼 수 있을 것이다. 또한, 상기 비음수 행렬 인수분해는 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다. 즉, 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용하여 주파수 기저벡터를 학습할 수도 있을 것이다.
예를 들면, 상기 소리의 주파수 기저벡터는 학습 가능한 소리를 통해 상기 소리가 가지는 고유한 주파수 특성 정보를 추출하여 주파수 기저벡터를 생성하는 것이다. 이를 상세하게 설명하면, 학습 가능한 소리 신호의 스펙트로그램(spectrogram)을 행렬 (X 행렬, 는 주파수 대역, 는 전체 프레임 수)이라고 할 때, 행렬 에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization)를 적용하여 다음 수학식 1과 같이 을 두 개의 행렬로 분해할 수 있을 것이다.
여기에서, 행렬 (X 행렬, 는 주파수 대역, 는 기저벡터의 수를 결정하는 인자)는 주파수 특성 기저벡터이며, 시간에 불변하는 주파수 특성을 갖는다. 행렬 (X 행렬, 는 기저벡터의 수를 결정하는 인자, 는 전체 프레임 수)는 시간에 따라 가변적인 기저벡터이다.
결국, 행렬 에 대하여 비음수 행렬분해를 통해 행렬 및 행렬 로 분해할 수 있으며, 행렬 의 각 열은 시간의 변화에 불변하는 주파수 영역의 기저벡터이므로 행렬 를 학습함으로써, 상기 소리가 갖는 고유의 주파수 특성 정보를 추출 할 수 있다. 더불어 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용할 수 있으며, Overcomplete Representation 방법을 이용할 수도 있을 것이다.
다음으로, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단 계 120)는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다. 다중 경로 암묵 음원 분리(CBSS)는 각 음원들이 '서로 통계적으로 독립'이라는 정보만을 이용하여 음원들을 분리하는 방법이다. 즉, 통계적으로 독립이라는 특성을 이용하여 여러 음원들을 서로 분리할 수 있을 것이다.
반향 환경에서의 음원 분리 문제는 주파수 영역에서 각 주파수대에서의 곱으로 간단히 표현되기 때문에 수학식 3을 주파수 영역으로 변환하면 문제 해결이 용이해 질 수 있다. 즉, 가 주파수일 때, 수학식 3은 수학식 5와 같이 각 주파수대의 곱으로 표현될 수 있을 것이다.
각 음원들이 서로 통계적으로 독립이라는 점으로부터 가 대각행렬이 된다는 것을 알 수 있으며, 이에 따라 의 비 대각성분들을 0으로 만드는 역혼합행렬을 구하는 수학식 7을 수학식 6의 관계를 이용하여 유도할 수 있다.
수학식 7에 Joint Approximate Diagonalization을 적용하여 각 주파수 대역에서의 역혼합행렬들을 구할 수 있고, 이를 통하여 다중 경로 신호로부터 원래의 음원들을 분리할 수 있을 것이다.
다음으로, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다. 또한, 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.
예를 들면, 보다 효율적인 채널 선택 판단 식을 유도하기 위하여 확률적 해석이 가능한 모델을 도입하면 아래의 수학식 8을 구할 수 있다.
여기에서, 는 음원변수로서 , (은 특정화자, 는 방해음원)를 만족하며, 는 각 음원에 대한 사전확률이며, 는 각 음원에 해당하는 기저함수이며, 는 각 음원이 주어졌을 경우의 시간에 따른 가중치이다.
도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다. 도 3을 참조하면, 수학식 8의 모델을 확률 그래프 모델로 나타낸 것임을 알 수 있다.
수학식 8의 모델을 다중 경로 암묵 음원 분리(CBSS)의 출력채널에서 얻은 독립소리신호 과 의 시간-주파수 표현에 각각 적용한다. 다만 여기에서 은 미리 학습해 놓은 기저벡터들을 그대로 사용하기 때문에(, 여기에서 는 A행렬의 (f, z)번째 원소), 특정 소리의 정보를 채널 선택에 효과적으로 적용시킬 수 있을 것이다. 다중 경로 암묵 음원 분리(CBSS)를 통해 얻은 출력신호들은 특정 소리와 방해음원 및 잡음이 완벽히 분 리가 되지 않고 섞여있는 신호이기 때문에, 수학식 8과 같은 음원변수에 대한 확률모델을 세움으로써 이를 확률적으로 기술하고, 이를 통해 채널 선택의 판단기준을 마련할 수 있을 것이다.
수학식 8에서 구해야 하는 요소들은 를 제외한 이다. 이 값들은 잠재변수가 있을 경우, 유사도를 최대화하는 (EM: Expectation and Maximization) 알고리즘으로 구할 수 있다. EM 알고리즘은 E 단계와 M 단계로 나누어져 있으며, 두 단계를 수렴할 때까지 반복적으로 수행한다.
여기에서 채널선택에 대한 판단 기준식은 특정 소리의 사전 확률을 이용하여 구할 수 있다. 직관적으로 가 클수록 주어진 시간-주파수 표현에 특정 소리()의 기여도가 크다는 것을 알 수 있다. 그러므로 판단 기준식()은 수학식 11로 표현될 수 있을 것이다.
즉, 두 시간-주파수 표현 과 에 앞서의 확률모델을 적용하여 들을 구하고 최종적으로 수학식 11을 서로 비교함으로써 특정 소리가 보다 우세하게 포함되어 있는 채널을 선택할 수 있을 것이다.
다음으로, 본 발명의 일 실시예에 따른 소리 복원 방법은 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)를 더 포함하여 구성되는 것일 수 있다. 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.
예를 들면, 앞서 구한 를 이용하여 최종적으로 특정 소리를 복원할 수 있을 것이다. 이를 위하여 먼저 특정 소리만을 담고 있는 스펙트로그램()을 복원하면, 의 (f,t)의 원소 는 아래의 수학식 13과 같다.
여기에서, 는 음원에서 특정 확률분포로 뽑힌 수라는 점을 이용하면, 특정 소리의 스펙트로그램 은 가 이루는 이항 분포에서 총 뽑힌 횟수 가 주어졌을 때의 평균으로 정의될 수 있다.
앞에서 구한 시간-주파수 표현 과 해당 채널의 신호에서 얻은 위상정보를 이용하고, 이를 역-STFT(Short Time Fourier Transform) 변환을 통하여 최종적 으로 특정화자의 음성신호만을 복원할 수 있다.
더불어, 본 발명의 일 실시예에 따른 소리 복원 방법에서 상기 소리는 사람의 음성신호일 수 있다. 사람의 음성신호를 복원하는 방법으로 적용이 가능하며 따라서 음성인식장치의 음성인식 성능을 향상시킬 수 있을 것이다.
본 발명의 다른 실시예에 따른 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 더불어, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다. 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.
또한, 본 발명의 또 다른 실시예에 따른 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있으며, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다. 상기 소리는 사람의 음성신호일 수 있다. 역시 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.
도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다. 도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.
본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해, 실제 잡음과 반향이 있는 환경에서 잡음과 반향 제거정도를 평가한다. 정량적인 분석을 위해 Room Simulation을 이용하여 실제 잡음과 반향 상황을 시뮬레이션을 실시한다.
도 4를 참조하면, Room Simulation을 위한 방의 크기는 가로 6.75m, 세로 3.75m 및 높이 2.5m이며, 도 5를 참조하면, 반향 정도를 나타내는 충격함수 반응을 알 수 있다. S1과 S2는 각각 Source1과 Source2를 의미한다. 도 4에서 S1과 S2는 각 음원이 자리할 수 있는 위치를 나타내는데, ①은 S1이 S2보다 가까운 곳에 위치함을, ②는 S1과 S2의 거리가 같음을, ③은 S1이 S2보다 먼 곳에 위치함을 의미한다. 특정 소리의 음원이 S1에 위치하게 되는데 ① ~ ③의 위치로 자리를 바꾸어가면서 녹음을 하여 다양한 위치에서의 성능 평가를 할 수 있다. 실험에서는 특정 소리 S1은 여성화자 또는 남성화자의 음성이고, 방해음원 S2는 프리터 출력소리 또는 트럼펫 연주소리로 가정한다.
도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.
도 6을 참조하면, 아래의 방법으로 실험한 경우의 여성과 남성의 주파수 특성 기저벡터들을 확인할 수 있다. 주파수 특성 기저벡터 학습을 위해 음성신호와는 별개의 학습 데이터로 각 30초 길이의 여성 또는 남성의 음성신호를 사용한다. 여성 및 남성의 음성신호를 STFT(Short Time Fourier Transform) 변환을 통하여 시간-주파수 표현 을 얻을 수 있다. 여기에서, 윈도우 크기는 1024, hop크기는 256 및 hamming window를 사용한다. 을 비음수 분해하기 위해 Probabilistic Latent Variable Model을 적용하고, 이때 K를 1000(>>F=512)으로 하여 Over-representation이 가능하도록 하였다. 이외에도 엔트로픽(Entropic) 사전확률을 정의할 때 요구되는 사용자 계수들은 Shashanka와 Smaragdis 연구에서 제시된 수치를 따른다.
추가적으로, 복원결과의 정량적 평가를 위하여 SDR(Source to Distortion Ratio)을 도입할 수 있을 것이다. SDR은 잡음이 있는 환경에서 음원분리 방법들의 품질을 평가하는 측정단위로써, 그 값이 클수록 알고리즘이 출력한 결과신호가 목표 신호에 근접한다는 것을 의미한다. 계산을 위해 주어진 신호()를 아래의 수학식 16의 분리모델을 이용하여 분리한다.
여기에서, 은 복원하고자 하는 소리이고, 는 여러 음원에 의하여 생성된 간섭 소리이고, 는 복원하고자 하는 소리가 아닌 다른 음원에서 생성된 잡음 소리이고, 는 인공적으로 생성한 잡음 소리이다.
수학식 16의 분리모델을 바탕으로 SDR을 구하면 수학식 17과 같다.
본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해 각 단계별로 SDR을 측정하고, 이의 증가폭을 기존 CBSS와 비교한다. 즉, 크게 세부분에서 매 실험마다 SDR을 측정한다. 1) 마이크로폰으로 얻어진 관측소리신호의 SDR값(), 두 입력 중 SDR이 높은 쪽 선택 2) 음원분리만을 통해 얻은 결과의 SDR값(), 3) 본 발명의 복원 단계를 거친 최종 결과신호의 SDR값().
도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.
도 7을 참조하면, (a)는 여성 화자인 경우, (b)는 남성 화자인 경우의 각 단계별 SDR 결과를 나타내며, 여기에서 pr은 프린터 잡음을 나타내며, tr은 트럼펫 음악을 방해음원으로 사용한 것을 나타낸다. (a)와 (b)는 각각 여성과 남성이 특정화자일 경우, 여러 상황에서 본 발명의 일 실시예에 따른 소리 복원 방법의 복원결 과를 평가한 것이다. 특히 SDR값의 증가분을 통해 본 발명의 일 실시예에 따른 소리 복원 방법이 반향과 잡음에 의하여 생기는 왜곡을 상당 부분 제거하고, CBSS의 분리 성능을 큰 폭으로 다시 향상시키는 것을 알 수 있다. 즉, 본 발명이 잡음과 반향 환경에서 잡음 및 반향을 제거하고 본 특정화자의 음성을 복원하는데 적합함을 보여준다.
이상 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다.
도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.
도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.
도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.
Claims (14)
- 소리의 복원 방법에 있어서,상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계;상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계; 및상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계;를 포함하여 구성되는 소리의 복원 방법.
- 제1항에 있어서,상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것을 특징으로 하는 소리의 복원 방법.
- 제1항에 있어서,상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것을 특징으로 하는 소리의 복원 방법.
- 제3항에 있어서,상기 비음수 행렬 인수분해 방법은 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것을 특징으로 하는 소리의 복원 방법.
- 제1항에 있어서,상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것을 특징으로 하는 소리의 복원 방법.
- 제1항에 있어서,상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것을 특징으로 하는 소리의 복원 방법.
- 제1항에 있어서,상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계;를 더 포함하여 구성되는 것을 특징으로 하는 소리의 복원 방법.
- 제7항에 있어서,상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것을 특징으로 하는 소리의 복원 방법.
- 제1항에 있어서,상기 소리는 사람의 음성신호인 것을 특징으로 하는 소리의 복원 방법.
- 소리의 복원 방법을 기록한 기록매체에 있어서,상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계;상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계; 및상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계;를 포함하여 구성되는 소리의 복원 방법을 기록한 기록매체.
- 제10항에 있어서,상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계;를 더 포함하여 구성되는 소리의 복원 방법을 기록한 기록매체.
- 소리의 복원 방법을 수행하는 장치에 있어서,상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 것을 수행하는 소리복원부; 및상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부;를 포함하여 구성되는 소리의 복원 방법을 수행하는 장치.
- 제12항에 있어서,상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것을 특징으로 하는 소리의 복원 방법을 수행하는 장치.
- 제12항에 있어서,상기 소리는 사람의 음성신호인 것을 특징으로 하는 소리의 복원 방법을 수행하는 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090070867A KR101043114B1 (ko) | 2009-07-31 | 2009-07-31 | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090070867A KR101043114B1 (ko) | 2009-07-31 | 2009-07-31 | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110012946A true KR20110012946A (ko) | 2011-02-09 |
KR101043114B1 KR101043114B1 (ko) | 2011-06-20 |
Family
ID=43772802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090070867A KR101043114B1 (ko) | 2009-07-31 | 2009-07-31 | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101043114B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017135487A1 (ko) * | 2016-02-05 | 2017-08-10 | 전자부품연구원 | 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템 |
US10014003B2 (en) | 2015-10-12 | 2018-07-03 | Gwangju Institute Of Science And Technology | Sound detection method for recognizing hazard situation |
CN108447502A (zh) * | 2018-03-09 | 2018-08-24 | 福州米鱼信息科技有限公司 | 一种基于语音信息的备忘方法及终端 |
CN110956978A (zh) * | 2019-11-19 | 2020-04-03 | 广东工业大学 | 一种基于欠定卷积混叠模型的稀疏盲分离方法 |
CN113470688A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
KR20210148057A (ko) * | 2017-08-09 | 2021-12-07 | 에스케이텔레콤 주식회사 | 음성 인식 방법 및 이에 사용되는 장치 |
-
2009
- 2009-07-31 KR KR1020090070867A patent/KR101043114B1/ko not_active IP Right Cessation
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10014003B2 (en) | 2015-10-12 | 2018-07-03 | Gwangju Institute Of Science And Technology | Sound detection method for recognizing hazard situation |
WO2017135487A1 (ko) * | 2016-02-05 | 2017-08-10 | 전자부품연구원 | 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템 |
KR20210148057A (ko) * | 2017-08-09 | 2021-12-07 | 에스케이텔레콤 주식회사 | 음성 인식 방법 및 이에 사용되는 장치 |
CN108447502A (zh) * | 2018-03-09 | 2018-08-24 | 福州米鱼信息科技有限公司 | 一种基于语音信息的备忘方法及终端 |
CN108447502B (zh) * | 2018-03-09 | 2020-09-22 | 福州米鱼信息科技有限公司 | 一种基于语音信息的备忘方法及终端 |
CN110956978A (zh) * | 2019-11-19 | 2020-04-03 | 广东工业大学 | 一种基于欠定卷积混叠模型的稀疏盲分离方法 |
CN113470688A (zh) * | 2021-07-23 | 2021-10-01 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
CN113470688B (zh) * | 2021-07-23 | 2024-01-23 | 平安科技(深圳)有限公司 | 语音数据的分离方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
KR101043114B1 (ko) | 2011-06-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210089967A1 (en) | Data training in multi-sensor setups | |
CN101385386B (zh) | 混响除去装置和混响除去方法 | |
CN112116920B (zh) | 一种说话人数未知的多通道语音分离方法 | |
US8391505B2 (en) | Reverberation suppressing apparatus and reverberation suppressing method | |
Ravanelli et al. | Realistic multi-microphone data simulation for distant speech recognition | |
Moore et al. | Speech enhancement for robust automatic speech recognition: Evaluation using a baseline system and instrumental measures | |
Zhao et al. | Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency Attention. | |
KR101043114B1 (ko) | 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 | |
EP4356375B1 (en) | Method and system for reverberation modeling of speech signals | |
EP4260315B1 (en) | Method and system for dereverberation of speech signals | |
Ick et al. | Blind acoustic room parameter estimation using phase features | |
Opochinsky et al. | Single-microphone speaker separation and voice activity detection in noisy and reverberant environments | |
Chen et al. | A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation | |
Lluís et al. | Direction specific ambisonics source separation with end-to-end deep learning | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
Gonzalez et al. | Investigating the Design Space of Diffusion Models for Speech Enhancement | |
Arberet et al. | A tractable framework for estimating and combining spectral source models for audio source separation | |
Pandey et al. | Time-domain ad-hoc array speech enhancement using a triple-path network | |
US20230178091A1 (en) | Wpe-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network | |
Guzewich et al. | Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. | |
Ma et al. | Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion | |
Gonzalez et al. | The Effect of Training Dataset Size on Discriminative and Diffusion-Based Speech Enhancement Systems | |
Johnson et al. | Latent gaussian activity propagation: using smoothness and structure to separate and localize sounds in large noisy environments | |
Zhao | Deep learning methods for reverberant and noisy speech enhancement | |
Astapov et al. | Acoustic event mixing to multichannel AMI data for distant speech recognition and acoustic event classification benchmarking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |