KR101043114B1 - Method of Restoration of Sound, Recording Media of the same and Apparatus of the same - Google Patents
Method of Restoration of Sound, Recording Media of the same and Apparatus of the same Download PDFInfo
- Publication number
- KR101043114B1 KR101043114B1 KR1020090070867A KR20090070867A KR101043114B1 KR 101043114 B1 KR101043114 B1 KR 101043114B1 KR 1020090070867 A KR1020090070867 A KR 1020090070867A KR 20090070867 A KR20090070867 A KR 20090070867A KR 101043114 B1 KR101043114 B1 KR 101043114B1
- Authority
- KR
- South Korea
- Prior art keywords
- sound
- signal
- independent
- frequency
- noise
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Abstract
소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치를 제공한다. 소리의 복원 방법에 있어서, 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 소리의 주파수 기저벡터를 이용하여 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 따라서 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.A sound recording method, a recording medium recording a sound restoration method, and a device for performing the sound restoration method are provided. A method of restoring a sound, the method comprising: receiving an observation sound signal including sound and noise, generating a plurality of independent sound signals from the observation sound signal, and using one of the plurality of independent sound signals using a frequency basis vector of the sound It may be configured to include the independent sound signal of the. Therefore, in the noisy environment, it is possible to reduce the influence of noise and improve the performance of sound source separation, thereby restoring only a specific sound. In particular, it is possible to improve the speech recognition performance of the speech recognition system by restoring a signal of a specific sound only.
소리 복원, 잡음, 다중 경로 암묵 음원 분리, 스펙트로그램, 비음수 행렬 분해, 주파수 기저벡터, 관측소리신호, 독립소리신호, 음성신호 Sound Restoration, Noise, Multipath Implicit Separation, Spectrogram, Nonnegative Matrix Decomposition, Frequency Basis Vector, Observation Sound Signal, Independent Sound Signal, Voice Signal
Description
본 발명은 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것으로서, 더욱 상세하게는 소리의 주파수 기저벡터를 이용하는 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것이다.The present invention relates to a method for restoring a sound, a recording medium recording a method for restoring a sound, and an apparatus for restoring a sound. More particularly, the present invention relates to a sound restoring method using a frequency basis vector of sound, An apparatus for performing a method of restoring a recorded recording medium and sound.
멀티 모달(multi modal) 사용자 인터페이스에 대한 수요의 증가 및 관련 기술의 발달로 음성, 영상 및 햅틱(haptic) 등의 다양한 센서들을 이용한 사용자 인터페이스들이 개발되고 있다. 특히, 음성의 경우 저가의 센서를 이용하여 손쉽게 음성신호를 얻을 수 있으며, 휴대성이 뛰어나 다른 모바일 기기와 연계하여 사용자 인터페이스를 개발하기 쉽기 때문에 많은 주목을 받고 있다. 그러나 실제 환경에서의 음성신호는 항상 잡음과 소음에 노출되어 있어, 이에 따른 인식 성능의 저하는 음성기반 사용자 인터페이스 개발의 큰 걸림돌로 작용하고 있다.BACKGROUND With the growing demand for multi modal user interfaces and the development of related technologies, user interfaces using various sensors such as voice, video, and haptic have been developed. In particular, in the case of voice, it is easy to obtain a voice signal by using a low-cost sensor, and has been attracting much attention because it is easy to develop a user interface in connection with other mobile devices because of its excellent portability. However, since voice signals are always exposed to noise and noise in real environment, the degradation of recognition performance is a major obstacle to the development of voice-based user interface.
실제 환경에서의 잡음과 소음의 영향을 제거하고 깨끗한 음성신호만을 얻기 위해, 잡음제거나 음성강조 및 음원분리 기술들이 적용되고 있다. 특히, 음원분리기술은 여러 신호가 섞인 혼합신호에서 독립적인 신호들을 복원하는 기술이므로, 여러 잡음이 섞인 음성신호에서 음성신호와 비 음성신호들을 분리해 내고자 할 때 효과적이다. 다만 사무실이나 방과 같이 제한된 공간에서는 장애물이나 벽에 부딪쳐 반사되어 돌아오는 신호들에 의해 다중 경로 혼합(convolutive mixture) 문제가 발생하게 되는데, 이는 수학적으로도 모델링이 복잡하여 잡음제거나 음원분리 문제를 어렵게 한다.In order to remove noise and the effects of noise in a real environment and to obtain only a clean voice signal, noise suppression or voice enhancement and sound source separation techniques are applied. In particular, the sound source separation technique is a technique for restoring independent signals from a mixed signal mixed with several signals, and thus is effective for separating the voice signal and non-voice signals from the mixed voice signal. In confined spaces such as offices and rooms, however, convolutive mixture problems are caused by signals coming back from the obstacles or walls, which is complicated in modeling, making it difficult to reduce noise or separate sound sources. do.
최근 기존의 음원분리 성능 향상을 위해 다른 부가적인 정보를 이용하는 시도가 있어왔다. 센서들과 음원들 사이의 기하학적 정보를 이용하는 빔 형성(beam forming) 접근방법이나 센서들에게 가장 우세한 파워를 나타내는 음원을 선택적으로 분리하는 방법 등의 음원분리 성능을 높이기 위하여 관측신호 이외의 정보를 분리과정에 적용하는 방법들이 제안되었다. 그러나 이 접근 방법들은 대부분 음원이 관측되는 환경에 대한 부차적 정보를 이용 할 뿐, 음원(음성)이 가지는 고유의 특성정보를 음원분리에 적용하여 성능을 향상시키는 시도는 없었다.Recently, there have been attempts to use other additional information to improve existing sound source separation performance. Separating information other than the observation signal to enhance sound separation performance, such as a beam forming approach using geometric information between the sensors and the sound sources, or selectively separating sound sources that show the most power to the sensors. Approaches to the process have been proposed. However, these approaches mostly use secondary information about the environment in which the sound source is observed, and there is no attempt to improve the performance by applying inherent characteristic information of the sound source (voice) to the sound source separation.
본 발명의 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 제공하는 것이다.It is an object of the present invention to provide a sound restoration method using a frequency basis vector of sound.
본 발명의 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 기록한 기록매체를 제공하는 것이다.Another object of the present invention is to provide a recording medium which records a sound restoration method using a frequency basis vector of sound.
본 발명의 또 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 수행하는 장치를 제공하는 것이다.It is still another object of the present invention to provide an apparatus for performing a sound restoration method using a frequency basis vector of sound.
상술한 본 발명의 목적을 달성하기 위한 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.In the sound restoration method for achieving the above object of the present invention, in the sound restoration method, receiving an observation sound signal including the sound and noise, generating a plurality of independent sound signal from the observation sound signal And selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound.
여기에서, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다.The generating of the plurality of independent sound signals from the observed sound signal may be performed by using a convolutive blind source separation (CBSS) method.
여기에서, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다.Here, the frequency basis vector of the sound may be generated by applying a non-negative matrix factorization (NNF) method to a spectrogram matrix representing the time-frequency characteristic of the sound.
여기에서, 상기 비음수 행렬 인수분해 방법은 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다.Here, the non-negative matrix factoring method may be to apply at least one of a method capable of probabilistic analysis, a method using orthogonal constraints, and a method using sparsity constraints.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다.Here, the step of selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may use a probability model including the frequency basis vector of the sound.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.Here, the step of selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may be to select an independent sound signal having a large contribution of the sound from the plurality of independent sound signals. have.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.The method may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.Here, the step of removing the noise from the selected independent sound signal using the frequency basis vector of the sound may be a method of restoring a spectrogram including only the sound.
여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.Here, the sound may be a human voice signal.
상술한 본 발명의 다른 목적을 달성하기 위한 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.According to another aspect of the present invention, there is provided a recording medium for recording a sound restoring method, the recording medium recording a sound restoring method comprising the steps of: receiving an observation sound signal including the sound and noise; Generating a plurality of independent sound signals and selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.The method may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound.
상술한 본 발명의 또 다른 목적을 달성하기 위한 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나 의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있다.An apparatus for performing a sound restoration method for achieving the above object of the present invention is a device for performing a sound restoration method, receiving an observation sound signal containing the sound and noise, from the observation sound signal A sound restoring unit and the observation sound signal and the plurality of independent sounds, which generate a plurality of independent sound signals and select one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound. And a storage unit for storing the signal, the frequency basis vector of the sound, and the selected independent sound signal.
여기에서, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다.The sound restoration unit may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound.
여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.Here, the sound may be a human voice signal.
상기와 같은 소리 복원 방법에 따르면, 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.According to the sound restoration method as described above, it is possible to reduce the influence of noise and improve the performance of the sound source separation in a noisy environment, through which it is possible to restore only a specific sound. In particular, it is possible to improve the speech recognition performance of the speech recognition system by restoring a signal of a specific sound only.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.As the present invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description.
그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나 의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is referred to as being "connected" or "connected" to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may be present in between. Should be. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that there is no other component in between.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and shall not be construed in ideal or excessively formal meanings unless expressly defined in this application. Do not.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, with reference to the accompanying drawings, it will be described in detail a preferred embodiment of the present invention. In the following description of the present invention, the same reference numerals are used for the same elements in the drawings and redundant descriptions of the same elements will be omitted.
도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.1 is a flowchart illustrating a sound restoration method according to an embodiment of the present invention. 2 is a conceptual diagram illustrating a sound restoration method according to an embodiment of the present invention.
도 1과 도 2를 병행하여 참조하면, 본 발명의 일 실시예에 따른 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110), 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단계 120) 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)를 포함하여 구성될 수 있다.1 and 2, the sound restoration method according to an embodiment of the present invention, in the sound restoration method, the step of receiving an observation sound signal including the sound and noise (step 110), the Generating a plurality of independent sound signals from the observed sound signal (step 120) and selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound (step 130). Can be configured.
먼저, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110)는 복수의 마이크로폰(microphone)을 이용하여 복원되어야 할 소리와 잡음을 함께 입력받는 것일 수 있다. 상기 소리는 복원되어야 할 신호를 의미하며, 상기 잡음은 소리와 별개의 음원에서 발생된 것일 수 있으며, 소리의 음원과 동일한 음원에서 발생되었지만 반사체에서 반사되는 등의 이유로 복원되어야할 소리와는 다른 경로를 통하여 입력받는 신호를 모두 포함하는 것일 수 있다.First, the step of receiving the observation sound signal including the sound and the noise (step 110) may be inputting the sound and the noise to be restored using a plurality of microphones. The sound may mean a signal to be restored, and the noise may be generated from a sound source separate from the sound, and may be generated from the same sound source as the sound source, but may be different from the sound to be restored due to reflection from a reflector. It may be to include all of the signals received through.
다음으로, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다. 상기 소리의 주파수 기저벡터는 특정 소리를 이용하여 특정 소리의 주파수 특성을 잘 나타내는 주파수 특성 기저벡터를 학습하는 것을 통하여 생성된다. 여기에서, 스펙트로그램은(spectrogram) 주어진 신호의 시간-주파수 특성을 보고자 할 때 많이 쓰이는 방법이다. 일반적으로 분석하는 소리는 시간에 따라 주파수 및 진폭이 변화하는 매우 복잡한 특징을 가지며, 스펙트로그램(spectrogram)은 주파수와 진폭의 시간에 따른 변화를 보여주는 삼차원적인 그래프이므로, 스펙트로그램을 이용하면 상기 소리의 특성을 잘 나타낼 수 있을 것이다. 또한, 상기 비음수 행렬 인수분해는 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다. 즉, 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용하여 주파수 기저벡터를 학습할 수도 있을 것이다.Next, the frequency basis vector of the sound may be generated by applying a non-negative matrix factorization (NNF) method to a spectrogram matrix representing the time-frequency characteristic of the sound. The frequency basis vector of the sound is generated by learning a frequency characteristic basis vector representing a frequency characteristic of a specific sound using a specific sound. Here, the spectrogram is a popular way to look at the time-frequency characteristics of a given signal. In general, the sound to be analyzed has a very complex feature that changes in frequency and amplitude over time, and the spectrogram is a three-dimensional graph showing the change in frequency and amplitude over time. You will be able to display the characteristics well. In addition, the non-negative matrix factorization may be to apply at least one of a method capable of probabilistic analysis, a method using orthogonal constraints, and a method using sparsity constraints. In other words, the frequency basis vector may be trained using a probabilistic latent variable model technique, which is a probabilistic analysis of nonnegative matrix factorization (NNF).
예를 들면, 상기 소리의 주파수 기저벡터는 학습 가능한 소리를 통해 상기 소리가 가지는 고유한 주파수 특성 정보를 추출하여 주파수 기저벡터를 생성하는 것이다. 이를 상세하게 설명하면, 학습 가능한 소리 신호의 스펙트로그램(spectrogram)을 행렬 (X 행렬, 는 주파수 대역, 는 전체 프레임 수)이라고 할 때, 행렬 에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization)를 적용하여 다음 수학식 1과 같이 을 두 개의 행렬로 분해할 수 있을 것이다.For example, the frequency basis vector of the sound is to generate a frequency basis vector by extracting unique frequency characteristic information of the sound through a learnable sound. In more detail, the spectrogram of the learnable sound signal is matrixed. ( X procession, Is the frequency band, Is the total number of frames) Non-negative matrix factorization (NNF) is applied to the following equation (1) Can be decomposed into two matrices.
여기에서, 행렬 (X 행렬, 는 주파수 대역, 는 기저벡터의 수를 결정하는 인자)는 주파수 특성 기저벡터이며, 시간에 불변하는 주파수 특성을 갖는다. 행렬 (X 행렬, 는 기저벡터의 수를 결정하는 인자, 는 전체 프레임 수)는 시간에 따라 가변적인 기저벡터이다.Where matrices ( X procession, Is the frequency band, Is a factor for determining the number of basis vectors) is a frequency characteristic basis vector, and has a frequency characteristic that is invariant with time. procession ( X procession, Is a factor that determines the number of basis vectors, Is the total number of frames).
결국, 행렬 에 대하여 비음수 행렬분해를 통해 행렬 및 행렬 로 분해할 수 있으며, 행렬 의 각 열은 시간의 변화에 불변하는 주파수 영역의 기저벡터이므로 행렬 를 학습함으로써, 상기 소리가 갖는 고유의 주파수 특성 정보를 추출 할 수 있다. 더불어 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용할 수 있으며, Overcomplete Representation 방법을 이용할 수도 있을 것이다.After all, the matrix Matrix through nonnegative matrix decomposition And matrices Can be decomposed into matrices Since each column of is a basis vector in the frequency domain that is invariant with time, By learning, it is possible to extract the unique frequency characteristic information of the sound. In addition, the Probabilistic Latent Variable Model technique, which is a kind of nonnegative matrix factorization (NNF), can be used, and the Overcomplete Representation method may be used.
다음으로, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단 계 120)는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다. 다중 경로 암묵 음원 분리(CBSS)는 각 음원들이 '서로 통계적으로 독립'이라는 정보만을 이용하여 음원들을 분리하는 방법이다. 즉, 통계적으로 독립이라는 특성을 이용하여 여러 음원들을 서로 분리할 수 있을 것이다.Next, the step (step 120) of generating a plurality of independent sound signals from the observed sound signal may be to use a multi-path blind source separation (CBSS) method. Multipath implicit sound source separation (CBSS) is a method of separating sound sources using only the information that each sound source is 'statistically independent'. In other words, it is possible to separate several sound sources from each other by using the property of statistical independence.
예를 들면, 잡음이 존재하는 환경에서 시간이 t일 때의 관측소리신호(, 여기에서, )는 아래의 수학식 2와 같이 정의될 수 있다.For example, the observation sound signal at time t in the presence of noise ( , From here, ) May be defined as in
여기에서, 는 독립음원 신호로서 를 만족하는 n개의 음원들이며, 는 지연시간의 혼합행렬, 는 의 최대값, 는 배경 잡음(백색 잡음)이다.From here, Is an independent sound source signal N sound sources satisfying Is Mixed matrix of latency, Is , The maximum value of, Is the background noise (white noise).
다중 경로 암묵 음원 분리를 적용하기 위하여 상기 수학식 2로부터 다중 경로 혼합신호()는 아래의 수학식 3과 같이 정의할 수 있다.In order to apply the multipath implicit sound source separation, the multipath mixed signal ( ) Can be defined as in
음원분리의 목표는 혼합신호()로부터 원래의 음원()을 찾는 것이므로 아래의 수학식 4에서 정의된 혼합행렬의 역인 역혼합행렬(demixing matrix)()를 구해야 할 것이다.The goal of sound source separation is to From the original sound source ( ) Is the inverse of the mixing matrix defined in
여기에서, 는 역혼합행렬의 최대 길이이다.From here, Is the maximum length of the inverse mixture matrix.
반향 환경에서의 음원 분리 문제는 주파수 영역에서 각 주파수대에서의 곱으로 간단히 표현되기 때문에 수학식 3을 주파수 영역으로 변환하면 문제 해결이 용이해 질 수 있다. 즉, 가 주파수일 때, 수학식 3은 수학식 5와 같이 각 주파수대의 곱으로 표현될 수 있을 것이다.The problem of sound source separation in the echo environment is simply expressed as the product of each frequency band in the frequency domain. In other words, When E is the frequency,
수학식 5를 관측소리신호 와 음원의 분산행렬 로 다시 표현하면,
여기에서, 는 관측소리신호, 는 음원의 분산행렬을 나타낸다.From here, Is an observation sound signal, Represents the dispersion matrix of the sound source.
각 음원들이 서로 통계적으로 독립이라는 점으로부터 가 대각행렬이 된다는 것을 알 수 있으며, 이에 따라 의 비 대각성분들을 0으로 만드는 역혼합행렬을 구하는 수학식 7을 수학식 6의 관계를 이용하여 유도할 수 있다.From the fact that each sound source is statistically independent We know that becomes a diagonal matrix, Equation 7 for obtaining an inverse mixed matrix that sets non-diagonal components of 0 to 0 may be derived using the relationship of
수학식 7에 Joint Approximate Diagonalization을 적용하여 각 주파수 대역에서의 역혼합행렬들을 구할 수 있고, 이를 통하여 다중 경로 신호로부터 원래의 음원들을 분리할 수 있을 것이다.By applying Joint Approximate Diagonalization to Equation 7, it is possible to obtain inverse mixing matrices in each frequency band, thereby separating the original sound sources from the multipath signal.
다음으로, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다. 또한, 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.Next, the step (step 130) of selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may use a probability model including the frequency basis vector of the sound. In addition, selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may include selecting an independent sound signal having a large contribution from the sound among the plurality of independent sound signals. It may be.
예를 들면, 보다 효율적인 채널 선택 판단 식을 유도하기 위하여 확률적 해석이 가능한 모델을 도입하면 아래의 수학식 8을 구할 수 있다.For example, the following Equation 8 can be obtained by introducing a model capable of probabilistic analysis to derive a more efficient channel selection decision equation.
여기에서, 는 음원변수로서 , (은 특정화자, 는 방해음원)를 만족하며, 는 각 음원에 대한 사전확률이며, 는 각 음원에 해당하는 기저함수이며, 는 각 음원이 주어졌을 경우의 시간에 따른 가중치이다.From here, Is the sound source variable , ( Is the specific speaker, Is a disturbing sound source), Is the prior probability for each sound source, Is the basis function for each sound source, Is weighted according to time when each sound source is given.
도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다. 도 3을 참조하면, 수학식 8의 모델을 확률 그래프 모델로 나타낸 것임을 알 수 있다.3 is an exemplary diagram of a probability graph model for explaining a sound restoration method according to an embodiment of the present invention. Referring to FIG. 3, it can be seen that the model of Equation 8 is represented by a probability graph model.
수학식 8의 모델을 다중 경로 암묵 음원 분리(CBSS)의 출력채널에서 얻은 독립소리신호 과 의 시간-주파수 표현에 각각 적용한다. 다만 여기에서 은 미리 학습해 놓은 기저벡터들을 그대로 사용하기 때문에(, 여기에서 는 A행렬의 (f, z)번째 원소), 특정 소리의 정보를 채널 선택에 효과적으로 적용시킬 수 있을 것이다. 다중 경로 암묵 음원 분리(CBSS)를 통해 얻은 출력신호들은 특정 소리와 방해음원 및 잡음이 완벽히 분 리가 되지 않고 섞여있는 신호이기 때문에, 수학식 8과 같은 음원변수에 대한 확률모델을 세움으로써 이를 확률적으로 기술하고, 이를 통해 채널 선택의 판단기준을 마련할 수 있을 것이다.Independent sound signal obtained from the output channel of multipath implicit sound source separation (CBSS) and Apply to the time-frequency representation of. Just here Since we use the basis vectors we have learned in advance, , From here (F, z) elements of the matrix A), it is possible to effectively apply the information of a particular sound to the channel selection. Since output signals obtained through multipath blind source separation (CBSS) are signals that are not completely separated from specific sounds, disturbed sources, and noise, they are probabilistic by establishing a probabilistic model for sound source variables such as Equation (8). It will be possible to prepare criteria for channel selection.
수학식 8에서 구해야 하는 요소들은 를 제외한 이다. 이 값들은 잠재변수가 있을 경우, 유사도를 최대화하는 (EM: Expectation and Maximization) 알고리즘으로 구할 수 있다. EM 알고리즘은 E 단계와 M 단계로 나누어져 있으며, 두 단계를 수렴할 때까지 반복적으로 수행한다.The elements to be obtained in Equation 8 excluding to be. These values can be obtained by using the Expectation and Maximization (EM) algorithm if there are potential variables. The EM algorithm is divided into E stage and M stage, and iteratively executes until the two stages converge.
여기에서 채널선택에 대한 판단 기준식은 특정 소리의 사전 확률을 이용하여 구할 수 있다. 직관적으로 가 클수록 주어진 시간-주파수 표현에 특정 소리()의 기여도가 크다는 것을 알 수 있다. 그러므로 판단 기준식()은 수학식 11로 표현될 수 있을 것이다.Here, the criterion for determining the channel selection can be obtained using the prior probability of the specific sound. Intuitively The larger is the specific sound in a given time-frequency representation. ) Is a large contribution. Therefore, the judgment criterion ( ) May be represented by Equation 11.
즉, 두 시간-주파수 표현 과 에 앞서의 확률모델을 적용하여 들을 구하고 최종적으로 수학식 11을 서로 비교함으로써 특정 소리가 보다 우세하게 포함되어 있는 채널을 선택할 수 있을 것이다.Ie two time-frequency representations and By applying the probabilistic model And finally compare Equation 11 to select a channel that contains a particular sound more predominantly.
다음으로, 본 발명의 일 실시예에 따른 소리 복원 방법은 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)를 더 포함하여 구성되는 것일 수 있다. 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.Next, the sound restoration method according to an embodiment of the present invention may further comprise the step (step 140) of removing the noise from the selected independent sound signal using the frequency basis vector of the sound. Removing the noise from the selected independent sound signal using the frequency basis vector of the sound (step 140) may use a method of restoring a spectrogram including only the sound.
예를 들면, 앞서 구한 를 이용하여 최종적으로 특정 소리를 복원할 수 있을 것이다. 이를 위하여 먼저 특정 소리만을 담고 있는 스펙트로그램()을 복원하면, 의 (f,t)의 원소 는 아래의 수학식 13과 같다.For example, You can finally restore the specific sound using. To do this, first of all, a spectrogram containing only certain sounds ), Of (f, t) in Is as shown in Equation 13 below.
여기에서, 는 음원에서 특정 확률분포로 뽑힌 수라는 점을 이용하면, 특정 소리의 스펙트로그램 은 가 이루는 이항 분포에서 총 뽑힌 횟수 가 주어졌을 때의 평균으로 정의될 수 있다.From here, Is Spectrogram of a particular sound using the fact that it is a number drawn with a certain probability distribution from the sound source silver The total number of times drawn from the binomial distribution It can be defined as the mean given by.
앞에서 구한 시간-주파수 표현 과 해당 채널의 신호에서 얻은 위상정보를 이용하고, 이를 역-STFT(Short Time Fourier Transform) 변환을 통하여 최종적 으로 특정화자의 음성신호만을 복원할 수 있다.Time-Frequency Representation And the phase information obtained from the signal of the corresponding channel, and finally, only the speech signal of the specific speaker can be restored through inverse-short time Fourier transform (STFT) transformation.
더불어, 본 발명의 일 실시예에 따른 소리 복원 방법에서 상기 소리는 사람의 음성신호일 수 있다. 사람의 음성신호를 복원하는 방법으로 적용이 가능하며 따라서 음성인식장치의 음성인식 성능을 향상시킬 수 있을 것이다.In addition, in the sound restoration method according to an embodiment of the present invention, the sound may be a human voice signal. It can be applied as a method of restoring a human voice signal, thus improving the voice recognition performance of the voice recognition device.
본 발명의 다른 실시예에 따른 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 더불어, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다. 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.In the recording medium recording the sound restoration method according to another embodiment of the present invention, in the recording medium recording the sound restoration method, receiving the observation sound signal containing the sound and noise, a plurality of independent from the observation sound signal The method may include generating a sound signal and selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound. In addition, the method may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound. Since the sound restoration method has already been described, a detailed description thereof will be omitted.
또한, 본 발명의 또 다른 실시예에 따른 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있으며, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다. 상기 소리는 사람의 음성신호일 수 있다. 역시 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.In addition, the apparatus for performing the sound restoration method according to another embodiment of the present invention, in the apparatus for performing the sound restoration method, receives an observation sound signal including the sound and noise, a plurality of observation sound signal from the A sound restoring unit and the observation sound signal, and the plurality of independent sound signals, which generate an independent sound signal of the sound source and select one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound. And a storage unit for storing the frequency basis vector of the sound and the selected independent sound signal, wherein the sound restoration unit removes the noise from the selected independent sound signal using the frequency basis vector of the sound. It may be configured to include more. The sound may be a human voice signal. Since the sound restoration method has already been described, a detailed description thereof will be omitted.
도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다. 도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.4 is a model diagram for experimenting with a sound restoration method according to an embodiment of the present invention. 5 is a graph of the impact function according to the experiment of the sound restoration method according to an embodiment of the present invention.
본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해, 실제 잡음과 반향이 있는 환경에서 잡음과 반향 제거정도를 평가한다. 정량적인 분석을 위해 Room Simulation을 이용하여 실제 잡음과 반향 상황을 시뮬레이션을 실시한다.In order to evaluate the performance of the sound restoration method according to an embodiment of the present invention, the degree of noise and echo cancellation is evaluated in an environment having real noise and echo. For the quantitative analysis, room simulation is used to simulate real noise and echo.
도 4를 참조하면, Room Simulation을 위한 방의 크기는 가로 6.75m, 세로 3.75m 및 높이 2.5m이며, 도 5를 참조하면, 반향 정도를 나타내는 충격함수 반응을 알 수 있다. S1과 S2는 각각 Source1과 Source2를 의미한다. 도 4에서 S1과 S2는 각 음원이 자리할 수 있는 위치를 나타내는데, ①은 S1이 S2보다 가까운 곳에 위치함을, ②는 S1과 S2의 거리가 같음을, ③은 S1이 S2보다 먼 곳에 위치함을 의미한다. 특정 소리의 음원이 S1에 위치하게 되는데 ① ~ ③의 위치로 자리를 바꾸어가면서 녹음을 하여 다양한 위치에서의 성능 평가를 할 수 있다. 실험에서는 특정 소리 S1은 여성화자 또는 남성화자의 음성이고, 방해음원 S2는 프리터 출력소리 또는 트럼펫 연주소리로 가정한다.Referring to FIG. 4, the sizes of the rooms for the Room Simulation are 6.75m in width, 3.75m in height, and 2.5m in height. Referring to FIG. 5, the impact function response indicating the degree of reflection can be seen. S1 and S2 mean Source1 and Source2, respectively. In FIG. 4, S1 and S2 represent positions where each sound source can be located. ① indicates that S1 is located closer than S2, ② indicates that the distance between S1 and S2 is the same, and ③ indicates that S1 is farther than S2. It means. The sound source of a specific sound is located at S1, and you can perform performance evaluation at various locations by recording while changing the position of ① ~ ③. In the experiment, it is assumed that the specific sound S1 is the voice of the female speaker or the male speaker, and the disturbance source S2 is the sound of the fritter output or the trumpet playing.
도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.Figure 6 is an illustration of the basis vector alignment of the male and female in the sound restoration method according to an embodiment of the present invention.
도 6을 참조하면, 아래의 방법으로 실험한 경우의 여성과 남성의 주파수 특성 기저벡터들을 확인할 수 있다. 주파수 특성 기저벡터 학습을 위해 음성신호와는 별개의 학습 데이터로 각 30초 길이의 여성 또는 남성의 음성신호를 사용한다. 여성 및 남성의 음성신호를 STFT(Short Time Fourier Transform) 변환을 통하여 시간-주파수 표현 을 얻을 수 있다. 여기에서, 윈도우 크기는 1024, hop크기는 256 및 hamming window를 사용한다. 을 비음수 분해하기 위해 Probabilistic Latent Variable Model을 적용하고, 이때 K를 1000(>>F=512)으로 하여 Over-representation이 가능하도록 하였다. 이외에도 엔트로픽(Entropic) 사전확률을 정의할 때 요구되는 사용자 계수들은 Shashanka와 Smaragdis 연구에서 제시된 수치를 따른다.Referring to FIG. 6, it is possible to identify the frequency characteristic basis vectors of a female and a male when the experiment is performed by the following method. For learning the frequency-based basis vector, a female or male voice signal of 30 seconds in length is used as learning data separate from the voice signal. Time-frequency representation of female and male voice signals through STFT (Short Time Fourier Transform) transformation Can be obtained. Here, the window size is 1024, the hop size is 256, and the hamming window is used. Probabilistic Latent Variable Model was applied to non-negative decomposition, and K was set to 1000 (>> F = 512) to enable over-representation. In addition, the user coefficients required to define entropic prior probabilities follow the figures presented in the Shashanka and Smaragdis studies.
추가적으로, 복원결과의 정량적 평가를 위하여 SDR(Source to Distortion Ratio)을 도입할 수 있을 것이다. SDR은 잡음이 있는 환경에서 음원분리 방법들의 품질을 평가하는 측정단위로써, 그 값이 클수록 알고리즘이 출력한 결과신호가 목표 신호에 근접한다는 것을 의미한다. 계산을 위해 주어진 신호()를 아래의 수학식 16의 분리모델을 이용하여 분리한다.In addition, SDR (Source to Distortion Ratio) may be introduced to quantitatively evaluate the restoration results. SDR is a unit of measurement for evaluating the quality of sound source separation methods in a noisy environment. The larger the value, the closer the result signal to the target signal. Given signal for calculation ( ) Is separated using the separation model of Equation 16 below.
여기에서, 은 복원하고자 하는 소리이고, 는 여러 음원에 의하여 생성된 간섭 소리이고, 는 복원하고자 하는 소리가 아닌 다른 음원에서 생성된 잡음 소리이고, 는 인공적으로 생성한 잡음 소리이다.From here, Is the sound you want to restore, Is interference sound produced by various sound sources, Is noise generated from a sound source other than the sound you want to restore, Is an artificially generated noise sound.
수학식 16의 분리모델을 바탕으로 SDR을 구하면 수학식 17과 같다.Based on the separation model of Equation 16, the SDR is obtained as shown in Equation 17.
본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해 각 단계별로 SDR을 측정하고, 이의 증가폭을 기존 CBSS와 비교한다. 즉, 크게 세부분에서 매 실험마다 SDR을 측정한다. 1) 마이크로폰으로 얻어진 관측소리신호의 SDR값(), 두 입력 중 SDR이 높은 쪽 선택 2) 음원분리만을 통해 얻은 결과의 SDR값(), 3) 본 발명의 복원 단계를 거친 최종 결과신호의 SDR값().In order to evaluate the performance of the sound restoration method according to an embodiment of the present invention, the SDR is measured at each step, and the increase thereof is compared with the existing CBSS. That is, the SDR is measured in every detail in large part. 1) SDR value of the observed sound signal obtained from the microphone ( ), Select the higher SDR of the two inputs. ), 3) the SDR value of the final resultant signal ).
도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.7 is a performance evaluation table of the sound restoration method according to an embodiment of the present invention.
도 7을 참조하면, (a)는 여성 화자인 경우, (b)는 남성 화자인 경우의 각 단계별 SDR 결과를 나타내며, 여기에서 pr은 프린터 잡음을 나타내며, tr은 트럼펫 음악을 방해음원으로 사용한 것을 나타낸다. (a)와 (b)는 각각 여성과 남성이 특정화자일 경우, 여러 상황에서 본 발명의 일 실시예에 따른 소리 복원 방법의 복원결 과를 평가한 것이다. 특히 SDR값의 증가분을 통해 본 발명의 일 실시예에 따른 소리 복원 방법이 반향과 잡음에 의하여 생기는 왜곡을 상당 부분 제거하고, CBSS의 분리 성능을 큰 폭으로 다시 향상시키는 것을 알 수 있다. 즉, 본 발명이 잡음과 반향 환경에서 잡음 및 반향을 제거하고 본 특정화자의 음성을 복원하는데 적합함을 보여준다.Referring to FIG. 7, (a) is a female speaker, (b) is a SDR result of each step in the case of a male speaker, where pr represents printer noise, and tr represents the use of trumpet music as a disturbing sound source. Indicates. (a) and (b) evaluates the restoration results of the sound restoration method according to an embodiment of the present invention in various situations, when the female and the male are the specific speakers, respectively. In particular, it can be seen that through the increase of the SDR value, the sound restoration method according to the exemplary embodiment of the present invention substantially eliminates distortion caused by echo and noise, and greatly improves the separation performance of the CBSS. That is, the present invention is shown to be suitable for removing noise and echo and restoring the voice of the present speaker in a noise and echo environment.
이상 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although described with reference to the above embodiments, those skilled in the art will understand that various modifications and changes can be made without departing from the spirit and scope of the invention as set forth in the claims below. Could be.
도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다.1 is a flowchart illustrating a sound restoration method according to an embodiment of the present invention.
도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.2 is a conceptual diagram illustrating a sound restoration method according to an embodiment of the present invention.
도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다.3 is an exemplary diagram of a probability graph model for explaining a sound restoration method according to an embodiment of the present invention.
도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다.4 is a model diagram for experimenting with a sound restoration method according to an embodiment of the present invention.
도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.5 is a graph of the impact function according to the experiment of the sound restoration method according to an embodiment of the present invention.
도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.Figure 6 is an illustration of the basis vector alignment of the male and female in the sound restoration method according to an embodiment of the present invention.
도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.7 is a performance evaluation table of the sound restoration method according to an embodiment of the present invention.
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090070867A KR101043114B1 (en) | 2009-07-31 | 2009-07-31 | Method of Restoration of Sound, Recording Media of the same and Apparatus of the same |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090070867A KR101043114B1 (en) | 2009-07-31 | 2009-07-31 | Method of Restoration of Sound, Recording Media of the same and Apparatus of the same |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110012946A KR20110012946A (en) | 2011-02-09 |
KR101043114B1 true KR101043114B1 (en) | 2011-06-20 |
Family
ID=43772802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090070867A KR101043114B1 (en) | 2009-07-31 | 2009-07-31 | Method of Restoration of Sound, Recording Media of the same and Apparatus of the same |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101043114B1 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10014003B2 (en) | 2015-10-12 | 2018-07-03 | Gwangju Institute Of Science And Technology | Sound detection method for recognizing hazard situation |
KR101864925B1 (en) * | 2016-02-05 | 2018-06-05 | 전자부품연구원 | Global Model-based Audio Object Separation method and system |
KR102372327B1 (en) * | 2017-08-09 | 2022-03-08 | 에스케이텔레콤 주식회사 | Method for recognizing voice and apparatus used therefor |
CN108447502B (en) * | 2018-03-09 | 2020-09-22 | 福州米鱼信息科技有限公司 | Memorandum method and terminal based on voice information |
CN110956978B (en) * | 2019-11-19 | 2022-12-16 | 广东工业大学 | Sparse blind separation method based on underdetermined convolution aliasing model |
CN113470688B (en) * | 2021-07-23 | 2024-01-23 | 平安科技(深圳)有限公司 | Voice data separation method, device, equipment and storage medium |
-
2009
- 2009-07-31 KR KR1020090070867A patent/KR101043114B1/en not_active IP Right Cessation
Non-Patent Citations (1)
Title |
---|
박선호 외 2명, ‘주파수 특성 기저벡터 학습을 통한 특정화자 음성복원’, 2008년 가을 학술발표논문집, Vol.35, No.2(A), pp.103~104, 2008년10월.* |
Also Published As
Publication number | Publication date |
---|---|
KR20110012946A (en) | 2011-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210089967A1 (en) | Data training in multi-sensor setups | |
Gamper et al. | Blind reverberation time estimation using a convolutional neural network | |
EP1993320B1 (en) | Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium | |
Wang et al. | Sequential multi-frame neural beamforming for speech separation and enhancement | |
KR101043114B1 (en) | Method of Restoration of Sound, Recording Media of the same and Apparatus of the same | |
CN112116920A (en) | Multi-channel voice separation method with unknown speaker number | |
Moore et al. | Speech enhancement for robust automatic speech recognition: Evaluation using a baseline system and instrumental measures | |
Tang et al. | Improving reverberant speech training using diffuse acoustic simulation | |
Steinmetz et al. | Filtered noise shaping for time domain room impulse response estimation from reverberant speech | |
Zhao et al. | Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency Attention. | |
EP4260315B1 (en) | Method and system for dereverberation of speech signals | |
KR20220022286A (en) | Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder | |
CN110998723A (en) | Signal processing device using neural network, signal processing method using neural network, and signal processing program | |
Choi et al. | Multichannel signal separation for cocktail party speech recognition: A dynamic recurrent network | |
Song et al. | An integrated multi-channel approach for joint noise reduction and dereverberation | |
Chen et al. | A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation | |
Ick et al. | Blind acoustic room parameter estimation using phase features | |
Arberet et al. | A tractable framework for estimating and combining spectral source models for audio source separation | |
US11790929B2 (en) | WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network | |
Pandey et al. | Time-domain ad-hoc array speech enhancement using a triple-path network | |
Guzewich et al. | Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. | |
Lluís et al. | Direction specific ambisonics source separation with end-to-end deep learning | |
Aralikatti et al. | Improving reverberant speech separation with multi-stage training and curriculum learning | |
Opochinsky et al. | Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments | |
US20240055012A1 (en) | Method and System for Reverberation Modeling of Speech Signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |