KR101043114B1 - Method of Restoration of Sound, Recording Media of the same and Apparatus of the same - Google Patents

Method of Restoration of Sound, Recording Media of the same and Apparatus of the same Download PDF

Info

Publication number
KR101043114B1
KR101043114B1 KR1020090070867A KR20090070867A KR101043114B1 KR 101043114 B1 KR101043114 B1 KR 101043114B1 KR 1020090070867 A KR1020090070867 A KR 1020090070867A KR 20090070867 A KR20090070867 A KR 20090070867A KR 101043114 B1 KR101043114 B1 KR 101043114B1
Authority
KR
South Korea
Prior art keywords
sound
signal
independent
frequency
noise
Prior art date
Application number
KR1020090070867A
Other languages
Korean (ko)
Other versions
KR20110012946A (en
Inventor
박선호
유지호
최승진
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020090070867A priority Critical patent/KR101043114B1/en
Publication of KR20110012946A publication Critical patent/KR20110012946A/en
Application granted granted Critical
Publication of KR101043114B1 publication Critical patent/KR101043114B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Abstract

소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치를 제공한다. 소리의 복원 방법에 있어서, 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 소리의 주파수 기저벡터를 이용하여 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 따라서 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.A sound recording method, a recording medium recording a sound restoration method, and a device for performing the sound restoration method are provided. A method of restoring a sound, the method comprising: receiving an observation sound signal including sound and noise, generating a plurality of independent sound signals from the observation sound signal, and using one of the plurality of independent sound signals using a frequency basis vector of the sound It may be configured to include the independent sound signal of the. Therefore, in the noisy environment, it is possible to reduce the influence of noise and improve the performance of sound source separation, thereby restoring only a specific sound. In particular, it is possible to improve the speech recognition performance of the speech recognition system by restoring a signal of a specific sound only.

소리 복원, 잡음, 다중 경로 암묵 음원 분리, 스펙트로그램, 비음수 행렬 분해, 주파수 기저벡터, 관측소리신호, 독립소리신호, 음성신호 Sound Restoration, Noise, Multipath Implicit Separation, Spectrogram, Nonnegative Matrix Decomposition, Frequency Basis Vector, Observation Sound Signal, Independent Sound Signal, Voice Signal

Description

소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치{Method of Restoration of Sound, Recording Media of the same and Apparatus of the same}Method of restoring sound, recording medium recording method of restoring sound and apparatus for performing sound restoring method

본 발명은 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것으로서, 더욱 상세하게는 소리의 주파수 기저벡터를 이용하는 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것이다.The present invention relates to a method for restoring a sound, a recording medium recording a method for restoring a sound, and an apparatus for restoring a sound. More particularly, the present invention relates to a sound restoring method using a frequency basis vector of sound, An apparatus for performing a method of restoring a recorded recording medium and sound.

멀티 모달(multi modal) 사용자 인터페이스에 대한 수요의 증가 및 관련 기술의 발달로 음성, 영상 및 햅틱(haptic) 등의 다양한 센서들을 이용한 사용자 인터페이스들이 개발되고 있다. 특히, 음성의 경우 저가의 센서를 이용하여 손쉽게 음성신호를 얻을 수 있으며, 휴대성이 뛰어나 다른 모바일 기기와 연계하여 사용자 인터페이스를 개발하기 쉽기 때문에 많은 주목을 받고 있다. 그러나 실제 환경에서의 음성신호는 항상 잡음과 소음에 노출되어 있어, 이에 따른 인식 성능의 저하는 음성기반 사용자 인터페이스 개발의 큰 걸림돌로 작용하고 있다.BACKGROUND With the growing demand for multi modal user interfaces and the development of related technologies, user interfaces using various sensors such as voice, video, and haptic have been developed. In particular, in the case of voice, it is easy to obtain a voice signal by using a low-cost sensor, and has been attracting much attention because it is easy to develop a user interface in connection with other mobile devices because of its excellent portability. However, since voice signals are always exposed to noise and noise in real environment, the degradation of recognition performance is a major obstacle to the development of voice-based user interface.

실제 환경에서의 잡음과 소음의 영향을 제거하고 깨끗한 음성신호만을 얻기 위해, 잡음제거나 음성강조 및 음원분리 기술들이 적용되고 있다. 특히, 음원분리기술은 여러 신호가 섞인 혼합신호에서 독립적인 신호들을 복원하는 기술이므로, 여러 잡음이 섞인 음성신호에서 음성신호와 비 음성신호들을 분리해 내고자 할 때 효과적이다. 다만 사무실이나 방과 같이 제한된 공간에서는 장애물이나 벽에 부딪쳐 반사되어 돌아오는 신호들에 의해 다중 경로 혼합(convolutive mixture) 문제가 발생하게 되는데, 이는 수학적으로도 모델링이 복잡하여 잡음제거나 음원분리 문제를 어렵게 한다.In order to remove noise and the effects of noise in a real environment and to obtain only a clean voice signal, noise suppression or voice enhancement and sound source separation techniques are applied. In particular, the sound source separation technique is a technique for restoring independent signals from a mixed signal mixed with several signals, and thus is effective for separating the voice signal and non-voice signals from the mixed voice signal. In confined spaces such as offices and rooms, however, convolutive mixture problems are caused by signals coming back from the obstacles or walls, which is complicated in modeling, making it difficult to reduce noise or separate sound sources. do.

최근 기존의 음원분리 성능 향상을 위해 다른 부가적인 정보를 이용하는 시도가 있어왔다. 센서들과 음원들 사이의 기하학적 정보를 이용하는 빔 형성(beam forming) 접근방법이나 센서들에게 가장 우세한 파워를 나타내는 음원을 선택적으로 분리하는 방법 등의 음원분리 성능을 높이기 위하여 관측신호 이외의 정보를 분리과정에 적용하는 방법들이 제안되었다. 그러나 이 접근 방법들은 대부분 음원이 관측되는 환경에 대한 부차적 정보를 이용 할 뿐, 음원(음성)이 가지는 고유의 특성정보를 음원분리에 적용하여 성능을 향상시키는 시도는 없었다.Recently, there have been attempts to use other additional information to improve existing sound source separation performance. Separating information other than the observation signal to enhance sound separation performance, such as a beam forming approach using geometric information between the sensors and the sound sources, or selectively separating sound sources that show the most power to the sensors. Approaches to the process have been proposed. However, these approaches mostly use secondary information about the environment in which the sound source is observed, and there is no attempt to improve the performance by applying inherent characteristic information of the sound source (voice) to the sound source separation.

본 발명의 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 제공하는 것이다.It is an object of the present invention to provide a sound restoration method using a frequency basis vector of sound.

본 발명의 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 기록한 기록매체를 제공하는 것이다.Another object of the present invention is to provide a recording medium which records a sound restoration method using a frequency basis vector of sound.

본 발명의 또 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 수행하는 장치를 제공하는 것이다.It is still another object of the present invention to provide an apparatus for performing a sound restoration method using a frequency basis vector of sound.

상술한 본 발명의 목적을 달성하기 위한 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.In the sound restoration method for achieving the above object of the present invention, in the sound restoration method, receiving an observation sound signal including the sound and noise, generating a plurality of independent sound signal from the observation sound signal And selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound.

여기에서, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다.The generating of the plurality of independent sound signals from the observed sound signal may be performed by using a convolutive blind source separation (CBSS) method.

여기에서, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다.Here, the frequency basis vector of the sound may be generated by applying a non-negative matrix factorization (NNF) method to a spectrogram matrix representing the time-frequency characteristic of the sound.

여기에서, 상기 비음수 행렬 인수분해 방법은 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다.Here, the non-negative matrix factoring method may be to apply at least one of a method capable of probabilistic analysis, a method using orthogonal constraints, and a method using sparsity constraints.

여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다.Here, the step of selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may use a probability model including the frequency basis vector of the sound.

여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.Here, the step of selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may be to select an independent sound signal having a large contribution of the sound from the plurality of independent sound signals. have.

여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.The method may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound.

여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.Here, the step of removing the noise from the selected independent sound signal using the frequency basis vector of the sound may be a method of restoring a spectrogram including only the sound.

여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.Here, the sound may be a human voice signal.

상술한 본 발명의 다른 목적을 달성하기 위한 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.According to another aspect of the present invention, there is provided a recording medium for recording a sound restoring method, the recording medium recording a sound restoring method comprising the steps of: receiving an observation sound signal including the sound and noise; Generating a plurality of independent sound signals and selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound.

여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.The method may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound.

상술한 본 발명의 또 다른 목적을 달성하기 위한 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나 의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있다.An apparatus for performing a sound restoration method for achieving the above object of the present invention is a device for performing a sound restoration method, receiving an observation sound signal containing the sound and noise, from the observation sound signal A sound restoring unit and the observation sound signal and the plurality of independent sounds, which generate a plurality of independent sound signals and select one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound. And a storage unit for storing the signal, the frequency basis vector of the sound, and the selected independent sound signal.

여기에서, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다.The sound restoration unit may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound.

여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.Here, the sound may be a human voice signal.

상기와 같은 소리 복원 방법에 따르면, 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.According to the sound restoration method as described above, it is possible to reduce the influence of noise and improve the performance of the sound source separation in a noisy environment, through which it is possible to restore only a specific sound. In particular, it is possible to improve the speech recognition performance of the speech recognition system by restoring a signal of a specific sound only.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.As the present invention allows for various changes and numerous embodiments, particular embodiments will be illustrated in the drawings and described in detail in the written description.

그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.However, this is not intended to limit the present invention to specific embodiments, it should be understood to include all changes, equivalents, and substitutes included in the spirit and scope of the present invention.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나 의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.The terms first, second, etc. may be used to describe various components, but the components should not be limited by the terms. The terms are used only for the purpose of distinguishing one component from another. For example, without departing from the scope of the present invention, the first component may be referred to as the second component, and similarly, the second component may also be referred to as the first component. And / or < / RTI > includes any combination of a plurality of related listed items or any of a plurality of related listed items.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is referred to as being "connected" or "connected" to another component, it may be directly connected to or connected to that other component, but it may be understood that other components may be present in between. Should be. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that there is no other component in between.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.The terminology used herein is for the purpose of describing particular example embodiments only and is not intended to be limiting of the present invention. Singular expressions include plural expressions unless the context clearly indicates otherwise. In this application, the terms "comprise" or "have" are intended to indicate that there is a feature, number, step, operation, component, part, or combination thereof described in the specification, and one or more other features. It is to be understood that the present invention does not exclude the possibility of the presence or the addition of numbers, steps, operations, components, components, or a combination thereof.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.Unless defined otherwise, all terms used herein, including technical or scientific terms, have the same meaning as commonly understood by one of ordinary skill in the art. Terms such as those defined in the commonly used dictionaries should be construed as having meanings consistent with the meanings in the context of the related art, and shall not be construed in ideal or excessively formal meanings unless expressly defined in this application. Do not.

이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.Hereinafter, with reference to the accompanying drawings, it will be described in detail a preferred embodiment of the present invention. In the following description of the present invention, the same reference numerals are used for the same elements in the drawings and redundant descriptions of the same elements will be omitted.

도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.1 is a flowchart illustrating a sound restoration method according to an embodiment of the present invention. 2 is a conceptual diagram illustrating a sound restoration method according to an embodiment of the present invention.

도 1과 도 2를 병행하여 참조하면, 본 발명의 일 실시예에 따른 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110), 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단계 120) 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)를 포함하여 구성될 수 있다.1 and 2, the sound restoration method according to an embodiment of the present invention, in the sound restoration method, the step of receiving an observation sound signal including the sound and noise (step 110), the Generating a plurality of independent sound signals from the observed sound signal (step 120) and selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound (step 130). Can be configured.

먼저, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110)는 복수의 마이크로폰(microphone)을 이용하여 복원되어야 할 소리와 잡음을 함께 입력받는 것일 수 있다. 상기 소리는 복원되어야 할 신호를 의미하며, 상기 잡음은 소리와 별개의 음원에서 발생된 것일 수 있으며, 소리의 음원과 동일한 음원에서 발생되었지만 반사체에서 반사되는 등의 이유로 복원되어야할 소리와는 다른 경로를 통하여 입력받는 신호를 모두 포함하는 것일 수 있다.First, the step of receiving the observation sound signal including the sound and the noise (step 110) may be inputting the sound and the noise to be restored using a plurality of microphones. The sound may mean a signal to be restored, and the noise may be generated from a sound source separate from the sound, and may be generated from the same sound source as the sound source, but may be different from the sound to be restored due to reflection from a reflector. It may be to include all of the signals received through.

다음으로, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다. 상기 소리의 주파수 기저벡터는 특정 소리를 이용하여 특정 소리의 주파수 특성을 잘 나타내는 주파수 특성 기저벡터를 학습하는 것을 통하여 생성된다. 여기에서, 스펙트로그램은(spectrogram) 주어진 신호의 시간-주파수 특성을 보고자 할 때 많이 쓰이는 방법이다. 일반적으로 분석하는 소리는 시간에 따라 주파수 및 진폭이 변화하는 매우 복잡한 특징을 가지며, 스펙트로그램(spectrogram)은 주파수와 진폭의 시간에 따른 변화를 보여주는 삼차원적인 그래프이므로, 스펙트로그램을 이용하면 상기 소리의 특성을 잘 나타낼 수 있을 것이다. 또한, 상기 비음수 행렬 인수분해는 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다. 즉, 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용하여 주파수 기저벡터를 학습할 수도 있을 것이다.Next, the frequency basis vector of the sound may be generated by applying a non-negative matrix factorization (NNF) method to a spectrogram matrix representing the time-frequency characteristic of the sound. The frequency basis vector of the sound is generated by learning a frequency characteristic basis vector representing a frequency characteristic of a specific sound using a specific sound. Here, the spectrogram is a popular way to look at the time-frequency characteristics of a given signal. In general, the sound to be analyzed has a very complex feature that changes in frequency and amplitude over time, and the spectrogram is a three-dimensional graph showing the change in frequency and amplitude over time. You will be able to display the characteristics well. In addition, the non-negative matrix factorization may be to apply at least one of a method capable of probabilistic analysis, a method using orthogonal constraints, and a method using sparsity constraints. In other words, the frequency basis vector may be trained using a probabilistic latent variable model technique, which is a probabilistic analysis of nonnegative matrix factorization (NNF).

예를 들면, 상기 소리의 주파수 기저벡터는 학습 가능한 소리를 통해 상기 소리가 가지는 고유한 주파수 특성 정보를 추출하여 주파수 기저벡터를 생성하는 것이다. 이를 상세하게 설명하면, 학습 가능한 소리 신호의 스펙트로그램(spectrogram)을 행렬

Figure 112009047257154-pat00001
(
Figure 112009047257154-pat00002
X
Figure 112009047257154-pat00003
행렬,
Figure 112009047257154-pat00004
는 주파수 대역,
Figure 112009047257154-pat00005
는 전체 프레임 수)이라고 할 때, 행렬
Figure 112009047257154-pat00006
에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization)를 적용하여 다음 수학식 1과 같이
Figure 112009047257154-pat00007
을 두 개의 행렬로 분해할 수 있을 것이다.For example, the frequency basis vector of the sound is to generate a frequency basis vector by extracting unique frequency characteristic information of the sound through a learnable sound. In more detail, the spectrogram of the learnable sound signal is matrixed.
Figure 112009047257154-pat00001
(
Figure 112009047257154-pat00002
X
Figure 112009047257154-pat00003
procession,
Figure 112009047257154-pat00004
Is the frequency band,
Figure 112009047257154-pat00005
Is the total number of frames)
Figure 112009047257154-pat00006
Non-negative matrix factorization (NNF) is applied to the following equation (1)
Figure 112009047257154-pat00007
Can be decomposed into two matrices.

Figure 112009047257154-pat00008
Figure 112009047257154-pat00008

여기에서, 행렬

Figure 112009047257154-pat00009
(
Figure 112009047257154-pat00010
X
Figure 112009047257154-pat00011
행렬,
Figure 112009047257154-pat00012
는 주파수 대역,
Figure 112009047257154-pat00013
는 기저벡터의 수를 결정하는 인자)는 주파수 특성 기저벡터이며, 시간에 불변하는 주파수 특성을 갖는다. 행렬
Figure 112009047257154-pat00014
(
Figure 112009047257154-pat00015
X
Figure 112009047257154-pat00016
행렬,
Figure 112009047257154-pat00017
는 기저벡터의 수를 결정하는 인자,
Figure 112009047257154-pat00018
는 전체 프레임 수)는 시간에 따라 가변적인 기저벡터이다.Where matrices
Figure 112009047257154-pat00009
(
Figure 112009047257154-pat00010
X
Figure 112009047257154-pat00011
procession,
Figure 112009047257154-pat00012
Is the frequency band,
Figure 112009047257154-pat00013
Is a factor for determining the number of basis vectors) is a frequency characteristic basis vector, and has a frequency characteristic that is invariant with time. procession
Figure 112009047257154-pat00014
(
Figure 112009047257154-pat00015
X
Figure 112009047257154-pat00016
procession,
Figure 112009047257154-pat00017
Is a factor that determines the number of basis vectors,
Figure 112009047257154-pat00018
Is the total number of frames).

결국, 행렬

Figure 112009047257154-pat00019
에 대하여 비음수 행렬분해를 통해 행렬
Figure 112009047257154-pat00020
및 행렬
Figure 112009047257154-pat00021
로 분해할 수 있으며, 행렬
Figure 112009047257154-pat00022
의 각 열은 시간의 변화에 불변하는 주파수 영역의 기저벡터이므로 행렬
Figure 112009047257154-pat00023
를 학습함으로써, 상기 소리가 갖는 고유의 주파수 특성 정보를 추출 할 수 있다. 더불어 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용할 수 있으며, Overcomplete Representation 방법을 이용할 수도 있을 것이다.After all, the matrix
Figure 112009047257154-pat00019
Matrix through nonnegative matrix decomposition
Figure 112009047257154-pat00020
And matrices
Figure 112009047257154-pat00021
Can be decomposed into matrices
Figure 112009047257154-pat00022
Since each column of is a basis vector in the frequency domain that is invariant with time,
Figure 112009047257154-pat00023
By learning, it is possible to extract the unique frequency characteristic information of the sound. In addition, the Probabilistic Latent Variable Model technique, which is a kind of nonnegative matrix factorization (NNF), can be used, and the Overcomplete Representation method may be used.

다음으로, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단 계 120)는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다. 다중 경로 암묵 음원 분리(CBSS)는 각 음원들이 '서로 통계적으로 독립'이라는 정보만을 이용하여 음원들을 분리하는 방법이다. 즉, 통계적으로 독립이라는 특성을 이용하여 여러 음원들을 서로 분리할 수 있을 것이다.Next, the step (step 120) of generating a plurality of independent sound signals from the observed sound signal may be to use a multi-path blind source separation (CBSS) method. Multipath implicit sound source separation (CBSS) is a method of separating sound sources using only the information that each sound source is 'statistically independent'. In other words, it is possible to separate several sound sources from each other by using the property of statistical independence.

예를 들면, 잡음이 존재하는 환경에서 시간이 t일 때의 관측소리신호(

Figure 112009047257154-pat00024
, 여기에서,
Figure 112009047257154-pat00025
)는 아래의 수학식 2와 같이 정의될 수 있다.For example, the observation sound signal at time t in the presence of noise (
Figure 112009047257154-pat00024
, From here,
Figure 112009047257154-pat00025
) May be defined as in Equation 2 below.

Figure 112009047257154-pat00026
Figure 112009047257154-pat00026

여기에서,

Figure 112009047257154-pat00027
는 독립음원 신호로서
Figure 112009047257154-pat00028
를 만족하는 n개의 음원들이며,
Figure 112009047257154-pat00029
Figure 112009047257154-pat00030
지연시간의 혼합행렬,
Figure 112009047257154-pat00031
Figure 112009047257154-pat00032
의 최대값,
Figure 112009047257154-pat00033
는 배경 잡음(백색 잡음)이다.From here,
Figure 112009047257154-pat00027
Is an independent sound source signal
Figure 112009047257154-pat00028
N sound sources satisfying
Figure 112009047257154-pat00029
Is
Figure 112009047257154-pat00030
Mixed matrix of latency,
Figure 112009047257154-pat00031
Is
Figure 112009047257154-pat00032
, The maximum value of,
Figure 112009047257154-pat00033
Is the background noise (white noise).

다중 경로 암묵 음원 분리를 적용하기 위하여 상기 수학식 2로부터 다중 경로 혼합신호(

Figure 112009047257154-pat00034
)는 아래의 수학식 3과 같이 정의할 수 있다.In order to apply the multipath implicit sound source separation, the multipath mixed signal (
Figure 112009047257154-pat00034
) Can be defined as in Equation 3 below.

Figure 112009047257154-pat00035
Figure 112009047257154-pat00035

음원분리의 목표는 혼합신호(

Figure 112009047257154-pat00036
)로부터 원래의 음원(
Figure 112009047257154-pat00037
)을 찾는 것이므로 아래의 수학식 4에서 정의된 혼합행렬의 역인 역혼합행렬(demixing matrix)(
Figure 112009047257154-pat00038
)를 구해야 할 것이다.The goal of sound source separation is to
Figure 112009047257154-pat00036
From the original sound source (
Figure 112009047257154-pat00037
) Is the inverse of the mixing matrix defined in Equation 4 below.
Figure 112009047257154-pat00038
Will have to be saved.

Figure 112009047257154-pat00039
Figure 112009047257154-pat00039

여기에서,

Figure 112009047257154-pat00040
는 역혼합행렬의 최대 길이이다.From here,
Figure 112009047257154-pat00040
Is the maximum length of the inverse mixture matrix.

반향 환경에서의 음원 분리 문제는 주파수 영역에서 각 주파수대에서의 곱으로 간단히 표현되기 때문에 수학식 3을 주파수 영역으로 변환하면 문제 해결이 용이해 질 수 있다. 즉,

Figure 112009047257154-pat00041
가 주파수일 때, 수학식 3은 수학식 5와 같이 각 주파수대의 곱으로 표현될 수 있을 것이다.The problem of sound source separation in the echo environment is simply expressed as the product of each frequency band in the frequency domain. In other words,
Figure 112009047257154-pat00041
When E is the frequency, Equation 3 may be expressed as a product of each frequency band as shown in Equation 5.

Figure 112009047257154-pat00042
Figure 112009047257154-pat00042

수학식 5를 관측소리신호

Figure 112009047257154-pat00043
와 음원의 분산행렬
Figure 112009047257154-pat00044
로 다시 표현하면,Equation 5 to observe the sound signal
Figure 112009047257154-pat00043
Matrix of sound and sound sources
Figure 112009047257154-pat00044
In other words,

Figure 112009047257154-pat00045
Figure 112009047257154-pat00045

여기에서,

Figure 112009047257154-pat00046
는 관측소리신호,
Figure 112009047257154-pat00047
는 음원의 분산행렬을 나타낸다.From here,
Figure 112009047257154-pat00046
Is an observation sound signal,
Figure 112009047257154-pat00047
Represents the dispersion matrix of the sound source.

각 음원들이 서로 통계적으로 독립이라는 점으로부터

Figure 112009047257154-pat00048
가 대각행렬이 된다는 것을 알 수 있으며, 이에 따라
Figure 112009047257154-pat00049
의 비 대각성분들을 0으로 만드는 역혼합행렬을 구하는 수학식 7을 수학식 6의 관계를 이용하여 유도할 수 있다.From the fact that each sound source is statistically independent
Figure 112009047257154-pat00048
We know that becomes a diagonal matrix,
Figure 112009047257154-pat00049
Equation 7 for obtaining an inverse mixed matrix that sets non-diagonal components of 0 to 0 may be derived using the relationship of Equation 6.

Figure 112009047257154-pat00050
Figure 112009047257154-pat00050

수학식 7에 Joint Approximate Diagonalization을 적용하여 각 주파수 대역에서의 역혼합행렬들을 구할 수 있고, 이를 통하여 다중 경로 신호로부터 원래의 음원들을 분리할 수 있을 것이다.By applying Joint Approximate Diagonalization to Equation 7, it is possible to obtain inverse mixing matrices in each frequency band, thereby separating the original sound sources from the multipath signal.

다음으로, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다. 또한, 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.Next, the step (step 130) of selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may use a probability model including the frequency basis vector of the sound. In addition, selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound may include selecting an independent sound signal having a large contribution from the sound among the plurality of independent sound signals. It may be.

예를 들면, 보다 효율적인 채널 선택 판단 식을 유도하기 위하여 확률적 해석이 가능한 모델을 도입하면 아래의 수학식 8을 구할 수 있다.For example, the following Equation 8 can be obtained by introducing a model capable of probabilistic analysis to derive a more efficient channel selection decision equation.

Figure 112009047257154-pat00051
Figure 112009047257154-pat00051

여기에서,

Figure 112009047257154-pat00052
는 음원변수로서
Figure 112009047257154-pat00053
, (
Figure 112009047257154-pat00054
은 특정화자,
Figure 112009047257154-pat00055
는 방해음원)를 만족하며,
Figure 112009047257154-pat00056
는 각 음원에 대한 사전확률이며,
Figure 112009047257154-pat00057
는 각 음원에 해당하는 기저함수이며,
Figure 112009047257154-pat00058
는 각 음원이 주어졌을 경우의 시간에 따른 가중치이다.From here,
Figure 112009047257154-pat00052
Is the sound source variable
Figure 112009047257154-pat00053
, (
Figure 112009047257154-pat00054
Is the specific speaker,
Figure 112009047257154-pat00055
Is a disturbing sound source),
Figure 112009047257154-pat00056
Is the prior probability for each sound source,
Figure 112009047257154-pat00057
Is the basis function for each sound source,
Figure 112009047257154-pat00058
Is weighted according to time when each sound source is given.

도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다. 도 3을 참조하면, 수학식 8의 모델을 확률 그래프 모델로 나타낸 것임을 알 수 있다.3 is an exemplary diagram of a probability graph model for explaining a sound restoration method according to an embodiment of the present invention. Referring to FIG. 3, it can be seen that the model of Equation 8 is represented by a probability graph model.

수학식 8의 모델을 다중 경로 암묵 음원 분리(CBSS)의 출력채널에서 얻은 독립소리신호

Figure 112009047257154-pat00059
Figure 112009047257154-pat00060
의 시간-주파수 표현에 각각 적용한다. 다만 여기에서
Figure 112009047257154-pat00061
은 미리 학습해 놓은 기저벡터들을 그대로 사용하기 때문에(
Figure 112009047257154-pat00062
, 여기에서
Figure 112009047257154-pat00063
는 A행렬의 (f, z)번째 원소), 특정 소리의 정보를 채널 선택에 효과적으로 적용시킬 수 있을 것이다. 다중 경로 암묵 음원 분리(CBSS)를 통해 얻은 출력신호들은 특정 소리와 방해음원 및 잡음이 완벽히 분 리가 되지 않고 섞여있는 신호이기 때문에, 수학식 8과 같은 음원변수에 대한 확률모델을 세움으로써 이를 확률적으로 기술하고, 이를 통해 채널 선택의 판단기준을 마련할 수 있을 것이다.Independent sound signal obtained from the output channel of multipath implicit sound source separation (CBSS)
Figure 112009047257154-pat00059
and
Figure 112009047257154-pat00060
Apply to the time-frequency representation of. Just here
Figure 112009047257154-pat00061
Since we use the basis vectors we have learned in advance,
Figure 112009047257154-pat00062
, From here
Figure 112009047257154-pat00063
(F, z) elements of the matrix A), it is possible to effectively apply the information of a particular sound to the channel selection. Since output signals obtained through multipath blind source separation (CBSS) are signals that are not completely separated from specific sounds, disturbed sources, and noise, they are probabilistic by establishing a probabilistic model for sound source variables such as Equation (8). It will be possible to prepare criteria for channel selection.

수학식 8에서 구해야 하는 요소들은

Figure 112009047257154-pat00064
를 제외한
Figure 112009047257154-pat00065
이다. 이 값들은 잠재변수가 있을 경우, 유사도를 최대화하는 (EM: Expectation and Maximization) 알고리즘으로 구할 수 있다. EM 알고리즘은 E 단계와 M 단계로 나누어져 있으며, 두 단계를 수렴할 때까지 반복적으로 수행한다.The elements to be obtained in Equation 8
Figure 112009047257154-pat00064
excluding
Figure 112009047257154-pat00065
to be. These values can be obtained by using the Expectation and Maximization (EM) algorithm if there are potential variables. The EM algorithm is divided into E stage and M stage, and iteratively executes until the two stages converge.

Figure 112009047257154-pat00066
E 단계:
Figure 112009047257154-pat00066
E stage:

Figure 112009047257154-pat00067
M 단계:
Figure 112009047257154-pat00067
M stage:

여기에서 채널선택에 대한 판단 기준식은 특정 소리의 사전 확률을 이용하여 구할 수 있다. 직관적으로

Figure 112009047257154-pat00068
가 클수록 주어진 시간-주파수 표현에 특정 소리(
Figure 112009047257154-pat00069
)의 기여도가 크다는 것을 알 수 있다. 그러므로 판단 기준식(
Figure 112009047257154-pat00070
)은 수학식 11로 표현될 수 있을 것이다.Here, the criterion for determining the channel selection can be obtained using the prior probability of the specific sound. Intuitively
Figure 112009047257154-pat00068
The larger is the specific sound in a given time-frequency representation.
Figure 112009047257154-pat00069
) Is a large contribution. Therefore, the judgment criterion (
Figure 112009047257154-pat00070
) May be represented by Equation 11.

Figure 112009047257154-pat00071
Figure 112009047257154-pat00071

즉, 두 시간-주파수 표현

Figure 112009047257154-pat00072
Figure 112009047257154-pat00073
에 앞서의 확률모델을 적용하여
Figure 112009047257154-pat00074
들을 구하고 최종적으로 수학식 11을 서로 비교함으로써 특정 소리가 보다 우세하게 포함되어 있는 채널을 선택할 수 있을 것이다.Ie two time-frequency representations
Figure 112009047257154-pat00072
and
Figure 112009047257154-pat00073
By applying the probabilistic model
Figure 112009047257154-pat00074
And finally compare Equation 11 to select a channel that contains a particular sound more predominantly.

Figure 112009047257154-pat00075
Figure 112009047257154-pat00075

다음으로, 본 발명의 일 실시예에 따른 소리 복원 방법은 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)를 더 포함하여 구성되는 것일 수 있다. 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.Next, the sound restoration method according to an embodiment of the present invention may further comprise the step (step 140) of removing the noise from the selected independent sound signal using the frequency basis vector of the sound. Removing the noise from the selected independent sound signal using the frequency basis vector of the sound (step 140) may use a method of restoring a spectrogram including only the sound.

예를 들면, 앞서 구한

Figure 112009047257154-pat00076
를 이용하여 최종적으로 특정 소리를 복원할 수 있을 것이다. 이를 위하여 먼저 특정 소리만을 담고 있는 스펙트로그램(
Figure 112009047257154-pat00077
)을 복원하면,
Figure 112009047257154-pat00078
의 (f,t)의 원소
Figure 112009047257154-pat00079
는 아래의 수학식 13과 같다.For example,
Figure 112009047257154-pat00076
You can finally restore the specific sound using. To do this, first of all, a spectrogram containing only certain sounds
Figure 112009047257154-pat00077
),
Figure 112009047257154-pat00078
Of (f, t) in
Figure 112009047257154-pat00079
Is as shown in Equation 13 below.

Figure 112009047257154-pat00080
Figure 112009047257154-pat00080

여기에서,

Figure 112009047257154-pat00081
Figure 112009047257154-pat00082
음원에서 특정 확률분포로 뽑힌 수라는 점을 이용하면, 특정 소리의 스펙트로그램
Figure 112009047257154-pat00083
Figure 112009047257154-pat00084
가 이루는 이항 분포에서 총 뽑힌 횟수
Figure 112009047257154-pat00085
가 주어졌을 때의 평균으로 정의될 수 있다.From here,
Figure 112009047257154-pat00081
Is
Figure 112009047257154-pat00082
Spectrogram of a particular sound using the fact that it is a number drawn with a certain probability distribution from the sound source
Figure 112009047257154-pat00083
silver
Figure 112009047257154-pat00084
The total number of times drawn from the binomial distribution
Figure 112009047257154-pat00085
It can be defined as the mean given by.

Figure 112009047257154-pat00086
Figure 112009047257154-pat00086

Figure 112009047257154-pat00087
Figure 112009047257154-pat00087

앞에서 구한 시간-주파수 표현

Figure 112009047257154-pat00088
과 해당 채널의 신호에서 얻은 위상정보를 이용하고, 이를 역-STFT(Short Time Fourier Transform) 변환을 통하여 최종적 으로 특정화자의 음성신호만을 복원할 수 있다.Time-Frequency Representation
Figure 112009047257154-pat00088
And the phase information obtained from the signal of the corresponding channel, and finally, only the speech signal of the specific speaker can be restored through inverse-short time Fourier transform (STFT) transformation.

더불어, 본 발명의 일 실시예에 따른 소리 복원 방법에서 상기 소리는 사람의 음성신호일 수 있다. 사람의 음성신호를 복원하는 방법으로 적용이 가능하며 따라서 음성인식장치의 음성인식 성능을 향상시킬 수 있을 것이다.In addition, in the sound restoration method according to an embodiment of the present invention, the sound may be a human voice signal. It can be applied as a method of restoring a human voice signal, thus improving the voice recognition performance of the voice recognition device.

본 발명의 다른 실시예에 따른 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 더불어, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다. 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.In the recording medium recording the sound restoration method according to another embodiment of the present invention, in the recording medium recording the sound restoration method, receiving the observation sound signal containing the sound and noise, a plurality of independent from the observation sound signal The method may include generating a sound signal and selecting one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound. In addition, the method may further include removing the noise from the selected independent sound signal using the frequency basis vector of the sound. Since the sound restoration method has already been described, a detailed description thereof will be omitted.

또한, 본 발명의 또 다른 실시예에 따른 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있으며, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다. 상기 소리는 사람의 음성신호일 수 있다. 역시 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.In addition, the apparatus for performing the sound restoration method according to another embodiment of the present invention, in the apparatus for performing the sound restoration method, receives an observation sound signal including the sound and noise, a plurality of observation sound signal from the A sound restoring unit and the observation sound signal, and the plurality of independent sound signals, which generate an independent sound signal of the sound source and select one independent sound signal from the plurality of independent sound signals using the frequency basis vector of the sound. And a storage unit for storing the frequency basis vector of the sound and the selected independent sound signal, wherein the sound restoration unit removes the noise from the selected independent sound signal using the frequency basis vector of the sound. It may be configured to include more. The sound may be a human voice signal. Since the sound restoration method has already been described, a detailed description thereof will be omitted.

도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다. 도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.4 is a model diagram for experimenting with a sound restoration method according to an embodiment of the present invention. 5 is a graph of the impact function according to the experiment of the sound restoration method according to an embodiment of the present invention.

본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해, 실제 잡음과 반향이 있는 환경에서 잡음과 반향 제거정도를 평가한다. 정량적인 분석을 위해 Room Simulation을 이용하여 실제 잡음과 반향 상황을 시뮬레이션을 실시한다.In order to evaluate the performance of the sound restoration method according to an embodiment of the present invention, the degree of noise and echo cancellation is evaluated in an environment having real noise and echo. For the quantitative analysis, room simulation is used to simulate real noise and echo.

도 4를 참조하면, Room Simulation을 위한 방의 크기는 가로 6.75m, 세로 3.75m 및 높이 2.5m이며, 도 5를 참조하면, 반향 정도를 나타내는 충격함수 반응을 알 수 있다. S1과 S2는 각각 Source1과 Source2를 의미한다. 도 4에서 S1과 S2는 각 음원이 자리할 수 있는 위치를 나타내는데, ①은 S1이 S2보다 가까운 곳에 위치함을, ②는 S1과 S2의 거리가 같음을, ③은 S1이 S2보다 먼 곳에 위치함을 의미한다. 특정 소리의 음원이 S1에 위치하게 되는데 ① ~ ③의 위치로 자리를 바꾸어가면서 녹음을 하여 다양한 위치에서의 성능 평가를 할 수 있다. 실험에서는 특정 소리 S1은 여성화자 또는 남성화자의 음성이고, 방해음원 S2는 프리터 출력소리 또는 트럼펫 연주소리로 가정한다.Referring to FIG. 4, the sizes of the rooms for the Room Simulation are 6.75m in width, 3.75m in height, and 2.5m in height. Referring to FIG. 5, the impact function response indicating the degree of reflection can be seen. S1 and S2 mean Source1 and Source2, respectively. In FIG. 4, S1 and S2 represent positions where each sound source can be located. ① indicates that S1 is located closer than S2, ② indicates that the distance between S1 and S2 is the same, and ③ indicates that S1 is farther than S2. It means. The sound source of a specific sound is located at S1, and you can perform performance evaluation at various locations by recording while changing the position of ① ~ ③. In the experiment, it is assumed that the specific sound S1 is the voice of the female speaker or the male speaker, and the disturbance source S2 is the sound of the fritter output or the trumpet playing.

도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.Figure 6 is an illustration of the basis vector alignment of the male and female in the sound restoration method according to an embodiment of the present invention.

도 6을 참조하면, 아래의 방법으로 실험한 경우의 여성과 남성의 주파수 특성 기저벡터들을 확인할 수 있다. 주파수 특성 기저벡터 학습을 위해 음성신호와는 별개의 학습 데이터로 각 30초 길이의 여성 또는 남성의 음성신호를 사용한다. 여성 및 남성의 음성신호를 STFT(Short Time Fourier Transform) 변환을 통하여 시간-주파수 표현

Figure 112009047257154-pat00089
을 얻을 수 있다. 여기에서, 윈도우 크기는 1024, hop크기는 256 및 hamming window를 사용한다.
Figure 112009047257154-pat00090
을 비음수 분해하기 위해 Probabilistic Latent Variable Model을 적용하고, 이때 K를 1000(>>F=512)으로 하여 Over-representation이 가능하도록 하였다. 이외에도 엔트로픽(Entropic) 사전확률을 정의할 때 요구되는 사용자 계수들은 Shashanka와 Smaragdis 연구에서 제시된 수치를 따른다.Referring to FIG. 6, it is possible to identify the frequency characteristic basis vectors of a female and a male when the experiment is performed by the following method. For learning the frequency-based basis vector, a female or male voice signal of 30 seconds in length is used as learning data separate from the voice signal. Time-frequency representation of female and male voice signals through STFT (Short Time Fourier Transform) transformation
Figure 112009047257154-pat00089
Can be obtained. Here, the window size is 1024, the hop size is 256, and the hamming window is used.
Figure 112009047257154-pat00090
Probabilistic Latent Variable Model was applied to non-negative decomposition, and K was set to 1000 (>> F = 512) to enable over-representation. In addition, the user coefficients required to define entropic prior probabilities follow the figures presented in the Shashanka and Smaragdis studies.

추가적으로, 복원결과의 정량적 평가를 위하여 SDR(Source to Distortion Ratio)을 도입할 수 있을 것이다. SDR은 잡음이 있는 환경에서 음원분리 방법들의 품질을 평가하는 측정단위로써, 그 값이 클수록 알고리즘이 출력한 결과신호가 목표 신호에 근접한다는 것을 의미한다. 계산을 위해 주어진 신호(

Figure 112009047257154-pat00091
)를 아래의 수학식 16의 분리모델을 이용하여 분리한다.In addition, SDR (Source to Distortion Ratio) may be introduced to quantitatively evaluate the restoration results. SDR is a unit of measurement for evaluating the quality of sound source separation methods in a noisy environment. The larger the value, the closer the result signal to the target signal. Given signal for calculation (
Figure 112009047257154-pat00091
) Is separated using the separation model of Equation 16 below.

Figure 112009047257154-pat00092
Figure 112009047257154-pat00092

여기에서,

Figure 112009047257154-pat00093
은 복원하고자 하는 소리이고,
Figure 112009047257154-pat00094
는 여러 음원에 의하여 생성된 간섭 소리이고,
Figure 112009047257154-pat00095
는 복원하고자 하는 소리가 아닌 다른 음원에서 생성된 잡음 소리이고,
Figure 112009047257154-pat00096
는 인공적으로 생성한 잡음 소리이다.From here,
Figure 112009047257154-pat00093
Is the sound you want to restore,
Figure 112009047257154-pat00094
Is interference sound produced by various sound sources,
Figure 112009047257154-pat00095
Is noise generated from a sound source other than the sound you want to restore,
Figure 112009047257154-pat00096
Is an artificially generated noise sound.

수학식 16의 분리모델을 바탕으로 SDR을 구하면 수학식 17과 같다.Based on the separation model of Equation 16, the SDR is obtained as shown in Equation 17.

Figure 112009047257154-pat00097
Figure 112009047257154-pat00097

본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해 각 단계별로 SDR을 측정하고, 이의 증가폭을 기존 CBSS와 비교한다. 즉, 크게 세부분에서 매 실험마다 SDR을 측정한다. 1) 마이크로폰으로 얻어진 관측소리신호의 SDR값(

Figure 112009047257154-pat00098
), 두 입력 중 SDR이 높은 쪽 선택 2) 음원분리만을 통해 얻은 결과의 SDR값(
Figure 112009047257154-pat00099
), 3) 본 발명의 복원 단계를 거친 최종 결과신호의 SDR값(
Figure 112009047257154-pat00100
).In order to evaluate the performance of the sound restoration method according to an embodiment of the present invention, the SDR is measured at each step, and the increase thereof is compared with the existing CBSS. That is, the SDR is measured in every detail in large part. 1) SDR value of the observed sound signal obtained from the microphone (
Figure 112009047257154-pat00098
), Select the higher SDR of the two inputs.
Figure 112009047257154-pat00099
), 3) the SDR value of the final resultant signal
Figure 112009047257154-pat00100
).

도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.7 is a performance evaluation table of the sound restoration method according to an embodiment of the present invention.

도 7을 참조하면, (a)는 여성 화자인 경우, (b)는 남성 화자인 경우의 각 단계별 SDR 결과를 나타내며, 여기에서 pr은 프린터 잡음을 나타내며, tr은 트럼펫 음악을 방해음원으로 사용한 것을 나타낸다. (a)와 (b)는 각각 여성과 남성이 특정화자일 경우, 여러 상황에서 본 발명의 일 실시예에 따른 소리 복원 방법의 복원결 과를 평가한 것이다. 특히 SDR값의 증가분을 통해 본 발명의 일 실시예에 따른 소리 복원 방법이 반향과 잡음에 의하여 생기는 왜곡을 상당 부분 제거하고, CBSS의 분리 성능을 큰 폭으로 다시 향상시키는 것을 알 수 있다. 즉, 본 발명이 잡음과 반향 환경에서 잡음 및 반향을 제거하고 본 특정화자의 음성을 복원하는데 적합함을 보여준다.Referring to FIG. 7, (a) is a female speaker, (b) is a SDR result of each step in the case of a male speaker, where pr represents printer noise, and tr represents the use of trumpet music as a disturbing sound source. Indicates. (a) and (b) evaluates the restoration results of the sound restoration method according to an embodiment of the present invention in various situations, when the female and the male are the specific speakers, respectively. In particular, it can be seen that through the increase of the SDR value, the sound restoration method according to the exemplary embodiment of the present invention substantially eliminates distortion caused by echo and noise, and greatly improves the separation performance of the CBSS. That is, the present invention is shown to be suitable for removing noise and echo and restoring the voice of the present speaker in a noise and echo environment.

이상 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.Although described with reference to the above embodiments, those skilled in the art will understand that various modifications and changes can be made without departing from the spirit and scope of the invention as set forth in the claims below. Could be.

도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다.1 is a flowchart illustrating a sound restoration method according to an embodiment of the present invention.

도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.2 is a conceptual diagram illustrating a sound restoration method according to an embodiment of the present invention.

도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다.3 is an exemplary diagram of a probability graph model for explaining a sound restoration method according to an embodiment of the present invention.

도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다.4 is a model diagram for experimenting with a sound restoration method according to an embodiment of the present invention.

도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.5 is a graph of the impact function according to the experiment of the sound restoration method according to an embodiment of the present invention.

도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.Figure 6 is an illustration of the basis vector alignment of the male and female in the sound restoration method according to an embodiment of the present invention.

도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.7 is a performance evaluation table of the sound restoration method according to an embodiment of the present invention.

Claims (14)

소리의 복원 방법에 있어서,In the sound restoration method, 상기 소리의 시간-주파수 특성을 나타내는 행렬을 이용하여 상기 소리의 주파수 기저벡터를 생성하고, 상기 생성된 주파수 기저벡터를 이용하여 미리 정해진 화자 음성의 주파수 특성 기저벡터들의 집합을 생성하는 단계;Generating a frequency basis vector of the sound using a matrix representing the time-frequency characteristic of the sound, and generating a set of frequency characteristic basis vectors of a predetermined speaker voice using the generated frequency basis vector; 마이크로부터 다양한 경로를 통해 관측된 소리와 잡음이 포함된 관측소리신호를 수신하는 단계;Receiving an observation sound signal including sound and noise observed through various paths from the microphone; 상기 관측소리신호로부터 음원을 분리하여 복수개의 독립신호를 생성하고, 상기 주파수 특성 기저벡터들의 집합에서 적어도 하나의 주파수 특성 기저벡터를 이용하여 상기 소리를 재구성할 시 상기 소리와 상기 재구성된 소리의 오차 크기가 작은 신호를 독립 신호로 선택하는 단계; 및When the sound source is separated from the observed sound signal to generate a plurality of independent signals, and the sound is reconstructed using at least one frequency characteristic basis vector in the set of frequency characteristic basis vectors, the error between the sound and the reconstructed sound Selecting a small signal as an independent signal; And 상기 주파수 특징 기저벡터들의 집합을 이용하여 상기 선택된 독립 신호에서 잡음을 제거하는 단계를 포함하는 것을 특징으로 하는 소리 복원 방법.And removing noise from the selected independent signal using the set of frequency feature basis vectors. 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete 소리의 복원 방법을 기록한 기록매체에 있어서,In the recording medium recording the sound restoration method, 상기 소리의 시간-주파수 특성을 나타내는 행렬을 이용하여 상기 소리의 주파수 기저벡터를 생성하고, 상기 생성된 주파수 기저벡터를 이용하여 미리 정해진 화자 음성의 주파수 특성 기저벡터들의 집합을 생성하는 단계;Generating a frequency basis vector of the sound using a matrix representing the time-frequency characteristic of the sound, and generating a set of frequency characteristic basis vectors of a predetermined speaker voice using the generated frequency basis vector; 마이크로부터 다양한 경로를 통해 관측된 소리와 잡음이 포함된 관측소리신호를 수신하는 단계;Receiving an observation sound signal including sound and noise observed through various paths from the microphone; 상기 관측소리신호로부터 음원을 분리하여 복수개의 독립신호를 생성하고, 상기 주파수 특성 기저벡터들의 집합을 이용하여 상기 소리를 재구성할 시 상기 소리와 상기 재구성된 소리의 오차 크기가 작은 신호를 독립 신호로 선택하는 단계; 및A plurality of independent signals are generated by separating a sound source from the observed sound signal, and a signal having a small error magnitude between the sound and the reconstructed sound as an independent signal when reconstructing the sound using the set of frequency characteristic basis vectors. Selecting; And 상기 주파수 특징 기저벡터들의 집합을 이용하여 상기 선택된 독립 신호에서 잡음을 제거하는 단계를 포함하여 구성되는 소리의 복원 방법을 기록한 기록매체.And removing noise from the selected independent signal using the set of frequency feature basis vectors. 삭제delete 소리의 복원 방법을 수행하는 장치에 있어서In the device for performing the sound restoration method 상기 관측소리신호로부터 음원을 분리하여 복수개의 독립신호를 생성하고, 상기 주파수 특성 기저벡터들의 집합을 이용하여 상기 소리를 재구성할 시 상기 소리와 상기 재구성된 소리의 오차 크기가 작은 신호를 독립 신호로 선택하는 것을 수행하는 소리복원부; 및A plurality of independent signals are generated by separating a sound source from the observed sound signal, and a signal having a small error magnitude between the sound and the reconstructed sound as an independent signal when reconstructing the sound using the set of frequency characteristic basis vectors. A sound restoring unit for performing selection; And 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성되는 소리의 복원 방법을 수행하는 장치.And a storage unit for storing the observation sound signal, the plurality of independent sound signals, the frequency basis vector of the sound, and the selected independent sound signal. 삭제delete 삭제delete
KR1020090070867A 2009-07-31 2009-07-31 Method of Restoration of Sound, Recording Media of the same and Apparatus of the same KR101043114B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090070867A KR101043114B1 (en) 2009-07-31 2009-07-31 Method of Restoration of Sound, Recording Media of the same and Apparatus of the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090070867A KR101043114B1 (en) 2009-07-31 2009-07-31 Method of Restoration of Sound, Recording Media of the same and Apparatus of the same

Publications (2)

Publication Number Publication Date
KR20110012946A KR20110012946A (en) 2011-02-09
KR101043114B1 true KR101043114B1 (en) 2011-06-20

Family

ID=43772802

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090070867A KR101043114B1 (en) 2009-07-31 2009-07-31 Method of Restoration of Sound, Recording Media of the same and Apparatus of the same

Country Status (1)

Country Link
KR (1) KR101043114B1 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014003B2 (en) 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
KR101864925B1 (en) * 2016-02-05 2018-06-05 전자부품연구원 Global Model-based Audio Object Separation method and system
KR102372327B1 (en) * 2017-08-09 2022-03-08 에스케이텔레콤 주식회사 Method for recognizing voice and apparatus used therefor
CN108447502B (en) * 2018-03-09 2020-09-22 福州米鱼信息科技有限公司 Memorandum method and terminal based on voice information
CN110956978B (en) * 2019-11-19 2022-12-16 广东工业大学 Sparse blind separation method based on underdetermined convolution aliasing model
CN113470688B (en) * 2021-07-23 2024-01-23 平安科技(深圳)有限公司 Voice data separation method, device, equipment and storage medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박선호 외 2명, ‘주파수 특성 기저벡터 학습을 통한 특정화자 음성복원’, 2008년 가을 학술발표논문집, Vol.35, No.2(A), pp.103~104, 2008년10월.*

Also Published As

Publication number Publication date
KR20110012946A (en) 2011-02-09

Similar Documents

Publication Publication Date Title
US20210089967A1 (en) Data training in multi-sensor setups
Gamper et al. Blind reverberation time estimation using a convolutional neural network
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
Wang et al. Sequential multi-frame neural beamforming for speech separation and enhancement
KR101043114B1 (en) Method of Restoration of Sound, Recording Media of the same and Apparatus of the same
CN112116920A (en) Multi-channel voice separation method with unknown speaker number
Moore et al. Speech enhancement for robust automatic speech recognition: Evaluation using a baseline system and instrumental measures
Tang et al. Improving reverberant speech training using diffuse acoustic simulation
Steinmetz et al. Filtered noise shaping for time domain room impulse response estimation from reverberant speech
Zhao et al. Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency Attention.
EP4260315B1 (en) Method and system for dereverberation of speech signals
KR20220022286A (en) Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder
CN110998723A (en) Signal processing device using neural network, signal processing method using neural network, and signal processing program
Choi et al. Multichannel signal separation for cocktail party speech recognition: A dynamic recurrent network
Song et al. An integrated multi-channel approach for joint noise reduction and dereverberation
Chen et al. A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation
Ick et al. Blind acoustic room parameter estimation using phase features
Arberet et al. A tractable framework for estimating and combining spectral source models for audio source separation
US11790929B2 (en) WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network
Pandey et al. Time-domain ad-hoc array speech enhancement using a triple-path network
Guzewich et al. Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement.
Lluís et al. Direction specific ambisonics source separation with end-to-end deep learning
Aralikatti et al. Improving reverberant speech separation with multi-stage training and curriculum learning
Opochinsky et al. Single-Microphone Speaker Separation and Voice Activity Detection in Noisy and Reverberant Environments
US20240055012A1 (en) Method and System for Reverberation Modeling of Speech Signals

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee