KR20110012946A - 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 - Google Patents

소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 Download PDF

Info

Publication number
KR20110012946A
KR20110012946A KR1020090070867A KR20090070867A KR20110012946A KR 20110012946 A KR20110012946 A KR 20110012946A KR 1020090070867 A KR1020090070867 A KR 1020090070867A KR 20090070867 A KR20090070867 A KR 20090070867A KR 20110012946 A KR20110012946 A KR 20110012946A
Authority
KR
South Korea
Prior art keywords
sound
independent
signal
basis vector
sound signal
Prior art date
Application number
KR1020090070867A
Other languages
English (en)
Other versions
KR101043114B1 (ko
Inventor
박선호
유지호
최승진
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to KR1020090070867A priority Critical patent/KR101043114B1/ko
Publication of KR20110012946A publication Critical patent/KR20110012946A/ko
Application granted granted Critical
Publication of KR101043114B1 publication Critical patent/KR101043114B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치를 제공한다. 소리의 복원 방법에 있어서, 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 소리의 주파수 기저벡터를 이용하여 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 따라서 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.
소리 복원, 잡음, 다중 경로 암묵 음원 분리, 스펙트로그램, 비음수 행렬 분해, 주파수 기저벡터, 관측소리신호, 독립소리신호, 음성신호

Description

소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치{Method of Restoration of Sound, Recording Media of the same and Apparatus of the same}
본 발명은 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것으로서, 더욱 상세하게는 소리의 주파수 기저벡터를 이용하는 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치에 관한 것이다.
멀티 모달(multi modal) 사용자 인터페이스에 대한 수요의 증가 및 관련 기술의 발달로 음성, 영상 및 햅틱(haptic) 등의 다양한 센서들을 이용한 사용자 인터페이스들이 개발되고 있다. 특히, 음성의 경우 저가의 센서를 이용하여 손쉽게 음성신호를 얻을 수 있으며, 휴대성이 뛰어나 다른 모바일 기기와 연계하여 사용자 인터페이스를 개발하기 쉽기 때문에 많은 주목을 받고 있다. 그러나 실제 환경에서의 음성신호는 항상 잡음과 소음에 노출되어 있어, 이에 따른 인식 성능의 저하는 음성기반 사용자 인터페이스 개발의 큰 걸림돌로 작용하고 있다.
실제 환경에서의 잡음과 소음의 영향을 제거하고 깨끗한 음성신호만을 얻기 위해, 잡음제거나 음성강조 및 음원분리 기술들이 적용되고 있다. 특히, 음원분리기술은 여러 신호가 섞인 혼합신호에서 독립적인 신호들을 복원하는 기술이므로, 여러 잡음이 섞인 음성신호에서 음성신호와 비 음성신호들을 분리해 내고자 할 때 효과적이다. 다만 사무실이나 방과 같이 제한된 공간에서는 장애물이나 벽에 부딪쳐 반사되어 돌아오는 신호들에 의해 다중 경로 혼합(convolutive mixture) 문제가 발생하게 되는데, 이는 수학적으로도 모델링이 복잡하여 잡음제거나 음원분리 문제를 어렵게 한다.
최근 기존의 음원분리 성능 향상을 위해 다른 부가적인 정보를 이용하는 시도가 있어왔다. 센서들과 음원들 사이의 기하학적 정보를 이용하는 빔 형성(beam forming) 접근방법이나 센서들에게 가장 우세한 파워를 나타내는 음원을 선택적으로 분리하는 방법 등의 음원분리 성능을 높이기 위하여 관측신호 이외의 정보를 분리과정에 적용하는 방법들이 제안되었다. 그러나 이 접근 방법들은 대부분 음원이 관측되는 환경에 대한 부차적 정보를 이용 할 뿐, 음원(음성)이 가지는 고유의 특성정보를 음원분리에 적용하여 성능을 향상시키는 시도는 없었다.
본 발명의 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 제공하는 것이다.
본 발명의 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 기록한 기록매체를 제공하는 것이다.
본 발명의 또 다른 목적은 소리의 주파수 기저벡터를 이용하는 소리 복원 방법을 수행하는 장치를 제공하는 것이다.
상술한 본 발명의 목적을 달성하기 위한 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.
여기에서, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다.
여기에서, 상기 비음수 행렬 인수분해 방법은 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.
여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.
상술한 본 발명의 다른 목적을 달성하기 위한 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다.
여기에서, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다.
상술한 본 발명의 또 다른 목적을 달성하기 위한 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나 의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있다.
여기에서, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다.
여기에서, 상기 소리는 사람의 음성신호인 것일 수 있다.
상기와 같은 소리 복원 방법에 따르면, 잡음이 있는 환경에서 잡음의 영향을 줄이고 음원분리의 성능을 향상시킬 수 있으며, 이를 통하여 특정 소리만을 복원할 수 있다. 특히, 특정 소리만의 신호를 복원하여 음성인식 관련 시스템의 음성인식 성능을 향상시킬 수 있다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나 의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가진 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부한 도면들을 참조하여, 본 발명의 바람직한 실시예를 보다 상세하게 설명하고자 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면상의 동일한 구성요소에 대해서는 동일한 참조부호를 사용하고 동일한 구성요소에 대해서 중복된 설명은 생략한다.
도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.
도 1과 도 2를 병행하여 참조하면, 본 발명의 일 실시예에 따른 소리 복원 방법은 소리의 복원 방법에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110), 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단계 120) 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)를 포함하여 구성될 수 있다.
먼저, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계(단계 110)는 복수의 마이크로폰(microphone)을 이용하여 복원되어야 할 소리와 잡음을 함께 입력받는 것일 수 있다. 상기 소리는 복원되어야 할 신호를 의미하며, 상기 잡음은 소리와 별개의 음원에서 발생된 것일 수 있으며, 소리의 음원과 동일한 음원에서 발생되었지만 반사체에서 반사되는 등의 이유로 복원되어야할 소리와는 다른 경로를 통하여 입력받는 신호를 모두 포함하는 것일 수 있다.
다음으로, 상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것일 수 있다. 상기 소리의 주파수 기저벡터는 특정 소리를 이용하여 특정 소리의 주파수 특성을 잘 나타내는 주파수 특성 기저벡터를 학습하는 것을 통하여 생성된다. 여기에서, 스펙트로그램은(spectrogram) 주어진 신호의 시간-주파수 특성을 보고자 할 때 많이 쓰이는 방법이다. 일반적으로 분석하는 소리는 시간에 따라 주파수 및 진폭이 변화하는 매우 복잡한 특징을 가지며, 스펙트로그램(spectrogram)은 주파수와 진폭의 시간에 따른 변화를 보여주는 삼차원적인 그래프이므로, 스펙트로그램을 이용하면 상기 소리의 특성을 잘 나타낼 수 있을 것이다. 또한, 상기 비음수 행렬 인수분해는 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것일 수 있다. 즉, 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용하여 주파수 기저벡터를 학습할 수도 있을 것이다.
예를 들면, 상기 소리의 주파수 기저벡터는 학습 가능한 소리를 통해 상기 소리가 가지는 고유한 주파수 특성 정보를 추출하여 주파수 기저벡터를 생성하는 것이다. 이를 상세하게 설명하면, 학습 가능한 소리 신호의 스펙트로그램(spectrogram)을 행렬
Figure 112009047257154-PAT00001
(
Figure 112009047257154-PAT00002
X
Figure 112009047257154-PAT00003
행렬,
Figure 112009047257154-PAT00004
는 주파수 대역,
Figure 112009047257154-PAT00005
는 전체 프레임 수)이라고 할 때, 행렬
Figure 112009047257154-PAT00006
에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization)를 적용하여 다음 수학식 1과 같이
Figure 112009047257154-PAT00007
을 두 개의 행렬로 분해할 수 있을 것이다.
Figure 112009047257154-PAT00008
여기에서, 행렬
Figure 112009047257154-PAT00009
(
Figure 112009047257154-PAT00010
X
Figure 112009047257154-PAT00011
행렬,
Figure 112009047257154-PAT00012
는 주파수 대역,
Figure 112009047257154-PAT00013
는 기저벡터의 수를 결정하는 인자)는 주파수 특성 기저벡터이며, 시간에 불변하는 주파수 특성을 갖는다. 행렬
Figure 112009047257154-PAT00014
(
Figure 112009047257154-PAT00015
X
Figure 112009047257154-PAT00016
행렬,
Figure 112009047257154-PAT00017
는 기저벡터의 수를 결정하는 인자,
Figure 112009047257154-PAT00018
는 전체 프레임 수)는 시간에 따라 가변적인 기저벡터이다.
결국, 행렬
Figure 112009047257154-PAT00019
에 대하여 비음수 행렬분해를 통해 행렬
Figure 112009047257154-PAT00020
및 행렬
Figure 112009047257154-PAT00021
로 분해할 수 있으며, 행렬
Figure 112009047257154-PAT00022
의 각 열은 시간의 변화에 불변하는 주파수 영역의 기저벡터이므로 행렬
Figure 112009047257154-PAT00023
를 학습함으로써, 상기 소리가 갖는 고유의 주파수 특성 정보를 추출 할 수 있다. 더불어 비음수 행렬 인수분해(NNF)의 일종인 확률적 해석이 가능한 Probabilistic Latent Variable Model 기법 등을 이용할 수 있으며, Overcomplete Representation 방법을 이용할 수도 있을 것이다.
다음으로, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계(단 계 120)는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것일 수 있다. 다중 경로 암묵 음원 분리(CBSS)는 각 음원들이 '서로 통계적으로 독립'이라는 정보만을 이용하여 음원들을 분리하는 방법이다. 즉, 통계적으로 독립이라는 특성을 이용하여 여러 음원들을 서로 분리할 수 있을 것이다.
예를 들면, 잡음이 존재하는 환경에서 시간이 t일 때의 관측소리신호(
Figure 112009047257154-PAT00024
, 여기에서,
Figure 112009047257154-PAT00025
)는 아래의 수학식 2와 같이 정의될 수 있다.
Figure 112009047257154-PAT00026
여기에서,
Figure 112009047257154-PAT00027
는 독립음원 신호로서
Figure 112009047257154-PAT00028
를 만족하는 n개의 음원들이며,
Figure 112009047257154-PAT00029
Figure 112009047257154-PAT00030
지연시간의 혼합행렬,
Figure 112009047257154-PAT00031
Figure 112009047257154-PAT00032
의 최대값,
Figure 112009047257154-PAT00033
는 배경 잡음(백색 잡음)이다.
다중 경로 암묵 음원 분리를 적용하기 위하여 상기 수학식 2로부터 다중 경로 혼합신호(
Figure 112009047257154-PAT00034
)는 아래의 수학식 3과 같이 정의할 수 있다.
Figure 112009047257154-PAT00035
음원분리의 목표는 혼합신호(
Figure 112009047257154-PAT00036
)로부터 원래의 음원(
Figure 112009047257154-PAT00037
)을 찾는 것이므로 아래의 수학식 4에서 정의된 혼합행렬의 역인 역혼합행렬(demixing matrix)(
Figure 112009047257154-PAT00038
)를 구해야 할 것이다.
Figure 112009047257154-PAT00039
여기에서,
Figure 112009047257154-PAT00040
는 역혼합행렬의 최대 길이이다.
반향 환경에서의 음원 분리 문제는 주파수 영역에서 각 주파수대에서의 곱으로 간단히 표현되기 때문에 수학식 3을 주파수 영역으로 변환하면 문제 해결이 용이해 질 수 있다. 즉,
Figure 112009047257154-PAT00041
가 주파수일 때, 수학식 3은 수학식 5와 같이 각 주파수대의 곱으로 표현될 수 있을 것이다.
Figure 112009047257154-PAT00042
수학식 5를 관측소리신호
Figure 112009047257154-PAT00043
와 음원의 분산행렬
Figure 112009047257154-PAT00044
로 다시 표현하면,
Figure 112009047257154-PAT00045
여기에서,
Figure 112009047257154-PAT00046
는 관측소리신호,
Figure 112009047257154-PAT00047
는 음원의 분산행렬을 나타낸다.
각 음원들이 서로 통계적으로 독립이라는 점으로부터
Figure 112009047257154-PAT00048
가 대각행렬이 된다는 것을 알 수 있으며, 이에 따라
Figure 112009047257154-PAT00049
의 비 대각성분들을 0으로 만드는 역혼합행렬을 구하는 수학식 7을 수학식 6의 관계를 이용하여 유도할 수 있다.
Figure 112009047257154-PAT00050
수학식 7에 Joint Approximate Diagonalization을 적용하여 각 주파수 대역에서의 역혼합행렬들을 구할 수 있고, 이를 통하여 다중 경로 신호로부터 원래의 음원들을 분리할 수 있을 것이다.
다음으로, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것일 수 있다. 또한, 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계(단계 130)는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것일 수 있다.
예를 들면, 보다 효율적인 채널 선택 판단 식을 유도하기 위하여 확률적 해석이 가능한 모델을 도입하면 아래의 수학식 8을 구할 수 있다.
Figure 112009047257154-PAT00051
여기에서,
Figure 112009047257154-PAT00052
는 음원변수로서
Figure 112009047257154-PAT00053
, (
Figure 112009047257154-PAT00054
은 특정화자,
Figure 112009047257154-PAT00055
는 방해음원)를 만족하며,
Figure 112009047257154-PAT00056
는 각 음원에 대한 사전확률이며,
Figure 112009047257154-PAT00057
는 각 음원에 해당하는 기저함수이며,
Figure 112009047257154-PAT00058
는 각 음원이 주어졌을 경우의 시간에 따른 가중치이다.
도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다. 도 3을 참조하면, 수학식 8의 모델을 확률 그래프 모델로 나타낸 것임을 알 수 있다.
수학식 8의 모델을 다중 경로 암묵 음원 분리(CBSS)의 출력채널에서 얻은 독립소리신호
Figure 112009047257154-PAT00059
Figure 112009047257154-PAT00060
의 시간-주파수 표현에 각각 적용한다. 다만 여기에서
Figure 112009047257154-PAT00061
은 미리 학습해 놓은 기저벡터들을 그대로 사용하기 때문에(
Figure 112009047257154-PAT00062
, 여기에서
Figure 112009047257154-PAT00063
는 A행렬의 (f, z)번째 원소), 특정 소리의 정보를 채널 선택에 효과적으로 적용시킬 수 있을 것이다. 다중 경로 암묵 음원 분리(CBSS)를 통해 얻은 출력신호들은 특정 소리와 방해음원 및 잡음이 완벽히 분 리가 되지 않고 섞여있는 신호이기 때문에, 수학식 8과 같은 음원변수에 대한 확률모델을 세움으로써 이를 확률적으로 기술하고, 이를 통해 채널 선택의 판단기준을 마련할 수 있을 것이다.
수학식 8에서 구해야 하는 요소들은
Figure 112009047257154-PAT00064
를 제외한
Figure 112009047257154-PAT00065
이다. 이 값들은 잠재변수가 있을 경우, 유사도를 최대화하는 (EM: Expectation and Maximization) 알고리즘으로 구할 수 있다. EM 알고리즘은 E 단계와 M 단계로 나누어져 있으며, 두 단계를 수렴할 때까지 반복적으로 수행한다.
Figure 112009047257154-PAT00066
E 단계:
Figure 112009047257154-PAT00067
M 단계:
여기에서 채널선택에 대한 판단 기준식은 특정 소리의 사전 확률을 이용하여 구할 수 있다. 직관적으로
Figure 112009047257154-PAT00068
가 클수록 주어진 시간-주파수 표현에 특정 소리(
Figure 112009047257154-PAT00069
)의 기여도가 크다는 것을 알 수 있다. 그러므로 판단 기준식(
Figure 112009047257154-PAT00070
)은 수학식 11로 표현될 수 있을 것이다.
Figure 112009047257154-PAT00071
즉, 두 시간-주파수 표현
Figure 112009047257154-PAT00072
Figure 112009047257154-PAT00073
에 앞서의 확률모델을 적용하여
Figure 112009047257154-PAT00074
들을 구하고 최종적으로 수학식 11을 서로 비교함으로써 특정 소리가 보다 우세하게 포함되어 있는 채널을 선택할 수 있을 것이다.
Figure 112009047257154-PAT00075
다음으로, 본 발명의 일 실시예에 따른 소리 복원 방법은 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)를 더 포함하여 구성되는 것일 수 있다. 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계(단계 140)는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것일 수 있다.
예를 들면, 앞서 구한
Figure 112009047257154-PAT00076
를 이용하여 최종적으로 특정 소리를 복원할 수 있을 것이다. 이를 위하여 먼저 특정 소리만을 담고 있는 스펙트로그램(
Figure 112009047257154-PAT00077
)을 복원하면,
Figure 112009047257154-PAT00078
의 (f,t)의 원소
Figure 112009047257154-PAT00079
는 아래의 수학식 13과 같다.
Figure 112009047257154-PAT00080
여기에서,
Figure 112009047257154-PAT00081
Figure 112009047257154-PAT00082
음원에서 특정 확률분포로 뽑힌 수라는 점을 이용하면, 특정 소리의 스펙트로그램
Figure 112009047257154-PAT00083
Figure 112009047257154-PAT00084
가 이루는 이항 분포에서 총 뽑힌 횟수
Figure 112009047257154-PAT00085
가 주어졌을 때의 평균으로 정의될 수 있다.
Figure 112009047257154-PAT00086
Figure 112009047257154-PAT00087
앞에서 구한 시간-주파수 표현
Figure 112009047257154-PAT00088
과 해당 채널의 신호에서 얻은 위상정보를 이용하고, 이를 역-STFT(Short Time Fourier Transform) 변환을 통하여 최종적 으로 특정화자의 음성신호만을 복원할 수 있다.
더불어, 본 발명의 일 실시예에 따른 소리 복원 방법에서 상기 소리는 사람의 음성신호일 수 있다. 사람의 음성신호를 복원하는 방법으로 적용이 가능하며 따라서 음성인식장치의 음성인식 성능을 향상시킬 수 있을 것이다.
본 발명의 다른 실시예에 따른 소리 복원 방법을 기록한 기록매체는 소리의 복원 방법을 기록한 기록매체에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계, 상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계 및 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계를 포함하여 구성될 수 있다. 더불어, 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계를 더 포함하여 구성될 수 있다. 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.
또한, 본 발명의 또 다른 실시예에 따른 소리 복원 방법을 수행하는 장치는 소리의 복원 방법을 수행하는 장치에 있어서, 상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 것을 수행하는 소리복원부 및 상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부를 포함하여 구성될 수 있으며, 상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것일 수 있다. 상기 소리는 사람의 음성신호일 수 있다. 역시 상기 소리의 복원 방법에서 이미 설명하였으므로 자세한 설명은 생략한다.
도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다. 도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.
본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해, 실제 잡음과 반향이 있는 환경에서 잡음과 반향 제거정도를 평가한다. 정량적인 분석을 위해 Room Simulation을 이용하여 실제 잡음과 반향 상황을 시뮬레이션을 실시한다.
도 4를 참조하면, Room Simulation을 위한 방의 크기는 가로 6.75m, 세로 3.75m 및 높이 2.5m이며, 도 5를 참조하면, 반향 정도를 나타내는 충격함수 반응을 알 수 있다. S1과 S2는 각각 Source1과 Source2를 의미한다. 도 4에서 S1과 S2는 각 음원이 자리할 수 있는 위치를 나타내는데, ①은 S1이 S2보다 가까운 곳에 위치함을, ②는 S1과 S2의 거리가 같음을, ③은 S1이 S2보다 먼 곳에 위치함을 의미한다. 특정 소리의 음원이 S1에 위치하게 되는데 ① ~ ③의 위치로 자리를 바꾸어가면서 녹음을 하여 다양한 위치에서의 성능 평가를 할 수 있다. 실험에서는 특정 소리 S1은 여성화자 또는 남성화자의 음성이고, 방해음원 S2는 프리터 출력소리 또는 트럼펫 연주소리로 가정한다.
도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.
도 6을 참조하면, 아래의 방법으로 실험한 경우의 여성과 남성의 주파수 특성 기저벡터들을 확인할 수 있다. 주파수 특성 기저벡터 학습을 위해 음성신호와는 별개의 학습 데이터로 각 30초 길이의 여성 또는 남성의 음성신호를 사용한다. 여성 및 남성의 음성신호를 STFT(Short Time Fourier Transform) 변환을 통하여 시간-주파수 표현
Figure 112009047257154-PAT00089
을 얻을 수 있다. 여기에서, 윈도우 크기는 1024, hop크기는 256 및 hamming window를 사용한다.
Figure 112009047257154-PAT00090
을 비음수 분해하기 위해 Probabilistic Latent Variable Model을 적용하고, 이때 K를 1000(>>F=512)으로 하여 Over-representation이 가능하도록 하였다. 이외에도 엔트로픽(Entropic) 사전확률을 정의할 때 요구되는 사용자 계수들은 Shashanka와 Smaragdis 연구에서 제시된 수치를 따른다.
추가적으로, 복원결과의 정량적 평가를 위하여 SDR(Source to Distortion Ratio)을 도입할 수 있을 것이다. SDR은 잡음이 있는 환경에서 음원분리 방법들의 품질을 평가하는 측정단위로써, 그 값이 클수록 알고리즘이 출력한 결과신호가 목표 신호에 근접한다는 것을 의미한다. 계산을 위해 주어진 신호(
Figure 112009047257154-PAT00091
)를 아래의 수학식 16의 분리모델을 이용하여 분리한다.
Figure 112009047257154-PAT00092
여기에서,
Figure 112009047257154-PAT00093
은 복원하고자 하는 소리이고,
Figure 112009047257154-PAT00094
는 여러 음원에 의하여 생성된 간섭 소리이고,
Figure 112009047257154-PAT00095
는 복원하고자 하는 소리가 아닌 다른 음원에서 생성된 잡음 소리이고,
Figure 112009047257154-PAT00096
는 인공적으로 생성한 잡음 소리이다.
수학식 16의 분리모델을 바탕으로 SDR을 구하면 수학식 17과 같다.
Figure 112009047257154-PAT00097
본 발명의 일 실시예에 따른 소리 복원 방법의 성능을 평가하기 위해 각 단계별로 SDR을 측정하고, 이의 증가폭을 기존 CBSS와 비교한다. 즉, 크게 세부분에서 매 실험마다 SDR을 측정한다. 1) 마이크로폰으로 얻어진 관측소리신호의 SDR값(
Figure 112009047257154-PAT00098
), 두 입력 중 SDR이 높은 쪽 선택 2) 음원분리만을 통해 얻은 결과의 SDR값(
Figure 112009047257154-PAT00099
), 3) 본 발명의 복원 단계를 거친 최종 결과신호의 SDR값(
Figure 112009047257154-PAT00100
).
도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.
도 7을 참조하면, (a)는 여성 화자인 경우, (b)는 남성 화자인 경우의 각 단계별 SDR 결과를 나타내며, 여기에서 pr은 프린터 잡음을 나타내며, tr은 트럼펫 음악을 방해음원으로 사용한 것을 나타낸다. (a)와 (b)는 각각 여성과 남성이 특정화자일 경우, 여러 상황에서 본 발명의 일 실시예에 따른 소리 복원 방법의 복원결 과를 평가한 것이다. 특히 SDR값의 증가분을 통해 본 발명의 일 실시예에 따른 소리 복원 방법이 반향과 잡음에 의하여 생기는 왜곡을 상당 부분 제거하고, CBSS의 분리 성능을 큰 폭으로 다시 향상시키는 것을 알 수 있다. 즉, 본 발명이 잡음과 반향 환경에서 잡음 및 반향을 제거하고 본 특정화자의 음성을 복원하는데 적합함을 보여준다.
이상 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 개념도이다.
도 3은 본 발명의 일 실시예에 따른 소리 복원 방법을 설명하기 위한 확률 그래프 모델의 예시도이다.
도 4는 본 발명의 일 실시예에 따른 소리 복원 방법을 실험하기 위한 모형도이다.
도 5는 본 발명의 일 실시예에 따른 소리 복원 방법의 실험에 따른 충격함수 그래프이다.
도 6은 본 발명의 일 실시예에 따른 소리 복원 방법에서 남성 및 여성의 기저벡터 정렬의 예시도이다.
도 7은 본 발명의 일 실시예에 따른 소리 복원 방법의 성능 평가표이다.

Claims (14)

  1. 소리의 복원 방법에 있어서,
    상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계;
    상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계; 및
    상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계;를 포함하여 구성되는 소리의 복원 방법.
  2. 제1항에 있어서,
    상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계는 다중 경로 암묵 음원 분리(CBSS: Convolutive Blind Source Separation) 방법을 이용하는 것을 특징으로 하는 소리의 복원 방법.
  3. 제1항에 있어서,
    상기 소리의 주파수 기저벡터는 상기 소리의 시간-주파수 특성을 나타내는 스펙트로그램(Spectrogram) 행렬에 비음수 행렬 인수분해(NNF: Non-negative Matrix Factorization) 방법을 적용하여 생성된 것을 특징으로 하는 소리의 복원 방법.
  4. 제3항에 있어서,
    상기 비음수 행렬 인수분해 방법은 확률적 해석이 가능한 방법, 직교 제한 조건을 이용한 방법 및 희소성 제한 조건을 이용한 방법 중 적어도 하나를 적용하는 것을 특징으로 하는 소리의 복원 방법.
  5. 제1항에 있어서,
    상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 소리의 주파수 기저벡터를 포함하는 확률 모델을 이용하는 것을 특징으로 하는 소리의 복원 방법.
  6. 제1항에 있어서,
    상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계는 상기 복수의 독립소리신호 중에서 상기 소리의 기여도가 큰 독립소리신호를 선택하는 것을 특징으로 하는 소리의 복원 방법.
  7. 제1항에 있어서,
    상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계;를 더 포함하여 구성되는 것을 특징으로 하는 소리의 복원 방법.
  8. 제7항에 있어서,
    상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계는 상기 소리만을 포함하는 스펙트로그램을 복원하는 방법을 이용하는 것을 특징으로 하는 소리의 복원 방법.
  9. 제1항에 있어서,
    상기 소리는 사람의 음성신호인 것을 특징으로 하는 소리의 복원 방법.
  10. 소리의 복원 방법을 기록한 기록매체에 있어서,
    상기 소리와 잡음이 포함된 관측소리신호를 입력받는 단계;
    상기 관측소리신호에서 복수의 독립소리신호를 생성하는 단계; 및
    상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 단계;를 포함하여 구성되는 소리의 복원 방법을 기록한 기록매체.
  11. 제10항에 있어서,
    상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 단계;를 더 포함하여 구성되는 소리의 복원 방법을 기록한 기록매체.
  12. 소리의 복원 방법을 수행하는 장치에 있어서,
    상기 소리와 잡음이 포함된 관측소리신호를 입력받고, 상기 관측소리신호에서 복수의 독립소리신호를 생성하고, 상기 소리의 주파수 기저벡터를 이용하여 상기 복수의 독립소리신호에서 하나의 독립소리신호를 선택하는 것을 수행하는 소리복원부; 및
    상기 관측소리신호, 상기 복수의 독립소리신호, 상기 소리의 주파수 기저벡터 및 상기 선택된 독립소리신호를 저장하기 위한 저장부;를 포함하여 구성되는 소리의 복원 방법을 수행하는 장치.
  13. 제12항에 있어서,
    상기 소리복원부는 상기 소리의 주파수 기저벡터를 이용하여 상기 선택된 독립소리신호에서 상기 잡음을 제거하는 것을 더 포함하여 구성되는 것을 특징으로 하는 소리의 복원 방법을 수행하는 장치.
  14. 제12항에 있어서,
    상기 소리는 사람의 음성신호인 것을 특징으로 하는 소리의 복원 방법을 수행하는 장치.
KR1020090070867A 2009-07-31 2009-07-31 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치 KR101043114B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090070867A KR101043114B1 (ko) 2009-07-31 2009-07-31 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090070867A KR101043114B1 (ko) 2009-07-31 2009-07-31 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치

Publications (2)

Publication Number Publication Date
KR20110012946A true KR20110012946A (ko) 2011-02-09
KR101043114B1 KR101043114B1 (ko) 2011-06-20

Family

ID=43772802

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090070867A KR101043114B1 (ko) 2009-07-31 2009-07-31 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치

Country Status (1)

Country Link
KR (1) KR101043114B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017135487A1 (ko) * 2016-02-05 2017-08-10 전자부품연구원 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템
US10014003B2 (en) 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
CN108447502A (zh) * 2018-03-09 2018-08-24 福州米鱼信息科技有限公司 一种基于语音信息的备忘方法及终端
CN110956978A (zh) * 2019-11-19 2020-04-03 广东工业大学 一种基于欠定卷积混叠模型的稀疏盲分离方法
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
KR20210148057A (ko) * 2017-08-09 2021-12-07 에스케이텔레콤 주식회사 음성 인식 방법 및 이에 사용되는 장치

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10014003B2 (en) 2015-10-12 2018-07-03 Gwangju Institute Of Science And Technology Sound detection method for recognizing hazard situation
WO2017135487A1 (ko) * 2016-02-05 2017-08-10 전자부품연구원 글로벌 모델 기반 오디오 객체 분리 방법 및 시스템
KR20210148057A (ko) * 2017-08-09 2021-12-07 에스케이텔레콤 주식회사 음성 인식 방법 및 이에 사용되는 장치
CN108447502A (zh) * 2018-03-09 2018-08-24 福州米鱼信息科技有限公司 一种基于语音信息的备忘方法及终端
CN108447502B (zh) * 2018-03-09 2020-09-22 福州米鱼信息科技有限公司 一种基于语音信息的备忘方法及终端
CN110956978A (zh) * 2019-11-19 2020-04-03 广东工业大学 一种基于欠定卷积混叠模型的稀疏盲分离方法
CN113470688A (zh) * 2021-07-23 2021-10-01 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质
CN113470688B (zh) * 2021-07-23 2024-01-23 平安科技(深圳)有限公司 语音数据的分离方法、装置、设备及存储介质

Also Published As

Publication number Publication date
KR101043114B1 (ko) 2011-06-20

Similar Documents

Publication Publication Date Title
US20210089967A1 (en) Data training in multi-sensor setups
CN101385386B (zh) 混响除去装置和混响除去方法
CN112116920B (zh) 一种说话人数未知的多通道语音分离方法
US8391505B2 (en) Reverberation suppressing apparatus and reverberation suppressing method
Ravanelli et al. Realistic multi-microphone data simulation for distant speech recognition
Moore et al. Speech enhancement for robust automatic speech recognition: Evaluation using a baseline system and instrumental measures
Zhao et al. Noisy-Reverberant Speech Enhancement Using DenseUNet with Time-Frequency Attention.
KR101043114B1 (ko) 소리의 복원 방법, 소리의 복원 방법을 기록한 기록매체 및 소리의 복원 방법을 수행하는 장치
EP4356375B1 (en) Method and system for reverberation modeling of speech signals
EP4260315B1 (en) Method and system for dereverberation of speech signals
Ick et al. Blind acoustic room parameter estimation using phase features
Opochinsky et al. Single-microphone speaker separation and voice activity detection in noisy and reverberant environments
Chen et al. A dual-stream deep attractor network with multi-domain learning for speech dereverberation and separation
Lluís et al. Direction specific ambisonics source separation with end-to-end deep learning
US20230306980A1 (en) Method and System for Audio Signal Enhancement with Reduced Latency
Gonzalez et al. Investigating the Design Space of Diffusion Models for Speech Enhancement
Arberet et al. A tractable framework for estimating and combining spectral source models for audio source separation
Pandey et al. Time-domain ad-hoc array speech enhancement using a triple-path network
US20230178091A1 (en) Wpe-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network
Guzewich et al. Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement.
Ma et al. Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion
Gonzalez et al. The Effect of Training Dataset Size on Discriminative and Diffusion-Based Speech Enhancement Systems
Johnson et al. Latent gaussian activity propagation: using smoothness and structure to separate and localize sounds in large noisy environments
Zhao Deep learning methods for reverberant and noisy speech enhancement
Astapov et al. Acoustic event mixing to multichannel AMI data for distant speech recognition and acoustic event classification benchmarking

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee