KR101022457B1 - Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 - Google Patents

Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 Download PDF

Info

Publication number
KR101022457B1
KR101022457B1 KR1020090048947A KR20090048947A KR101022457B1 KR 101022457 B1 KR101022457 B1 KR 101022457B1 KR 1020090048947 A KR1020090048947 A KR 1020090048947A KR 20090048947 A KR20090048947 A KR 20090048947A KR 101022457 B1 KR101022457 B1 KR 101022457B1
Authority
KR
South Korea
Prior art keywords
signal
casa
soft mask
voice
speech
Prior art date
Application number
KR1020090048947A
Other languages
English (en)
Other versions
KR20100130328A (ko
Inventor
권오욱
이윤경
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to KR1020090048947A priority Critical patent/KR101022457B1/ko
Publication of KR20100130328A publication Critical patent/KR20100130328A/ko
Application granted granted Critical
Publication of KR101022457B1 publication Critical patent/KR101022457B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

CASA(Computational Auditory Scene analysis) 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법이 제공된다. 본 발명의 일 실시예에 따른 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법은, 단일채널 음성분리 방법에 있어서, 화자에 대한 데이터가 없는 혼합된 음성신호를 CASA(Computational Auditory Scene analysis)를 이용하여 음성신호로 추정되는 신호와 잡음신호로 추정되는 신호로 음원을 분리하는 단계; 및 상기 음성신호로 추정되는 신호와 잡음신호로 추정되는 신호를 화자에 대한 데이터로 하여 학습시키고, 이를 소프트 마스크에 적용하여 음원을 분리하는 단계를 포함한다.
전산 청각 장면 분석(CASA), 소프트 마스크(soft mask), 레이블링, 거리함수, 멜-스케일 필터

Description

CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법{Method to combine CASA and soft mask for single-channel speech separation}
본 발명은 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법에 관한 것으로, 더욱 상세하게는, CASA(Computational Auditory Scene analysis)와 소프트 마스크를 연동하여 단일 채널에서 동작하는 화자 독립 음성 분리 시스템을 구현함으로써, 손실된 음성과 음성의 분리 과정에서 발생하는 비연속적인 경우를 보완하도록 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법에 관한 것이다.
최근 음성인식과 컴퓨터 관련 기술의 발전으로 관련 시장이 커지고 있으며, 음성 인식을 이용한 휴대폰 음성 다이얼링, 지능형 로봇, 잠금장치 등이 보편화되고 있다. 대부분의 음성 인식 시스템들은 주변 잡음이 없거나 무시할 수 있을 정도인 경우에는 높은 성능을 보이지만, 주변 잡음을 포함하거나 반향에 의한 음이 존재하는 경우 음성인식의 성능이 급격히 낮아지게 된다.
그러나 음성 인식 시스템이 실제로 사용되는 환경은 여러 가지 잡음을 포함 하고 있는 경우가 대부분이기 때문에, 음성정보 처리의 실용화를 위해서는 독립적인 여러 개의 음원이 동시에 제시될 때 원하는 음성신호만을 추출할 수 있는 즉, 잡음 요인의 제거 또는 잡음의 영향을 경감시키는 기술이 무엇보다 중요하다고 할 수 있다.
이를 위해, 최근에는 배경잡음과 여러 가지 동적인 잡음이 존재하는 환경에서의 강인한 음성인식을 위하여 이와 같은 음성분리 기술을 응용하고자 하는 연구가 활발히 진행되고 있다.
잡음 신호를 제거하기 위한 접근 방법인 음성신호 분리 기술로는, 하나의 마이크로부터 입력된 음성신호를 이용하여 음성을 분리하는 단일 채널 음성 분리 기술(Single-channel speech separation)과, 두 개의 마이크로부터 음성신호를 입력받아 사용하는 2채널 음성 분리 기술(Stereo-channel speech separation)이 있다.
여기서, 단일채널 음성분리 기술에는 전산 청각 장면 분석(CASA : Computational Auditory Scene analysis), 소프트 마스크(Soft Mask) 및 최소평균자승오류(MMSE : Minimum-mean-squared error)가 있다.
CASA는 귀에 도달한 혼합 음성 신호로부터 사람의 청각 특성을 이용하여 동일 음원으로부터 발생한 음향요소들을 찾아내는 방법으로, 음성 신호를 분리하는 기술이다.
이러한 CASA를 음성인식 전처리에 적용하여 음성 인식률의 향상에 응용한 연구 사례로는 Runqiang과 Srinivasan 등의 연구가 있다.
Runqiang의 알고리즘은, 청각 특징과 피치 궤적을 이용하여 음성과 잡음 신 호를 분리한 후, 스펙트럼에서의 음성 손실을 특징에 기초한 클러스터의 방법을 사용하여 보완한 후, 음성 인식을 수행하도록 하는 방법이며, Srinivasan의 알고리즘은 동시 그루핑(Simultaneous grouping)과 순차 그루핑(sequential grouping)의 두 단계로 구성되어 유성음은 각 과정의 주기 정보를 이용하여 분리하고, 무성음은 온셋/오프셋 정보를 이용하여 분리하도록 한다.
한편, 소프트 마스크와 최소평균자승오류는 통계적 모델링 기반의 음성분리 기술로, 여기서 소프트 마스크는 입력된 혼합신호가 원하는 신호일 확률을 계산하여 음성 신호를 추정하는 방법이고, 최소평균자승오류는 음성 분리 과정을 거쳐 추출된 음성신호와 원하는 음성신호간의 평균자승오류(MSE: mean squre error)를 최소화하도록 음성 분리 시스템을 모델링하는 방법이다.
참고로, 추출된 음성 신호를 추출된 음성 신호를 Y, 원하는 음성 신호를 X라고 가정하면, 최소평균자승오류를 사용하여 추정된 음성신호는 아래의 수학식 1과 같이 나타낼 수 있다.
[수학식 1]
Figure 112009033539635-pat00001
여기서, 평균제곱오차가 최소가 되는 경우는 혼합 음성 신호로부터 음성 분리를 수행하여 얻어진 추출 음성 신호가 원하는 음성신호 xd일 때이므로, 혼합 음성 신호의 로그 스펙트럼 벡터 z가 주어졌을 때 원하는 음성신호의 로그 스펙트럼 벡터 xd일 확률의 조건부 기댓값을 이용하여 원하는 음성신호에 가장 가까운 음성 신호를 추정하게 된다. 이때, 조건부 기댓값을 이용한 최소평균자승오류는 아래의 [수학식 2]와 같다.
[수학식 2]
Figure 112009033539635-pat00002
그러나, CASA를 사용한 음성 분리 방법들은 음성분리를 수행하는 과정에서 신호의 끊어짐으로 인한 음성신호의 손실과, 특히, 주기성을 갖지 않는 무성음의 손실이 빈번히 발생하게 된다.
또한, CASA는 피치 궤적에 따라 입력 신호를 잡음, 음성신호의 그룹으로 분리하기 때문에 손실된 음성신호가 많을수록 피치 궤적을 구하기가 어려워 음성분리의 성능이 저하되는 경우가 종종 발생하게 된다는 문제점이 있다.
뿐만 아니라, CASA는 음원 분리 마스크로 0 또는 1의 둘 중 하나로 결정하는 이진 마스크(Binary mask)를 사용하기 때문에 음성인식의 정확도와 성능이 저하된다는 문제점도 있다.
이 외에도 CASA는 동적인 잡음 또는 복잡한 잡음 환경에서 성능이 우수하기는 하나, 음성학적 지식과 휴리스틱이 요구된다는 단점이 있다.
한편, 소프트 마스크 및 최소평균자승오류와 같은 통계적 모델링 기반의 음성분리 기술은 별도의 음성학적 지식이 요구되지 않는다는 장점이 있으나, 단순한 통계적 결과에 의한 분리이기 때문에 인접한 음성 신호임에도 불구하고 다른 신호로 분리되는 비연속적인 경우가 종종 발생하게 된다는 문제점이 있다.
또한, 학습 음성 데이터가 많을수록 음성의 특성이 뭉뚱그려져 음성 분리의 성능이 떨어지는 원인이 되기도 한다는 단점도 있다.
이 외에도 이러한 종래 음성 분리 시스템들은 입력 음성신호가 혼합 음성이 아닌 클린(clean)음인 경우에도, 음성 분리 과정을 거치게 됨에 따라 불가피하게 음성의 손실이 발생하게 됨에 따라, 음원 분리를 수행하기 전의 신호보다 오히려 음성신호가 많이 손실되어 음성 인식률이 저하된다는 문제점이 제기되고 있는 실정이다.
본 발명이 이루고자 하는 기술적 과제는, CASA(Computational Auditory Scene analysis)와 소프트 마스크를 연동하여 단일 채널에서 동작하는 화자 독립 음성 분리 시스템을 구현함으로써, 손실된 음성과 음성의 분리 과정에서 발생하는 비연속적인 경우를 보완하며, 음성학적 지식을 요구하지 않도록 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법을 제공하는 것이다.
또한, 본 발명의 목적은, 음성을 분리하기 전, 각 채널별로 신호 대 잡음비(SNR)를 추정하고, 이에 따른 음원 분리 마스크를 적용함으로써 깨끗한(clean) 입력신호에서 발생하는 음성의 손실을 보완하도록 하는 것에 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법은, 단일채널 음성분리 방법에 있어서, 화자에 대한 데이터가 없는 혼합된 음성신호를 CASA(Computational Auditory Scene analysis)를 이용하여 음성신호로 추정되는 신호와 잡음신호로 추 정되는 신호로 음원을 분리하는 단계; 및 상기 음성신호로 추정되는 신호와 잡음신호로 추정되는 신호를 화자에 대한 데이터로 하여 학습시키고, 이를 소프트 마스크에 적용하여 음원을 분리하는 단계를 포함한다.
본 발명의 일 실시예에 따른 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법은, 상기 음원을 분리하기 전에 입력된 음성신호의 신호 대 잡음비(SNR)
Figure 112009033539635-pat00003
를 추정하는 단계; 상기 CASA 및 소프트 마스크에 의해 분리된 음성신호의 신호 대 잡음비(SNR)
Figure 112009033539635-pat00004
를 구하는 단계; 및 상기 신호 대 잡음비(SNR)
Figure 112009033539635-pat00005
Figure 112009033539635-pat00006
를 비교, 조합하는 단계를 더 포함한다.
이때, 신호 대 잡음비(SNR)
Figure 112009033539635-pat00007
Figure 112009033539635-pat00008
의 조합
Figure 112009033539635-pat00009
은, 하기의 [수학식 10]을 만족하는 것을 특징으로 한다.
[수학식 10]
Figure 112009033539635-pat00010
(여기서,
Figure 112009033539635-pat00011
는 음원을 분리하기 전 추정한 신호 대 잡음비에 따라 소프트 마스크를 적용하여 얻은 음성신호이고,
Figure 112009033539635-pat00012
는 CASA 및 소프트 마스크 연동 알고리즘을 사용하여 분리된 음성신호이다.)
한편, CASA를 이용하여 음원을 분리하는 단계는, 레이블링과 거리함수를 이용하여 각 청각요소의 수와 두께 정보 및 청각 요소 그룹이 위치한 주파수 대역의 정보를 계산하는 과정을 포함하는 것을 특징으로 한다.
이때, 각 청각요소의 수와 두께 정보가 임계값을 초과하는 청각 요소 그룹은 음성신호의 주요 부분으로 분리하여 계산하고, 상기 음성신호의 주요 부분으로 계산된 청각 요소 그룹에서, 사람의 음성 주파수 대역보다 높은 고주파수 대역에 위치하는 그룹은 잡음신호로 간주하여 그 결과를 배제하는 것을 특징으로 한다.
또한, 소프트마스크는 시간-주파수 축에 마스크를 적용하여 음성신호의 특징을 반영하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 상기 소프트 마스크로 음원을 분리하는 단계에서는, 필터 폭이 사람의 달팽이관을 본 뜬 멜-스케일로 조정된 멜-스케일 필터를 스무딩 필터로 적용하여 클러스터링 하는 것을 특징으로 한다.
상기와 같은 본 발명의 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법에 따르면, 손실된 음성과 음성의 분리 과정에서 발생하는 비연속적인 경우를 보완할 수 있다는 장점이 있다.
또한, 음성학적 지식이 요구되지 않는다는 장점이 있다.
또한, 음성을 분리하기 전, 각 채널별로 신호 대 잡음비(SNR)을 추정하여 이에 따른 음원 분리 마스크를 적용함으로써 깨끗한 입력신호에서 발생하는 음성의 손실을 보완할 수 있다는 등의 추가적인 장점도 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있을 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것으로, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명은 CASA와 소프트 마스크를 연동하여 음원을 분리하는 것으로, 보다 상세하게는, 화자에 대한 데이터가 없는 혼합 신호를 CASA를 이용하여 1차적으로 음원을 분리하고, 분리된 음원 즉, 음성신호(음성신호로 추정된 신호)와 잡음신호(잡음신호로 추정된 신호)를 화자에 대한 데이터로 하여 학습시킨 후, 이를 이용하여 소프트 마스크를 적용하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1과 도 2는 본 발명의 일 실시예에 따른 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법을 나타낸 흐름도이다.
도 1과 도 2를 참조하면, 본 발명의 일 실시예에 따른 CASA 및 소프트 마스 크 알고리즘을 이용한 단일채널 음성 분리방법은, 음원 분리 전 입력 음성 신호의 신호 대 잡음비(SNR)를 추정하는 단계(S110), CASA을 이용하여 1차적으로 음성 신호를 분리하는 단계(S120), 소프트 마스크를 이용하여 2차적으로 음성 신호를 분리하는 단계(S130), 음원 분리 후 음성 신호의 신호 대 잡음비(SNR)를 구하는 단계(S140) 및 신호 대 잡음비를 비교 및 조합하는 단계(S150)를 포함한다.
입력 음성 신호의 신호 대 잡음비(SNR)를 추정하는 단계(S110)는, 음성 분리 과정을 거치기 전, 입력 신호로부터 각 채널별로 신호 대 잡음비(SNR)를 추정하는 것으로, 상기 추정된 신호 대 잡음비(SNR)에 따라 소프트 마스크가 적용된다.
CASA를 이용한 1차 음원 분리 단계(S120)에서는, 화자에 대한 데이터 없이 입력된 혼합신호만을 가지고 음원을 분리할 수 있는데, 이때, 분리된 음원은 음성신호(음성신호로 추정되는 신호)와 잡음신호(잡음신호로 추정되는 신호)로 구분된다.
여기서, CASA(Computational Auditory Scene analysis; 전산청각장면분석)는 음성 신호를 분리하는 기술로써, 귀에 도달한 혼합 음성 신호로부터 사람의 청각 특성을 이용하여 동일 음원으로부터 발생한 음향요소들을 찾아낼 수 있다.
본 발명에 적용되는 CASA 기반 음성 분리 알고리즘은 세 단계로 이루어진다.
첫 번째 단계는, 청각의 바깥둘레인 사람의 귀(외이, 중이), 달팽이관 및 신경의 특징을 필터뱅크와 내유모세포(inner hair cell)의 출력으로 모델링한다(S121).
이어, 두 번째 단계에서 청각 신경의 주기 정보, 주파수 전달 특징, 온셋/오 프셋 정보를 추출하고(S123), 마지막으로 세 번째 단계에서는, 추출된 청각 특징들을 이용하여 청각 신호를 상징적으로 묘사하고, 피치 궤적을 이용하여 혼합 음성 신호로부터 잡음과 음성 신호 그룹으로 분리하는 과정을 수행한다(S125).
이때, 분리된 음성 신호 그룹은 청취 또는 음성인식기의 입력 용도를 위하여 시간영역 파형으로 재합성되는 것이 바람직하다.
소프트 마스크를 이용한 2차 음원 분리 단계(S130)는, CASA을 이용한 1차 음원 분리 단계(S120)에서 분리된 음원 즉, 음성신호와 잡음신호를 화자에 대한 데이터로 하여 상기 신호들을 학습시키고, 이후 이에 대응하는 소프트 마스크를 적용하도록 하는 것을 특징으로 한다.
이때, 소프트마스크는 시간-주파수 축에 마스크를 적용하여 음성신호의 특성을 반영하도록 하는 것이 바람직하다.
소프트 마스크는 화자에 대한 데이터가 있을 때, 화자의 데이터를 학습시킨 후, 이를 이용하여 입력된 혼합 신호가 원하는 화자(x)일 확률을 계산하여 음원을 분리하는 방법으로, 보다 자세하게는 통계적 모델링 기반의 음성분리 기술로써 입력된 혼합신호가 원하는 신호일 확률을 계산하는 과정과, 상기 계산된 확률 값을 혼합신호에 곱하는 과정을 통해 원하는 음성 신호를 추정하는 과정을 포함한다.
예컨대, 하나의 마이크를 통해 얻어진 화자 Sx, Sy의 입력 음성신호를 각각 x(t), y(t)라고 할 때, 혼합 음성신호 z(t)는 두 입력 음성신호의 합으로 얻어지며, 이는 하기의 수학식 3과 같다.
[수학식 3]
Figure 112009033539635-pat00013
여기서 x(t)와 y(t)는 서로 독립적인 신호라고 가정하며, 각각의 로그 파워 스펙트럼을 x(w), y(w)라고 하면, 혼합 음성신호의 로그 스펙트럼은 수학식 4를 통해 근사화시킬 수 있다.
[수학식 4]
Figure 112009033539635-pat00014
여기서, 혼합 음성신호의 로그 스펙트럼 벡터는, 입력 음성신호의 로그 스펙트럼 벡터 x, y중 큰 값을 가지는 로그 스펙트럼과 유사한 값을 가지므로, 상기 수학식 4에서 정의한 로그-최대 근사 법에 따라 혼합 음성신호의 로그스펙트럼 벡터가 원하는 음성신호 x일 확률은 x의 로그 스펙트럼 값이 y의 로그 스펙트럼 값 보다 클 확률인 것으로 계산하면 된다.
즉, 혼합 음성신호 z의 d번째 차수의 로그 스펙트럼 값 zd가 xd일 확률은 의 값이 yd보다 클 확률로 계산되며, 이는 수학식 5와 같이 나타낼 수 있다.
[수학식 5]
Figure 112009033539635-pat00015
이때, 상기 수학식 5에서 구한 확률 값을 가중치로 하여 혼합 신호의 로그 스펙트럼에 적용하면, 원하는 신호의 로그 스펙트럼 벡터의 추출 및 음성 신호의 추정이 가능하다.
이어, 음원 분리된 음성신호의 신호 대 잡음비(SNR)를 구하고(S140), 이를 입력
Figure 112009033539635-pat00016
음성 신호에 대해 음성 분리를 수행하기 전에 추정한 신호 대 잡음비(SNR)와 비교 및 조합한다(S150).
신호 대 잡음비를 비교 및 조합하는 단계(S150)는, 전술한 바와 같이, 음원 분리 전/후의 신호 대 잡음비(SNR)를 비교 및 조합하는 것으로, 음원 분리 전의 신호 대 잡음비(SNR)와 소프트 마스크에 의해 음원 분리를 마친 음성신호의 신호 대 잡음비(SNR)를 비교, 조합하여 음성신호를 보완하되, 특히, 입력 음성신호가 클린(Clean)음일 때 발생하는 음성 손실을 보완하도록 한다.
한편, 본 발명의 CASA 알고리즘은 기존의 CASA 알고리즘에 영상처리의 형태 분석의 기술의 하나인 레이블링(Labeling)과 거리함수(Distance function)를 이용하여 음성 분리 과정에서 손실된 음성을 보완하고, 음성의 주요 부분이라고 판단되는 청각 요소(element)를 입력 신호로부터 추출하여 이를 조합하는 단계를 추가로 포함할 수 있다.
이때, 음성의 주요 부분으로 판단되는 청각 요소는 각 청각 요소 그룹의 수와 두께 정보, 주파수 정보를 이용하여 계산하게 된다.
여기서, 레이블링은 각각의 청각요소그룹을 따로 떼어서 구분하고 사용할 수 있도록 순서대로 번호를 붙이는 것으로, 본 발명은 이와 같은 레이블링을 이용하여 청각 요소의 각 그룹의 청각 요소의 총 수와 청각 요소 그룹이 위치하고 있는 주파수 대역을 구할 수 있도록 한다.
거리함수는 각 청각 요소 그룹의 두께 정보를 계산하는 것으로, 청각 요소가 바깥쪽으로부터 어느 정도의 거리에 있는지를 나타내는 데 사용된다. 여기서 청각 요소 그룹은, 입력 음성신호의 자기상관함수에서 인접한 채널간의 유사도에 따라 계산되기 때문에, 음성이 존재하는 구간일수록 청각요소그룹은 두껍고, 넓은 대역에 걸쳐 나타나게 된다.
따라서, 레이블링과 거리함수를 이용하여 계산된 각 청각 요소의 수와 두께 정보 및 위치한 주파수 대역의 정보를 이용하여 음성신호의 주요 부분을 계산하게 된다. 이때, 충분한 수와 충분한 두께를 가지고 있는 청각 요소 그룹을 음성신호의 주요 부분으로 계산한다.
한편, 상기의 과정에서 계산된 음성신호의 그룹(음성신호의 주요 부분으로 계산된 청각 요소 그룹)이 음성신호에 비해 고주파수 대역에 위치한 경우에는 그 결과를 배제하도록 하여, 잡음신호임에도 불구하고 음성신호로 잘못 계산되는 경우를 보완하도록 한다.
도 4는 음성의 주요 부분을 입력 신호로부터 계산하는 과정을 나타낸 흐름도이다.
도 4를 참조하면, 본 발명의 레이블링은 교차상관 지도의 출력이 입력되었을 때, 각 청각 요소에 대한 분리 사용 및 구분이 용이할 수 있도록 순서대로 번호를 부여하는 기능을 수행한다.
여기서, 비중치 정보와 주파수 정보는 청각 요소 별로 총 수와 위치하고 있는 주파수 대역을 구함으로써 확인할 수 있다.
이하, 레이블링을 구하는 방법을 설명한다.
우선, 교차상관 지도의 모든 청각요소를 순서대로 읽으면서 레이블링 되지 않은 청각 요소를 찾는다. 이 때, ‘visited elements'를 체크하게 되는데, 이는 레이블링 되었거나 혹은 검사를 수행한 청각 요소를 건너뛰도록 하고, 다음 청각 요소를 검사하도록 하기 위함이다.
이어, 검색된 청각 요소와 연결된 청각 요소들을 같은 번호로 레이블링하는 단계를 수행한다. 이때, 현재 위치의 청각 요소를 기준으로 하여 3×3 마스크를 씌웠을 때, 주위에 청각 요소가 있으면 같은 그룹으로 판단하여 연결된 청각 요소를 구하도록 하고, 이러한 과정은 모든 그룹이 찾아질 때까지 반복한다.
이때, 연결된 모든 청각 요소들을 찾고, 이에 대한 레이블링이 완료되었다면 청각 요소를 찾는 과정을 종료한다.
다음, 레이블링의 숫자 정보는 1만큼 증가시키고, 다시 최초 단계로 돌아가 상기 과정들을 반복 수행하도록 한다.
도 5는 5개의 레이블링 그룹을 나타낸 예시도이다.
도 5를 참조하면, 본 발명은 거리 함수를 이용하여 각 청각 요소 그룹의 두께 정보를 알아낼 수 있다. 즉, 거리함수는 청각 요소 그룹이 바깥쪽으로부터 어느 정도의 거리가 있는지를 계산하는 데 사용된다.
거리 함수는, 검출된 청각 요소에 3×3 마스크를 씌웠을 때, 마스크 안에 청각 요소가 모두 존재하고, 모든 청각 요소가 동일한 두께 값을 가지고 있는 경우에는 두께 정보를 1만큼 증가시키고, 그렇지 않은 경우에는 현재의 두께 정보를 그대로 유지하도록 한다. 이러한 과정을 최대 거리의 정보가 더 이상 변하지 않을 때까지 반복한다.
예컨대, 본 발명은 바깥쪽으로부터의 거리는 각 그룹에서 다음과 같이 표현할 수 있다.
0 : 배경(비활성 요소)
1 : 모서리 청각 요소
2 : 거리 1인 청각 요소(모서리 청각 요소)에 인접한 청각 요소
3 : 거리 2인 청각 요소에 인접한 청각 요소
도 6은 첫 번째 그룹의 최대 거리가 3인 거리 함수를 나타낸 예시도이다.
도 6을 참조하면, 음성신호의 주요 부분은 본 발명의 레이블링과 거리 함수를 이용하여 계산된 각 청각 요소의 수와 두께 정보를 통해 계산될 수 있다. 즉, 충분한 수와 두께를 갖는 청각 요소는 분리(추출)하여, 음성신호의 주요 부분으로 계산한다.
이때, 본 발명은 계산된 그룹이 음성의 주파수에 비해 고주파수 대역에 위치하면 그 결과를 배제하도록 함으로써, 잡음이 음성신호의 주요 부분으로 잘못 계산되는 것을 방지할 수 있다.
그런 다음, 최종적으로 음성신호의 주요 부분을 계산하고, 청각 요소 지도를 계산된 결과와 논리합(OR) 연산을 사용하여 보완하는 과정을 수행한다.
한편, 본 발명의 실시예에 따르면, 청각 요소의 수의 임계값은 100으로 하고, 두께 정보의 임계값은 3, 그리고 주파수 채널은 약 700Hz에 해당하는 50채널 이상의 주파수 대역을 고주파수 대역으로 적용하는 것이 가장 바람직할 수 있다.
도 7은 입력된 음성신호의 청각요소와 계산된 음성신호의 주요부분을 나타낸 그래프이고, 도 8은 음성신호가 손실되어 출력된 청각 요소와 음성신호를 보완한 청각 요소의 출력을 나타낸 그래프이다.
본 발명은 CASA 기반 음성 분리 알고리즘을 통해 1차 분리된 결과를 학습하여 소프트 마스크를 적용하는 것을 특징으로 한다.
이때, 시간-주파수 영역에서의 연속성을 높이기 위해 멜-스케일 필터를 스무딩 필터로 적용한 후 클러스터링을 수행하는 것이 바람직하다.
이때, 멜-스케일 필터는, 필터 폭을 사람의 달팽이관을 본 뜬 멜-스케일로 조정함으로써 사람의 청각 신경 특징을 적용한다.
이와 같이, 본 발명의 멜-스케일 필터는 청각 특징에 맞추어 음성 분리를 수 행하므로, 분리된 결과를 청취하였을 때 그 결과가 더 좋아질 수 있다는 이점이 있다.
여기서, 멜-스케일로 조정된 로그 스펙트럼 벡터의 채널을 mel (d)라 하면, mel (d)는 하기의 [수학식 6]과 같다.
[수학식 6]
Figure 112009033539635-pat00017
본 발명의 실시예에 따르면, 257차원을 가진 로그 스펙트럼 벡터에 멜-스케일 필터를 사용하여 스무딩을 적용하게 되면, 멜-스케일 필터의 각 필터 밴드 당 1개씩 계수로 계산되어 전체적으로는 63개의 계수로 계산된다.
이때, 스무딩은 멜-스케일 필터의 필터 폭 안에 속하는 로그 스펙트럼 벡터들의 평균으로 계산된다.
로그 스펙트럼 벡터 x, z에 멜-스케일 필터를 이용하여 스무딩을 적용한 후 계산된 63차원의 특징 벡터를 각각
Figure 112009033539635-pat00018
,
Figure 112009033539635-pat00019
라 하면 혼합 음성 신호의 로그 스펙트럼 벡터 zd가 xd일 확률은 수학식 7과 같다.
[수학식 7]
Figure 112009033539635-pat00020
멜-스케일 필터를 사용하여 스무딩을 적용한 로그 스펙트럼 벡터의 차원은 스무딩을 적용하기 전의 로그 스펙트럼 벡터의 차원에 비하여 줄어든다. 따라서 멜-스케일 필터를 적용하여 분리한 음성을 복원하기 위해, 계산된 소프트 마스크 값을 멜-스케일 필터들의 가중치에 따라 로그 스펙트럼 영역에서 분포시키게 된다.
한편, 종래 기술의 문제점에서도 언급했다시피, 음성 분리 시스템은 입력 음성신호가 깨끗한 경우에도 음성 분리 과정을 수행하기 때문에 음성의 손실이 불가피하게 발생한다. 이에 따라, 음성 분리 과정을 거치기 전에 비해 오히려 음성 인식률이 저하된다는 문제점이 발생하게 된다.
따라서, 본 발명은 상기와 같은 문제점을 해소하고자, 음성 분리 과정을 거치기 전, 입력신호로부터 신호 대 잡음비(SNR)를 추정하고, 이를 음성 분리 과정을 거쳐 분리된 음성신호의 신호 대 잡음비(SNR)와 비교 및 조합한 다음, 소프트 마스크를 적용함으로써 깨끗한 입력 신호에서 발생하는 음성의 손실을 보완할 수가 있다.
먼저, 본 발명의 입력신호로부터의 신호 대 잡음비(SNR) 추정 방법은 아래의 수학식 8과 같다.
[수학식 8]
Figure 112009033539635-pat00021
여기서
Figure 112009033539635-pat00022
Figure 112009033539635-pat00023
는 각각 음성과 잡음의 분산 추정치를 나타낸다.
그리고, 음성분리 과정을 거쳐 추출된 음성신호의 음성과 잡음의 주파수 신호를 각각 Sk(t), Nk(t)라고 하면, 이에 대한 신호 대 잡음비(SNR)는 아래의 수학식 9와 같이 나타낼 수 있다.
[수학식 9]
Figure 112009033539635-pat00024
마지막으로, 입력 신호로부터 추정한 신호 대 잡음비(SNR)와 음성분리 과정을 거쳐 계산한 신호 대 잡음비(SNR)의 조합은 가중치 합으로 구할 수 있는데, 이는 아래의 수학식 10과 같다.
[수학식 10]
Figure 112009033539635-pat00025
여기서,
Figure 112009033539635-pat00026
는 입력신호로부터 추정한 신호 대 잡음비(SNR)에 따라 소프트 마스크를 적용하여 얻은 음성 신호를 나타낸다.
상기와 같은 구성을 통해, 본 발명은 화자에 대한 데이터 정보 없이 입력 신 호로부터 음성을 분리할 수 있으며, 연동 가능한 CASA와 소프트 마스크를 적용함으로써, 음성을 분리하는 과정에서 발생하는 음성의 손실과 추정된 음성의 비연속적인 경우를 보완할 수 있다.
이처럼, 본 발명은 음성 인식률을 향상시킴으로써, 향후 음성인식기의 성능을 개선시킬 수 있다는 이점을 제공하게 된다. 가령, 본 발명의 음성 분리방법은, 홈 네트워크 환경에서의 음성 명령 인식, 휴대폰 음성 다이얼링, 네비게이션 등의 텔레매틱스 서비스의 주소/지명 인식, 지능로봇의 음성 인터페이스의 잡음제거 모듈 개발 등에 활용될 수 있을 것이다.
이상, 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해되어야만 한다.
도 1과 도 2는 본 발명의 일 실시예에 따른 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법을 나타낸 흐름도이다.
도 3은 본 발명의 CASA 기반 음성 분리 알고리즘을 나타낸 흐름도이다.
도 4는 음성의 주요 부분을 입력 신호로부터 계산하는 과정을 나타낸 흐름도이다.
도 5는 5개의 레이블링 그룹을 가지는 예시도이다.
도 6은 첫 번째 그룹의 최대 거리가 3인 거리 함수의 예시도이다.
도 7은 입력된 음성신호의 청각요소와 계산된 음성신호의 주요부분을 나타낸 그래프이다.
도 8은 음성신호가 손실되어 출력된 청각 요소와 음성신호를 보완한 청각요소의 출력을 나타낸 그래프이다.
도 9는 멜-스케일 필터에 의한 일 예를 나타낸 그래프이다.

Claims (8)

  1. 단일채널 음성분리 방법에 있어서,
    화자에 대한 데이터가 없는 혼합된 음성신호를 CASA(Computational Auditory Scene analysis)를 이용하여 음성신호로 추정되는 신호와 잡음신호로 추정되는 신호로 음원을 분리하는 단계; 및
    상기 음성신호로 추정되는 신호와 잡음신호로 추정되는 신호를 화자에 대한 데이터로 하여 학습시키고, 이를 소프트 마스크에 적용하여 음원을 분리하는 단계를 포함하며,
    상기 음원을 분리하기 전에 입력된 음성신호의 신호 대 잡음비(SNR)
    Figure 112010076329518-pat00027
    를 추정하는 단계;
    상기 CASA 및 소프트 마스크에 의해 분리된 음성신호의 신호 대 잡음비(SNR)
    Figure 112010076329518-pat00028
    를 구하는 단계; 및
    상기 신호 대 잡음비(SNR)
    Figure 112010076329518-pat00029
    Figure 112010076329518-pat00030
    를 비교, 조합하는 단계
    를 포함하는 것을 특징으로 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 CASA를 이용하여 음원을 분리하는 단계는,
    레이블링과 거리함수를 이용하여 각 청각요소의 수와 두께 정보 및 청각 요소 그룹이 위치한 주파수 대역의 정보를 계산하는 과정을 포함하는 것을 특징으로 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법.
  4. 제 3 항에 있어서,
    상기 각 청각요소의 수와 두께 정보가 임계값을 초과하는 청각 요소 그룹은 음성신호의 주요 부분으로 분리하여 계산되는 것을 특징으로 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법.
  5. 제 4 항에 있어서,
    상기 음성신호의 주요 부분으로 계산된 청각 요소 그룹에서, 사람의 음성 주파수 대역보다 높은 고주파수 대역에 위치하는 그룹은, 잡음신호로 간주하고 그 결과를 배제하는 것을 특징으로 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법.
  6. 제 1 항에 있어서,
    상기 소프트마스크는 시간-주파수 축에 마스크를 적용하여 음성신호의 특징을 반영하는 것을 특징으로 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법.
  7. 제 1 항에 있어서,
    상기 소프트 마스크로 음원을 분리하는 단계에서는,
    필터 폭이 사람의 달팽이관을 본 뜬 멜-스케일로 조정된 멜-스케일 필터를 스무딩 필터로 적용하여 클러스터링 하는 것을 특징으로 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법.
  8. 제 1 항에 있어서,
    상기 신호 대 잡음비(SNR)
    Figure 112010076329518-pat00031
    Figure 112010076329518-pat00032
    의 조합
    Figure 112010076329518-pat00033
    은, 하기의 [수학식 10]을 만족하는 것을 특징으로 하는 CASA 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법.
    [수학식 10]
    Figure 112010076329518-pat00034
    (여기서,
    Figure 112010076329518-pat00035
    는 음원을 분리하기 전 추정한 신호 대 잡음비에 따라 소프트 마스크를 적용하여 얻은 음성신호이고,
    Figure 112010076329518-pat00036
    는 CASA 및 소프트 마스크 연동 알고리즘을 사용하여 분리된 음성신호이다.)
KR1020090048947A 2009-06-03 2009-06-03 Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법 KR101022457B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090048947A KR101022457B1 (ko) 2009-06-03 2009-06-03 Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090048947A KR101022457B1 (ko) 2009-06-03 2009-06-03 Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법

Publications (2)

Publication Number Publication Date
KR20100130328A KR20100130328A (ko) 2010-12-13
KR101022457B1 true KR101022457B1 (ko) 2011-03-15

Family

ID=43506664

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090048947A KR101022457B1 (ko) 2009-06-03 2009-06-03 Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법

Country Status (1)

Country Link
KR (1) KR101022457B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171257A1 (en) * 2017-03-21 2018-09-27 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for speech information processing

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321810A (zh) * 2019-06-14 2019-10-11 华南师范大学 单通道信号双路分离方法、装置、存储介质及处理器

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
이윤경, 권오욱, "CASA 기반 음성분리 성능 향상을 위한 형태 분석 기술의 응용", 대한음성학회, 말소리 제65호, pp.153-168, 2008.03*
이윤경, 권오욱, "시간-주파수 스무딩이 적용된 소프트 마스크 필터를 이용한 단일 채널 음성 분리", 대한음성학회, 말소리 제67호, pp.195-216, 2008.09*

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018171257A1 (en) * 2017-03-21 2018-09-27 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for speech information processing
CN109074803A (zh) * 2017-03-21 2018-12-21 北京嘀嘀无限科技发展有限公司 语音信息处理系统和方法
CN109074803B (zh) * 2017-03-21 2022-10-18 北京嘀嘀无限科技发展有限公司 语音信息处理系统和方法

Also Published As

Publication number Publication date
KR20100130328A (ko) 2010-12-13

Similar Documents

Publication Publication Date Title
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
US9558755B1 (en) Noise suppression assisted automatic speech recognition
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
KR101726737B1 (ko) 다채널 음원 분리 장치 및 그 방법
US20060053002A1 (en) System and method for speech processing using independent component analysis under stability restraints
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
CN110610715A (zh) 一种基于cnn-dnn混合神经网络的降噪方法
KR20090123921A (ko) 신호 분리를 위한 시스템, 방법 및 장치
JP5649488B2 (ja) 音声判別装置、音声判別方法および音声判別プログラム
US9378754B1 (en) Adaptive spatial classifier for multi-microphone systems
KR20120114327A (ko) 레벨 큐를 사용한 적응형 잡음 감소
JP2010224321A (ja) 信号処理装置
Kinoshita et al. Tackling real noisy reverberant meetings with all-neural source separation, counting, and diarization system
CN111798860B (zh) 音频信号处理方法、装置、设备及存储介质
KR20190096855A (ko) 사운드 처리 방법 및 장치
CN110660406A (zh) 近距离交谈场景下双麦克风移动电话的实时语音降噪方法
CN114041185A (zh) 用于确定深度过滤器的方法和装置
WO2020170907A1 (ja) 信号処理装置、学習装置、信号処理方法、学習方法及びプログラム
JP5180928B2 (ja) 音声認識装置及び音声認識装置のマスク生成方法
JP5443547B2 (ja) 信号処理装置
CN112802490B (zh) 一种基于传声器阵列的波束形成方法和装置
CN113870893A (zh) 一种多通道双说话人分离方法及系统
KR101022457B1 (ko) Casa 및 소프트 마스크 알고리즘을 이용한 단일채널 음성 분리방법
JP4891805B2 (ja) 残響除去装置、残響除去方法、残響除去プログラム、記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140303

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150302

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160303

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee