KR20160013592A

KR20160013592A - 음성 특징 벡터를 이용한 화자 분리 시스템 및 방법

Info

Publication number: KR20160013592A
Application number: KR1020140095570A
Authority: KR
Inventors: 최성윤
Original assignee: (주)복스유니버스
Priority date: 2014-07-28
Filing date: 2014-07-28
Publication date: 2016-02-05
Also published as: KR101616112B1

Abstract

본 발명은 적어도 한 명 이상의 화자를 포함하는 단일 채널(single-channel) 상에서 음성 신호의 특징 벡터를 이용하여 화자 분리가 가능한 시스템 및 방법에 관한 것으로, 이의 시스템 구성은 적어도 한 명 이상의 화자를 포함하는 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부와, 특징 벡터 추출부를 통해 추출한 특징 벡터를 음성 구간 또는 비음성 구간으로 분류하여 저장하는 특징 벡터 저장부, 특징 벡터 저장부에서 저장된 음성 구간의 특징 벡터가 누적되면 누적 데이터를 근거로 패턴 인식 기법을 이용하여 화자를 분리하는 화자 분리부, 및 화자 분리부를 통해 출력되는 화자 분리 데이터와 특징 벡터 저장부에 기 저장된 비음성 구간의 누적 데이터를 타임라인 상에 동기화하여 화자별 발화 구간의 시작 및 끝 시간을 탐지하는 발화 구간 탐지부를 포함한다.

Description

음성 특징 벡터를 이용한 화자 분리 시스템 및 방법{SPEAKER SEPARATION SYSTEM AND METHOD USING VOICE FEATURE VECTORS}

본 발명은 음성 분리(Speech separation)에 관한 것으로, 상세하게는 적어도 한 명 이상의 화자를 포함하는 단일 채널(single-channel) 상에서 음성 신호의 특징 벡터를 이용하여 화자 분리가 가능한 화자 분리 시스템 및 방법에 관한 것이다.

일반적으로 콜 센터에서는 상담원과 고객간 착발신 호가 연결되면 해당 호를 1개의 상담으로 정의하여 상담 내용을 녹취한 뒤 저장해 둔다. 저장된 녹취 파일은 고객 민원이 발생한 경우 증빙자료로 사용하거나 상담원 평가를 위한 표본 선정 및 근거 자료로 사용할 수 있다.

이때, 콜 센터에서는 전문적인 녹음 환경을 마련하지 않으면 상담원 회선, 고객 회선을 구분하여 녹취 저장하는 것이 어렵다. 따라서, 단일 채널에 상담원과 고객의 음성을 함께 녹취하여 저장할 수 있다.

예를 들어, 상담원과 고객의 회선을 구분하여 녹취하는 경우 스테레오(Stereo)로 구분되어 좌, 우에 각각 상담원 음성, 고객의 음성을 구분하여 청취하는 것이 가능하다. 회선의 구분 없이 단일채널로 녹취하는 경우 좌, 우 모두 상담원의 음성, 고객의 음성을 함께 청취할 수 있다.

그런데, 최근 콜 센터의 녹취 파일을 활용한 서비스가 다양화 됨에 따라 상담원, 고객 등 화자를 구분되지 않은 단일채널의 녹취 파일의 활용성에 한계가 있는 것이 현실이다.

관련 선행기술로는 한국등록특허공보 제10-0642455호(발명의 명칭: 기업 전화응대에 대한 고객만족도 자동평가 서비스 방법, 공고일자: 2006년 11월 02일) 등이 있다.

본 발명은 상기와 같은 문제점을 해결하기 위해 창안된 것으로서, 적어도 한 명 이상의 화자를 포함하는 단일 채널 상에서의 음성 신호로부터 음성 특징 벡터를 추출하여 특징 벡터와 패턴 인식 기술을 근간으로 화자 및 각 화자의 발화 구간을 분리할 수 있는 시스템 및 그 방법을 제공하는 데 그 목적이 있다.

이를 위하여, 본 발명의 실시예에 따른 음성 특징 벡터를 이용한 화자 분리 시스템은, 적어도 한 명 이상의 화자를 포함하는 음성 신호에 대하여 미리 설정된 프레임 단위로 분할하고 상기 프레임 구간의 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부; 상기 특징 벡터 추출부를 통해 추출한 특징 벡터를 음성 구간 또는 비음성 구간으로 분류하여 저장하는 특징 벡터 저장부; 상기 특징 벡터 저장부에서 저장된 음성 구간의 특징 벡터가 누적되면 누적 데이터를 근거로 패턴 인식 기법을 이용하여 화자를 분리하는 화자 분리부; 및 상기 화자 분리부를 통해 출력되는 화자 분리 데이터와 상기 특징 벡터 저장부에 기 저장된 비음성 구간의 누적 데이터를 타임라인 상에 동기화하여 화자별 발화 구간의 시작 및 끝 시간을 탐지하는 발화 구간 탐지부를 포함한다.

한편, 본 발명의 실시예에 따른 음성 특징 벡터를 이용한 화자 분리 방법은, 적어도 한 명 이상의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템에서의 방법으로서, 상기 화자 분리 시스템이 입력되는 음성 신호로부터 특징 벡터를 추출하는 단계; 상기 화자 분리 시스템이 추출한 특징 벡터를 음성 구간 또는 비음성 구간으로 분류하여 저장하는 단계; 상기 저장된 음성 구간의 특징 벡터가 누적되면 상기 화자 분리 시스템이 누적 데이터를 근거로 패턴 인식 기법을 이용하여 화자를 분리하는 단계; 및 상기 화자 분리 시스템이 상기 화자 분리를 통해 출력되는 화자 분리 데이터와 상기 비음성 구간으로 분류 저장된 데이터를 타임라인 상에 동기화하여 화자별 발화 구간의 시작 및 끝 시간을 탐지하는 단계를 포함할 수 있다.

이러한 본 발명에 따르면, 적어도 두 화자 이상이 포함된 음성 신호로부터 음성 특징 벡터 및 패턴 인식을 이용하여 화자 및 화자의 발화 구간을 분리할 수 있다.

또한, 상기의 화자 분리 기술로 인해 오디오 플레이어 및 동영상 플레이어에서 음성 데이터간 이동 시 시간이나 프레임 단위가 아닌 특정 인물의 발화 구간 단위로 이동이 가능해지며, 특히 어학용 학습기에 적용하는 경우 문장 단위의 이동에도 활용할 수 있어 그 활용 범위가 다양하다.

나아가, 음성 인식 기술을 이용한 음성 명령 및 음성을 문자로 변환하는 STT(Sound To Text) 기술을 활용한 받아쓰기(Dictation) 기능에도 단어나 문장 단위의 범위를 적용해 더 나은 분석을 제공하는 데 활용할 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 화자 분리 시스템의 구성도.
도 2는 본 발명의 실시예에 따른 화자 분리 시스템에서의 특징 벡터 추출부의 상세 구성도.
도 3은 본 발명의 실시예에 따른 화자 분리 시스템에서의 오류 보정 필터부의 상세 구성도.
도 4는 본 발명의 실시예에 따른 화자 분리 방법을 설명하기 위해 나타낸 흐름도.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본 명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 명세서에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다.

이하, 첨부된 도면을 참조하여 본 실시 예를 상세하게 설명한다.

먼저 도 1 및 도 2를 참조하면, 도 1은 본 발명의 실시예에 따른 화자 분리 시스템의 구성도이고, 도 2는 본 발명의 실시예에 따른 특징벡터 추출부의 상세 구성도이다.

본 발명의 실시예에 따른 화자 분리 시스템은 도 1에 도시한 바와 같이 특징벡터 추출부(10), 특징벡터 저장부(20), 화자 분리부(30), 발화구간 탐지부(40)를 포함한다. 추가로, 화자 분리된 데이터를 보정하여 각 화자의 음역대를 명확하게 구분하기 위한 오류 보정 필터부(50)를 더 포함할 수 있다.

이러한 각 구성요소의 동작은 시스템에 의해서 제어될 수 있다.

특징벡터 추출부(10)는 적어도 한 명 이상의 화자를 포함하는 단일 채널 상에서의 음성 신호로부터 신호적 특징을 이용하여 적어도 하나 이상의 특징 벡터를 추출한다. 특징 벡터는 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC: Mel Frequency Cepstral Coefficients)을 이용하여 추출한 적어도 하나 이상의 특징 벡터들이며, 음성 신호의 분석에는 샘플링 윈도우(sampling window)를 적용한 분할 프레임을 사용한다.

이를 구현하기 위한 특징 벡터 추출부(10)는 도 2에 도시한 바와 같이 음성신호 분할부(11), 샘플링 윈도윙부(13), 특징벡터 발생부(15), 비음성 구간 추출부(17)를 포함할 수 있다.

음성신호 분할부(11)는 단일 채널 상에 발생한 음성 신호를 미리 정해진 프레임 단위로 분할한다. 이는 음성 신호를 보다 작은 단위로 잘라내어 특징 벡터 추출의 정확도를 향상시킴과 동시에 시간에 따른 특징의 변화를 정확하게 알 수 있도록 하기 위함이다.

샘플링 윈도윙부(13)는 프레임 단위로 분할된 음성 신호에 대하여 일정 중복 범위만큼의 윈도우(window)를 곱하여 출력할 수 있다. 샘플링 윈도윙부(13)는 분할된 신호를 주파수 분석에 사용할 수 있도록 샘플링하는 과정을 수행하며, 이를 통해 불필요한 신호를 감소시키고 필요한 신호를 두드러지게 하여 분석의 신뢰도를 높인다. 예컨대, 본 실시예에서는 윈도우 함수로서 해밍 윈도우(Hamming Window)를 적용함으로써, 원하지 않는 고주파 성분이 특징 추출에 주는 영향을 감소시킬 수 있다.

또한, 샘플링 윈도윙부(13)는 윈도우 함수로서 해닝(Hanning) 윈도우, 삼각(Triangluar) 윈도우 등 필요에 따라 다양하게 선택할 수 있다.

특징벡터 발생부(15)는 샘플링 윈도윙부(13)를 통해 샘플링한 음성 신호를 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상의 추출 기법을 이용하여 특징 벡터를 추출할 수 있다. 피치(Pitch)는 음성 신호 주파수의 고저를 의미하는 것으로 음성 신호의 분석을 위한 가장 기본적이면서 중요한 특징 요소가 될 수 있다. 에너지(Energy)는 해당 음성이 차지하는 신호의 크기를 나타내는 지표로서 녹음 환경이나 화자 특성에 민감하게 반응하는 특징 중의 하나이다. 멜 캠스트럽(MFCC)는 음성 신호의 모델링을 위한 다수의 수학적 계수들을 추출할 수 있다. 멜 캠스트럽(MFCC)란 멜 스케일(Mel-Scale)로 표현된 음성 신호의 주파수별 파워 스펙트럼의 형태를 정현파 성분으로 나타낸 것이다. 쉽게 표현하면, 주파수 분포를 사람의 귀가 소리를 듣는 특성과 비슷할 수 있도록 다르게 표현한 것이다.

또한, 특징벡터 발생부(15)는 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상에 대한 특징 벡터 외, 이들에 대한 평균 및 표준편차 값을 추가적으로 산출할 수 있다. 여기서, 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC)에 대한 평균 및 표준편차 값을 음성 신호 발신자의 특징 분석을 위한 특징 벡터로 활용될 수 있다.

또한, 특징벡터 발생부(15)는 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상에 대한 시간적 변화량을 추출하기 위한 델타값 추출 기능을 더 포함할 수 있다. 이때, 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC)에 대한 시간적 변화량도 음성 신호 발신자의 특징 분석을 위한 특징 벡터로 활용될 수 있다.

또한, 특징벡터 발생부(15)는 추가적으로 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상에 대한 델타값의 평균 및 표준편차 값을 산출할 수 있다. 이 경우에도, 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상에 대한 델타값의 평균 및 표준편차 값도 음성 신호 발신자의 특징 분석을 위한 특징 벡터로 활용될 수 있다.

비음성 구간 추출부(17)는 음성 신호에서 비음성 구간을 추출한다. 이는, 하기에서 설명할 패턴인식 과정에서 음성의 특징 데이터만을 바르게 분석할 수 있도록 데이터를 제한하여 시스템의 성능을 향상시키기 위함이다.

이러한 비음성 구간 추출부(17)는 음성신호 분할부(11)와 샘플링 윈도윙부(13)의 전후, 그 사이 어디라도 위치할 수 있다.

이렇게 비음성 구간 추출부(17)를 통해 추출된 비음성 프레임은 시간 정보만을 추출하여 무음 구간으로 별도로 누적하여 저장될 수 있다. 또한, 비음성 구간 추출부(17)를 통해 음성으로 판별된 프레임에 대해서는 시간 정보를 포함하는 특징 벡터들을 누적하여 저장될 수 있다. 저장은 특징벡터 저장부(도 1의 20)에서 이루어진다.

다시 도 1을 참조하면, 특징벡터 저장부(20)는 특징벡터 추출부(10)에서 추출한 비음성 구간의 데이터(프레임)과 음성 구간의 데이터(프레임)를 분류하여 저장한다. 이처럼, 음성 구간과 비음성구간을 구분하는 이유는, 화자 분리부(30)에 음성 구간의 신호만을 제공하여 비음성 구간의 신호에 의한 오차를 줄이기 위함이다.

음성으로 판정된 구간의 화자 분리를 위한 입력 데이터로는 시간정보를 포함하는 특징벡터로 누적되며, 비음성 구간으로 판정된 데이터는, 음성 구간만을 포함하는 화자 분리 데이터를 기존 타임라인으로 복원하기 위해 개별적으로 시간정보만을 기록한다.

화자 분리부(30)는 음성 구간의 특징 벡터를 추출하여 누적한 데이터를 근거로 패턴 인식 기술을 이용하여 적어도 한 명 이상 포함된 화자를 인식한다.

패턴 인식을 위한 학습법은 크게 두 가지로 나누어 지는데, 지도학습(Supervised Learning)기법과 자율학습(Unsupervised Learning)기법이 있다. 지도학습기법은 분류하고자 하는 목표의 수와 종류가 확정된 경우, 해당 데이터를 훈련용으로 사용하여 알고 있는 결과를 기계가 잘 구분할 수 있도록 분류 기준을 훈련시켜 도출하는 방법이다. 자율학습기법은 기계가 데이터 집합 자체를 스스로 분석하여 임의의 패턴을 도출하는 방법을 말한다. 본 실시예에서는 임의의 화자를 인식하고 각 화자의 목소리를 분리하는 화자 독립형 시스템이기 때문에, 자율학습기법을 이용하여 주어진 데이터에서 임의의 패턴을 탐지, 누적 데이터를 분류하는 방법을 사용한다.

본 실시예에서는 자율학습기법 중 대표적인 K-means 알고리즘을 사용해 데이터를 군집화(Clustering)하는 예를 설명하기로 한다.

K-means 알고리즘은 입력 데이터를 K개의 군집(Cluster)으로 구분하는 것을 목표로 하는 알고리즘으로서, 각 군집의 중심과 멤버 데이터간의 거리 차이의 분산을 최소화하는 집합을 찾게 된다. 음성구간의 특징 데이터로 구성된　입력 데이터 집합에서 시스템에 정의된 K개의 군집을 분류하기 위해 K-means 알고리즘은 K개의 초기 군집의 대표값(중심)을 정의할 수 있다. 이때, 군집 대표값(중심)의 정의에는 임의의 값을 사용할 수도 있으며, 데이터의 최대 및 최소값 사이의 차이를 이용하여 데이터 분포 범위를 K개로 분할해 사용할 수도 있다.

위 수학식 1은 K-means 알고리즘을 수식으로 나타낸 공식으로서, 음성 구간의 특징 벡터 집합 S를 포함하는 모든 x에 대해 k개의 군집을 대표하는 대표값 μ와의 거리를 최소화하는 값 V를 찾는 것을 그 목적으로 한다.

K-means 알고리즘을 통해 초기 군집 대표가 정의되면,　①　각 군집의 대표값과 입력 데이터 집합이 포함하는 모든 데이터와의 관계도를 측정한다. 본 실시예에서의 관계도 측정은 유클리디안 거리(Euclidean Distance)를 이용한다.

아래 수학식 2는 n-차원의 공간에 존재하는 두 점 사이의 거리를 구하는 유클리디안 공식을 표현하고 있다.

② 모든 입력 데이터에 대해 각 군집별 거리가 구해지면, 각 입력 데이터를 거리가 가장 가까운 군집에 할당하는 과정을 거치게 된다. 할당 과정이 끝나면 이번엔 각 군집의 데이터만을 이용해 새로운 군집의 중심을 정의한다.

K-means 알고리즘은 군집의 중심을 구하고, 군집의 중심과 각 데이터 사이의 관계(거리)를 측정해 가까운 군집에 할당하는　위의 ①, ②과정을 반복하며 최적의 분류를 찾아나가며, 이는 군집의 중심이 더 이상 변하지 않을 때까지 수행한다. 군집의 중심이 더 이상 변하지 않는다는 것은 해당 데이터 집합을 K개의 군집으로 나눌 수 있는 최적의 경계를 찾았다는 의미이다. 최적의 경계는 적어도 한 명 이상의 화자를 구분하여 분리할 수 있는 기준점으로 볼 수 있다.

발화구간 탐지부(40)는 화자 분리부(30)에서 모든 데이터와 각 군집 중심간의 거리를 최소화하는 결과에 수렴하게 되면, 앞서 보관하고 있던 비음성 구간의 누적 데이터와 화자 분리 결과를 합쳐 다시 본래의 음성 신호가 표현하는 타임라인과 데이터를 동기화하는 과정을 거친다.

다음으로 시스템에서 정의하는 필터 설정에 따라 일정 기준 미만의 데이터는 주변 상황을 고려하여 오차를 강제로 보정하는 오류 보정 필터부(50)를 거칠 수 있다. 오류 보정 필터부(50)를 통과하여 출력되는 데이터는 모든 화자와 비음성 구간(무음 구간)을 포함하는 각 분류별 발화 구간의 시작과 끝 시간으로 정의할 수 있다.

도 3은 본 발명의 실시예에 따른 화자 분리 시스템에서의 오류 보정 필터부의 상세 구성도이다.

본 실시 예에 따른 오류 보정 필터부(50)는 크게 2단계로 진행되며, 1단계는 추출 단위에서, 2단계는 분석 단위에서 적용된다.

먼저 제1차 보정부(51)는, 추출 단위로 존재하는 화자 분리 결과에서 연속되는 흐름간 순간적으로 나타나는 불규칙적인 데이터를 강제로 보정한다.

예컨대, 화자 A를 지칭하는 30개의 데이터 사이에 임계치로 설정된 1개의 다른 데이터가 섞여있을 경우, 해당 데이터는 강제로 A로 보정될 수 있다. 다른 화자의 데이터 사이에 낀 100분의 1초 동안의 음성에 대해서는 주파수의 모호함으로 인해 발생한 오차이거나, 실제 다른 화자의 목소리라 해도 의미 없는 부분으로 간주하는 것이다. 오류 보정 필터부(50)는 이러한 데이터를 오차로 판정하고 보정하기 위한 제1 임계치를 제공하며, 제1 임계치는 적용 사이트 또는 음성 신호에 따라 추가 및 수정이 가능하다.　

다음으로 제2차 보정부(53)를 위해서는 앞서 따로 누적했던 무음 구간의 데이터를 통합하여 본래 음성 신호의 타임라인을 복구하는 과정이 필요하다. 화자분리 데이터와 무음 구간 데이터를 통합하여 본래 입력 데이터가 포함하는 모든 시간에 대한 분류 결과를 산출하고, 이를 다시 분석단위 시간인 1초로 변환하는 절차를 거친다. 예컨대, 본 실시예에서 제공하는 설정 값에 의하면 분석단위 시간인 1초 동안 50개의 추출단위 데이터가 포함될 수 있다. 50개 단위로 결과를 통합하며, 매 분석단위마다 각 화자와 무음구간의 개수 및 비중 데이터를 산출하여 저장한다.

여기서, 도출된 각 화자의 비중 데이터를 살펴보면 특정 비중을 중심으로 상위의 데이터는 해당 화자를 대표하는 구간으로, 하위의 데이터는 2단계 보정 대상으로 판정할 수 있다. 이때, 대표 구간을 중심으로 주변에 분산되어 있는 보정 대상을 강제로 수정하는 작업을 수행한다. 보정 대상 구간 중 간격이 짧은 것부터 긴 것까지 비중값을 근거로 해당 구간을 보정할 수 있다. 해당 보정 단계는 사이트 혹은 음성 데이터의 특성에 따라 조절이 필요한 부분으로서, 신뢰도에 적지 않은 영향을 주는 만큼 사용자의 주의 깊은 설정이 요구된다.

이렇게 제1차 보정부(51) 및 제2차 보정부(53)를 통과하여 산출되는 결과는 각 화자와 무음구간을 포함하는 K+1개의 분류로 구분될 수 있다. 따라서, 발화구간 탐지부(40)가 분석단위로 존재하는 각 화자 및 무음 구간의 비중 데이터를 근거로 가장 높은 비중을 차지하는 데이터를 해당 분류로 정의할 수 있다.

도 4는 본 발명의 실시예에 따른 화자 분리 방법을 설명하기 위해 나타낸 흐름도이다.

먼저 처음 S10단계에서, 화자 분리 시스템으로 음성 신호가 입력되면 시스템 내 특징 벡터 추출부(10)가 음성신호 분할부(11)를 통해 하나의 음성 신호를 미리 정해진 프레임 단위로 분할한다.

다음으로 S11 단계에서, 특징 벡터 추출부(10)가 프레임 단위로 분할된 음성 신호에 대하여 샘플링 윈도윙부(13)에서 일정 범위를 갖는 윈도우를 곱하여 샘플링을 수행한다. 이때, 윈도우 함수는 해밍 윈도우(Hamming Window)를 적용하여 원하지 않는 고주파 성분이 특징 벡터 추출에 미치는 영향을 감소하도록 할 수 있다. 이 외, 해닝(Hanning) 윈도우, 삼각(Triangluar) 윈도우 등 필요에 따라 다양하게 선택할 수 있다.

다음으로 S12 단계에서, 특징 벡터 추출부(10)가 샘플링 윈도윙부(13)를 통해 샘플링한 음성 신호를 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 등을 이용하여 적어도 하나 이상의 특징 벡터를 추출한다.

특징 벡터의 추출 시, 특징 벡터 추출부(10)는 음성 신호 발신자의 특징 분석을 위한 특징 벡터로, 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상에 대한 평균 및 표준편차 값을 추가적으로 산출할 수 있다. 또, 필요에 따라 음성 신호의 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 등에 대한 시간적 변화량을 나타내는 델타값, 이 델타값의 평균 및 표준편차 값 등을 산출할 수 있다.

이후 S13 단계에서, 특징 벡터 추출부(10)가 비음성 구간 추출부(17)를 통해 음성 신호로부터 비음성 구간을 추출한다. 이의 추출은 앞서 설명한 바와 같이 차후 패턴 인식 과정에서 음성의 특징 데이터만을 바르게 분석할 수 있도록 데이터를 제한하여 시스템의 성능을 향상시키기 위함이다.

추출 후, 특징 벡터 추출부(10)는 비음성으로 판별된 프레임을 시간 정보만을 추출하여 무음 구간으로 누적하여 특징 벡터 저장부(20)에 저장한다. 또한, 음성으로 판별된 프레임은 시간 정보를 포함하는 특징 벡터들을 누적하여 특징 벡터 저장부(20)에 저장한다.

모든 음성구간의 특징 벡터가 누적되면, 다음 S14 단계에서, 화자 분리부(30)가 누적된 특징 벡터를 근거로 적어도 한 명 이상이 포함된 화자를 인식하여 분리한다. 이때, 화자 분리부(30)는 K-means 알고리즘을 이용한 패턴 인식 기술을 적용할 수 있다.

예를 들어, 두 화자의 대화를 녹음한 데이터로부터 화자를 분리하는 경우, 시스템은 2명의 화자를 인식하여 구분해야 하기 때문에 K-means 알고리즘의 초기 군집 대표 K 에 2 라는 설정값을 정의할 수 있다. K-means 알고리즘은 각 군집(클러스터)의 중심과 멤버 데이터간 거리차의 분산을 최소화 하는 구성을 찾기 위해 군집(클러스터)의 중심을 정의하는 단계와 새로운 군집중심과 멤버 데이터간의 거리를 근거로 새로운 군집에 할당하는 단계를 반복적으로 수행한다.

이후 S15 단계에서, 화자 분리부(30)는 K-means 알고리즘을 통해 군집(클러스터)의 중심이 이동하는지 여부를 확인한다. 이 단계는 K-means 알고리즘을 적용한 경우에 한하여 수행하는 과정으로, 다른 기법의 패턴 인식 기술을 적용하는 경우 상기의 과정은 알고리즘의 제어에 따라 삭제 또는 변형이 가능하다.

확인 결과 군집(클러스터)의 중심이 이동하면, 군집의 중심과 각 데이터 사이의 관계(거리)를 측정해 가까운 군집에 할당하는 과정을 반복하면서 최적의 분류를 찾아나가며, 군집(클러스터)의 중심이 더 이상 변하지 않을 때까지 수행한다.

확인 결과 군집(클러스터)의 중심이 이동하지 않고 멈추면, 해당 데이터 집합을 K개의 군집으로 나눌 수 있는 최적의 경계를 찾은 것이다.

이렇게 화자 분리가 이루어지면, 다음 S16 단계에서, 오류 보정 필터부(50)가 일정 기준 미만의 데이터에 대하여 주변 상황 등을 고려하여 오차를 강제로 보정할 수 있다. 예컨대, 화자 A를 지칭하는 30개의 데이터 사이에 임계치로 설정된 1개의 다른 데이터가 섞여있을 경우 해당 데이터는 강제로 A로 보정될 수 있다.

다음으로 S17 단계에서, 발화구간 탐지부(40)는 오류 보정 필터부(50) 또는 화자 분리부(30)를 통해 출력되는 화자 분리 결과와 앞서 저장해 두었던 비음성 구간의 누적 데이터를 합쳐 다시 본래의 음성 신호가 표현하는 타임 라인과 데이터를 동기화한다. 따라서, 모든 화자와 비음성 구간(무음 구간)을 토대로 발화 구간의 시작과 끝 시간을 탐지한다.

일반적으로, 음성 신호에서 추출한 특징벡터를 근간으로 화자를 분리하는 것은 한계가 있다. 이는 특징 벡터의 주파수 성분이 갖는 특성 때문인데, 남자와 여자 목소리의 경우 보통 다른 주파수 대역에 존재하기 때문에 특징을 이용한 분별력이 높은 편에 속한다. 하지만, 남자와 남자, 여자와 여자 등 같은 성별의 목소리를 분리해야 하는 경우에는 두 화자 음역대에 유사성이 크기 때문에 오류가 발생할 수 있다. 이 경우, 화자분리 결과에 모호함을 강제로 잡아줄 수 있는 보정 알고리즘을 적용할 필요가 있다.

데이터 보정을 위해서는 데이터의 분석시간 단위를 넓혀서 비중의 개념을 도입한다. 이를 위해 시스템은 2가지 단위 시간을 관리하게 되는데, 하나는 음성의 프레임을 분할하고 특징을 추출하는 추출단위 시간이고, 다음은 추출단위로 분류된 화자분리 결과를 묶어 비중을 산출하기 위한 분석단위 시간이다.　예컨대, 본 발명의 실시예에서는 8Khz 샘플링 레이트를 기준으로 20ms의 추출단위 시간을 이용해 초당 50개의 특징벡터를 추출하고 화자를 분리한다.

화자분리 및 보정작업을 마친 산출 결과는 각 화자와 무음구간을 포함하는 K+1개의 분류로 구분될 수 있다. 발화구간 탐지부(40)는 분석단위로 존재하는 각 화자 및 무음 구간의 비중 데이터를 근거로 가장 높은 비중을 차지하는 데이터를 해당 분류로 정의한다.

이러한 과정에 따르면, 단일 채널 상에 발생한 음성 신호로부터 화자 및 각 화자의 발화 구간을 구분할 수 있으므로, 음악 플레이어 및 동영상 플레이어와 같은 재생 장치에서 음성 신호를 시간이나 프레임 단위의 이동이 아닌 화자 및 특정 화자의 발화 구간 단위로 이동할 수 있다. 또한, 어학용 학습기의 경우 문장 단위의 이동에도 활용할 수 있다. 나아가, 음성 인식 기술을 이용한 음성 명령 및 음성을 문자로 변환하는 STT(Sound To Text)기술을 활용한 받아쓰기(Dictation) 기능에도 단어나 문장단위의 범위를 적용해 더 나은 분석을 제공하는데 활용할 수 있을 것이다.

이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.

10: 특징 벡터 추출부 20: 특징 벡터 저장부
30: 화자 분리부 40: 발화구간 탐지부
50: 오류 보정 필터부 11: 음성신호 분할부
13: 샘플링 윈도윙부 15: 특징 벡터 발생부
17: 비음성 구간 추출부 51: 제1차 보정부
53: 제2차 보정부

Claims

적어도 한 명 이상의 화자를 포함하는 음성 신호에 대하여 미리 설정된 프레임 단위로 분할하고 상기 프레임 구간의 음성 신호로부터 특징 벡터를 추출하는 특징 벡터 추출부;
상기 특징 벡터 추출부를 통해 추출한 특징 벡터를 음성 구간 또는 비음성 구간으로 분류하여 저장하는 특징 벡터 저장부;
상기 특징 벡터 저장부에서 저장된 음성 구간의 특징 벡터가 누적되면 누적 데이터를 근거로 패턴 인식 기법을 이용하여 화자를 분리하는 화자 분리부; 및
상기 화자 분리부를 통해 출력되는 화자 분리 데이터와 상기 특징 벡터 저장부에 기 저장된 비음성 구간의 누적 데이터를 타임라인 상에 동기화하여 화자별 발화 구간의 시작 및 끝 시간을 탐지하는 발화 구간 탐지부
를 포함하는 음성 특징 벡터를 이용한 화자 분리 시스템.
제1항에 있어서,
상기 특징 벡터 추출부는
적어도 한 명 이상의 화자를 포함하는 음성 신호에 대하여 미리 설정된 프레임 단위로 분할하는 음성신호 분할부;
상기 음성신호 분할부를 통해 분할된 각 프레임 단위로 일정 크기의 윈도우 함수를 곱하여 샘플링하는 샘플링 윈도윙부;
상기 샘플링 윈도윙부를 통해 출력되는 음성 신호에 대하여 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상을 이용한 특징 벡터들을 산출하는 특징 벡터 발생부; 및
상기 특징 벡터 발생부에서 산출된 특징 벡터로부터 비음성 구간(무음 구간)을 추출하여 음성 구간과 비음성 구간으로 분류하는 비음성 구간 추출부
를 포함하는 음성 특징 벡터를 이용한 화자 분리 시스템.
제1항에 있어서,
상기 특징 벡터 저장부는
상기 음성 구간으로 분류한 프레임 구간은 시간 정보를 포함하는 특징 벡터들을 저장하여 누적시키고,
상기 비음성 구간으로 분류한 프레임 구간은 시간 정보만을 추출하여 저장하는 것을 특징으로 하는 음성 특징 벡터를 이용한 화자 분리 시스템.
제1항에 있어서,
상기 화자 분리부는
상기 패턴 인식 기법으로서 하기 수학식에 따른 K-means 알고리즘을 이용하여, 상기 음성 구간의 누적 데이터를 화자별 군집(cluster)으로 구분하기 위해 각 군집의 대표값을 정의하고, 상기 군집의 대표값과 상기 누적 데이터간의 거리를 구하여 가까운 군집에 할당하는 과정을 반복적으로 수행하는 것을 특징으로 하는 음성 특징 벡터를 이용한 화자 분리 시스템.

(여기서, x는 음성 구간의 특징 벡터 집합s를 포함하는 모든 입력 데이터, 모든 x에 대해 k개의 군집을 대표하는 대표값 μ와의 거리를 최소화하는 값 V을 산출함을 의미한다)
제1항에 있어서,
상기 화자 분리부를 통해 출력되는 화자 분리 데이터에서 일정 기준 미만의 데이터 또는 연속되는 흐름 사이에서 순간적으로 나타나는 불규칙적인 데이터를 보정하여 오차를 줄이는 오류 보정 필터부
를 더 포함하는 것을 특징으로 하는 음성 특징 벡터를 이용한 화자 분리 시스템.
적어도 한 명 이상의 화자를 포함하는 음성 신호로부터 화자를 분리하는 화자 분리 시스템에서의 방법으로서,
상기 화자 분리 시스템이 입력되는 음성 신호로부터 특징 벡터를 추출하는 단계;
상기 화자 분리 시스템이 추출한 특징 벡터를 음성 구간 또는 비음성 구간으로 분류하여 저장하는 단계;
상기 저장된 음성 구간의 특징 벡터가 누적되면 상기 화자 분리 시스템이 누적 데이터를 근거로 패턴 인식 기법을 이용하여 화자를 분리하는 단계; 및
상기 화자 분리 시스템이 상기 화자 분리를 통해 출력되는 화자 분리 데이터와 상기 비음성 구간으로 분류 저장된 데이터를 타임라인 상에 동기화하여 화자별 발화 구간의 시작 및 끝 시간을 탐지하는 단계
를 포함하는 음성 특징 벡터를 이용한 화자 분리 방법.
제6항에 있어서,
상기 특징 벡터를 추출하는 단계는,
상기 적어도 한 명 이상의 화자를 포함하는 음성 신호를 미리 설정된 프레임 단위로 분할하는 단계;
상기 분할한 각 프레임 구간에 일정 크기의 윈도우 함수를 곱하여 샘플링하는 단계;
상기 샘플링된 음성 신호에 대하여 피치(Pitch), 에너지(Energy), 멜 캠스트럽(MFCC) 중 적어도 하나 이상을 이용한 특징 벡터들을 추출하는 단계;
추출한 특징 벡터로부터 비음성 구간(무음 구간)을 추출하여 음성 구간과 비음성 구간으로 분류하는 단계
를 포함하는 것을 특징으로 하는 음성 특징 벡터를 이용한 화자 분리 방법.
제6항에 있어서,
상기 특징 벡터를 음성 구간 또는 비음성 구간으로 분류하여 저장하는 단계는,
상기 화자 분리 시스템이 상기 음성 구간으로 분류한 프레임 구간에 대하여 시간 정보를 포함하는 특징 벡터들을 저장하여 누적시키고,
상기 비음성 구간으로 분류한 프레임 구간은 시간 정보만을 추출하여 저장하는 것을 특징으로 하는 음성 특징 벡터를 이용한 화자 분리 방법.
제6항에 있어서,
상기 화자를 분리하는 단계는
하기 수학식을 이용하여,
상기 음성 구간의 누적 데이터를 화자별 군집(cluster)으로 구분하기 위해 각 군집의 대표값을 정의하고, 상기 군집의 대표값과 상기 누적 데이터간의 거리를 구하여 가까운 군집에 할당하는 과정을 반복적으로 수행하여 화자를 분리하는 것을 특징으로 하는 음성 특징 벡터를 이용한 화자 분리 방법.

(여기서, x는 음성 구간의 특징 벡터 집합s를 포함하는 모든 입력 데이터, 모든 x에 대해 k개의 군집을 대표하는 대표값 μ와의 거리를 최소화하는 값 V을 산출함을 의미한다)
제6항에 있어서,
상기 화자를 분리하는 단계 이후,
상기 화자 분리 시스템이 상기 화자 분리를 통해 출력되는 화자 분리 데이터에서 일정 기준 미만의 데이터 또는 연속되는 흐름 사이에서 순간적으로 나타나는 불규칙적인 데이터를 보정하여 오차를 줄이는 단계
를 더 포함하는 것을 특징으로 하는 음성 특징 벡터를 이용한 화자 분리 방법.