KR20210054174A

KR20210054174A - 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 장치, 방법 및 컴퓨터 프로그램

Info

Publication number: KR20210054174A
Application number: KR1020190139964A
Authority: KR
Inventors: 이정한; 김희경
Original assignee: 주식회사 케이티
Priority date: 2019-11-05
Filing date: 2019-11-05
Publication date: 2021-05-13

Abstract

음성 데이터의 주기 성분을 이용하여 화자를 분류하는 화자 분류 장치는 음성 데이터를 입력받는 음성 입력부, 상기 입력받은 음성 데이터로부터 음성 특징값을 도출하는 특징값 도출부, 자기 상관 함수에 기초하여 상기 입력받은 음성 데이터로부터 주기 성분을 추출하는 주기 성분 추출부, 상기 음성 특징값 및 상기 주기 성분에 기초하여 상기 음성 데이터의 특징 벡터를 추출하는 특징 벡터 추출부 및 상기 추출한 특징 벡터에 기초하여 상기 음성 데이터에 대한 화자 분류를 수행하는 화자 분류부를 포함한다.

Description

음성 데이터의 주기 성분을 이용하여 화자를 분류하는 장치, 방법 및 컴퓨터 프로그램{APPARATUS, METHOD AND COMPUTER PROGRAM FOR CLASSIFYING SPEAKERS BY USING PERIODIC COMPONENT IN VOICE DATA}

본 발명은 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.

사람의 생체 정보의 예로 홍채, 얼굴, 지문, 정맥 분포, 음성 등이 있다. 생체 정보를 인식하여 특정 개인인지 여부를 확인하거나, 또는 특정 그룹이 공통적으로 가지는 특징을 추출할 수 있다. 이러한 생체 정보를 인식하는 기술은 가전, 금융, 행정, 복지 등 다양한 분야에서 활용되고 있다.

음성을 이용한 화자 분류 기술은 음성 데이터를 분석하여 화자의 성별 정보 또는 연령 정보를 예측하는 것을 의미한다. 복수의 음성 데이터와 그의 성별 정보 및 연령 정보를 학습하고, 학습 결과에 기초하여 사전 정보 없는 임의의 음성 데이터를 입력받았을 때 화자의 성별 정보 또는 연령 정보를 예측하여 분류할 수 있다.

종래의 화자 분류 기술에는 음성 데이터로부터 MFCC(Mel-frequency Cepstral Coefficient)를 추출하여 화자를 분류하는 방법이 일반적으로 사용하고 있다. 화자 분류 기술은 음성 데이터로부터 추출한 특징 벡터를 이용하여, 복수의 음성 데이터를 화자의 성별 및/또는 연령에 기초하여 분류한 집합에서 가장 유사도가 높은 집합을 탐색하는 방법을 이용한다.

그러나 음성 데이터의 주기 성분을 고려하지 않는, 종래의 화자 분류 기술은 입력받은 데이터에 음성 외의 노이즈가 포함되어 있는 경우에 화자 분류 결과의 정확도가 저하된다는 한계가 있었다. 또한, 종래의 화자 분류 기술은 불필요한 정보를 모두 처리하는 경우가 있어, 화자 분류에 긴 시간이 소요되는 문제점이 존재했다.

한편, 한국등록특허 제 10-1799874호는 발화자의 음성 및 주변 음향을 분석하여 발화자의 연령 정보와 성별 정보를 추론하는 구성을 개시하고 있다.

성별 및 연령에 따라 화자를 정확하게 분류할 수 있는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.

입력받은 데이터에 포함되는 노이즈의 영향을 최소화할 수 있는 화자 분류 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 화자 분류 장치에 있어서, 음성 데이터를 입력받는 음성 입력부, 상기 입력받은 음성 데이터로부터 음성 특징값을 도출하는 특징값 도출부, 자기 상관 함수에 기초하여 상기 입력받은 음성 데이터로부터 주기 성분을 추출하는 주기 성분 추출부, 상기 음성 특징값 및 상기 주기 성분에 기초하여 상기 음성 데이터의 특징 벡터를 추출하는 특징 벡터 추출부 및 상기 추출한 특징 벡터에 기초하여 상기 음성 데이터에 대한 화자 분류를 수행하는 화자 분류부를 포함하는 화자 분류 장치를 제공할 수 있다.

일 실시예에서, 상기 주기 성분 추출부는 상기 입력받은 음성 데이터를 소정의 시간 간격으로 나누어 복수의 프레임을 생성하는 프레임 생성부 및 상기 생성된 복수의 프레임 각각의 자기 상관을 연산하는 자기 상관 연산부를 포함할 수 있다.

일 실시예에서, 상기 자기 상관 연산부는 상기 프레임을 시간 및 주파수 도메인의 신호로 변환하고, 상기 시간 및 주파수 도메인의 신호를 주파수를 기준으로 복수의 채널로 분리하고, 상기 복수의 채널 각각으로부터 채널별 자기 상관을 연산하고, 상기 채널별로 연산된 자기 상관에 따라 상기 프레임의 자기 상관 결과값을 도출하고, 상기 주기 성분 추출부는 상기 프레임의 자기 상관 결과값에 기초하여 상기 프레임의 주기 성분을 추출하는 것일 수 있다.

일 실시예에서, 상기 주기 성분 추출부는 상기 생성된 복수의 프레임 중 적어도 하나의 음성이 포함된 프레임의 주기 성분을 추출하는 것일 수 있다.

일 실시예에서, 상기 특징 벡터 추출부는 기학습된 추출 모델을 이용하여 상기 음성 데이터의 특징 벡터를 추출하는 것일 수 있다.

일 실시예에서, 상기 추출 모델은 복수의 음성 데이터로부터 추출한 음성 특징값 및 상기 복수의 음성 데이터로부터 추출한 주기 성분을 입력으로 하여 학습된 것일 수 있다.

일 실시예에서, 상기 특징 벡터 추출부는 상기 추출 모델을 이용하여 상기 입력받은 음성 데이터로부터 도출한 음성 특징값, 상기 입력받은 음성 데이터로부터 추출한 주기 성분 및 상기 입력받은 음성 데이터로부터 사후 확률(Maximum A Posterior)을 도출하고, 상기 도출된 사후 확률에 기초하여 상기 입력받은 음성 데이터의 특징 벡터를 추출하는 것일 수 있다.

일 실시예에서, 상기 화자 분류부는 기학습된 분류 모델을 이용하여 화자 분류를 수행하고, 상기 음성 데이터의 화자를 성인 남성, 성인 여성, 노인 남성, 노인 여성 및 어린이 중 어느 하나의 클래스로 분류하는 것일 수 있다.

본 발명의 다른 실시예는, 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 화자 분류 방법에 있어서, 음성 데이터를 입력받는 단계, 상기 입력받은 음성 데이터로부터 음성 특징값을 도출하는 단계, 자기 상관 함수에 기초하여 상기 입력받은 음성 데이터로부터 주기 성분을 추출하는 단계, 상기 음성 특징값 및 상기 주기 성분에 기초하여 상기 음성 데이터의 특징 벡터를 추출하는 단계 및 상기 추출한 특징 벡터에 기초하여 상기 음성 데이터에 대한 화자 분류를 수행하는 단계를 포함하는 화자 분류 방법을 제공할 수 있다.

본 발명의 다른 실시예는, 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서, 상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 음성 데이터를 입력받고, 상기 입력받은 음성 데이터로부터 음성 특징값을 도출하고, 자기 상관 함수에 기초하여 상기 입력받은 음성 데이터로부터 주기 성분을 추출하고, 상기 음성 특징값 및 상기 주기 성분에 기초하여 상기 음성 데이터의 특징 벡터를 추출하고, 상기 추출한 특징 벡터에 기초하여 상기 음성 데이터에 대한 화자 분류를 수행하도록 하는 명령어들의 시퀀스를 포함하는 것인, 매체에 저장된 컴퓨터 프로그램을 제공할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 음성 데이터의 주기 성분에 기초하여 화자의 성별 정보 또는 연령 정보를 예측하여, 정확하게 효율적으로 화자를 분류할 수 있는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.

또한, 입력받은 데이터에 노이즈가 포함되어 있는 경우에도 화자 분류의 성능이 저하되지 않는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.

또한, 본 발명에 따라 화자를 분류한 결과를 이용하여 통계 자료 확보, 컨텐츠 추천 서비스 등 다양한 분야에 활용할 수 있다.

도 1은 본 발명의 일 실시예에 따른 화자 분류 장치의 구성도이다.
도 2는 종래의 화자 분류 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따라 프레임의 도메인을 변환하고, 채널을 분리하는 경우를 예시적으로 나타낸다.
도 4는 본 발명의 일 실시예에 따라 자기 상관을 연산한 결과를 예시적으로 나타낸다.
도 5는 여러 종류의 소리 데이터에 대하여 자기 상관을 연산한 결과를 도시한다.
도 6은 화자의 성별 또는 연령에 따른 시간 및 주파수 도메인의 신호를 예시적으로 나타낸다.
도 7은 화자의 성별 또는 연령에 따른 자기 상관 결과값을 예시적으로 나타낸다.
도 8은 본 발명의 일 실시예에 따른 화자 분류 장치의 분류 모델을 예시적으로 나타낸다.
도 9는 본 발명의 일 실시예에 따른 화자 분류 방법의 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. 한편, '~부'는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, '~부'는 어드레싱 할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 '~부'는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 '~부'들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 '~부'들로 결합되거나 추가적인 구성요소들과 '~부'들로 더 분리될 수 있다. 뿐만 아니라, 구성요소들 및 '~부'들은 디바이스 또는 보안 멀티미디어카드 내의 하나 또는 그 이상의 CPU들을 재생시키도록 구현될 수도 있다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 화자 분류 장치의 구성도이다. 도 1을 참조하면, 화자 분류 장치(100)는 음성 입력부(110), 특징값 도출부(120), 주기 성분 추출부(130), 특징 벡터 추출부(140) 및 화자 분류부(150)를 포함할 수 있다.

화자 분류 장치(100)는 서버, 데스크탑, 노트북, 키오스크(KIOSK) 및 스마트폰(smartphone), 태블릿 PC를 포함할 수 있다. 다만, 화자 분류 장치(100)는 앞서 예시된 것들로 한정 해석되는 것은 아니다. 즉, 화자 분류 장치(100)는 후술하는 음성 데이터의 주기 성분을 이용하여 화자를 분류하는 방법을 수행하는 프로세서를 탑재한 모든 장치를 포함할 수 있다.

화자 분류 장치(100)는 음성 데이터의 주기 성분을 이용하여 화자를 분류할 수 있다. 화자 분류 장치(100)는 음성 데이터의 주기 성분을 이용하여 화자의 성별 및 연령을 예측할 수 있다. 화자 분류 장치(100)는 음성 데이터로부터 예측된 화자의 성별 및 연령에 기초하여, 화자를 하나 이상의 클래스로 분류할 수 있다.

종래의 화자 분류 방법은 음성 데이터의 특징을 하나 이상 추출하여, 음성 데이터에 대한 화자 분류를 수행한다. 도 2를 참조하면, 종래의 화자 분류 방법은 화자 분류를 수행하기 위하여 원본 음성 데이터(201)를 소정의 방식으로 처리하여 MFCC(Mel-frequency Cepstral Coefficient)(202), 스펙트로그램(Spectrogram)(203), 기본 주파수(Pitch)(204) 등의 원본 음성 데이터(201)의 특징을 추출한다.

MFCC(202)를 이용한 종래의 화자 분류 방법은 가장 널리 쓰이고 있지만, 입력 데이터에 포함되는 실제 환경의 반향 및 노이즈로 인해 화자 분류 결과의 정확도가 낮아지는 문제점이 있다. 스펙트로그램(203)을 이용한 종래의 화자 분류 방법은 화자 분류에 불필요한 많은 양의 정보를 이용하기 때문에, 많은 시간이 소요되는 반면 화자 분류 결과의 정확도는 낮아 비효율적이라는 한계가 있다. 기본 주파수(Pitch)(204)를 이용한 종래의 화자 분류 방법은 입력 데이터에 포함되는 노이즈에 취약하다는 문제점이 있다.

따라서, 본 발명의 일 실시예에 따른 화자 분류 장치(100)는 상술한 종래 방법들의 문제점을 해결하기 위해, 음성 데이터의 주기 성분(205)을 이용한다. 화자 분류 장치(100)에서 수행되는 구체적인 동작은 이하에서 설명하도록 한다.

음성 입력부(110)는 음성 데이터를 입력받을 수 있다. 예를 들어, 음성 입력부(110)는 사용자 단말과 같은 외부 장치로부터 음성 데이터를 입력받을 수 있다. 음성 입력부(110)는 외부 서버와의 통신을 통해 음성 데이터를 입력받을 수 있다. 음성 입력부(110)는 입력받은 음성 데이터에 대하여 소정의 전처리를 수행할 수 있다.

특징값 도출부(120)는 입력받은 음성 데이터로부터 음성 특징값을 도출할 수 있다. 특징값 도출부(120)는 LLF(Low Level Feature Extraction) 처리를 이용하여 음성 특징값을 도출할 수 있다. 특징값 도출부(120)는 음성 특징값으로서, 입력받은 음성 데이터로부터 MFCC(Mel-frequency Cepstral Coefficient) 특징값을 도출할 수 있으며, 이제 제한되지는 않는다. 특징값 도출부(120)가 도출한 MFCC 특징값은 13차원의 벡터 형태로 나타날 수 있다.

특징값 도출부(120)는 입력받은 음성 데이터를 소정의 시간 간격으로 나눈 프레임 각각에 대하여, 프레임 MFCC값을 도출할 수 있다. 특징값 도출부(120)는 각 프레임에 대해 도출한 프레임 MFCC값을 종합하여, 입력받은 음성 데이터로부터 MFCC 특징값을 도출할 수 있다.

주기 성분 추출부(130)는 자기 상관 함수에 기초하여 입력받은 음성 데이터로부터 주기 성분을 추출할 수 있다. 자기 상관 함수(Auto Correlation Function, ACF)는 임의의 신호 p(t) 및 임의의 신호를 d만큼 지연시킨 신호 p(t+d) 사이의 상관관계를 파악할 수 있는 함수로, 입력받은 음성 데이터로부터 주기 성분을 추출하는 데에 이용될 수 있다.

다시 도 1을 참조하면, 주기 성분 추출부(130)는 프레임 생성부(131) 및 자기 상관 연산부(132)를 포함할 수 있다.

프레임 생성부(131)는 입력받은 음성 데이터를 소정의 시간 간격으로 나누어 복수의 프레임을 생성할 수 있다. 시간의 흐름에 따라 연속되는 임의의 두 프레임에 포함되는 음성 데이터는, 서로 종속되는 특징을 가질 수 있다. 예를 들어, 연속되는 임의의 두 프레임에 포함되는 음성 데이터의 크기, 주파수, 특징값의 변화율 등이 서로 종속될 수 있다.

자기 상관 연산부(132)는 생성된 복수의 프레임 각각의 자기 상관을 연산할 수 있다.

자기 상관 연산부(132)는 프레임을 시간 및 주파수 도메인의 신호로 변환할 수 있다. 각 프레임에 포함되는 음성 데이터는 시간 및 크기(Amplitude) 도메인의 신호일 수 있다. 자기 상관 연산부(132)는 예를 들어, 수학식 1을 이용하여 프레임을 시간 및 주파수 도메인의 신호로 변환할 수 있다. 자기 상관 연산부(132)는 음성 데이터의 여러 주파수 대역에 분포하는 특징을, 대역 별로 분석하기 위하여 감마톤 필터(Gammatone Filter, GF)를 이용할 수 있다.

여기서 x(t)는 프레임의 신호이고, g(f_c,t)는 프레임의 신호 x(t)를 시간 및 주파수 도메인의 신호로 변환하기 위한 감마톤 필터이고, x(c,t)는 변환된 시간 및 주파수 도메인의 신호일 수 있다. 상술한 바와 같이, x(t) 및 g(f_c,t)를 콘볼루션 연산하여 x(c,t)를 도출함으로써, 프레임을 시간 및 주파수 도메인의 신호로 변환할 수 있다.

도 3은 본 발명의 일 실시예에 따라 프레임의 도메인을 변환하고, 채널을 분리하는 경우를 예시적으로 나타낸다. 도 3의 (a)는 하나의 프레임에 포함되는 시간 및 크기 도메인의 신호이고, 도 3의 (b)는 도 3의 (a)에 도시된 프레임을 시간 및 주파수 도메인의 신호로 변환한 경우를 예시적으로 나타낸다.

도 3의 (b)를 참조하면, 감마톤 필터를 이용하여 프레임을 시간 및 주파수 도메인의 신호로 변환한 결과, 복수의 주파수 대역에 분포하는 신호로 나타나는 것을 확인할 수 있다.

자기 상관 연산부(132)는 시간 및 주파수 도메인의 신호를 주파수를 기준으로 복수의 채널로 분리할 수 있다. 자기 상관 연산부(132)는 상술한 감마톤 필터에 의하여, 시간 및 주파수 도메인의 신호를 주파수를 기준으로 예를 들어, 128개의 채널로 분리할 수 있다.

자기 상관 연산부(132)는 복수의 채널 각각으로부터 채널별 자기 상관을 연산할 수 있다. 자기 상관 연산부(132)는 주파수에 따라 자기 상관을 따로 연산함으로써, 채널별 자기 상관을 정확하게 연산하는 것이 가능하다. 자기 상관 연산부(132)는 다음의 수학식 2를 이용하여 채널별 자기 상관을 연산할 수 있다.

여기서 x(c,t)는 시간 및 주파수 도메인의 신호이고, A(c,m,τ)는 채널별 자기 상관을 연산한 결과일 수 있다. T_m은 시간 조정 간격으로(time shifting) 10ms일 수 있다. 또한, T_n은 샘플 시간(sample time)이고, τ는 딜레이 시간(delay time)이고, c는 채널을 의미하고, m은 프레임을 의미할 수 있다.

자기 상관 연산부(132)는 예를 들어, 딜레이 시간을 0~20ms 범위로 하여, 주파수 50~400Hz이상의 범위에 대하여 자기 상관을 연산할 수 있다. 딜레이 시간이 0인 경우는 프레임에 음성이 포함되는지 여부를 판단하기 위하여 이용될 수 있다.

수학식 2에 상술한 자기 상관 연산을 통해, 샘플 신호를 시프팅(shifting)시키면서 유사한 신호가 존재하는지 여부를 파악할 수 있고, 이에 기초하여 주기 성분을 추출할 수 있다.

자기 상관 연산부(132)는 채널별로 연산된 자기 상관에 따라 프레임의 자기 상관 결과값을 도출할 수 있다. 자기 상관 연산부(132)는 수학식 3을 이용하여 프레임의 자기 상관 결과값을 도출할 수 있다.

여기서 c는 채널이고, A(c,m,τ)는 채널별 자기 상관을 연산한 결과이고, A(m,τ)는 프레임의 자기 상관 결과값일 수 있다. 즉, 자기 상관 연산부(132)는 모든 채널의 자기 상관을 연산한 결과를 합함으로써, 프레임의 자기 상관 결과값을 도출할 수 있다.

도 4는 본 발명의 일 실시예에 따라 자기 상관을 연산한 결과를 예시적으로 나타낸다. 도 4의 (a)는 예를 들어, 하나의 프레임의 채널별 자기 상관을 연산한 결과를 모두 나타낸 것이고, 도 4의 (b)는 모든 채널의 자기 상관을 연산한 결과를 합하여 도출된 프레임의 자기 상관 결과값을 도시한다.

주기 성분 추출부(130)는 생성된 복수의 프레임 중 적어도 하나의 음성이 포함된 프레임의 주기 성분을 추출할 수 있다. 입력받은 음성 데이터로부터 생성된 프레임은 음성을 포함하는 부분이거나, 또는 음성을 포함하지 않는 부분일 수 있다. 주기 성분 추출부(130)는 음성이 포함된 프레임의 경우 주기 성분을 추출할 수 있으나, 음성이 포함되지 않는 프레임의 경우 주기 성분을 추출하지 않을 수 있다.

도 5는 여러 종류의 소리 데이터에 대하여 자기 상관을 연산한 결과를 도시한다. 도 5에 도시된 바와 같이, 파티장 소리 데이터에 대하여 자기 상관을 연산한 결과(501), 전투기 소리 데이터에 대하여 자기 상관을 연산한 결과(502), 공장 소음 데이터에 대하여 자기 상관을 연산한 결과(503) 및 공사장 소음 데이터에 대하여 자기 상관을 연산한 결과(504)에는 주기성이 나타나지 않는 것을 확인할 수 있다. 이에 반해, 성인 여성의 음성 데이터에 대하여 자기 상관을 연산한 결과(505)에는 주기성이 나타나는 것을 확인할 수 있다.

주기 성분 추출부(130)는 프레임의 자기 상관 결과값에 기초하여 프레임의 주기 성분을 추출할 수 있다. 주기 성분 추출부(130)는 프레임의 자기 상관 결과값을 스무딩(smoothing)시키고, 극댓값(local maximum)을 추적할 수 있다.

주기 성분 추출부(130)는 프레임의 자기 상관 결과값을 스무딩(smoothing)시키기 위하여 이동 평균 알고리즘(Moving Average Algorithm)을 이용할 수 있다.

예를 들어, 프레임의 자기 상관 결과값 A(m,τ)을 스무딩시킨 A_smooth(m,τ)는

이고,

이고, τ가 3 이상인 경우에는 다음의 수학식 4를 이용하여 도출될 수 있다. 여기서 n은 2로 설정될 수 있다.

주기 성분 추출부(130)는 스무딩시킨 프레임의 자기 상관 결과값에서 극댓값(local maxima)를 추적할 수 있다. 주기 성분 추출부(130)는 예를 들어, 다음의 수학식 5를 이용하여 프레임의 주기 성분을 추출할 수 있다.

여기서 A_smooth(m,τ)는 스무딩시킨 프레임의 자기 상관 결과값이고, acf(m,τ)는 프레임의 주기 성분일 수 있다. 상술한 바와 같이, τ가 최대 지연 지점(maximum delay point)인 경우에는 프레임의 주기 성분은 스무딩시킨 자기 상관 결과값으로 추출되고, τ가 최대 지연 지점이 아닌 경우에는 프레임의 주기 성분은 0으로 추출될 수 있다. acf(m,τ)는 예를 들어, 샘플 시간의 범위에 기초하여 320차원의 벡터 형태로 나타날 수 있다.

도 6 내지 7은, 화자의 성별 또는 연령에 따른 여러 음성 데이터로부터 주기 성분을 추출하는 과정을 예시적으로 나타낸다.

도 6은 화자의 성별 또는 연령에 따른 시간 및 주파수 도메인의 신호를 예시적으로 나타낸다. 도 6의 (a)는 어린이의 음성 데이터의 프레임을 시간 및 주파수 도메인의 신호로 변환하여 나타낸 것이고, 도 6의 (b)는 여성의 음성 데이터의 프레임을 시간 및 주파수 도메인의 신호로 변환하여 나타낸 것이고, 도 6의 (c)는 남성의 음성 데이터의 프레임을 시간 및 주파수 도메인의 신호로 변환하여 나타낸 것이다.

도 7은 화자의 성별 또는 연령에 따른 음성 데이터로부터 도출한 프레임의 자기 상관 결과값 및 스무딩시킨 자기 상관 결과값을 예시적으로 나타낸다. 도 7의 (a)는 어린이의 음성 데이터로부터 도출된 프레임의 자기 상관 결과값이고, 도 7의 (b)는 도 7의 (a)를 스무딩시킨 결과를 도시한다. 도 7의 (c)는 여성의 음성 데이터로부터 도출된 프레임의 자기 상관 결과값이고, 도 7의 (d)는 도 7의 (c)를 스무딩시킨 결과를 도시한다. 도 7의 (e)는 남성의 음성 데이터로부터 도출된 프레임의 자기 상관 결과값이고, 도 7의 (f)는 도 7의 (e)를 스무딩시킨 결과를 도시한다.

도 7에 도시된 바와 같이, 음성 데이터에 대하여 자기 상관을 연산하면 주기성이 나타나는 것을 확인할 수 있다. 어린이의 경우 성별에 따른 음성 데이터의 특징에 차이가 크게 존재하지 않는다. 도 7을 참조하면, 어린이의 음성 데이터로부터 추출한 주기 성분의 경우 주기가 상대적으로 짧고, 남성의 음성 데이터로부터 추출한 주기 성분의 경우 주기가 상대적으로 긴 것을 확인할 수 있다.

특징 벡터 추출부(140)는 음성 특징값 및 주기 성분에 기초하여 음성 데이터의 특징 벡터를 추출할 수 있다. 음성 데이터의 특징 벡터는 i-vector(Identity Matrix)일 수 있고, 화자의 음성이 갖는 고유한 특징에 관한 정보를 포함할 수 있다. i-vector는 음성 데이터에 LLF(Low Level Feature Extraction) 처리를 통하여 도출한 특징에 대하여, MLF(Middle Level Feature Extraction) 처리를 통하여 도출한 특징일 수 있다.

특징 벡터 추출부(140)는 기학습된 추출 모델을 이용하여 음성 데이터의 특징 벡터를 추출할 수 있다. 특징 벡터 추출부(140)는 음성 데이터의 특징 벡터를 추출하기 위한 추출 모델의 일부로써 GMM-UBM(Gaussian Mixture Model-Universal Background Model)을 이용할 수 있다.

특징 벡터 추출부(140)에서 이용하는 추출 모델은, 복수의 음성 데이터로부터 추출한 음성 특징값 및 복수의 음성 데이터로부터 추출한 주기 성분을 입력으로 하여 학습된 것일 수 있다. 특징 벡터 추출부(140)는 복수의 음성 데이터의 음성 특징값 및 주기 성분을 결합한 벡터를 입력으로 하여 학습된 모델을 이용할 수 있다.

특징 벡터 추출부(140)는 추출 모델을 이용하여 입력받은 음성 데이터로부터 도출한 음성 특징값, 입력받은 음성 데이터로부터 추출한 주기 성분 및 상기 입력받은 음성 데이터로부터 사후 확률(Maximum A Posterior)을 도출할 수 있다.

특징 벡터 추출부(140)는 도출된 사후 확률에 기초하여 입력받은 음성 데이터의 특징 벡터를 추출할 수 있다. 특징 벡터 추출부(140)는 음성 데이터의 특징 벡터를 추출하기 위한 추출 모델의 일부로써 i-vector 추출 알고리즘, 예를 들어 칼디 툴킷(Kaldi-toolkit)을 이용할 수 있다.

화자 분류부(150)는 추출한 특징 벡터에 기초하여 음성 데이터에 대한 화자 분류를 수행할 수 있다. 화자 분류부(150)는 추출한 특징 벡터에 기초하여 음성 데이터의 화자의 성별 정보 또는 연령 정보를 예측할 수 있다.

화자 분류부(150)는 기학습된 분류 모델을 이용하여 화자 분류를 수행할 수 있다. 화자 분류부(150)는 화자 분류를 수행하기 위한 분류 모델로써, 딥러닝 모델(DNN)을 이용할 수 있으며, 이에 제한되지는 않는다.

도 8을 참조하면, 화자 분류부(150)에서 이용되는 분류 모델은 복수의 음성 데이터의 특징 벡터를 입력으로 하고, 각 음성 데이터의 화자의 클래스를 출력으로 하여 학습된 것일 수 있다. 화자는 예를 들어, 성인 남성, 성인 여성, 노인 남성, 노인 여성 및 어린이 중 어느 하나의 클래스로 분류될 수 있다.

도 9는 본 발명의 일 실시예에 따른 화자 분류 방법의 순서도이다. 도 9에 도시된 장치(100)에서 수행되는 화자를 분류하는 방법(900)은 도 1에 도시된 실시예에 따라 장치(100)에 의해 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1에 도시된 실시예에 따른 장치(100)에서 수행되는 화자를 분류하는 방법에도 적용된다.

단계 S910에서 장치(100)는 음성 데이터를 입력받을 수 있다.

단계 S920에서 장치(100)는 입력받은 음성 데이터로부터 음성 특징값을 도출할 수 있다.

단계 S930에서 장치(100)는 자기 상관 함수에 기초하여 입력받은 음성 데이터로부터 주기 성분을 추출할 수 있다.

단계 S940에서 장치(100)는 음성 특징값 및 주기 성분에 기초하여 음성 데이터의 특징 벡터를 추출할 수 있다.

단계 S950에서 장치(100)는 추출한 특징 벡터에 기초하여 음성 데이터에 대한 화자 분류를 수행할 수 있다.

상술한 설명에서, 단계 S910 내지 S950은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 1 내지 도 9를 통해 설명된 화자 분류 장치에서 화자를 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 9를 통해 설명된 화자 분류 장치에서 화자를 분류하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 화자 분류 장치
110: 음성 입력부
120: 특징값 도출부
130: 주기 성분 추출부
140: 특징 벡터 추출부
150: 화자 분류부

Claims

음성 데이터의 주기 성분을 이용하여 화자를 분류하는 화자 분류 장치에 있어서,
음성 데이터를 입력받는 음성 입력부;
상기 입력받은 음성 데이터로부터 음성 특징값을 도출하는 특징값 도출부;
자기 상관 함수에 기초하여 상기 입력받은 음성 데이터로부터 주기 성분을 추출하는 주기 성분 추출부;
상기 음성 특징값 및 상기 주기 성분에 기초하여 상기 음성 데이터의 특징 벡터를 추출하는 특징 벡터 추출부; 및
상기 추출한 특징 벡터에 기초하여 상기 음성 데이터에 대한 화자 분류를 수행하는 화자 분류부
를 포함하는 것인, 화자 분류 장치.
제 1 항에 있어서,
상기 주기 성분 추출부는 상기 입력받은 음성 데이터를 소정의 시간 간격으로 나누어 복수의 프레임을 생성하는 프레임 생성부; 및
상기 생성된 복수의 프레임 각각의 자기 상관을 연산하는 자기 상관 연산부를 포함하는, 화자 분류 장치.
제 2 항에 있어서,
상기 자기 상관 연산부는 상기 프레임을 시간 및 주파수 도메인의 신호로 변환하고, 상기 시간 및 주파수 도메인의 신호를 주파수를 기준으로 복수의 채널로 분리하고, 상기 복수의 채널 각각으로부터 채널별 자기 상관을 연산하고, 상기 채널별로 연산된 자기 상관에 따라 상기 프레임의 자기 상관 결과값을 도출하고,
상기 주기 성분 추출부는 상기 프레임의 자기 상관 결과값에 기초하여 상기 프레임의 주기 성분을 추출하는 것인, 화자 분류 장치.
제 3 항에 있어서,
상기 주기 성분 추출부는 상기 생성된 복수의 프레임 중 적어도 하나의 음성이 포함된 프레임의 주기 성분을 추출하는 것인, 화자 분류 장치.
제 1 항에 있어서,
상기 특징 벡터 추출부는 기학습된 추출 모델을 이용하여 상기 음성 데이터의 특징 벡터를 추출하는 것인, 화자 분류 장치.
제 5 항에 있어서,
상기 추출 모델은 복수의 음성 데이터로부터 추출한 음성 특징값 및 상기 복수의 음성 데이터로부터 추출한 주기 성분을 입력으로 하여 학습된 것인, 화자 분류 장치.
제 6 항에 있어서,
상기 특징 벡터 추출부는 상기 추출 모델을 이용하여 상기 입력받은 음성 데이터로부터 도출한 음성 특징값, 상기 입력받은 음성 데이터로부터 추출한 주기 성분 및 상기 입력받은 음성 데이터로부터 사후 확률(Maximum A Posterior)을 도출하고, 상기 도출된 사후 확률에 기초하여 상기 입력받은 음성 데이터의 특징 벡터를 추출하는 것인, 화자 분류 장치.
제 1 항에 있어서,
상기 화자 분류부는 기학습된 분류 모델을 이용하여 화자 분류를 수행하고, 상기 음성 데이터의 화자를 성인 남성, 성인 여성, 노인 남성, 노인 여성 및 어린이 중 어느 하나의 클래스로 분류하는 것인, 화자 분류 장치.
음성 데이터의 주기 성분을 이용하여 화자를 분류하는 화자 분류 방법에 있어서,
음성 데이터를 입력받는 단계;
상기 입력받은 음성 데이터로부터 음성 특징값을 도출하는 단계;
자기 상관 함수에 기초하여 상기 입력받은 음성 데이터로부터 주기 성분을 추출하는 단계;
상기 음성 특징값 및 상기 주기 성분에 기초하여 상기 음성 데이터의 특징 벡터를 추출하는 단계; 및
상기 추출한 특징 벡터에 기초하여 상기 음성 데이터에 대한 화자 분류를 수행하는 단계
를 포함하는 것인, 화자 분류 방법.
제 9 항에 있어서,
상기 주기 성분을 추출하는 단계는,
상기 입력받은 음성 데이터를 소정의 시간 간격으로 나누어 복수의 프레임을 생성하는 단계; 및
상기 생성된 복수의 프레임 각각의 자기 상관을 연산하는 단계를 포함하는, 화자 분류 방법.
제 10 항에 있어서,
상기 자기 상관을 연산하는 단계는,
상기 프레임을 시간 및 주파수 도메인의 신호로 변환하는 단계;
상기 시간 및 주파수 도메인의 신호를 주파수를 기준으로 복수의 채널로 분리하는 단계;
상기 복수의 채널 각각으로부터 채널별 자기 상관을 연산하는 단계; 및
상기 채널별로 연산된 자기 상관에 따라 상기 프레임의 자기 상관 결과값을 도출하는 단계를 포함하고,
상기 주기 성분을 추출하는 단계는 상기 프레임의 자기 상관 결과값에 기초하여 상기 프레임의 주기 성분을 추출하는 것인, 화자 분류 방법.
제 11 항에 있어서,
상기 주기 성분을 추출하는 단계는,
상기 생성된 복수의 프레임 중 적어도 하나의 음성이 포함된 프레임의 주기 성분을 추출하는 것인, 화자 분류 방법.
제 9 항에 있어서,
상기 특징 벡터를 추출하는 단계는,
기학습된 추출 모델을 이용하여 상기 음성 데이터의 특징 벡터를 추출하는 것인, 화자 분류 방법.
제 13 항에 있어서,
상기 추출 모델은 복수의 음성 데이터로부터 추출한 음성 특징값 및 상기 복수의 음성 데이터로부터 추출한 주기 성분을 입력으로 하여 학습된 것인, 화자 분류 방법.
제 14 항에 있어서,
상기 특징 벡터를 추출하는 단계는 상기 추출 모델을 이용하여 상기 입력받은 음성 데이터로부터 도출한 음성 특징값, 상기 입력받은 음성 데이터로부터 추출한 주기 성분, 및 상기 입력받은 음성 데이터로부터 사후 확률(Maximum A Posterior)을 도출하고, 상기 도출된 사후 확률에 기초하여 상기 입력받은 음성 데이터의 특징 벡터를 추출하는 것인, 화자 분류 방법.
제 9 항에 있어서,
상기 화자 분류를 수행하는 단계는 기학습된 분류 모델을 이용하여 화자 분류를 수행하고, 상기 음성 데이터의 화자를 성인 남성, 성인 여성, 노인 남성, 노인 여성 및 어린이 중 어느 하나의 클래스로 분류하는 것인, 화자 분류 방법.
음성 데이터의 주기 성분을 이용하여 화자를 분류하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우,
음성 데이터를 입력받고,
상기 입력받은 음성 데이터로부터 음성 특징값을 도출하고,
자기 상관 함수에 기초하여 상기 입력받은 음성 데이터로부터 주기 성분을 추출하고,
상기 음성 특징값 및 상기 주기 성분에 기초하여 상기 음성 데이터의 특징 벡터를 추출하고,
상기 추출한 특징 벡터에 기초하여 상기 음성 데이터에 대한 화자 분류를 수행하도록 하는 명령어들의 시퀀스를 포함하는 것인, 매체에 저장된 컴퓨터 프로그램.