KR20220012473A

KR20220012473A - 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Info

Publication number: KR20220012473A
Application number: KR1020200091037A
Authority: KR
Inventors: 나선필; 김남수; 한민현; 김형용; 김석민; 손병찬
Original assignee: 국방과학연구소
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2022-02-04
Also published as: KR102405163B1

Abstract

실시예의 화자 임베딩 추출 장치는 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출부와, 상기 프레임 단계 특징 벡터 추출부로부터 추출된 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 문장 단위 특징 벡터 추출부와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 상호 정보량 추정부를 포함할 수 있다.
실시예는 화자 라벨 데이터를 필요로 하지 않기 때문에 비교적 구하기 쉬운 라벨이 없는 음성 데이터를 이용해 비지도 방식으로 화자 엠비딩 추출 모델을 학습시킬 수 있는 효과가 있다.

Description

상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램{APPARATUS AND METHOD UNSUPERVISED PRETRAINING SPEAKER EMBEDDING EXTRACTION SYSTEM USING MUTUAL INFORMATION NEURAL ESTIMATOR, COMPUTER-READABLE STORAGE MEDIUM AND COMPUTER PROGRAM}

실시예는 화자 임베딩 추출 모델의 사전 학습 기법에 관한 것으로, 보다 상세하게는 다량의 라벨이 없는 데이터가 있는 경우, 화자 임베딩 추출 모델을 학습시키는 기술에 관한 것이다.

일반적으로, 화자 인식이란 주어진 음성의 특징들을 분석하여 해당 음성을 발화한 화자의 정체성을 판별하는 기술이다. 일반적인 화자 인식 과정에서는 화자 임베딩이라고 불리는 고정된 길이의 특징 벡터를 추출한 후 사전에 등록되어 있는 화자 임베딩과 비교하여 화자의 정체성을 판별하게 된다.

종래에는 i-vector 와 같은 통계 기반의 화자 임베딩이 주로 사용되었으나, 최근 딥 러닝의 발달로 신경망을 이용한 화자 임베딩 추출 기법으로 대체되고 있다. 하지만, 이러한 딥 러닝을 이용한 화자 임베딩 추출 시스템은 다량의 라벨이 있는 학습 데이터가 있어야만 높은 성능이 보장된다는 단점이 있다.

한국등록특허 제10-1843079호

상술한 문제점을 해결하기 위해, 실시예는 상호 정보량을 이용하여 화자 임베딩을 추출하기 위한 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법을 제공하는 것을 그 목적으로 한다.

실시예의 화자 임베딩 추출 장치는 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출부와, 상기 프레임 단계 특징 벡터 추출부로부터 추출된 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 문장 단위 특징 벡터 추출부와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 상호 정보량 추정부를 포함할 수 있다.

상기 음성 특징 벡터는 MFCC, 스펙트로그램을 포함할 수 있다.

상기 문장 단계 특징 벡터 추출부는 풀링(Pooling) 기법을 이용하여 상기 프레임 단위의 특징 벡터를 상기 문장 단위의 특징 벡터로 변환시킬 수 있다.

상기 제1 딥 러닝 모델 및 상기 제2 딥 러닝 모델은 FCN, CNN 및 RNN을 포함할 수 있다.

상기 상호 정보량 추정부는 GIM(Global Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정할 수 있다.

상기 상호 정보량 추정부는 LIM(Local Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정할 수 있다.

상기 상호 정보량 추정부는 GIM 기법 및 LIM 기법을 이용하여 상기 상호 정보량을 추정할 수 있다.

상기 상호 정보량 추정부는 DVR(Donsker-Varadhan representation), BCE(Binary Cross Entropy) 또는 NCE(Noise Contrastive Estimation) 중 어느 하나를 목적함수로 사용하여 상기 상호 정보량을 최대화하는 방향으로 학습시킬 수 있다.

또한, 실시예는 화자 임베딩 추출 장치에서 수행되는 화자 임베딩 추출 방법에 있어서, 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계를 포함할 수 있다.

실시예는 화자 라벨 데이터를 필요로 하지 않기 때문에 비교적 구하기 쉬운 라벨이 없는 음성 데이터를 이용해 비지도 방식으로 화자 임베딩 추출 모델을 학습시킬 수 있는 효과가 있다.

또한, 학습된 임베딩 추출 장치는 추후에 습득한 라벨이 존재하는 음성 데이터를 통해 미세 조정(fine tuning)하여 사용할 수 있다.

도 1은 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 장치를 나타낸 블록도이다.
도 2는 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 방법을 나타낸 순서도이다.

이하, 도면을 참조하여 실시예를 상세히 설명하기로 한다.

도 1은 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 장치를 나타낸 블록도이다.

도 1을 참조하면, 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 장치(1000)는 프레임 단위 특징 벡터 추출부(100)와, 문장 단위 특징 벡터 추출부(200)와, 상호 정보량 추정부(300)를 포함할 수 있다.

프레임 단위 특징 벡터 추출부(100)는 음성 특징 벡터(V1)를 이용하여 프레임 단위의 특징 벡터(V2)를 추출할 수 있다. 프레임 단위 특징 벡터 추출부(100)는 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터(V2)를 추출할 수 있다. 제1 딥 러닝 모델의 입력으로 음성 특징 벡터(V1)가 이용될 수 있다.

음성 특징 벡터(V1)는 음성으로부터 추출될 수 있다. 음성 특징 벡터(V1)는 음성 내에 존재하는 화자, 녹음 상태, 잡음 등으로 인한 다양한 변이성을 작은 차원의 벡터로 표현된 것으로, MFCC, 스펙트로그램 등을 포함할 수 있다. 예컨대, MFCC는 음성의 고유한 특징을 나타내는 수치이다.

제1 딥 러닝 모델은 FCN (fully connected neural network), CNN(convolutional neural network), RNN(recurrent neural network)을 포함할 수 있으나, 이에 한정되지 않는다. 제1 딥 러닝 모델은 라벨이 없는 데이터들을 이용해, 상호정보량을 최대화 시키도록 두 모델과 상호정보량 추정부 네트워크를 미리 같이 학습(jointly training) 시킨 후, 라벨이 있는 데이터들을 이용해, 미세 조정 하는 식으로 학습이 수행될 수 있다.

제1 딥 러닝 모델은 음성 특징 벡터(V1)를 입력으로 하여 짧은 시간 즉, 프레임 단위의 특징을 나타내는 벡터를 추출할 수 있다.

문장 단위 특징 벡터 추출부(200)는 프레임 단위 특징 벡터(V2)를 입력받아 고정된 차원의 문장 단위의 특징 벡터(V3)로 변환할 수 있다. 문장 단위 특징 벡터 추출부(200)는 풀링(Pooling) 기법을 이용하여 프레임 단위 특징 벡터(V2)를 문장 단위의 특징 벡터(V3)로 변환시킬 수 있다. 풀링 기법으로는 average pooling, statistics pooling, attention based pooling 등을 포함할 수 있으나, 이에 한정되지 않는다.

이후, 고정된 차원으로 변환된 특징 벡터는 입력 문장의 특징을 나타내는 문장 단위의 특징 벡터 또는 화자 임베딩으로 사용될 수 있다.

상호 정보량 추정부(300)는 프레임 단위 특징 벡터 추출부(100)로부터 추출된 프레임 단위 특징 벡터(V2)와, 상기 문장 단위 특징 벡터 추출부(200)로부터 추출된 문장 단위 특징 벡터(V3)를 이용하여 상호 정보량을 추정할 수 있다. 상호 정보량 추정부(300)는 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정할 수 있다.

제2 딥 러닝 모델은 FCN (fully connected neural network), CNN(convolutional neural network), RNN(recurrent neural network)을 포함할 수 있으나, 이에 한정되지 않는다. 제2 딥 러닝 모델은 라벨이 없는 데이터들을 이용해, 상호정보량을 최대화 시키도록 두 모델과 상호정보량 추정부 네트워크를 미리 같이 학습(jointly training) 시킨 후, 라벨이 있는 데이터들을 이용해, 미세 조정 하는 식으로 학습이 수행될 수 있다.

학습은 상호 정보량의 하계(lower bound)를 나타내는 DVR(Donsker-Varadhan representation)을 목적 함수로 사용하여 상호 정보량을 최대화 하는 방향으로 학습될 수 있다. 이외에도 DVR과 유사한 역할을 수행하는 목적 함수인 BCE(Binary Cross Entropy) 또는 NCE(Noise Contrastive Estimation) 기법을 이용할 수도 있다.

상호 정보량 추정부(300)는 입력에 사용되는 특징 벡터의 개수를 전체 프레임 단위 특징 벡터들을 사용해 전체적인 상호 정보량을 최대화하는 GIM(Global Information Maximization) 기법을 사용할 수 있다.

이와 다르게, 상호 정보량 추정부(300)는 단일 프레임 단위 특징 벡터들을 사용해 평균적인 상호 정보량을 최대화하는 LIM(Local Information Maximization) 기법을 이용할 수 있다.

이와 다르게, 상호 정보량 추정부(300)는 GIM 기법 및 LIM 기법을 동시에 사용할 수 있다.

실시예는 화자 라벨 데이터를 필요로 하지 않기 때문에 비교적 구하기 쉬운 라벨이 없는 음성 데이터를 이용해 비지도 방식으로 화자 엠비딩 추출 모델을 학습시킬 수 있는 효과가 있다.

도 2는 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 방법을 나타낸 순서도이다.

도 2를 참조하면, 실시예에 따른 화자 임베딩 추출 방법은 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계(S100)와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계(S200)와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계(S300)를 포함할 수 있다. 여기서, 화자 임베딩 추출 방법은 화자 임베딩 추출 장치에서 수행될 수 있다.

음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계(S100)는 프레임 단위 특징 벡터 추출부에서 수행될 수 있다.

음성 특징 벡터는 음성으로부터 추출될 수 있다. 음성 특징 벡터는 음성 내에 존재하는 화자, 녹음 상태, 잡음 등으로 인한 다양한 변이성을 작은 차원의 벡터로 표현된 것으로, MFCC, 스펙트로그램 등을 포함할 수 있다. 예컨대, MFCC는 음성의 고유한 특징을 나타내는 수치이다.

프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계(S200)는 문장 단위 특징 벡터 추출부에서 수행될 수 있다.

문장 단위 특징 벡터로 변환하는 단계(S200)는 풀링(Pooling) 기법을 이용하여 프레임 단위 특징 벡터를 문장 단위의 특징 벡터로 변환시킬 수 있다. 풀링 기법으로는 average pooling, statistics pooling, attention based pooling 등을 포함할 수 있으나, 이에 한정되지 않는다.

프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계(S300)는 상호 정보량 추정부에서 수행될 수 있다.

상호 정보량을 추정하는 단계(S300)는 입력에 사용되는 특징 벡터의 개수를 전체 프레임 단위 특징 벡터들을 사용해 전체적인 상호 정보량을 최대화하는 GIM(Global Information Maximization) 기법을 사용할 수 있다. 이와 다르게, 상호 정보량 추정부는 단일 프레임 단위 특징 벡터들을 사용해 평균적인 상호 정보량을 최대화하는 LIM(Local Information Maximization) 기법을 이용할 수 있다.

이와 다르게, 상호 정보량 추정부는 GIM 기법 및 LIM 기법을 동시에 사용할 수 있다.

본 문서의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 메모리(내장 메모리 또는 외장 메모리))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램)로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치를 포함할 수 있다. 상기 명령이 제어부에 의해 실행될 경우, 제어부가 직접, 또는 상기 제어부의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, 비일시적은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.

실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다.

일 실시예에 따르면, 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.

일 실시예에 따르면, 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.

상기에서는 도면 및 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 실시예의 기술적 사상으로부터 벗어나지 않는 범위 내에서 실시예는 다양하게 수정 및 변경시킬 수 있음은 이해할 수 있을 것이다.

100: 프레임 단위 특징 벡터 추출부
200: 문장 단위 특징 벡터 추출부
300: 상호 정보량 추정부

Claims

음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출부;
상기 프레임 단계 특징 벡터 추출부로부터 추출된 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 문장 단위 특징 벡터 추출부; 및
상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 상호 정보량 추정부;
를 포함하는 화자 임베딩 추출 장치.
제1항에 있어서,
상기 음성 특징 벡터는 MFCC, 스펙트로그램을 포함하는 화자 임베딩 추출 장치.
제1항에 있어서,
상기 문장 단계 특징 벡터 추출부는 풀링(Pooling) 기법을 이용하여 상기 프레임 단위의 특징 벡터를 상기 문장 단위의 특징 벡터로 변환시키는 화자 임베딩 추출 장치.
제1항에 있어서,
상기 제1 딥 러닝 모델 및 상기 제2 딥 러닝 모델은 FCN, CNN 및 RNN을 포함하는 화자 임베딩 추출 장치.
제1항에 있어서,
상기 상호 정보량 추정부는 GIM(Global Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정하는 화자 임베딩 추출 장치.
제1항에 있어서,
상기 상호 정보량 추정부는 LIM(Local Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정하는 화자 임베딩 추출 장치.
제1항에 있어서,
상기 상호 정보량 추정부는 GIM 기법 및 LIM 기법을 이용하여 상기 상호 정보량을 추정하는 화자 임베딩 추출 장치.
제1항에 있어서,
상기 상호 정보량 추정부는 DVR(Donsker-Varadhan representation), BCE(Binary Cross Entropy) 또는 NCE(Noise Contrastive Estimation) 중 어느 하나를 목적함수로 사용하여 상기 상호 정보량을 최대화하는 방향으로 학습시키는 화자 임베딩 추출 장치.
화자 임베딩 추출 장치에서 수행되는 화자 임베딩 추출 방법에 있어서,
음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계;
상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계; 및
상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계;
를 포함하는 화자 임베딩 추출 방법.
컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
상기 컴퓨터 프로그램은,
음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계;
상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계; 및
상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는단계;
를 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은,
음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계;
상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계; 및
상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계;
를 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 프로그램.