WO2022054994A1

WO2022054994A1 - 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체

Info

Publication number: WO2022054994A1
Application number: PCT/KR2020/012348
Authority: WO
Inventors: 김남수; 강우현
Original assignee: 서울대학교산학협력단
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2022-03-17

Abstract

본 발명에서 제안하고 있는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있다.

Description

비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체

본 발명은 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 관한 것으로서, 보다 구체적으로는 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 잡음 혹은 반향과 같은 화자 외적인 정보를 분류하는 모델을 함께 학습하여 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 하는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 관한 것이다.

일반적으로 음성, 영상, 생체신호와 같은 신호를 분류하거나 분석하기 위해서 많은 경우 프레임 단위로 특징을 추출한다. 예를 들어, 음성의 경우에는 입력 음성을 짧은 시간 단위의 프레임으로 나눈 후, 각각의 프레임에서 MFCC(Mel-Frequency Cepstral Coefficients)와 같은 특징을 추출할 수 있다. 이러한 프레임 단위의 특징은 특정 시간에서 신호가 갖는 주파수 특성을 표현하며, 음성의 경우에는 발화한 화자의 성도(vocal tract) 형태의 패턴을, 그리고 영상의 경우에는 경계선(edge)에 대한 정보를 담고 있다. 하지만 입력된 신호들의 길이가 다른 경우, 추출되는 프레임 단위 특징의 수가 달라지기 때문에 SVM(Support Vector Machine)이나 DNN(Deep Neural Network)과 같이 하나의 고정된 크기의 벡터를 입력으로 받는 분류기를 사용하기 어려운 문제가 있다.

이러한 문제를 해결하기 위하여 입력 신호의 길이에 무관하게 전체적인 패턴을 압축적으로 고정된 크기의 벡터에 표현하는 많은 기법들이 연구되어왔으며, 대표적으로 딥러닝 구조를 이용하여 화자 임베딩을 추출하는 d-vector나 x-vector와 같은 기법이 있다. 이러한 d-vector나 x-vector와 같은 기법들은 음성이 주어졌을 때 프레임 단위의 특징을 평균, 혹은 가중합(weighted sum)을 통하여 압축한 후, 화자 인식을 하는 딥러닝 모델을 학습한다. 학습한 후, 압축된 프레임 단위의 특징을 입력된 음성의 화자 특징을 나타내는 고정된 크기의 화자 임베딩 벡터로 활용한다. 해당 기법들은 일반적인 화자 인식 환경에서 우수한 결과를 보이며, 현재까지 널리 활용되는 추세에 있다. 하지만 위 기법들은 오로지 학습 데이터 내에 존재하는 화자를 분류하도록 학습되기 때문에, 학습 데이터와는 다른 환경 요소(잡음, 반향)에서 녹음된 음성이 주어진 경우 성능 저하가 일어난다.

또한, 현재 화자 인식 분야에서 입력 신호 단위의 특징 추출 기술로 가장 높은 성능을 보이며 널리 사용되는 기법인 d-vector나 x-vector는 입력 신호의 프레임 단위 특징들을 압축한 후 화자 인식 성능을 높이도록 학습되고 있지만, 학습 화자의 분류 성능을 높이도록 학습되기에 추출된 화자 특징(화자 임베딩)에는 화자 외의 정보(잡음, 녹음 기기 등)가 포함될 가능성이 높으며, 이러한 비 화자 요소들로 인하여 열화된 음성이 입력된 경우 화자 인식 성능이 급격히 감소하게 되는 문제가 있었다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하고, 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하며, 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하도록 구성함으로써, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 환경 요소에 강인한 화자 임베딩을 추출할 수 있는 딥러닝 기반 임베딩 추출 기술로서, 추출된 화자 임베딩 벡터는 보다 비화자 요소에 대한 정보가 제거된 수순 화자 정보만을 유지할 수 있으며, 열화된 신호의 길이에 무관하게 목적 정보(화자)에 대한 정보만 최대한 내포된 고정된 작은 차원의 벡터로 표현이 가능하도록 하는 특징 추출 알고리즘으로 길이가 다른 신호를 비교해야 하는 화자 인식 및 생체 신호 인식과 같은 분야에서 널리 사용될 수 있도록 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체를 제공하는 것을 또 다른 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법은,

비화자 요소에 강인한 화자 임베딩 추출 방법으로서,

(1) 프레임 단위 네트워크가 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계;

(2) 압축 층이 상기 단계 (1)에서 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계; 및

(3) 인식 네트워크가 상기 단계 (2)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계(1)에서는,

상기 프레임 단위 네트워크(110)가 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구현될 수 있다.

바람직하게는, 상기 단계(2)에서는,

(2-1) 상기 압축 층의 화자 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계; 및

(2-2) 상기 압축 층의 비화자 요소 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계를 포함하되,

상기 단계 (2-1)과 단계 (2-2)가 동시에 수행되어 화자 임베딩 벡터와 비화자 요소 임베딩 벡터는 동시에 추출될 수 있다.

더욱 바람직하게는, 상기 단계(2)에서는,

화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻을 수 있다.

더욱 바람직하게는, 상기 단계(3)에서는,

(3-1) 상기 인식 네트워크의 화자 인식 네트워크가 상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계; 및

(3-2) 상기 인식 네트워크의 비화자 인식 네트워크가 상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계를 포함할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치는,

비화자 요소에 강인한 화자 임베딩 추출 장치로서,

입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 프레임 단위 네트워크;

상기 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 압축 층; 및

상기 압축 층에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 인식 네트워크를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 프레임 단위 네트워크는,

상기 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구성될 수 있다.

바람직하게는, 상기 압축 층은,

상기 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 화자 임베딩 압축 층; 및

상기 화자 임베딩 압축 층의 화자 임베딩 벡터의 추출과 동시에, 상기 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 비화자 요소 임베딩 압축 층을 포함하여 구성할 수 있다.

더욱 바람직하게는, 상기 압축 층은,

상기 화자 임베딩 압축 층과 비화자 요소 임베딩 압축 층을 통해 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻을 수 있다.

더욱 바람직하게는, 상기 인식 네트워크는,

상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 화자 인식 네트워크; 및

상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 비화자 인식 네트워크를 포함하여 구성할 수 있다.

본 발명에서 제안하고 있는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하고, 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하며, 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하도록 구성함으로써, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있다.

또한, 본 발명의 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 환경 요소에 강인한 화자 임베딩을 추출할 수 있는 딥러닝 기반 임베딩 추출 기술로서, 추출된 화자 임베딩 벡터는 보다 비화자 요소에 대한 정보가 제거된 수순 화자 정보만을 유지할 수 있으며, 열화된 신호의 길이에 무관하게 목적 정보(화자)에 대한 정보만 최대한 내포된 고정된 작은 차원의 벡터로 표현이 가능하도록 하는 특징 추출 알고리즘으로 길이가 다른 신호를 비교해야 하는 화자 인식 및 생체 신호 인식과 같은 분야에서 널리 사용될 수 있도록 할 수 있다.

도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면.

도 2는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법의 흐름을 도시한 도면.

도 3은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S120의 세부 흐름을 도시한 도면.

도 4는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면.

도 5는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 개략적인 구성을 기능블록으로 도시한 도면.

도 6은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 압축 층의 구성을 기능블록으로 도시한 도면.

도 7은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 인식 네트워크의 구성을 기능블록으로 도시한 도면.

<부호의 설명>

100: 본 발명의 일실시예에 따른 화자 임베딩 추출 장치

110: 프레임 단위 네트워크

120: 압축 층

130: 인식 네트워크

121: 화자 임베딩 압축 층

122: 비화자 요소 임베딩 압축 층

131: 화자 인식 네트워크

132: 비화자 인식 네트워크

S110: 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계

S120: 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계

S121: 화자 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계

S122: 비화자 요소 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계

S130: 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계

S131: 화자 인식 네트워크가 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계

S132: 비화자 인식 네트워크가 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 딥러닝 기반 화자 임베딩 모델은, 기본적으로 프레임 단위 네트워크(frame-level network)와, 화자 인식용 압축 층(pooling layer), 및 화자 인식 네트워크(speaker classification network)로 구성될 수 있다. 프레임 단위 네트워크는 long short-term memory model(LSTM)이나 일반적인 deep neural network(DNN)과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서 보다 유의미한 정보를 포함한 시퀀스를 출력한다.

또한, 화자 인식용 압축 층에서는 평균 혹은 가중 합(weighted sum)을 통하여 프레임 단위 네트워크에서 출력한 시퀀스를 하나의 벡터, 즉 화자 임베딩(speaker embedding)으로 압축시킨다. 이후 압축된 벡터는 DNN으로 구성된 화자 인식 네트워크로 입력되며, 해당 화자 인식 네트워크는 화자 인식 결과(화자 라벨, speaker label)를 출력한다. 위의 세 구성 요소들은 화자 인식 결과가 좋아지도록 동시에 학습되며, 학습 후에는 화자 임베딩을 추출하는데 활용된다. 화자 인식을 위한 학습 목적함수는 cross-entropy이며, 아래의 [수학식 1]로 나타낼 수 있다.

여기서, n번째 화자에 대한 y _n은 화자 정답 라벨,

은 화자 인식 네트워크가 추정한 화자 확률(0과 1 사이의 값)을 의미하며, w는 압축 층에서 추출한 임베딩 벡터이다. 만약 정답 화자가 n인 경우, y _n=1이며, [수학식 1]을 최소화하기 위하여 임베딩 모델의 파라미터들은

이 최대한 큰 값을 갖도록 학습될 수 있다.

도 2는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법의 흐름을 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S120의 세부 흐름을 도시한 도면이며, 도 4는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면이다. 도 2 내지 도 4에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법은, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계(S110), 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계(S120), 및 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계(S130)를 포함하여 구현될 수 있다.

본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법은 컴퓨팅 장치에 의해 수행될 수 있으며, 도 5 내지 도 7에 각각 도시되는 바와 같이, 비화자 요소에 강인한 화자 임베딩 추출 장치(100)가 적용되는 것으로 이해될 수 있다.

단계 S110에서는, 프레임 단위 네트워크(110)가 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력한다. 이러한 단계 S110에서는 프레임 단위 네트워크(110)가 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구현될 수 있다.

단계 S120에서는, 압축 층(120)이 단계 S110에서 출력되는 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출한다. 이러한 단계 S120에서는 도 3에 도시된 바와 같이, 압축 층(120)의 화자 임베딩 압축 층(121)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계 S121과, 압축 층(120)의 비화자 요소 임베딩 압축 층(122)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계 S122를 포함할 수 있다.

여기서, 단계 S121과 단계 S122는 동시에 수행되어 화자 임베딩 벡터와 비화자 요소 임베딩 벡터는 동시에 추출한다. 또한, 단계 S120에서는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻을 수 있다.

단계 S130에서는, 인식 네트워크(130)가 단계 S120에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력한다. 이러한 단계 S130에서는 도 4에 도시된 바와 같이, 인식 네트워크(130)의 화자 인식 네트워크(131)가 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계 S131과, 인식 네트워크(130)의 비화자 인식 네트워크(132)가 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계 S132를 포함한다.

또한, 인식 네트워크(130)의 화자 인식 네트워크(131)와 비화자 인식 네트워크(132)는 DNN으로 구성되며, 압축 층(120)에서 추출된 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력되면, 화자 인식 네트워크(131)는 화자 확률을 출력하고, 비화자 인식 네트워크(132)는 특정 비화자 요소의 확률(잡음, 반향, 특정 기기로부터 녹음되었을 확률 등)을 출력한다.

본 발명에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법의 각 단계의 요소들은 모두 동시에 학습되며, 화자 임베딩은 화자 인식 결과가 좋아지되 비화자 요소 인식 결과는 나빠지도록 하고, 비화자 요소 임베딩은 반대로 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습된다. 본 발명에서 제시되는 요소에서, 화자에 대한 정보를 내포하는 화자 임베딩(speaker embedding)과 화자 외 정보(잡음, 녹음기기 등)에 대한 정보를 내포하는 비화자 요소 임베딩(nuisance attribute embedding)을 동시에 추출하고, 화자를 분류하는 화자 인식 모델(speaker identifier)과 비화자 요소를 분류하는 비화자 요소 인식 모델(nuisance attribute identifier)을 임베딩 모델과 함께 학습한다. 여기서, 화자 임베딩은 화자 인식 성능을 높이되, 비화자 요소 인식 성능을 낮추도록 학습되고, 비화자 요소 임베딩은 비화자 요소 인식 성능을 높이되, 화자 인식 성능을 낮추도록 학습하게 된다.

도 5는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 개략적인 구성을 기능블록으로 도시한 도면이고, 도 6은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 압축 층의 구성을 기능블록으로 도시한 도면이며, 도 7은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 인식 네트워크의 구성을 기능블록으로 도시한 도면이다. 도 5 내지 도 7에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치(100)는, 프레임 단위 네트워크(110), 압축 층(120), 및 인식 네트워크(130)를 포함하여 구성될 수 있다.

프레임 단위 네트워크(110)는, 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 구성이다. 이러한 프레임 단위 네트워크(110)는 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구성될 수 있다.

압축 층(120)은 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 구성이다. 이러한 압축 층(200)은 도 6에 도시된 바와 같이, 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 화자 임베딩 압축 층(121)과, 화자 임베딩 압축 층(121)의 화자 임베딩 벡터의 추출과 동시에, 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성할 수 있다.

또한, 압축 층(120)은 화자 임베딩 압축 층(121)과 비화자 요소 임베딩 압축 층(122)을 통해 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻어질 수 있다.

인식 네트워크(130)는 압축 층(120)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 구성이다. 이러한 인식 네트워크(130)는 도 7에 도시된 바와 같이, 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 화자 인식 네트워크(131)와, 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 비화자 인식 네트워크(132)를 포함하여 구성할 수 있다.

이하에서는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치의 일실시예로서 녹음 기기의 종류에 강인한 화자 임베딩 추출에 사용하는 경우, 녹음 기기의 임베딩을 추출하고, 비화자 요소 인식 네트워크가 녹음 기기의 종류를 분류하도록 설정할 수 있다. 여기서, 화자 임베딩의 화자 인식 네트워크에 대한 성능을 높이기 위하여 아래의 [수학식 2]와 같은 cross-entropy 목적 함수를 최소화 한다.

여기서,

은 화자 임베딩 압축 층을 통해 구한 화자 임베딩을 의미하며, n번째 화자에 대한 y _n은 화자 정답 라벨,

은 화자 인식 네트워크가 추정한 화자 확률을 의미한다.

또한, 유사하게 녹음 기기의 임베딩의 녹음 기기의 인식 네트워크에 대한 성능을 높이기 위해서는 아래의 [수학식 3]과 같은 cross-entropy 목적 함수를 최소화 한다.

여기서,

은 녹음 기기의 임베딩 압축 층을 통해 구한 녹음 기기의 임베딩을 의미하며, m번째 녹음 기기에 대한 r _m은 녹음 기기의 정답 라벨,

은 녹음 기기의 인식 네트워크가 추정한 녹음 기기의 확률(해당 음성이 특정 녹음 기기로 녹음되었을 확률)을 의미한다.

화자 임베딩의 녹음 기기에 대한 정보를 최소화 하도록 아래의 [수학식 4]와 같은 entropy 목적 함수를 최대화 한다.

여기서, [수학식 4]가 최대화되기 위해서는 모든 녹음 기기들에 대하여 확률이 최대화가 되어야하기 때문에 이상적인 상태에서는 화자 임베딩의 모든 녹음 기기에 대한 확률이

로 수렴하게 된다.

유사하게 녹음 기기의 임베딩의 화자에 대한 정보를 최소화하기 위하여 아래의 [수학식 5]와 같은 entropy 목적 함수를 최대화 한다.

여기서, [수학식 5]가 최대화되기 위해서는 모든 화자에 대하여 확률이 최대화가 되어야하기 때문에 이상적인 상태에서는 녹음 기기의 임베딩의 모든 화자에 대한 확률이

로 수렴하게 된다.

더 나아가, 화자 임베딩과 녹음 기기의 임베딩 사이 상호 정보를 최소화하기 위하여 아래의 [수학식 6]과 같은 상관도 목적 함수를 최소화 한다.

본 발명의 임베딩 네트워크는 위 목적 함수들을 모두 활용하여 학습되며, 최종적인 목적 함수는 아래의 [수학식 7]과 같이 나타낼 수 있다.

상술한 바와 같이, 본 발명을 이용하여 총 6종류의 녹음 기기(삼성 넥서스, 삼성 갤럭시S 2종, HTC Desire, 삼성 탭, HTC Legend)로 녹음된 RSR2015 Part 3 음성 데이터셋에 대한 성능 검증을 한 결과는 아래의 [표 1]과 같다.

위 표 1의 결과에서 확인할 수 있는 바와 같이, 본 발명으로 추출한 임베딩이 기존의 기법에 비하여 높은 성능을 보였다.

본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치는 비선형적인 처리를 통하여 입력 신호나 정보열에 있는 분포적 패턴을 고정된 크기의 벡터로 표현해주는 알고리즘이기 때문에 기존에 i-vector, d-vector, x-vector나 GMM supervector와 같은 기법을 사용하는 분야에는 모두 적용할 수 있다. 즉, 본 발명은 음성이나 영상, 생체신호와 같이 입력의 길이가 다를 수 있는 정보열(sequence)을 중요 정보만 담고 있는 고정된 길이의 벡터로 압축하는 기술로, 화자 인식뿐만 아니라 음성 인식 혹은 음성 합성과 같이 화자에 대한 정보를 부가 입력으로 사용할 수 있는 다양한 음성 분야에 적용될 수 있다.

또한, 음성뿐만 아니라 다른 정보열을 받아서 고정된 크기의 벡터를 추출하는 과정을 요하는 기술에도 활용될 수 있다. 예를 들어, 영상이나 생체 신호가 주어진 경우, 길이가 다른 정보열을 압축적으로 표현하는데 사용될 수 있을 것이며, 더 나아가 문서와 같이 구조적인 정보열의 압축에도 활용될 수 있다.

상술한 바와 같이, 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체는, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하고, 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하며, 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하도록 구성함으로써, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있으며, 특히, 환경 요소에 강인한 화자 임베딩을 추출할 수 있는 딥러닝 기반 임베딩 추출 기술로서, 추출된 화자 임베딩 벡터는 보다 비화자 요소에 대한 정보가 제거된 수순 화자 정보만을 유지할 수 있으며, 열화된 신호의 길이에 무관하게 목적 정보(화자)에 대한 정보만 최대한 내포된 고정된 작은 차원의 벡터로 표현이 가능하도록 하는 특징 추출 알고리즘으로 길이가 다른 신호를 비교해야 하는 화자 인식 및 생체 신호 인식과 같은 분야에서 널리 사용될 수 있도록 할 수 있게 된다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims

비화자 요소에 강인한 화자 임베딩 추출 방법으로서,

(1) 프레임 단위 네트워크(110)가 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계;

(2) 압축 층(120)이 상기 단계 (1)에서 출력되는 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계; 및

(3) 인식 네트워크(130)가 상기 단계 (2)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계를 포함하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
제1항에 있어서, 상기 단계(1)에서는,

상기 프레임 단위 네트워크(110)가 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구현되는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
제1항에 있어서, 상기 단계(2)에서는,

(2-1) 상기 압축 층(120)의 화자 임베딩 압축 층(121)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계; 및

(2-2) 상기 압축 층(120)의 비화자 요소 임베딩 압축 층(122)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계를 포함하되,

상기 단계 (2-1)과 단계 (2-2)가 동시에 수행되어 화자 임베딩 벡터와 비화자 요소 임베딩 벡터는 동시에 추출되는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
제3항에 있어서, 상기 단계(2)에서는,

화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻어지는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
제3항에 있어서, 상기 단계(3)에서는,

(3-1) 상기 인식 네트워크(130)의 화자 인식 네트워크(131)가 상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계; 및

(3-2) 상기 인식 네트워크(130)의 비화자 인식 네트워크(132)가 상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계를 포함하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
비화자 요소에 강인한 화자 임베딩 추출 장치(100)로서,

입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 프레임 단위 네트워크(110);

상기 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 압축 층(200); 및

상기 압축 층(120)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 인식 네트워크(130)를 포함하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
제6항에 있어서, 상기 프레임 단위 네트워크(110)는,

상기 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구성되는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
제6항에 있어서, 상기 압축 층(120)은,

상기 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 화자 임베딩 압축 층(121); 및

상기 화자 임베딩 압축 층(121)의 화자 임베딩 벡터의 추출과 동시에, 상기 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
제8항에 있어서, 상기 압축 층(120)은,

상기 화자 임베딩 압축 층(121)과 비화자 요소 임베딩 압축 층(122)을 통해 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻어지는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
제8항에 있어서, 상기 인식 네트워크(130)는,

상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 화자 인식 네트워크(131); 및

상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 비화자 인식 네트워크(132)를 포함하여 구성하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
제1항 내지 제5항 중 어느 한 항에 기재된 비화자 요소에 강인한 화자 임베딩 추출 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.