KR20220047080A

KR20220047080A - 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체

Info

Publication number: KR20220047080A
Application number: KR1020200130575A
Authority: KR
Inventors: 김남수; 문성환
Original assignee: 서울대학교산학협력단
Priority date: 2020-10-08
Filing date: 2020-10-08
Publication date: 2022-04-15
Also published as: KR102429656B1; WO2022075714A1

Abstract

본 발명은 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것으로서, 보다 구체적으로는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서, (1) 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계; (2) 프레임 단위 문자 확률 분포 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계; (3) 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및 (4) 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템은, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템으로서, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부; 상기 프레임 단위 특징 정보 추출부와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부; 상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부; 및 상기 풀링 처리부로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.
또한, 본 발명의 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있다.

Description

화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체{A SPEAKER EMBEDDING EXTRACTION METHOD AND SYSTEM FOR AUTOMATIC SPEECH RECOGNITION BASED POOLING METHOD FOR SPEAKER RECOGNITION, AND RECORDING MEDIUM THEREFOR}

본 발명은 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것으로서, 보다 구체적으로는 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, ASR 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 하는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것이다.

일반적으로 화자인식은 입력된 음성이 등록된 화자 중 어떤 사람의 목소리인지를 식별하는 기술 분야이다. 이러한 화자인식은 많은 데이터를 가지고 화자의 특징을 배우는 학습과정이 있으며, 학습된 모델을 활용하여 사전 시스템에 특정 화자들의 정보를 저장해 놓는 등록과정, 그리고 실제 들어오는 음성을 등록된 음성과 비교하여 동일 화자인지 여부를 결정하는 테스트과정으로 구성되어 있다.

이와 같은 화자 인식 분야에서 학습 과정과, 등록 과정, 및 테스트 과정에서 화자의 정보를 추출하고 비교 및 결정을 위해 화자 임베딩이라고 불리는 고정된 차원의 특징 벡터가 널리 사용되고 있다. 이러한 기법은 음성으로부터 화자의 정보를 표현할 수 있는 정보를 고정된 차원의 벡터로 추출하고, 등록 및 테스트 과정에서 임베딩들 간의 유사도를 계산하여 동일인인지 여부를 판단하게 된다.

최근 다양한 딥러닝 기술들이 발전되고 대용량 데이터 셋이 제공됨에 따라 딥러닝 기반의 화자 임베딩 기법들이 눈부신 성능 향상을 이루었으며, 보다 효과적인 화자 임베딩 추출을 위한 다양한 연구들(심층심경망 구조, 손실 함수 모델링, pooling 기법 등)이 진행되고 있다. 그 중에서도 화자 임베딩 추출을 위한 pooling 기법은, 프레임 단위의 피처를 고정된 차원의 벡터로 요약하는 구성으로, 이 과정에서 화자 인식에 유효한 정보를 얼마나 잘 집계하는지가 성능에 직접적으로 연결된다. 하지만 이러한 연구들은 공통적으로 화자의 신원 정보만을 학습 과정에서 고려하고 있다. 즉, 서로 다른 두 화자를 비교하는데 있어서 화자의 신원뿐 만 아니라 화자의 발화 특성, 발화 문장 정보 등과 같은 다양한 요인들을 고려할 필요가 있으나, 기존의 화자 임베딩 추출 방법에서는 화자 정보만을 고려하는 방식으로, 화자 인식 성능에 제한이 따른 문제가 있었다.

이와 같이, 기존의 화자 임베딩 추출 시스템은 학습 과정에서, 입력 음성은 네트워크를 통과하며, 추출된 출력을 통해 정답 화자를 맞추도록 학습된다. 즉, 정답 화자 정보에 의존한 지도 학습 방식을 구성하고 있는 것이며 화자 임베딩 추출을 위해 화자 식별 정보만을 활용하고 있다. 하지만, 음성 정보는 순차적 정보이며, 화자 정보 이외의 다양한 정보(잡음, 공백, 환경, 녹음기기, 언어 등) 또한 포함하고 있기 때문에 보다 효과적인 화자 인식을 위해서는 중요한 정보는 더 강조하여 처리하는 접근 방식이 요구되고 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하고, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하며, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체를 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체를 제공하는 것을 또 다른 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은,

화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서,

(1) 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계;

(2) 프레임 단위 문자 확률 분포 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계;

(3) 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및

(4) 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (1)에서는,

상기 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.

바람직하게는, 상기 단계 (2)에서는,

상기 프레임 단위 문자 확률 분포 추출부가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.

바람직하게는, 상기 단계 (3)에서는,

(3-1) 상기 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계;

(3-2) 상기 단계 (3-1)의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계; 및

(3-3) 상기 단계 (3-2)의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계로 이루어질 수 있다.

더욱 바람직하게는, 상기 단계 (4)에서는,

상기 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템은,

화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템으로서,

입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부;

상기 프레임 단위 특징 정보 추출부와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부;

상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부; 및

상기 풀링 처리부로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 프레임 단위 특징 정보 추출부는,

입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.

바람직하게는, 상기 프레임 단위 문자 확률 분포 추출부는,

CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.

바람직하게는, 상기 풀링(pooling) 처리부는,

상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어질 수 있다.

더욱 바람직하게는, 상기 화자 임베딩 추출부는,

상기 풀링 처리부를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.

본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.

또한, 본 발명의 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있다.

도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 구성을 기능블록으로 도시한 도면.
도 5는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 특징 정보 추출부의 딥러닝 모델의 일례 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 문자 확률 분포 추출부의 구현 구성을 개략적으로 도시한 도면.
도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 도시한 도면.
도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 도시한 도면.

이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 딥러닝 기반 화자 임베딩 모델은 기본적으로 프레임 단위 네트워크(frame-level network)와, 화자 인식을 위한 압축 층(pooling layer), 및 화자 인식 네트워크(speaker classification network)로 구성될 수 있다. 여기서, 프레임 단위 네트워크는 long short-term memory model(LSTM)이나 일반적인 deep neural network(DNN)과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서 보다 유의미한 정보를 포함한 시퀀스를 출력한다.

또한, 화자 인식용 압축 층에서는 평균 혹은 가중 합(weighted sum)을 통하여 프레임 단위 네트워크에서 출력한 시퀀스를 하나의 벡터, 즉 화자 임베딩(speaker embedding)으로 압축시킨다. 이후 압축된 벡터는 DNN으로 구성된 화자 인식 네트워크로 입력되며, 해당 화자 인식 네트워크는 화자 인식 결과(화자 라벨, speaker label)를 출력한다. 위의 세 구성 요소들은 화자 인식 결과가 좋아지도록 동시에 학습되며, 학습 후에는 화자 임베딩을 추출하는데 활용되고 있다.

도 2는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법의 흐름을 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면이다. 도 2 및 도 3에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은, 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계(S110), 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계(S120), 고정된 차원의 화자 임베딩 벡터를 추출하는 단계(S130), 및 화자 임베딩 추출부가 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계(S140)를 포함하여 구현될 수 있다.

여기서, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은 컴퓨팅 장치에 의해 수행될 수 있으며, 도 4 내지 도 8에 각각 도시되는 바와 같이, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)이 적용되는 것으로 이해될 수 있다.

단계 S110에서는, 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출한다. 이러한 단계 S110에서는 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN(Time Delay Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.

또한, 프레임 단위 특징 정보 추출부(110)에서는 입력된 음성 특징 벡터(MFCC, STFT, Mel Filter Bank 등)로부터 프레임 단위의 특징 정보 출력을 계산한다. 이때, 음성 특징 벡터들은 입력 wave 신호에 특정 길이(10ms)의 윈도우를 씌워 일정 길이로 이동(shift)시켜 처리되며, 총 T개의 프레임 음성 특징 벡터가 얻어질 수 있다. 여기서, 음성 특징 벡터는

로 정의하며, 프레임 단위 특징 정보 추출부(110)를 통해 출력된 출력 특징은

로 정의할 수 있다. 즉, 위에서 설명한 바와 같이, 입력 음성 특징 처리를 위한 신경망 모델로는 TDNN, CNN, RNN 등이 선택적으로 사용될 수 있다.

단계 S120에서는, 프레임 단위 문자 확률 분포 추출부(120)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출한다. 이러한 단계 S120에서는 프레임 단위 문자 확률 분포 추출부(120)가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN(Time Delay Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.

또한, 프레임 단위 문자 확률 분포 추출부(120)에서는 사전 학습된 음성 인식기(ASR)를 통해 프레임 별 문자 확률 분포를 추출하며, 음성 인식기(ASR)는 위에서 설명한 바와 같이, CTC(Connectionist Temporal Classification) 기반의 목적함수를 통해 학습되며, 이 과정에서 프레임 단위 입력을 K개의 클래스(문자 및 기호)로 분류한다. 이러한 프레임 단위 문자 확률 분포 추출부(120)에서는 음성 특징(x_t)을 입력으로 받아 K개 클래스에 대한 문자 확률 분포를 출력한다. 출력되는 확률 분포는 아래의 [수학식 1]과 같이 정의될 수 있다.

여기서,

이며, i의 범위는 [1,T]이다.

단계 S130에서는, 풀링(pooling) 처리부(130)가 단계 S110의 특징 정보와 단계 S120의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한다. 이러한 단계 S130에서는 도 3에 도시된 바와 같이, 풀링(pooling) 처리부(130)가 단계 S110의 특징 정보와 단계 S120의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계(S131)와, 단계 S131의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계(S132)와, 단계 S132의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계(S132)로 이루어질 수 있다.

또한, 풀링 처리부(130)의 Pooling 단계에서는 프레임 단위 특징 정보 추출부(110)와 프레임 단위 문자 확률 분포 추출부(120)에서의 출력을 입력으로 받아 고정된 차원의 화자 임베딩을 계산하며, Pooling을 위한 계산 과정은 아래의 [수학식 2], 및 [수학식 3]과 같이 나타낼 수 있다.

여기서, τ는 발산을 막기 위한 상수 값이고, 추정된 문자 확률 분포를 통해 문자 별 계산을 개별적으로 처리한 후 υ로 결합하는 과정을 갖는다. 여기서, υ는 affine layer 및 softmax를 통과하며, affine layer를 화자 임베딩 벡터로 사용한다.

단계 S140에서는, 화자 임베딩 추출부(140)가 단계 S130을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력한다. 이러한 단계 (4)에서는 화자 임베딩 추출부(140)가 단계 S130을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습될 수 있다.

도 4는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 구성을 기능블록으로 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 특징 정보 추출부의 딥러닝 모델의 일례 구성을 도시한 도면이며, 도 6은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 문자 확률 분포 추출부의 구현 구성을 개략적으로 도시한 도면이고, 도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 도시한 도면이며, 도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 도시한 도면이다. 도 4 내지 도 8에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)은, 프레임 단위 특징 정보 추출부(110), 프레임 단위 문자 확률 분포 추출부(120), 풀링(pooling) 처리부(130), 및 화자 임베딩 추출부(140)를 포함하여 구성될 수 있다.

프레임 단위 특징 정보 추출부(110)는, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 구성이다. 이러한 프레임 단위 특징 정보 추출부(110)는 도 5에 도시된 바와 같이, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.

프레임 단위 문자 확률 분포 추출부(120)는, 프레임 단위 특징 정보 추출부(110)와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 구성이다. 이러한 프레임 단위 문자 확률 분포 추출부(120)는 도 6에 도시된 바와 같이, CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.

풀링(pooling) 처리부(130)는, 프레임 단위 특징 정보 추출부(110)의 특징 정보와 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 구성이다. 이러한 풀링(pooling) 처리부(130)는 도 7 및 도 8에 각각 도시된 바와 같이, 프레임 단위 특징 정보 추출부(110)의 특징 정보와 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어질 수 있다.

화자 임베딩 추출부(140)는, 풀링 처리부(130)로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 구성이다. 이러한 화자 임베딩 추출부(140)는 풀링 처리부(130)를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.

도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 나타내고 있으며, 도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 나타내고 있다. 도 에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)은 프레임 단위의 특징 정보와 프레임 단위의 문자 확률 분포를 pooling 단계에서 동시에 입력으로 받아 글자 단위의 개별적 집계과정을 갖는다. 이어, Pooling 단계의 전반적인 과정은 도 8에 도시된 바와 같이, 각 프레임 단위의 특징 정보는 특정 발화(29 종류)에 속할 확률 값을 사용하여 가중치 합이 취해지고, 이 과정을 통해 특정 단어 발화 정보를 개별적으로 처리하게 되며, 고정된 차원의 벡터를 계산하게 된다. 이어, Pooling 단계 후 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하게 되고 최종적으로 multi-class cross-entropy 목적함수를 통해 전체 모델을 학습 시킬 수 있게 된다.

상술한 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체는, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있으며, 특히, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있게 된다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

100: 본 발명의 일실시예에 따른 풀링 기법의 화자 임베딩 추출 시스템
110: 프레임 단위 특징 정보 추출부
120: 프레임 단위 문자 확률 분포 추출부
130: 풀링(pooling) 처리부
140: 화자 임베딩 추출부
S110: 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계
S120: 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계
S130: 고정된 차원의 화자 임베딩 벡터를 추출하는 단계
S131: 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계
S132: 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계
S133: 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계
S140: 화자 임베딩 추출부가 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계

Claims

화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서,
(1) 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계;
(2) 프레임 단위 문자 확률 분포 추출부(120)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계;
(3) 풀링(pooling) 처리부(130)가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및
(4) 화자 임베딩 추출부(140)가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
제1항에 있어서, 상기 단계 (1)에서는,
상기 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
제1항에 있어서, 상기 단계 (2)에서는,
상기 프레임 단위 문자 확률 분포 추출부(120)가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 단계 (3)에서는,
(3-1) 상기 풀링(pooling) 처리부(130)가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계;
(3-2) 상기 단계 (3-1)의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계; 및
(3-3) 상기 단계 (3-2)의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계로 이루어지는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
제4항에 있어서, 상기 단계 (4)에서는,
상기 화자 임베딩 추출부(140)가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)으로서,
입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부(110);
상기 프레임 단위 특징 정보 추출부(110)와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부(120);
상기 프레임 단위 특징 정보 추출부(110)의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부(130); 및
상기 풀링 처리부(130)로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부(140)를 포함하는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
제6항에 있어서, 상기 프레임 단위 특징 정보 추출부(110)는,
입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
제6항에 있어서, 상기 프레임 단위 문자 확률 분포 추출부(120)는,
CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
제6항 내지 제8항 중 어느 한 항에 있어서, 상기 풀링(pooling) 처리부(130)는,
상기 프레임 단위 특징 정보 추출부(110)의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어지는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
제9항에 있어서, 상기 화자 임베딩 추출부(140)는,
상기 풀링 처리부(130)를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
제1항 내지 제5항 중 어느 한 항에 기재된 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.