KR20220080629A - 화자 외 정보가 제거된 화자 임베딩 장치 및 방법 - Google Patents
화자 외 정보가 제거된 화자 임베딩 장치 및 방법 Download PDFInfo
- Publication number
- KR20220080629A KR20220080629A KR1020200169934A KR20200169934A KR20220080629A KR 20220080629 A KR20220080629 A KR 20220080629A KR 1020200169934 A KR1020200169934 A KR 1020200169934A KR 20200169934 A KR20200169934 A KR 20200169934A KR 20220080629 A KR20220080629 A KR 20220080629A
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- embedding
- information
- recognition result
- recognizer
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 41
- 230000006835 compression Effects 0.000 claims abstract description 31
- 238000007906 compression Methods 0.000 claims abstract description 31
- 230000006870 function Effects 0.000 claims description 96
- 238000013528 artificial neural network Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 abstract description 9
- 230000015556 catabolic process Effects 0.000 abstract description 8
- 238000006731 degradation reaction Methods 0.000 abstract description 8
- 238000011176 pooling Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 19
- 238000000605 extraction Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
본 발명은 화자 외 정보가 제거된 화자 임베딩 장치에 관한 것으로서, 보다 구체적으로는 입력 음성으로부터 화자 임베딩을 추출하는, 컴퓨터로 구현되는 화자 임베딩 장치로서, 입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈; 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier; 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier를 포함하되, 상기 임베딩 모듈은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및 상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며, 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 화자 외 정보가 제거된 화자 임베딩 방법에 관한 것으로서, 보다 구체적으로는 컴퓨터에 의해 각 단계가 수행되는 화자 임베딩 방법으로서, (1) 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈을, 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier와 함께 학습하는 단계; 및 (2) 상기 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계를 포함하되, 상기 임베딩 모듈은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및 상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며, 상기 단계 (1)에서는, 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있다.
또한, 본 발명은 화자 외 정보가 제거된 화자 임베딩 방법에 관한 것으로서, 보다 구체적으로는 컴퓨터에 의해 각 단계가 수행되는 화자 임베딩 방법으로서, (1) 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈을, 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier와 함께 학습하는 단계; 및 (2) 상기 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계를 포함하되, 상기 임베딩 모듈은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및 상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며, 상기 단계 (1)에서는, 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있다.
Description
본 발명은 화자 임베딩 장치 및 방법에 관한 것으로서, 보다 구체적으로는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 관한 것이다.
화자 인식 (speaker recognition)은 임의의 길이를 갖는 발화 (utterance)로부터 발화자의 정보가 담긴 특징을 추출하기 위한 화자 특징 벡터 (화자 임베딩, speaker embedding) 추출 기술에 기반을 두고 있으며, 최근에는 화자 임베딩 추출을 위한 방법으로 심층신경망 (deep neural network, DNN)이 많이 활용되고 있다.
특히, 심층신경망 기반의 화자 임베딩 추출 기술은 방대한 양과 다양한 품질의 데이터에 대한 확장성이 뛰어나기 때문에, 일반적으로 배경 잡음이 존재하는 환경에서도 상대적으로 우수한 성능을 보이는 편이다.
한편, 음성, 영상, 생체신호와 같은 신호를 분류하거나 분석하기 위해서 많은 경우 프레임 단위로 특징을 추출한다. 예를 들어, 음성의 경우에는 입력 음성을 짧은 시간 단위의 프레임으로 나눈 후 각 프레임에서 mel-frequency cepstral coefficients (MFCC)와 같은 특징을 추출할 수 있다. 이러한 프레임 단위의 특징은 특정 시간에서 신호가 갖는 주파수 특성을 표현하며, 음성의 경우에는 발화한 화자의 성도 (vocal tract) 형태의 패턴을, 그리고 영상의 경우에는 경계선 (edge)에 대한 정보를 담고 있다.
하지만 입력된 신호들의 길이가 다른 경우 추출되는 프레임 단위 특징의 수가 달라지기 때문에 support vector machine (SVM)이나 심층신경망과 같이 하나의 고정된 크기의 벡터를 입력으로 받는 분류기를 사용하기 어렵다는 한계가 있다.
이러한 문제를 해결하기 위하여 입력 신호의 길이에 무관하게 전체적인 패턴을 압축적으로 고정된 크기의 벡터에 표현하는 많은 기법들이 연구되어왔으며, 대표적으로 딥러닝 구조를 이용하여 화자 임베딩을 추출하는 d-vector나 x-vector와 같은 기법이 있다.
위 기법들은 음성이 주어졌을 때 프레임 단위의 특징을 평균, 혹은 가중합 (weighted sum)을 통하여 압축한 후 화자 인식을 하는 딥러닝 모델을 학습한다. 학습한 후, 압축된 프레임 단위의 특징을 입력된 음성의 화자 특징을 나타내는 고정된 크기의 화자 임베딩 벡터로 활용한다.
해당 기법들은 일반적인 화자 인식 환경에서 우수한 결과를 보이며, 현재까지 널리 활용되는 추세다. 하지만 위 기법들은 오로지 학습 데이터 내에 존재하는 화자를 분류하도록 학습되기 때문에, 학습 데이터와는 다른 환경 요소 (예를 들어, 잡음, 반향)에서 녹음된 음성이 주어진 경우 성능 저하가 일어나는 한계가 있다.
한편, 본 발명과 관련된 선행기술로서, 한국공개특허 10-2005-0048214호는 이러한 화자 인식시스템의 화자 특징 벡터 생성방법 및 시스템이 개시된 바 있으며, 선행기술은 입력된 화자 음성신호에서 특징 벡터를 추출하여 화자모델링 훈련 및 화자 인식을 수행하는 기술을 기재하고 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있는, 화자 외 정보가 제거된 화자 임베딩 장치 및 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있는, 화자 외 정보가 제거된 화자 임베딩 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 외 정보가 제거된 화자 임베딩 장치는,입력 음성으로부터 화자 임베딩을 추출하는, 컴퓨터로 구현되는 화자 임베딩 장치로서,
입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈;
상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier; 및
상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier를 포함하되,
상기 임베딩 모듈은,
입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및
상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며,
상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
입력된 프레임 단위 시퀀스로부터 의미 정보를 포함하는 입력 시퀀스를 출력하는 프레임 단위 네트워크를 더 포함할 수 있다.
바람직하게는, 상기 화자 인식기 및 상기 비화자 요소 인식기는, 심층신경망(DNN) 기반의 네트워크일 수 있다.
바람직하게는,
상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다.
바람직하게는,
크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다.
더욱 바람직하게는, 상기 목적함수는,
상기 화자 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
상기 비화자 요소 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
상기 화자 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
상기 비화자 요소 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습할 수 있다.
더더욱 바람직하게는, 상기 목적함수는,
상기 화자 임베딩과 상기 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 상관도 목적함수를 더 포함하며,
상기 상관도 목적함수가 최소화되도록 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습할 수 있다.
또한, 상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 외 정보가 제거된 화자 임베딩 방법은,
컴퓨터에 의해 각 단계가 수행되는 화자 임베딩 방법으로서,
(1) 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈을, 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier와 함께 학습하는 단계; 및
(2) 상기 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계를 포함하되,
상기 임베딩 모듈은,
입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및
상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며,
상기 단계 (1)에서는,
상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다.
바람직하게는, 상기 단계 (1)에서는,
크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다.
더욱 바람직하게는, 상기 목적함수는,
상기 화자 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
상기 비화자 요소 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
상기 화자 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
상기 비화자 요소 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
상기 단계 (1)에서는,
상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습할 수 있다.
본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있다.
도 1은 종래의 화자 임베딩 장치의 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치의 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 프레임 단위 네트워크의 세부적인 구성을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 임베딩 모듈, 화자 인식기 및 비화자 요소 인식기 사이의 데이터 입출력을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 임베딩 모듈의 세부적인 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 화자 임베딩에 의한 학습을 설명하기 위해 도시한 도면.
도 7은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 비화자 요소 임베딩에 의한 학습을 설명하기 위해 도시한 도면.
도 8은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치를 이용한 화자 임베딩을 설명하기 위해 도시한 도면.
도 9는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치를 이용한 화자 인식 실험 결과를 도시한 도면.
도 10은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법의 흐름을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치의 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 프레임 단위 네트워크의 세부적인 구성을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 임베딩 모듈, 화자 인식기 및 비화자 요소 인식기 사이의 데이터 입출력을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 임베딩 모듈의 세부적인 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 화자 임베딩에 의한 학습을 설명하기 위해 도시한 도면.
도 7은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 비화자 요소 임베딩에 의한 학습을 설명하기 위해 도시한 도면.
도 8은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치를 이용한 화자 임베딩을 설명하기 위해 도시한 도면.
도 9는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치를 이용한 화자 인식 실험 결과를 도시한 도면.
도 10은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법의 흐름을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 종래의 화자 임베딩 장치의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 딥러닝 기반 화자 임베딩 모델은 기본적으로 세 요소로 구성될 수 있는데, 프레임 단위 네트워크 (frame-level network), 압축 층 (pooling layer), 그리고 화자 인식 네트워크 (speaker classification network)가 그것이다.
여기서, 프레임 단위 네트워크는 long short-term memory model (LSTM)이나 일반적인 deep neural network (DNN)과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서, 보다 유의미한 정보를 포함한 시퀀스를 출력할 수 있다.
압축 층에서는 평균 혹은 가중합 (weighted sum)을 통하여 프레임 단위 네트워크에서 출력한 시퀀스를 하나의 벡터 (화자 임베딩, speaker embedding)로 압축시킬 수 있다.
이후 압축된 벡터는 DNN으로 구성된 화자 인식 네트워크로 입력되며, 해당 네트워크는 화자 인식 결과 (화자 라벨, speaker label)을 출력할 수 있다.
이와 같은 세 구성 요소들은 화자 인식 결과가 좋아지도록 동시에 학습되며, 학습 후에는 화자 임베딩을 추출하는데 활용될 수 있다. 여기서, 화자 인식을 위한 학습 목적함수는 크로스-엔트로피 (cross-entropy)이며, 다음 수학식 1과 같이 계산될 수 있다.
현재, 화자 인식 분야에서 입력 신호 단위의 특징 추출 기술로 가장 높은 성능을 보이며 널리 사용되는 기법인 d-vector나 x-vector는 입력 신호의 프레임 단위 특징들을 압축한 후 화자 인식 성능을 높이도록 학습된다. 그러나, 학습 화자의 분류 성능을 높이도록 학습되므로, 추출된 화자 특징 (화자 임베딩)에는 화자 외의 정보 (예를 들어, 잡음, 녹음 기기)가 포함될 가능성이 높다. 이러한 비화자 요소들로 인하여 열화된 음성이 입력된 경우 화자 인식 성능이 급격히 감소할 수 있다.
본 발명은 이러한 문제점을 해결하기 위하여 화자 임베딩 추출 과정에서 비화자 요소에 대한 정보를 감소하도록 임베딩 시스템을 학습할 수 있다. 기존의 기법들과는 달리, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치 및 방법의 화자 임베딩은 화자에 대한 정보는 높이되, 비 화자 요소에 대한 정보는 최소화되도록 학습되므로, 본 발명을 통해 학습된 임베딩 모듈에 의해 추출되는 화자 임베딩은 도 1에 도시된 바와 같은 종래의 화자 임베딩 기술보다 비화자 정보로 인한 성능 열화가 적은 효과가 있다.
이하에서는, 도 2를 참조하여 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에 대해 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 구성을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)는, 임베딩 모듈(120), 화자 인식기(130) 및 비화자 요소 인식기(140)를 포함하여 구성될 수 있으며, 프레임 단위 네트워크(110)를 더 포함하여 구성될 수 있다.
보다 구체적으로, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)는, 입력 음성으로부터 화자 임베딩을 추출하는 컴퓨터로 구현되는 화자 임베딩 장치(100)로서, 입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈(120); 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130); 및 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)를 포함하되, 임베딩 모듈(120)은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer)(121); 및 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성될 수 있다.
학습 과정에서, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 화자 임베딩의 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 구성상의 특징으로 한다.
요약하면, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)는, 다음과 같은 4가지 특징을 지닌다.
(1) 화자에 대한 정보를 내포하는 화자 임베딩과 화자 외 정보 (비화자 정보, 예를 들어, 잡음, 녹음 기기 등)에 대한 정보를 내포하는 비화자 요소 임베딩을 동시에 추출
(2) 화자를 분류하는 화자 인식 모델 (화자 인식기(130))과 비화자 요소를 분류하는 비화자 요소 인식 모델 (비화자 요소 인식기(140))을 임베딩 모듈과 함께 학습
(3) 화자 임베딩은 화자 인식 성능을 높이되, 비화자 요소 인식 성능을 낮추도록 학습
(4) 비화자 요소 임베딩은 비화자 요소 인식 성능을 높이되, 화자 인식 성능을 낮추도록 학습
이하에서는, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 각 구성요소에 대해 상세히 설명하도록 한다.
프레임 단위 네트워크(110)는, 입력된 프레임 단위 시퀀스로부터 의미 정보를 포함하는 입력 시퀀스를 출력할 수 있다. 즉, 프레임 단위 네트워크(110)는 도 1에 도시된 바와 같은 종래의 딥러닝 기반 임베딩과 동일하게 구성될 수 있다.
도 3은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 프레임 단위 네트워크(110)의 세부적인 구성을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 프레임 단위 네트워크(110)는, long short-term memory model (LSTM)이나 일반적인 심층신경망과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서, 보다 유의미한 정보를 포함한 시퀀스를 출력할 수 있다.
도 4는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 임베딩 모듈(120), 화자 인식기(130) 및 비화자 요소 인식기(140) 사이의 데이터 입출력을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 임베딩 모듈(120)은, 입력 시퀀스로부터 임베딩을 추출하고, 추출된 임베딩은 입력 시퀀스의 특징 벡터로서 화자 인식기(130)와 비화자 요소 인식기(140)에 입력될 수 있다.
여기서, 화자 인식기(130)는 임베딩을 입력으로 하여 화자 인식 결과를 출력할 수 있고, 비화자 요소 인식기(140)는 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력할 수 있는데, 화자 인식기(130) 및 비화자 요소 인식기(140)는, 심층신경망 (DNN) 기반의 네트워크일 수 있다.
도 5는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 임베딩 모듈(120)의 세부적인 구성을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 임베딩 모듈(120)은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층(121), 및 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성될 수 있다.
여기서, 화자 임베딩과 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다. 즉, 화자 임베딩 압축 층(121) 및 비화자 요소 임베딩 압축 층(122)에서는 가중 합(weighted sum)을 통하여 각각 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 추출하는데, 두 임베딩 벡터는 크기가 같으며, 서로 다른 가중치를 통하여 얻어질 수 있다.
이렇게 얻어진 임베딩 벡터들은 화자 인식기(130)와 비화자 요소 인식기(140)에 입력되며, 화자 인식기(130)는 화자 확률을 출력하고, 비화자 요소 인식기(140)는 특정 비화자 요소의 확률 (예를 들어, 특정 기기로부터 녹음되었을 확률)을 출력할 수 있다.
본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 구성하는 임베딩 모듈(120), 화자 인식기(130) 및 비화자 요소 인식기(140)는 모두 동시에 학습될 수 있다. 즉, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 화자 임베딩의 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습할 수 있다.
이하에서는, 도 6 및 도 7을 참조하여 학습 과정에 대해 상세히 설명하도록 한다.
도 6은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 화자 임베딩에 의한 학습을 설명하기 위해 도시한 도면이다. 도 6에 도시된 바와 같이, 화자 임베딩 압축 층(121)에서 추출된 화자 임베딩 (ωspkr)은 화자 인식기(130)와 비화자 요소 인식기(140)에 각각 입력되며, 화자 인식기(130)는 화자 임베딩에 의한 화자 인식 결과(화자 확률)를, 비화자 요소 인식기(140)는 화자 임베딩에 의한 비화자 요소 인식 결과(비화자 요소의 확률)를 각각 출력할 수 있다. 화자 임베딩의 화자 인식 결과는 좋아져야 하므로 목적함수 (제1 목적함수)가 최소화되도록 학습하고, 화자 임베딩의 비화자 요소 인식 결과는 나빠져야 하므로 목적함수 (제3 목적함수)가 최대화되도록 학습할 수 있다.
도 7은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 비화자 요소 임베딩에 의한 학습을 설명하기 위해 도시한 도면이다. 도 7에 도시된 바와 같이, 비화자 요소 임베딩 압축 층(122)에서 추출된 비화자 요소 임베딩 (ωnuis)은 화자 인식기(130)와 비화자 요소 인식기(140)에 각각 입력되며, 화자 인식기(130)는 비화자 요소 임베딩에 의한 화자 인식 결과 (화자 확률)를, 비화자 요소 인식기(140)는 비화자 요소 임베딩에 의한 비화자 요소 인식 결과 (비화자 요소의 확률)를 각각 출력할 수 있다. 따라서, 비화자 요소 임베딩의 화자 임베딩의 비화자 요소 인식 결과는 좋아져야 하므로 목적함수 (제2 목적함수)가 최소화되도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠져야 하므로 목적함수 (제4 목적함수)가 최대화되도록 학습할 수 있다.
이와 같은 학습 과정에서는, 크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다. 이하에서는, 학습에 사용되는 목적함수에 대해 상세히 설명하도록 한다.
목적함수는, 제1 목적함수 (Ls-s,CE), 제2 목적함수 (Lc-c,CE), 제3 목적함수 (Lc-s,E) 및 제4 목적함수 (Ls-c,E)를 포함하여 구성될 수 있으며, 상관도 목적함수 (LM APC)를 더 포함하여 구성될 수 있다.
제1 목적함수는, 화자 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 것이다. 다음 수학식 2와 같이 표현되는 제1 목적함수 (Ls-s,CE)를 최소화하도록 학습될 수 있다.
여기서, ωspkr은 화자 임베딩 압축 층(121)을 통해 구한 화자 임베딩을 의미하며, n번째 화자에 대한 yn은 화자 정답 라벨, 은 화자 인식기(130)가 추정한 화자 확률을 의미한다.
제2 목적함수는, 비화자 요소 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 것이며, 다음 수학식 3과 같이 표현되는 제2 목적함수 (Lc-c,CE)를 최소화하도록 학습될 수 있다.
여기서, ωnuis은 비화자 요소 임베딩 압축 층(122)을 통해 구한 비화자 요소 임베딩을 의미하며, m번째 비화자 요소(예를 들어, 녹음 기기)에 대한 rm은 비화자 요소 정답 라벨(예를 들어, 특정 녹음 기기), 은 비화자 요소 인식기(140)가 추정한 확률(예를 들어, 해당 음성이 특정 녹음 기기로 녹음되었을 확률)을 의미한다.
제3 목적함수는, 화자 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 것이며, 다음 수학식 4와 같이 표현되는 제3 목적함수(Lc-s,E)를 최대화하도록 학습될 수 있다.
위의 수학식 4가 최대화되기 위해서는 모든 비화자 요소(예를 들어, 녹음 기기)들에 대하여 확률이 최대화되어야 하므로, 이상적인 상태에서는 화자 임베딩의 모든 비화자 요소에 대한 확률이 1/M으로 수렴하게 된다.
제4 목적함수는, 비화자 요소 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 것이며, 다음 수학식 5와 같이 표현되는 제4 목적함수(Ls-c,E)를 최대화하도록 학습될 수 있다.
위의 수학식 5가 최대화되기 위해서는 모든 화자에 대하여 확률이 최대화되어야 하므로, 이상적인 상태에서는 비화자 요소 임베딩의 모든 화자에 대한 확률이 1/N으로 수렴하게 된다.
상관도 목적함수는, 화자 임베딩과 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 것으로서, 다음 수학식 6과 같이 표현되는 상관도 목적함수(LM APC)를 최소화하도록 학습될 수 있다.
종합하면, 본 발명의 임베딩 모듈(120)은, 제1 목적함수, 제2 목적함수, 제3 목적함수, 제4 목적함수 및 상관도 목적함수를 모두 활용해 학습되며, 최종적인 목적함수는 다음 수학식 7과 같다.
도 8은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용한 화자 임베딩을 설명하기 위해 도시한 도면이다. 도 8에 도시된 바와 같이, 전술한 바와 같은 목적함수를 이용해 학습된 임베딩 모듈(120)에 입력 음성의 시퀀스를 적용하면, 화자 외 정보가 제거되고 화자 정보가 최대한 내포된 특징 벡터 (화자 임베딩)를 추출할 수 있다. 이때, 임베딩 모듈(120)의 화자 임베딩 압축 층(121)은, 출력되는 화자 임베딩이 화자에 대한 정보는 최대한 포함하되, 비화자 요소에 대한 정보는 최소화되도록 학습되었으므로, 화자 임베딩이 비화자 정보를 포함하는 데서 기인하는 성능 열화가 적을 것으로 예상할 수 있다.
실험
본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용해 총 6종류의 녹음 기기(삼성 넥서스, 삼성 갤럭시 S 2종, HTC Desire, 삼성 탭, HTC Legend)로 녹음된 RSR2015 Part 3 음성 데이터셋에 대한 성능 검증을 하였다. 비교를 위해, 종래 기술인 x-vector, DNN을 이용한 i-vector, Uncertainty normalized HMM을 이용한 i-vector, GRL, Anti-loss와 비교하였다.
도 9는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용한 화자 인식 실험 결과를 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용해 추출한 화자 임베딩이 기존의 기법에 비해 높은 성능을 보였음을 확인할 수 있다.
도 10은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법의 흐름을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법은, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 단계(S100), 및 학습된 임베딩 모듈(120)을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계(S200)를 포함하여 구현될 수 있다.
본 발명은 화자 외 정보가 제거된 화자 임베딩 방법에 관한 것으로서, 본 발명의 특징에 따른 화자 외 정보가 제거된 화자 임베딩 방법은 컴퓨터에 의해 각 단계가 수행되며, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 보다 구체적으로는, 전술한 바와 같은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에 의해 각 단계가 수행될 수 있다. 예를 들어, 본 발명의 화자 외 정보가 제거된 화자 임베딩 방법은, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.
이하에서는, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법의 각 단계에 대해 상세히 설명하도록 한다.
단계 S100에서는, 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈(120)을, 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130) 및 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)와 함께 학습할 수 있다.
여기서, 임베딩 모듈(120)은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층(121); 및 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성될 수 있다. 여기서, 화자 임베딩과 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다.
보다 구체적으로, 단계 S100에서는, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 화자 임베딩의 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습할 수 있다.
또한, 단계 S100에서는, 크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다. 여기서, 목적함수는, 화자 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수, 비화자 요소 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수, 화자 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수, 및 비화자 요소 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함할 수 있으며, 화자 임베딩과 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 상관도 목적함수를 더 포함할 수 있다.
단계 S100에서는, 제1 목적함수 및 제2 목적함수가 최소화되고, 제3 목적함수 및 제4 목적함수가 최대화되며, 상관도 목적함수가 최소화되도록, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습할 수 있다.
단계 S200에서는, 학습된 임베딩 모듈(120)을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출할 수 있다. 단계 S200에서 추출되는 화자 임베딩은, 비화자 정보를 최소화한 것으로서, 비화자 정보를 포함하는 데서 기인하는 성능 열화가 적을 것은 특징이 있다.
각각의 단계들과 관련된 상세한 내용들은, 앞서 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)와 관련하여 충분히 설명되었으므로, 상세한 설명은 생략하기로 한다.
전술한 바와 같이, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치(100) 및 방법에 따르면, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치(100) 및 방법에 따르면, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: 화자 임베딩 장치
110: 프레임 단위 네트워크
120: 임베딩 모듈
121: 화자 임베딩 압축 층
122: 비화자 요소 임베딩 압축 층
130: 화자 인식기
140: 비화자 요소 인식기
S100: 임베딩 모듈을 화자 인식기 및 비화자 요소 인식기와 함께 학습하는 단계
S200: 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계
110: 프레임 단위 네트워크
120: 임베딩 모듈
121: 화자 임베딩 압축 층
122: 비화자 요소 임베딩 압축 층
130: 화자 인식기
140: 비화자 요소 인식기
S100: 임베딩 모듈을 화자 인식기 및 비화자 요소 인식기와 함께 학습하는 단계
S200: 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계
Claims (11)
- 입력 음성으로부터 화자 임베딩을 추출하는, 컴퓨터로 구현되는 화자 임베딩 장치(100)로서,
입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈(120);
상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130); 및
상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)를 포함하되,
상기 임베딩 모듈(120)은,
입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer)(121); 및
상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하며,
상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
- 제1항에 있어서,
입력된 프레임 단위 시퀀스로부터 의미 정보를 포함하는 입력 시퀀스를 출력하는 프레임 단위 네트워크(110)를 더 포함하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
- 제1항에 있어서, 상기 화자 인식기(130) 및 상기 비화자 요소 인식기(140)는,
심층신경망(DNN) 기반의 네트워크인 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
- 제1항에 있어서,
상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출되는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
- 제1항에 있어서,
크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
- 제5항에 있어서, 상기 목적함수는,
상기 화자 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
상기 비화자 요소 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
상기 화자 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
상기 비화자 요소 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
- 제6항에 있어서, 상기 목적함수는,
상기 화자 임베딩과 상기 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 상관도 목적함수를 더 포함하며,
상기 상관도 목적함수가 최소화되도록 상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
- 컴퓨터에 의해 각 단계가 수행되는 화자 임베딩 방법으로서,
(1) 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈(120)을, 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130) 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)와 함께 학습하는 단계; 및
(2) 상기 학습된 임베딩 모듈(120)을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계를 포함하되,
상기 임베딩 모듈(120)은,
입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer)(121); 및
상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하며,
상기 단계 (1)에서는,
상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
- 제8항에 있어서,
상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출되는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
- 제8항에 있어서, 상기 단계 (1)에서는,
크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
- 제10항에 있어서, 상기 목적함수는,
상기 화자 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
상기 비화자 요소 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
상기 화자 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
상기 비화자 요소 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
상기 단계 (1)에서는,
상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200169934A KR102477444B1 (ko) | 2020-12-07 | 2020-12-07 | 화자 외 정보가 제거된 화자 임베딩 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200169934A KR102477444B1 (ko) | 2020-12-07 | 2020-12-07 | 화자 외 정보가 제거된 화자 임베딩 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220080629A true KR20220080629A (ko) | 2022-06-14 |
KR102477444B1 KR102477444B1 (ko) | 2022-12-15 |
Family
ID=81980331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200169934A KR102477444B1 (ko) | 2020-12-07 | 2020-12-07 | 화자 외 정보가 제거된 화자 임베딩 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102477444B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225001A (ja) * | 2007-03-12 | 2008-09-25 | Nec Corp | 音声認識装置および音声認識方法,音声認識用プログラム |
KR102221260B1 (ko) * | 2019-03-25 | 2021-03-02 | 한국과학기술원 | 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법 |
-
2020
- 2020-12-07 KR KR1020200169934A patent/KR102477444B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008225001A (ja) * | 2007-03-12 | 2008-09-25 | Nec Corp | 音声認識装置および音声認識方法,音声認識用プログラム |
KR102221260B1 (ko) * | 2019-03-25 | 2021-03-02 | 한국과학기술원 | 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법 |
Non-Patent Citations (2)
Title |
---|
Naoyuki Kanda 외, 'Simultaneous Speech Recognition and Speaker Diarization for Monaural Dialogue Recordings with Target-Speaker Acoustic Models', IEEE, 2019. * |
권유환 외, ‘화자 인식을 위한 적대학습 기반 음성 분리 프레임워크에 대한 연구’, 한국음향학회지 제39권 제5호, 2020.09.* * |
Also Published As
Publication number | Publication date |
---|---|
KR102477444B1 (ko) | 2022-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | CNN with phonetic attention for text-independent speaker verification | |
Huang et al. | Deep convolutional recurrent neural network with attention mechanism for robust speech emotion recognition | |
US20230409102A1 (en) | Low-power keyword spotting system | |
JP7023934B2 (ja) | 音声認識方法及び装置 | |
O’Shaughnessy | Automatic speech recognition: History, methods and challenges | |
US8249867B2 (en) | Microphone array based speech recognition system and target speech extracting method of the system | |
Xue et al. | Online end-to-end neural diarization with speaker-tracing buffer | |
US20100057452A1 (en) | Speech interfaces | |
KR102294638B1 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
US6931374B2 (en) | Method of speech recognition using variational inference with switching state space models | |
US20060129392A1 (en) | Method for extracting feature vectors for speech recognition | |
KR102346634B1 (ko) | 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스 | |
KR101618512B1 (ko) | 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법 | |
WO2012075640A1 (en) | Modeling device and method for speaker recognition, and speaker recognition system | |
US9984678B2 (en) | Factored transforms for separable adaptation of acoustic models | |
Ghaffarzadegan et al. | Deep neural network training for whispered speech recognition using small databases and generative model sampling | |
Pao et al. | A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition | |
Takeuchi et al. | Voice activity detection based on fusion of audio and visual information | |
WO2016152132A1 (ja) | 音声処理装置、音声処理システム、音声処理方法、および記録媒体 | |
KR102477444B1 (ko) | 화자 외 정보가 제거된 화자 임베딩 장치 및 방법 | |
Kenai et al. | A new architecture based VAD for speaker diarization/detection systems | |
US11257503B1 (en) | Speaker recognition using domain independent embedding | |
Sad et al. | Complementary models for audio-visual speech classification | |
Upadhyaya et al. | Block energy based visual features using histogram of oriented gradient for bimodal hindi speech recognition | |
US20230169981A1 (en) | Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |