KR20220080629A - 화자 외 정보가 제거된 화자 임베딩 장치 및 방법 - Google Patents

화자 외 정보가 제거된 화자 임베딩 장치 및 방법 Download PDF

Info

Publication number
KR20220080629A
KR20220080629A KR1020200169934A KR20200169934A KR20220080629A KR 20220080629 A KR20220080629 A KR 20220080629A KR 1020200169934 A KR1020200169934 A KR 1020200169934A KR 20200169934 A KR20200169934 A KR 20200169934A KR 20220080629 A KR20220080629 A KR 20220080629A
Authority
KR
South Korea
Prior art keywords
speaker
embedding
information
recognition result
recognizer
Prior art date
Application number
KR1020200169934A
Other languages
English (en)
Other versions
KR102477444B1 (ko
Inventor
김남수
강우현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020200169934A priority Critical patent/KR102477444B1/ko
Publication of KR20220080629A publication Critical patent/KR20220080629A/ko
Application granted granted Critical
Publication of KR102477444B1 publication Critical patent/KR102477444B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)

Abstract

본 발명은 화자 외 정보가 제거된 화자 임베딩 장치에 관한 것으로서, 보다 구체적으로는 입력 음성으로부터 화자 임베딩을 추출하는, 컴퓨터로 구현되는 화자 임베딩 장치로서, 입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈; 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier; 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier를 포함하되, 상기 임베딩 모듈은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및 상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며, 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 화자 외 정보가 제거된 화자 임베딩 방법에 관한 것으로서, 보다 구체적으로는 컴퓨터에 의해 각 단계가 수행되는 화자 임베딩 방법으로서, (1) 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈을, 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier와 함께 학습하는 단계; 및 (2) 상기 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계를 포함하되, 상기 임베딩 모듈은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및 상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며, 상기 단계 (1)에서는, 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있다.

Description

화자 외 정보가 제거된 화자 임베딩 장치 및 방법{SPEAKER EMBEDDING APPARATUS AND METHOD WHICH NON-SPEAKER INFORMATION IS REMOVED}
본 발명은 화자 임베딩 장치 및 방법에 관한 것으로서, 보다 구체적으로는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 관한 것이다.
화자 인식 (speaker recognition)은 임의의 길이를 갖는 발화 (utterance)로부터 발화자의 정보가 담긴 특징을 추출하기 위한 화자 특징 벡터 (화자 임베딩, speaker embedding) 추출 기술에 기반을 두고 있으며, 최근에는 화자 임베딩 추출을 위한 방법으로 심층신경망 (deep neural network, DNN)이 많이 활용되고 있다.
특히, 심층신경망 기반의 화자 임베딩 추출 기술은 방대한 양과 다양한 품질의 데이터에 대한 확장성이 뛰어나기 때문에, 일반적으로 배경 잡음이 존재하는 환경에서도 상대적으로 우수한 성능을 보이는 편이다.
한편, 음성, 영상, 생체신호와 같은 신호를 분류하거나 분석하기 위해서 많은 경우 프레임 단위로 특징을 추출한다. 예를 들어, 음성의 경우에는 입력 음성을 짧은 시간 단위의 프레임으로 나눈 후 각 프레임에서 mel-frequency cepstral coefficients (MFCC)와 같은 특징을 추출할 수 있다. 이러한 프레임 단위의 특징은 특정 시간에서 신호가 갖는 주파수 특성을 표현하며, 음성의 경우에는 발화한 화자의 성도 (vocal tract) 형태의 패턴을, 그리고 영상의 경우에는 경계선 (edge)에 대한 정보를 담고 있다.
하지만 입력된 신호들의 길이가 다른 경우 추출되는 프레임 단위 특징의 수가 달라지기 때문에 support vector machine (SVM)이나 심층신경망과 같이 하나의 고정된 크기의 벡터를 입력으로 받는 분류기를 사용하기 어렵다는 한계가 있다.
이러한 문제를 해결하기 위하여 입력 신호의 길이에 무관하게 전체적인 패턴을 압축적으로 고정된 크기의 벡터에 표현하는 많은 기법들이 연구되어왔으며, 대표적으로 딥러닝 구조를 이용하여 화자 임베딩을 추출하는 d-vector나 x-vector와 같은 기법이 있다.
위 기법들은 음성이 주어졌을 때 프레임 단위의 특징을 평균, 혹은 가중합 (weighted sum)을 통하여 압축한 후 화자 인식을 하는 딥러닝 모델을 학습한다. 학습한 후, 압축된 프레임 단위의 특징을 입력된 음성의 화자 특징을 나타내는 고정된 크기의 화자 임베딩 벡터로 활용한다.
해당 기법들은 일반적인 화자 인식 환경에서 우수한 결과를 보이며, 현재까지 널리 활용되는 추세다. 하지만 위 기법들은 오로지 학습 데이터 내에 존재하는 화자를 분류하도록 학습되기 때문에, 학습 데이터와는 다른 환경 요소 (예를 들어, 잡음, 반향)에서 녹음된 음성이 주어진 경우 성능 저하가 일어나는 한계가 있다.
한편, 본 발명과 관련된 선행기술로서, 한국공개특허 10-2005-0048214호는 이러한 화자 인식시스템의 화자 특징 벡터 생성방법 및 시스템이 개시된 바 있으며, 선행기술은 입력된 화자 음성신호에서 특징 벡터를 추출하여 화자모델링 훈련 및 화자 인식을 수행하는 기술을 기재하고 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있는, 화자 외 정보가 제거된 화자 임베딩 장치 및 방법을 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있는, 화자 외 정보가 제거된 화자 임베딩 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 외 정보가 제거된 화자 임베딩 장치는,입력 음성으로부터 화자 임베딩을 추출하는, 컴퓨터로 구현되는 화자 임베딩 장치로서,
입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈;
상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier; 및
상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier를 포함하되,
상기 임베딩 모듈은,
입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및
상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며,
상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
입력된 프레임 단위 시퀀스로부터 의미 정보를 포함하는 입력 시퀀스를 출력하는 프레임 단위 네트워크를 더 포함할 수 있다.
바람직하게는, 상기 화자 인식기 및 상기 비화자 요소 인식기는, 심층신경망(DNN) 기반의 네트워크일 수 있다.
바람직하게는,
상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다.
바람직하게는,
크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다.
더욱 바람직하게는, 상기 목적함수는,
상기 화자 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
상기 비화자 요소 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
상기 화자 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
상기 비화자 요소 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습할 수 있다.
더더욱 바람직하게는, 상기 목적함수는,
상기 화자 임베딩과 상기 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 상관도 목적함수를 더 포함하며,
상기 상관도 목적함수가 최소화되도록 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습할 수 있다.
또한, 상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 외 정보가 제거된 화자 임베딩 방법은,
컴퓨터에 의해 각 단계가 수행되는 화자 임베딩 방법으로서,
(1) 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈을, 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier와 함께 학습하는 단계; 및
(2) 상기 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계를 포함하되,
상기 임베딩 모듈은,
입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer; 및
상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층을 포함하며,
상기 단계 (1)에서는,
상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 그 구성상의 특징으로 한다.
바람직하게는,
상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다.
바람직하게는, 상기 단계 (1)에서는,
크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다.
더욱 바람직하게는, 상기 목적함수는,
상기 화자 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
상기 비화자 요소 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
상기 화자 임베딩의 상기 비화자 요소 인식기에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
상기 비화자 요소 임베딩의 상기 화자 인식기에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
상기 단계 (1)에서는,
상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈을 상기 화자 인식기 및 비화자 요소 인식기와 함께 학습할 수 있다.
본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치 및 방법에 따르면, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있다.
도 1은 종래의 화자 임베딩 장치의 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치의 구성을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 프레임 단위 네트워크의 세부적인 구성을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 임베딩 모듈, 화자 인식기 및 비화자 요소 인식기 사이의 데이터 입출력을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 임베딩 모듈의 세부적인 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 화자 임베딩에 의한 학습을 설명하기 위해 도시한 도면.
도 7은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에서, 비화자 요소 임베딩에 의한 학습을 설명하기 위해 도시한 도면.
도 8은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치를 이용한 화자 임베딩을 설명하기 위해 도시한 도면.
도 9는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치를 이용한 화자 인식 실험 결과를 도시한 도면.
도 10은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법의 흐름을 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 종래의 화자 임베딩 장치의 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 딥러닝 기반 화자 임베딩 모델은 기본적으로 세 요소로 구성될 수 있는데, 프레임 단위 네트워크 (frame-level network), 압축 층 (pooling layer), 그리고 화자 인식 네트워크 (speaker classification network)가 그것이다.
여기서, 프레임 단위 네트워크는 long short-term memory model (LSTM)이나 일반적인 deep neural network (DNN)과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서, 보다 유의미한 정보를 포함한 시퀀스를 출력할 수 있다.
압축 층에서는 평균 혹은 가중합 (weighted sum)을 통하여 프레임 단위 네트워크에서 출력한 시퀀스를 하나의 벡터 (화자 임베딩, speaker embedding)로 압축시킬 수 있다.
이후 압축된 벡터는 DNN으로 구성된 화자 인식 네트워크로 입력되며, 해당 네트워크는 화자 인식 결과 (화자 라벨, speaker label)을 출력할 수 있다.
이와 같은 세 구성 요소들은 화자 인식 결과가 좋아지도록 동시에 학습되며, 학습 후에는 화자 임베딩을 추출하는데 활용될 수 있다. 여기서, 화자 인식을 위한 학습 목적함수는 크로스-엔트로피 (cross-entropy)이며, 다음 수학식 1과 같이 계산될 수 있다.
Figure pat00001
여기서, n번째 화자에 대한 yn은 화자 정답 라벨,
Figure pat00002
은 화자 인식 네트워크가 추정한 화자 확률(0과 1 사이의 값)을 의미하며, ω는 압축 층에서 추출한 임베딩 벡터이다.
만약, 정답 화자가 n인 경우, yn=1이며, 위 수학식 1을 최소화하기 위하여 임베딩 모델의 파라미터들은
Figure pat00003
이 최대한 큰 값을 갖도록 학습될 것이다.
현재, 화자 인식 분야에서 입력 신호 단위의 특징 추출 기술로 가장 높은 성능을 보이며 널리 사용되는 기법인 d-vector나 x-vector는 입력 신호의 프레임 단위 특징들을 압축한 후 화자 인식 성능을 높이도록 학습된다. 그러나, 학습 화자의 분류 성능을 높이도록 학습되므로, 추출된 화자 특징 (화자 임베딩)에는 화자 외의 정보 (예를 들어, 잡음, 녹음 기기)가 포함될 가능성이 높다. 이러한 비화자 요소들로 인하여 열화된 음성이 입력된 경우 화자 인식 성능이 급격히 감소할 수 있다.
본 발명은 이러한 문제점을 해결하기 위하여 화자 임베딩 추출 과정에서 비화자 요소에 대한 정보를 감소하도록 임베딩 시스템을 학습할 수 있다. 기존의 기법들과는 달리, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치 및 방법의 화자 임베딩은 화자에 대한 정보는 높이되, 비 화자 요소에 대한 정보는 최소화되도록 학습되므로, 본 발명을 통해 학습된 임베딩 모듈에 의해 추출되는 화자 임베딩은 도 1에 도시된 바와 같은 종래의 화자 임베딩 기술보다 비화자 정보로 인한 성능 열화가 적은 효과가 있다.
이하에서는, 도 2를 참조하여 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치에 대해 상세히 설명하도록 한다.
도 2는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 구성을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)는, 임베딩 모듈(120), 화자 인식기(130) 및 비화자 요소 인식기(140)를 포함하여 구성될 수 있으며, 프레임 단위 네트워크(110)를 더 포함하여 구성될 수 있다.
보다 구체적으로, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)는, 입력 음성으로부터 화자 임베딩을 추출하는 컴퓨터로 구현되는 화자 임베딩 장치(100)로서, 입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈(120); 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130); 및 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)를 포함하되, 임베딩 모듈(120)은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer)(121); 및 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성될 수 있다.
학습 과정에서, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 화자 임베딩의 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 구성상의 특징으로 한다.
요약하면, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)는, 다음과 같은 4가지 특징을 지닌다.
(1) 화자에 대한 정보를 내포하는 화자 임베딩과 화자 외 정보 (비화자 정보, 예를 들어, 잡음, 녹음 기기 등)에 대한 정보를 내포하는 비화자 요소 임베딩을 동시에 추출
(2) 화자를 분류하는 화자 인식 모델 (화자 인식기(130))과 비화자 요소를 분류하는 비화자 요소 인식 모델 (비화자 요소 인식기(140))을 임베딩 모듈과 함께 학습
(3) 화자 임베딩은 화자 인식 성능을 높이되, 비화자 요소 인식 성능을 낮추도록 학습
(4) 비화자 요소 임베딩은 비화자 요소 인식 성능을 높이되, 화자 인식 성능을 낮추도록 학습
이하에서는, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 각 구성요소에 대해 상세히 설명하도록 한다.
프레임 단위 네트워크(110)는, 입력된 프레임 단위 시퀀스로부터 의미 정보를 포함하는 입력 시퀀스를 출력할 수 있다. 즉, 프레임 단위 네트워크(110)는 도 1에 도시된 바와 같은 종래의 딥러닝 기반 임베딩과 동일하게 구성될 수 있다.
도 3은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 프레임 단위 네트워크(110)의 세부적인 구성을 도시한 도면이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 프레임 단위 네트워크(110)는, long short-term memory model (LSTM)이나 일반적인 심층신경망과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서, 보다 유의미한 정보를 포함한 시퀀스를 출력할 수 있다.
도 4는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 임베딩 모듈(120), 화자 인식기(130) 및 비화자 요소 인식기(140) 사이의 데이터 입출력을 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 임베딩 모듈(120)은, 입력 시퀀스로부터 임베딩을 추출하고, 추출된 임베딩은 입력 시퀀스의 특징 벡터로서 화자 인식기(130)와 비화자 요소 인식기(140)에 입력될 수 있다.
여기서, 화자 인식기(130)는 임베딩을 입력으로 하여 화자 인식 결과를 출력할 수 있고, 비화자 요소 인식기(140)는 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력할 수 있는데, 화자 인식기(130) 및 비화자 요소 인식기(140)는, 심층신경망 (DNN) 기반의 네트워크일 수 있다.
도 5는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 임베딩 모듈(120)의 세부적인 구성을 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)의 임베딩 모듈(120)은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층(121), 및 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성될 수 있다.
여기서, 화자 임베딩과 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다. 즉, 화자 임베딩 압축 층(121) 및 비화자 요소 임베딩 압축 층(122)에서는 가중 합(weighted sum)을 통하여 각각 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 추출하는데, 두 임베딩 벡터는 크기가 같으며, 서로 다른 가중치를 통하여 얻어질 수 있다.
이렇게 얻어진 임베딩 벡터들은 화자 인식기(130)와 비화자 요소 인식기(140)에 입력되며, 화자 인식기(130)는 화자 확률을 출력하고, 비화자 요소 인식기(140)는 특정 비화자 요소의 확률 (예를 들어, 특정 기기로부터 녹음되었을 확률)을 출력할 수 있다.
본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 구성하는 임베딩 모듈(120), 화자 인식기(130) 및 비화자 요소 인식기(140)는 모두 동시에 학습될 수 있다. 즉, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 화자 임베딩의 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습할 수 있다.
이하에서는, 도 6 및 도 7을 참조하여 학습 과정에 대해 상세히 설명하도록 한다.
도 6은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 화자 임베딩에 의한 학습을 설명하기 위해 도시한 도면이다. 도 6에 도시된 바와 같이, 화자 임베딩 압축 층(121)에서 추출된 화자 임베딩 (ωspkr)은 화자 인식기(130)와 비화자 요소 인식기(140)에 각각 입력되며, 화자 인식기(130)는 화자 임베딩에 의한 화자 인식 결과(화자 확률)를, 비화자 요소 인식기(140)는 화자 임베딩에 의한 비화자 요소 인식 결과(비화자 요소의 확률)를 각각 출력할 수 있다. 화자 임베딩의 화자 인식 결과는 좋아져야 하므로 목적함수 (제1 목적함수)가 최소화되도록 학습하고, 화자 임베딩의 비화자 요소 인식 결과는 나빠져야 하므로 목적함수 (제3 목적함수)가 최대화되도록 학습할 수 있다.
도 7은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에서, 비화자 요소 임베딩에 의한 학습을 설명하기 위해 도시한 도면이다. 도 7에 도시된 바와 같이, 비화자 요소 임베딩 압축 층(122)에서 추출된 비화자 요소 임베딩 (ωnuis)은 화자 인식기(130)와 비화자 요소 인식기(140)에 각각 입력되며, 화자 인식기(130)는 비화자 요소 임베딩에 의한 화자 인식 결과 (화자 확률)를, 비화자 요소 인식기(140)는 비화자 요소 임베딩에 의한 비화자 요소 인식 결과 (비화자 요소의 확률)를 각각 출력할 수 있다. 따라서, 비화자 요소 임베딩의 화자 임베딩의 비화자 요소 인식 결과는 좋아져야 하므로 목적함수 (제2 목적함수)가 최소화되도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠져야 하므로 목적함수 (제4 목적함수)가 최대화되도록 학습할 수 있다.
이와 같은 학습 과정에서는, 크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다. 이하에서는, 학습에 사용되는 목적함수에 대해 상세히 설명하도록 한다.
목적함수는, 제1 목적함수 (Ls-s,CE), 제2 목적함수 (Lc-c,CE), 제3 목적함수 (Lc-s,E) 및 제4 목적함수 (Ls-c,E)를 포함하여 구성될 수 있으며, 상관도 목적함수 (LM APC)를 더 포함하여 구성될 수 있다.
제1 목적함수는, 화자 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 것이다. 다음 수학식 2와 같이 표현되는 제1 목적함수 (Ls-s,CE)를 최소화하도록 학습될 수 있다.
Figure pat00004
여기서, ωspkr은 화자 임베딩 압축 층(121)을 통해 구한 화자 임베딩을 의미하며, n번째 화자에 대한 yn은 화자 정답 라벨,
Figure pat00005
은 화자 인식기(130)가 추정한 화자 확률을 의미한다.
제2 목적함수는, 비화자 요소 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 것이며, 다음 수학식 3과 같이 표현되는 제2 목적함수 (Lc-c,CE)를 최소화하도록 학습될 수 있다.
Figure pat00006
여기서, ωnuis은 비화자 요소 임베딩 압축 층(122)을 통해 구한 비화자 요소 임베딩을 의미하며, m번째 비화자 요소(예를 들어, 녹음 기기)에 대한 rm은 비화자 요소 정답 라벨(예를 들어, 특정 녹음 기기),
Figure pat00007
은 비화자 요소 인식기(140)가 추정한 확률(예를 들어, 해당 음성이 특정 녹음 기기로 녹음되었을 확률)을 의미한다.
제3 목적함수는, 화자 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 것이며, 다음 수학식 4와 같이 표현되는 제3 목적함수(Lc-s,E)를 최대화하도록 학습될 수 있다.
Figure pat00008
위의 수학식 4가 최대화되기 위해서는 모든 비화자 요소(예를 들어, 녹음 기기)들에 대하여 확률이 최대화되어야 하므로, 이상적인 상태에서는 화자 임베딩의 모든 비화자 요소에 대한 확률이 1/M으로 수렴하게 된다.
제4 목적함수는, 비화자 요소 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 것이며, 다음 수학식 5와 같이 표현되는 제4 목적함수(Ls-c,E)를 최대화하도록 학습될 수 있다.
Figure pat00009
위의 수학식 5가 최대화되기 위해서는 모든 화자에 대하여 확률이 최대화되어야 하므로, 이상적인 상태에서는 비화자 요소 임베딩의 모든 화자에 대한 확률이 1/N으로 수렴하게 된다.
상관도 목적함수는, 화자 임베딩과 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 것으로서, 다음 수학식 6과 같이 표현되는 상관도 목적함수(LM APC)를 최소화하도록 학습될 수 있다.
Figure pat00010
종합하면, 본 발명의 임베딩 모듈(120)은, 제1 목적함수, 제2 목적함수, 제3 목적함수, 제4 목적함수 및 상관도 목적함수를 모두 활용해 학습되며, 최종적인 목적함수는 다음 수학식 7과 같다.
Figure pat00011
도 8은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용한 화자 임베딩을 설명하기 위해 도시한 도면이다. 도 8에 도시된 바와 같이, 전술한 바와 같은 목적함수를 이용해 학습된 임베딩 모듈(120)에 입력 음성의 시퀀스를 적용하면, 화자 외 정보가 제거되고 화자 정보가 최대한 내포된 특징 벡터 (화자 임베딩)를 추출할 수 있다. 이때, 임베딩 모듈(120)의 화자 임베딩 압축 층(121)은, 출력되는 화자 임베딩이 화자에 대한 정보는 최대한 포함하되, 비화자 요소에 대한 정보는 최소화되도록 학습되었으므로, 화자 임베딩이 비화자 정보를 포함하는 데서 기인하는 성능 열화가 적을 것으로 예상할 수 있다.
실험
본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용해 총 6종류의 녹음 기기(삼성 넥서스, 삼성 갤럭시 S 2종, HTC Desire, 삼성 탭, HTC Legend)로 녹음된 RSR2015 Part 3 음성 데이터셋에 대한 성능 검증을 하였다. 비교를 위해, 종래 기술인 x-vector, DNN을 이용한 i-vector, Uncertainty normalized HMM을 이용한 i-vector, GRL, Anti-loss와 비교하였다.
도 9는 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용한 화자 인식 실험 결과를 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)를 이용해 추출한 화자 임베딩이 기존의 기법에 비해 높은 성능을 보였음을 확인할 수 있다.
도 10은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법의 흐름을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법은, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 단계(S100), 및 학습된 임베딩 모듈(120)을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계(S200)를 포함하여 구현될 수 있다.
본 발명은 화자 외 정보가 제거된 화자 임베딩 방법에 관한 것으로서, 본 발명의 특징에 따른 화자 외 정보가 제거된 화자 임베딩 방법은 컴퓨터에 의해 각 단계가 수행되며, 메모리 및 프로세서를 포함한 하드웨어에서 기록되는 소프트웨어로 구성될 수 있다. 보다 구체적으로는, 전술한 바와 같은 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)에 의해 각 단계가 수행될 수 있다. 예를 들어, 본 발명의 화자 외 정보가 제거된 화자 임베딩 방법은, 개인용 컴퓨터, 노트북 컴퓨터, 서버 컴퓨터, PDA, 스마트폰, 태블릿 PC 등에 저장 및 구현될 수 있다. 이하에서는 설명의 편의를 위해, 각 단계를 수행하는 주체는 생략될 수 있다.
이하에서는, 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 방법의 각 단계에 대해 상세히 설명하도록 한다.
단계 S100에서는, 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈(120)을, 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130) 및 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)와 함께 학습할 수 있다.
여기서, 임베딩 모듈(120)은, 입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층(121); 및 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성될 수 있다. 여기서, 화자 임베딩과 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출될 수 있다.
보다 구체적으로, 단계 S100에서는, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 화자 임베딩의 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 비화자 요소 임베딩의 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습할 수 있다.
또한, 단계 S100에서는, 크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행할 수 있다. 여기서, 목적함수는, 화자 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수, 비화자 요소 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수, 화자 임베딩의 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수, 및 비화자 요소 임베딩의 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함할 수 있으며, 화자 임베딩과 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 상관도 목적함수를 더 포함할 수 있다.
단계 S100에서는, 제1 목적함수 및 제2 목적함수가 최소화되고, 제3 목적함수 및 제4 목적함수가 최대화되며, 상관도 목적함수가 최소화되도록, 임베딩 모듈(120)을 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습할 수 있다.
단계 S200에서는, 학습된 임베딩 모듈(120)을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출할 수 있다. 단계 S200에서 추출되는 화자 임베딩은, 비화자 정보를 최소화한 것으로서, 비화자 정보를 포함하는 데서 기인하는 성능 열화가 적을 것은 특징이 있다.
각각의 단계들과 관련된 상세한 내용들은, 앞서 본 발명의 일실시예에 따른 화자 외 정보가 제거된 화자 임베딩 장치(100)와 관련하여 충분히 설명되었으므로, 상세한 설명은 생략하기로 한다.
전술한 바와 같이, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치(100) 및 방법에 따르면, 화자 임베딩과 비화자 요소 임베딩을 동시에 추출하여, 화자 임베딩이 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화하도록 학습함으로써, 비화자 요소에 대한 정보가 감소한 화자 임베딩을 추출하여 비화자 정보로 인한 성능 열화를 줄일 수 있다.
또한, 본 발명에서 제안하고 있는 화자 외 정보가 제거된 화자 임베딩 장치(100) 및 방법에 따르면, 비화자 요소로 인해 열화된 신호를 길이에 무관하게 화자에 대한 정보만 최대한 내포된 고정된 차원의 벡터로 표현한 화자 임베딩을 추출하므로, 길이가 다른 신호를 비교해야 하는 화자 인식이나 생체신호 인식 등에 적용하여 정보를 압축적으로 표현하는 데 활용될 수 있다.
한편, 본 발명은 다양한 통신 단말기로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터에서 판독 가능한 매체를 포함할 수 있다. 예를 들어, 컴퓨터에서 판독 가능한 매체는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD_ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함할 수 있다.
이와 같은 컴퓨터에서 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이때, 컴퓨터에서 판독 가능한 매체에 기록되는 프로그램 명령은 본 발명을 구현하기 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예를 들어, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: 화자 임베딩 장치
110: 프레임 단위 네트워크
120: 임베딩 모듈
121: 화자 임베딩 압축 층
122: 비화자 요소 임베딩 압축 층
130: 화자 인식기
140: 비화자 요소 인식기
S100: 임베딩 모듈을 화자 인식기 및 비화자 요소 인식기와 함께 학습하는 단계
S200: 학습된 임베딩 모듈을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계

Claims (11)

  1. 입력 음성으로부터 화자 임베딩을 추출하는, 컴퓨터로 구현되는 화자 임베딩 장치(100)로서,
    입력 시퀀스로부터 임베딩을 추출하는 임베딩 모듈(120);
    상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130); 및
    상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)를 포함하되,
    상기 임베딩 모듈(120)은,
    입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer)(121); 및
    상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하며,
    상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
  2. 제1항에 있어서,
    입력된 프레임 단위 시퀀스로부터 의미 정보를 포함하는 입력 시퀀스를 출력하는 프레임 단위 네트워크(110)를 더 포함하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
  3. 제1항에 있어서, 상기 화자 인식기(130) 및 상기 비화자 요소 인식기(140)는,
    심층신경망(DNN) 기반의 네트워크인 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
  4. 제1항에 있어서,
    상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출되는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
  5. 제1항에 있어서,
    크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
  6. 제5항에 있어서, 상기 목적함수는,
    상기 화자 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
    상기 비화자 요소 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
    상기 화자 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
    상기 비화자 요소 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
    상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
  7. 제6항에 있어서, 상기 목적함수는,
    상기 화자 임베딩과 상기 비화자 요소 임베딩 사이의 상호 정보를 최소화하기 위한 상관도 목적함수를 더 포함하며,
    상기 상관도 목적함수가 최소화되도록 상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 장치(100).
  8. 컴퓨터에 의해 각 단계가 수행되는 화자 임베딩 방법으로서,
    (1) 입력 시퀀스를 이용해 임베딩을 추출하는 임베딩 모듈(120)을, 상기 임베딩을 입력으로 하여 화자 인식 결과를 출력하는 화자 인식기 (speaker identifier)(130) 및 상기 임베딩을 입력으로 하여 특정 비화자 요소의 확률을 출력하는 비화자 요소 인식기 (nuisance attribute identifier)(140)와 함께 학습하는 단계; 및
    (2) 상기 학습된 임베딩 모듈(120)을 이용해, 입력 음성으로부터 화자 외 정보가 제거된 화자 임베딩을 추출하는 단계를 포함하되,
    상기 임베딩 모듈(120)은,
    입력 시퀀스를 화자에 대한 정보를 내포하는 벡터로 압축해 화자 임베딩을 추출하는 화자 임베딩 압축 층 (pooling layer)(121); 및
    상기 입력 시퀀스를 화자 외 정보를 내포하는 벡터로 압축해 비화자 요소 화자 임베딩을 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하며,
    상기 단계 (1)에서는,
    상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하되, 상기 화자 임베딩의 상기 화자 인식 결과는 좋아지되 비화자 요소 인식 결과는 나빠지도록 학습하고, 상기 비화자 요소 임베딩의 상기 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
  9. 제8항에 있어서,
    상기 화자 임베딩과 상기 비화자 요소 임베딩은, 크기가 같고 서로 다른 가중치를 통해 추출되는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
  10. 제8항에 있어서, 상기 단계 (1)에서는,
    크로스-엔트로피 기반의 목적함수를 이용해 학습을 수행하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
  11. 제10항에 있어서, 상기 목적함수는,
    상기 화자 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 좋아지도록 학습하기 위한 제1 목적함수;
    상기 비화자 요소 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 좋아지도록 학습하기 위한 제2 목적함수;
    상기 화자 임베딩의 상기 비화자 요소 인식기(140)에 대한 비화자 요소 인식 결과가 나빠지도록 학습하기 위한 제3 목적함수; 및
    상기 비화자 요소 임베딩의 상기 화자 인식기(130)에 대한 화자 인식 결과가 나빠지도록 학습하기 위한 제4 목적함수를 포함하며,
    상기 단계 (1)에서는,
    상기 제1 목적함수 및 제2 목적함수가 최소화되고, 상기 제3 목적함수 및 제4 목적함수가 최대화되도록 상기 임베딩 모듈(120)을 상기 화자 인식기(130) 및 비화자 요소 인식기(140)와 함께 학습하는 것을 특징으로 하는, 화자 외 정보가 제거된 화자 임베딩 방법.
KR1020200169934A 2020-12-07 2020-12-07 화자 외 정보가 제거된 화자 임베딩 장치 및 방법 KR102477444B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200169934A KR102477444B1 (ko) 2020-12-07 2020-12-07 화자 외 정보가 제거된 화자 임베딩 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200169934A KR102477444B1 (ko) 2020-12-07 2020-12-07 화자 외 정보가 제거된 화자 임베딩 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220080629A true KR20220080629A (ko) 2022-06-14
KR102477444B1 KR102477444B1 (ko) 2022-12-15

Family

ID=81980331

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200169934A KR102477444B1 (ko) 2020-12-07 2020-12-07 화자 외 정보가 제거된 화자 임베딩 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102477444B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225001A (ja) * 2007-03-12 2008-09-25 Nec Corp 音声認識装置および音声認識方法,音声認識用プログラム
KR102221260B1 (ko) * 2019-03-25 2021-03-02 한국과학기술원 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225001A (ja) * 2007-03-12 2008-09-25 Nec Corp 音声認識装置および音声認識方法,音声認識用プログラム
KR102221260B1 (ko) * 2019-03-25 2021-03-02 한국과학기술원 특징 제어 가능 음성 모사를 위한 전자 장치 및 그의 동작 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Naoyuki Kanda 외, 'Simultaneous Speech Recognition and Speaker Diarization for Monaural Dialogue Recordings with Target-Speaker Acoustic Models', IEEE, 2019. *
권유환 외, ‘화자 인식을 위한 적대학습 기반 음성 분리 프레임워크에 대한 연구’, 한국음향학회지 제39권 제5호, 2020.09.* *

Also Published As

Publication number Publication date
KR102477444B1 (ko) 2022-12-15

Similar Documents

Publication Publication Date Title
Zhou et al. CNN with phonetic attention for text-independent speaker verification
Huang et al. Deep convolutional recurrent neural network with attention mechanism for robust speech emotion recognition
US20230409102A1 (en) Low-power keyword spotting system
JP7023934B2 (ja) 音声認識方法及び装置
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US8249867B2 (en) Microphone array based speech recognition system and target speech extracting method of the system
Xue et al. Online end-to-end neural diarization with speaker-tracing buffer
US20100057452A1 (en) Speech interfaces
KR102294638B1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
US6931374B2 (en) Method of speech recognition using variational inference with switching state space models
US20060129392A1 (en) Method for extracting feature vectors for speech recognition
KR102346634B1 (ko) 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
WO2012075640A1 (en) Modeling device and method for speaker recognition, and speaker recognition system
US9984678B2 (en) Factored transforms for separable adaptation of acoustic models
Ghaffarzadegan et al. Deep neural network training for whispered speech recognition using small databases and generative model sampling
Pao et al. A study on the search of the most discriminative speech features in the speaker dependent speech emotion recognition
Takeuchi et al. Voice activity detection based on fusion of audio and visual information
WO2016152132A1 (ja) 音声処理装置、音声処理システム、音声処理方法、および記録媒体
KR102477444B1 (ko) 화자 외 정보가 제거된 화자 임베딩 장치 및 방법
Kenai et al. A new architecture based VAD for speaker diarization/detection systems
US11257503B1 (en) Speaker recognition using domain independent embedding
Sad et al. Complementary models for audio-visual speech classification
Upadhyaya et al. Block energy based visual features using histogram of oriented gradient for bimodal hindi speech recognition
US20230169981A1 (en) Method and apparatus for performing speaker diarization on mixed-bandwidth speech signals

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right