WO2022054994A1 - 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체 - Google Patents

비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체 Download PDF

Info

Publication number
WO2022054994A1
WO2022054994A1 PCT/KR2020/012348 KR2020012348W WO2022054994A1 WO 2022054994 A1 WO2022054994 A1 WO 2022054994A1 KR 2020012348 W KR2020012348 W KR 2020012348W WO 2022054994 A1 WO2022054994 A1 WO 2022054994A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
embedding
embedding vector
compression layer
frame
Prior art date
Application number
PCT/KR2020/012348
Other languages
English (en)
French (fr)
Inventor
김남수
강우현
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to PCT/KR2020/012348 priority Critical patent/WO2022054994A1/ko
Publication of WO2022054994A1 publication Critical patent/WO2022054994A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Definitions

  • the present invention relates to a method and apparatus for extracting speaker embeddings robust to non-speaker elements, and a recording medium for the same, and more specifically, to non-speaker information such as noise or echo, unlike existing methods of learning only a speaker classifier. It relates to a method and apparatus for extracting speaker embeddings robust to non-speaker elements that enable extraction of speaker embeddings robust to non-speaker elements by learning a model for classifying them together, and a recording medium for the same.
  • features are extracted in units of frames.
  • features such as Mel-Frequency Cepstral Coefficients (MFCCs) may be extracted from each frame.
  • MFCCs Mel-Frequency Cepstral Coefficients
  • the characteristics of such a frame unit express the frequency characteristics of a signal at a specific time, and in the case of voice, it contains information about the vocal tract-shaped pattern of the uttered speaker, and in the case of an image, information about the edge. there is.
  • d-vector or x-vector which are widely used techniques showing the highest performance as an input signal unit feature extraction technology in the current speaker recognition field, compresses the input signal frame unit features and then learns to improve the speaker recognition performance.
  • the extracted speaker features are likely to include information other than the speaker (noise, recording device, etc.) In the case of input, there is a problem in that speaker recognition performance is rapidly reduced.
  • the present invention has been proposed to solve the above problems of the previously proposed methods, and receives a frame-by-frame sequence, outputs a sequence including meaningful information, and performs a weighted sum of the output sequence of the output frame-by-frame network.
  • the speaker embedding vector and non-speaker element embedding vector are respectively extracted through Unlike the existing methods of learning only the classifier, the embedding system is learned so that information on non-speaker elements is reduced during the speaker embedding extraction process.
  • the present invention is a deep learning-based embedding extraction technology capable of extracting speaker embeddings robust to environmental factors, and the extracted speaker embedding vector can maintain only the original speaker information from which information on non-speaker elements has been removed, and deteriorate
  • It is a feature extraction algorithm that enables expression as a fixed small-dimensional vector that contains only information about the target information (speaker) as much as possible regardless of the length of the signal.
  • Another object of the present invention is to provide a method and apparatus for extracting speaker embeddings robust to non-speaker elements, which can be widely used in the same field, and a recording medium for the same.
  • a method for extracting speaker embeddings robust to non-speaker elements comprising:
  • step (3) the recognition network processing the speaker embedding vector and non-speaker element embedding vector extracted in step (2), respectively, as inputs, and outputting the speaker probability and the non-speaker element probability, respectively. do it with
  • step (1) Preferably, in step (1),
  • the frame unit network 110 may be implemented in a structure of a long short-term memory model (LSTM) or a deep neural network (DNN).
  • LSTM long short-term memory model
  • DNN deep neural network
  • step (2) the ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
  • the non-speaker element embedding compression layer of the compression layer extracts a non-speaker element embedding vector through a weighted sum of an output sequence of a frame-by-frame network
  • Steps (2-1) and (2-2) are performed simultaneously, so that the speaker embedding vector and the non-speaker element embedding vector can be simultaneously extracted.
  • step (2) More preferably, in step (2),
  • the speaker embedding vector and the non-speaker element embedding vector are simultaneously extracted, but the speaker embedding vector and the non-speaker element embedding vector have the same size and can be obtained through different weights.
  • step (3) More preferably, in step (3),
  • (3-1) receiving, by the speaker recognition network of the recognition network, a speaker embedding vector and a non-speaker element embedding vector of the compression layer, and outputting a speaker probability;
  • the non-speaker recognition network of the recognition network receives the speaker embedding vector and the non-speaker element embedding vector of the compression layer and outputs a probability of the non-speaker element.
  • a frame-by-frame network for receiving a frame-by-frame sequence of an input voice and outputting a sequence including meaningful information
  • a compression layer for extracting a speaker embedding vector and a non-speaker element embedding vector through a weighted sum of the output sequence of the frame-by-frame network
  • It is characterized in that it includes a recognition network that processes the speaker embedding vector and non-speaker element embedding vector extracted from the compression layer as inputs, and outputs the speaker probability and the non-speaker element probability, respectively.
  • the frame unit network comprises:
  • LSTM long short-term memory model
  • DNN deep neural network
  • the compression layer comprises:
  • a speaker embedding compression layer for extracting a speaker embedding vector through a weighted sum of the output sequence of the frame-by-frame network
  • a non-speaker element embedding compression layer that extracts the non-speaker element embedding vector through a weighted sum of the output sequence of the frame unit network at the same time as the speaker embedding vector is extracted of the speaker embedding compression layer.
  • the compressive layer comprises:
  • the speaker embedding vector and the non-speaker element embedding vector are simultaneously extracted through the speaker embedding compression layer and the non-speaker element embedding compression layer, but the speaker embedding vector and the non-speaker element embedding vector have sizes and can be obtained through different weights. .
  • the recognition network comprises:
  • a speaker recognition network that receives a speaker embedding vector and a non-speaker element embedding vector of the compression layer and outputs a speaker probability
  • the non-speaker recognition network may include a non-speaker recognition network that receives the speaker embedding vector and non-speaker element embedding vector of the compression layer and outputs the probability of the non-speaker element.
  • the method and apparatus for extracting speaker embeddings robust to non-speaker elements proposes a frame-by-frame sequence, outputs a sequence including meaningful information, and weights the output sequence of the output frame-by-frame network
  • the speaker embedding vector and non-speaker element embedding vector are respectively extracted through a weighted sum, and the speaker embedding vector and non-speaker element embedding vector are respectively processed as inputs to output the speaker probability and the non-speaker element probability, respectively.
  • the extracted speaker embedding vector is It is possible to maintain only the sequential speaker information from which the information on the non-speaker element has been removed, and to express it as a fixed small-dimensional vector that contains only the information about the target information (speaker) as much as possible regardless of the length of the degraded signal.
  • the feature extraction algorithm can be widely used in fields such as speaker recognition and biosignal recognition where signals of different lengths need to be compared.
  • 1 is a diagram showing a schematic configuration of a deep learning-based speaker embedding model.
  • FIG. 2 is a diagram illustrating a flow of a method for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention.
  • step S120 is a diagram illustrating a detailed flow of step S120 in the method for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention.
  • step S130 is a diagram illustrating a detailed flow of step S130 in the method for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention.
  • FIG. 5 is a functional block diagram illustrating a schematic configuration of an apparatus for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention.
  • FIG. 6 is a functional block diagram illustrating the configuration of a compression layer of a speaker embedding extraction apparatus robust to non-speaker elements according to an embodiment of the present invention.
  • FIG. 7 is a diagram showing the configuration of a recognition network of a speaker embedding extraction apparatus robust to non-speaker elements according to an embodiment of the present invention as functional blocks.
  • step of the speaker embedding compression layer extracting the speaker embedding vector through a weighted sum of the output sequence of the frame unit network
  • S131 a step in which the speaker recognition network receives the speaker embedding vector and the non-speaker element embedding vector of the compression layer and outputs the speaker probability
  • S132 a step in which the non-speaker recognition network receives the speaker embedding vector and the non-speaker element embedding vector of the compression layer and outputs the probability of the non-speaker element
  • the deep learning-based speaker embedding model is basically composed of a frame-level network, a pooling layer for speaker recognition, and a speaker classification network.
  • the frame unit network receives an input frame unit sequence using a structure such as a long short-term memory model (LSTM) or a general deep neural network (DNN) and outputs a sequence including more meaningful information.
  • LSTM long short-term memory model
  • DNN general deep neural network
  • the compression layer for speaker recognition compresses the sequence output from the frame unit network into one vector, that is, speaker embedding, through an average or a weighted sum. Thereafter, the compressed vector is input to a speaker recognition network composed of a DNN, and the speaker recognition network outputs a speaker recognition result (speaker label, speaker label).
  • the above three components are learned at the same time to improve the speaker recognition result, and after learning, they are used to extract speaker embeddings.
  • the learning objective function for speaker recognition is cross-entropy, and it can be expressed by [Equation 1] below.
  • y n for the nth speaker is the speaker correct label
  • FIG. 2 is a diagram illustrating a flow of a method for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention
  • FIG. 3 is a method for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention
  • It is a diagram showing the detailed flow of step S120
  • FIG. 4 is a diagram showing the detailed flow of step S130 in the method for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention.
  • the method for extracting speaker embeddings robust to non-speaker elements may be performed by a computing device, and as shown in FIGS. 5 to 7, respectively, an apparatus 100 for extracting speaker embeddings robust to non-speaker elements ) can be understood to apply.
  • the frame-by-frame network 110 receives the frame-by-frame sequence for the input voice and outputs a sequence including meaningful information.
  • the frame unit network 110 may be implemented in a structure of a long short-term memory model (LSTM) or a deep neural network (DNN).
  • LSTM long short-term memory model
  • DNN deep neural network
  • step S120 the compression layer 120 extracts a speaker embedding vector and a non-speaker element embedding vector through a weighted sum of the output sequence of the frame unit network 110 output in step S110, respectively.
  • the speaker embedding compression layer 121 of the compression layer 120 extracts the speaker embedding vector through a weighted sum of the output sequence of the frame unit network 110.
  • Step S121 and the non-speaker element embedding compression layer 122 of the compression layer 120 extracts the non-speaker element embedding vector through a weighted sum of the output sequence of the frame-by-frame network 110.
  • Step S122. can do.
  • steps S121 and S122 are simultaneously performed to extract the speaker embedding vector and the non-speaker element embedding vector at the same time. Also, in step S120, the speaker embedding vector and the non-speaker element embedding vector are simultaneously extracted, but the speaker embedding vector and the non-speaker element embedding vector have the same size and can be obtained through different weights.
  • step S130 the recognition network 130 processes the speaker embedding vector and non-speaker element embedding vector extracted in step S120, respectively, as inputs, and outputs the speaker probability and the non-speaker element probability, respectively.
  • the speaker recognition network 131 of the recognition network 130 receives the speaker embedding vector and non-speaker element embedding vector of the compression layer 120, and outputs the speaker probability.
  • step S132 in which the non-speaker recognition network 132 of the recognition network 130 receives the speaker embedding vector and the non-speaker element embedding vector of the compression layer 120 and outputs the probability of the non-speaker element.
  • the speaker recognition network 131 and the non-speaker recognition network 132 of the recognition network 130 are composed of DNN, and when the speaker embedding vector and non-speaker element embedding vector extracted from the compression layer 120 are input, the speaker The recognition network 131 outputs a speaker probability, and the non-speaker recognition network 132 outputs a probability of a specific non-speaker element (noise, echo, probability of being recorded from a specific device, etc.).
  • the elements of each step of the method for extracting speaker embeddings robust to non-speaker elements according to the present invention are all learned at the same time.
  • the recognition result is bad, but the non-speaker element recognition result is learned to improve.
  • the speaker embedding which includes information about the speaker
  • the nuisance attribute embedding which includes information on information other than the speaker (noise, recording device, etc.) are simultaneously extracted.
  • a speaker identifier for classifying a speaker and a nuisance attribute identifier for classifying a non-speaker element are learned together with the embedding model.
  • the speaker embedding is learned to increase the speaker recognition performance but lower the non-speaker element recognition performance
  • the non-speaker element embedding is learned to increase the non-speaker element recognition performance but lower the speaker recognition performance.
  • FIG. 5 is a functional block diagram illustrating a schematic configuration of an apparatus for extracting speaker embeddings robust to non-speaker elements according to an embodiment of the present invention
  • FIG. 6 is a diagram illustrating a speaker robust to non-speaker elements according to an embodiment of the present invention. It is a diagram showing the configuration of the compression layer of the embedding extraction device with functional blocks
  • FIG. 7 is a diagram showing the configuration of the recognition network of the speaker embedding extraction device robust to non-speaker elements according to an embodiment of the present invention as a functional block.
  • the speaker embedding extraction apparatus 100 robust to non-speaker elements according to an embodiment of the present invention includes a frame unit network 110, a compression layer 120, and a recognition network. 130 may be included.
  • the frame unit network 110 is configured to receive a frame unit sequence for an input voice and output a sequence including meaningful information.
  • the frame unit network 110 may be configured in a structure of a long short-term memory model (LSTM) or a deep neural network (DNN).
  • LSTM long short-term memory model
  • DNN deep neural network
  • the compression layer 120 is configured to extract a speaker embedding vector and a non-speaker element embedding vector from the output sequence of the frame unit network 110 through a weighted sum, respectively.
  • the compression layer 200 includes a speaker embedding compression layer 121 that extracts a speaker embedding vector through a weighted sum of the output sequence of the frame unit network 110, and speaker embedding.
  • the non-speaker element embedding compression layer 122 extracts the non-speaker element embedding vector through a weighted sum of the output sequence of the frame unit network 110. It can be configured to include
  • the compression layer 120 simultaneously extracts the speaker embedding vector and the non-speaker element embedding vector through the speaker embedding compression layer 121 and the non-speaker element embedding compression layer 122, but the speaker embedding vector and the non-speaker element embedding vector , and can be obtained through different weights.
  • the recognition network 130 is configured to process the speaker embedding vector and non-speaker element embedding vector extracted from the compression layer 120, respectively, as inputs, and respectively output the speaker probability and the non-speaker element probability.
  • the recognition network 130 includes a speaker recognition network 131 that receives the speaker embedding vector and non-speaker element embedding vector of the compression layer 120 and outputs a speaker probability, and the compression layer 120 .
  • the compression layer 120 may include a non-speaker recognition network 132 that receives the speaker embedding vector and non-speaker element embedding vector and outputs the probability of the non-speaker element.
  • the element recognition network can be configured to classify the types of recording devices.
  • the cross-entropy objective function as shown in Equation 2 below is minimized.
  • y n for the nth speaker is the speaker answer label
  • y n for the nth speaker is the speaker answer label
  • r m for the mth recording device is the correct answer label of the recording device, denotes the probability of the recording device (the probability that the corresponding voice was recorded with a specific recording device) estimated by the recognition network of the recording device.
  • the embedding network of the present invention is learned by using all of the above objective functions, and the final objective function can be expressed as [Equation 7] below.
  • the method and apparatus for extracting speaker embeddings robust to non-speaker elements is an algorithm that expresses a distributed pattern in an input signal or information string as a vector of a fixed size through non-linear processing. It can be applied to all fields using techniques such as vector, d-vector, x-vector, or GMM supervector. That is, the present invention is a technology for compressing an information sequence that may have different input lengths, such as voice, video, or biosignal, into a fixed-length vector containing only important information. It can be applied to various voice fields in which speaker information can be used as an additional input, such as synthesis.
  • it can be used in a technology that requires a process of extracting a vector of a fixed size by receiving not only voice but also other information streams.
  • it may be used to compressively express information streams of different lengths, and furthermore, it may be utilized for compression of a structured information stream such as a document.
  • the method and apparatus for extracting speaker embeddings robust to non-speaker elements receive a frame-by-frame sequence, output a sequence including meaningful information, and output frame-by-frame
  • a speaker embedding vector and a non-speaker element embedding vector are respectively extracted through a weighted sum of the output sequence of the network, and the speaker embedding vector and non-speaker element embedding vector are respectively processed as inputs to determine the speaker probability and non-speaker element embedding vector.
  • the embedding system is learned so that the information on the non-speaker element is reduced in the speaker embedding extraction process, and the speaker embedding is The speaker embeddings obtained as information is increased but information on non-speaker elements are minimized so that performance degradation due to non-speaker information is more minimized.
  • the extracted speaker embedding vector can maintain only the original speaker information from which information on non-speaker elements has been removed, and the length of the degraded signal It is a feature extraction algorithm that enables expression as a fixed, small-dimensional vector that contains only information about the target information (speaker) as much as possible regardless of the situation. It is widely used in fields such as speaker recognition and biosignal recognition where signals of different lengths must be compared make it available for use.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

본 발명에서 제안하고 있는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있다.

Description

비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체
본 발명은 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 관한 것으로서, 보다 구체적으로는 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 잡음 혹은 반향과 같은 화자 외적인 정보를 분류하는 모델을 함께 학습하여 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 하는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 관한 것이다.
일반적으로 음성, 영상, 생체신호와 같은 신호를 분류하거나 분석하기 위해서 많은 경우 프레임 단위로 특징을 추출한다. 예를 들어, 음성의 경우에는 입력 음성을 짧은 시간 단위의 프레임으로 나눈 후, 각각의 프레임에서 MFCC(Mel-Frequency Cepstral Coefficients)와 같은 특징을 추출할 수 있다. 이러한 프레임 단위의 특징은 특정 시간에서 신호가 갖는 주파수 특성을 표현하며, 음성의 경우에는 발화한 화자의 성도(vocal tract) 형태의 패턴을, 그리고 영상의 경우에는 경계선(edge)에 대한 정보를 담고 있다. 하지만 입력된 신호들의 길이가 다른 경우, 추출되는 프레임 단위 특징의 수가 달라지기 때문에 SVM(Support Vector Machine)이나 DNN(Deep Neural Network)과 같이 하나의 고정된 크기의 벡터를 입력으로 받는 분류기를 사용하기 어려운 문제가 있다.
이러한 문제를 해결하기 위하여 입력 신호의 길이에 무관하게 전체적인 패턴을 압축적으로 고정된 크기의 벡터에 표현하는 많은 기법들이 연구되어왔으며, 대표적으로 딥러닝 구조를 이용하여 화자 임베딩을 추출하는 d-vector나 x-vector와 같은 기법이 있다. 이러한 d-vector나 x-vector와 같은 기법들은 음성이 주어졌을 때 프레임 단위의 특징을 평균, 혹은 가중합(weighted sum)을 통하여 압축한 후, 화자 인식을 하는 딥러닝 모델을 학습한다. 학습한 후, 압축된 프레임 단위의 특징을 입력된 음성의 화자 특징을 나타내는 고정된 크기의 화자 임베딩 벡터로 활용한다. 해당 기법들은 일반적인 화자 인식 환경에서 우수한 결과를 보이며, 현재까지 널리 활용되는 추세에 있다. 하지만 위 기법들은 오로지 학습 데이터 내에 존재하는 화자를 분류하도록 학습되기 때문에, 학습 데이터와는 다른 환경 요소(잡음, 반향)에서 녹음된 음성이 주어진 경우 성능 저하가 일어난다.
또한, 현재 화자 인식 분야에서 입력 신호 단위의 특징 추출 기술로 가장 높은 성능을 보이며 널리 사용되는 기법인 d-vector나 x-vector는 입력 신호의 프레임 단위 특징들을 압축한 후 화자 인식 성능을 높이도록 학습되고 있지만, 학습 화자의 분류 성능을 높이도록 학습되기에 추출된 화자 특징(화자 임베딩)에는 화자 외의 정보(잡음, 녹음 기기 등)가 포함될 가능성이 높으며, 이러한 비 화자 요소들로 인하여 열화된 음성이 입력된 경우 화자 인식 성능이 급격히 감소하게 되는 문제가 있었다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하고, 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하며, 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하도록 구성함으로써, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 환경 요소에 강인한 화자 임베딩을 추출할 수 있는 딥러닝 기반 임베딩 추출 기술로서, 추출된 화자 임베딩 벡터는 보다 비화자 요소에 대한 정보가 제거된 수순 화자 정보만을 유지할 수 있으며, 열화된 신호의 길이에 무관하게 목적 정보(화자)에 대한 정보만 최대한 내포된 고정된 작은 차원의 벡터로 표현이 가능하도록 하는 특징 추출 알고리즘으로 길이가 다른 신호를 비교해야 하는 화자 인식 및 생체 신호 인식과 같은 분야에서 널리 사용될 수 있도록 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체를 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법은,
비화자 요소에 강인한 화자 임베딩 추출 방법으로서,
(1) 프레임 단위 네트워크가 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계;
(2) 압축 층이 상기 단계 (1)에서 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계; 및
(3) 인식 네트워크가 상기 단계 (2)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계(1)에서는,
상기 프레임 단위 네트워크(110)가 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구현될 수 있다.
바람직하게는, 상기 단계(2)에서는,
(2-1) 상기 압축 층의 화자 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계; 및
(2-2) 상기 압축 층의 비화자 요소 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계를 포함하되,
상기 단계 (2-1)과 단계 (2-2)가 동시에 수행되어 화자 임베딩 벡터와 비화자 요소 임베딩 벡터는 동시에 추출될 수 있다.
더욱 바람직하게는, 상기 단계(2)에서는,
화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻을 수 있다.
더욱 바람직하게는, 상기 단계(3)에서는,
(3-1) 상기 인식 네트워크의 화자 인식 네트워크가 상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계; 및
(3-2) 상기 인식 네트워크의 비화자 인식 네트워크가 상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계를 포함할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치는,
비화자 요소에 강인한 화자 임베딩 추출 장치로서,
입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 프레임 단위 네트워크;
상기 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 압축 층; 및
상기 압축 층에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 인식 네트워크를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 프레임 단위 네트워크는,
상기 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구성될 수 있다.
바람직하게는, 상기 압축 층은,
상기 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 화자 임베딩 압축 층; 및
상기 화자 임베딩 압축 층의 화자 임베딩 벡터의 추출과 동시에, 상기 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 비화자 요소 임베딩 압축 층을 포함하여 구성할 수 있다.
더욱 바람직하게는, 상기 압축 층은,
상기 화자 임베딩 압축 층과 비화자 요소 임베딩 압축 층을 통해 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻을 수 있다.
더욱 바람직하게는, 상기 인식 네트워크는,
상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 화자 인식 네트워크; 및
상기 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 비화자 인식 네트워크를 포함하여 구성할 수 있다.
본 발명에서 제안하고 있는 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하고, 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하며, 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하도록 구성함으로써, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있다.
또한, 본 발명의 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체에 따르면, 환경 요소에 강인한 화자 임베딩을 추출할 수 있는 딥러닝 기반 임베딩 추출 기술로서, 추출된 화자 임베딩 벡터는 보다 비화자 요소에 대한 정보가 제거된 수순 화자 정보만을 유지할 수 있으며, 열화된 신호의 길이에 무관하게 목적 정보(화자)에 대한 정보만 최대한 내포된 고정된 작은 차원의 벡터로 표현이 가능하도록 하는 특징 추출 알고리즘으로 길이가 다른 신호를 비교해야 하는 화자 인식 및 생체 신호 인식과 같은 분야에서 널리 사용될 수 있도록 할 수 있다.
도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S120의 세부 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면.
도 5는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 개략적인 구성을 기능블록으로 도시한 도면.
도 6은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 압축 층의 구성을 기능블록으로 도시한 도면.
도 7은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 인식 네트워크의 구성을 기능블록으로 도시한 도면.
<부호의 설명>
100: 본 발명의 일실시예에 따른 화자 임베딩 추출 장치
110: 프레임 단위 네트워크
120: 압축 층
130: 인식 네트워크
121: 화자 임베딩 압축 층
122: 비화자 요소 임베딩 압축 층
131: 화자 인식 네트워크
132: 비화자 인식 네트워크
S110: 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계
S120: 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계
S121: 화자 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계
S122: 비화자 요소 임베딩 압축 층이 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계
S130: 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계
S131: 화자 인식 네트워크가 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계
S132: 비화자 인식 네트워크가 압축 층의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 딥러닝 기반 화자 임베딩 모델은, 기본적으로 프레임 단위 네트워크(frame-level network)와, 화자 인식용 압축 층(pooling layer), 및 화자 인식 네트워크(speaker classification network)로 구성될 수 있다. 프레임 단위 네트워크는 long short-term memory model(LSTM)이나 일반적인 deep neural network(DNN)과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서 보다 유의미한 정보를 포함한 시퀀스를 출력한다.
또한, 화자 인식용 압축 층에서는 평균 혹은 가중 합(weighted sum)을 통하여 프레임 단위 네트워크에서 출력한 시퀀스를 하나의 벡터, 즉 화자 임베딩(speaker embedding)으로 압축시킨다. 이후 압축된 벡터는 DNN으로 구성된 화자 인식 네트워크로 입력되며, 해당 화자 인식 네트워크는 화자 인식 결과(화자 라벨, speaker label)를 출력한다. 위의 세 구성 요소들은 화자 인식 결과가 좋아지도록 동시에 학습되며, 학습 후에는 화자 임베딩을 추출하는데 활용된다. 화자 인식을 위한 학습 목적함수는 cross-entropy이며, 아래의 [수학식 1]로 나타낼 수 있다.
Figure PCTKR2020012348-appb-img-000001
여기서, n번째 화자에 대한 y n은 화자 정답 라벨,
Figure PCTKR2020012348-appb-img-000002
은 화자 인식 네트워크가 추정한 화자 확률(0과 1 사이의 값)을 의미하며, w는 압축 층에서 추출한 임베딩 벡터이다. 만약 정답 화자가 n인 경우, y n=1이며, [수학식 1]을 최소화하기 위하여 임베딩 모델의 파라미터들은
Figure PCTKR2020012348-appb-img-000003
이 최대한 큰 값을 갖도록 학습될 수 있다.
도 2는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법의 흐름을 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S120의 세부 흐름을 도시한 도면이며, 도 4는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면이다. 도 2 내지 도 4에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법은, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계(S110), 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계(S120), 및 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계(S130)를 포함하여 구현될 수 있다.
본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법은 컴퓨팅 장치에 의해 수행될 수 있으며, 도 5 내지 도 7에 각각 도시되는 바와 같이, 비화자 요소에 강인한 화자 임베딩 추출 장치(100)가 적용되는 것으로 이해될 수 있다.
단계 S110에서는, 프레임 단위 네트워크(110)가 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력한다. 이러한 단계 S110에서는 프레임 단위 네트워크(110)가 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구현될 수 있다.
단계 S120에서는, 압축 층(120)이 단계 S110에서 출력되는 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출한다. 이러한 단계 S120에서는 도 3에 도시된 바와 같이, 압축 층(120)의 화자 임베딩 압축 층(121)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계 S121과, 압축 층(120)의 비화자 요소 임베딩 압축 층(122)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계 S122를 포함할 수 있다.
여기서, 단계 S121과 단계 S122는 동시에 수행되어 화자 임베딩 벡터와 비화자 요소 임베딩 벡터는 동시에 추출한다. 또한, 단계 S120에서는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻을 수 있다.
단계 S130에서는, 인식 네트워크(130)가 단계 S120에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력한다. 이러한 단계 S130에서는 도 4에 도시된 바와 같이, 인식 네트워크(130)의 화자 인식 네트워크(131)가 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계 S131과, 인식 네트워크(130)의 비화자 인식 네트워크(132)가 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계 S132를 포함한다.
또한, 인식 네트워크(130)의 화자 인식 네트워크(131)와 비화자 인식 네트워크(132)는 DNN으로 구성되며, 압축 층(120)에서 추출된 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력되면, 화자 인식 네트워크(131)는 화자 확률을 출력하고, 비화자 인식 네트워크(132)는 특정 비화자 요소의 확률(잡음, 반향, 특정 기기로부터 녹음되었을 확률 등)을 출력한다.
본 발명에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법의 각 단계의 요소들은 모두 동시에 학습되며, 화자 임베딩은 화자 인식 결과가 좋아지되 비화자 요소 인식 결과는 나빠지도록 하고, 비화자 요소 임베딩은 반대로 화자 인식 결과는 나빠지되 비화자 요소 인식 결과는 좋아지도록 학습된다. 본 발명에서 제시되는 요소에서, 화자에 대한 정보를 내포하는 화자 임베딩(speaker embedding)과 화자 외 정보(잡음, 녹음기기 등)에 대한 정보를 내포하는 비화자 요소 임베딩(nuisance attribute embedding)을 동시에 추출하고, 화자를 분류하는 화자 인식 모델(speaker identifier)과 비화자 요소를 분류하는 비화자 요소 인식 모델(nuisance attribute identifier)을 임베딩 모델과 함께 학습한다. 여기서, 화자 임베딩은 화자 인식 성능을 높이되, 비화자 요소 인식 성능을 낮추도록 학습되고, 비화자 요소 임베딩은 비화자 요소 인식 성능을 높이되, 화자 인식 성능을 낮추도록 학습하게 된다.
도 5는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 개략적인 구성을 기능블록으로 도시한 도면이고, 도 6은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 압축 층의 구성을 기능블록으로 도시한 도면이며, 도 7은 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치의 인식 네트워크의 구성을 기능블록으로 도시한 도면이다. 도 5 내지 도 7에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 장치(100)는, 프레임 단위 네트워크(110), 압축 층(120), 및 인식 네트워크(130)를 포함하여 구성될 수 있다.
프레임 단위 네트워크(110)는, 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 구성이다. 이러한 프레임 단위 네트워크(110)는 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구성될 수 있다.
압축 층(120)은 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 구성이다. 이러한 압축 층(200)은 도 6에 도시된 바와 같이, 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 화자 임베딩 압축 층(121)과, 화자 임베딩 압축 층(121)의 화자 임베딩 벡터의 추출과 동시에, 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성할 수 있다.
또한, 압축 층(120)은 화자 임베딩 압축 층(121)과 비화자 요소 임베딩 압축 층(122)을 통해 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻어질 수 있다.
인식 네트워크(130)는 압축 층(120)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 구성이다. 이러한 인식 네트워크(130)는 도 7에 도시된 바와 같이, 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 화자 인식 네트워크(131)와, 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 비화자 인식 네트워크(132)를 포함하여 구성할 수 있다.
이하에서는 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치의 일실시예로서 녹음 기기의 종류에 강인한 화자 임베딩 추출에 사용하는 경우, 녹음 기기의 임베딩을 추출하고, 비화자 요소 인식 네트워크가 녹음 기기의 종류를 분류하도록 설정할 수 있다. 여기서, 화자 임베딩의 화자 인식 네트워크에 대한 성능을 높이기 위하여 아래의 [수학식 2]와 같은 cross-entropy 목적 함수를 최소화 한다.
Figure PCTKR2020012348-appb-img-000004
여기서,
Figure PCTKR2020012348-appb-img-000005
은 화자 임베딩 압축 층을 통해 구한 화자 임베딩을 의미하며, n번째 화자에 대한 y n은 화자 정답 라벨,
Figure PCTKR2020012348-appb-img-000006
은 화자 인식 네트워크가 추정한 화자 확률을 의미한다.
또한, 유사하게 녹음 기기의 임베딩의 녹음 기기의 인식 네트워크에 대한 성능을 높이기 위해서는 아래의 [수학식 3]과 같은 cross-entropy 목적 함수를 최소화 한다.
Figure PCTKR2020012348-appb-img-000007
여기서,
Figure PCTKR2020012348-appb-img-000008
은 녹음 기기의 임베딩 압축 층을 통해 구한 녹음 기기의 임베딩을 의미하며, m번째 녹음 기기에 대한 r m은 녹음 기기의 정답 라벨,
Figure PCTKR2020012348-appb-img-000009
은 녹음 기기의 인식 네트워크가 추정한 녹음 기기의 확률(해당 음성이 특정 녹음 기기로 녹음되었을 확률)을 의미한다.
화자 임베딩의 녹음 기기에 대한 정보를 최소화 하도록 아래의 [수학식 4]와 같은 entropy 목적 함수를 최대화 한다.
Figure PCTKR2020012348-appb-img-000010
여기서, [수학식 4]가 최대화되기 위해서는 모든 녹음 기기들에 대하여 확률이 최대화가 되어야하기 때문에 이상적인 상태에서는 화자 임베딩의 모든 녹음 기기에 대한 확률이
Figure PCTKR2020012348-appb-img-000011
로 수렴하게 된다.
유사하게 녹음 기기의 임베딩의 화자에 대한 정보를 최소화하기 위하여 아래의 [수학식 5]와 같은 entropy 목적 함수를 최대화 한다.
Figure PCTKR2020012348-appb-img-000012
여기서, [수학식 5]가 최대화되기 위해서는 모든 화자에 대하여 확률이 최대화가 되어야하기 때문에 이상적인 상태에서는 녹음 기기의 임베딩의 모든 화자에 대한 확률이
Figure PCTKR2020012348-appb-img-000013
로 수렴하게 된다.
더 나아가, 화자 임베딩과 녹음 기기의 임베딩 사이 상호 정보를 최소화하기 위하여 아래의 [수학식 6]과 같은 상관도 목적 함수를 최소화 한다.
Figure PCTKR2020012348-appb-img-000014
본 발명의 임베딩 네트워크는 위 목적 함수들을 모두 활용하여 학습되며, 최종적인 목적 함수는 아래의 [수학식 7]과 같이 나타낼 수 있다.
Figure PCTKR2020012348-appb-img-000015
상술한 바와 같이, 본 발명을 이용하여 총 6종류의 녹음 기기(삼성 넥서스, 삼성 갤럭시S 2종, HTC Desire, 삼성 탭, HTC Legend)로 녹음된 RSR2015 Part 3 음성 데이터셋에 대한 성능 검증을 한 결과는 아래의 [표 1]과 같다.
Figure PCTKR2020012348-appb-img-000016
위 표 1의 결과에서 확인할 수 있는 바와 같이, 본 발명으로 추출한 임베딩이 기존의 기법에 비하여 높은 성능을 보였다.
본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치는 비선형적인 처리를 통하여 입력 신호나 정보열에 있는 분포적 패턴을 고정된 크기의 벡터로 표현해주는 알고리즘이기 때문에 기존에 i-vector, d-vector, x-vector나 GMM supervector와 같은 기법을 사용하는 분야에는 모두 적용할 수 있다. 즉, 본 발명은 음성이나 영상, 생체신호와 같이 입력의 길이가 다를 수 있는 정보열(sequence)을 중요 정보만 담고 있는 고정된 길이의 벡터로 압축하는 기술로, 화자 인식뿐만 아니라 음성 인식 혹은 음성 합성과 같이 화자에 대한 정보를 부가 입력으로 사용할 수 있는 다양한 음성 분야에 적용될 수 있다.
또한, 음성뿐만 아니라 다른 정보열을 받아서 고정된 크기의 벡터를 추출하는 과정을 요하는 기술에도 활용될 수 있다. 예를 들어, 영상이나 생체 신호가 주어진 경우, 길이가 다른 정보열을 압축적으로 표현하는데 사용될 수 있을 것이며, 더 나아가 문서와 같이 구조적인 정보열의 압축에도 활용될 수 있다.
상술한 바와 같이, 본 발명의 일실시예에 따른 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체는, 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하고, 출력되는 프레임 단위 네트워크의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하며, 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하도록 구성함으로써, 화자 분류기만을 학습하는 기존 방식의 기법들과 달리, 화자 임베딩 추출 과정에서 비 화자 요소에 대한 정보가 감소하도록 임베딩 시스템을 학습하고, 화자 임베딩은 화자에 대한 정보는 높이되, 비화자 요소에 대한 정보는 최소화되도록 학습됨에 따라 얻어진 화자 임베딩은 보다 비화자 정보로 인한 성능 열화가 최소화되고, 그에 따른 비화자 요소에 강인한 화자 임베딩 추출이 가능하도록 할 수 있으며, 특히, 환경 요소에 강인한 화자 임베딩을 추출할 수 있는 딥러닝 기반 임베딩 추출 기술로서, 추출된 화자 임베딩 벡터는 보다 비화자 요소에 대한 정보가 제거된 수순 화자 정보만을 유지할 수 있으며, 열화된 신호의 길이에 무관하게 목적 정보(화자)에 대한 정보만 최대한 내포된 고정된 작은 차원의 벡터로 표현이 가능하도록 하는 특징 추출 알고리즘으로 길이가 다른 신호를 비교해야 하는 화자 인식 및 생체 신호 인식과 같은 분야에서 널리 사용될 수 있도록 할 수 있게 된다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

Claims (11)

  1. 비화자 요소에 강인한 화자 임베딩 추출 방법으로서,
    (1) 프레임 단위 네트워크(110)가 입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 단계;
    (2) 압축 층(120)이 상기 단계 (1)에서 출력되는 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 단계; 및
    (3) 인식 네트워크(130)가 상기 단계 (2)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 단계를 포함하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
  2. 제1항에 있어서, 상기 단계(1)에서는,
    상기 프레임 단위 네트워크(110)가 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구현되는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
  3. 제1항에 있어서, 상기 단계(2)에서는,
    (2-1) 상기 압축 층(120)의 화자 임베딩 압축 층(121)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 단계; 및
    (2-2) 상기 압축 층(120)의 비화자 요소 임베딩 압축 층(122)이 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 단계를 포함하되,
    상기 단계 (2-1)과 단계 (2-2)가 동시에 수행되어 화자 임베딩 벡터와 비화자 요소 임베딩 벡터는 동시에 추출되는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
  4. 제3항에 있어서, 상기 단계(2)에서는,
    화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻어지는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
  5. 제3항에 있어서, 상기 단계(3)에서는,
    (3-1) 상기 인식 네트워크(130)의 화자 인식 네트워크(131)가 상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 단계; 및
    (3-2) 상기 인식 네트워크(130)의 비화자 인식 네트워크(132)가 상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 단계를 포함하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 방법.
  6. 비화자 요소에 강인한 화자 임베딩 추출 장치(100)로서,
    입력 음성에 대한 프레임 단위 시퀀스를 받아서 유의미한 정보를 포함한 시퀀스를 출력하는 프레임 단위 네트워크(110);
    상기 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터와, 비화자 요소 임베딩 벡터를 각각 추출하는 압축 층(200); 및
    상기 압축 층(120)에서 각각 추출되는 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력으로 처리하여 화자 확률 및 비화자 요소의 확률을 각각 출력하는 인식 네트워크(130)를 포함하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
  7. 제6항에 있어서, 상기 프레임 단위 네트워크(110)는,
    상기 LSTM(long short-term memory model)이나 DNN(deep neural network)의 구조로 구성되는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
  8. 제6항에 있어서, 상기 압축 층(120)은,
    상기 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 화자 임베딩 벡터를 추출하는 화자 임베딩 압축 층(121); 및
    상기 화자 임베딩 압축 층(121)의 화자 임베딩 벡터의 추출과 동시에, 상기 프레임 단위 네트워크(110)의 출력 시퀀스를 가중 합(weighted sum)을 통하여 비화자 요소 임베딩 벡터를 추출하는 비화자 요소 임베딩 압축 층(122)을 포함하여 구성하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
  9. 제8항에 있어서, 상기 압축 층(120)은,
    상기 화자 임베딩 압축 층(121)과 비화자 요소 임베딩 압축 층(122)을 통해 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 동시에 추출하되, 화자 임베딩 벡터와 비화자 요소 임베딩 벡터의 크기는 갖고, 서로 다른 가중치를 통하여 얻어지는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
  10. 제8항에 있어서, 상기 인식 네트워크(130)는,
    상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 화자 확률을 출력하는 화자 인식 네트워크(131); 및
    상기 압축 층(120)의 화자 임베딩 벡터와 비화자 요소 임베딩 벡터를 입력받아 비화자 요소의 확률을 출력하는 비화자 인식 네트워크(132)를 포함하여 구성하는 것을 특징으로 하는, 비화자 요소에 강인한 화자 임베딩 추출 장치.
  11. 제1항 내지 제5항 중 어느 한 항에 기재된 비화자 요소에 강인한 화자 임베딩 추출 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
PCT/KR2020/012348 2020-09-11 2020-09-11 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체 WO2022054994A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/012348 WO2022054994A1 (ko) 2020-09-11 2020-09-11 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2020/012348 WO2022054994A1 (ko) 2020-09-11 2020-09-11 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체

Publications (1)

Publication Number Publication Date
WO2022054994A1 true WO2022054994A1 (ko) 2022-03-17

Family

ID=80630354

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/012348 WO2022054994A1 (ko) 2020-09-11 2020-09-11 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체

Country Status (1)

Country Link
WO (1) WO2022054994A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템
US20200111481A1 (en) * 2013-07-31 2020-04-09 Google Llc Speech recognition using neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9230550B2 (en) * 2013-01-10 2016-01-05 Sensory, Incorporated Speaker verification and identification using artificial neural network-based sub-phonetic unit discrimination
US20200111481A1 (en) * 2013-07-31 2020-04-09 Google Llc Speech recognition using neural networks
US20170270919A1 (en) * 2016-03-21 2017-09-21 Amazon Technologies, Inc. Anchored speech detection and speech recognition
KR20190085883A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KANG, WOO HYUN ET AL.: "Disentangled Speaker and Nuisance Attribute Embedding for Robust Speaker Verification", IEEE ACCESS, vol. 8, 30 July 2020 (2020-07-30), pages 141838 - 141849, XP011805369, DOI: 10.1109/ACCESS.2020.3012893 *

Similar Documents

Publication Publication Date Title
WO2020153572A1 (ko) 사운드 이벤트 탐지 모델 학습 방법
WO2018070780A1 (en) Electronic device and method for controlling the same
WO2020204525A1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
WO2016129930A1 (en) Operating method for voice function and electronic device supporting the same
WO2018070639A1 (ko) 전자 장치 및 전자 장치의 오디오 신호 처리 방법
WO2020207035A1 (zh) 骚扰电话拦截方法、装置、设备及存储介质
WO2020034526A1 (zh) 保险录音的质检方法、装置、设备和计算机存储介质
WO2016133316A1 (en) Electronic device and method of operating voice recognition function
WO2021112642A1 (en) Voice user interface
WO2015111850A1 (en) Interactive system, display apparatus, and controlling method thereof
WO2020256257A2 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
WO2016137042A1 (ko) 사용자 인식을 위한 특징 벡터를 변환하는 방법 및 디바이스
WO2018124590A1 (ko) 공진기를 이용한 화자 인식 방법 및 장치
WO2020050509A1 (en) Voice synthesis device
WO2021225403A1 (en) Electronic device for speech recognition and method of speech recognition using thereof
WO2020207038A1 (zh) 基于人脸识别的人数统计方法、装置、设备及存储介质
WO2022014800A1 (ko) 발화 동영상 생성 방법 및 장치
WO2018038381A1 (ko) 외부 기기를 제어하는 휴대 기기 및 이의 오디오 신호 처리 방법
WO2022075714A1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
WO2022255529A1 (ko) 머신 러닝 기반의 립싱크 영상 생성을 위한 학습 방법 및 이를 수행하기 위한 립싱크 영상 생성 장치
WO2013085278A1 (ko) 선택적 주의 집중 모델을 이용한 모니터링 장치 및 그 모니터링 방법
WO2019004582A1 (ko) 아식칩과 스마트폰을 구비하는 실시간 음성인식 장치
WO2016148322A1 (ko) 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치
WO2019035544A1 (ko) 학습을 이용한 얼굴 인식 장치 및 방법
WO2022054994A1 (ko) 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20953396

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20953396

Country of ref document: EP

Kind code of ref document: A1