WO2022075714A1 - 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 - Google Patents
화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 Download PDFInfo
- Publication number
- WO2022075714A1 WO2022075714A1 PCT/KR2021/013641 KR2021013641W WO2022075714A1 WO 2022075714 A1 WO2022075714 A1 WO 2022075714A1 KR 2021013641 W KR2021013641 W KR 2021013641W WO 2022075714 A1 WO2022075714 A1 WO 2022075714A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- speaker
- information
- unit
- frame
- probability distribution
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 115
- 238000000605 extraction Methods 0.000 title claims abstract description 97
- 238000011176 pooling Methods 0.000 title claims abstract description 84
- 238000012545 processing Methods 0.000 claims abstract description 60
- 230000008569 process Effects 0.000 claims abstract description 39
- 238000009826 distribution Methods 0.000 claims description 65
- 239000013598 vector Substances 0.000 claims description 44
- 230000006870 function Effects 0.000 claims description 25
- 239000000284 extract Substances 0.000 claims description 17
- 238000013135 deep learning Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 8
- 238000004220 aggregation Methods 0.000 claims description 8
- 238000013136 deep learning model Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000010835 comparative analysis Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 17
- 238000013527 convolutional neural network Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000012360 testing method Methods 0.000 description 3
- 238000004148 unit process Methods 0.000 description 3
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Definitions
- the present invention relates to a method and system for extracting speaker embeddings of a voice recognizer-based pooling technique for speaker recognition, and a recording medium for the same, and more specifically, to a speaker embedding extraction process, which is different from existing techniques that only consider speaker information, A speech recognizer for speaker recognition that uses the ASR model to estimate the probability distribution of each frame by frame from the voice, and uses this in the pooling process to extract not only the speaker information but also the uttered sentence information in the speaker embedding extraction step It relates to a method and system for extracting speaker embeddings based on a pooling technique, and a recording medium for the same.
- speaker recognition is a technology field for identifying which person's voice is an input voice among registered speakers.
- Such speaker recognition has a learning process that learns the speaker's characteristics with a lot of data, a registration process that stores information about specific speakers in a dictionary system using the learned model, and a registration process that compares the actual incoming voice with the registered voice to identify the same speaker. It consists of a test process to determine whether or not it is recognized.
- speaker embedding In the field of speaker recognition, a fixed-dimensional feature vector called speaker embedding is widely used to extract, compare, and determine speaker information in a learning process, a registration process, and a test process. This technique extracts information that can express the speaker's information from the voice as a fixed-dimensional vector, calculates the similarity between embeddings during registration and testing, and determines whether they are the same person.
- the pooling technique for speaker embedding extraction consists of summarizing frame-based features into a fixed-dimensional vector, and in this process, how well it aggregates information valid for speaker recognition is directly linked to performance.
- these studies commonly consider only the speaker's identity information in the learning process. That is, in comparing two different speakers, it is necessary to consider various factors such as the speaker's identity as well as the speaker's speech characteristics and speech sentence information.
- the existing speaker embedding extraction method only the speaker information is considered, There was a problem that the recognition performance was limited.
- the input voice passes through the network, and the speaker is trained to match the correct speaker through the extracted output. That is, a supervised learning method that relies on correct speaker information is constituted, and only speaker identification information is used to extract speaker embeddings.
- voice information is sequential information and includes various information other than speaker information (noise, blank space, environment, recording device, language, etc.), an approach that emphasizes important information for more effective speaker recognition is not is being demanded
- the present invention has been proposed to solve the above problems of the previously proposed methods.
- the characteristic information of the input voice is extracted in units of frames, and the processing of the input voice is performed. extracts the character probability distribution information of the input voice in frame units through Unlike the existing techniques that only considered speaker information in the speaker embedding extraction process, by processing the Therefore, when calculating the similarity between speaker embeddings in the reasoning step, it is possible to compare features between specific pronunciations, and through this, the speaker recognition system can simultaneously consider and analyze the speaker information and the sentence utterance information.
- An object of the present invention is to provide a method and system for extracting speaker embeddings of a pooling technique, and a recording medium for the same.
- the present invention uses a speech recognizer (ASR) model to estimate a frame-by-frame probability distribution from speech, and utilizes this in a pooling process to extract not only the speaker information but also the utterance sentence information in the speaker embedding extraction step.
- ASR speech recognizer
- the model structure widely used in the existing speaker recognition field is applied, but it can be easily replaced with an appropriate model structure to fit the purpose and applied, so it can be used in various fields.
- Another object of the present invention is to provide a method and system for extracting speaker embeddings of a voice recognizer-based pooling technique for speaker recognition, which can be widely applied to the field of speaker recognition and biosignal recognition, and a recording medium for the same.
- step (3) extracting, by a pooling processing unit, a speaker embedding vector of a fixed dimension by receiving the feature information of step (1) and the character probability distribution information of step (2) as inputs;
- the speaker embedding extraction unit processes the fixed-dimensional speaker embedding vector extracted through step (3) as input and outputs speaker information and utterance sentence information, respectively.
- step (1) Preferably, in step (1),
- the frame unit feature information extraction unit may be implemented as a deep learning model structure of any one of TDNN, CNN, and RNN capable of extracting the feature information of the input voice in units of frames through processing of the input voice.
- step (2) the ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇
- the frame-by-frame character probability distribution extractor uses a speech recognizer (ASR) trained with an objective function based on CTC (Connectionist Temporal Classification), and is implemented as an end-to-end speech recognition model based on TDNN, CNN, RNN and deep learning.
- ASR speech recognizer
- step (3) the step (3)
- the pooling processing unit receives the feature information of step (1) and the character probability distribution information of step (2) as inputs performing an individual aggregation of ;
- step (3-1) obtaining a weighted sum by using a probability value that the characteristic information of each frame belongs to a specific utterance after the process of step (3-1);
- step (3-2) After the process of step (3-2), the step of calculating a vector of a fixed dimension by individually processing the utterance information of a specific word may be performed.
- step (4) More preferably, in step (4),
- the speaker embedding extraction unit processes the fixed-dimensional speaker embedding vector extracted through step (3) as input and outputs speaker information and utterance sentence information, respectively, but the output speaker information and utterance sentence information are locally-connected and It can be learned through a multi-class cross-entropy objective function, passing through the fully-connected two-layer layer and softmax function.
- a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to a feature of the present invention for achieving the above object
- a frame unit feature information extraction unit for extracting feature information of the input voice in units of frames through processing of the input voice
- a frame-by-frame character probability distribution extracting unit that operates simultaneously with the frame-by-frame feature information extracting unit and extracts character probability distribution information of the input voice in units of frames through processing of the input voice;
- a pooling processing unit that receives the characteristic information of the frame unit characteristic information extraction unit and the character probability distribution information of the frame unit character probability distribution extraction unit as inputs and extracts a speaker embedding vector of a fixed dimension;
- It is characterized in that it includes a speaker embedding extraction unit that processes the extracted fixed-dimensional speaker embedding vector input from the pooling processing unit as an input and outputs speaker information and utterance sentence information, respectively.
- the frame unit feature information extraction unit
- It can be implemented as a deep learning model structure of any one of TDNN, CNN, and RNN, which can extract feature information of the input voice in units of frames through processing of the input voice.
- the frame unit character probability distribution extracting unit Preferably, the frame unit character probability distribution extracting unit,
- ASR speech recognizer
- CTC Connectionist Temporal Classification
- the pooling processing unit Preferably, the pooling processing unit, the pooling processing unit, and
- the utterance information of a specific word is individually processed to calculate a fixed-dimensional vector.
- the speaker embedding extraction unit More preferably, the speaker embedding extraction unit,
- the fixed-dimensional speaker embedding vector extracted through the pooling processing unit is processed as an input to output speaker information and utterance sentence information, respectively, but the output speaker information and utterance sentence information are locally-connected and fully-connected second layer layers and softmax function, and can be learned through a multi-class cross-entropy objective function.
- the characteristic information and text of the input voice are processed in units of frames through processing of the input voice.
- each sentence information After extracting probability distribution information, receiving the extracted feature information and character probability distribution information as inputs, extracting a speaker embedding vector of a fixed dimension, and processing the extracted speaker embedding vector of a fixed dimension as an input to obtain speaker information and utterance
- each sentence information By configuring each sentence information to be output, unlike the existing techniques that considered only speaker information in the speaker embedding extraction process, since the frame unit output aggregation process has an individual character unit processing process, in the inference stage, When calculating the similarity, it is possible to compare features between specific pronunciations, and through this, the speaker recognition system can simultaneously consider and analyze the speaker information and the sentence utterance information.
- the probability distribution of the frame-based character unit is estimated from the voice using the voice recognizer (ASR) model.
- ASR voice recognizer
- 1 is a diagram showing a schematic configuration of a deep learning-based speaker embedding model.
- FIG. 2 is a diagram illustrating a flow of a method for extracting speaker embeddings of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention.
- step S130 is a diagram illustrating a detailed flow of step S130 in the speaker embedding extraction method of the voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention.
- FIG. 4 is a diagram showing the configuration of a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention as functional blocks.
- FIG. 5 is a diagram illustrating an exemplary configuration of a deep learning model of a frame unit feature information extraction unit of a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention.
- FIG. 6 is a diagram schematically illustrating an implementation configuration of a frame unit character probability distribution extraction unit of a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention.
- FIG. 7 is a diagram showing the overall structure of an algorithm of a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention.
- FIG. 8 is a diagram illustrating the structure of a pooling process of a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention.
- S131 A step of performing individual aggregation in units of characters for simultaneously inputted feature information and character probability distribution information
- S140 A step in which the speaker embedding extraction unit processes the extracted fixed-dimensional speaker embedding vector as an input and outputs speaker information and utterance sentence information, respectively
- the deep learning-based speaker embedding model is basically composed of a frame-level network, a pooling layer for speaker recognition, and a speaker classification network.
- the frame unit network receives an input frame unit sequence using a structure such as a long short-term memory model (LSTM) or a general deep neural network (DNN) and outputs a sequence including more meaningful information.
- LSTM long short-term memory model
- DNN general deep neural network
- the compression layer for speaker recognition compresses the sequence output from the frame unit network into one vector, that is, speaker embedding, through an average or a weighted sum. Thereafter, the compressed vector is input to a speaker recognition network composed of a DNN, and the speaker recognition network outputs a speaker recognition result (speaker label, speaker label).
- the above three components are simultaneously learned to improve speaker recognition results, and after learning, they are used to extract speaker embeddings.
- FIG. 2 is a diagram illustrating a flow of a speaker embedding extraction method of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention
- FIG. 3 is a voice recognizer for speaker recognition according to an embodiment of the present invention. It is a diagram showing the detailed flow of step S130 in the speaker embedding extraction method of the based pooling technique.
- the method for extracting speaker embeddings of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention includes extracting feature information of an input voice in units of frames (S110).
- the speaker embedding extraction method of the voice recognizer-based pooling technique for speaker recognition may be performed by a computing device, and as shown in FIGS. 4 to 8, respectively, for speaker recognition It can be understood that the speaker embedding extraction system 100 of the speech recognizer-based pooling technique is applied.
- step S110 the frame-by-frame feature information extraction unit 110 extracts the feature information of the input voice in units of frames through processing of the input voice.
- a TDNN Time Delay Neural Network
- CNN Convolutional Neural Network
- RNN Recurrent Neural Network
- the frame-by-frame feature information extraction unit 110 calculates the output of the feature information in units of frames from the input speech feature vectors (MFCC, STFT, Mel Filter Bank, etc.).
- the speech feature vectors are processed by covering the input wave signal with a window of a specific length (10 ms) and shifting it to a certain length, and a total of T frame speech feature vectors can be obtained.
- the speech feature vector may be defined as x t (1 ⁇ t ⁇ T)
- the output feature output through the frame unit feature information extraction unit 110 may be defined as h t (1 ⁇ t ⁇ T). That is, as described above, TDNN, CNN, RNN, etc. may be selectively used as a neural network model for processing input speech features.
- step S120 the frame-by-frame character probability distribution extracting unit 120 extracts the character probability distribution information of the input voice in units of frames through processing of the input voice.
- the frame-by-frame character probability distribution extraction unit 120 uses a speech recognizer (ASR) trained as a CTC (Connectionist Temporal Classification)-based objective function, a Time Delay Neural Network (TDNN), a Convolutional Neural Network (CNN) , Recurrent Neural Network (RNN), and deep learning-based end-to-end speech recognition models can be implemented.
- ASR speech recognizer
- CTC Connectionist Temporal Classification
- TDNN Time Delay Neural Network
- CNN Convolutional Neural Network
- RNN Recurrent Neural Network
- deep learning-based end-to-end speech recognition models can be implemented.
- the frame-by-frame character probability distribution extractor 120 extracts the character probability distribution for each frame through a pre-learned voice recognizer (ASR), and as described above, the voice recognizer (ASR) is based on Connectionist Temporal Classification (CTC) It is learned through the objective function of The frame-by-frame character probability distribution extractor 120 receives the voice feature (x t ) as an input and outputs character probability distributions for K classes.
- the output probability distribution may be defined as in [Equation 1] below.
- step S130 the pooling processing unit 130 receives the feature information of step S110 and the character probability distribution information of step S120 as inputs and extracts a speaker embedding vector of a fixed dimension.
- the pooling processing unit 130 receives the characteristic information of step S110 and the character probability distribution information of step S120 as inputs, and the characteristic information and character probability distribution information that are simultaneously input Performing individual aggregation in units of letters (S131) and, after the processing of step S131, a weight sum is obtained using a probability value that the characteristic information of each frame belongs to a specific utterance (S132), and step S132 After the processing of , a step of calculating a vector of a fixed dimension by individually processing the utterance information of a specific word ( S132 ) may be performed.
- the output from the frame unit feature information extraction unit 110 and the frame unit character probability distribution extraction unit 120 is received as input, and speaker embeddings of a fixed dimension are calculated, and pooling is performed.
- the calculation process for this can be expressed as [Equation 2] and [Equation 3] below.
- ⁇ is a constant value to prevent divergence, and the calculation for each character is individually processed through the estimated character probability distribution and then combined into ⁇ .
- ⁇ passes through the affine layer and softmax, and the affine layer is used as the speaker embedding vector.
- step S140 the speaker embedding extraction unit 140 processes the fixed-dimensional speaker embedding vector extracted in step S130 as an input, and outputs speaker information and utterance sentence information, respectively.
- step (4) the speaker embedding extraction unit 140 processes the fixed-dimensional speaker embedding vector extracted in step S130 as input and outputs speaker information and uttered sentence information, respectively, but the output speaker information and uttered sentences Information passes through two layers of locally-connected and fully-connected layers and softmax functions, and can be learned through multi-class cross-entropy objective functions.
- FIG. 4 is a functional block diagram illustrating the configuration of a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention
- FIG. 5 is a diagram illustrating speaker recognition according to an embodiment of the present invention. It is a diagram showing an example configuration of a deep learning model of a frame unit feature information extraction unit of a speaker embedding extraction system of a voice recognizer-based pooling technique for It is a diagram schematically showing the implementation configuration of the frame unit character probability distribution extraction unit of the speaker embedding extraction system of It is a diagram showing the overall structure, and FIG.
- the speaker embedding extraction system 100 of the voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention includes a frame unit feature information extraction unit 110, a frame It may be configured to include a unit character probability distribution extraction unit 120 , a pooling processing unit 130 , and a speaker embedding extraction unit 140 .
- the frame unit feature information extraction unit 110 is configured to extract feature information of the input voice in units of frames through processing of the input voice. As shown in FIG. 5 , the frame unit feature information extraction unit 110 is configured to extract the feature information of the input voice in units of frames through processing of the input voice in any one of TDNN, CNN, and RNN. It can be implemented as a deep learning model structure.
- the frame-by-frame character probability distribution extracting unit 120 operates simultaneously with the frame-by-frame feature information extracting unit 110, and extracts the character probability distribution information of the input voice in units of frames through processing of the input voice. .
- the frame unit character probability distribution extractor 120 uses a speech recognizer (ASR) trained with an objective function based on Connectionist Temporal Classification (CTC), and is based on TDNN, CNN, RNN and deep learning. It can be implemented as an end-to-end speech recognition model of
- the pooling processing unit 130 receives the characteristic information of the frame unit characteristic information extraction unit 110 and the character probability distribution information of the frame unit character probability distribution extraction unit 120 as inputs, and obtains a speaker embedding vector of a fixed dimension. It is an extracting composition. As shown in FIGS. 7 and 8 , the pooling processing unit 130 includes the characteristic information of the frame unit characteristic information extraction unit 110 and the character probability distribution information of the frame unit character probability distribution extraction unit 120 , respectively.
- the character information and character probability distribution information input at the same time are individually aggregated in units of characters, and the weighted sum is obtained using the probability that the characteristic information of each frame unit belongs to a specific utterance, and then a specific word It can be achieved by processing the utterance information of ' and calculating a vector of a fixed dimension.
- the speaker embedding extraction unit 140 processes the extracted fixed-dimensional speaker embedding vector input from the pooling processing unit 130 as an input, and outputs speaker information and utterance sentence information, respectively.
- the speaker embedding extraction unit 140 processes the fixed-dimensional speaker embedding vector extracted through the pooling processing unit 130 as input and outputs speaker information and utterance sentence information, respectively, but the output speaker information and utterance sentence information are It can be learned through the multi-class cross-entropy objective function, passing through the locally-connected and fully-connected two-layer layers and softmax functions.
- FIG. 7 shows the overall structure of an algorithm of a speaker embedding extraction system of a voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention
- FIG. 8 is a voice recognizer for speaker recognition according to an embodiment of the present invention.
- the structure of the pooling process of the speaker embedding extraction system based on the pooling technique is shown.
- the speaker embedding extraction system 100 of the voice recognizer-based pooling technique for speaker recognition according to an embodiment of the present invention simultaneously pools the frame unit feature information and the frame unit character probability distribution in the pooling step. It receives as input and has an individual aggregation process for each character.
- the overall process of the pooling step is as shown in FIG.
- a weighted sum is taken using a probability value belonging to a specific utterance (29 types), and through this process, specific word utterance information is processed individually, and a vector of a fixed dimension is calculated. Then, after the pooling step, it passes through the locally-connected and fully-connected two-layer layers and softmax functions, and finally the entire model can be trained through the multi-class cross-entropy objective function.
- the method and system for extracting speaker embeddings of a voice recognizer-based pooling technique for speaker recognition are input in frame units through processing of the input voice.
- Extract feature information and character probability distribution information of speech respectively, receive the extracted feature information and character probability distribution information as inputs, extract a fixed-dimensional speaker embedding vector, and then use the extracted fixed-dimensional speaker embedding vector as input
- speaker information and utterance sentence information respectively, unlike the existing techniques that considered only speaker information in the speaker embedding extraction process, in the process of aggregating the output of the frame unit, each character has an individual processing process.
- the speaker recognition system when calculating the similarity between speaker embeddings, it is possible to compare features between specific pronunciations, and through this, the speaker recognition system can simultaneously consider and analyze the speaker information and the sentence utterance information.
- the speech recognizer (ASR ) model to estimate the probability distribution of each frame by frame from the speech, and utilize this in the pooling process to extract not only the speaker information but also the uttered sentence information in the speaker embedding extraction step.
- ASR speech recognizer
- it can be applied to various fields by applying the model structure widely used in It is possible to make it universally applicable and widely applicable.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.
Description
본 발명은 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것으로서, 보다 구체적으로는 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, ASR 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 하는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것이다.
일반적으로 화자인식은 입력된 음성이 등록된 화자 중 어떤 사람의 목소리인지를 식별하는 기술 분야이다. 이러한 화자인식은 많은 데이터를 가지고 화자의 특징을 배우는 학습과정이 있으며, 학습된 모델을 활용하여 사전 시스템에 특정 화자들의 정보를 저장해 놓는 등록과정, 그리고 실제 들어오는 음성을 등록된 음성과 비교하여 동일 화자인지 여부를 결정하는 테스트과정으로 구성되어 있다.
이와 같은 화자 인식 분야에서 학습 과정과, 등록 과정, 및 테스트 과정에서 화자의 정보를 추출하고 비교 및 결정을 위해 화자 임베딩이라고 불리는 고정된 차원의 특징 벡터가 널리 사용되고 있다. 이러한 기법은 음성으로부터 화자의 정보를 표현할 수 있는 정보를 고정된 차원의 벡터로 추출하고, 등록 및 테스트 과정에서 임베딩들 간의 유사도를 계산하여 동일인인지 여부를 판단하게 된다.
최근 다양한 딥러닝 기술들이 발전되고 대용량 데이터 셋이 제공됨에 따라 딥러닝 기반의 화자 임베딩 기법들이 눈부신 성능 향상을 이루었으며, 보다 효과적인 화자 임베딩 추출을 위한 다양한 연구들(심층심경망 구조, 손실 함수 모델링, pooling 기법 등)이 진행되고 있다. 그 중에서도 화자 임베딩 추출을 위한 pooling 기법은, 프레임 단위의 피처를 고정된 차원의 벡터로 요약하는 구성으로, 이 과정에서 화자 인식에 유효한 정보를 얼마나 잘 집계하는지가 성능에 직접적으로 연결된다. 하지만 이러한 연구들은 공통적으로 화자의 신원 정보만을 학습 과정에서 고려하고 있다. 즉, 서로 다른 두 화자를 비교하는데 있어서 화자의 신원뿐 만 아니라 화자의 발화 특성, 발화 문장 정보 등과 같은 다양한 요인들을 고려할 필요가 있으나, 기존의 화자 임베딩 추출 방법에서는 화자 정보만을 고려하는 방식으로, 화자 인식 성능에 제한이 따른 문제가 있었다.
이와 같이, 기존의 화자 임베딩 추출 시스템은 학습 과정에서, 입력 음성은 네트워크를 통과하며, 추출된 출력을 통해 정답 화자를 맞추도록 학습된다. 즉, 정답 화자 정보에 의존한 지도 학습 방식을 구성하고 있는 것이며 화자 임베딩 추출을 위해 화자 식별 정보만을 활용하고 있다. 하지만, 음성 정보는 순차적 정보이며, 화자 정보 이외의 다양한 정보(잡음, 공백, 환경, 녹음기기, 언어 등) 또한 포함하고 있기 때문에 보다 효과적인 화자 인식을 위해서는 중요한 정보는 더 강조하여 처리하는 접근 방식이 요구되고 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하고, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하며, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체를 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은,
화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서,
(1) 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계;
(2) 프레임 단위 문자 확률 분포 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계;
(3) 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및
(4) 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)에서는,
상기 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
바람직하게는, 상기 단계 (2)에서는,
상기 프레임 단위 문자 확률 분포 추출부가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
바람직하게는, 상기 단계 (3)에서는,
(3-1) 상기 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계;
(3-2) 상기 단계 (3-1)의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계; 및
(3-3) 상기 단계 (3-2)의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계로 이루어질 수 있다.
더욱 바람직하게는, 상기 단계 (4)에서는,
상기 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템은,
화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템으로서,
입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부;
상기 프레임 단위 특징 정보 추출부와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부;
상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부; 및
상기 풀링 처리부로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 프레임 단위 특징 정보 추출부는,
입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
바람직하게는, 상기 프레임 단위 문자 확률 분포 추출부는,
CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
바람직하게는, 상기 풀링(pooling) 처리부는,
상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어질 수 있다.
더욱 바람직하게는, 상기 화자 임베딩 추출부는,
상기 풀링 처리부를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.
본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.
또한, 본 발명의 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있다.
도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 구성을 기능블록으로 도시한 도면.
도 5는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 특징 정보 추출부의 딥러닝 모델의 일례 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 문자 확률 분포 추출부의 구현 구성을 개략적으로 도시한 도면.
도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 도시한 도면.
도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 도시한 도면.
<부호의 설명>
100: 본 발명의 일실시예에 따른 풀링 기법의 화자 임베딩 추출 시스템
110: 프레임 단위 특징 정보 추출부
120: 프레임 단위 문자 확률 분포 추출부
130: 풀링(pooling) 처리부
140: 화자 임베딩 추출부
S110: 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계
S120: 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계
S130: 고정된 차원의 화자 임베딩 벡터를 추출하는 단계
S131: 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계
S132: 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계
S133: 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계
S140: 화자 임베딩 추출부가 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 딥러닝 기반 화자 임베딩 모델은 기본적으로 프레임 단위 네트워크(frame-level network)와, 화자 인식을 위한 압축 층(pooling layer), 및 화자 인식 네트워크(speaker classification network)로 구성될 수 있다. 여기서, 프레임 단위 네트워크는 long short-term memory model(LSTM)이나 일반적인 deep neural network(DNN)과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서 보다 유의미한 정보를 포함한 시퀀스를 출력한다.
또한, 화자 인식용 압축 층에서는 평균 혹은 가중 합(weighted sum)을 통하여 프레임 단위 네트워크에서 출력한 시퀀스를 하나의 벡터, 즉 화자 임베딩(speaker embedding)으로 압축시킨다. 이후 압축된 벡터는 DNN으로 구성된 화자 인식 네트워크로 입력되며, 해당 화자 인식 네트워크는 화자 인식 결과(화자 라벨, speaker label)를 출력한다. 위의 세 구성 요소들은 화자 인식 결과가 좋아지도록 동시에 학습되며, 학습 후에는 화자 임베딩을 추출하는데 활용되고 있다.
도 2는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법의 흐름을 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면이다. 도 2 및 도 3에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은, 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계(S110), 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계(S120), 고정된 차원의 화자 임베딩 벡터를 추출하는 단계(S130), 및 화자 임베딩 추출부가 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계(S140)를 포함하여 구현될 수 있다.
여기서, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은 컴퓨팅 장치에 의해 수행될 수 있으며, 도 4 내지 도 8에 각각 도시되는 바와 같이, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)이 적용되는 것으로 이해될 수 있다.
단계 S110에서는, 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출한다. 이러한 단계 S110에서는 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN(Time Delay Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
또한, 프레임 단위 특징 정보 추출부(110)에서는 입력된 음성 특징 벡터(MFCC, STFT, Mel Filter Bank 등)로부터 프레임 단위의 특징 정보 출력을 계산한다. 이때, 음성 특징 벡터들은 입력 wave 신호에 특정 길이(10ms)의 윈도우를 씌워 일정 길이로 이동(shift)시켜 처리되며, 총 T개의 프레임 음성 특징 벡터가 얻어질 수 있다. 여기서, 음성 특징 벡터는 xt(1≤t≤T)로 정의하며, 프레임 단위 특징 정보 추출부(110)를 통해 출력된 출력 특징은 ht(1≤t≤T)로 정의할 수 있다. 즉, 위에서 설명한 바와 같이, 입력 음성 특징 처리를 위한 신경망 모델로는 TDNN, CNN, RNN 등이 선택적으로 사용될 수 있다.
단계 S120에서는, 프레임 단위 문자 확률 분포 추출부(120)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출한다. 이러한 단계 S120에서는 프레임 단위 문자 확률 분포 추출부(120)가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN(Time Delay Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
또한, 프레임 단위 문자 확률 분포 추출부(120)에서는 사전 학습된 음성 인식기(ASR)를 통해 프레임 별 문자 확률 분포를 추출하며, 음성 인식기(ASR)는 위에서 설명한 바와 같이, CTC(Connectionist Temporal Classification) 기반의 목적함수를 통해 학습되며, 이 과정에서 프레임 단위 입력을 K개의 클래스(문자 및 기호)로 분류한다. 이러한 프레임 단위 문자 확률 분포 추출부(120)에서는 음성 특징(xt)을 입력으로 받아 K개 클래스에 대한 문자 확률 분포를 출력한다. 출력되는 확률 분포는 아래의 [수학식 1]과 같이 정의될 수 있다.
단계 S130에서는, 풀링(pooling) 처리부(130)가 단계 S110의 특징 정보와 단계 S120의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한다. 이러한 단계 S130에서는 도 3에 도시된 바와 같이, 풀링(pooling) 처리부(130)가 단계 S110의 특징 정보와 단계 S120의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계(S131)와, 단계 S131의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계(S132)와, 단계 S132의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계(S132)로 이루어질 수 있다.
또한, 풀링 처리부(130)의 Pooling 단계에서는 프레임 단위 특징 정보 추출부(110)와 프레임 단위 문자 확률 분포 추출부(120)에서의 출력을 입력으로 받아 고정된 차원의 화자 임베딩을 계산하며, Pooling을 위한 계산 과정은 아래의 [수학식 2], 및 [수학식 3]과 같이 나타낼 수 있다.
여기서, τ는 발산을 막기 위한 상수 값이고, 추정된 문자 확률 분포를 통해 문자 별 계산을 개별적으로 처리한 후 υ로 결합하는 과정을 갖는다. 여기서, υ는 affine layer 및 softmax를 통과하며, affine layer를 화자 임베딩 벡터로 사용한다.
단계 S140에서는, 화자 임베딩 추출부(140)가 단계 S130을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력한다. 이러한 단계 (4)에서는 화자 임베딩 추출부(140)가 단계 S130을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습될 수 있다.
도 4는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 구성을 기능블록으로 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 특징 정보 추출부의 딥러닝 모델의 일례 구성을 도시한 도면이며, 도 6은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 문자 확률 분포 추출부의 구현 구성을 개략적으로 도시한 도면이고, 도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 도시한 도면이며, 도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 도시한 도면이다. 도 4 내지 도 8에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)은, 프레임 단위 특징 정보 추출부(110), 프레임 단위 문자 확률 분포 추출부(120), 풀링(pooling) 처리부(130), 및 화자 임베딩 추출부(140)를 포함하여 구성될 수 있다.
프레임 단위 특징 정보 추출부(110)는, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 구성이다. 이러한 프레임 단위 특징 정보 추출부(110)는 도 5에 도시된 바와 같이, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
프레임 단위 문자 확률 분포 추출부(120)는, 프레임 단위 특징 정보 추출부(110)와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 구성이다. 이러한 프레임 단위 문자 확률 분포 추출부(120)는 도 6에 도시된 바와 같이, CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
풀링(pooling) 처리부(130)는, 프레임 단위 특징 정보 추출부(110)의 특징 정보와 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 구성이다. 이러한 풀링(pooling) 처리부(130)는 도 7 및 도 8에 각각 도시된 바와 같이, 프레임 단위 특징 정보 추출부(110)의 특징 정보와 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어질 수 있다.
화자 임베딩 추출부(140)는, 풀링 처리부(130)로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 구성이다. 이러한 화자 임베딩 추출부(140)는 풀링 처리부(130)를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.
도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 나타내고 있으며, 도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 나타내고 있다. 도 에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)은 프레임 단위의 특징 정보와 프레임 단위의 문자 확률 분포를 pooling 단계에서 동시에 입력으로 받아 글자 단위의 개별적 집계과정을 갖는다. 이어, Pooling 단계의 전반적인 과정은 도 8에 도시된 바와 같이, 각 프레임 단위의 특징 정보는 특정 발화(29 종류)에 속할 확률 값을 사용하여 가중치 합이 취해지고, 이 과정을 통해 특정 단어 발화 정보를 개별적으로 처리하게 되며, 고정된 차원의 벡터를 계산하게 된다. 이어, Pooling 단계 후 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하게 되고 최종적으로 multi-class cross-entropy 목적함수를 통해 전체 모델을 학습 시킬 수 있게 된다.
상술한 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체는, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있으며, 특히, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있게 된다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
Claims (11)
- 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서,(1) 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계;(2) 프레임 단위 문자 확률 분포 추출부(120)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계;(3) 풀링(pooling) 처리부(130)가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및(4) 화자 임베딩 추출부(140)가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
- 제1항에 있어서, 상기 단계 (1)에서는,상기 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
- 제1항에 있어서, 상기 단계 (2)에서는,상기 프레임 단위 문자 확률 분포 추출부(120)가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
- 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 단계 (3)에서는,(3-1) 상기 풀링(pooling) 처리부(130)가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계;(3-2) 상기 단계 (3-1)의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계; 및(3-3) 상기 단계 (3-2)의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계로 이루어지는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
- 제4항에 있어서, 상기 단계 (4)에서는,상기 화자 임베딩 추출부(140)가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
- 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)으로서,입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부(110);상기 프레임 단위 특징 정보 추출부(110)와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부(120);상기 프레임 단위 특징 정보 추출부(110)의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부(130); 및상기 풀링 처리부(130)로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부(140)를 포함하는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
- 제6항에 있어서, 상기 프레임 단위 특징 정보 추출부(110)는,입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
- 제6항에 있어서, 상기 프레임 단위 문자 확률 분포 추출부(120)는,CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
- 제6항 내지 제8항 중 어느 한 항에 있어서, 상기 풀링(pooling) 처리부(130)는,상기 프레임 단위 특징 정보 추출부(110)의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어지는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
- 제9항에 있어서, 상기 화자 임베딩 추출부(140)는,상기 풀링 처리부(130)를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
- 제1항 내지 제5항 중 어느 한 항에 기재된 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200130575A KR102429656B1 (ko) | 2020-10-08 | 2020-10-08 | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 |
KR10-2020-0130575 | 2020-10-08 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022075714A1 true WO2022075714A1 (ko) | 2022-04-14 |
Family
ID=81126648
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2021/013641 WO2022075714A1 (ko) | 2020-10-08 | 2021-10-05 | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102429656B1 (ko) |
WO (1) | WO2022075714A1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102539256B1 (ko) | 2022-12-07 | 2023-06-02 | 주식회사 하이 | 음성 데이터에서 특정 화자의 음성을 구분하는 모델을 학습시키는 기법 |
KR102526173B1 (ko) | 2022-12-07 | 2023-04-26 | 주식회사 하이 | 음성 데이터에서 특정 화자의 음성을 추출하는 기법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110010243A (ko) * | 2009-07-24 | 2011-02-01 | 고려대학교 산학협력단 | 음성의 음소간 경계 탐색 시스템 및 그 방법 |
KR20180049447A (ko) * | 2016-11-01 | 2018-05-11 | 주식회사 비즈모델라인 | 화자 인식을 이용한 무기명 내역의 기명화 가치 적립 방법 |
JP2018513399A (ja) * | 2015-11-25 | 2018-05-24 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 配置されたエンドツーエンド音声認識 |
KR102071582B1 (ko) * | 2017-05-16 | 2020-01-30 | 삼성전자주식회사 | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 |
-
2020
- 2020-10-08 KR KR1020200130575A patent/KR102429656B1/ko active IP Right Grant
-
2021
- 2021-10-05 WO PCT/KR2021/013641 patent/WO2022075714A1/ko active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110010243A (ko) * | 2009-07-24 | 2011-02-01 | 고려대학교 산학협력단 | 음성의 음소간 경계 탐색 시스템 및 그 방법 |
JP2018513399A (ja) * | 2015-11-25 | 2018-05-24 | バイドゥ ユーエスエー エルエルシーBaidu USA LLC | 配置されたエンドツーエンド音声認識 |
KR20180049447A (ko) * | 2016-11-01 | 2018-05-11 | 주식회사 비즈모델라인 | 화자 인식을 이용한 무기명 내역의 기명화 가치 적립 방법 |
KR102071582B1 (ko) * | 2017-05-16 | 2020-01-30 | 삼성전자주식회사 | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 |
Non-Patent Citations (1)
Title |
---|
SUNG HWAN MUN, WOO HYUN KANG, MIN HYUN HAN, NAM SOO KIM: "ASR-based pooling method for text-dependent speaker verification", PROCEEDINGS OF THE KOREAN INSTITUTE OF COMMUNICATION SCIENCES SUMMER CONFERENCE, 12 August 2020 (2020-08-12), pages 630 - 631, XP009535617 * |
Also Published As
Publication number | Publication date |
---|---|
KR20220047080A (ko) | 2022-04-15 |
KR102429656B1 (ko) | 2022-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022075714A1 (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
WO2020204525A1 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
WO2014106979A1 (ko) | 통계적 음성 언어 이해 방법 | |
WO2020153572A1 (ko) | 사운드 이벤트 탐지 모델 학습 방법 | |
CN109448703B (zh) | 结合深度神经网络和主题模型的音频场景识别方法及系统 | |
WO2020034526A1 (zh) | 保险录音的质检方法、装置、设备和计算机存储介质 | |
CN113223509B (zh) | 一种应用于多人混杂场景下的模糊语句识别方法及系统 | |
WO2009145508A2 (ko) | 실시간 호출명령어 인식을 이용한 잡음환경에서의 음성구간검출과 연속음성인식 시스템 | |
WO2023163383A1 (ko) | 멀티모달 기반 실시간 감정인식 방법 및 장치 | |
WO2019172734A2 (ko) | 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템 | |
WO2018128238A1 (ko) | 디스플레이 장치를 이용한 가상 상담 시스템 및 방법 | |
WO2022146050A1 (ko) | 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템 | |
WO2013048159A1 (ko) | 아다부스트 학습 알고리즘을 이용하여 얼굴 특징점 위치를 검출하기 위한 방법, 장치, 및 컴퓨터 판독 가능한 기록 매체 | |
WO2021040287A1 (ko) | 사람 재식별 장치 및 방법 | |
WO2021153971A1 (ko) | 비식별화된 이미지를 이용한 신경망 학습 방법 및 이를 제공하는 서버 | |
WO2020159140A1 (ko) | 전자 장치 및 이의 제어 방법 | |
WO2020222384A1 (ko) | 전자 장치 및 이의 제어 방법 | |
CN111401107A (zh) | 基于特征融合神经网络的多模态人脸识别方法 | |
WO2019035544A1 (ko) | 학습을 이용한 얼굴 인식 장치 및 방법 | |
WO2014200187A1 (ko) | 모음 약화를 학습하기 위한 장치 및 그 방법 | |
WO2020213785A1 (ko) | 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 | |
WO2016148322A1 (ko) | 영상 정보를 기반으로 음성 구간을 검출하는 방법 및 장치 | |
WO2020091123A1 (ko) | 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치 | |
WO2022054994A1 (ko) | 비화자 요소에 강인한 화자 임베딩 추출 방법 및 장치, 그리고 이를 위한 기록매체 | |
WO2019208858A1 (ko) | 음성 인식 방법 및 이를 위한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21877965 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21877965 Country of ref document: EP Kind code of ref document: A1 |