KR20220012473A - 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 - Google Patents

상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20220012473A
KR20220012473A KR1020200091037A KR20200091037A KR20220012473A KR 20220012473 A KR20220012473 A KR 20220012473A KR 1020200091037 A KR1020200091037 A KR 1020200091037A KR 20200091037 A KR20200091037 A KR 20200091037A KR 20220012473 A KR20220012473 A KR 20220012473A
Authority
KR
South Korea
Prior art keywords
feature vector
frame
mutual information
unit
deep learning
Prior art date
Application number
KR1020200091037A
Other languages
English (en)
Other versions
KR102405163B1 (ko
Inventor
나선필
김남수
한민현
김형용
김석민
손병찬
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020200091037A priority Critical patent/KR102405163B1/ko
Publication of KR20220012473A publication Critical patent/KR20220012473A/ko
Application granted granted Critical
Publication of KR102405163B1 publication Critical patent/KR102405163B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

실시예의 화자 임베딩 추출 장치는 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출부와, 상기 프레임 단계 특징 벡터 추출부로부터 추출된 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 문장 단위 특징 벡터 추출부와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 상호 정보량 추정부를 포함할 수 있다.
실시예는 화자 라벨 데이터를 필요로 하지 않기 때문에 비교적 구하기 쉬운 라벨이 없는 음성 데이터를 이용해 비지도 방식으로 화자 엠비딩 추출 모델을 학습시킬 수 있는 효과가 있다.

Description

상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램{APPARATUS AND METHOD UNSUPERVISED PRETRAINING SPEAKER EMBEDDING EXTRACTION SYSTEM USING MUTUAL INFORMATION NEURAL ESTIMATOR, COMPUTER-READABLE STORAGE MEDIUM AND COMPUTER PROGRAM}
실시예는 화자 임베딩 추출 모델의 사전 학습 기법에 관한 것으로, 보다 상세하게는 다량의 라벨이 없는 데이터가 있는 경우, 화자 임베딩 추출 모델을 학습시키는 기술에 관한 것이다.
일반적으로, 화자 인식이란 주어진 음성의 특징들을 분석하여 해당 음성을 발화한 화자의 정체성을 판별하는 기술이다. 일반적인 화자 인식 과정에서는 화자 임베딩이라고 불리는 고정된 길이의 특징 벡터를 추출한 후 사전에 등록되어 있는 화자 임베딩과 비교하여 화자의 정체성을 판별하게 된다.
종래에는 i-vector 와 같은 통계 기반의 화자 임베딩이 주로 사용되었으나, 최근 딥 러닝의 발달로 신경망을 이용한 화자 임베딩 추출 기법으로 대체되고 있다. 하지만, 이러한 딥 러닝을 이용한 화자 임베딩 추출 시스템은 다량의 라벨이 있는 학습 데이터가 있어야만 높은 성능이 보장된다는 단점이 있다.
한국등록특허 제10-1843079호
상술한 문제점을 해결하기 위해, 실시예는 상호 정보량을 이용하여 화자 임베딩을 추출하기 위한 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법을 제공하는 것을 그 목적으로 한다.
실시예의 화자 임베딩 추출 장치는 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출부와, 상기 프레임 단계 특징 벡터 추출부로부터 추출된 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 문장 단위 특징 벡터 추출부와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 상호 정보량 추정부를 포함할 수 있다.
상기 음성 특징 벡터는 MFCC, 스펙트로그램을 포함할 수 있다.
상기 문장 단계 특징 벡터 추출부는 풀링(Pooling) 기법을 이용하여 상기 프레임 단위의 특징 벡터를 상기 문장 단위의 특징 벡터로 변환시킬 수 있다.
상기 제1 딥 러닝 모델 및 상기 제2 딥 러닝 모델은 FCN, CNN 및 RNN을 포함할 수 있다.
상기 상호 정보량 추정부는 GIM(Global Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정할 수 있다.
상기 상호 정보량 추정부는 LIM(Local Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정할 수 있다.
상기 상호 정보량 추정부는 GIM 기법 및 LIM 기법을 이용하여 상기 상호 정보량을 추정할 수 있다.
상기 상호 정보량 추정부는 DVR(Donsker-Varadhan representation), BCE(Binary Cross Entropy) 또는 NCE(Noise Contrastive Estimation) 중 어느 하나를 목적함수로 사용하여 상기 상호 정보량을 최대화하는 방향으로 학습시킬 수 있다.
또한, 실시예는 화자 임베딩 추출 장치에서 수행되는 화자 임베딩 추출 방법에 있어서, 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계를 포함할 수 있다.
실시예는 화자 라벨 데이터를 필요로 하지 않기 때문에 비교적 구하기 쉬운 라벨이 없는 음성 데이터를 이용해 비지도 방식으로 화자 임베딩 추출 모델을 학습시킬 수 있는 효과가 있다.
또한, 학습된 임베딩 추출 장치는 추후에 습득한 라벨이 존재하는 음성 데이터를 통해 미세 조정(fine tuning)하여 사용할 수 있다.
도 1은 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 장치를 나타낸 블록도이다.
도 2는 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 방법을 나타낸 순서도이다.
이하, 도면을 참조하여 실시예를 상세히 설명하기로 한다.
도 1은 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 장치를 나타낸 블록도이다.
도 1을 참조하면, 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 장치(1000)는 프레임 단위 특징 벡터 추출부(100)와, 문장 단위 특징 벡터 추출부(200)와, 상호 정보량 추정부(300)를 포함할 수 있다.
프레임 단위 특징 벡터 추출부(100)는 음성 특징 벡터(V1)를 이용하여 프레임 단위의 특징 벡터(V2)를 추출할 수 있다. 프레임 단위 특징 벡터 추출부(100)는 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터(V2)를 추출할 수 있다. 제1 딥 러닝 모델의 입력으로 음성 특징 벡터(V1)가 이용될 수 있다.
음성 특징 벡터(V1)는 음성으로부터 추출될 수 있다. 음성 특징 벡터(V1)는 음성 내에 존재하는 화자, 녹음 상태, 잡음 등으로 인한 다양한 변이성을 작은 차원의 벡터로 표현된 것으로, MFCC, 스펙트로그램 등을 포함할 수 있다. 예컨대, MFCC는 음성의 고유한 특징을 나타내는 수치이다.
제1 딥 러닝 모델은 FCN (fully connected neural network), CNN(convolutional neural network), RNN(recurrent neural network)을 포함할 수 있으나, 이에 한정되지 않는다. 제1 딥 러닝 모델은 라벨이 없는 데이터들을 이용해, 상호정보량을 최대화 시키도록 두 모델과 상호정보량 추정부 네트워크를 미리 같이 학습(jointly training) 시킨 후, 라벨이 있는 데이터들을 이용해, 미세 조정 하는 식으로 학습이 수행될 수 있다.
제1 딥 러닝 모델은 음성 특징 벡터(V1)를 입력으로 하여 짧은 시간 즉, 프레임 단위의 특징을 나타내는 벡터를 추출할 수 있다.
문장 단위 특징 벡터 추출부(200)는 프레임 단위 특징 벡터(V2)를 입력받아 고정된 차원의 문장 단위의 특징 벡터(V3)로 변환할 수 있다. 문장 단위 특징 벡터 추출부(200)는 풀링(Pooling) 기법을 이용하여 프레임 단위 특징 벡터(V2)를 문장 단위의 특징 벡터(V3)로 변환시킬 수 있다. 풀링 기법으로는 average pooling, statistics pooling, attention based pooling 등을 포함할 수 있으나, 이에 한정되지 않는다.
이후, 고정된 차원으로 변환된 특징 벡터는 입력 문장의 특징을 나타내는 문장 단위의 특징 벡터 또는 화자 임베딩으로 사용될 수 있다.
상호 정보량 추정부(300)는 프레임 단위 특징 벡터 추출부(100)로부터 추출된 프레임 단위 특징 벡터(V2)와, 상기 문장 단위 특징 벡터 추출부(200)로부터 추출된 문장 단위 특징 벡터(V3)를 이용하여 상호 정보량을 추정할 수 있다. 상호 정보량 추정부(300)는 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정할 수 있다.
제2 딥 러닝 모델은 FCN (fully connected neural network), CNN(convolutional neural network), RNN(recurrent neural network)을 포함할 수 있으나, 이에 한정되지 않는다. 제2 딥 러닝 모델은 라벨이 없는 데이터들을 이용해, 상호정보량을 최대화 시키도록 두 모델과 상호정보량 추정부 네트워크를 미리 같이 학습(jointly training) 시킨 후, 라벨이 있는 데이터들을 이용해, 미세 조정 하는 식으로 학습이 수행될 수 있다.
학습은 상호 정보량의 하계(lower bound)를 나타내는 DVR(Donsker-Varadhan representation)을 목적 함수로 사용하여 상호 정보량을 최대화 하는 방향으로 학습될 수 있다. 이외에도 DVR과 유사한 역할을 수행하는 목적 함수인 BCE(Binary Cross Entropy) 또는 NCE(Noise Contrastive Estimation) 기법을 이용할 수도 있다.
상호 정보량 추정부(300)는 입력에 사용되는 특징 벡터의 개수를 전체 프레임 단위 특징 벡터들을 사용해 전체적인 상호 정보량을 최대화하는 GIM(Global Information Maximization) 기법을 사용할 수 있다.
이와 다르게, 상호 정보량 추정부(300)는 단일 프레임 단위 특징 벡터들을 사용해 평균적인 상호 정보량을 최대화하는 LIM(Local Information Maximization) 기법을 이용할 수 있다.
이와 다르게, 상호 정보량 추정부(300)는 GIM 기법 및 LIM 기법을 동시에 사용할 수 있다.
실시예는 화자 라벨 데이터를 필요로 하지 않기 때문에 비교적 구하기 쉬운 라벨이 없는 음성 데이터를 이용해 비지도 방식으로 화자 엠비딩 추출 모델을 학습시킬 수 있는 효과가 있다.
또한, 학습된 임베딩 추출 장치는 추후에 습득한 라벨이 존재하는 음성 데이터를 통해 미세 조정(fine tuning)하여 사용할 수 있다.
도 2는 실시예에 따른 상호 정보량 추정을 이용한 화자 임베딩 추출 방법을 나타낸 순서도이다.
도 2를 참조하면, 실시예에 따른 화자 임베딩 추출 방법은 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계(S100)와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계(S200)와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계(S300)를 포함할 수 있다. 여기서, 화자 임베딩 추출 방법은 화자 임베딩 추출 장치에서 수행될 수 있다.
음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계(S100)는 프레임 단위 특징 벡터 추출부에서 수행될 수 있다.
음성 특징 벡터는 음성으로부터 추출될 수 있다. 음성 특징 벡터는 음성 내에 존재하는 화자, 녹음 상태, 잡음 등으로 인한 다양한 변이성을 작은 차원의 벡터로 표현된 것으로, MFCC, 스펙트로그램 등을 포함할 수 있다. 예컨대, MFCC는 음성의 고유한 특징을 나타내는 수치이다.
프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계(S200)는 문장 단위 특징 벡터 추출부에서 수행될 수 있다.
문장 단위 특징 벡터로 변환하는 단계(S200)는 풀링(Pooling) 기법을 이용하여 프레임 단위 특징 벡터를 문장 단위의 특징 벡터로 변환시킬 수 있다. 풀링 기법으로는 average pooling, statistics pooling, attention based pooling 등을 포함할 수 있으나, 이에 한정되지 않는다.
프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계(S300)는 상호 정보량 추정부에서 수행될 수 있다.
상호 정보량을 추정하는 단계(S300)는 입력에 사용되는 특징 벡터의 개수를 전체 프레임 단위 특징 벡터들을 사용해 전체적인 상호 정보량을 최대화하는 GIM(Global Information Maximization) 기법을 사용할 수 있다. 이와 다르게, 상호 정보량 추정부는 단일 프레임 단위 특징 벡터들을 사용해 평균적인 상호 정보량을 최대화하는 LIM(Local Information Maximization) 기법을 이용할 수 있다.
이와 다르게, 상호 정보량 추정부는 GIM 기법 및 LIM 기법을 동시에 사용할 수 있다.
본 문서의 다양한 실시예들은 기기(machine)(예: 컴퓨터)로 읽을 수 있는 저장 매체(machine-readable storage media)(예: 메모리(내장 메모리 또는 외장 메모리))에 저장된 명령어를 포함하는 소프트웨어(예: 프로그램)로 구현될 수 있다. 기기는, 저장 매체로부터 저장된 명령어를 호출하고, 호출된 명령어에 따라 동작이 가능한 장치로서, 개시된 실시예들에 따른 전자 장치를 포함할 수 있다. 상기 명령이 제어부에 의해 실행될 경우, 제어부가 직접, 또는 상기 제어부의 제어하에 다른 구성요소들을 이용하여 상기 명령에 해당하는 기능을 수행할 수 있다. 명령은 컴파일러 또는 인터프리터에 의해 생성 또는 실행되는 코드를 포함할 수 있다. 기기로 읽을 수 있는 저장매체는, 비일시적(non-transitory) 저장매체의 형태로 제공될 수 있다. 여기서, 비일시적은 저장매체가 신호(signal)를 포함하지 않으며 실재(tangible)한다는 것을 의미할 뿐 데이터가 저장매체에 반영구적 또는 임시적으로 저장됨을 구분하지 않는다.
실시예에 따르면, 본 문서에 개시된 다양한 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다.
일 실시예에 따르면, 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
일 실시예에 따르면, 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서, 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계와, 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계와, 상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계를 수행하기 위한 동작을 포함하는 방법을 프로세서가 수행하도록 하기 위한 명령어를 포함할 수 있다.
상기에서는 도면 및 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 실시예의 기술적 사상으로부터 벗어나지 않는 범위 내에서 실시예는 다양하게 수정 및 변경시킬 수 있음은 이해할 수 있을 것이다.
100: 프레임 단위 특징 벡터 추출부
200: 문장 단위 특징 벡터 추출부
300: 상호 정보량 추정부

Claims (11)

  1. 음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 프레임 단위 특징 벡터 추출부;
    상기 프레임 단계 특징 벡터 추출부로부터 추출된 상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 문장 단위 특징 벡터 추출부; 및
    상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 상호 정보량 추정부;
    를 포함하는 화자 임베딩 추출 장치.
  2. 제1항에 있어서,
    상기 음성 특징 벡터는 MFCC, 스펙트로그램을 포함하는 화자 임베딩 추출 장치.
  3. 제1항에 있어서,
    상기 문장 단계 특징 벡터 추출부는 풀링(Pooling) 기법을 이용하여 상기 프레임 단위의 특징 벡터를 상기 문장 단위의 특징 벡터로 변환시키는 화자 임베딩 추출 장치.
  4. 제1항에 있어서,
    상기 제1 딥 러닝 모델 및 상기 제2 딥 러닝 모델은 FCN, CNN 및 RNN을 포함하는 화자 임베딩 추출 장치.
  5. 제1항에 있어서,
    상기 상호 정보량 추정부는 GIM(Global Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정하는 화자 임베딩 추출 장치.
  6. 제1항에 있어서,
    상기 상호 정보량 추정부는 LIM(Local Information Maximization) 기법을 이용하여 상기 상호 정보량을 추정하는 화자 임베딩 추출 장치.
  7. 제1항에 있어서,
    상기 상호 정보량 추정부는 GIM 기법 및 LIM 기법을 이용하여 상기 상호 정보량을 추정하는 화자 임베딩 추출 장치.
  8. 제1항에 있어서,
    상기 상호 정보량 추정부는 DVR(Donsker-Varadhan representation), BCE(Binary Cross Entropy) 또는 NCE(Noise Contrastive Estimation) 중 어느 하나를 목적함수로 사용하여 상기 상호 정보량을 최대화하는 방향으로 학습시키는 화자 임베딩 추출 장치.
  9. 화자 임베딩 추출 장치에서 수행되는 화자 임베딩 추출 방법에 있어서,
    음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계;
    상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계; 및
    상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계;
    를 포함하는 화자 임베딩 추출 방법.
  10. 컴퓨터 프로그램을 저장하고 있는 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은,
    음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계;
    상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계; 및
    상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는단계;
    를 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
  11. 컴퓨터 판독 가능한 기록매체에 저장되어 있는 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은,
    음성 특징 벡터를 입력으로 한 제1 딥 러닝 모델을 이용하여 프레임 단위의 특징 벡터를 추출하는 단계;
    상기 프레임 단위의 특징 벡터를 입력받아 문장 단위의 특징 벡터로 변환하는 단계; 및
    상기 프레임 단위의 특징 벡터와 상기 문장 단위의 특징 벡터를 입력으로 한 제2 딥 러닝 모델을 이용하여 상호 정보량을 추정하는 단계;
    를 상기 프로세서가 수행하도록 하기 위한 명령어를 포함하는 컴퓨터 프로그램.
KR1020200091037A 2020-07-22 2020-07-22 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램 KR102405163B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200091037A KR102405163B1 (ko) 2020-07-22 2020-07-22 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200091037A KR102405163B1 (ko) 2020-07-22 2020-07-22 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Publications (2)

Publication Number Publication Date
KR20220012473A true KR20220012473A (ko) 2022-02-04
KR102405163B1 KR102405163B1 (ko) 2022-06-08

Family

ID=80268407

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200091037A KR102405163B1 (ko) 2020-07-22 2020-07-22 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102405163B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115472167A (zh) * 2022-08-17 2022-12-13 南京龙垣信息科技有限公司 基于大数据自监督的声纹识别模型训练方法、系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101843079B1 (ko) 2016-09-26 2018-05-14 서울대학교산학협력단 화자 상호 정보를 활용한 강인한 i-벡터 추출기 학습 방법 및 시스템

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101843079B1 (ko) 2016-09-26 2018-05-14 서울대학교산학협력단 화자 상호 정보를 활용한 강인한 i-벡터 추출기 학습 방법 및 시스템

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Koji Okabe 외, ‘Attentive Statistics Pooling for Deep Speaker Embedding’, arXiv: 1803.10963v2, 2019.02.25.* *
Mirco Ravanelli 외, 'Learning Speaker Representations with Mutual Information', arXiv:1812.00271v2, 2019.04.05.* *
Yihong Wang 외, 'Initialization in speaker model training based on expectation maximization', 2013 6th International Congress on Image and Signal Processing (CISP), 2013 *
Zhi-Yi LI 외, 'Multi-feature combination for speaker recognition', 2010 7th International Symposium on Chinese Spoken Language Processing. 2011.01.10* *
이준엽 외, '상호 정보량을 이용한 End-to-End 음성 합성에서의 발화 스타일 모델링 기법', 한국통신학회 논문지, 2019.09. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115472167A (zh) * 2022-08-17 2022-12-13 南京龙垣信息科技有限公司 基于大数据自监督的声纹识别模型训练方法、系统

Also Published As

Publication number Publication date
KR102405163B1 (ko) 2022-06-08

Similar Documents

Publication Publication Date Title
CN110909613B (zh) 视频人物识别方法、装置、存储介质与电子设备
US20180158449A1 (en) Method and device for waking up via speech based on artificial intelligence
US20120130716A1 (en) Speech recognition method for robot
US20110257976A1 (en) Robust Speech Recognition
US20130080165A1 (en) Model Based Online Normalization of Feature Distribution for Noise Robust Speech Recognition
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
CN112735482B (zh) 基于联合深度神经网络的端点检测方法及系统
CN109697978B (zh) 用于生成模型的方法和装置
JP2010078650A (ja) 音声認識装置及びその方法
KR20110010233A (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
CN111833848B (zh) 用于识别语音的方法、装置、电子设备和存储介质
CN110706710A (zh) 一种语音识别方法、装置、电子设备及存储介质
KR102405163B1 (ko) 상호 정보량 추정을 이용한 화자 임베딩 추출 장치 및 방법, 컴퓨터 판독 가능한 기록 매체 및 컴퓨터 프로그램
CN113257230B (zh) 语音处理方法及装置、计算机可存储介质
CN113327575B (zh) 一种语音合成方法、装置、计算机设备和存储介质
KR102429656B1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
US11798578B2 (en) Paralinguistic information estimation apparatus, paralinguistic information estimation method, and program
CN115104151A (zh) 一种离线语音识别方法和装置、电子设备和可读存储介质
CN112863485A (zh) 口音语音识别方法、装置、设备及存储介质
CN116564286A (zh) 语音录入方法、装置、存储介质及电子设备
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN111883109B (zh) 语音信息处理及验证模型训练方法、装置、设备及介质
CN113823271A (zh) 语音分类模型的训练方法、装置、计算机设备及存储介质
US20220335927A1 (en) Learning apparatus, estimation apparatus, methods and programs for the same

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant