KR20220047080A - 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 - Google Patents

화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 Download PDF

Info

Publication number
KR20220047080A
KR20220047080A KR1020200130575A KR20200130575A KR20220047080A KR 20220047080 A KR20220047080 A KR 20220047080A KR 1020200130575 A KR1020200130575 A KR 1020200130575A KR 20200130575 A KR20200130575 A KR 20200130575A KR 20220047080 A KR20220047080 A KR 20220047080A
Authority
KR
South Korea
Prior art keywords
speaker
information
unit
frame
probability distribution
Prior art date
Application number
KR1020200130575A
Other languages
English (en)
Other versions
KR102429656B1 (ko
Inventor
김남수
문성환
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020200130575A priority Critical patent/KR102429656B1/ko
Priority to PCT/KR2021/013641 priority patent/WO2022075714A1/ko
Publication of KR20220047080A publication Critical patent/KR20220047080A/ko
Application granted granted Critical
Publication of KR102429656B1 publication Critical patent/KR102429656B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것으로서, 보다 구체적으로는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서, (1) 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계; (2) 프레임 단위 문자 확률 분포 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계; (3) 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및 (4) 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템은, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템으로서, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부; 상기 프레임 단위 특징 정보 추출부와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부; 상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부; 및 상기 풀링 처리부로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.
또한, 본 발명의 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있다.

Description

화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체{A SPEAKER EMBEDDING EXTRACTION METHOD AND SYSTEM FOR AUTOMATIC SPEECH RECOGNITION BASED POOLING METHOD FOR SPEAKER RECOGNITION, AND RECORDING MEDIUM THEREFOR}
본 발명은 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것으로서, 보다 구체적으로는 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, ASR 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 하는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 관한 것이다.
일반적으로 화자인식은 입력된 음성이 등록된 화자 중 어떤 사람의 목소리인지를 식별하는 기술 분야이다. 이러한 화자인식은 많은 데이터를 가지고 화자의 특징을 배우는 학습과정이 있으며, 학습된 모델을 활용하여 사전 시스템에 특정 화자들의 정보를 저장해 놓는 등록과정, 그리고 실제 들어오는 음성을 등록된 음성과 비교하여 동일 화자인지 여부를 결정하는 테스트과정으로 구성되어 있다.
이와 같은 화자 인식 분야에서 학습 과정과, 등록 과정, 및 테스트 과정에서 화자의 정보를 추출하고 비교 및 결정을 위해 화자 임베딩이라고 불리는 고정된 차원의 특징 벡터가 널리 사용되고 있다. 이러한 기법은 음성으로부터 화자의 정보를 표현할 수 있는 정보를 고정된 차원의 벡터로 추출하고, 등록 및 테스트 과정에서 임베딩들 간의 유사도를 계산하여 동일인인지 여부를 판단하게 된다.
최근 다양한 딥러닝 기술들이 발전되고 대용량 데이터 셋이 제공됨에 따라 딥러닝 기반의 화자 임베딩 기법들이 눈부신 성능 향상을 이루었으며, 보다 효과적인 화자 임베딩 추출을 위한 다양한 연구들(심층심경망 구조, 손실 함수 모델링, pooling 기법 등)이 진행되고 있다. 그 중에서도 화자 임베딩 추출을 위한 pooling 기법은, 프레임 단위의 피처를 고정된 차원의 벡터로 요약하는 구성으로, 이 과정에서 화자 인식에 유효한 정보를 얼마나 잘 집계하는지가 성능에 직접적으로 연결된다. 하지만 이러한 연구들은 공통적으로 화자의 신원 정보만을 학습 과정에서 고려하고 있다. 즉, 서로 다른 두 화자를 비교하는데 있어서 화자의 신원뿐 만 아니라 화자의 발화 특성, 발화 문장 정보 등과 같은 다양한 요인들을 고려할 필요가 있으나, 기존의 화자 임베딩 추출 방법에서는 화자 정보만을 고려하는 방식으로, 화자 인식 성능에 제한이 따른 문제가 있었다.
이와 같이, 기존의 화자 임베딩 추출 시스템은 학습 과정에서, 입력 음성은 네트워크를 통과하며, 추출된 출력을 통해 정답 화자를 맞추도록 학습된다. 즉, 정답 화자 정보에 의존한 지도 학습 방식을 구성하고 있는 것이며 화자 임베딩 추출을 위해 화자 식별 정보만을 활용하고 있다. 하지만, 음성 정보는 순차적 정보이며, 화자 정보 이외의 다양한 정보(잡음, 공백, 환경, 녹음기기, 언어 등) 또한 포함하고 있기 때문에 보다 효과적인 화자 인식을 위해서는 중요한 정보는 더 강조하여 처리하는 접근 방식이 요구되고 있다.
본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하고, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하며, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체를 제공하는 것을 그 목적으로 한다.
또한, 본 발명은, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체를 제공하는 것을 또 다른 목적으로 한다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은,
화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서,
(1) 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계;
(2) 프레임 단위 문자 확률 분포 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계;
(3) 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및
(4) 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 단계 (1)에서는,
상기 프레임 단위 특징 정보 추출부가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
바람직하게는, 상기 단계 (2)에서는,
상기 프레임 단위 문자 확률 분포 추출부가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
바람직하게는, 상기 단계 (3)에서는,
(3-1) 상기 풀링(pooling) 처리부가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계;
(3-2) 상기 단계 (3-1)의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계; 및
(3-3) 상기 단계 (3-2)의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계로 이루어질 수 있다.
더욱 바람직하게는, 상기 단계 (4)에서는,
상기 화자 임베딩 추출부가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.
상기한 목적을 달성하기 위한 본 발명의 특징에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템은,
화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템으로서,
입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부;
상기 프레임 단위 특징 정보 추출부와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부;
상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부; 및
상기 풀링 처리부로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부를 포함하는 것을 그 구성상의 특징으로 한다.
바람직하게는, 상기 프레임 단위 특징 정보 추출부는,
입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
바람직하게는, 상기 프레임 단위 문자 확률 분포 추출부는,
CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
바람직하게는, 상기 풀링(pooling) 처리부는,
상기 프레임 단위 특징 정보 추출부의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어질 수 있다.
더욱 바람직하게는, 상기 화자 임베딩 추출부는,
상기 풀링 처리부를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.
본 발명에서 제안하고 있는 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있다.
또한, 본 발명의 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체에 따르면, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있다.
도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면.
도 2는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법의 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면.
도 4는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 구성을 기능블록으로 도시한 도면.
도 5는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 특징 정보 추출부의 딥러닝 모델의 일례 구성을 도시한 도면.
도 6은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 문자 확률 분포 추출부의 구현 구성을 개략적으로 도시한 도면.
도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 도시한 도면.
도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 도시한 도면.
이하, 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일한 부호를 사용한다.
덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’ 되어 있다고 할 때, 이는 ‘직접적으로 연결’ 되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’ 되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’ 한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
도 1은 딥러닝 기반 화자 임베딩 모델의 개략적인 구성을 도시한 도면이다. 도 1에 도시된 바와 같이, 딥러닝 기반 화자 임베딩 모델은 기본적으로 프레임 단위 네트워크(frame-level network)와, 화자 인식을 위한 압축 층(pooling layer), 및 화자 인식 네트워크(speaker classification network)로 구성될 수 있다. 여기서, 프레임 단위 네트워크는 long short-term memory model(LSTM)이나 일반적인 deep neural network(DNN)과 같은 구조를 이용하여 입력된 프레임 단위 시퀀스를 받아서 보다 유의미한 정보를 포함한 시퀀스를 출력한다.
또한, 화자 인식용 압축 층에서는 평균 혹은 가중 합(weighted sum)을 통하여 프레임 단위 네트워크에서 출력한 시퀀스를 하나의 벡터, 즉 화자 임베딩(speaker embedding)으로 압축시킨다. 이후 압축된 벡터는 DNN으로 구성된 화자 인식 네트워크로 입력되며, 해당 화자 인식 네트워크는 화자 인식 결과(화자 라벨, speaker label)를 출력한다. 위의 세 구성 요소들은 화자 인식 결과가 좋아지도록 동시에 학습되며, 학습 후에는 화자 임베딩을 추출하는데 활용되고 있다.
도 2는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법의 흐름을 도시한 도면이고, 도 3은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법에서, 단계 S130의 세부 흐름을 도시한 도면이다. 도 2 및 도 3에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은, 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계(S110), 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계(S120), 고정된 차원의 화자 임베딩 벡터를 추출하는 단계(S130), 및 화자 임베딩 추출부가 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계(S140)를 포함하여 구현될 수 있다.
여기서, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법은 컴퓨팅 장치에 의해 수행될 수 있으며, 도 4 내지 도 8에 각각 도시되는 바와 같이, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)이 적용되는 것으로 이해될 수 있다.
단계 S110에서는, 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출한다. 이러한 단계 S110에서는 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN(Time Delay Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network) 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
또한, 프레임 단위 특징 정보 추출부(110)에서는 입력된 음성 특징 벡터(MFCC, STFT, Mel Filter Bank 등)로부터 프레임 단위의 특징 정보 출력을 계산한다. 이때, 음성 특징 벡터들은 입력 wave 신호에 특정 길이(10ms)의 윈도우를 씌워 일정 길이로 이동(shift)시켜 처리되며, 총 T개의 프레임 음성 특징 벡터가 얻어질 수 있다. 여기서, 음성 특징 벡터는
Figure pat00001
로 정의하며, 프레임 단위 특징 정보 추출부(110)를 통해 출력된 출력 특징은
Figure pat00002
로 정의할 수 있다. 즉, 위에서 설명한 바와 같이, 입력 음성 특징 처리를 위한 신경망 모델로는 TDNN, CNN, RNN 등이 선택적으로 사용될 수 있다.
단계 S120에서는, 프레임 단위 문자 확률 분포 추출부(120)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출한다. 이러한 단계 S120에서는 프레임 단위 문자 확률 분포 추출부(120)가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN(Time Delay Neural Network), CNN(Convolutional Neural Network), RNN(Recurrent Neural Network), 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
또한, 프레임 단위 문자 확률 분포 추출부(120)에서는 사전 학습된 음성 인식기(ASR)를 통해 프레임 별 문자 확률 분포를 추출하며, 음성 인식기(ASR)는 위에서 설명한 바와 같이, CTC(Connectionist Temporal Classification) 기반의 목적함수를 통해 학습되며, 이 과정에서 프레임 단위 입력을 K개의 클래스(문자 및 기호)로 분류한다. 이러한 프레임 단위 문자 확률 분포 추출부(120)에서는 음성 특징(xt)을 입력으로 받아 K개 클래스에 대한 문자 확률 분포를 출력한다. 출력되는 확률 분포는 아래의 [수학식 1]과 같이 정의될 수 있다.
Figure pat00003
여기서,
Figure pat00004
이며, i의 범위는 [1,T]이다.
단계 S130에서는, 풀링(pooling) 처리부(130)가 단계 S110의 특징 정보와 단계 S120의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한다. 이러한 단계 S130에서는 도 3에 도시된 바와 같이, 풀링(pooling) 처리부(130)가 단계 S110의 특징 정보와 단계 S120의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계(S131)와, 단계 S131의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계(S132)와, 단계 S132의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계(S132)로 이루어질 수 있다.
또한, 풀링 처리부(130)의 Pooling 단계에서는 프레임 단위 특징 정보 추출부(110)와 프레임 단위 문자 확률 분포 추출부(120)에서의 출력을 입력으로 받아 고정된 차원의 화자 임베딩을 계산하며, Pooling을 위한 계산 과정은 아래의 [수학식 2], 및 [수학식 3]과 같이 나타낼 수 있다.
Figure pat00005
Figure pat00006
여기서, τ는 발산을 막기 위한 상수 값이고, 추정된 문자 확률 분포를 통해 문자 별 계산을 개별적으로 처리한 후 υ로 결합하는 과정을 갖는다. 여기서, υ는 affine layer 및 softmax를 통과하며, affine layer를 화자 임베딩 벡터로 사용한다.
단계 S140에서는, 화자 임베딩 추출부(140)가 단계 S130을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력한다. 이러한 단계 (4)에서는 화자 임베딩 추출부(140)가 단계 S130을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습될 수 있다.
도 4는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 구성을 기능블록으로 도시한 도면이고, 도 5는 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 특징 정보 추출부의 딥러닝 모델의 일례 구성을 도시한 도면이며, 도 6은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 프레임 단위 문자 확률 분포 추출부의 구현 구성을 개략적으로 도시한 도면이고, 도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 도시한 도면이며, 도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 도시한 도면이다. 도 4 내지 도 8에 각각 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)은, 프레임 단위 특징 정보 추출부(110), 프레임 단위 문자 확률 분포 추출부(120), 풀링(pooling) 처리부(130), 및 화자 임베딩 추출부(140)를 포함하여 구성될 수 있다.
프레임 단위 특징 정보 추출부(110)는, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 구성이다. 이러한 프레임 단위 특징 정보 추출부(110)는 도 5에 도시된 바와 같이, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현될 수 있다.
프레임 단위 문자 확률 분포 추출부(120)는, 프레임 단위 특징 정보 추출부(110)와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 구성이다. 이러한 프레임 단위 문자 확률 분포 추출부(120)는 도 6에 도시된 바와 같이, CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현될 수 있다.
풀링(pooling) 처리부(130)는, 프레임 단위 특징 정보 추출부(110)의 특징 정보와 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 구성이다. 이러한 풀링(pooling) 처리부(130)는 도 7 및 도 8에 각각 도시된 바와 같이, 프레임 단위 특징 정보 추출부(110)의 특징 정보와 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어질 수 있다.
화자 임베딩 추출부(140)는, 풀링 처리부(130)로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 구성이다. 이러한 화자 임베딩 추출부(140)는 풀링 처리부(130)를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되도록 할 수 있다.
도 7은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 알고리즘 전체 구조를 나타내고 있으며, 도 8은 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템의 풀링 과정의 구조를 나타내고 있다. 도 에 도시된 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)은 프레임 단위의 특징 정보와 프레임 단위의 문자 확률 분포를 pooling 단계에서 동시에 입력으로 받아 글자 단위의 개별적 집계과정을 갖는다. 이어, Pooling 단계의 전반적인 과정은 도 8에 도시된 바와 같이, 각 프레임 단위의 특징 정보는 특정 발화(29 종류)에 속할 확률 값을 사용하여 가중치 합이 취해지고, 이 과정을 통해 특정 단어 발화 정보를 개별적으로 처리하게 되며, 고정된 차원의 벡터를 계산하게 된다. 이어, Pooling 단계 후 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하게 되고 최종적으로 multi-class cross-entropy 목적함수를 통해 전체 모델을 학습 시킬 수 있게 된다.
상술한 바와 같이, 본 발명의 일실시예에 따른 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체는, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보 및 문자 확률 분포 정보를 각각 추출하고, 추출된 특징 정보와 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출한 후, 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하도록 구성함으로써, 화자 임베딩 추출 과정에서 화자 정보만을 고려하던 기존의 기법들과 달리, 프레임 단위의 출력을 집계하는 과정에서 문자 단위의 개별적 처리 과정을 갖기 때문에 추론 단계에서 화자 임베딩간의 유사도 계산 시 특정 발음 간의 특징 비교를 가능하도록 하며, 이를 통해 화자 인식 시스템에서 화자 정보 및 문장 발화 정보를 동시에 고려하여 비교 분석할 수 있도록 할 수 있으며, 특히, 음성 인식기(ASR) 모델을 활용하여 음성으로부터 프레임 단위의 문자 단위 확률 분포를 추정하고, 이를 풀링(pooling) 과정에서 활용하여 화자 임베딩 추출 단계에서 화자 정보뿐만 아니라 발화 문장 정보도 함께 추출하도록 구성함으로써, 기존 화자 인식 분야에서 널리 사용되고 있는 모델 구조를 적용하되, 목적에 맞도록 적절한 모델 구조로 쉽게 대체하여 적용할 수 있어 다양한 분야에 활용할 수 있으며, 화자 정보와 발화 문장 정보를 함께 추출하는 화자 인식 및 생체 신호 인식 분야에 범용성 있게 폭넓게 적용될 수 있도록 할 수 있게 된다.
이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.
100: 본 발명의 일실시예에 따른 풀링 기법의 화자 임베딩 추출 시스템
110: 프레임 단위 특징 정보 추출부
120: 프레임 단위 문자 확률 분포 추출부
130: 풀링(pooling) 처리부
140: 화자 임베딩 추출부
S110: 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계
S120: 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계
S130: 고정된 차원의 화자 임베딩 벡터를 추출하는 단계
S131: 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계
S132: 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계
S133: 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계
S140: 화자 임베딩 추출부가 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계

Claims (11)

  1. 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법으로서,
    (1) 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 단계;
    (2) 프레임 단위 문자 확률 분포 추출부(120)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 단계;
    (3) 풀링(pooling) 처리부(130)가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 단계; 및
    (4) 화자 임베딩 추출부(140)가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 단계를 포함하는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
  2. 제1항에 있어서, 상기 단계 (1)에서는,
    상기 프레임 단위 특징 정보 추출부(110)가 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
  3. 제1항에 있어서, 상기 단계 (2)에서는,
    상기 프레임 단위 문자 확률 분포 추출부(120)가 CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 단계 (3)에서는,
    (3-1) 상기 풀링(pooling) 처리부(130)가 상기 단계 (1)의 특징 정보와 상기 단계 (2)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하는 단계;
    (3-2) 상기 단계 (3-1)의 처리 후, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합이 구해지는 단계; 및
    (3-3) 상기 단계 (3-2)의 처리 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 단계로 이루어지는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
  5. 제4항에 있어서, 상기 단계 (4)에서는,
    상기 화자 임베딩 추출부(140)가 상기 단계 (3)을 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법.
  6. 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템(100)으로서,
    입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출하는 프레임 단위 특징 정보 추출부(110);
    상기 프레임 단위 특징 정보 추출부(110)와 동시에 작동되며, 입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 문자 확률 분포 정보를 추출하는 프레임 단위 문자 확률 분포 추출부(120);
    상기 프레임 단위 특징 정보 추출부(110)의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받아 고정된 차원의 화자 임베딩 벡터를 추출하는 풀링(pooling) 처리부(130); 및
    상기 풀링 처리부(130)로부터 입력되는 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하는 화자 임베딩 추출부(140)를 포함하는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
  7. 제6항에 있어서, 상기 프레임 단위 특징 정보 추출부(110)는,
    입력되는 입력 음성에 대한 처리를 통해 프레임 단위로 입력 음성의 특징 정보를 추출할 수 있는 TDNN, CNN, RNN 중 어느 하나의 딥러닝 모델 구조로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
  8. 제6항에 있어서, 상기 프레임 단위 문자 확률 분포 추출부(120)는,
    CTC(Connectionist Temporal Classification) 기반 목적함수로 학습된 음성 인식기(ASR)를 사용하며, TDNN, CNN, RNN 및 딥러닝 기반의 end-to-end 음성 인식 모델로 구현되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
  9. 제6항 내지 제8항 중 어느 한 항에 있어서, 상기 풀링(pooling) 처리부(130)는,
    상기 프레임 단위 특징 정보 추출부(110)의 특징 정보와 상기 프레임 단위 문자 확률 분포 추출부(120)의 문자 확률 분포 정보를 입력으로 받고, 동시에 입력되는 특징 정보와 문자 확률 분포 정보에 대해 글자 단위의 개별적 집계를 수행하고, 각 프레임 단위의 특징 정보가 특정 발화에 속할 확률 값을 사용하여 가중치 합을 구한 후, 특정 단어의 발화 정보를 개별적으로 처리하여 고정된 차원의 벡터를 계산하는 과정으로 이루어지는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
  10. 제9항에 있어서, 상기 화자 임베딩 추출부(140)는,
    상기 풀링 처리부(130)를 통해 추출된 고정된 차원의 화자 임베딩 벡터를 입력으로 처리하여 화자 정보와 발화 문장 정보를 각각 출력하되, 출력되는 화자 정보와 발화 문장 정보는 locally-connected 및 fully-connected 2층의 레이어 및 softmax 함수를 통과하고, multi-class cross-entropy 목적함수를 통해 학습되는 것을 특징으로 하는, 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 시스템.
  11. 제1항 내지 제5항 중 어느 한 항에 기재된 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법을 실행시키는 프로그램을 기록한 컴퓨터 판독 가능한 기록매체.
KR1020200130575A 2020-10-08 2020-10-08 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 KR102429656B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200130575A KR102429656B1 (ko) 2020-10-08 2020-10-08 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
PCT/KR2021/013641 WO2022075714A1 (ko) 2020-10-08 2021-10-05 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200130575A KR102429656B1 (ko) 2020-10-08 2020-10-08 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체

Publications (2)

Publication Number Publication Date
KR20220047080A true KR20220047080A (ko) 2022-04-15
KR102429656B1 KR102429656B1 (ko) 2022-08-08

Family

ID=81126648

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200130575A KR102429656B1 (ko) 2020-10-08 2020-10-08 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체

Country Status (2)

Country Link
KR (1) KR102429656B1 (ko)
WO (1) WO2022075714A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102526173B1 (ko) 2022-12-07 2023-04-26 주식회사 하이 음성 데이터에서 특정 화자의 음성을 추출하는 기법
KR102539256B1 (ko) 2022-12-07 2023-06-02 주식회사 하이 음성 데이터에서 특정 화자의 음성을 구분하는 모델을 학습시키는 기법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110010243A (ko) * 2009-07-24 2011-02-01 고려대학교 산학협력단 음성의 음소간 경계 탐색 시스템 및 그 방법
KR20180049447A (ko) * 2016-11-01 2018-05-11 주식회사 비즈모델라인 화자 인식을 이용한 무기명 내역의 기명화 가치 적립 방법
JP2018513399A (ja) * 2015-11-25 2018-05-24 バイドゥ ユーエスエー エルエルシーBaidu USA LLC 配置されたエンドツーエンド音声認識
KR102071582B1 (ko) * 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110010243A (ko) * 2009-07-24 2011-02-01 고려대학교 산학협력단 음성의 음소간 경계 탐색 시스템 및 그 방법
JP2018513399A (ja) * 2015-11-25 2018-05-24 バイドゥ ユーエスエー エルエルシーBaidu USA LLC 配置されたエンドツーエンド音声認識
KR20180049447A (ko) * 2016-11-01 2018-05-11 주식회사 비즈모델라인 화자 인식을 이용한 무기명 내역의 기명화 가치 적립 방법
KR102071582B1 (ko) * 2017-05-16 2020-01-30 삼성전자주식회사 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
문성환 외, ‘문장 종속 화자 검증 시스템을 위한 음성인식기 기반 Pooling 기법’, 한국통신학회 학술대회논문집, 2020.08.* *

Also Published As

Publication number Publication date
KR102429656B1 (ko) 2022-08-08
WO2022075714A1 (ko) 2022-04-14

Similar Documents

Publication Publication Date Title
EP3955246B1 (en) Voiceprint recognition method and device based on memory bottleneck feature
Ghahremani et al. Acoustic Modelling from the Signal Domain Using CNNs.
CN110675860A (zh) 基于改进注意力机制并结合语义的语音信息识别方法及系统
Gogate et al. DNN driven speaker independent audio-visual mask estimation for speech separation
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN112581979B (zh) 一种基于语谱图的语音情绪识别方法
CN107731233A (zh) 一种基于rnn的声纹识别方法
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
KR102429656B1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
CN112329438B (zh) 基于域对抗训练的自动谎言检测方法及系统
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
CN113851131A (zh) 一种跨模态唇语识别方法
CN111477219A (zh) 关键词区分方法、装置、电子设备和可读存储介质
CN110910902B (zh) 一种基于集成学习的混合模型语音情感识别方法及系统
CN110503943B (zh) 一种语音交互方法以及语音交互系统
Jaber et al. Real time Arabic speech recognition based on convolution neural network
Sivaram et al. Data-driven and feedback based spectro-temporal features for speech recognition
CN111914803A (zh) 一种唇语关键词检测方法、装置、设备及存储介质
CN111883109B (zh) 语音信息处理及验证模型训练方法、装置、设备及介质
CN115547345A (zh) 声纹识别模型训练及相关识别方法、电子设备和存储介质
Fujita et al. Robust DNN-Based VAD Augmented with Phone Entropy Based Rejection of Background Speech.
Yousfi et al. Isolated Iqlab checking rules based on speech recognition system
CN113921000A (zh) 一种噪声环境下在线指令词语音识别方法及系统
Tzudir et al. Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients
KR20110071742A (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant