KR100526110B1 - 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 - Google Patents

화자인식시스템의 화자 특징벡터 생성방법 및 시스템 Download PDF

Info

Publication number
KR100526110B1
KR100526110B1 KR10-2003-0082086A KR20030082086A KR100526110B1 KR 100526110 B1 KR100526110 B1 KR 100526110B1 KR 20030082086 A KR20030082086 A KR 20030082086A KR 100526110 B1 KR100526110 B1 KR 100526110B1
Authority
KR
South Korea
Prior art keywords
pitch
speaker
feature vector
speech
section
Prior art date
Application number
KR10-2003-0082086A
Other languages
English (en)
Other versions
KR20050048214A (ko
Inventor
김사무엘
강홍구
윤대희
Original Assignee
학교법인연세대학교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 학교법인연세대학교 filed Critical 학교법인연세대학교
Priority to KR10-2003-0082086A priority Critical patent/KR100526110B1/ko
Publication of KR20050048214A publication Critical patent/KR20050048214A/ko
Application granted granted Critical
Publication of KR100526110B1 publication Critical patent/KR100526110B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

본 발명은 화자인식시스템의 화자 특징벡터 생성방법 및 시스템에 관한 것으로서, 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 입력된 화자음성신호의 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출수단, 피치구간음성추출수단에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성수단을 포함하여 이루어진 것을 특징으로 한다.

Description

화자인식시스템의 화자 특징벡터 생성방법 및 시스템 {Method and System for Pith Synchronous Feature Generation of Speaker Recognition System}
본 발명은 화자인식 시스템에 관한 것으로서, 보다 상세하게는 기존의 화자모델과 호환성을 유지하면서 피치구간 특징벡터를 사용하는 전처리기를 통해 주변환경 변화에 독립적이고 잡음에 강한 화자 종속적인 특징벡터를 생성하는 화자인식시스템의 화자 특징벡터 생성방법 및 시스템을 제공함에 있다.
일반적으로 화자인식 시스템은 크게 화자 종속 특징벡터를 생성하는 전처리부분과 화자 종속 모델을 생성해 내는 화자 모델링, 그리고 화자의 인식을 처리하는 화자 인식의 세 부분으로 나눌 수 있다. 종래의 전처리 부분에서 생성하는 'MFCC'(Mel Frequency Cepstral Coefficient)는 고정구간의 음성에서 인간의 주파수 측면의 청각적 특성을 고려하여 특징벡터를 추출해 내는 방법을 사용하고 있다.
가장 일반적인 고정구간 방법의 분석길이는 20ms~30ms 이고, 이때 50% 정도의 중첩된 구간을 사용한다.
고정구간의 음성에서 특징벡터를 추출하게 되면 화자모델을 생성할 때의 훈련 음성과 화자인식을 받는 과정중 인식 음성의 특징벡터 추출구간의 구분 시 성능저하를 초래할 수 있는 왜곡을 발생한다.
또한 화자의 건강 상태 및 감정 상태에 따라서 음성의 특성이 변하게 되어 성능저하를 초래하는 문제점이 있다.
화자모델을 생성해 내는 화자 모델링 부분에서는 'GMM'(Gaussian Mixture Modeling), 'HMM'(Hidden Markov Modeling), 그리고 신경망(Neural Network) 등이 가장 많이 쓰이고 있는데, 이는 화자종속 특징벡터들의 분포와 변이 상태를 각각의 모델링 기법에 따라 파라미터로 나타낸 것이다.
화자인식부분은 화자 모델링의 훈련과정을 거친 화자모델을 가지고 인식을 요구하는 사용자의 음성에서 특징벡터를 추출하고 비교하여 화자의 정체를 밝혀내는 역할을 한다.
본 발명은 상기한 종래기술의 제반 문제점을 해결하기 위한 것으로, 그 목적은 기존의 화자모델과 호환성을 유지하면서 피치구간 특징벡터를 사용하는 전처리기를 통해 주변환경 변화에 독립적이고 잡음에 강한 화자 종속적인 특징벡터를 생성하는 화자인식시스템의 화자 특징벡터 생성방법 및 시스템을 제공함에 있다.
본 발명의 목적을 달성하기 위한 본 발명에 따른 화자인식시스템의 화자 특징벡터 생성시스템은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서, 상기 입력된 화자음성신호의 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출수단과, 상기 피치구간음성추출수단에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성수단을 포함하여 이루어진 것을 특징으로 한다.
여기서, 피치구간 음성추출수단은 상기 피치구간 음성추출수단은 입력된 음성신호의 피치를 측정하는 피치측정부와, 상기 피치측정부에서 측정된 피치에 의하여 상기 입력된 음성신호의 소정의 피치구간의 음성신호를 추출하는 피치구간 음성추출부로 구성된 것을 특징으로 한다.
또한, 상기 피치구간 음성추출부는 피치측정부에서 산출된 피치에서 기 설정되어 있는 음성추출 단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하는 기준점후보 선택부와, 상기 기준점후보 선택부에서 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출하는 에너지트랙검출부와, 상기 에너지트랙검출부에서 검출된 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 음성신호추출부를 포함하여 구성된 것을 특징으로 한다.
또한, 특징벡터 추출수단은 입력된 피치구간 음성신호에 윈도우를 설정하는 윈도우설정부와, 상기 윈도우가 설정된 소정의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부와, 상기 주파수분석부로부터 출력된 주파수에 청각특성을 고려한 필터뱅크를 통과시키는 필터부와, 상기 필터부를 통과한 주파수의 로그연산(Logarithm)하는 로그연산부와, 상기 로그연산부를 통해 산출된 값으로부터 이산여현변환(Discrete Cosine Transform : 이하 'DCT'라 약칭함)을 통해 특징벡터를 산출하는 DCT변환부를 포함하여 이루어진 것을 특징으로 한다.
본 발명의 목적을 달성하기 위한 화자인식시스템의 화자 특징벡터 생성과정은 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서, 상기 입력된 화자음성신호의 피치간격을 산출한 후 소정의 피치구간의 음성신호 구간을 나누어 피치구간의 음성신호를 추출하는 피치구간 음성추출과정과, 상기 추출된 소정의 피치구간 음성신호에서 주파수 측면의 청각적 특성에 의한 특징벡터를 추출하는 특징벡터 추출과정을 포함하여 이루어진 것을 특징으로 한다.
이와 같이 이루어진 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다.
도 1은 본 발명의 실시 예에 따른 화자인식시스템의 화자 특징벡터 생성시스템의 구성도로서, 화자특징벡터 생성시스템(101)은 입력된 화자 음성신호에서 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출장치(102)와, 상기 피치구간 음성추출장치(102)에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성장치(103)와, 상기 특징벡터생성장치(103)로부터 생성된 특징벡터를 이용하여 화자 모델링 훈련 음성으로 사용하는 화자모델 훈련시스템(104)와, 상기 특징벡터생성장치(103)에서 추출된 특징벡터에 의하여 화자인식을 수행하는 화자인식시스템(105)으로 구성된다.
여기서, 상기 피치구간 음성추출장치(102)는 도 2에 도시된 바와 같이, 입력된 음성신호의 피치를 측정하는 피치측정부(201)와, 상기 피치측정부(201)에서 측정된 피치에 의하여 상기 입력된 음성신호의 소정의 피치구간의 음성신호를 추출하는 피치구간 음성추출부(202)로 구성된다.
상기 피치구간 음성추출부(202)는 도 3에 도시된 바와 같이, 상기 피치구간 음성추출부는 상기 피치측정부에서 산출된 피치에서 기 설정되어 있는 음성추출단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하는 기준점후보 선택부(301)와, 상기 기준점후보 선택부(301)에서 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출하는 에너지트랙검출부(302)와, 상기 에너지트랙검출부(302)에서 검출된 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 음성신호 추출부(303)로 구성된다.
또한, 상기 특징벡터생성장치(103)는 입력된 피치구간 음성신호에 윈도우(Window)를 설정하는 윈도우설정부(401)와, 상기 윈도우설정부(401)에 의해 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부(402)와, 상기 주파수분석부(402)로부터 출력된 주파수에 청각특성을 고려한 멜밴드필터뱅크(Mel Frequency filter Bank)를 통과시키는 필터부(403)와, 상기 필터부(403)를 통과한 주파수의 로그 연산하는 로그연산부(404)와, 상기 로그연산부(404)를 통해 산출된 값으로부터 DCT를 통해 특징벡터를 산출하는 DCT변환부(405)로 구성된다.
이와 같이 구성된 본 발명 실시예에 따른 작용을 첨부된 도 1 내지 도 4를 참조하여 보다 상세히 설명하면 다음과 같다.
먼저, 본 발명은 음성의 특징에 따라 특징벡터 추출구간을 유연하게 적용할 수 있는 방법을 적용하여 왜곡과 화자의 상태에 대한 종속성을 최소화하므로 화자 모델링 훈련 음성의 특징벡터와 인식 받기 위한 음성 사이의 왜곡이 적은 특징벡터를 추출하도록 한다.
도 1은 본 발명의 실시예에 따른 화자인식시스템의 화자 특징벡터 생성시스템의 전체 블록 구성도로서, 피치구간 음성추출장치(102)는 음성의 특징에 따라 특징벡터 추출구간을 유연하게 적용할 수 있도록 먼저, 유연한 특징벡터 추출구간의 구분을 위하여 음성의 피치를 추출하여 피치에 따라 음성의 구간을 나누고, 특징벡터 추출장치(103)에 의하여 상기 피치구간 음성추출장치(102)에서 추출된 음성신호의 특징벡터를 산출하게 된다.
이와 같은 산출된 특징벡터는 화자모델과 호환성을 유지하면서 피치구간 특징벡터를 사용하는 전처리기를 통해 주변환경 변화에 독립적이고 잡음에 강한 화자 종족적인 특징벡터를 생성하여 화자인식시스템(105)의 성능을 향상시킬 수 있다.
또한, 상기 본 발명에 의한 화자특징벡터 생성시스템(101)은 기존의 특징벡터를 생성하는 고정구간 방법에 비하여 화자모델훈련시스템(104)에 의한 화자 모델링 훈련음성의 특징벡터와 인식 받기 위한 음성사이의 왜곡이 적은 특징벡터를 생성하게 된다.
도 2는 도 1에서 피치구간 음성추출장치의 상세블록 구성도로서, 먼저, 입력된 음성신호에서 피치측정부(201)에 의해 피치를 추출한다.
상기 피치구간 음성추출부(202)는 상기 피치측정부(201)에서 측정된 피치간격을 이용하여 피치구간의 음성신호를 추출하게 된다.
보다 상세하게 피치 추출방법은 선형예측을 이용해 여기신호를 발생하여 여기신호의 자기상환함수를 산출하여 자기상관함수의 최대값을 가지는 구간을 연산하여 피치를 측정한다.
한 피치구간을 추출하는 과정의 한 예로서, 불연속성을 최소화하는 구간을 나누기 위하여 음성신호의 에너지가 작은 부분을 측정하여 그 점을 기준으로 하여 피치구간의 음성을 구분하고, 상기 특징벡터생성장치(103)에 의해서 주파수 측면의 청각적 특성을 이용한 화자 특징벡터를 추출하게 된다.
도 3은 도 2에서 피치구간 음성추출부의 상세 블록 구성도로서, 상기 기준점호부선택부(301)는 상기 피치측정부(201)에서 산출한 피치로 특징벡터 생성을 위한 구간의 기준점의 후보를 선택하게 된다.
즉, 기준점 후보의 선택은 이미 정해져 있는 음성 추출단위에서 피치구간의 음성이 시작되는 점의 후보를 검출하는 것이다.
상기 에너지트랙 검출부(302)는 상기 기준점후보 선택부(301)에서 기준점 후보를 선택한 후 불연속성을 최소한으로 하기 위하여 그 주변의 에너지 트랙을 구하여 에너지를 최소화하는 점을 기준 점으로 선택하여 상기 음성추출부(303)를 통해 피치구간의 음성을 추출하게 된다. 즉, 에너지트랙 검출은 선택된 기준점의 주변에서 에너지가 가장 작은 점을 시작점으로 선택하여 피치구간의 음성만큼 음성구간을 나누는 것이다.
도 4는 도 1에서 특징벡터생성장치(103)의 상세 블록 구성도로서, 상기 윈도우설정부(401)에서는 상기 음성추출부(303)에서 추출된 피치구간 음성신호에 윈도우를 설정한다.
즉, 윈도우 설정은 음성분석 구간을 나누고 불연속성을 최소로 하기 위하여 해밍 윈도우(Hamming Window) 또는 해닝 윈도우(Hanning Window)와 같은 윈도우 함수를 이용하여 필터링 한다.
상기 주파수분석부(402)는 상기 윈도우 윈도우함수에 의해 필터링된 음성신호의 주파수를 DFT를 이용하여 분석한다.
상기 필터부(403)는 인간의 주파수 측면 청각특성을 이용하여 필터링한다. 즉, 멜밴드필터뱅크(Mel Frequency filter Bank)라는 청각특성을 고려한 필터뱅크를 통과시키도록 한다.
상기 로그연산부(404)는 상기 필터부(403)을 통해 필터링된 신호를 로그연산한 후 DCT변환부(405)를 통하여 주파수 변환하여 출력하므로 특징벡터를 생성하게 된다.
한편, 특징벡터 추출구간은 상기 산출된 피치간격의 정수배를 사용하여 산출한다.
이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 화자인식 시스템의 전처리 부분에서 음성특징을 사용하여 유연한 구간의 특징벡터를 추출하기 위하여 방법에 있어서 다양한 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.
이상에서 설명한 바와 같이, 본 발명에 따른 화자인식시스템의 화자 특징벡터 생성방법 및 시스템은 음성의 특징에 따라 특징벡터 추출구간을 유연하게 적용할 수 있는 방법을 적용하여 왜곡과 화자의 상태에 대한 종속성을 최소화하므로 화자 모델링 훈련 음성의 특징벡터와 인식 받기 위한 음성 사이의 왜곡이 적은 특징벡터를 추출할 수 있는 효과가 있다. 뿐만 아니라, 기존의 화자모델과 호환성을 유지하면서 주변환경 변화에 독립적이고 잡음에 강한 화자 종속적인 특징벡터를 생성할 수 있는 효과가 있으며, 기존의 화자인식 시스템의 구조를 변화시키지 않고 전처리 단계에서 간단히 추가함으로써, 기존의 고정구간에서 구한 MFCC 특징벡터의 한계를 극복할 수 있는 효과가 있다.
도 1은 본 발명에 따른 화자인식시스템의 화자 특징벡터 생성시스템의 블록 구성도이고,
도 2는 도 1에서 본 발명의 실시예에 따른 피치구간 음성추출장치의 블록 구성도이고,
도 3은 도 2에서 피치구간 음성추출부의 블록 구성도이고,
도 4는 도 1에서 특징벡터 생성장치의 상세 블록 구성도이다.
< 도면의 주요부분에 대한 부호의 설명 >
101 : 화자특징벡터 생성시스템 102 : 피치구간 음성추출장치
103 : 특징벡터 생성장치 104 : 화자모델 훈련시스템
105 : 화자인식 시스템 201 : 피치측정부
202 : 피치구간 음성추출부 301 : 기준점 후보선택부
302 : 에너지트랙검출부 303 : 음성추출부
401 : 윈도우설정부 402 : 주파수분석부
403 : 필터부 404 : 로그연산부
405 : DCT변환부

Claims (10)

  1. 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식시스템에 있어서,
    상기 입력된 화자음성신호의 피치간격을 측정하고 소정의 피치구간 음성신호를 추출하는 피치구간 음성추출수단은, 상기 피치구간 음성추출수단은 입력된 음성신호의 피치를 측정하는 피치측정부: 및 상기 피치측정부에서 측정된 피치에 의하여 상기 입력된 음성신호의 소정의 피치구간의 음성신호를 추출하는 피치구간 음성추출부;로 구성되고; 상기 피치구간 음성추출부는 상기 피치측정부에서 산출된 피치에서 기 설정되어 있는 음성추출단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하는 기준점후보 선택부; 상기 기준점후보 선택부에서 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출하는 에너지트랙검출부; 및 상기 에너지트랙검출부에서 검출된 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 음성신호 추출부;로 구성되며,
    상기 피치구간음성추출수단에서 추출된 음성신호의 특징벡터를 생성하는 특징벡터생성수단;을 포함하여 구성된 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성시스템.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제 1 항에 있어서,
    상기 특징벡터생성수단은 입력된 피치구간 음성신호에 윈도우를 설정하는 윈도우설정부;
    상기 윈도우설정부에 의해 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 하는 주파수분석부;
    상기 주파수분석부로부터 출력된 주파수에 청각특성을 고려한 필터뱅크를 통과시키는 필터부;
    상기 필터부를 통과한 주파수의 로그연산하는 로그연산부; 및
    상기 로그연산부를 통해 산출된 값으로부터 이산여현변환(Discrete Cosine Transform)을 통해 특징벡터를 산출하는 DCT변환부;를 포함하여 구성된 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성시스템.
  6. 제 5 항에 있어서,
    상기 필터부의 필터뱅크는 멜밴드필터뱅크(Mel Frequency filter Bank)를 포함하여 구성된 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성시스템.
  7. 입력된 화자 음성신호에서 특징벡터를 추출하여 화자모델링 훈련 및 화자인식을 수행하는 화자인식방법에 있어서,
    상기 입력된 화자음성신호의 피치간격을 산출한 후 소정의 피치구간의 음성신호 구간을 나누어 피치구간의 음성신호를 추출하는 피치구간 음성추출과정은,
    입력된 음성신호에서 피치를 검출하고, 상기 피치에서 기 설정된 음성추출단위에서 피치구간의 음성이 시작되는 점의 후보를 선택하고, 선택된 기준점들의 불연속성을 최소화하는 상기 입력 음성신호의 주변 에너지 트랙을 검출한 후 상기 에너지 트랙에서 에너지가 가장 작은 점을 기준으로 하여 상기 피치구간 음성신호를 추출하는 과정; 및
    상기 추출된 소정의 피치구간 음성신호에서 주파수 측면의 청각적 특성에 의한 특징벡터를 추출하는 특징벡터 추출과정;을 포함하여 이루어진 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성방법.
  8. 삭제
  9. 삭제
  10. 제 7 항에 있어서,
    상기 특징벡터 추출과정은 입력된 피치구간 음성신호에 윈도우를 설정하고, 설정된 윈도우의 음성분석구간에 대하여 주파수분석을 한 후 청각특성을 고려한 필터뱅크를 통과시켜 로그연산을 하고, 로그연산을 통해 산출된 값을 DCT변환하여 특징벡터를 산출하는 것을 특징으로 하는 화자인식시스템의 화자 특징벡터 생성방법.
KR10-2003-0082086A 2003-11-19 2003-11-19 화자인식시스템의 화자 특징벡터 생성방법 및 시스템 KR100526110B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2003-0082086A KR100526110B1 (ko) 2003-11-19 2003-11-19 화자인식시스템의 화자 특징벡터 생성방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2003-0082086A KR100526110B1 (ko) 2003-11-19 2003-11-19 화자인식시스템의 화자 특징벡터 생성방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20050048214A KR20050048214A (ko) 2005-05-24
KR100526110B1 true KR100526110B1 (ko) 2005-11-08

Family

ID=37247067

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2003-0082086A KR100526110B1 (ko) 2003-11-19 2003-11-19 화자인식시스템의 화자 특징벡터 생성방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100526110B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12067989B2 (en) 2019-04-01 2024-08-20 Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) Combined learning method and apparatus using deepening neural network based feature enhancement and modified loss function for speaker recognition robust to noisy environments

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
KR101671305B1 (ko) * 2015-12-22 2016-11-02 경상대학교 산학협력단 입력 신호의 특징 파라미터 추출 장치 및 그를 이용한 화자 인식 장치
CN108281130B (zh) * 2018-01-19 2021-02-09 北京小唱科技有限公司 音频修正方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980024970A (ko) * 1996-09-27 1998-07-06 이데이 노브유끼 음성 부호화 방법 및 장치, 음성 복호화 방법 및 장치
KR20020063665A (ko) * 2001-01-30 2002-08-05 이태성 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
KR20020067870A (ko) * 2001-02-19 2002-08-24 보이스미디어텍(주) 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR19980024970A (ko) * 1996-09-27 1998-07-06 이데이 노브유끼 음성 부호화 방법 및 장치, 음성 복호화 방법 및 장치
KR20020063665A (ko) * 2001-01-30 2002-08-05 이태성 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
KR20020067870A (ko) * 2001-02-19 2002-08-24 보이스미디어텍(주) 음성인식 기술을 이용한 영어 발음 학습 방법 및 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12067989B2 (en) 2019-04-01 2024-08-20 Iucf-Hyu (Industry-University Cooperation Foundation Hanyang University) Combined learning method and apparatus using deepening neural network based feature enhancement and modified loss function for speaker recognition robust to noisy environments

Also Published As

Publication number Publication date
KR20050048214A (ko) 2005-05-24

Similar Documents

Publication Publication Date Title
CN106935248B (zh) 一种语音相似度检测方法及装置
Dhingra et al. Isolated speech recognition using MFCC and DTW
Tiwari MFCC and its applications in speaker recognition
JP4802135B2 (ja) 話者認証登録及び確認方法並びに装置
Kumar et al. Design of an automatic speaker recognition system using MFCC, vector quantization and LBG algorithm
JPH0990974A (ja) 信号処理方法
Ying et al. A probabilistic approach to AMDF pitch detection
Archana et al. Gender identification and performance analysis of speech signals
Pao et al. Combining acoustic features for improved emotion recognition in mandarin speech
WO2002091358A1 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
JP5282523B2 (ja) 基本周波数抽出方法、基本周波数抽出装置、およびプログラム
Kitaoka et al. Development of VAD evaluation framework CENSREC-1-C and investigation of relationship between VAD and speech recognition performance
Maazouzi et al. MFCC and similarity measurements for speaker identification systems
KR100526110B1 (ko) 화자인식시스템의 화자 특징벡터 생성방법 및 시스템
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Zhao et al. A processing method for pitch smoothing based on autocorrelation and cepstral F0 detection approaches
JP2797861B2 (ja) 音声検出方法および音声検出装置
KR100391123B1 (ko) 피치 단위 데이터 분석을 이용한 음성인식 방법 및 시스템
Singh et al. A comparative study on feature extraction techniques for language identification
Sharma et al. Speech recognition of Punjabi numerals using synergic HMM and DTW approach
Joseph et al. Indian accent detection using dynamic time warping
JP2008224911A (ja) 話者認識システム
JP4576612B2 (ja) 音声認識方法および音声認識装置
Tu et al. Computational auditory scene analysis based voice activity detection
Ning Developing an isolated word recognition system in MATLAB

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20101027

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee