KR100435441B1 - 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 - Google Patents
사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 Download PDFInfo
- Publication number
- KR100435441B1 KR100435441B1 KR10-2002-0014492A KR20020014492A KR100435441B1 KR 100435441 B1 KR100435441 B1 KR 100435441B1 KR 20020014492 A KR20020014492 A KR 20020014492A KR 100435441 B1 KR100435441 B1 KR 100435441B1
- Authority
- KR
- South Korea
- Prior art keywords
- center value
- difference
- equation
- speaker
- value
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000012795 verification Methods 0.000 title claims description 6
- 239000013598 vector Substances 0.000 claims abstract description 65
- 238000012790 confirmation Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 description 10
- 239000000654 additive Substances 0.000 description 4
- 230000000996 additive effect Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Collating Specific Patterns (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
Description
Claims (16)
- 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 장치에 있어서,입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 초기화 수단;공통 코드북의 평균 센터값과 상기 초기화 수단에 의하여 설정된 중심값과의 차이()를 구하는 중심값 차이 연산 수단;상기 중심값 차이 연산 수단에 의하여 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 보상 수단; 및상기 보상 수단에 의하여 보상된 값을 이용하여 화자 등록 과정을 수행하는 화자 등록 수단;을 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 학습시 채널 불일치 보상 장치.
- 제 1 항에 있어서,상기 초기화 수단은,상기 중심값을 아래의 [식 1]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 장치.[식 1]여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
- 제 1 항에 있어서,상기 보상 수단은,상기 중심값의 차이를 아래의 [식 2]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 장치.[식 2]여기서,는 보상된 값이고,는 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이이다.
- 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법에 있어서,입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 제 1 단계;공통 코드북의 평균 센터값과 상기 제 1 단계에서 설정된 중심값과의 차이()를 구하는 제 2 단계;상기 제 2 단계에서 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 제 3 단계; 및상기 제 3 단계에서 보상된 값을 이용하여 화자 등록 과정을 수행하는 제 4 단계;를 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법.
- 제 4 항에 있어서,상기 제 1 단계는,상기 중심값을 아래의 [식 3]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법.[식 3]여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
- 제 4 항에 있어서,상기 제 3 단계는,상기 중심값의 차이를 아래의 [식 4]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 방법.[식 4]여기서,는 보상된 값이고,는 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이이다.
- 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치에 있어서,입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 가중치 결정 수단;입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 하나의 중심값을 설정하는 중심값 설정 수단;공통 코드북의 평균 센터값과 상기 중심값 설정 수단에 의하여 설정된 중심값의 차이를 구하는 중심값 차이 연산 수단;상기 중심값 차이 연산 수단에 의하여 계산된 중심값의 차이와 상기 가중치 결정 수단에 의하여 결정된 가중치를 이용하여 입력 벡터를 보상하는 보상 수단;및상기 보상 수단에 의하여 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 화자 확인 수단;을 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.
- 제 7 항에 있어서,상기 가중치 결정 수단은,상기 가중치를 아래의 [식 5]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.[식 5]여기서,는 개인 화자의 등록시 배경 노이즈이고,N_bg ^(p)는 배경 노이즈(Background Noise)이며, w는 구하고자 하는 가중치이다.
- 제 7 항에 있어서,상기 중심값 설정 수단은,상기 중심값을 아래의 [식 6]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.[식 6]여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
- 제 7 항에 있어서,상기 보상 수단은,아래의 [식 7]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 장치.[식 7]여기서,는 보상된 값이고,는 상기 중심값 차이 연산 수단의 결과값이다.
- 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법에 있어서,입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 제 1 단계;입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대하여 각각의 중심값을 설정하는 제 2 단계;공통 코드북의 평균 센터값과 상기 제 2 단계에서 설정된 중심값의 차이를 구하는 제 3 단계;상기 제 3 단계에서 계산된 중심값의 차이와 상기 제 1 단계에서 결정된 가중치를 이용하여 입력 벡터를 보상하는 제 4 단계; 및상기 제 4 단계에서 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 제 5 단계;를 포함하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.
- 제 11 항에 있어서,상기 제 1 단계는,상기 가중치를 아래의 [식 8]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.[식 8]여기서,는 개인 화자의 등록시 배경 노이즈이고,는 배경 노이즈(Background Noise)이며, w는 구하고자 하는 가중치이다.
- 제 11 항에 있어서,상기 제 2 단계는,상기 중심값을 아래의 [식 9]에 의하여 결정하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.[식 9]여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.
- 제 11 항에 있어서,상기 제 4 단계는,아래의 [식 10]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 방법.[식 10]여기서,는 보상된 값이고,는 상기 중심값 차이 연산 수단의 결과값이다.
- 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체에 있어서,입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대한 각각의 중심값을 설정하는 제 1 단계;공통 코드북의 평균 센터값과 상기 제 1 단계에서 설정된 중심값과의 차이()를 구하는 제 2 단계;상기 제 2 단계에서 계산된 중심값 차이를 이용하여 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이를 보상하는 제 3 단계; 및상기 제 3 단계에서 보상된 값을 이용하여 화자 등록 과정을 수행하는 제 4 단계;를 포함하고,상기 중심값은 아래의 [식 11]에 의하여 결정하고, 상기 중심값의 차이는 아래의 [식 12]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 학습 시스템에서의 학습시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.[식 11]여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.[식 12]여기서,는 보상된 값이고,는 공통 코드북의 평균 센터값과 입력 벡터에 대한 중심값의 차이이다.
- 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체에 있어서,입력되는 샘플링된 음성 데이터의 묵음 구간의 입력 벡터에 대한 평균값을 구하고, 시그모이드(Sigmoid) 함수에 의하여 가중치를 결정하는 제 1 단계;입력되는 샘플링된 음성 데이터의 음성 구간의 모든 입력 벡터에 대하여 각각의 중심값을 설정하는 제 2 단계;공통 코드북의 평균 센터값과 상기 제 2 단계에서 설정된 중심값의 차이를구하는 제 3 단계;상기 제 3 단계에서 계산된 중심값의 차이와 상기 제 1 단계에서 결정된 가중치를 이용하여 입력 벡터를 보상하는 제 4 단계; 및상기 제 4 단계에서 보상된 입력 벡터를 이용하여 화자 확인 과정을 수행하는 제 5 단계;를 포함하고,상기 가중치는 아래의 [식 13]에 의하여 결정하고, 상기 중심값은 아래의 [식 14]에 의하여 결정하며, 아래의 [식 10]에 의하여 보상하는 것을 특징으로 하는 사용자 이동성을 고려한 화자 확인 시스템에서의 확인시 채널 불일치 보상 프로그램을 실행시킬 수 있는 컴퓨터로 읽을 수 있는 기록 매체.[식 13]여기서,는 개인 화자의 등록시 배경 노이즈이고,는 배경 노이즈(Background Noise)이며, w는 구하고자 하는 가중치이다.[식 14]여기서,는 입력 벡터이고,는 모든 입력 벡터의 개수이다.[식 15]여기서,는 보상된 값이고,는 상기 중심값 차이 연산 수단의 결과값이다.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0014492A KR100435441B1 (ko) | 2002-03-18 | 2002-03-18 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0014492A KR100435441B1 (ko) | 2002-03-18 | 2002-03-18 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20030075330A KR20030075330A (ko) | 2003-09-26 |
KR100435441B1 true KR100435441B1 (ko) | 2004-06-10 |
Family
ID=32225170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0014492A KR100435441B1 (ko) | 2002-03-18 | 2002-03-18 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100435441B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100779242B1 (ko) * | 2006-09-22 | 2007-11-26 | (주)한국파워보이스 | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 |
CN106971730A (zh) * | 2016-01-14 | 2017-07-21 | 芋头科技(杭州)有限公司 | 一种基于信道补偿的声纹识别方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08241095A (ja) * | 1995-03-06 | 1996-09-17 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 話者適応化装置及び音声認識装置 |
JPH09244683A (ja) * | 1996-03-11 | 1997-09-19 | Seiko Epson Corp | 話者適応化方法および話者適応化装置 |
JPH10240286A (ja) * | 1997-02-27 | 1998-09-11 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
KR19980082408A (ko) * | 1996-05-07 | 1998-12-05 | 윌리엄 비. 켐플러 | 벡터 양자화 코드북 적응을 사용하여 음성 신호들을 보상하기 위한 방법 및 시스템 |
US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
KR20010036358A (ko) * | 1999-10-08 | 2001-05-07 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
-
2002
- 2002-03-18 KR KR10-2002-0014492A patent/KR100435441B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08241095A (ja) * | 1995-03-06 | 1996-09-17 | Atr Onsei Honyaku Tsushin Kenkyusho:Kk | 話者適応化装置及び音声認識装置 |
JPH09244683A (ja) * | 1996-03-11 | 1997-09-19 | Seiko Epson Corp | 話者適応化方法および話者適応化装置 |
KR19980082408A (ko) * | 1996-05-07 | 1998-12-05 | 윌리엄 비. 켐플러 | 벡터 양자화 코드북 적응을 사용하여 음성 신호들을 보상하기 위한 방법 및 시스템 |
JPH10240286A (ja) * | 1997-02-27 | 1998-09-11 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US5924065A (en) * | 1997-06-16 | 1999-07-13 | Digital Equipment Corporation | Environmently compensated speech processing |
KR20010036358A (ko) * | 1999-10-08 | 2001-05-07 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20030075330A (ko) | 2003-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4802135B2 (ja) | 話者認証登録及び確認方法並びに装置 | |
Reynolds et al. | Speaker verification using adapted Gaussian mixture models | |
KR100908121B1 (ko) | 음성 특징 벡터 변환 방법 및 장치 | |
EP2189976B1 (en) | Method for adapting a codebook for speech recognition | |
Nayana et al. | Comparison of text independent speaker identification systems using GMM and i-vector methods | |
WO1997010587A9 (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
WO1997010587A1 (en) | Signal conditioned minimum error rate training for continuous speech recognition | |
Chowdhury et al. | Bayesian on-line spectral change point detection: a soft computing approach for on-line ASR | |
JP4705414B2 (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
Liao et al. | Joint uncertainty decoding for robust large vocabulary speech recognition | |
Selva Nidhyananthan et al. | Noise robust speaker identification using RASTA–MFCC feature with quadrilateral filter bank structure | |
Kalamani et al. | Continuous Tamil Speech Recognition technique under non stationary noisy environments | |
Haton | Automatic speech recognition: A Review | |
KR20070061216A (ko) | Gmm을 이용한 음질향상 시스템 | |
KR100435441B1 (ko) | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 | |
Soni et al. | Text-dependent speaker verification using classical LBG, adaptive LBG and FCM vector quantization | |
Omer | Joint MFCC-and-vector quantization based text-independent speaker recognition system | |
Hirsch | HMM adaptation for applications in telecommunication | |
Bhukya et al. | End point detection using speech-specific knowledge for text-dependent speaker verification | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Boril et al. | Front-End Compensation Methods for LVCSR Under Lombard Effect. | |
Huang et al. | An SNR-incremental stochastic matching algorithm for noisy speech recognition | |
WO2004095423A1 (en) | Channel mis-match compensation apparatus and method for robust speaker verification system | |
Oonishi et al. | A noise-robust speech recognition approach incorporating normalized speech/non-speech likelihood into hypothesis scores |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130531 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20140530 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20150430 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20160524 Year of fee payment: 13 |
|
FPAY | Annual fee payment |
Payment date: 20170920 Year of fee payment: 14 |
|
FPAY | Annual fee payment |
Payment date: 20180731 Year of fee payment: 15 |
|
FPAY | Annual fee payment |
Payment date: 20190603 Year of fee payment: 16 |