KR100779242B1 - 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 - Google Patents
음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 Download PDFInfo
- Publication number
- KR100779242B1 KR100779242B1 KR1020060092217A KR20060092217A KR100779242B1 KR 100779242 B1 KR100779242 B1 KR 100779242B1 KR 1020060092217 A KR1020060092217 A KR 1020060092217A KR 20060092217 A KR20060092217 A KR 20060092217A KR 100779242 B1 KR100779242 B1 KR 100779242B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- recognition
- state
- speaker recognition
- mfcc
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000013139 quantization Methods 0.000 claims abstract description 35
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims description 23
- 230000010354 integration Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 15
- 238000000605 extraction Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000007781 pre-processing Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000000540 analysis of variance Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/16—Hidden Markov models [HMM]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Collating Specific Patterns (AREA)
Abstract
Description
화자 | 가중치 적용 없음 | 켑스트럼 가중치 적용 | 본 발명 가중치 적용 | |||
FR | FA | FR | FA | FR | FA | |
제1사용자 | 1/40 | 0/300 | 1/40 | 0/300 | 1/40 | 0/300 |
제2사용자 | 40/100 | 3/300 | 10/100 | 3/300 | 12/100 | 4/300 |
제3사용자 | 1/40 | 0/300 | 0/40 | 0/300 | 0/40 | 0/300 |
제4사용자 | 3/60 | 12/300 | 14/60 | 0/300 | 0/60 | 1/300 |
제5사용자 | 0/50 | 1/300 | 0/50 | 0/300 | 0/50 | 0/300 |
제6사용자 | 9/60 | 0/300 | 8/60 | 9/300 | 6/60 | 1/300 |
제7사용자 | 6/70 | 0/300 | 5/70 | 0/300 | 2/70 | 0/300 |
제8사용자 | 19/100 | 0/300 | 23/100 | 0/300 | 17/100 | 0/300 |
제9사용자 | 11/60 | 14/300 | 42/60 | 0/300 | 10/60 | 8/300 |
제10사용자 | 2/80 | 1/300 | 2/80 | 0/300 | 1/80 | 0/300 |
계 | 92/660 | 31/3000 | 105/660 | 12/3000 | 49/660 | 14/3000 |
% | 13.939 | 1.033 | 15.909 | 0.4 | 7.424 | 0.466 |
인식률(%) | 86.061 | 98.967 | 84.091 | 99.6 | 92.576 | 99.534 |
Claims (4)
- 화자 인증 시스템 및 화자 식별 시스템을 음성 인식 시스템과 통합한 음성 인식/화자 인식 통합 시스템에서 MFCC(Mel-scaled Frequency Cepstral Coefficient)를 추출하여 화자 인식을 수행하는 방법에 있어서,상기 화자 인증 시스템에서 개인 모델을 생성한 후에 사전 문턱치를 계산하기 위하여 비터비 연산 수행 시에 구해지는 역전파 경로를 이용하여 상태 세그먼테이션을 수행하는 과정과;상기 상태 세그먼테이션을 통해 얻어진 상태별 MFCC에 대한 차수별 화자 내 분산 값과 월드 모델 간의 유클리드 거리를 계산하여 상태별 개인 가중치를 구하는 과정과;상기 상태별 개인 가중치를 사용하여 멀티-벡터 양자화를 수행하여 관측 열을 발생시키며, 해당 관측 열을 통하여 화자 인식을 수행하는 과정을 포함하여 이루어진 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.
- 제1항에 있어서,상기 상태별 개인 가중치는, HMM(Hidden Markov Model)의 물리적 특성을 이용하여 개인 화자별 동적 특징을 표현하며, 화자 내 변이의 최소화와 화자 간 변이 의 최대화를 가질 수 있도록 MFCC 차수별로 가중한 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.
- 제1항에 있어서,상기 상태별 개인 가중치는, j 상태의 i 번째 차수인 경우에, 월드 모델 j 상태의 i 번째 차수의 분산 값에 개인모델 j 상태의 i 번째 차수의 분산 값을 나눈 값인 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.
- 제1항에 있어서,상기 화자 인식 수행 과정은, 상기 화자 인증 시스템에서 상기 상태별 개인 가중치를 사용하여 하나의 코드북을 HMM 상태 다수 개의 멀티 코드북으로 적용시켜, 상기 유클리드 거리 계산 시에 입력 특징 파라미터에 상기 상태별 개인 가중치를 곱하여, 다수 개의 관측 열 집합으로부터 최소 관측 열을 발생시켜 주는 것을 특징으로 하는 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060092217A KR100779242B1 (ko) | 2006-09-22 | 2006-09-22 | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020060092217A KR100779242B1 (ko) | 2006-09-22 | 2006-09-22 | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR100779242B1 true KR100779242B1 (ko) | 2007-11-26 |
Family
ID=39080769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020060092217A KR100779242B1 (ko) | 2006-09-22 | 2006-09-22 | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100779242B1 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096954A (zh) * | 2014-05-06 | 2015-11-25 | 中兴通讯股份有限公司 | 一种身份识别方法及装置 |
US9484029B2 (en) | 2014-07-29 | 2016-11-01 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of speech recognition thereof |
CN108564967A (zh) * | 2018-03-14 | 2018-09-21 | 南京邮电大学 | 面向哭声检测系统的Mel能量声纹特征提取方法 |
CN109741761A (zh) * | 2019-03-13 | 2019-05-10 | 百度在线网络技术(北京)有限公司 | 声音处理方法和装置 |
CN112951245A (zh) * | 2021-03-09 | 2021-06-11 | 江苏开放大学(江苏城市职业学院) | 一种融入静态分量的动态声纹特征提取方法 |
US11495222B2 (en) | 2017-12-19 | 2022-11-08 | Samsung Electronics Co., Ltd. | Method for processing voice signals of multiple speakers, and electronic device according thereto |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980086697A (ko) * | 1997-05-06 | 1998-12-05 | 포만 제프리 엘 | 음성 인식 시스템에서의 화자 인식 방법 및 장치 |
KR20010036358A (ko) * | 1999-10-08 | 2001-05-07 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
KR20030075330A (ko) * | 2002-03-18 | 2003-09-26 | 정희석 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
KR20040074810A (ko) * | 2003-02-19 | 2004-08-26 | (주) 자모바 씨.엘.에스 | 음성인식과 화자인증 및 지문인증 통합 기술을 이용한클라이언트 컴퓨터상에서 인터넷 브라우저의 제어와인터넷 서비스의 자동접속 방법 |
KR20050051435A (ko) * | 2003-11-27 | 2005-06-01 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 |
KR20060044008A (ko) * | 2004-11-11 | 2006-05-16 | 주식회사 대우일렉트로닉스 | 다수의 화자 분별을 위한 음성 인식장치 |
-
2006
- 2006-09-22 KR KR1020060092217A patent/KR100779242B1/ko active IP Right Grant
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR19980086697A (ko) * | 1997-05-06 | 1998-12-05 | 포만 제프리 엘 | 음성 인식 시스템에서의 화자 인식 방법 및 장치 |
KR20010036358A (ko) * | 1999-10-08 | 2001-05-07 | 윤덕용 | 전화음성을 이용한 문장독립형 화자식별방법 |
KR20030075330A (ko) * | 2002-03-18 | 2003-09-26 | 정희석 | 사용자 이동성을 고려한 화자 인식에서의 채널 불일치보상 장치 및 그 방법 |
KR20040074810A (ko) * | 2003-02-19 | 2004-08-26 | (주) 자모바 씨.엘.에스 | 음성인식과 화자인증 및 지문인증 통합 기술을 이용한클라이언트 컴퓨터상에서 인터넷 브라우저의 제어와인터넷 서비스의 자동접속 방법 |
KR20050051435A (ko) * | 2003-11-27 | 2005-06-01 | 한국전자통신연구원 | 잡음 환경에서의 음성 인식을 위한 특징 벡터 추출 장치및 역상관 필터링 방법 |
KR20060044008A (ko) * | 2004-11-11 | 2006-05-16 | 주식회사 대우일렉트로닉스 | 다수의 화자 분별을 위한 음성 인식장치 |
Non-Patent Citations (7)
Title |
---|
10-2004-0074810 |
10-2005-51435 |
10-2006-0044008 |
특1998-086697 |
특2001-0036358 |
특2003-0075330 |
한국음향학회지,제23권제7호pp.548-553. 문장종속 화자확인 시스템을 위한 개선된 군집화 알고리즘에 관한 연구, 2004 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105096954A (zh) * | 2014-05-06 | 2015-11-25 | 中兴通讯股份有限公司 | 一种身份识别方法及装置 |
US9484029B2 (en) | 2014-07-29 | 2016-11-01 | Samsung Electronics Co., Ltd. | Electronic apparatus and method of speech recognition thereof |
US11495222B2 (en) | 2017-12-19 | 2022-11-08 | Samsung Electronics Co., Ltd. | Method for processing voice signals of multiple speakers, and electronic device according thereto |
CN108564967A (zh) * | 2018-03-14 | 2018-09-21 | 南京邮电大学 | 面向哭声检测系统的Mel能量声纹特征提取方法 |
CN108564967B (zh) * | 2018-03-14 | 2021-05-18 | 南京邮电大学 | 面向哭声检测系统的Mel能量声纹特征提取方法 |
CN109741761A (zh) * | 2019-03-13 | 2019-05-10 | 百度在线网络技术(北京)有限公司 | 声音处理方法和装置 |
CN112951245A (zh) * | 2021-03-09 | 2021-06-11 | 江苏开放大学(江苏城市职业学院) | 一种融入静态分量的动态声纹特征提取方法 |
CN112951245B (zh) * | 2021-03-09 | 2023-06-16 | 江苏开放大学(江苏城市职业学院) | 一种融入静态分量的动态声纹特征提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Melin et al. | Voice Recognition with Neural Networks, Type-2 Fuzzy Logic and Genetic Algorithms. | |
WO2006013555A2 (en) | Method and system for verifying and enabling user access based on voice parameters | |
KR100779242B1 (ko) | 음성 인식/화자 인식 통합 시스템에서의 화자 인식 방법 | |
Dash et al. | Speaker identification using mel frequency cepstralcoefficient and bpnn | |
Nandyal et al. | MFCC based text-dependent speaker identification using BPNN | |
Sigmund | Voice recognition by computer | |
Campbell | Speaker recognition | |
Beigi | Speaker Recognition | |
Pandey et al. | Multilingual speaker recognition using ANFIS | |
Shah et al. | Interactive voice response with pattern recognition based on artificial neural network approach | |
Saleema et al. | Voice biometrics: the promising future of authentication in the internet of things | |
Khetri et al. | Automatic speech recognition for marathi isolated words | |
Shah et al. | Neural network solution for secure interactive voice response | |
Al-Qaisi | Arabic word dependent speaker identification system using artificial neural network | |
Gupta et al. | Text dependent voice based biometric authentication system using spectrum analysis and image acquisition | |
Singh et al. | Features and techniques for speaker recognition | |
KR100917419B1 (ko) | 화자 인식 시스템 | |
Imam et al. | Speaker recognition using automated systems | |
Bose et al. | Robust speaker identification using fusion of features and classifiers | |
Nguyen et al. | Vietnamese speaker authentication using deep models | |
Lotia et al. | A review of various score normalization techniques for speaker identification system | |
Parrul et al. | Automatic speaker recognition system | |
Revathi et al. | Text independent composite speaker identification/verification using multiple features | |
Mamyrbayev et al. | BIOMETRIC HUMAN AUTHENTICATION SYSTEM THROUGH SPEECH USING DEEP NEURAL NETWORKS (DNN) | |
Al-Ali | Forensic speaker recognition under adverse conditions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20121115 Year of fee payment: 6 |
|
FPAY | Annual fee payment |
Payment date: 20131118 Year of fee payment: 7 |
|
FPAY | Annual fee payment |
Payment date: 20140930 Year of fee payment: 8 |
|
FPAY | Annual fee payment |
Payment date: 20151110 Year of fee payment: 9 |
|
FPAY | Annual fee payment |
Payment date: 20161111 Year of fee payment: 10 |
|
FPAY | Annual fee payment |
Payment date: 20181002 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20191106 Year of fee payment: 13 |