KR101925252B1 - 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 - Google Patents
음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 Download PDFInfo
- Publication number
- KR101925252B1 KR101925252B1 KR1020180061627A KR20180061627A KR101925252B1 KR 101925252 B1 KR101925252 B1 KR 101925252B1 KR 1020180061627 A KR1020180061627 A KR 1020180061627A KR 20180061627 A KR20180061627 A KR 20180061627A KR 101925252 B1 KR101925252 B1 KR 101925252B1
- Authority
- KR
- South Korea
- Prior art keywords
- speaker
- data
- speech
- classification data
- feature vector
- Prior art date
Links
- 239000013598 vector Substances 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012795 verification Methods 0.000 claims abstract description 34
- 238000004364 calculation method Methods 0.000 claims abstract description 32
- 238000012790 confirmation Methods 0.000 claims description 34
- 239000011159 matrix material Substances 0.000 description 6
- 230000002996 emotional effect Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computer Security & Cryptography (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2a는 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법의 1차 결정 과정을 나타낸 순서도이다.
도 2b는 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법의 2차 결정 과정을 나타낸 순서도이다.
도 3은 본 발명의 일 실시 예에 따른 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 장치를 나타낸 블록도이다.
300: 제 1 화자확인 결정부 400: 제 2 화자확인 결정부
500: 데이터베이스
1000: 화자확인 이중화 장치
Claims (9)
- 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법에 있어서,
(a) 화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 단계;
(b) 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 추출된 음성 데이터를 분석하는 단계;
(c) 상기 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 상기 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 상기 제 1 임계치값을 초과한다면 상기 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 단계; 및
(d) 기준외 분류데이터들에 대한 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 상기 판단의 결과에 기초하여 상기 화자확인의 승인여부를 결정하는 단계를 포함하되,
상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 상기 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당하며,
상기 참조 테이블에는 상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들이 테이블 형태로 저장되며,
상기 (d) 단계에서는, 상기 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 상기 화자확인의 승인을 거부하고, 존재한다면 상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단하는 것을 특징으로 하는 화자확인 이중화 방법.
- 삭제
- 제 1 항에 있어서,
상기 (d) 단계에서는,
상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 상기 제 2 임계치값을 초과하지 않는다면 상기 화자확인을 승인하고, 상기 제 2 임계치값을 초과한다면 상기 화자확인의 승인을 거부하는 것을 특징으로 하는 화자확인 이중화 방법.
- 제 1 항에 있어서,
상기 (c) 단계 또는 (d) 단계에서 상기 화자확인을 승인하는 경우, 상기 추출된 음성 데이터는 데이터베이스에 저장되고, 상기 저장된 음성 데이터는 상기 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용되는 것을 특징으로 하는 화자확인 이중화 방법.
- 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 장치에 있어서,
화자로부터 발화된 단어에 대한 음성 데이터를 추출하는 음성 데이터 추출부;
기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 추출된 음성 데이터를 분석하는 음성 데이터 분석부;
상기 추출된 음성 데이터를 분석한 결과값이 제 1 임계치값을 초과하는지 여부를 판단하고, 상기 제 1 임계치값을 초과하지 않는다면 화자확인을 승인하고, 상기 제 1 임계치값을 초과한다면 상기 추출된 음성 데이터에 부합하는 음성 특징벡터 및 파라미터 연산값을 추정하는 제 1 화자확인 결정부; 및
기준외 분류데이터들에 대한 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하는지 여부를 판단하고, 상기 판단의 결과에 기초하여 상기 화자확인의 승인여부를 결정하는 제 2 화자확인 결정부를 포함하되,
상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값은 상기 화자로부터 발화된 단어에 부합하는 음성 특징벡터 및 파라미터 연산값으로서, 머신러닝을 이용하여 미리 학습된 결과값에 해당하며,
상기 참조 테이블에는 상기 기준 분류데이터에 대한 음성 특징벡터 및 파라미터 연산값을 기초로 하여 상기 기준 분류데이터와 기준외 분류데이터들 간의 상관관계를 도출한 결과값들이 테이블 형태로 저장되며,
상기 제 2 화자확인 결정부에서는, 상기 참조 테이블에 상기 추정된 음성 특징벡터 및 파라미터 연산값에 해당하는 기준외 분류데이터가 존재하지 않는다면 상기 화자확인의 승인을 거부하고, 존재한다면 상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 제 2 임계치값을 초과하는지 여부를 판단하는 것을 특징으로 하는 화자확인 이중화 장치.
- 삭제
- 제 5 항에 있어서,
상기 제 2 화자확인 결정부에서는,
상기 참조 테이블에 저장된 상기 기준외 분류데이터에 대한 상관관계 도출값이 상기 제 2 임계치값을 초과하지 않는다면 상기 화자확인을 승인하고, 상기 제 2 임계치값을 초과한다면 상기 화자확인의 승인을 거부하는 것을 특징으로 하는 화자확인 이중화 장치.
- 제 5 항에 있어서,
상기 제 1 화자확인 결정부 또는 제 2 화자확인 결정부에서 상기 화자확인을 승인하는 경우, 상기 추출된 음성 데이터는 데이터베이스에 저장되고, 상기 저장된 음성 데이터는 상기 기준 분류데이터 및 기준외 분류데이터의 재분류를 위한 학습 과정에 사용되는 것을 특징으로 하는 화자확인 이중화 장치.
- 제 1 항, 제 3 항 또는 제 4 항 중 어느 한 항의 방법을 구현하기 위한 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180061627A KR101925252B1 (ko) | 2018-05-30 | 2018-05-30 | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020180061627A KR101925252B1 (ko) | 2018-05-30 | 2018-05-30 | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101925252B1 true KR101925252B1 (ko) | 2018-12-04 |
Family
ID=64668966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020180061627A KR101925252B1 (ko) | 2018-05-30 | 2018-05-30 | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101925252B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200142666A (ko) * | 2019-06-13 | 2020-12-23 | 대한민국(관리부서: 행정안전부 국립과학수사연구원장) | 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법 |
KR102547000B1 (ko) * | 2022-07-07 | 2023-06-23 | 주식회사 액션파워 | 화자 감정 분석에 기초하여 화자 인증을 개선하는 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083984A (ja) * | 1999-09-09 | 2001-03-30 | Alpine Electronics Inc | インタフェース装置 |
-
2018
- 2018-05-30 KR KR1020180061627A patent/KR101925252B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001083984A (ja) * | 1999-09-09 | 2001-03-30 | Alpine Electronics Inc | インタフェース装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20200142666A (ko) * | 2019-06-13 | 2020-12-23 | 대한민국(관리부서: 행정안전부 국립과학수사연구원장) | 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법 |
KR102203161B1 (ko) * | 2019-06-13 | 2021-01-14 | 대한민국 | 음성파일에 대한 화자인식장치 및 음성파일에 대한 화자인식시스템 그리고 음성파일에 대한 화자인식방법 |
KR102547000B1 (ko) * | 2022-07-07 | 2023-06-23 | 주식회사 액션파워 | 화자 감정 분석에 기초하여 화자 인증을 개선하는 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7152514B2 (ja) | 声紋識別方法、モデルトレーニング方法、サーバ、及びコンピュータプログラム | |
JP2982870B2 (ja) | 話者識別方法および話者認識装置 | |
US9875743B2 (en) | Acoustic signature building for a speaker from multiple sessions | |
US5895447A (en) | Speech recognition using thresholded speaker class model selection or model adaptation | |
EP2048656B1 (en) | Speaker recognition | |
US20180158464A1 (en) | Blind Diarization of Recorded Calls With Arbitrary Number of Speakers | |
US11837236B2 (en) | Speaker recognition based on signal segments weighted by quality | |
WO2019202941A1 (ja) | 自己訓練データ選別装置、推定モデル学習装置、自己訓練データ選別方法、推定モデル学習方法、およびプログラム | |
WO2003050799A9 (en) | Method and system for non-intrusive speaker verification using behavior models | |
KR101888058B1 (ko) | 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치 | |
JPS6217240B2 (ko) | ||
CN110491375B (zh) | 一种目标语种检测的方法和装置 | |
CN110942776B (zh) | 一种基于gru的音频防拼接检测方法及系统 | |
CN110299150A (zh) | 一种实时语音说话人分离方法及系统 | |
US6556969B1 (en) | Low complexity speaker verification using simplified hidden markov models with universal cohort models and automatic score thresholding | |
CN116490920A (zh) | 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质 | |
JP4717872B2 (ja) | 話者の音声特徴情報を利用した話者情報獲得システム及びその方法 | |
KR101925252B1 (ko) | 음성 특징벡터 및 파라미터를 활용한 화자확인 이중화 방법 및 장치 | |
CN118173094B (zh) | 结合动态时间规整的唤醒词识别方法、装置、设备及介质 | |
CN111883109B (zh) | 语音信息处理及验证模型训练方法、装置、设备及介质 | |
KR20040068548A (ko) | 행동 모델을 사용한 비-개입적 화자 인증 방법 및 시스템 | |
US20210193150A1 (en) | Multi-stage speaker enrollment in voice authentication and identification | |
CN112530441A (zh) | 合法用户的验证方法、装置、计算机设备和存储介质 | |
KR102113879B1 (ko) | 참조 데이터베이스를 활용한 화자 음성 인식 방법 및 그 장치 | |
KR102098956B1 (ko) | 음성인식장치 및 음성인식방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20180530 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20180605 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20180530 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20180725 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20181122 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20181128 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20181128 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20211129 Start annual number: 4 End annual number: 4 |
|
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20230909 |