KR100930587B1 - 혼동 행렬 기반 발화 검증 방법 및 장치 - Google Patents
혼동 행렬 기반 발화 검증 방법 및 장치 Download PDFInfo
- Publication number
- KR100930587B1 KR100930587B1 KR1020070122185A KR20070122185A KR100930587B1 KR 100930587 B1 KR100930587 B1 KR 100930587B1 KR 1020070122185 A KR1020070122185 A KR 1020070122185A KR 20070122185 A KR20070122185 A KR 20070122185A KR 100930587 B1 KR100930587 B1 KR 100930587B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- phoneme
- reliability
- confusion matrix
- recognized
- Prior art date
Links
- 239000011159 matrix material Substances 0.000 title claims abstract description 53
- 238000012795 verification Methods 0.000 title claims abstract description 39
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000001419 dependent effect Effects 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000000551 statistical hypothesis test Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Electrically Operated Instructional Devices (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
Claims (11)
- 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 단계;상기 음성 인식 결과인 음성 인식된 문자열에 포함된 각 음소와 미리 훈련된 문맥 독립 음소 모델에 포함된 각 음소의 우도 값을 계산하는 단계;상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 단계; 및상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 제 1항에 있어서, 상기 신뢰도를 측정하는 단계는,상기 음성 인식된 문자열에 포함된 각 음소에 대하여 계산된 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택하는 단계; 및상기 음성 인식 결과로 출력되는 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 제 2항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,상기 신뢰도를 하기의 수학식에 의하여 측정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.<수학식>= 현재 음소 i 와 N개의 음소로 구성된 문맥 독립 음소 모델 중 현재 음소 i를 제외한 N-1개의 모노 폰 모델에 대해 프레임의 시간 길이()로 정규화한 모노 폰 모델 우도 값,
- 제 2항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,상기 측정된 신뢰도를 음성 인식된 문자열의 음소 수로 정규화하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 제 4항에 있어서, 상기 음성 인식된 문자열의 신뢰도를 측정하는 단계는,상기 신뢰도를 하기의 수학식에 의하여 측정하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.<수학식>= 현재 음소 i 와 N개의 음소로 구성된 문맥 독립 음소 모델 중 현재 음소 i를 제외한 N-1개의 모노 폰 모델에 대해 프레임의 시간 길이()로 정규화한 모노 폰 모델 우도 값,
- 제 1항에 있어서, 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 단계는,상기 측정된 신뢰도가 미리 정해진 임계치보다 크다면 상기 음성 인식된 문 자열을 수락하는 단계를 포함하는 혼동 행렬 기반 발화 검증 방법.
- 문맥 종속 음소 모델을 사용하여 비터비 디코딩을 수행함으로써 입력된 음성을 인식하는 음성 인식부;상기 음성 인식부로부터 출력되는 음성 인식된 문자열에 대한 음소열 정보 및 문맥 독립 음소 모델을 기반으로 각 음소의 우도 값을 계산하고, 상기 계산된 각 음소의 우도 값 및 미리 계산된 혼동 행렬의 확률 값을 기반으로 상기 음성 인식된 문자열에 대한 신뢰도를 측정하는 신뢰도 측정부; 및상기 측정된 신뢰도를 기반으로 상기 음성 인식된 문자열의 수락 및 거절 여부를 결정하는 판단부를 포함하는 혼동 행렬 기반 발화 검증 장치.
- 제 7항에 있어서, 상기 신뢰도 측정부는,상기 계산된 각 음소의 우도 값과 상기 각 음소에 대하여 미리 계산된 혼동 행렬의 확률 값을 더하고 상기 더한 값 중 가장 큰 값을 선택한 후, 상기 음성 인식부로부터 출력되는 트라이 폰 모델의 우도 값과 상기 선택된 값을 기반으로 상기 음성 인식된 문자열의 신뢰도를 측정하는혼동 행렬 기반 발화 검증 장치.
- 제 8항에 있어서, 상기 신뢰도 측정부는,상기 측정된 신뢰도를 시간으로 정규화하는혼동 행렬 기반 발화 검증 장치.
- 제 9항에 있어서, 상기 신뢰도 측정부는,상기 측정된 신뢰도를 음성 인식된 문자열의 전체 프레임 수로 정규화하는혼동 행렬 기반 발화 검증 장치.
- 제 7항에 있어서, 상기 판단부는,상기 측정된 신뢰도가 미리 정해진 임계치보다 크다면 상기 음성 인식된 문자열을 수락하는혼동 행렬 기반 발화 검증 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070122185A KR100930587B1 (ko) | 2007-11-28 | 2007-11-28 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020070122185A KR100930587B1 (ko) | 2007-11-28 | 2007-11-28 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20090055320A KR20090055320A (ko) | 2009-06-02 |
KR100930587B1 true KR100930587B1 (ko) | 2009-12-09 |
Family
ID=40987002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020070122185A KR100930587B1 (ko) | 2007-11-28 | 2007-11-28 | 혼동 행렬 기반 발화 검증 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100930587B1 (ko) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101317339B1 (ko) * | 2009-12-18 | 2013-10-11 | 한국전자통신연구원 | 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법 |
KR102245747B1 (ko) | 2014-11-20 | 2021-04-28 | 삼성전자주식회사 | 사용자 명령어 등록을 위한 디스플레이 장치 및 방법 |
KR20160090459A (ko) | 2015-01-21 | 2016-08-01 | 한경대학교 산학협력단 | 공기체류시간을 연장한 공기청정기 |
CN113721182B (zh) * | 2021-11-02 | 2022-02-01 | 武汉格蓝若智能技术有限公司 | 一种电力互感器性能在线监测结果可靠度评估方法及系统 |
WO2024177172A1 (ko) * | 2023-02-22 | 2024-08-29 | 주식회사 엔씨소프트 | 발화검증 방법 및 장치 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050058598A (ko) * | 2003-12-12 | 2005-06-17 | 엘지전자 주식회사 | 음성 인식 시스템의 발화 검증 방법 |
KR20070061266A (ko) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
-
2007
- 2007-11-28 KR KR1020070122185A patent/KR100930587B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20050058598A (ko) * | 2003-12-12 | 2005-06-17 | 엘지전자 주식회사 | 음성 인식 시스템의 발화 검증 방법 |
KR20070061266A (ko) * | 2005-12-08 | 2007-06-13 | 한국전자통신연구원 | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20090055320A (ko) | 2009-06-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kamppari et al. | Word and phone level acoustic confidence scoring | |
US6535850B1 (en) | Smart training and smart scoring in SD speech recognition system with user defined vocabulary | |
US6138095A (en) | Speech recognition | |
EP2713367B1 (en) | Speaker recognition | |
US20060074664A1 (en) | System and method for utterance verification of chinese long and short keywords | |
US7324941B2 (en) | Method and apparatus for discriminative estimation of parameters in maximum a posteriori (MAP) speaker adaptation condition and voice recognition method and apparatus including these | |
KR20070061266A (ko) | 발화검증을 위한 임계치값 자동 갱신을 이용한 음성인식장치 및 방법 | |
CN101452701B (zh) | 基于反模型的置信度估计方法及装置 | |
KR101317339B1 (ko) | 엔베스트 인식 단어 계산량 감소를 위한 2단계 발화검증 구조를 갖는 음성인식 장치 및 방법 | |
KR100930587B1 (ko) | 혼동 행렬 기반 발화 검증 방법 및 장치 | |
EP1005019A2 (en) | Segment-based similarity measurement method for speech recognition | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
CN104901807A (zh) | 一种可用于低端芯片的声纹密码方法 | |
KR100609521B1 (ko) | 음성 인식 시스템의 발화 검증 방법 | |
WO2002029785A1 (en) | Method, apparatus, and system for speaker verification based on orthogonal gaussian mixture model (gmm) | |
CN113016029A (zh) | 提供基于上下文的语音识别服务的方法及装置 | |
KR100940641B1 (ko) | 음소레벨 로그우도 비율 분포와 음소 지속시간 분포에 의한단어음색 모델 기반 발화검증 시스템 및 방법 | |
RU2530314C1 (ru) | Способ гибридной генеративно-дискриминативной сегментации дикторов в аудио-потоке | |
KR20100073160A (ko) | 음성인식 시스템의 발화검증 방법 및 장치 | |
KR100673834B1 (ko) | 문맥 요구형 화자 독립 인증 시스템 및 방법 | |
Ertaş | Feature selection and classification techniques for speaker recognition | |
KR20020045960A (ko) | 음성인식에서 핵심어 검출 성능 개선 방법 | |
Nair et al. | A reliable speaker verification system based on LPCC and DTW | |
Sharma et al. | Speech recognition of Punjabi numerals using synergic HMM and DTW approach | |
JP3456444B2 (ja) | 音声判定装置及び方法並びに記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20071128 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20090617 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20091127 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20091201 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20091202 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
FPAY | Annual fee payment |
Payment date: 20121129 Year of fee payment: 4 |
|
PR1001 | Payment of annual fee |
Payment date: 20121129 Start annual number: 4 End annual number: 4 |
|
FPAY | Annual fee payment |
Payment date: 20131128 Year of fee payment: 5 |
|
PR1001 | Payment of annual fee |
Payment date: 20131128 Start annual number: 5 End annual number: 5 |
|
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |
Termination category: Default of registration fee Termination date: 20151109 |