KR100259523B1 - 음성인식방법 - Google Patents
음성인식방법 Download PDFInfo
- Publication number
- KR100259523B1 KR100259523B1 KR1019960073130A KR19960073130A KR100259523B1 KR 100259523 B1 KR100259523 B1 KR 100259523B1 KR 1019960073130 A KR1019960073130 A KR 1019960073130A KR 19960073130 A KR19960073130 A KR 19960073130A KR 100259523 B1 KR100259523 B1 KR 100259523B1
- Authority
- KR
- South Korea
- Prior art keywords
- speech recognition
- state value
- recognition method
- speech
- word
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000005070 sampling Methods 0.000 claims abstract description 7
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
본 발명은 음성 인식 방법에 관한 것으로서, 음성 인식율을 향상시킬 수 있는 음성 인식 방법을 제공함에 있다.
상기한 목적을 실현하기 위하여 본 발명은 단어에 따른 스테이트값을 샘플링하여 음성을 인식하도륵 하는 음성 인식 방법에 있어서, 상기한 스테이트값을 샘플링할 때 입력 단어를 20∼30ms인 평균 분석 시간에 따라 프레임수로 분할하고, 상기한 프레임수에 1/2값이 되도록 스테이트값을 부여하는 것을 포함함을 특징으로 한다.
Description
본 발명은 음성 인식 방법에 관한 것이다.
일반적으로, 차량에서의 음셩 인식은 운전자가 도어를 열 때, 도어 글래스를 개폐할 때 등 매우 단순한 부분에서 사용되고 있다.
상기한 음성 인식 방법은 HMM(Hidden Markov Model)등과 같은 여러 방법이 사용되고 있는 바, 상기한 방법중에서 샘플링할 때는 예를 들면, 우리말은 음소수로 분리하여 체크하거나, 모든 단어에 동일한 스테이트(STATE)값을 부여하는 방법이 사용되고 있다.
상기한 음소수 분리 방법은 예를 들어, 유리창 : ㅇ ++ ㄹ + | + ㅊ ++ ㅇ으로 음소수를 분리하고, 상기한 각 음소에 3스테이트값을 부여하여 계산하게 되는바, 상기한 예는 21스테이트값을 가지게 되는 것이다.
또한, 모든 단어에 동일한 스테이트값을 부여하는 방법은 한 단어에 35스테이트로 고정하여 계산하게 되는 것인 바, 상기한 예는 35스테이트값을 가지게 되는 것이다.
그러나, 상기한 바와 같이 하나의 음소에 3스테이트값을 부여하는 방법이나 모든 단어에 35스테이트값을 부여하는 방법은 오차가 심해 정확한 음성 인식이 안되는 문제점이 있다.
따라서, 본 발명의 목적은 상기한 문제점을 해결하기 위한 것으로서, 음성 인식율을 향상시킬 수 있는 음성 인식 방법을 제공함에 있다.
상기한 목적을 실현하기 의하여 본 발명은 단어에 따른 스테이트값을 샘플링하여 음성을 인식하도록 하는 음성 인식 방법에 있어서, 상기한 스테이트값을 샘플링할 때 입력 단어를 20∼30ms인 평균 분석 시간에 따라 프레임수로 분할하고, 상기한 프레임수에 1/2값이 되도록 스테이트값을 부여하는 것을 포함함을 특징으로 한다.
도1은 본 발명과 종래 음성 인식 방법을 비교한 음성 인식율표.
도2는 도1에 따른 그래프.
도1과 도2는 본 발명에 따른 음성 인식 방법에서 종래 방법에 대한 음성 인식율을 도시한 표와 그래프로서, 차량의 시동을 오프시킨 상태, 아이들링 상태, 30Km/h 주행 상태, 60Km/h상태에서 하나의 음소에 3스테이트값을 부여하는 방법(이하, 제1방법)과, 한단어에 35스테이트값을 부여하는 방법(이하, 제2방법)과, 본 발명에 따라 입력 음성의 평군 분석 프레임(1프레임은 20∼30ms) 개수에 비례하도록 스테이트값을 부여하는 방법(이하, 제3방법)을 비교하고 있다.
즉, 본 발명에 따른 음성 인식 방법은 입력하는 음성의 시간에 따라 프레임수를 분할하고, 상기한 프레임수에 대응하도록 스테이트값을 부여함으르써 보다 정확한 음성 인식을 가능하게 하는 것이다.
예를 들면, "유리창"이란 단어를 발음할 때 1초라는 시간이 소요된다고 하면, 20ms로 가정한 상태에서 50프레임이 되는 바, 상기한 프레임은 도1에 나타난 바와 같이, 2프레임=1스테이트가 되기 때문에 상기한 단어의 스테이트값은 25스테이트가 되는 것이다.
물론, 상기한 바와 같이 단어의 스테이트값이 샘플링되면, 이를 통상적인 HMM 음성인식 방법에 적용함으로써, 정확한 음성 인식이 가능하도록 하는 바, 상기한 20∼30ms는 사람이 한 단어를 말하는 시간을 평균적인 테이터로 만들었을 때 얻어지는 값이다.
상기한 표와 그래프를 설명하면 차량의 시동을 오프시킨 상태에서 외부 소음이 없을 경우에 제1방법은 86.32, 제2방법은 92.77, 제3방법은 96.09의 음성 인식률을 얻을 수 있게 된다.
또한, 아이들링 상태에서는 엔진의 아이들링 소음이 있기 때문에 음성 인식율이 낮아지는 바, 제1방법은 74.06, 제2방법은 85.16, 제3방법은 88.20의 음성 인식율을 나타내게 된다.
즉, 외부 소음이 없을 경우와 소음이 있을 경우에도 본 발명에 따른 제3방법의 음성 인식율이 보다 효율적으로 음성을 인식할 수 있게 되는 것이다.
상기한 30, 60Km/h의 주행시에도 제1방법은 56.13, 41.68의 인식율을 나타내고, 제2방법은 65.81, 54.71의 인식율을 나타내며, 제3방법은 73.19, 63.65의 인식율을 나타냄으로써 외부 소음이 보다 커질 때에도 제3방법의 음성 인식률이 보다 우수하게 되는 것이다.
즉, 하나의 단어 또는 음소를 기준으로 음성 인식을 하는 것에 비해 발음 시간을 분할하여 인식함으로써 보다 정확한 음성 인식이 가능하게 되는 것이다.
이상과 같이 본 발명은 HMM등과 같은 음성 인식 방법에서, 입력 단어의 평균 분석 프레임 개수에 비례하도록 스테이트값을 부여하여 스테이트값을 샘플링함으로써, 음성 인식율을 향상시킬 수 있는 잇점이 있는 것이다.
Claims (1)
- (정정) 단어에 따른 스테이트값을 샘플링하여 음성을 인식하도록 하는 음성 인식방법에 있어서, 상기한 스데이트값을 샘플링할 때 입력 단어를 20∼30ms인 평균 분석 시간에 따라 프레임수로 분할하고, 상기한 프레임수에 1/2값이 되도록 스테이트값을 부여하는 것을 포함함을 특징으로 하는 음성 인식 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019960073130A KR100259523B1 (ko) | 1996-12-27 | 1996-12-27 | 음성인식방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019960073130A KR100259523B1 (ko) | 1996-12-27 | 1996-12-27 | 음성인식방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR19980054000A KR19980054000A (ko) | 1998-09-25 |
KR100259523B1 true KR100259523B1 (ko) | 2000-06-15 |
Family
ID=19491260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019960073130A KR100259523B1 (ko) | 1996-12-27 | 1996-12-27 | 음성인식방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100259523B1 (ko) |
-
1996
- 1996-12-27 KR KR1019960073130A patent/KR100259523B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR19980054000A (ko) | 1998-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Echols | A role for stress in early speech segmentation | |
US10854195B2 (en) | Dialogue processing apparatus, a vehicle having same, and a dialogue processing method | |
Tyler | The structure of the initial cohort: Evidence from gating | |
US8560313B2 (en) | Transient noise rejection for speech recognition | |
EP0818036B1 (fr) | Procede de reconnaissance vocale en ambiance severe, et dispositif de mise en oeuvre | |
AU4541489A (en) | Automative name pronunciation by synthesizer | |
US20100125456A1 (en) | System and Method for Recognizing Proper Names in Dialog Systems | |
US20070112568A1 (en) | Method for speech recognition and communication device | |
US7818174B1 (en) | Speech-recognition grammar analysis | |
US9911408B2 (en) | Dynamic speech system tuning | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
JP4684409B2 (ja) | 音声認識方法及び音声認識装置 | |
KR100698811B1 (ko) | 음성 인식 거부 방식 | |
JPH07168594A (ja) | スピーチ認識方法および装置 | |
EP0865033A2 (en) | Normalization of speech signals | |
KR100259523B1 (ko) | 음성인식방법 | |
SE9303623L (sv) | Metod och anordning vid automatisk extrahering av prosodisk information | |
US20170018273A1 (en) | Real-time adaptation of in-vehicle speech recognition systems | |
Tucker et al. | Automatic language identification using sub-word models | |
Szarvas et al. | Finite-state transducer based modeling of morphosyntax with applications to Hungarian LVCSR | |
US7020606B1 (en) | Voice recognition using a grammar or N-gram procedures | |
Downey et al. | A decision tree approach to task-independent speech recognition | |
Schwartz et al. | Some further comments on reduplication in child phonology | |
Pradhan | The dream of a common language | |
JP7274901B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20030313 Year of fee payment: 4 |
|
LAPS | Lapse due to unpaid annual fee |