KR100677197B1 - 음성 인식 기술 방법 - Google Patents
음성 인식 기술 방법 Download PDFInfo
- Publication number
- KR100677197B1 KR100677197B1 KR1020000003693A KR20000003693A KR100677197B1 KR 100677197 B1 KR100677197 B1 KR 100677197B1 KR 1020000003693 A KR1020000003693 A KR 1020000003693A KR 20000003693 A KR20000003693 A KR 20000003693A KR 100677197 B1 KR100677197 B1 KR 100677197B1
- Authority
- KR
- South Korea
- Prior art keywords
- word
- corrected
- words
- misrecognition
- input
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000012937 correction Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 2
- 244000297179 Syringa vulgaris Species 0.000 description 1
- 235000004338 Syringa vulgaris Nutrition 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 음성 인식 기술 방법에 관한 것으로, 종래의 음성 인식 기능이 적용된 워드 프로세서를 이용하여 문서를 작성할 경우 음성을 이용하여 입력한 문서에서 오인식 된 단어가 발생하게 될 경우 사용자는 그 오인식된 모든 단어를 다른 입력 수단(예를 들어, 키보드 또는 키패드 등)을 이용하여 하나하나 수정하게 되는데, 이에 따라 오인식된 단어가 많을 경우 사용자는 이를 수정하는데 오히려 입력 시간 보다 더 많은 시간을 소요하게 되는 문제점이 있었다. 따라서, 본 발명은 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와; 상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와; 상기 수정된 언어 모델을 적용하여 상기 입력 문장(S)에서 상기 수정된 단어 이후의 문장부터 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때까지 반복 수행하는 제3단계를 포함하여 이루어짐으로써 오인식 단어 수정에 의해 변화되는 언어모델을 디코딩에 적용함으로써, 수정 작업이 진행될수록 남아 있는 단어들이 자동으로 수정되어 오인식 결과가 초기 결과에 비해 줄어들게 되므로 수정 작업에 소요되는 노력과 시간을 절감시킬 수 있는 효과가 있다.
Description
도1은 종래의 일반적인 음성 인식 기술 장치의 개략적인 구성을 보인 블록도.
도2는 본 발명에 의한 오인식 단어 수정 과정을 보인 순서도.
도3은 본 발명에 의한 오인식 단어 수정예를 설명하기 위한 예시도.
본 발명은 음성 인식 기술(技術)에 관한 것으로, 특히 오인식 된 음성 인식 결과를 쉽게 수정할 수 있도록 하는 음성 인식 기술(記述) 방법에 관한 것이다.
최근, 음성 인식 기술(技術)이 발전하면서 음성 인식 기능을 채용한 다양한 기기들이 출시되고 있는데, 그 대표적인 방법의 예로 현재 국내에서 주로 사용되고 있는 고립 음성 인식 알고리즘과 국외 선진국에서 주로 사용하는 방법으로 연속 음성 인식 알고리즘이 있으며, 워드 프로세서의 음성 입력 방법으로 이미 상용화되어 있는 상황이다.
이와 같이, 음성 인식에 의한 문서 입력 기능은 워드 프로세서 뿐만 아니라 PDA 등의 단말기 및 전자수첩, 기타 여러 가지 정보 시스템에 다양하게 적용될 수 있는데 특히, 연속 음성 인식 알고리즘은 단어 인식 알고리즘과는 달리 음성 신호의 음향학적 특성 뿐만 아니라, 각 단어(또는 형태소 등 기타단위 : 이하 '단어'라고 칭함)의 결합 확률 모델(언어모델)에 의해 음성 인식의 효율성을 높일 수 있는 특징이 있다.
즉, 하나의 문장에 포함된 각 단어의 인식 결과가 주변 단어의 인식 결과에도 영향을 미치게 되는 것으로 만약, 한 단어가 오인식 되면 주변 단어가 오인식이 될 확률도 높아지고, 반대로 대상 단어의 주변 단어가 정확하게 인식될 경우 대상 단어의 음향학적 특성이 다소 정확하지 않더라도 올바로 인식될 수 있게 되는 것으로, 본 발명은 상기와 같은 특성을 이용한 것이다.
그런데, 종래의 음성 인식 기능이 적용된 워드 프로세서를 이용하여 문서를 작성할 경우 음성을 이용하여 입력한 문서에서 오인식 된 단어가 발생하게 될 경우 사용자는 그 오인식된 모든 단어를 다른 입력 수단(예를 들어, 키보드 또는 키패드 등)을 이용하여 하나하나 수정하게 된다.
이에 따라, 오인식된 단어가 많을 경우 사용자는 이를 수정하는데 오히려 입력 시간 보다 더 많은 시간을 소요하게 되는 문제점이 있었다.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 창출한 것으로, 사용자가 음성 인식에 의해 입력된 문서를 수정해 나감에 따라 상기 수정된 단어에 의한 언어 모델을 연속된 단어에 재 적용하여 디코딩함으로써 자동 수정이 될 수 있도록 하는 음성 인식 기술 방법을 제공함에 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은, 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와; 상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와; 상기 수정된 언어 모델을 적용하여 상기 입력 문장(S)에서 상기 수정된 단어 이후의 문장부터 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때 까지 반복 수행하는 제3단계를 포함하여 이루어진 것을 특징으로 한다.
이하, 본 발명에 따른 일실시예를 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
일단, 도1은 종래의 일반적인 음성 인식 기술(記述) 장치의 개략적인 구성을 보인 블록도로서, 이에 도시한 바와 같이 화자의 음성을 입력받는 음성 입력부(1)와; 상기 음성 입력부(1)를 통해 입력받은 음성을 에이디 변환하는 에이디 변환부(2)와; 상기 에이디 변환된 음성 신호에서 특징 파라메터를 추출하여, 메모리(3)에 기 등록되어 있는 특징 파라메터를 참조하여 입력 단어를 인식하는 중앙처리부(4)와; 상기 인식된 단어를 모니터 또는 프린터를 통해 출력시키는 출력부(5)와; 사용자에 의해 오인식된 단어를 수정할 수 있도록 하는 키입력부(6)로 구성된다.
따라서, 종래에는 상기와 같이 구성된 음성 인식 기술 장치에서 오인식에 의한 잘못된 단어가 출력될 경우, 사용자에 의해 일일이 오인식 단어를 수정하였으나 본 발명에서는 오인식 단어 하나를 수정함에 의해 그 주변의 단어들이 연속적으로 재 인식되어 자동 수정될 수 있게 한 것으로 먼저, 음성 인식 기술 장치는 음성 인식 기술 모드와 오인식 단어 수정 모드로 이루어져 있으며, 그 중 도2에 도시한 바와 같이 본 발명에 의한 오인식 단어 수정 과정을 보인 순서도를 참조하여 보다 구체적으로 설명한다.
일단, 사용자는 오인식 수정모드를 설정하면 N개의 단어로 이루어진 입력 문장(S)에서 첫 번째 단어(W(k),k=1)부터 순차적으로 정확하게 입력되었는지를 검토하게 된다.
이에 따라, 첫 번째 단어(W(k),k=1)가 정확하게 입력되었을 경우는 다음 단어를 검사하고, 올바르게 입력되지 않았을 경우는 그 단어(W(k))를 수정 해 주게 된다.
상기와 같이 어느 한 단어(W(k))를 수정하게 되면 그에 따라 자동으로 상기 단어(W(k))가 포함된 문장(S)을 상기 단어(W(k))의 뒷 단어부터 다시 디코딩하여 문장을 수정하고, 상기 문장(S)에 포함된 모든 단어(W(N))가 검토되면 수정을 완료하게 된다.
즉, 도3은 본 발명에 의한 오인식 단어 수정예를 설명하기 위한 예시도로서, 이에 도시한 바와 같이 사용자가 "서울 지방의 내일 날씨입니다."라는 문장을 음성 인식 시켰을 경우 실제 음성 인식 기술 장치의 인식 결과가 "서울 지방의 라일락
씨입니다 ."로 되었다고 했을 때, 사용자가 " 라일락 "을 올바른 단어인 "내일"로 수정하게 되면 그 뒷부분의 단어는 디코딩 과정에 의해 자동으로 "날씨입니다."로 수정되는 것이다.
이때, 상기 입력문장(S)은 문장이 완료되지 않은 형태 또는 여러 문장의 경우도 가능하며, 검토되는 단어는 형태소 등의 단위가 가능하다.
이상에서 설명한 바와 같이 본 발명 음성 인식 기술 방법은 오인식 단어 수정에 의해 변화되는 언어모델을 디코딩에 적용함으로써, 수정 작업이 진행될수록 남아 있는 단어들이 자동으로 수정되어 오인식 결과가 초기 결과에 비해 줄어들게 되므로 수정 작업에 소요되는 노력과 시간을 절감시킬 수 있는 효과가 있다.
Claims (4)
- 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와;상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와;상기 수정된 언어 모델을 적용하여 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때까지 반복 수행하는 제3단계를 포함하여 이루어진 것을 특징으로 하는 음성 인식 기술 방법.
- 제1항에 있어서, 상기 디코딩 과정은 수정된 단어(W(k)의 다음 단어(W(k+1))부터 수행되는 것을 특징으로 하는 음성 인식 기술 방법.
- 제1항에 있어서, 상기 입력 문장은 완료되지 않은 형태 및 여러 문장이 포함된 형태를 모두 포함하는 것을 특징으로 하는 음성 인식 기술 방법.
- 제1항 또는 제2항에 있어서, 상기 디코딩에 의해 수정되는 단위는 단어 및 형태소 등의 기타 단위로 가변할 수 있는 것을 특징으로 하는 음성 인식 기술 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000003693A KR100677197B1 (ko) | 2000-01-26 | 2000-01-26 | 음성 인식 기술 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020000003693A KR100677197B1 (ko) | 2000-01-26 | 2000-01-26 | 음성 인식 기술 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20010076507A KR20010076507A (ko) | 2001-08-16 |
KR100677197B1 true KR100677197B1 (ko) | 2007-02-05 |
Family
ID=19641617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020000003693A KR100677197B1 (ko) | 2000-01-26 | 2000-01-26 | 음성 인식 기술 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100677197B1 (ko) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5791904A (en) * | 1992-11-04 | 1998-08-11 | The Secretary Of State For Defence In Her Britannic Majesty's Government Of The United Kingdom Of Great Britain And Northern Ireland | Speech training aid |
KR20000005278A (ko) * | 1996-05-03 | 2000-01-25 | 내쉬 로저 윌리엄 | 자동 음성인식 방법 및 장치_ |
-
2000
- 2000-01-26 KR KR1020000003693A patent/KR100677197B1/ko not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5791904A (en) * | 1992-11-04 | 1998-08-11 | The Secretary Of State For Defence In Her Britannic Majesty's Government Of The United Kingdom Of Great Britain And Northern Ireland | Speech training aid |
KR20000005278A (ko) * | 1996-05-03 | 2000-01-25 | 내쉬 로저 윌리엄 | 자동 음성인식 방법 및 장치_ |
Also Published As
Publication number | Publication date |
---|---|
KR20010076507A (ko) | 2001-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9697201B2 (en) | Adapting machine translation data using damaging channel model | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
US7181388B2 (en) | Method for compressing dictionary data | |
KR20220035222A (ko) | 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체 | |
KR101590724B1 (ko) | 음성 인식 오류 수정 방법 및 이를 수행하는 장치 | |
WO2017061027A1 (ja) | 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム | |
US6801891B2 (en) | Speech processing system | |
JP2007041319A (ja) | 音声認識装置および音声認識方法 | |
CN109584906B (zh) | 口语发音评测方法、装置、设备及存储设备 | |
US20150179169A1 (en) | Speech Recognition By Post Processing Using Phonetic and Semantic Information | |
US20240135089A1 (en) | Text error correction method, system, device, and storage medium | |
CN111985234A (zh) | 语音文本纠错方法 | |
KR20160061071A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
KR100639931B1 (ko) | 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법 | |
JP2002358097A (ja) | 音声認識装置 | |
KR100677197B1 (ko) | 음성 인식 기술 방법 | |
US6772116B2 (en) | Method of decoding telegraphic speech | |
RU2597498C1 (ru) | Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа | |
US7865363B2 (en) | System and method for computer recognition and interpretation of arbitrary spoken-characters | |
EP3718107B1 (en) | Speech signal processing and evaluation | |
CN112712793A (zh) | 语音交互下基于预训练模型的asr纠错方法及相关设备 | |
JP2966002B2 (ja) | 音声認識装置 | |
JP2001236091A (ja) | 音声認識結果の誤り訂正方法およびその装置 | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
JP2001013992A (ja) | 音声理解装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
N231 | Notification of change of applicant | ||
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |