KR100677197B1 - 음성 인식 기술 방법 - Google Patents

음성 인식 기술 방법 Download PDF

Info

Publication number
KR100677197B1
KR100677197B1 KR1020000003693A KR20000003693A KR100677197B1 KR 100677197 B1 KR100677197 B1 KR 100677197B1 KR 1020000003693 A KR1020000003693 A KR 1020000003693A KR 20000003693 A KR20000003693 A KR 20000003693A KR 100677197 B1 KR100677197 B1 KR 100677197B1
Authority
KR
South Korea
Prior art keywords
word
corrected
words
misrecognition
input
Prior art date
Application number
KR1020000003693A
Other languages
English (en)
Other versions
KR20010076507A (ko
Inventor
이윤근
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020000003693A priority Critical patent/KR100677197B1/ko
Publication of KR20010076507A publication Critical patent/KR20010076507A/ko
Application granted granted Critical
Publication of KR100677197B1 publication Critical patent/KR100677197B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 음성 인식 기술 방법에 관한 것으로, 종래의 음성 인식 기능이 적용된 워드 프로세서를 이용하여 문서를 작성할 경우 음성을 이용하여 입력한 문서에서 오인식 된 단어가 발생하게 될 경우 사용자는 그 오인식된 모든 단어를 다른 입력 수단(예를 들어, 키보드 또는 키패드 등)을 이용하여 하나하나 수정하게 되는데, 이에 따라 오인식된 단어가 많을 경우 사용자는 이를 수정하는데 오히려 입력 시간 보다 더 많은 시간을 소요하게 되는 문제점이 있었다. 따라서, 본 발명은 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와; 상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와; 상기 수정된 언어 모델을 적용하여 상기 입력 문장(S)에서 상기 수정된 단어 이후의 문장부터 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때까지 반복 수행하는 제3단계를 포함하여 이루어짐으로써 오인식 단어 수정에 의해 변화되는 언어모델을 디코딩에 적용함으로써, 수정 작업이 진행될수록 남아 있는 단어들이 자동으로 수정되어 오인식 결과가 초기 결과에 비해 줄어들게 되므로 수정 작업에 소요되는 노력과 시간을 절감시킬 수 있는 효과가 있다.

Description

음성 인식 기술 방법{VOICE RECOGNIZING DICTATION METHOD}
도1은 종래의 일반적인 음성 인식 기술 장치의 개략적인 구성을 보인 블록도.
도2는 본 발명에 의한 오인식 단어 수정 과정을 보인 순서도.
도3은 본 발명에 의한 오인식 단어 수정예를 설명하기 위한 예시도.
본 발명은 음성 인식 기술(技術)에 관한 것으로, 특히 오인식 된 음성 인식 결과를 쉽게 수정할 수 있도록 하는 음성 인식 기술(記述) 방법에 관한 것이다.
최근, 음성 인식 기술(技術)이 발전하면서 음성 인식 기능을 채용한 다양한 기기들이 출시되고 있는데, 그 대표적인 방법의 예로 현재 국내에서 주로 사용되고 있는 고립 음성 인식 알고리즘과 국외 선진국에서 주로 사용하는 방법으로 연속 음성 인식 알고리즘이 있으며, 워드 프로세서의 음성 입력 방법으로 이미 상용화되어 있는 상황이다.
이와 같이, 음성 인식에 의한 문서 입력 기능은 워드 프로세서 뿐만 아니라 PDA 등의 단말기 및 전자수첩, 기타 여러 가지 정보 시스템에 다양하게 적용될 수 있는데 특히, 연속 음성 인식 알고리즘은 단어 인식 알고리즘과는 달리 음성 신호의 음향학적 특성 뿐만 아니라, 각 단어(또는 형태소 등 기타단위 : 이하 '단어'라고 칭함)의 결합 확률 모델(언어모델)에 의해 음성 인식의 효율성을 높일 수 있는 특징이 있다.
즉, 하나의 문장에 포함된 각 단어의 인식 결과가 주변 단어의 인식 결과에도 영향을 미치게 되는 것으로 만약, 한 단어가 오인식 되면 주변 단어가 오인식이 될 확률도 높아지고, 반대로 대상 단어의 주변 단어가 정확하게 인식될 경우 대상 단어의 음향학적 특성이 다소 정확하지 않더라도 올바로 인식될 수 있게 되는 것으로, 본 발명은 상기와 같은 특성을 이용한 것이다.
그런데, 종래의 음성 인식 기능이 적용된 워드 프로세서를 이용하여 문서를 작성할 경우 음성을 이용하여 입력한 문서에서 오인식 된 단어가 발생하게 될 경우 사용자는 그 오인식된 모든 단어를 다른 입력 수단(예를 들어, 키보드 또는 키패드 등)을 이용하여 하나하나 수정하게 된다.
이에 따라, 오인식된 단어가 많을 경우 사용자는 이를 수정하는데 오히려 입력 시간 보다 더 많은 시간을 소요하게 되는 문제점이 있었다.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 창출한 것으로, 사용자가 음성 인식에 의해 입력된 문서를 수정해 나감에 따라 상기 수정된 단어에 의한 언어 모델을 연속된 단어에 재 적용하여 디코딩함으로써 자동 수정이 될 수 있도록 하는 음성 인식 기술 방법을 제공함에 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명은, 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와; 상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와; 상기 수정된 언어 모델을 적용하여 상기 입력 문장(S)에서 상기 수정된 단어 이후의 문장부터 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때 까지 반복 수행하는 제3단계를 포함하여 이루어진 것을 특징으로 한다.
이하, 본 발명에 따른 일실시예를 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
일단, 도1은 종래의 일반적인 음성 인식 기술(記述) 장치의 개략적인 구성을 보인 블록도로서, 이에 도시한 바와 같이 화자의 음성을 입력받는 음성 입력부(1)와; 상기 음성 입력부(1)를 통해 입력받은 음성을 에이디 변환하는 에이디 변환부(2)와; 상기 에이디 변환된 음성 신호에서 특징 파라메터를 추출하여, 메모리(3)에 기 등록되어 있는 특징 파라메터를 참조하여 입력 단어를 인식하는 중앙처리부(4)와; 상기 인식된 단어를 모니터 또는 프린터를 통해 출력시키는 출력부(5)와; 사용자에 의해 오인식된 단어를 수정할 수 있도록 하는 키입력부(6)로 구성된다.
따라서, 종래에는 상기와 같이 구성된 음성 인식 기술 장치에서 오인식에 의한 잘못된 단어가 출력될 경우, 사용자에 의해 일일이 오인식 단어를 수정하였으나 본 발명에서는 오인식 단어 하나를 수정함에 의해 그 주변의 단어들이 연속적으로 재 인식되어 자동 수정될 수 있게 한 것으로 먼저, 음성 인식 기술 장치는 음성 인식 기술 모드와 오인식 단어 수정 모드로 이루어져 있으며, 그 중 도2에 도시한 바와 같이 본 발명에 의한 오인식 단어 수정 과정을 보인 순서도를 참조하여 보다 구체적으로 설명한다.
일단, 사용자는 오인식 수정모드를 설정하면 N개의 단어로 이루어진 입력 문장(S)에서 첫 번째 단어(W(k),k=1)부터 순차적으로 정확하게 입력되었는지를 검토하게 된다.
이에 따라, 첫 번째 단어(W(k),k=1)가 정확하게 입력되었을 경우는 다음 단어를 검사하고, 올바르게 입력되지 않았을 경우는 그 단어(W(k))를 수정 해 주게 된다.
상기와 같이 어느 한 단어(W(k))를 수정하게 되면 그에 따라 자동으로 상기 단어(W(k))가 포함된 문장(S)을 상기 단어(W(k))의 뒷 단어부터 다시 디코딩하여 문장을 수정하고, 상기 문장(S)에 포함된 모든 단어(W(N))가 검토되면 수정을 완료하게 된다.
즉, 도3은 본 발명에 의한 오인식 단어 수정예를 설명하기 위한 예시도로서, 이에 도시한 바와 같이 사용자가 "서울 지방의 내일 날씨입니다."라는 문장을 음성 인식 시켰을 경우 실제 음성 인식 기술 장치의 인식 결과가 "서울 지방의 라일락 씨입니다 ."로 되었다고 했을 때, 사용자가 " 라일락 "을 올바른 단어인 "내일"로 수정하게 되면 그 뒷부분의 단어는 디코딩 과정에 의해 자동으로 "날씨입니다."로 수정되는 것이다.
이때, 상기 입력문장(S)은 문장이 완료되지 않은 형태 또는 여러 문장의 경우도 가능하며, 검토되는 단어는 형태소 등의 단위가 가능하다.
이상에서 설명한 바와 같이 본 발명 음성 인식 기술 방법은 오인식 단어 수정에 의해 변화되는 언어모델을 디코딩에 적용함으로써, 수정 작업이 진행될수록 남아 있는 단어들이 자동으로 수정되어 오인식 결과가 초기 결과에 비해 줄어들게 되므로 수정 작업에 소요되는 노력과 시간을 절감시킬 수 있는 효과가 있다.

Claims (4)

  1. 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와;
    상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와;
    상기 수정된 언어 모델을 적용하여 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때까지 반복 수행하는 제3단계를 포함하여 이루어진 것을 특징으로 하는 음성 인식 기술 방법.
  2. 제1항에 있어서, 상기 디코딩 과정은 수정된 단어(W(k)의 다음 단어(W(k+1))부터 수행되는 것을 특징으로 하는 음성 인식 기술 방법.
  3. 제1항에 있어서, 상기 입력 문장은 완료되지 않은 형태 및 여러 문장이 포함된 형태를 모두 포함하는 것을 특징으로 하는 음성 인식 기술 방법.
  4. 제1항 또는 제2항에 있어서, 상기 디코딩에 의해 수정되는 단위는 단어 및 형태소 등의 기타 단위로 가변할 수 있는 것을 특징으로 하는 음성 인식 기술 방법.
KR1020000003693A 2000-01-26 2000-01-26 음성 인식 기술 방법 KR100677197B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020000003693A KR100677197B1 (ko) 2000-01-26 2000-01-26 음성 인식 기술 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020000003693A KR100677197B1 (ko) 2000-01-26 2000-01-26 음성 인식 기술 방법

Publications (2)

Publication Number Publication Date
KR20010076507A KR20010076507A (ko) 2001-08-16
KR100677197B1 true KR100677197B1 (ko) 2007-02-05

Family

ID=19641617

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020000003693A KR100677197B1 (ko) 2000-01-26 2000-01-26 음성 인식 기술 방법

Country Status (1)

Country Link
KR (1) KR100677197B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5791904A (en) * 1992-11-04 1998-08-11 The Secretary Of State For Defence In Her Britannic Majesty's Government Of The United Kingdom Of Great Britain And Northern Ireland Speech training aid
KR20000005278A (ko) * 1996-05-03 2000-01-25 내쉬 로저 윌리엄 자동 음성인식 방법 및 장치_

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5791904A (en) * 1992-11-04 1998-08-11 The Secretary Of State For Defence In Her Britannic Majesty's Government Of The United Kingdom Of Great Britain And Northern Ireland Speech training aid
KR20000005278A (ko) * 1996-05-03 2000-01-25 내쉬 로저 윌리엄 자동 음성인식 방법 및 장치_

Also Published As

Publication number Publication date
KR20010076507A (ko) 2001-08-16

Similar Documents

Publication Publication Date Title
US9697201B2 (en) Adapting machine translation data using damaging channel model
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
US7181388B2 (en) Method for compressing dictionary data
KR20220035222A (ko) 음성 인식 오류 정정 방법, 관련 디바이스들, 및 판독 가능 저장 매체
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
WO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
US6801891B2 (en) Speech processing system
JP2007041319A (ja) 音声認識装置および音声認識方法
CN109584906B (zh) 口语发音评测方法、装置、设备及存储设备
US20150179169A1 (en) Speech Recognition By Post Processing Using Phonetic and Semantic Information
US20240135089A1 (en) Text error correction method, system, device, and storage medium
CN111985234A (zh) 语音文本纠错方法
KR20160061071A (ko) 발음 변이를 적용시킨 음성 인식 방법
KR100639931B1 (ko) 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법
JP2002358097A (ja) 音声認識装置
KR100677197B1 (ko) 음성 인식 기술 방법
US6772116B2 (en) Method of decoding telegraphic speech
RU2597498C1 (ru) Способ распознавания речи на основе двухуровневого морфофонемного префиксного графа
US7865363B2 (en) System and method for computer recognition and interpretation of arbitrary spoken-characters
EP3718107B1 (en) Speech signal processing and evaluation
CN112712793A (zh) 语音交互下基于预训练模型的asr纠错方法及相关设备
JP2966002B2 (ja) 音声認識装置
JP2001236091A (ja) 音声認識結果の誤り訂正方法およびその装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP2001013992A (ja) 音声理解装置

Legal Events

Date Code Title Description
N231 Notification of change of applicant
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee