KR20040008546A - 연속 음성인식 기기의 오인식 수정 방법 - Google Patents

연속 음성인식 기기의 오인식 수정 방법 Download PDF

Info

Publication number
KR20040008546A
KR20040008546A KR1020020042186A KR20020042186A KR20040008546A KR 20040008546 A KR20040008546 A KR 20040008546A KR 1020020042186 A KR1020020042186 A KR 1020020042186A KR 20020042186 A KR20020042186 A KR 20020042186A KR 20040008546 A KR20040008546 A KR 20040008546A
Authority
KR
South Korea
Prior art keywords
word
result
words
misrecognition
recognition
Prior art date
Application number
KR1020020042186A
Other languages
English (en)
Inventor
김훈
Original Assignee
엘지전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엘지전자 주식회사 filed Critical 엘지전자 주식회사
Priority to KR1020020042186A priority Critical patent/KR20040008546A/ko
Publication of KR20040008546A publication Critical patent/KR20040008546A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명은 연속 음성인식을 이용한 기기에 관한 것으로 특히, 틀리게 인식된 음성 인식 결과를 쉽게 수정할 수 있도록 한 방법에 관한 것으로, 인식할 문장을 입력하는 단계와, 인식결과를 출력하는 단계와, 오인식된 단어를 선택하는 단계와, 상기 선택된 오인식단어를 수정할 후보단어(N-Best)를 디스플레이하는 단계와, 상기 디스플레이된 후보단어(N-Best)중에서 수정할 단어를 선택하는 단계와, 선택한 후보단어로 오인식단어를 수정하는 단계와, 수정된 결과에 따른 언어모델을 적용하여 후속 단어를 자동으로 수정하는 단계로 이루어지는 것을 특징으로 하며, 인식에 오류가 있더라고 두번째 세번째 등의 높은 확률을 갖는 N-Best 후보까지 고려하므로써 오인식 단어에 대한 N-Best 결과를 선택할 수 있도록 하고 언어모델을 다시 적용함으로써 주변 결과들을 자동으로 수정하여 사용자의 오인식 수정에 필요한 시간과 노력을 줄여줌으로써 연속 음성 인식 기기의 사용상에 편리함을 주는 효과가 있는 것이다.

Description

연속 음성인식 기기의 오인식 수정 방법 { revision method of continuation voice recognition system }
본 발명은 연속 음성인식을 이용한 기기에 관한 것으로 특히, 틀리게 인식된 음성 인식 결과를 쉽게 수정할 수 있도록 한 방법에 관한 것이다.
일반적인 연속 음성 인식 기능은 워드프로세서(Dictation) 뿐만이 아니라 PDA등의 단말기, 전자 수첩, 기타 여러가지 정보 시스템의 문서 입력 기능으로 사용될 수 있다. 연속 음성 인식 알고리즘은 단어 인식 알고리즘 과는 달리 음성 신호의 음향학적 특성 뿐만 아니라 각 인식단위(단어, 형태소 음절등 : 앞으로는 '단어'라고 칭함)들이 어떤 결합확률을 갖는가에 대한 언어모델에 의해 음성 인식의 효율성을 높인다.
연속 음성 인식기는 음향학적 모델과 언어모델을 결합하여 가장 높은 확률을 갖는 단어들을 선택하여 출력하는데 이 결과에 오류가 있더라고 두번째 세번째 등의 높은 확률을 갖는 N-Best 후보까지 고려하면 거의 대부분 원하는 결과가 N-Best에는 포함되어 있다.
음성인식의 경우 언어모델을 사용하므로 하나의 문장에 포함된 각각의 단어의 인식 결과는 주변 단어의 인식 결과에 영향을 미치게 된다. 즉 한 단어가 오인식 되면 주변 단어에 영향을 미쳐 음향학적 특성이 오인식 단어에 비해 정확하더라도 오인식이 될 확률이 높아지고 반대로 대상 단어의 주변 단어가 정확하게 인식 될 경우 대상 단어의 음향학적 특성이 다소 정확하지 않더라도 올바로 인식 될 수 있다. 음성 인식을 이용하여 문서를 작성하면서 오인식 된 단어가 발생하게 되면 사용자는 오인식 된 단어를 키보드나 키패드 등의 다른 입력수단을 이용하여 직접 타이핑해야 한다. 이렇게 오인식 결과를 수정할 경우 시간이 많이 소요되고 사용자가 불편을 느끼게 된다.
따라서 사용자가 오인식 결과를 직접 타이핑하여 수정하는 불편함을 줄여쉽게 오인식 결과를 수정하기 위해 N-Best후보를 선택하게 하고 이렇게 수정된 결과가 언어모델에 의해 주변단어까지 순차적으로 수정되도록 함으로써 사용자가 손쉽게 오인식 결과를 수정할 수 있는 것이다.
이러한 본말명의 목적을 이루기 위한 특징을 살펴보면 다음과 같다.
본 발명의 제 1 특징에 따르면 연속 음성 인식 기기는 음성 인식 모드과 오인식 수정 모드로 이루어지는 것을 특징으로 한다. 본 발명의 제 2 특징에 따르면, 제 1 특징의 음성 인식 모드에서는 음성 입력에 의해 문서를 작성하며 제 1 특징의 오인식 수정 모드에서는 작성된 문서의 오인식 단어를 선택하면 그 단어에 대한 N-best 결과를 보여주고 그 중에서 선택할 수 있도록 하는 것을 특징으로 한다.
본 발명의 제3특징에 따르면 수정모드의 N-Best 결과선택은 음성이나 키보드, 마우스, 키패드 등을 이용하는 것을 특징으로 하며, 본 발명의 제 4 특징에 따르면, 제 1 특징의 오인식 수정 모드는 음성 인식에서 사용하는 언어모델을 이용한다. 본 발명의 제 5 특징에 따르면, 제 1 특징의 오인식 수정 모드는 사용자가 음성 인식에 의해 입력된 문서를 수정해 나감에 따라 주변 단어의 인식 결과를 자동 수정해 주는 기능을 갖으며, 본 발명의 제 6 특징에 따르면, 제5 특징의 주변 단어 수정 기능은 수정된 단어에 의한 언어 모델을 재적용하여 주변단어 까지 수정함으로써 수정이 필요한 횟수를 줄이고 인식률을 향상시키는 것을 특징으로 한다.
본 발명의 다른 목적이나 특징은 이하 설명하는 바람직한 실시예에 의해서명백히 들어날 것이다.
도1은 일반적인 연속 음성인식 시스템의 구성도
도2는 본 발명의 오인식 수정과정을 나타낸 동작 플로우챠트
도3은 본 발명 실제 적용 사례를 설명한 도면임
********* 도면 주요 부분에 대한 부호의 설명 ********
10 : 특징 추출부 20 : 탐색부
30 : 후 처리부 40 : 음향모델 데이터베이스
50 : 발음사전 데이터베이스 60 : 언어모델 데이터베이스
이와같은 본 발명의 바람직한 실시예에 대하여 설명하면 다음과 같다.
도1은 일반적인 연속 음성인식 시스템의 구성 예시도로서 그 동작을 설명하면 다음과 같다. 입력된 음성은 특징 추출부(10)에서 인식에 필요한 정보만을 추출한 특징 벡터로 변환되고, 상기 특징 벡터로 부터 탐색부(20)에서 학습과정에서 미리 구해진 음향 모델 데이터베이스(40)와 발명 사전 데이터베이스(50), 언어 모델 데이터베이스(60)를 이용하여 가장 확률이 높은 단어열을 찾게 된다. 이때 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(20)에서 이러한 트리를 탐색하게 된다. 그 다음으로 후처리부 (30)에서는 탐색 결과로 부터 잡음 기호등을 제거하고, 음절단위로 모아쓰기를 하여 최종 인식 결과출력하는 것이다. 이러한 연속음성인식 시스템의 본 발명의 동작 이해를 돕기 위하여 설명한 것으로, 그 구성은 본 발명에서 그대로 적용될 수 있으며, 필요에 따라 어떠한 변경도 가능하다.
도2는 본 발명의 오식식 수정방법을 나타낸 것으로본 발명의 동작을 도2를 참조하여 보다 상세히 설명하면 다음과 같다.
먼저 사용자가 인식할 음성을 입력한다(S1). 그러면 도1과 같은 음성인식 시스템에서 음성을 인식하여 인식 결과를 출력하게된다(S2). 사용자는 출력된 음성인식 결과를 보고 오인식된 단어를 선택하게 된다(S3). 여기서 오인식된 단어를 선택하는 것은 PC의 경우 마우스를 해당 단어에 가져가던지, 키보드나 키패드 또는 음성으로 선택할 수 있으며 사용자의 어떠한 방법의 선택도 본 발명에서 동일하게 적용될 수 있다. 사용자가 오인식 단어를 선택하게 되면 음성인식 시스템에서 미리 저장되어진 N-Best 후보 단어를 사용자에게 보여주게 된다(S4). 시스템에서 N-Best 후보 단어를 사용자에게 보여주는 방법은 모니터에 디스플레이하거나, 음성을 통하여 N-Best 후보 단어를 사용자에게 들려줄 수 있다. 사용자는 음성인식 시스템이 사용자에게 보여주는 N-Best 후보 단어중에서 원하는 결과를 선택하도록 한다(S5). 이때 N-Best 후보 단어중에 원하는 단어가 없을 경우 사용자가 직접 입력하게 할 수도 있다. 음성인식 시스템은 사용자가 선택 또는 입력하는 N-Best 후보 단어로 오인식 결과를 수정하며(S6), 수정된 단어 이후의 결과들에 대해서는 수정 결과를 포함하여 언어모델을 다시 적용하여 오인식 부분이 자동으로 수정되도록 한다(S7)
도3은 본 발명이 적용된 실제 예를 보여주는 도면으로 "이와 같은 주문은 들어본 적이 없었다." 라는 인식할 문장을 입력하였을 경우(S11), 시스템에서 "이와 같은 트럭은 전혀 없었다" 라고 '들어본'과 '적이'를 '트럭은'과 '전혀'로 오식식한 결과를 보여주고 있다(S12). 사용자는 (S12)의 오인식 결과에서 '트럭은'이라는 오인식 단어를 선택하게 되고 시스템에서는 '트럭은'에 해당되는 N-Best 후보 단어를 사용자에게 출력하고, 사용자는 N-Best 후보 단어중에서 '들어본'을 선택하게 되는 것이다. 이때 원하는 후보 단어가 없을 경우 사용자가 직접 '들어본'을 입력할 수도 있다. 그러면 음성인식 시스템에서 '트럭은'을 '들어본'으로 수정하게 되고(S13), 그 뒷단에 있는 오인식 단어 '전혀'는 수정결과에 따른 언어모델을 적용하므로 '적이'로 자동으로 수정되게 되는 것이다(S14).
이와같이 하여 사용자는 원하는 인식결과를 얻을 수 있는 것이다.
이상에서와 같이 본 발명을 적용한 연속 음성인식 기기의 오인식 수정 방법은 연속 음성 인식 기기의 오인식 결과를 수정함에 있어서, 음향학적 모델과 언어모델을 결합하여 가장 높은 확률을 갖는 단어들을 선택하여 출력하는데 이 결과에 오류가 있더라고 두번째 세번째 등의 높은 확률을 갖는 N-Best 후보까지 고려하므로써 오인식 단어에 대한 N-Best 결과를 선택할 수 있도록 하고 언어모델을 다시 적용함으로써 주변 결과들을 자동으로 수정하여 사용자의 오인식 수정에 필요한 시간과 노력을 줄여줌으로써 연속 음성 인식 기기의 사용상에 편리함을 주는데 있다.

Claims (2)

  1. 인식할 문장을 입력하는 단계와, 인식결과를 출력하는 단계와, 오인식된 단어를 선택하는 단계와, 상기 선택된 오인식단어를 수정할 후보단어(N-Best)를 디스플레이하는 단계와, 상기 디스플레이된 후보단어(N-Best)중에서 수정할 단어를 선택하는 단계와, 선택한 후보단어로 오인식단어를 수정하는 단계와, 수정된 결과에 따른 언어모델을 적용하여 후속 단어를 자동으로 수정하는 단계로 이루어지는 것을 특징으로 하는 연속 음성인식기기의 오인식 수정 방법.
  2. 제1항에 있어서, 상기 후보단어(N-Best)는 선택된 오인식 단어에 대하여 다음으로 높은 확율을 갖는 복수개의 단어들인것을 특징으로 하는 연속 음성인식기기의 오인식 수정 방법.
KR1020020042186A 2002-07-18 2002-07-18 연속 음성인식 기기의 오인식 수정 방법 KR20040008546A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020020042186A KR20040008546A (ko) 2002-07-18 2002-07-18 연속 음성인식 기기의 오인식 수정 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020020042186A KR20040008546A (ko) 2002-07-18 2002-07-18 연속 음성인식 기기의 오인식 수정 방법

Publications (1)

Publication Number Publication Date
KR20040008546A true KR20040008546A (ko) 2004-01-31

Family

ID=37317587

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020020042186A KR20040008546A (ko) 2002-07-18 2002-07-18 연속 음성인식 기기의 오인식 수정 방법

Country Status (1)

Country Link
KR (1) KR20040008546A (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848148B1 (ko) * 2007-02-20 2008-07-28 고려대학교 산학협력단 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100848148B1 (ko) * 2007-02-20 2008-07-28 고려대학교 산학협력단 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
KR101462932B1 (ko) * 2008-05-28 2014-12-04 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US8543394B2 (en) 2008-06-09 2013-09-24 Lg Electronics Inc. Mobile terminal and text correcting method in the same
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
US9002708B2 (en) 2011-05-12 2015-04-07 Nhn Corporation Speech recognition system and method based on word-level candidate generation

Similar Documents

Publication Publication Date Title
US6249763B1 (en) Speech recognition apparatus and method
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6067520A (en) System and method of recognizing continuous mandarin speech utilizing chinese hidden markou models
US8126714B2 (en) Voice search device
US5787230A (en) System and method of intelligent Mandarin speech input for Chinese computers
US8346553B2 (en) Speech recognition system and method for speech recognition
US8719021B2 (en) Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
US7089188B2 (en) Method to expand inputs for word or document searching
US5712957A (en) Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US7873508B2 (en) Apparatus, method, and computer program product for supporting communication through translation between languages
US20080162137A1 (en) Speech recognition apparatus and method
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
US20070288240A1 (en) User interface for text-to-phone conversion and method for correcting the same
US5987410A (en) Method and device for recognizing speech in a spelling mode including word qualifiers
US20070016420A1 (en) Dictionary lookup for mobile devices using spelling recognition
US20050187767A1 (en) Dynamic N-best algorithm to reduce speech recognition errors
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
KR20040008546A (ko) 연속 음성인식 기기의 오인식 수정 방법
JP2009271117A (ja) 音声検索装置および音声検索方法
JP2000056795A (ja) 音声認識装置
JPH08166966A (ja) 辞書検索装置、データベース装置、文字認識装置、音声認識装置、および文章修正装置
US20050203742A1 (en) System and method for computer recognition and interpretation of arbitrary spoken-characters
KR20110017600A (ko) 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법

Legal Events

Date Code Title Description
WITN Withdrawal due to no request for examination