KR20070060491A - 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치 - Google Patents

대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치 Download PDF

Info

Publication number
KR20070060491A
KR20070060491A KR1020050119974A KR20050119974A KR20070060491A KR 20070060491 A KR20070060491 A KR 20070060491A KR 1020050119974 A KR1020050119974 A KR 1020050119974A KR 20050119974 A KR20050119974 A KR 20050119974A KR 20070060491 A KR20070060491 A KR 20070060491A
Authority
KR
South Korea
Prior art keywords
error
speech
exception
expression
corpus
Prior art date
Application number
KR1020050119974A
Other languages
English (en)
Other versions
KR100766058B1 (ko
Inventor
윤승
김상훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020050119974A priority Critical patent/KR100766058B1/ko
Publication of KR20070060491A publication Critical patent/KR20070060491A/ko
Application granted granted Critical
Publication of KR100766058B1 publication Critical patent/KR100766058B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 대화형 음성 인터페이스 시스템에서 예외 상황을 처리하는 방법 및 장치에 관한 것이다. 본 발명은 음성대화 말뭉치에서 사용자에 의한 예외 발화와 음성 인식 오류 등을 추출하고, 이들 중 예외 처리 대상을 DB 화 한 다음, 이러한 예외 상황을 해결하기 위한 예외 해소 정보와 규칙들을 작성하고, 실제 시스템에서 예외 발화가 입력되었을 경우 기 구축된 DB와 정보 및 규칙들을 이용하여 예외 상황을 처리하도록 함으로써 사용자의 만족도를 개선하고 시스템의 성능을 높이고자 한다.
대화형 음성 인터페이스 시스템, 예외상황처리, 대화모델링

Description

대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법 및 장치{method and apparatus for exceptional case handling in spoken dialog system}
도 1 은 본 발명에 따른 대화형 음성 인터페이스 장치를 나타낸 구성도
도 2 는 본 발명에 따른 대화형 음성 인터페이스 시스템에서의 예외 상황 처리부를 상세히 나타낸 구성도
도 3 은 본 발명에 따른 예외 상황 처리 방법을 나타낸 흐름도
*도면의 주요부분에 대한 부호의 설명
100 : 대화형 음성 인터페이스 장치 110 : 음성 인식부
120 : 대화 처리부 121 : 예외 상황 처리부
123 : 입력문 분석부 125 : 대화 관리부
127 : 작업 관리부 129 : 출력문 생성부
130 : 음성 합성부 200 : 음성대화 말뭉치
210 : 예외 상황 말뭉치 220 : 예외상황처리대상 DB
221 : 서비스 미지원 표현 DB 223 : 중의적 표현 DB
225 : 음성인식 오류 DB 227 : 오류판별 DB
230 : 오류해소 처리부
본 발명은 대화형 음성 인터페이스 시스템에 사용되는 음성 대화 처리 기술에 관한 것으로, 특히 대화 진행 중의 예외 상황에 대처하는 기술에 관한 것이다.
대화형 음성 인터페이스 시스템에서 예외 상황은 음성 인식 오류와 사용자의 시스템에 대한 이해 부족에 따른 인식 결과 처리 오류에서 발생하게 되며 정상적인 대화 흐름을 방해해 시스템이 본래에 이루고자 했던 목적을 달성할 수 없게 만들게 된다.
종래의 기술은 이러한 예외 상황을 해결하기 위해 주로 음성 인식 오류 해소에 초점을 맞추어 왔다. 즉 음성 인식기의 인식 결과에 대한 언어모델 신뢰도와 음향모델 신뢰도 또는 구문 분석 신뢰도 등을 이용해 이 값이 임계치 이하일 경우 재발성을 요구하는 방법으로 이를 해결하고자 했으며, 경우에 따라서는 각종 정보를 이용하여 오류 예상 구간을 복구하거나 대화 진행 흐름상에서 현재 위치를 변경하는 방법 등을 통한 오류 해결 등을 추가로 시도해 왔다.
그러나 이는 음성 인식결과에 대한 신뢰도가 임계치보다 높을 때에는 오류를 판별해내지 못한다는 한계를 가지며, 또한 기본적으로 사용자의 발화가 시스템의 의도에 부합해 이루어졌을 것이라는 가정 하에서 오류 처리가 이루어지므로 특히 사용자 주도형 시스템과 같이 시스템이 예상하지 못한 사용자에 의한 예외가 빈번하게 나타나는 경우에는 오류 처리가 이루어졌을지라도 여전히 처리 결과에 오류가 남아 있게 되는 문제가 있다.
아직까지 대화형 음성인터페이스 시스템이 일반인에게 완전히 실용화 되어 있지 않고, 음성 인식 성능과 적용 영역 제한 등에 따른 많은 한계를 지니므로 일반 사용자가 자연스럽게 이를 이용하기는 매우 어려운 실정임에도 종래의 방법은 예외 상황이 발생하는 경우에 대한 일반적인 고려가 부족한 상태로 음성 인식 오류에 대한 대처 방안만을 적용함으로써 실제 대화형 음성 인터페이스 시스템에서 빈번하게 발생하는 사용자에 의한 예외 상황을 효과적으로 처리할 수 없었다.
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 기 구축된 DB와 예외 상황 해소 정보 및 규칙들을 이용하여 예외 상황을 처리하도록 함으로써 예외 상황을 자연스럽게 해결할 수 있도록 대화 흐름이 진행되어 시스템의 목표를 달성할 수 있도록 하는 예외 상황 처리 방법 및 장치를 제공하는데 그 목적이 있다.
상기와 같은 목적을 달성하기 위한 예외 상황 처리 방법의 특징은 (a) 예외 상황 처리를 위한 다수개의 DB를 구축하는 단계와, (b) 상기 다수개의 DB에 예외상황 해소 정보 및 규칙을 작성하여 저장하는 단계와, (c) 예외 상황에 해당하는 표현이 사용자로부터 발화되었을 때 상기 작성된 예외 상황 정보 및 규칙을 이용하여 예외 상황을 처리하는 단계를 포함하는데 있다.
바람직하게 상기 (a) 단계는 모의 대화 방식으로 수집된 음성 파일 및 음성 전사문과 음성 파일에 대한 음성 인식 결과 텍스트로 구축된 음성 대화 말뭉치에서 예외 상황과 음성 인식 오류를 나타내는 예외 상황 말뭉치를 구축하는 단계와, 상기 구축된 예외 상황 말뭉치에 기반하여 예외 상황 처리에 필요한 서비스 미지원 표현 DB, 중의적 표현 DB, 음성 인식 오류 DB 및 발화 오류 판별 DB 중 적어도 하나 이상을 구축하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 제 (b) 단계는 상기 서비스 미지원 표현 DB, 중의적 표현 DB, 음성 인식 오류 DB 및 발화 오류 판별 DB 각각에 저장된 예외 상황 별로 예외 상황 해소 정보 및 규칙을 생성하여 저장하는 것을 특징으로 한다.
바람직하게 상기 제 (c) 단계는 상기 시스템에서 제공할 수 없는 단어 및 문장으로 인한 서비스 미지원 표현이 발화되면 서비스될 시스템에서 제공 가능한 단어 및 문자를 생성하는 단계와, 상기 생성된 단어 및 문자를 이용하여 지원 가능 서비스를 제시하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 제 (c) 단계는 상기 중의성을 가진 단어 또는 문장들로 인한 중의적 표현이 포함되어 발화되면 히스토리를 이용한 중의적 해결가능 여부를 다시 판단하는 단계와, 상기 판단 결과 히스토리를 이용해 중의성 해결이 가능하면 중의성을 해소하는 단계와, 상기 판단 결과 히스토리를 이용해 중의성 해결이 불가능하면 중의성 해소에 따른 부대화를 이용하여 중의성을 해소하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 제 (c) 단계는 상기 빈번한 음성 인식 오류 단어, 문장, 패턴으로 인한 음성 인식 오류 예외 상황이 발견되면 오류해소 테이블을 이용한 음성인식 오류의 해결 가능여부를 판단하는 단계와, 상기 판단결과 상기 오류해소 테이 블을 이용해 해결이 가능하면 이를 통해 음성인식오류를 해소하는 단계와, 상기 판단결과 상기 오류해소 테이블을 이용해 해결이 불가능하면 인식오류 해소에 따른 부대화를 이용하여 중의성 해소 또는 멀티 모달 입력장비로 전환하는 단계를 포함하는 것을 특징으로 한다.
바람직하게 상기 제 (c) 단계는 이전문장과 동일하거나 또는 유사한 단어로 이루어진 유사한 어순의 문장이 출현하여 사용자 답변을 오류로 판단하는 발화오류가 발견되면 발화오류 해소에 따른 부대화를 이용하여 오류를 해소하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 예외 상황 처리 장치의 특징은 사용자의 발화를 텍스트로 변환하는 음성 인식부와, 상기 변환된 텍스트를 입력받아 음성 합성에 필요한 출력문을 생성하는 대화 처리부와, 상기 생성되는 출력문을 토대로 합성음을 생성하는 음성 합성부로 구성되는 대화형 음성 인터페이스 장치에 있어서, 모의 대화 방식에 의해 수집된 음성 파일, 음성 전사문 및 수집된 음성 파일 중 하나 이상을 이용하여 상기 음성 인식부에서 변환된 음성 인식 결과 텍스트를 추가하여 구성하는 음성 대화 말뭉치와, 상기 음성대화 말뭉치에 대응하여 예외 상황 및 음성 인식 오류로 구성된 예외 상황 말뭉치와, 상기 구성된 예외 상황 말뭉치를 이용해 예외 상황에 해당되는 구체적인 정보등을 DB로 구성한 예외상황처리대상DB와, 상기 예외상황처리대상DB에 구성된 정보를 이용하여 해당 표현마다 오류 해소 정보 및 규칙들을 작성하는 오류 해소 처리부를 포함하는 것을 특징으로 한다.
바람직하게 상기 음성대화 말뭉치는 WOZ(Wizard-of-Oz-Simulating)법인 모의 대화방식으로 구축되는 것을 특징으로 한다.
바람직하게 상기 예외상황처리대상DB는 사용자가 직관에 의해 빈번하게 발화하지만 실제 서비스될 시스템에서는 제공할 수 없는 단어 및 문장들을 모아 놓은 서비스 미지원 표현 DB와, 중의성을 가진 단어 또는 문장을 모아 놓은 중의적 표현 DB와, 빈번한 음성 인식 오류 단어, 문장, 패턴을 모아 놓은 음성 인식 오류 DB와, 사용자 답변이 이전 문장과 동일하거나 또는 유사한 단어로 이루어진 유사한 어순의 문장 등이 출현하는 경우 등과 같이 사용자 답변을 오류로 판단할 수 있는 규칙들을 모아 놓은 발화 오류 판별 DB로 구성되는 것을 특징으로 한다.
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다.
도 1 은 본 발명에 따른 대화형 음성 인터페이스 장치를 나타낸 구성도이다.
도 1과 같이, 대화형 음성 인터페이스 장치(100)는 사용자의 발화를 텍스트로 변환하는 음성 인식부(110)와, 상기 변환된 텍스트를 입력받아 기 구축된 예외 상황 처리 대상 DB 및 이를 해결하기 위한 예외 해소 정보 및 규칙들을 이용하여 예외 상황이 처리된 음성 합성에 필요한 출력문을 생성하는 대화 처리부(120)와, 상기 대화 처리부에서 예외 상황 처리를 통해 출력되는 출력문을 토대로 합성음을 생성하는 음성 합성부(130)로 구성된다.
이때, 상기 대화 처리부(120)는 사용자에 의한 예외 발화와 음성 인식 오류 등을 추출하고, 기 구축된 예외 상황 처리 대상 DB와 이를 해결하기 위한 예외 해소 정보 및 규칙들을 이용하여 예외 상황을 처리하는 예외 상황 처리부(121)와, 예외 상황 처리를 통해 출력된 텍스트를 기반으로 사용자의 발화 의도를 파악하는 입력문 분석부(123)와, 현재의 발화가 어떠한 대화 흐름에 있는지를 판단하는 대화 관리부(125) 및 작업 관리부(127)와, 음성 합성에 필요한 출력문을 생성하는 출력문 생성부(129)로 구성된다.
도 2 는 본 발명에 따른 대화형 음성 인터페이스 시스템에서의 예외 상황 처리부를 상세히 나타낸 구성도이다.
도 2와 같이, 모의 대화 방식에 의해 수집된 음성 파일 및 음성 전사문, 그리고 수집된 음성 파일을 이용하여 상기 음성인식부(110)에서 변환된 음성 인식 결과 텍스트를 추가하여 구성된 음성 대화 말뭉치(200)와, 상기 음성대화 말뭉치(200)에 대응하여 예외 상황 및 음성 인식 오류로 구성된 예외 상황 말뭉치(210)와, 상기 구성된 예외 상황 말뭉치(210)를 이용해 예외 상황에 해당되는 구체적인 정보등을 DB로 구성한 예외상황처리대상DB(220)와, 상기 예외상황처리대상DB(220)에 구성된 정보를 이용하여 해당 표현마다 오류 해소 정보 및 규칙들을 작성하는 오류 해소 처리부(230)로 구성된다.
이때, 상기 음성대화 말뭉치(200)는 WOZ(Wizard-of-Oz-Simulating)법과 같은 모의대화방식으로 구축되는 것이 바람직하다.
아울러 상기 예외상황처리대상DB(220)는 사용자가 직관에 의해 빈번하게 발화하지만 실제 서비스될 시스템에서는 제공할 수 없는 단어 및 문장들을 모아 놓은 서비스 미지원 표현 DB(221)와, 중의성을 가진 단어 또는 문장을 모아 놓은 중의적 표현 DB(223)와, 빈번한 음성 인식 오류 단어, 문장, 패턴을 모아 놓은 음성 인식 오류 DB(225)와, 사용자 답변이 이전 문장과 동일하거나 또는 유사한 단어로 이루어진 유사한 어순의 문장 등이 출현하는 경우 등과 같이 사용자 답변을 오류로 판단할 수 있는 규칙들을 모아 놓은 발화 오류 판별 DB(227)를 포함하여 구성된다.
이때, 상기 예외상황처리대상DB(220)에는 필요에 따라 다른 종류의 DB들도 추가될 수 있다.
이와 같이 구성된 본 발명에 따른 예외 상황 처리 장치 및 이를 이용한 대화형 음성 인터페이스 장치에 따른 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.
도 2를 참조하여 설명하면, 모의 대화 방식에 의해 수집된 음성 파일 및 음성 전사문으로 음성 대화 말뭉치(200)를 구축하고 여기에 수집된 음성 파일을 이용하여 상기 음성인식부(110)에서 변환된 음성 인식 결과 텍스트를 음성 대화 말뭉치(200)에 추가 구축한 후, 상기 음성대화 말뭉치(200)에 대응하여 예외 상황 및 음성 인식 오류로 구성된 예외 상황 말뭉치(210)를 구축한다.
이때, 상기 음성대화 말뭉치(200)는 사용자에게 나중에 실제 구축될 시스템을 이용할 때와 동일한 정보만을 제공한 상태에서 대화를 수집한다.
상기 대화를 수집하는 방법은 목표로 하는 시스템의 성능 수준에서 자연스럽게 대화를 진행해 나가되, 한편으로는 사용자의 발화에 예외 상황이 발생할 수 있도록 사용자를 유도하여 대화를 진행해 나가면서 수집하게 된다.
이렇게 수집된 사용자의 발화에 대하여는 대화형 음성 인터페이스 시스템에 적용하고자 하는 음성인식기를 이용하여 음성 인식 결과도 함께 음성 대화 말뭉치(200)로 구축한다. 또한, 구축된 음성 대화 말뭉치(200)에 대해서는 정상적인 경우와 사용자에 의한 예외 상황, 그리고 인식 오류의 경우 등을 판별할 수 있는 주석을 달아 예외 상황 말뭉치(210)를 재구축하도록 한다.
이와 같이, 주석이 부착된 예외 상황 말뭉치(210)를 이용해 예외 상황 처리를 위한 각종 DB를 구축하도록 한다.
이때, 상기 구축될 수 있는 DB로는 먼저, 사용자가 직관에 의해 빈번하게 발화하지만 실제 서비스될 시스템에서는 제공할 수 없는 단어 및 문장들을 모아 놓은 ‘서비스 미지원 표현 DB(221)’, 그리고 중의성을 가진 단어 또는 문장을 모아 놓은 ‘중의적 표현 DB(223)’, 또 빈번한 음성 인식 오류 단어, 문장, 패턴을 모아 놓은 ‘음성 인식 오류 DB(225)’, 다음으로 사용자 답변이 이전 문장과 동일하거나 또는 유사한 단어로 이루어진 유사한 어순의 문장 등이 출현하는 경우 등과 같이 사용자 답변을 오류로 판단할 수 있는 규칙들을 모아 놓은 ‘발화 오류 판별 DB(227)’ 등이 있으며 필요에 따라 다른 종류의 DB들도 추가될 수 있다.
상기 예외상황처리대상DB(220) 구축이 완료되면 구축된 DB를 이용해 예외 상황을 해결할 수 있도록 예외 상황 해소 정보 및 규칙들을 작성한다.
즉, 상기 '서비스 미지원 표현 DB(221)'을 이용해 이에 해당하는 표현이 입력되면 지원하지 않는 서비스라는 메시지를 출력할 수 있도록 하고 입력된 단어 유형에 따라 지원 가능한 관련 서비스를 제시할 수 있도록 준비한다.
그리고 상기 '중의적 표현 DB(223)'을 이용해서는 해당 표현의 대화이력(Dialog history)을 이용해 중의성이 해소될 수 있는 경우에는 식별자 정보를 부착해 이후 시스템에서 대화이력을 이용해 중의성을 해소하도록 하고 이것이 불가능한 경우는 해당 표현마다 중의성을 해소할 수 있도록 시스템 주도하의 오류 해소 부대화(subdialog)를 전개하도록 구성한다.
다음으로 상기 '음성 인식 오류 DB(225)'를 이용해 오인식된 결과가 의미상 불가능한 표현이며 동일한 상황에서 동일하게 오인식 되는 경우는 자동 수정이 가능하도록 오류 해소 테이블을 작성하고, 그렇지 못한 경우에는 앞서와 마찬가지로 부대화를 전개할 수 있도록 구성하거나 멀티 모달(Multi-modal) 입력 장비가 사용 가능한 경우에는 이를 이용해 오류를 해소할 수 있도록 준비한다. 이를 응용해 만일 답변으로 음성 인식 오류 DB에 존재하는 표현이 등장할 가능성이 높을 것으로 예상되는 경우에는 미리 사용자에게 인식 성능을 향상시킬 수 있도록 발화해줄 것을 요청하도록 하거나 멀티모달 입력 장비의 이용이 가능하다면 이로 선 전환하여 초기 단계에서 음성 인식 오류를 방지하도록 규칙을 작성할 수도 있다.
그리고 상기 '발화 오류 판별 DB(227)'를 이용해서는 사용자의 해당 발화가 발화 오류 판별 규칙에 따른 오류에 해당하는지를 판단하여 오류일 가능성이 높은 발화인 경우에는 이를 해소할 수 있는 부대화를 전개할 수 있도록 준비한다.
지금까지 언급한 예외 상황 해소 정보 및 규칙은 적용되는 시스템에 따라 다양하게 작성될 수 있으나 이해를 돕기 위하여 날씨 정보 제공 대화형 음성 인터페이스 시스템을 가정해 출현할 수 있는 오류와 이의 해소 방법에 대한 대표적인 실 시예를 표 1에 나타내었다.
예외 발화 예외 내용 예외 해소 방법
서비스 미지원 표현 DB 세차해도 괜찮아? 올 여름 더워? 설악산 단풍 언제 부터지? 시스템의 능력이 단순 기상 정보만을 제공할 수 있는 데에 그치는데 반해 복잡한 추론이 필요한 날씨 정보를 요청 빈번히 등장하는 서비스 미지원 발화의 경우 이에 대한 음성 인식을 가능하게 한 후, 이러한 발화가 입력으로 들어올 경우 시스템에서 제공 가능한 지역별 날씨 및 기상 상황을 안내함으로써 예외 상황 해소
중의적 표현 DB 서울도 알려줘 서울은 어때 서울의 어떠한 것을 알려달라는 것인지 현재 문장만 가지고는 판단 불가능 이러한 표현은 앞선 정보 요청 발화가 존재하는 상황에서만 가능하다는 것을 알 수 있으므로 미리 식별자 정보를 부착해 식별자 정보가 부착된 표현이 입력으로 들어올 경우 시스템에서 대화 이력을 이용해 중의성 해소
오늘 예상 온도는? 예상온도가 예상 최저기온을 묻는 것인지 예상 최고 기온을 묻는 것인지 판단 불가능 중의성 해소가 가능한 부가적인 정보 없이 이러한 발화가 입력으로 들어올 경우 예상 최저 기온을 묻는 것인지 예상 최고 기온을 묻는 것인지 판단 가능한 부대화를 전개해 중의성 해소
음성 인식 오류 DB 제주도의 눈 화자가 의도한 발화가 ‘제주도는?’인데 음운적 유사성 때문에 오인식 된 경우 빈번하게 오인식 되는 대상에 속하는 표현이 입력으로 들어올 경우 만일 ‘제주도 눈’이 언제나 동일하게 오인식 되는 표현이며 오인식된 발화가 의미를 가지지 못하는 경우라면 ‘제주도는?’을 발화한 것으로 자동 수정을 하고 그럴 수 없는 경우에는 부대화 전개로 중의성 해소
발화 오류 판별 DB (‘오늘 온도 알려 줘’발화 후) 오늘 온도 알려달 라니까 시스템이 응답을 제공했는데도 사용자가 이전 발화와 동일하거나 유사한 표현으로 재발화한 경우 이러한 발화의 경우 차상위 인식 결과 정보를 활용해 사용자의 의도한 발화가 차상위 질문인지 묻거나 앞단계부터 대화를 재시작하는 등의 부대화를 전개한다. 만일 멀티모달 입력 장비가 사용 가능한 경우 멀티모달 입력 장비로 전환하며 이용이 불가능한 경우에는 유사 구문으로 발화할 것을 요청하는 등의 방법으로 예외 상황 해소
도 3 은 본 발명에 따른 예외 상황 처리방법을 나타낸 흐름도로서, 표 1에서 나타내고 있는 것과 같이 준비된 예외상황처리대상DB(220) 및 오류 해소 정보와 규칙들을 적용하여 설명하면 다음과 같다.
먼저, 음성 인식부(110)를 통해 사용자의 발화를 텍스트로 변환하여 음성을 인식한다(S10).
이어 예외 상황 처리부(121)는 사용자로부터 입력된 발화에 앞서 상기 인식된 음성 인식 결과로서 입력된 내용이 미리 구축된 각각의 예외상황처리대상DB(220)에 해당되는 표현이 존재하는지 검사한다(S20).
그리고 상기 검사 결과 해당하는 표현이 존재할 경우 각 예외 상황 DB의 해당 표현마다 작성된 오류 해소 정보 및 규칙에 따라 오류를 해결한다.
즉, 상기 검사결과(S20) 실제 서비스될 시스템에서 제공할 수 없는 단어 및 문자들로 인한 서비스 미지원 발화로 판별되면(S30) 서비스 미지원 생성 및 지원가능 서비스를 제시한다(S40).
그리고 상기 검사결과(S20), 중의성을 가진 단어 또는 문장들로 인한 중의적 표현 포함 발화로 판별되면(S50) 히스토리를 이용한 중의성 해결 가능여부를 다시 판단한다(S60). 그리고 히스토리를 이용해 중의성 해결이 가능하면 중의성을 해소하고(S70), 상기 히스토리를 이용해 중의성 해결이 불가능하면 중의성 해소에 따른 부대화를 이용하여 중의성을 해소한다(S80).
또한, 상기 검사결과(S20), 빈번한 음성 인식 오류 단어, 문장, 패턴으로 인한 음성인식 오류예상 발화로 판별되면(S90) 오류해소 테이블을 이용한 음성인식 오류의 해결 가능여부를 다시 판단한다(S100). 그리고 상기 오류해소 테이블을 이용해 해결이 가능하면 이를 통해 음성인식오류를 해소하고(S110), 상기 오류해소 테이블을 이용해 해결이 불가능하면 인식오류 해소에 따른 부대화를 이용하여 중의성 해소 또는 멀티 모달 입력 장비로 전환한다(S120).
아울러, 상기 검사결과(S20), 이전 문장과 동일하거나 또는 유사한 단어로 이루어진 유사한 어순의 문장 등이 출현하는 경우와 같이 사용자 답변이 발화오류로 판별되면(S130), 발화오류 해소에 따른 부대화를 이용하여 오류를 해소한다(S140). 또한, 이렇게 오류를 해소한 상황은 발화 오류 판별 DB에 추가로 저장해 이후에 동일한 상황에 동일한 발화가 입력으로 들어왔을 경우에는 부대화를 전개하지 않고도 오류를 해결할 수 있도록 한다(S150).
이렇게 예외 상황 처리부(121) 결과에 따라 대화 처리를 진행하여 출력문을 생성하고(S160), 이 출력문을 토대로 음성 합성부(120)에서 합성음을 생성하게 된다(S170).
이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 또한 설명하였으나, 본 발명은 상기한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 실시 가능한 것은 물론이고, 그와 같은 변경은 기재된 청구범위 내에 있게 된다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
이상에서 설명한 바와 같은 본 발명에 따른 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법 및 장치는 종래 방법에 비해 예외 상황 처리를 효과적으로 할 수 있게 되므로 사용자의 시스템에 대한 만족도를 개선하고 시스템의 작업 성공률을 높이는 효과가 있다.

Claims (10)

  1. (a) 예외 상황 처리를 위한 다수개의 DB를 구축하는 단계와,
    (b) 상기 다수개의 DB에 예외상황 해소 정보 및 규칙을 작성하여 저장하는 단계와,
    (c) 예외 상황에 해당하는 표현이 사용자로부터 발화되었을 때 상기 작성된 예외 상황 정보 및 규칙을 이용하여 예외 상황을 처리하는 단계를 포함하는 것을 특징으로 하는 예외 상황 처리 방법.
  2. 제 1 항에 있어서, 상기 (a) 단계는
    모의 대화 방식으로 수집된 음성 파일 및 음성 전사문과 음성 파일에 대한 음성 인식 결과 텍스트로 구축된 음성 대화 말뭉치에서 예외 상황과 음성 인식 오류를 나타내는 예외 상황 말뭉치를 구축하는 단계와,
    상기 구축된 예외 상황 말뭉치에 기반하여 예외 상황 처리에 필요한 서비스 미지원 표현 DB, 중의적 표현 DB, 음성 인식 오류 DB 및 발화 오류 판별 DB 중 적어도 하나 이상을 구축하는 단계를 포함하는 것을 특징으로 하는 예외 상황 처리 방법.
  3. 제 2 항에 있어서, 상기 제 (b) 단계는
    상기 서비스 미지원 표현 DB, 중의적 표현 DB, 음성 인식 오류 DB 및 발화 오류 판별 DB 각각에 저장된 예외 상황 별로 예외 상황 해소 정보 및 규칙을 생성하여 저장하는 것을 특징으로 하는 예외 상황 처리 방법.
  4. 제 1 항에 있어서, 상기 제 (c) 단계는
    상기 시스템에서 제공할 수 없는 단어 및 문장으로 인한 서비스 미지원 표현이 발화되면 서비스될 시스템에서 제공 가능한 단어 및 문자를 생성하는 단계와,
    상기 생성된 단어 및 문자를 이용하여 지원 가능 서비스를 제시하는 단계를 포함하는 것을 특징으로 하는 예외 상황 처리 방법.
  5. 제 1 항에 있어서, 상기 제 (c) 단계는
    상기 중의성을 가진 단어 또는 문장들로 인한 중의적 표현이 포함되어 발화되면 히스토리를 이용한 중의적 해결가능 여부를 다시 판단하는 단계와,
    상기 판단 결과 히스토리를 이용해 중의성 해결이 가능하면 중의성을 해소하는 단계와,
    상기 판단 결과 히스토리를 이용해 중의성 해결이 불가능하면 중의성 해소에 따른 부대화를 이용하여 중의성을 해소하는 단계를 포함하는 것을 특징으로 하는 예외 상황 처리 방법.
  6. 제 1 항에 있어서, 상기 제 (c) 단계는
    상기 빈번한 음성 인식 오류 단어, 문장, 패턴으로 인한 음성 인식 오류 예 외 상황이 발견되면 오류해소 테이블을 이용한 음성인식 오류의 해결 가능여부를 판단하는 단계와,
    상기 판단결과 상기 오류해소 테이블을 이용해 해결이 가능하면 이를 통해 음성인식오류를 해소하는 단계와,
    상기 판단결과 상기 오류해소 테이블을 이용해 해결이 불가능하면 인식오류 해소에 따른 부대화를 이용하여 중의성 해소 또는 멀티 모달 입력장비로 전환하는 단계를 포함하는 것을 특징으로 하는 예외 상황 처리 방법.
  7. 제 1 항에 있어서, 상기 제 (c) 단계는
    이전문장과 동일하거나 또는 유사한 단어로 이루어진 유사한 어순의 문장이 출현하여 사용자 답변이 발화 오류로 판별되면 발화오류 해소에 따른 부대화를 이용하여 오류를 해소하는 것을 특징으로 하는 예외 상황 처리 방법.
  8. 사용자의 발화를 텍스트로 변환하는 음성 인식부와, 상기 변환된 텍스트를 입력받아 음성 합성에 필요한 출력문을 생성하는 대화 처리부와, 상기 생성되는 출력문을 토대로 합성음을 생성하는 음성 합성부로 구성되는 대화형 음성 인터페이스 장치에 있어서,
    모의 대화 방식에 의해 수집된 음성 파일, 음성 전사문 및 수집된 음성 파일 중 하나 이상을 이용하여 상기 음성 인식부에서 변환된 음성 인식 결과 텍스트를 추가하여 구성하는 음성 대화 말뭉치와,
    상기 음성대화 말뭉치에 대응하여 예외 상황 및 음성 인식 오류로 구성된 예외 상황 말뭉치와,
    상기 구성된 예외 상황 말뭉치를 이용해 예외 상황에 해당되는 구체적인 정보등을 DB로 구성한 예외상황처리대상DB와,
    상기 예외상황처리대상DB에 구성된 정보를 이용하여 해당 표현마다 오류 해소 정보 및 규칙들을 작성하는 오류 해소 처리부를 포함하는 것을 특징으로 하는 예외 상황 처리 장치.
  9. 제 8 항에 있어서,
    상기 음성대화 말뭉치는 WOZ(Wizard-of-Oz-Simulating)법인 모의대화방식으로 구축되는 것을 특징으로 하는 예외 상황 처리 장치.
  10. 제 8 항에 있어서, 상기 예외상황처리대상DB는
    사용자가 직관에 의해 빈번하게 발화하지만 실제 서비스될 시스템에서는 제공할 수 없는 단어 및 문장들을 모아 놓은 서비스 미지원 표현 DB와,
    중의성을 가진 단어 또는 문장을 모아 놓은 중의적 표현 DB와,
    빈번한 음성 인식 오류 단어, 문장, 패턴을 모아 놓은 음성 인식 오류 DB와,
    사용자 답변이 이전 문장과 동일하거나 또는 유사한 단어로 이루어진 유사한 어순의 문장 등이 출현하는 경우 등과 같이 사용자 답변을 오류로 판단할 수 있는 규칙들을 모아 놓은 발화 오류 판별 DB로 구성되는 것을 특징으로 하는 예외 상황 처리 장치.
KR1020050119974A 2005-12-08 2005-12-08 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치 KR100766058B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020050119974A KR100766058B1 (ko) 2005-12-08 2005-12-08 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050119974A KR100766058B1 (ko) 2005-12-08 2005-12-08 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치

Publications (2)

Publication Number Publication Date
KR20070060491A true KR20070060491A (ko) 2007-06-13
KR100766058B1 KR100766058B1 (ko) 2007-10-11

Family

ID=38356506

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050119974A KR100766058B1 (ko) 2005-12-08 2005-12-08 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치

Country Status (1)

Country Link
KR (1) KR100766058B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100915681B1 (ko) * 2007-06-26 2009-09-04 옥종석 컴퓨터 주도형 대화 장치 및 방법
KR100919225B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법
WO2011074772A2 (ko) * 2009-12-16 2011-06-23 포항공과대학교 산학협력단 문법 오류 시뮬레이션 장치 및 방법.
KR101537693B1 (ko) * 2008-11-24 2015-07-20 엘지전자 주식회사 단말기 및 그 제어 방법
KR20190054787A (ko) * 2017-11-14 2019-05-22 (주) 엔에이치엔다이퀘스트 음성 대화 제어 방법 및 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101965575B1 (ko) 2017-11-03 2019-04-04 주식회사 셀바스에이아이 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치
KR101952106B1 (ko) 2017-11-03 2019-02-26 주식회사 셀바스에이아이 전자의무기록 서비스를 제공하는 방법 및 장치
KR101955225B1 (ko) 2017-11-03 2019-03-08 주식회사 셀바스에이아이 전자의무기록 서비스의 편집 인터페이스를 제공하는 방법 및 장치

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0146549B1 (ko) * 1995-06-05 1998-09-15 양승택 한국어 텍스트/음성 변환 방법
KR100369507B1 (ko) * 2000-05-23 2003-03-10 김경징 표준 발음법 분석에 기반한 음성 인식/합성 시스템 및 방법
KR100339668B1 (ko) * 2000-05-24 2002-06-05 정명식 음성 발생 원리를 이용한 음성 언어 파서
JP3534711B2 (ja) * 2001-03-30 2004-06-07 株式会社コナミコンピュータエンタテインメント東京 音声編集装置及び音声編集プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100915681B1 (ko) * 2007-06-26 2009-09-04 옥종석 컴퓨터 주도형 대화 장치 및 방법
KR100919225B1 (ko) * 2007-09-19 2009-09-28 한국전자통신연구원 음성 대화 시스템에 있어서 다단계 검증을 이용한 대화오류 후처리 장치 및 방법
US8050909B2 (en) 2007-09-19 2011-11-01 Electronics And Telecommunications Research Institute Apparatus and method for post-processing dialogue error in speech dialogue system using multilevel verification
KR101537693B1 (ko) * 2008-11-24 2015-07-20 엘지전자 주식회사 단말기 및 그 제어 방법
WO2011074772A2 (ko) * 2009-12-16 2011-06-23 포항공과대학교 산학협력단 문법 오류 시뮬레이션 장치 및 방법.
WO2011074772A3 (ko) * 2009-12-16 2011-09-01 포항공과대학교 산학협력단 문법 오류 시뮬레이션 장치 및 방법.
KR20190054787A (ko) * 2017-11-14 2019-05-22 (주) 엔에이치엔다이퀘스트 음성 대화 제어 방법 및 장치
WO2019098539A1 (ko) * 2017-11-14 2019-05-23 주식회사 다이퀘스트 음성 대화 제어 방법 및 장치

Also Published As

Publication number Publication date
KR100766058B1 (ko) 2007-10-11

Similar Documents

Publication Publication Date Title
KR100766058B1 (ko) 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치
US7949536B2 (en) Intelligent speech recognition of incomplete phrases
US7711105B2 (en) Methods and apparatus for processing foreign accent/language communications
US7949517B2 (en) Dialogue system with logical evaluation for language identification in speech recognition
US6985863B2 (en) Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech
US9576571B2 (en) Method and apparatus for recognizing and reacting to user personality in accordance with speech recognition system
CA2493265C (en) System and method for augmenting spoken language understanding by correcting common errors in linguistic performance
US9412370B2 (en) Method and system for dynamic creation of contexts
US20080154596A1 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
EP3779971A1 (en) Method for recording and outputting conversation between multiple parties using voice recognition technology, and device therefor
Bouwman et al. Incorporating confidence measures in the Dutch train timetable information system developed in the ARISE project
USH2187H1 (en) System and method for gender identification in a speech application environment
Skantze Galatea: A discourse modeller supporting concept-level error handling in spoken dialogue systems
US20170270923A1 (en) Voice processing device and voice processing method
US20170337922A1 (en) System and methods for modifying user pronunciation to achieve better recognition results
US7162422B1 (en) Apparatus and method for using user context information to improve N-best processing in the presence of speech recognition uncertainty
Schnelle-Walka A pattern language for error management in voice user interfaces
JP5136512B2 (ja) 応答生成装置及びプログラム
Reichl et al. Language modeling for content extraction in human-computer dialogues
López-Cózar et al. Combining language models in the input interface of a spoken dialogue system
US20040034524A1 (en) Hybrid baseform generation
López-Cózar et al. Testing dialogue systems by means of automatic generation of conversations
KR20050001684A (ko) 미등록어 처리를 지원하는 음성 인식 시스템과 방법 및이를 저장한 컴퓨터 판독 가능 기록매체
JP3621922B2 (ja) 文認識装置、文認識方法、プログラム、および媒体
JP2001013992A (ja) 音声理解装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20120928

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130923

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140926

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150925

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20170927

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20181001

Year of fee payment: 12

R401 Registration of restoration