KR20070053802A

KR20070053802A - 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체

Info

Publication number: KR20070053802A
Application number: KR1020077008312A
Authority: KR
Inventors: 슈미트 로이; 마이클 하빌; 미첼 코벨
Original assignee: 휴렛-팩커드 디벨롭먼트 컴퍼니, 엘 피
Priority date: 2004-10-13
Filing date: 2005-10-07
Publication date: 2007-05-25
Also published as: KR100917552B1; US8463611B2; WO2006044253A1; ATE417345T1; JP4809358B2; DE602005011650D1; JP2008516294A; US20060080102A1; EP1800292A1; EP1800292B1

Abstract

본 발명의 실시예는 대화 시스템의 충실도를 향상시키기 위한 방법 및 시스템에 관한 것이다. 일실시예에서, 제 1 양상으로 동작하는 제 1 시스템(211)의 사용자에 의해 생성된 제 1 입력(121)이 액세스된다. 본 발명의 실시예에서, 제 1 시스템(211)은 제 1 입력(121)에 대응하는 제 1 출력(151)을 또한 생성한다. 제 1 사용자와의 대화에 참여중인 제 2 사용자로부터의 제 2 입력(152)이 제 2 시스템(212)에 의해 액세스된다. 그 후, 제 2 입력(152)은 제 1 시스템(211)의 제 1 출력(151)을 변경하는데 이용된다.

Description

대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터 이용가능 매체{METHOD AND SYSTEM FOR IMPROVING THE FIDELITY OF A DIALOG SYSTEM}

본 발명의 실시예는 문서-음성 변환 시스템(text-to-speech system) 및 자동 음성 인식 시스템(automatic speech recognition system)의 분야에 관한 것이다.

통신 기술에 있어서의 증가하는 경향은, 상이한 통신 양상들을 단일의 다수-양상(multi-modal) 통신 시스템내에 결합하는 것이다. 예를 들어, (예컨대, 컴퓨터 단말기에서의) 문서 메시징을 이용하는 제 1 개인과 (예컨대, 차를 운전중인) 음성을 선호하는 제 2 개인 사이의 라이브 채팅이 있다. 문서 입력 장치를 이용하여 제 1 개인에 의해 타이핑된 문서는 TTS(text-to-speech) 변환기를 이용하여, 들을 수 있는 음성으로 변환된다. 이것은 제 2 개인이, (예를 들면, 셀룰라 전화의 이어피스(ear piece)를 이용하여) 스피커상에서 들을 수 있다. 제 2 사용자는 단어 또는 문자를 마이크로폰(예를 들면, 셀룰라 전화의 마우스피스)에 말한다. 자동 음성 인식(ASR) 엔진은 말로 표현된 단어를, 제 1 사용자에게 디스플레이될 문서로 변환한다.

그러나, 다수-양식 통신은 구현이 어렵다. 예를 들어, 몇몇 TTS 시스템은 기록된 문서를 정확하게 소리나는 음성으로 변환하는 것이 어렵다. 이러한 문제는, 고유의 이름, 및/또는 TTS 변환 시스템의 어휘(vocabulary)에 존재하지 않는 다른 단어를 변환하는 경우에 특히 현저하다. 몇몇 TTS 시스템은 단어가 어떻게 발음될 것인지에 대해 가정할 수 있지만, 그러한 시스템들은 단어의 고유의 발음을 정확하게 근사화하는데 있어 빈번하게 실패를 하게 된다. 또한, 외국의 단어를 발음하고자 시도하는 경우, TTS 시스템은 다양한 문자 조합의 발음 및/또는 단어의 액센트 및 발음 방법에서의 문화적인 차이를 고려하지 못할 수 있다.

현재, ASR 분야에서의 많은 연구는 여전히, 단일의 사용자의 음성 인식을 향상시키는 것에 관한 것이다. 다른 적응은 사용자의 음성을 인식시에 ASR 시스템의 유효성을 저하시킬 수 있는 환경적인 잡음을 보상하는 것에 관한 것이다. ASR 분야에서의 다른 연구는 비원어민의 음성을 인식하여, 그들의 음성을 인식할 확률을 향상시키는 것에 관한 것이다.

ASR에서의 다른 적응은 어떤 주제가 논의중인지를 결정하여, 그러한 주제에 적절한 사전을 액세스하는 것이다. 전형적으로, 사용자의 음성 인식은, 사용자가 말하려는 것에 대한 사전추측(pre-guessing)에 근거한다. 특정 주제에 대해 더욱 특정적인 사전을 액세스함으로써, ASR 시스템은 특정 사전에서의 각각의 단어와 관련된 확률값을 증가시킨다. 이것은 사용자가 말하는 경우, ASR 시스템이 그 사용자를 정확하게 인식할 확률을 증가시킨다. 예를 들어, 사용자가 회계(accounting)에 관해 말하는 경우, ASR 시스템은 회계, 은행 업무, 돈 등에 관한 단어를 포함하 는 사전을 액세스한다. 그 후, ASR 시스템은 이러한 사전에서의 각각의 단어와 관련된 확률값을 증가키는데, 그것은 사용자의 이전의 동작에 근거하여 사용자가 재정 문제에 관한 이야기를 계속할 것으로 보여지기 때문이다. 따라서, 사용자가 tax 라는 단어를 말한다면, ASR 시스템은 사용자가 말한 그 단어를, "tacks" 라는 단어가 아닌, "tax"로 해석할 것이다.

ASR 시스템은 음성 메일 시스템과 같은 상업적인 응용에서 점점 증가적으로 이용되고 있다. 때때로, ASR 시스템은 사용자에게 선택을 위한 좁은 옵션 세트를 제공하는 주의깊게 단어로 나타내진 질문들의 계층을 이용하도록 구성된다. ASR 시스템은, 질문들의 어법(wording)으로 인해 미리 대답을 "알기" 때문에, 요청된 질문에 응답하여 듣게 될 것으로 예상되는 단어의 확률을 증가시킬 수 있다. 그러나, 이들 시스템은 다양한 사용자의 음성 인식시의 에러율을 최소화하기 위해, 때때로 구현 이전에 긴 구성 및 트레이닝을 요구한다. 따라서, 이들 시스템은 설정 비용이 많이 소모되고, 주의깊게 단어로 나타내진 질문들의 계층이 구현될 수 없는 상황에 쉽게 적용할 수 없다.

발명의 개요

본 발명의 실시예는 대화 시스템의 충실도를 향상시키기 위한 방법 및 시스템에 관한 것이다. 일실시예에서, 제 1 양상으로 동작하는 제 1 시스템의 사용자에 의해 생성된 제 1 입력이 액세스된다. 본 발명의 실시예에서, 제 1 시스템은 제 1 입력에 대응하는 제 1 출력을 또한 생성한다. 제 1 사용자와의 대화에 참여 중인 제 2 사용자로부터의 제 2 입력이 제 2 시스템에 의해 액세스된다. 그 후, 제 2 입력은 제 1 시스템의 제 1 출력을 변경하는데 이용된다.

본 명세서에 포함되며 그 일부의 형태인 첨부 도면은 본 발명의 실시예들을 도시하며, 설명과 함께, 본 발명의 원리를 기술한다. 특별히 언급되지 않는 한, 이러한 설명에서 언급된 도면들은 실제 축적으로 도시된 것이 아님을 이해해야 한다.

도 1은 본 발명의 실시예에 따라 이용된 통신 네트워크의 도면이다.

도 2a, 2b, 2c, 2d는 본 발명의 실시예에 따른 예시적인 대화 시스템의 도면들이다.

도 3은 본 발명의 실시예에 따른 예시적인 변경 구성요소의 블록도이다.

도 4는 본 발명의 실시예에 따른 대화 시스템의 충실도를 향상시키기 위한 방법의 흐름도이다.

도 5는 본 발명의 실시예가 구현될 수 있는 예시적인 컴퓨터 시스템의 도면이다.

이제, 본 발명의 실시예를 상세히 참조할 것이며, 그 예가 첨부 도면에 도시된다. 본 발명은 이하의 실시예들과 함께 기술되지만, 그것은 본 발명을 이들 실시예에만 한정하기 위한 것이 아님을 이해할 것이다. 반대로, 본 발명은 첨부된 특허 청구 범위에 의해 정의된 바와 같은 본 발명의 사상 및 영역내에 포함될 수 있는 대안, 변경 및 등가물을 커버하는 것으로 의도된다. 더욱이, 이하에 기술된 본 발명의 상세한 설명에서, 본 발명에 대한 완전한 이해를 제공하기 위해 다양한 특정 세부 사항들이 개시된다. 그러나, 본 발명의 실시예는 이들 특정 세부 사항들 없이도 실시될 수 있다. 다른 경우, 본 발명의 양상들을 불필요하게 불명료하게 하지 않도록, 잘 알려진 방법, 절차, 구성요소 및 회로는 상세히 기술되지 않는다.

표기법 및 명명법(notation and nomenclature)

이하의 상세한 설명의 일부는, 컴퓨터 메모리내의 데이터 비트에 대한 동작의 절차, 논리 블록, 처리 및 다른 심볼 표현의 관점으로 제공된다. 이들 설명 및 표현은, 데이터 처리 분야의 당업자에 의해 이용되는 수단으로서, 그들의 작업의 내용을 당업자에게 가장 효율적으로 전달하기 위한 것이다. 본 출원에 있어서, 절차, 논리 블록, 처리 등은, 원하는 결과를 초래하는 단계 또는 인스트럭션의 일관성 있는 시퀀스인 것으로 고려된다. 단계는 물리적 양들의 물리적 조작을 필요로 하는 것이다. 통상적으로, 필요한 것은 아니지만, 이들 양은 컴퓨터 시스템에서 저장되고, 전송되고, 결합되고, 비교되고, 그렇지 않은 경우 조작될 수 있는 전기 또는 자기 신호의 형태를 취한다.

그러나, 이들 및 유사한 모든 용어들은 적절한 물리적 양과 관련되며, 이들 양에 적용된 단지 편리한 라벨임을 알아야 한다. 이하의 설명으로부터 명백한 것으로서, 특별히 언급되지 않는 한, 본 발명 전체를 통해, "액세스", "이용", "변경", "대체" 등과 같은 용어를 이용한 설명은, 컴퓨터 시스템의 레지스터 및 메모리내의 물리적(전자적) 양으로서 표현된 데이터를 조작하여, 컴퓨터 시스템 메모리 또는 레지스터 또는 다른 그러한 정보 저장, 송신 혹은 디스플레이 장치내에서 물리적 양으로서 유사하게 표현된 다른 데이터로 변환하는 컴퓨터 시스템 또는 유사한 전자 컴퓨팅 장치의 동작 및 처리를 의미함을 이해할 것이다.

도 1은 본 발명의 실시예에 따라 이용된 통신 네트워크(100)의 도면이다. 도 1에서, 제 1 사용자(110)는 컴퓨터(120)를 이용하여 제 2 사용자(160)와 통신한다. 본 발명의 실시예에서, 컴퓨터(120)는 하나 이상의 통신 네트워크(예를 들면, 인터넷(130) 및 셀룰라 전화 네트워크(140))를 통해, 제 2 사용자(160)의 셀룰라 전화(150)와 통신가능하게 결합된다. PSTN(public switched telephone network), 블루투스(Bluetooth) 통신 네트워크 등을 포함하는 다른 통신 네트워크가 본 발명의 실시예에서 이용될 수 있음을 이해할 것이다. 본 발명의 실시예는 둘 이상의 사용자들 사이의 대화를 용이하게 하며, 사용자들 중 하나는 제 1 양상으로 동작하는 제 1 시스템(예를 들면, 컴퓨터에 의해 액세스된 TTS 시스템, PDA(personal digital assistant) 또는 다른 문서 입/출력 장치)을 이용할 수 있고, 다른 사용자는 제 2 양상으로 동작하는 제 2 시스템(예를 들면, 전화에 의해 액세스된 자동 음성 인식 시스템, 또는 전용 ASR 장치와 같은 다른 오디오 입/출력 장치)을 이용한다. 그러나, 이하의 설명은 구체적으로 TTS 시스템 및 자동 음성 인식 시스템을 인용하고 있지만, 본 발명의 실시예는 이들 양상들에만 한정되지 않는다. 예를 들어, 본 발명의 실시예의 입/출력은 브라유(Braille) 입/출력 장치를 이용하여 수행될 수 있다. 후술하는 바와 같이, 본 발명의 다른 실시예에서, 제 1 시스템은 자동 음성 인식 시스템을 포함하고, 제 2 시스템은 TTS 시스템을 포함한다.

도 2a, 2b, 2c, 2d는 본 발명의 실시예에 따른, 대화를 용이하게 하기 위한 예시적인 대화 시스템(200)의 실시예의 도면들이다. 본 발명의 실시예에서, 제 1 사용자(110)와 제 2 사용자(160) 사이의 통신은, 제 1 시스템(예를 들면, TTS 시스템(221)), 및 변경 구성요소(214)와 통신가능하게 연결되는 제 2 시스템(예를 들면, 자동 음성 인식 시스템(212))을 포함하는 대화 엔진(210)에 의해 용이해진다. 본 발명의 실시예에서, 복수의 힌트(hint)(213)가 대화 엔진(210)에 의해 액세스되어, TTS 시스템(211) 및/또는 자동 음성 인식 시스템(212)의 보다 큰 충실도를 용이하게 한다. 본 발명의 실시예에서, 힌트(213)는 대화 엔진(210), TTS 시스템(211), 자동 음성 인식(ASR) 시스템(212), 변경 구성요소(214)의 구성요소인 데이터베이스에 저장되거나, 또는, 예를 들어, 네트워크 접속을 통해 액세스되는 원격 액세스된 데이터베이스일 수 있다.

이들 구성요소는 단일의 장치(예를 들면, 컴퓨터(120) 또는 셀룰라 전화(150))상에 구현되거나, 또는 분배형 방식(예를 들면, 컴퓨터 네트워크)으로 구현될 수 있다. 또한, 대화 엔진(210)은 인터넷 제공자(도시되지 않음)에 의해 인터넷(130)을 통해서 제공되거나, 또는 네트워크(140)(예를 들면, 셀룰라 네트워크)에 의해서 제공된 서비스로서 구현될 수 있다. 본 발명의 실시예에서, TTS 시스템(211), 자동 음성 인식 시스템(212), 및 두 시스템의 충실도를 향상시키기 위해 이용되는 변경 구성요소(214) 사이에 데이터가 교환된다. 본 발명의 목적을 위해, 이러한 데이터는 "힌트"(예를 들면, 도 2의 213)라고 지칭된다.

이하에 보다 상세히 기술되는 바와 같이, 변경 구성요소(214)는 어느 한 시스템으로부터의 데이터를 액세스하여 다른 시스템의 충실도를 향상시킴으로써, TTS 시스템 및 자동 음성 인식 시스템의 충실도를 용이하게 한다. 전술한 바와 같이, 일반적으로, 두 사용자가 대화에 참여중일 때, 그들은 전형적으로 동일한 주제(들)에 관해 말한다. 따라서, 도 2a, 2b, 2c, 2d의 실시예에서, 문서 입력(121)을 포함하는 비인식된 단어는, 오디오 입력(152)을 포함하는 비인식된 단어와 매칭될 높은 확률을 갖는다.

도 2a-2d를 참조하여 이하에 보다 상세히 기술되는 바와 같이, 본 발명의 실시예는 사전정의된 파라미터를 이용하여, 소정의 비인식된 문서 입력이 비인식된 오디오 입력에 대응하는 때를 결정한다. 그 결과, 본 발명의 실시예에서, 문서 입력(121)은 자동 음성 인식 시스템(212)의 문서 출력(122)의 충실도를 향상시키는데 이용될 수 있다. 이것은 자동 음성 인식 시스템(212)의 충실도를 향상시키는데 이용되는 TTS 시스템(211)으로부터의 "힌트"의 예이다. 다른 실시예에서, 오디오 입력(예를 들면, 152)은 TTS 시스템(211)의 오디오 출력(151)의 충실도를 향상시키는데 이용될 수 있다. 이것은 TTS 시스템의 충실도를 향상시키는데 이용되는 자동 음성 인식 시스템으로부터의 "힌트"의 예이다. 이들 실시예는 상호 배타적이 아님을 이해할 것이다. 즉, 대화 엔진(210)은 동일한 대화 동안에, TTS 시스템(211)의 충실도 및 자동 음성 인식 시스템(212)의 충실도를 향상시킬 수 있다.

도 2a를 참조하면, 시간 T₀에서, 제 1 사용자(110)는 컴퓨터(120)를 이용하여, (예를 들면, 도 5의 수문자(alpha-numeric) 입력 장치(507)를 통해) 문서 입력(121)을 생성한다. 본 발명의 실시예에서, 시간 T₁에서, 문서 입력(121)은 TTS 시스템(211)에 의해 액세스된다. 도 1을 참조하여 전술한 바와 같이, TTS 시스템(211)은 시간 T₂에서 문서 입력(121)을 오디오 출력(151)으로 변환하고, 오디오 출력(151)은 시간 T₃에서 셀룰라 전화(150)의 스피커(153)로 전달된다.

그것에 응답하여, 시간 T₄에서, 셀룰라 전화(150)의 사용자는 오디오 입력(152)을 생성하고, 오디오 입력(152)은 시간 T₅에서 대화 엔진(210)에 의해 수신된다. 마지막으로, 시간 T₆에서, 자동 음성 인식 시스템(212)은 문서 출력(122)을 생성하고, 문서 출력(122)은 시간 T₇에서 컴퓨터(120)에 수신된다. 본 발명의 실시예에서, 이벤트들의 시퀀스는 역으로 될 수 있다. 즉, 본 발명의 실시예에서, 오디오 입력(152)의 생성은 문서 입력(121)의 생성에 선행할 수 있다.

본 발명의 실시예에서, 문서 입력(121) 및/또는 오디오 입력(152)이 대화 엔진(210)에 의해 액세스될 때, 입력은 변경 구성요소(214)에 의해서도 액세스된다. 본 발명의 실시예에서, 문서 입력(121)은 도 2a에 도시된 바와 같이 TTS 시스템(211)을 통해 변경 구성요소(214)에 의해 수신될 수 있고, 또는, 변경 구성요소(214)가 도 2b에 도시된 바와 같이 커플링(216)을 통해 문서 입력(121)을 직접 액세스할 수 있다. 유사하게, 본 발명의 실시예에서, 오디오 입력(152)은 도 2a에 도시된 바와 같이 자동 음성 인식 시스템(212)을 통해 변경 구성요소(214)에 의해 수신될 수 있고, 또는, 변경 구성요소(214)가 도 2b에 도시된 바와 같이 커플링(217)을 통해 오디오 입력(152)을 직접 액세스할 수 있다.

도 3은 본 발명의 실시예에 따른 예시적인 변경 구성요소(214)의 블록도이다. 본 발명의 실시예에서, 변경 구성요소(214)는 본 실시예에서 문서 입력(121)을 액세스하도록 구성되는 제 1 액세서(예를 들면, 문서 입력 액세서(310))를 포함한다. 변경 구성요소(214)는 본 실시예에서 오디오 입력(152)을 액세스하도록 구성되는 제 2 액세서(예를 들면, 오디오 입력 액세서(320))를 더 포함한다. 또한, 변경 구성요소(214)는 힌트(예를 들면, 도 2a-2d의 213)의 데이터베이스를 포함한다. 도 3의 실시예에서, 변경 구성요소(214)는 힌트(213)의 데이터베이스를 또한 포함한다. 전술한 바와 같이, 힌트(213)는 TTS 시스템(211) 및 자동 음성 인식 시스템(212)의 데이터베이스 구성요소이거나, 또는, 대화 엔진(210)에 의해 액세스가능한 원격 제어된 데이터베이스일 수 있다. 본 발명의 실시예에서, 힌트(213)는 문서-음성 또는 음성-문서 변환시에 TTS 시스템(211) 및/또는 ASR 시스템(212) 중 어느 하나 또는 둘다에 의해 이용된 사전을 포함할 수 있다. 또한, 본 발명의 실시예에서, 힌트(213)는 TTS 시스템(211) 및 ASR 시스템(212)에 의해 인식되지 않은 단어들의 집단을 포함한다.

결정 구성요소(330)는 문서 입력 액세서(310) 및 오디오 입력 액세서(320)와 통신가능하게 연결되며, 본 실시예에서, 하나의 양상으로부터의 입력이 다른 양상으로부터의 입력과 대응하는 때를 결정하도록 구성된다. 예를 들어, 본 실시예에서, 결정 구성요소(330)는 소정의 오디오 입력(152)이 소정의 문서 입력(121)과 대응하는 것을 결정할 수 있다. 또한, 결정 구성요소(330)는 자동 음성 인식 시스템(212)이, 소정의 오디오 입력(예를 들면, 152)의 연속적인 인스턴스에 대한 문서 출력(예를 들면, 122)을 구성하기 위한 처리에서 해당 문서 입력(예를 들면, 121)을 이용하도록 한다.

본 발명의 실시예에서, 결정 구성요소(330)는 TTS 시스템(211)이, 소정의 문서 입력(예를 들면, 121)의 연속적인 인스턴스에 대한 오디오 출력(예를 들면, 151)을 구성하기 위한 처리에서 오디오 입력(예를 들면, 152)을 이용하도록 하는데 또한 이용될 수 있다. 문서 입력 액세서(310)는, 도 2b에 도시된 바와 같이, 문서 입력(121)과, 또는, 도 2a에 도시된 바와 같이, TTS 시스템(211)과 통신가능하게 직접 연결될 수 있다. 유사하게, 오디오 입력 액세서(320)는, 도 2b에 도시된 바와 같이, 오디오 입력(152)과, 또는, 도 2a에 도시된 바와 같이, 자동 음성 인식 시스템(212)과 통신가능하게 직접 연결될 수 있다.

이제 도 2a 및 2b로 되돌아가면, 본 발명의 실시예에서, 변경 구성요소(214)는 셀룰라 전화(150)로부터의 오디오 입력(152)을 액세스하여, 오디오 입력(152)의 인스턴스가 문서 출력(122)과 대응하는지 여부를 결정한다. 예를 들어, 본 발명의 실시예에서, ASR 시스템(212)은 데이터베이스에 저장된 사전을 액세스하여, 오디오 입력(예를 들면, 152)을 대응하는 문서 출력(예를 들면, 122)과 매칭시킨다. 따라서, ASR 시스템(212)에 의해 수신된 오디오 입력(152)의 각 인스턴스에 대해, 대응하는 문서 출력(122)이 액세스되어 출력된다. 그 후, 이러한 문서 출력은 수신자에게 송신되어, 컴퓨터(120)의 디스플레이 장치(506)를 통해 제 1 사용자(110)에게 디스플레이된다.

본 발명의 실시예에서, 자동 음성 인식 시스템(212)이, 액세스된 사전에 저장되지 않은 오디오 입력(152)의 인스턴스를 수신하는 경우, 단어의 철자에 근사화되는 음성을 표시하는 문서 출력을 생성한다. 전술한 바와 같이, 통상적인 ASR 시스템은 때때로, 그들의 사전에 포함되지 않은 단어를 정확하게 인식하는 것을 실패한다. 따라서, ASR 시스템이 친숙하지 않은 오디오 입력의 인스턴스를 수신한다면, ASR 시스템은 해당 단어의 부정확하게 철자화된 문서 출력을 쉽게 생성한다.

도 2a 및 2b의 실시예에서, 자동 음성 인식 시스템(212) 및/또는 변경 구성요소(214)에 의해 인식되지 않은 오디오 입력(152)의 인스턴스가, 변경 구성요소(214)에 의한 이후의 참조를 위해 저장된다. 도 2b의 실시예에서, 오디오 입력(152)의 인식은 변경 구성요소(214)에 의해 수행된다. 유사하게, 문서 입력(121)의 비인식된 인스턴스는, 이후의 참조를 위해 변경 구성요소(214)에 의해 저장된다. 그 후, 비인식된 오디오 입력의 인스턴스는 비인식된 문서 입력의 인스턴스와 비교된다. 본 발명의 실시예에서, 변경 구성요소(214)는 비인식된 문서 입력(예를 들면, 121)의 인스턴스가 비인식된 오디오 입력(예를 들면, 151)의 인스턴스와 대응하는지의 여부를 결정하도자 시도한다. 본 발명의 실시예에서, 변경 구성요소(214)가 사전결정된 파라미터를 이용하여, 문서 입력(121)과 오디오 출력(152)간에 충분한 유사성이 존재하는지를 결정하여, 그들을 데이터의 대응 인스턴스로서 지정한다.

예를 들어, 문서 입력(121)의 비인식된 인스턴스가 수신될 때, TTS 시스템(211)은 단어의 발음을 가정하고자 시도한다. 이러한 가정된 발음을 비인식된 오디오 입력(152)과 비교하여, 그들이 사실상 동일한 단어를 지칭함을 가정하기에 충분한 유사성이 존재하는지를 결정한다. 그들이 동일한 단어를 지칭하는 것으로 결정된다면, 변경 구성요소(214)는 TTS 시스템(211) 및/또는 자동 음성 인식 시스템(212)에 의해 액세스된 사전을 갱신하여, 오디오 입력(152)의 비인식된 인스턴스가 이제, (예를 들면, 힌트(213)에서의) 문서 입력(121)의 비인식된 인스턴스와 관련되도록 한다. 그 결과, 다음 시간에, 문서 입력(121)의 비인식된 인스턴스가 대화 엔진(210)에 의해 액세스되고, 관련된 오디오 입력(152)은 TTS 시스템(211)의 오디오 출력(151)으로서 이용된다. 본 발명의 실시예에서, 유사한 처리가 이용되어, 예를 들면, 컴퓨터(120)로부터의 문서 입력이, 자동 음성 인식 시스템(212)의 문서 출력을 변경하는데 이용될 수 있도록 한다.

일반적으로, 본 발명의 실시예는, 대화에서의 두 참여자가 아마도 동일한 주제에 관해 말하고 있다는 전제하에 동작한다. 따라서, 비인식된 문서 입력(121) 및 비인식된 오디오 입력(152)은 실제로 동일한 것을 지칭할 수 있다. 따라서, 본 발명의 실시예에서, 변경 구성요소(214)는 비인식된 문서 입력(121)의 인스턴스를 비인식된 오디오 입력(152)의 인스턴스와 매칭하기 위한 파라미터 세트에 의존한다. 두 인스턴스가 정의된 파라미터내에서 매칭된다면, 변경 구성요소(214)는 문서 입력(121)를 생성하는 제 1 사용자 및 오디오 입력(152)을 생성하는 제 2 사용자가 동일한 것을 지칭하는 것으로 가정한다. 그 결과, TTS 시스템(211) 및/또는 자동 음성 인식 시스템(212)에 의해 액세스된 사전(예를 들면, 힌트(213))은 변경 구성요소(214)에 의해 갱신되어, 문서 입력(121)과 오디오 입력(152)이 관련되도록 한다. 즉, 문서 입력(121)의 소정의 단어의 철자는, ASR 시스템(212)에 의해 소정의 단어의 철자에 대한 힌트로서 이용된다.

도 2a 및 2b를 다시 참조하면, 다음 시간에, 제 2 사용자(160)는 시간 T_N에서 오디오 입력(152)을 생성하며, 대화 엔진(213)은 시간 T_N+1에서 오디오 입력을 액세스하고, 비인식된 오디오 입력(152)의 인스턴스를 문서 출력(121)의 저장된 인스턴스와 비교한다. 비인식된 오디오 입력(152)이 저장된 문서 입력(121)과 대응하는 것으로 결정시에, 변경 구성요소(214)는 자동 음성 인식 시스템(212)이, 오디오 입력의 그 자신의 철자를 근사화하기보다는, 시간 T_N+2에서 관련된 문서 입력(121)을 문서 출력(122)으로서 이용하도록 한다. 그 결과, 자동 음성 인식 시스템(212)의 충실도가 향상되는데, 그 이유는, 그것이 친숙하지 않은 단어의 철자를 더 이상 근사화하지 않기 때문이다. 대화 참여자는 범용 사전에 포함되지 않을 수 있는 소정의 단어의 철자 또는 발음과 더욱 친숙할 것이기 때문에, 본 발명의 실시예는 하나의 시스템에 의해 액세스된 철자 및/또는 발음을, 다른 시스템의 충실도를 향상시키기 위한 힌트로서 이용한다.

또한, TTS 시스템(211) 및/또는 자동 음성 인식 시스템(212)에 의해 인식되는 대화에 이용된 단어에 따라, 대화 엔진(210)은, 문서 입력(121) 또는 오디오 입력(152)에 응답하여 주제 특정적 사전이 액세스되는 "사전 적응(dictionary adaptation)" 이라고 불리는 처리를 수행할 수 있다. 전형적으로, TTS 시스템은 단일의 오디오 출력을 소정의 문서 입력과 관련시키거나, 또는, 소정의 문서 입력이 다양한 방식으로 발음될 수 있는 경우에, 문서 입력의 가장 고려되는 발음을 선택하도록 자연 언어 처리가 수행된다. 전형적으로, ASR 시스템은 각 단어가 이전에 말로 표현된 단어에 근거하여 단어와 관련된 확률을 갖는 사전에 의존한다.

본 발명의 실시예에서, 대화 엔진(210)은 문서 입력(121) 또는 오디오 입력(152)과 관련된 다른 단어의 확률을 변경할 수 있다. 따라서, 단어 "cat"를 말한 경우, cat의 주제와 관련된 다른 단어에 대해, 대화 엔진(210)에 의해 보다 높은 확률이 할당될 것이다. 그 결과, 문서 입력(121)은 자동 음성 인식 시스템(212)에 의해 이용된 사전에서의 단어와 관련된 확률을 변경하는데 이용될 수 있다. 유사하게, 오디오 입력(152)은 TTS 시스템(211)에 의해 이용된 사전에서의 단어와 관련된 확률을 변경하는데 이용될 수 있다. 이것은 다시, 대화 참여자가 동일하거나 또는 유사한 주제를 토론할 것이기 때문에 바람직한 것이다. 따라서, 대화 동안에 관련된 단어가 이용될 확률이 더욱 커진다.

다른 실시예에서, 오디오 입력(152)은 TTS 시스템(211)의 오디오 출력을 변경하는데 이용될 수 있다. 이러한 실시예에서, 다음 시간에, 문서 입력(121)은 오디오 출력(151)을 생성하는 대신에 TTS 시스템(211)에 의해 액세스되고, TTS 시스템(211)은 이제 힌트(213)내의 문서 입력(121)과 관련되는 오디오 입력(152)을 출력한다.

도 2c 및 2d를 참조하면, 시간 T₀에서, 제 2 사용자(160)는 셀룰라 전화(150)를 이용하여, (예를 들면, 마이크로폰(154)을 통해) 오디오 입력(152)을 생성한다. 본 발명의 실시예에서, 시간 T₁에서, 오디오 입력(152)은 대화 엔진(210)에 의해 액세스된다. 자동 음성 인식 시스템(212)은 시간 T₂에서 오디오 입력(152)을 문서 출력(122)으로 변환하며, 그것은 시간 T₃에 컴퓨터(120)의 디스플레이 장치(506)로 전달된다.

그것에 응답하여, 시간 T₄에서, 컴퓨터(120)의 사용자는 문서 입력(121)을 생성하며, 이것은 시간 T₅에서 대화 엔진(210)에 의해 수신된다. 마지막으로, 시간 T₆에서, TTS 시스템(211)은 오디오 출력(151)을 생성하고, 이것은 시간 T₇에 셀룰라 전화(150)에서 수신된다. 본 발명의 실시예에서, 이벤트들의 시퀀스는 역으로 될 수 있음을 이해할 것이다. 즉, 본 발명의 실시예에서, 오디오 입력(152)의 생성은 문서 입력(121)의 생성에 선행할 수 있다.

본 발명의 실시예에서, ASR 시스템(212)에 의해 인식되지 않은 단어의 인스턴스는 대화 엔진(210)에 의해 저장된다. 도 2c의 실시예에서, ASR 시스템(212)이 친숙하지 않은 오디오 입력의 인스턴스를 수신하는 경우, 오디오 입력의 복사본이 변경 구성요소(214)로 송신되어, 그곳에서 저장된다. 도 2d의 실시예에서, 오디오 입력(152)의 인스턴스가 변경 구성요소(214)에 의해 인식되지 않는 경우, 그것은 변경 구성요소(214)에 의해 저장된다.

그 후, 비인식된 오디오 입력의 이들 인스턴스는 비인식된 문서 입력의 인스턴스와 비교된다. 본 발명의 실시예에서, 변경 구성요소(214)는 비인식된 문서 입력(예를 들면, 121)의 인스턴스가 비인식된 오디오 입력(예를 들면, 152)의 인스턴스에 대응하는지 여부를 결정하고자 시도한다. 본 발명의 실시예에서, 변경 구성요소(214)가 사전결정된 파라미터를 이용하여, 문서 입력(121)과 오디오 출력(152)간에 충분한 유사성이 존재하는지를 결정하여, 그들을 데이터의 대응 인스턴스로서 지정한다.

두 인스턴스가 사전정의된 파라미터내에서 매칭된다면, 변경 구성요소(214)는 문서 입력(121)을 생성하는 제 1 사용자 및 오디오 입력(152)을 생성하는 제 2 사용자가 동일한 것을 지칭하는 것으로 가정한다. 그 결과, TTS 시스템(211) 및/또는 자동 음성 인식 시스템(212)에 의해 액세스된 사전(예를 들면, 힌트(213))은 변경 구성요소(214)에 의해 갱신되어, 문서 입력(121)과 오디오 입력(152)이 관련되도록 한다. 즉, 오디오 입력(152)의 소정의 단어의 발음은, TTS 시스템(211)에 의해 소정의 단어의 발음에 대한 힌트로서 이용된다.

도 2c 및 2d를 다시 참조하면, 다음 시간에, 제 1 사용자(110)는 시간 T_N에서 문서 입력(112)을 생성하며, 대화 엔진(213)은 시간 T_N+1에서 문서 입력(121)을 액세스하고, 비인식된 문서 입력(121)의 인스턴스를 오디오 출력(152)의 저장된 인스턴스와 비교한다. 비인식된 문서 입력(121)이 저장된 오디오 입력(152)과 대응하는 것으로 결정시에, 변경 구성요소(214)는 TTS 시스템(211)이 문서 입력(121)의 그 자신의 발음을 근사화하기보다는, 시간 T_N+2에서 관련된 문서 입력(152)을 문서 출력(122)으로서 이용하도록 한다.

데이터베이스(예를 들면, 213)의 이러한 확장에서, 오디오 입력(152)은 기본 TTS 시스템에 대해 적절한 어떠한 서술 언어라도 이용하여 특성화된다. 전형적으로, 이것은 원래의 오디오 샘플 대신에, 주지된 상대적인 지속기간 및 강세(stress)를 갖는 음소(phoneme)의 시퀀스이다. 그러나, 이것은 원래의 오디오 샘플을 기록된 표현으로서 이용하는 것을 배제하지 않는다. 그 결과, 다음 시간에, 앞에서와 같이 오디오 출력(151)을 생성하는 대신에, 문서 입력(121)이 TTS 시스템(211)에 의해 액세스되며, TTS 시스템(211)은 이제, 오디오 입력(152)(예를 들면, 힌트(213)에 저장된 관련 오디오 입력(152))으로부터 생성된 기록 표현을 이용한다. 기록 표현이 원래의 오디오 입력(152)인 경우, 해당 오디오는, 선택적으로 지각 있는 매칭을 향상시키기 위한 선택적인 오디오 변환으로, 오디오 출력에 혼합될 수 있다. 참조로 주어진 가능한 변환의 예로는, Slaney, Covell 및 Lassiter에 의해, Institute of Electrical and Electronics Engineers(IEEE) International Conference on Acoustics, Speech, and Signal Processing, Atlanta GA, May 1996, vol.2, pages 1001-1004의 문헌에 제공된 "Automatic Audio Morphing"이 있다.

다른 실시예에서, 변경 구성요소(214)를 또한 이용하여 TTS 시스템(211)을 구성함으로써, 셀룰라 전화(150)의 사용자의 음성 패턴과 비슷한 방식으로 오디오 출력(151)을 생성한다. 예를 들어, 셀룰라 전화(150)의 사용자가 명백한 액센트로 말한다면, 변경 구성요소(214)는 오디오 입력(152)을 액세스하여, 전술한 바와 같이 오디오 출력(151)을 포함하는 단어의 발음을 변경할 수 있다. 그 결과, 본 발명의 실시예는 오디오 출력(151)이 자동 음성 인식 시스템(212)에 의해 정확하게 인식되는 단어를 포함하는 오디오 입력(152)을 포함하는 단어의 발음과 더욱 밀접하게 비슷하도록 할 수 있다.

본 발명의 실시예에서, TTS 시스템(211)이, 액세스된 사전에 저장되지 않은 문서 입력(121)의 인스턴스를 수신하는 경우, 그것은 단어의 소리에 근사화되는 음성을 표시하는 오디오 출력을 생성한다. 전술한 바와 같이, 통상적인 TTS 시스템은 때때로, 그것이 발음하도록 트레이닝되지 않은 고유 명사에 대한 정확한 오디오 출력을 생성하는데 실패한다. 따라서, TTS 시스템이 친숙하지 않은 문서 입력의 인스턴스를 수신한다면, 그것은 해당 단어의 부정확한 발음을 쉽게 생성한다. 이것은 TTS 시스템이 다양한 문자 조합의 발음 및/또는 외국(예를 들면, 영어가 아닌) 단어의 액센트 및 발음 방법에서의 문화적인 차이를 고려하는 것을 실패한다는 점에서 특히 문제가 된다. 본 발명의 실시예에서, TTS 시스템(211)에 의해 인식되지 않은 단어의 인스턴스는 힌트(213)에 저장된다.

따라서, 본 발명의 실시예는 TTS 시스템(211)에 대한 보다 큰 충실도를 용이하게 하는데, 그 이유는, 친숙하지 않은 단어의 발음을 추측하거나 근사화할 것을 요구하지 않기 때문이다. 유사하게, 본 발명의 실시예는 자동 음성 인식 시스템(212)에 대한 보다 큰 충실도를 용이하게 하는데, 그 이유는, 친숙하지 않은 단어의 철자를 추측하거나 근사화할 것을 요구하지 않기 때문이다. 또한, 이전에 액세스된 문서 입력을 이용하여, 관련 단어의 확률이 상승될 수 있다. 그 결과, 말한 단어를 인식시의 자동 음성 인식 시스템(212)의 충실도가 향상된다.

이하, 본 발명의 실시예에 따른 대화 시스템(200)을 이용한 예시적인 대화를 설명한다. 제 1 사용자(110)는 제 2 사용자(160)에게 질문하는 문서 입력(121), 즉, "What kind of cat did Joe get ?"을 생성한다. 대화 엔진(210)은 문서 입력(121)을 액세스하고, TTS 시스템(211)을 이용하여, 제 2 사용자(160)에게 "What kind of cat did Joe get ?" 으로서 입력되는 오디오 출력(151)을 생성한다. 또한, 대화 엔진(210)은, 단어 "cat"와 관련된 단어에 보다 높은 확률이 주어지는 사전 적응 처리를 수행한다. 따라서, paws, whiskers, long-hair, short-hair, tabby, dog, mouse, bird 등과 같은, 단어 "cat"와 관련된 다른 단어들이 제 1 사용자(110) 또는 제 2 사용자(160)에 의해 이용된다면, 그들은 대화 엔진(210)에 의해 보다 쉽게 인식될 것이다.

오디오 출력(151)에 응답하여, 사용자(160)는 오디오 입력(152), 즉, "Usiki is a Russian short-hair."를 생성한다. 대화 엔진(210)은 오디오 입력(152)을 액세스하고, 자동 음성 인식 시스템(212)을 이용하여, 문서 출력(122)을 생성한다. 그러나, 자동 음성 인식 시스템(212)은 단어 "Usiki"를 인식하도록 트레이닝되지 않았기 때문에, 그것은 근사화를 출력한다. 따라서, 제 1 사용자(110)는 "Oozeke is a Russian short-hair."로서 출력되는 문서 출력(122)을 수신한다. 또한, 단어 "Usiki"는 전형적으로 영어 사전에서는 발견되지 않기 때문에, 자동 음성 인식 시스템(212)은 그 단어를 인식하지 못한다. 본 발명의 실시예에서, 비인식된 단어는 대화 엔진(210)에 의해 사전에 추가된다. 보다 구체적으로, 오디오 입력(152)(예를 들면, Usiki의 발음의 오디오 파일)이 사전(예를 들면, 힌트(213))에 추가된다. 동일한 문장에서, 대화 엔진(210)은 사전 적응을 이미 수행했기 때문에, 문구 "short-hair"는, "shorter"로서 부정확하게 인식되지 않고 정확하게 인식된다. 따라서, 대화 엔진(210)은 문서 입력(121)을 이용하여, 가능한 오디오 입력을 보다 정확하게 식별한다. 그 결과, 본 발명의 실시예에 의해 자동 음성 인식 시스템(212)에 대한 충실도가 향상되는데, 그 이유는, 이전에 액세스된 문서 입력을 이용하여 자동 음성 인식 시스템의 출력을 변경할 수 있기 때문이다. 본 발명의 실시예에서, 단어 "Russian"과 관련된 단어에 보다 높은 확률이 주어지는 다른 사전 적응 처리가 수행될 수 있다.

논의되고 있는 cat의 이름이 Usiki임을 알고 있는 제 1 사용자(110)는 Oozeke의 문서 출력(122)은 틀린 철자임을 인식한다. 그 후, 제 1 사용자(110)는 "Usiki"가 정확하게 철자화되는 응답(예를 들면, 문서 입력(121)) "Where did you find Usiki ?"를 생성한다. 전형적으로, Usiki는 영어 사전에서 발견되는 단어가 아니기 때문에, 대화 엔진(210)은 단어 Usiki를 그의 사전에 추가한다(예를 들면, Usiki의 문서 입력이 힌트(213)에 추가됨). 또한, 대화 엔진(210)은 Usiki의 문서 입력(예를 들면, 문서 입력(121))을, 문서와 오디오 입력을 매칭하기 위한 사전정의된 파라미터에 따라 문서 입력과 매칭될 수 있는 임의의 오디오 파일과 매칭시키고자 시도한다. 따라서, 변경 구성요소는 Usiki의 문서 입력이, Usiki의 오디오 파일(예를 들면, 오디오 입력(152))과 매칭되는 것을 결정한다. 그 결과, 이들 두 단어는 힌트(213)에 저장된 사전에서 관련된다. 본 발명의 실시예에서, 단어 "Usiki"를 오디오 입력(152)에서 다음에 말하는 경우, 단어 "Usiki"에 대한 관련 문서 파일은 문서 출력(122)이 생성될 때에 액세스된다. 즉, 단어 "Usiki"가 오디오 입력(152)으로서 다음에 이용될 때, 사용자(110)에 의해 타이핑된 이전에 저장된 문서 입력(121)이, 이전에 생성된 근사화 대신에 자동 음성 인식 시스템(212)으로부터의 문서 출력(122)을 구성하기 위한 처리에서 이용된다.

그 후, 대화 엔진(210)은 문서 입력(121)(예를 들면, "What does Usiki mean ?")을 액세스하고, TTS 시스템(211)을 이용하여, 제 2 사용자(160)에게 "What does Usiki mean ?"으로서 출력되는 오디오 출력(151)을 생성한다. 그러나, 대화 엔진(210)에 의해 출력된 "Usiki"의 발음은, 제 2 사용자(160)에 의해 이전에 입력된 발음에 실질적으로 근사화된다.

따라서, 본 발명의 실시예는 자동 음성 인식 시스템(212)에 대한 보다 큰 충실도를 용이하게 하는데, 그 이유는, 친숙하지 않은 단어의 철자를 추측하거나 근사화할 것을 요구하지 않기 때문이다. 또한, 이전에 액세스된 문서 입력을 이용하여, 관련 단어의 확률이 상승될 수 있다. 그 결과, 말한 단어를 인식시에 자동 음성 인식 시스템(212)의 충실도가 향상된다.

전술한 예시적인 시나리오를 참조하면, 제 1 사용자(110)는 문서 입력(121)을 생성할 때에 "Usiki"를 정확하게 철자화할 수 있다. 그러나, TTS 시스템(211)은 그의 사전내에 그 단어를 갖고 있지 않으므로, 그것은 "Usiki"를 부정확하게 발음하는 오디오 출력(151)을 생성한다. 또한, 단어 "Usiki"가 인식되지 않기 때문에, 그것은 대화 엔진(210)에 의해(예를 들면, 변경 구성요소(214)에 의해) 저장된다.

"Usiki"의 정확한 발음을 알고 있는 제 2 사용자(160)는, "Usiki"가 정확하게 발음되는 오디오 입력(152)을 생성한다. 다시, 단어 "Usiki"는 (예를 들면, ASR 시스템(212) 또는 변경 구성요소(214)에 의해) 인식되지 않기 때문에, "Usiki"의 오디오 표현은 대화 엔진(210)에 의해 저장된다.

본 발명의 실시예에서, 결정 구성요소(330)는 "Usiki"의 문서 표현을 단어 "Usiki"의 오디오 표현과 비교하여, 그들이 단어의 대응하는 인스턴스임을 결정한다. 그 후, 결정 구성요소(214)는 힌트(213)를 갱신하여, 다음 시간에, 문서 입력(121)이 단어 "Usiki"를 포함하고, 단어 "Usiki"에 대한 관련 오디오 파일이 힌트(213)를 통해 액세스되도록 한다. 즉, 단어 "Usiki"가 문서 입력(121)으로서 다음에 이용될 때, 사용자(160)가 말한 이전에 저장된 오디오 출력(152)은, TTS 시스템(211)에 의해 이전에 생성된 근사화 대신에 TTS 시스템(211)으로부터의 오디오 출력(151)을 구성하기 위한 처리에서 이용된다.

도 4는 본 발명의 실시예에 따른 문서-음성 변환 및 자동 음성 인식 시스템의 충실도를 향상시키기 위한 방법(400)의 흐름도이다. 도 4의 단계(410)에서, 제 1 양상으로 동작하는 제 1 시스템의 제 1 사용자로부터의 제 1 입력이 액세스된다. 도 2를 참조하여 전술한 바와 같이, 본 발명의 실시예에서, 변경 구성요소(214)가 문서 입력(121)을 액세스한다. 본 발명의 실시예에서, 변경 구성요소(214)가 비인식된 문서 입력의 인스턴스를 식별하여, 그것을 사전(예를 들면, 도 2의 215)에 저장한다.

도 4의 단계(420)에서, 제 2 양상으로 동작하는 제 2 시스템의 제 2 사용자로부터의 제 2 입력이 액세스된다. 도 2를 참조하여 전술한 바와 같이, 본 발명의 실시예에서, 변경 구성요소(214)가 오디오 입력(152)을 또한 액세스한다. 본 발명의 실시예에서, 변경 구성요소(214)가 비인식된 오디오 입력의 인스턴스를 식별하여, 그것을 사전(예를 들면, 도 2의 215)에 저장한다.

도 4의 단계(430)에서, 제 2 입력을 이용하여 제 1 시스템의 출력을 변경한다. 도 2를 참조하여 전술한 바와 같이, 변경 구성요소(214)는 비인식된 문서 입력의 인스턴스가 비인식된 오디오 입력의 인스턴스에 대응하는 때를 결정하도록 구성된다. 본 발명의 실시예에서, 이러한 결정에 응답하여, 변경 구성요소(214)는 TTS 시스템(211)이, 대응하는 문서 입력(121)이 액세스될 때 오디오 출력(151)을 구성하기 위한 처리에서 오디오 입력(152)을 이용하도록 한다. 또한, 변경 구성요소(214)는 자동 음성 인식 시스템(212)이, 마찬가지로 문서 입력(121)을 문서 출력(122)으로서 이용하도록 할 수 있다.

도 5를 참조하면, 본 발명의 부분들은, 예를 들면, 범용 컴퓨터 네트워크(도시되지 않음)의 일부로서 이용되는 컴퓨터 시스템(500)에 위치되는 컴퓨터 판독가능 및 컴퓨터 실행가능 인스트럭션으로 구성된다. 도 5의 컴퓨터 시스템(500)은 단지 예시적인 것이며, 본 발명은 범용 컴퓨터 시스템, 내장형 컴퓨터 시스템, 랩탑 컴퓨터 시스템, 핸드헬드 컴퓨터 시스템 및 독립형 컴퓨터 시스템을 포함하는 다수의 상이한 컴퓨터내에서 동작할 수 있음을 이해할 것이다.

본 실시예에서, 컴퓨터 시스템(500)은 다양한 구성요소들 사이에 디지털 정보를 전달하는 어드레스/데이터 버스(501)와, 디지털 정보 및 인스트럭션을 처리하는 CPU(central processor unit)(502)와, 디지털 정보 및 인스트럭션을 저장하며, 휘발성 RAM(random access memory)으로 이루어지는 휘발성 주 메모리(503)와, 보다 영구적인 성질의 정보 및 인스트럭션을 저장하는 비휘발성 ROM(read only memory)(504)을 포함한다. 또한, 컴퓨터 시스템(500)은 광대한 양의 데이터를 저장하는 데이터 저장 장치(505)(예를 들면, 자기, 광학, 플로피, 또는 테이프 드라이브 등)를 포함할 수도 있다. 본 발명의 문서-음성 변환 및 자동 음성 인식 시스템의 충실도를 향상시키기 위한 방법을 수행하는 소프트웨어 프로그램이 휘발성 메모리(503), 데이터 저장 장치(505) 또는 외부의 저장 장치(도시되지 않음)에 저장될 수 있다.

컴퓨터 시스템(500)에 선택적으로 결합되는 장치로는, 컴퓨터 사용자에게 정보를 디스플레이하는 디스플레이 장치(506)와, 수문자 입력 장치(507)(예를 들면, 키보드)와, 데이터, 선택, 갱신 등을 입력하는 커서 제어 장치(508)(예를 들면, 마우스, 트랙볼, 광펜(light pen) 등)가 포함된다. 또한, 컴퓨터 시스템(500)은 가청 신호를 방사하는 메카니즘(도시되지 않음)을 포함할 수 있다.

도 5를 여전히 참조하면, 도 5의 선택적인 디스플레이 장치(506)는 액정 장치, 음극선관, 또는 사용자에게 인식가능한 그래픽 이미지 및 수문자 캐릭터를 생성하기에 적합한 다른 디스플레이 장치일 수 있다. 선택적인 커서 제어 장치(508)는 컴퓨터 사용자가, 디스플레이 장치(506)의 디스플레이 스크린상에서의 가시 심볼(커서)의 2차원 이동을 동적으로 시그널링할 수 있도록 한다. 소정의 방향 또는 방식 변위의 이동을 시그널링할 수 있는 트랙볼, 마우스, 터치 패드, 조이스틱, 또는 수문자 입력 장치(507)상의 특수 키를 포함하는 커서 제어 장치(508)의 많은 구현들이 본 기술 분야에 알려져 있다. 이와 달리, 커서는 특수 키 및 키 시퀀스 코맨드를 이용한 수문자 입력 장치(507)로부터의 입력을 통해 지시받고/거나 활성화될 수 있다. 이와 달리, 커서는 다수의 특수하게 적응된 커서 지시 장치로부터의 입력을 통해 지시받고/거나 활성화될 수 있다.

더욱이, 컴퓨터 시스템(500)은 주변 장치(510)(예를 들면, 컴퓨터 네트워크, 모뎀, 대량 저장 장치 등)과의 인터페이스를 위한 입/출력(I/O) 신호 유닛(예를 들면, 인터페이스)(509)를 포함할 수 있다. 따라서, 컴퓨터 시스템(500)은 클라이언트/서버 환경과 같은 네트워크에 결합됨으로써, 다수의 클라이언트(예를 들면, 개인 컴퓨터, 워크스테이션, 휴대용 컴퓨터, 미니컴퓨터, 단말기 등)가 원하는 작업을 수행하기 위한 처리를 실행하는데 이용된다. 특히, 컴퓨터 시스템(500)은 문서-음성 변환 및 자동 음성 인식 시스템의 충실도를 향상시키는 방법을 위한 시스템에 결합될 수 있다.

따라서, 본 발명의 바람직한 실시예에서, 대화 시스템의 충실도를 향상시키기 위한 방법 및 시스템이 기술된다. 본 발명은 특정 실시예로 기술되었지만, 본 발명은 그러한 실시예에 의해 한정되는 것으로 고려되어서는 않되며, 이하의 특허 청구 범위에 따라 해석되어야 한다.

Claims

대화 시스템의 충실도(fidelity)를 향상시키는 방법에 있어서,

제 1 양상(modality)으로 동작하는 제 1 시스템(211)의 사용자에 의해 생성된 제 1 입력(121)을 액세스하는 단계―상기 제 1 시스템(211)은 상기 제 1 입력(121)에 대응하는 제 1 출력(151)을 생성함―와,

제 2 양상으로 동작하는 제 2 시스템(212)의 사용자에 의해 생성된 제 2 입력(152)을 액세스하는 단계―상기 제 1 시스템(211)의 상기 사용자와 상기 제 2 시스템(212)의 상기 사용자가 대화에 참여함―와,

상기 제 1 시스템(211)의 상기 제 1 출력(151)을 변경하도록 상기 제 2 입력(152)을 이용하는 단계를 포함하는

대화 시스템의 충실도를 향상시키는 방법.
제 1 항에 있어서,

상기 제 1 시스템(211)은 문자-음성 변환 시스템(text-to-speech system)을 포함하고, 상기 제 2 시스템(212)은 자동 음성 인식 시스템(automatic speech recognition system)을 포함하며, 상기 이용하는 단계는,

상기 자동 음성 인식 시스템(212)의 오디오 입력(152)을 이용하여, 상기 문서-음성 변환 시스템(211)의 오디오 출력(151)을 변경하는 단계를 포함하는 대화 시스템의 충실도를 향상시키는 방법.
제 1 항에 있어서,

데이터베이스(213)를 변경하는 단계를 더 포함하되, 여기서, 본질적으로 사전 적응(dictionary adaptation) 및 사전 증가(dictionary augmentation)로 구성되는 그룹으로부터 선택된 처리가 수행되는 대화 시스템의 충실도를 향상시키는 방법.
제 3 항에 있어서,

상기 데이터베이스(213)는 상기 제 1 시스템(211)의 구성요소를 포함하는 대화 시스템의 충실도를 향상시키는 방법.
제 3 항에 있어서,

상기 데이터베이스(213)는 상기 제 2 시스템(212)의 구성요소를 포함하는 대화 시스템의 충실도를 향상시키는 방법.
제 3 항에 있어서,

상기 데이터베이스(213)는 상기 제 1 시스템(211) 및 상기 제 2 시스템(212)의 공통 구성요소를 포함하는 대화 시스템의 충실도를 향상시키는 방법.
제 1 항에 있어서,

상기 이용하는 단계는,

상기 제 1 출력(121)의 적어도 일부분을 상기 제 2 입력(152)으로 대체하는 단계를 포함하는 대화 시스템의 충실도를 향상시키는 방법.
제 1 항에 있어서,

상기 제 1 시스템은 자동 음성 인식 시스템(212)을 포함하고, 상기 제 2 시스템은 문서-음성 변환 시스템(211)을 포함하며, 상기 이용하는 단계는,

상기 문서-음성 변환 시스템(211)의 문서 입력(121)을 이용하여, 상기 자동 음성 인식 시스템(212)의 문서 출력(122)을 변경하는 단계를 포함하는 대화 시스템의 충실도를 향상시키는 방법.
컴퓨터 시스템이 대화 시스템의 충실도를 향상시키는 방법을 수행하도록 하는 컴퓨터 판독가능 프로그램 코드가 내장된 컴퓨터 이용가능 매체에 있어서,

상기 방법은,

제 1 양상으로 동작하는 제 1 시스템(211)의 사용자에 의해 생성된 제 1 입력(121)을 액세스하는 단계―상기 제 1 시스템(211)은 상기 제 1 입력(121)에 대응하는 제 1 출력(151)을 생성함―와,

제 2 양상으로 동작하는 제 2 시스템(212)의 사용자에 의해 생성된 제 2 입력(152)을 액세스하는 단계―상기 제 1 시스템(211)의 상기 사용자와 상기 제 2 시스템(211)의 상기 사용자가 대화에 참여함―와,

상기 제 1 시스템(211)의 상기 제 1 출력(151)을 변경하도록 상기 제 2 입력(152)을 이용하는 단계를 포함하는

컴퓨터 이용가능 매체.
제 9 항에 있어서,

상기 제 1 시스템은 문자-음성 변환 시스템(211)을 포함하고, 상기 제 2 시스템은 자동 음성 인식 시스템(212)을 포함하며, 상기 이용하는 단계는,

상기 자동 음성 인식 시스템(212)의 오디오 입력(152)을 이용하여, 상기 문서-음성 변환 시스템(211)의 오디오 출력(151)을 변경하는 단계를 포함하는 컴퓨터 이용가능 매체.