KR20000034881A

KR20000034881A - 메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스

Info

Publication number: KR20000034881A
Application number: KR1019990026971A
Authority: KR
Inventors: 파드마나반무쿤드; 피체니마이클; 나하무데이비드; 루커스새일림
Original assignee: 포만 제프리 엘; 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 1998-11-03
Filing date: 1999-07-05
Publication date: 2000-06-26
Also published as: JP2000148182A; JP3873131B2; CN1255011A; CN1155214C; US6219638B1; KR100329894B1

Abstract

본 발명에 따라 전화를 통해 음성을 수신하여 이 음성을 텍스트로 변환하는 메시지 시스템이 사용자에 의한 음성 입력을 수신하는 제 1 서버와, 음성을 텍스트로 변환하는 음성 인식 시스템과, 텍스트를 음성으로 변환하여 사용자에 의한 정정을 위해 합성된 음성을 재생하는 음성 합성기와, 사용자가 음성을 정정할 수 있도록 하여 정정된 음성이 통신 시스템을 통해 전송되는 텍스트로서 제공되는 정정 메카니즘을 포함한다. 본 명세서에는 본 발명에 따른 방법을 또한 개시한다.

Description

메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스{EDITING SYSTEM AND METHOD FOR USE WITH TELEPHONE MESSAGING TRANSCRIPTION}

정부 관련 정보

미국 정부는 본 발명에 대한 기지불 라이센스(paid-up license)를 가지며, 본 발명의 특허권자가 제 3 자에게 라이센스를 제공할 경우에 정부는 DARPA(Defense and Advanced Research Projects Agency)와의 계약서 MDA972-97-C- 0012의 타당한 문구에 기초해서 제공하도록 제한된 범위 내에서 요구할 수 있는 권리를 갖는다.

본 발명은 보이스(voice) 인식용 편집 시스템에 관한 것으로, 보다 상세하게는 전화기의 음성으로부터 변환전송된 메시지를 편집하기 위한 시스템 및 방법에 관한 것이다.

최근에, 개인 통신의 발전으로 인해 정보가 다양한 채널, 예컨대 음성, 다중매체(영상 및 음성), 텍스트(text)(이메일(e-mail), 페이저(pager)) 등을 통해 사용자에게 전송되고 있다. 이러한 발전으로 인해, 통합 메시지(message)의 개념이 발생하였는데, 여기서 다양한 매체를 통해 사용자에 의해 수신된 메시지는 단일의 저장소에 저장되어 그의/그녀의 편리한 때에 사용자에 의해 검색되거나 탐색될 수 있다. 또한, 사용자가 그의 메시지를 검색하는 데 매우 한정된 성능을 구비한 PDA(personal digital assistant)만을 갖는 경우가 있을 수도 있다. 그러나, 일반적으로 가장 평범한 PDA는 텍스트 수신을 지원할지라도 다중 매체 신호 수신은 지원할 수 없을 것이다. 따라서, 음성 및 다중 매체 신호를 텍스트로 변환함으로써 신호가 쉽게 액세싱(accessing)될 수 있도록 하는 것이 필요할 것이다. 이것은 통신을 위한 대역폭 요건, 즉 전송을 위해 텍스트 신호가 음성 신호보다 적은 대역폭이 필요하다는 것을 또한 암시한다.

보이스메일(voicemail)은 사람의 음성을 기록한 다음 메시지의 수신에 후속하여 재생하는 통상적으로 사용되는 메시지 시스템이다. 따라서, 통합 메시지의 중요한 구성 요소는 그러한 메시지를 텍스트로 변환하는 능력이다. 물론, 이것은 자동 음성 인식 알고리즘에 의해 행해질 수 있다. 그러나, 보이스메일 메시지는 전형적으로 임의의(메시지를 남기는 호출자는 지구 반대편 혹은 옆집에 있을 수 있다) 전화 대역폭 채널을 통해 기록된 무의식적인 음성을 나타내기 때문에, 이는 자동 음성 인식 시스템에 있어서 매우 도전적인 임무를 의미한다. 따라서, 변환전송된 텍스트 전체에 오류가 발생하여 메시지의 수취인이 메시지를 전혀 해독할 수 없는 위험이 있을 수 있다. 그러므로, 메시지를 남기는 사람이 변환전송문의 품질을 검사하여 필요하다면 이를 정정할 수 있는 소정의 궤환 메카니즘 형태를 포함하는 것이 이점이 있다.

따라서, 음성 데이터를 텍스트로 변환하고 변환전송된 텍스트를 보이스로 정정하는 특징을 포함하는 대화형 시스템 및 방법에 대한 필요성이 있다.

본 발명에 따르면, 음성을 수신하여 이를 텍스트로 변환하는 메시지 시스템은 사용자에 의한 음성 입력을 수신하는 제 1 서버와, 음성을 텍스트로 변환하는 음성 인식 시스템과, 텍스트를 음성으로 변환하고 사용자에 의한 정정을 위해 합성된 음성을 재생하는 음성 합성기와, 사용자가 음성을 정정할 수 있도록 하여 정정된 음성이 통신 시스템을 통해 전송되는 텍스트로서 제공되는 정정 메카니즘을 포함한다.

다른 실시예에서, 통신 시스템을 통해 전송되는 텍스트는 페이저, 이메일, 팩스 중 하나에 대한 전송을 포함할 수 있다. 정정 메카니즘은 정정을 위해 음성입력의 일부분을 선택하도록 사용자를 종용할 수 있다. 음성 인식 서버(server)는 진단(diagnostic) 데이터를 정정 메카니즘에 제공하여 음성 입력의 정정될 일부분을 나타낼 수 있다. 정정 매카니즘은 정정을 위해 음성 입력의 일부분을 재기록하도록 사용자를 종용할 수 있다. 시스템은 음성 입력을 통신 시스템을 통해 상이한 언어로 전송하기 위한 텍스트로 변환하는 언어 번역 서버를 더 포함할 수 있다. 시스템은 사용자를 식별하고 음성 인식 서버에 의한 음성 인식을 위해 음성 인식 모델(model)을 조절하는 화자(speaker) 식별 서버를 더 포함할 수 있다.

범용 메시지 시스템에 대한 메시지 정정 방법은 오디오(audio) 메시지를 기록하는 단계와, 음성 인식 시스템을 사용하여 메시지를 텍스트로 변환전송하는 단계와, 변환전송된 텍스트에 따라 음성을 제공하고 메시지를 정정을 위해 재생하는 단계와, 메시지의 정정될 일부분을 식별하는 단계와, 식별된 일부분을 재기록하여 메시지를 정정하는 단계와, 통신 시스템을 통해 텍스트를 출력하는 단계를 포함한다.

머신(machine)에 의해 판독 가능하며, 범용 메시지 시스템에서 메시지에 대한 정정을 제공하는 방법을 수행하기 위해 머신에 의해 실행 가능한 프로그램의 인스트럭션(instruction)을 명백히 포함하는 프로그램 저장 디바이스(deivce)가 오디오 메시지를 수신하는 단계와, 음성 인식 시스템을 사용하여 메시지를 텍스트로 변환전송하는 단계와, 변환전송된 텍스트에 따라 음성을 제공하고 메시지를 정정을 위해 재생하는 단계와, 메시지의 정정될 일부분을 식별하는 단계와, 식별된 일부분을 재기록하여 메시지를 정정하는 단계와, 통신 시스템을 통해 텍스트를 출력하는 단계를 포함한다.

프로그램 저장 디바이스에 의해 실행 가능한 다른 방법에 있어서, 오디오 메시지는 바람직하게 전화에 의해 기록된다. 메시지의 정정될 일부분을 식별하는 단계는 메시지 일부분의 정정 가능성을 판단하기 위해 음성 인식 서버로부터의 진단데이터를 제공하는 단계를 포함할 수 있다. 메시지의 정정될 일부분을 식별하는 단계는 재생된 메시지를 청취하여 정정될 일부분을 선택하는 단계를 포함할 수 있다. 식별된 일부분을 재기록하여 메시지를 정정하는 단계는 메시지의 일부분을 재기록하는 단계와, 재기록된 일부분을 변환하고 음성 인식 서버를 사용하여 텍스트를 교정하는 단계와, 교정된 텍스트에 따라 재기록된 일부분의 음성을 재생하여 만족스러우면 메시지의 일부분을 승인하는 단계를 포함할 수 있다. 다수의 언어 중하나로 메시지를 기록하는 단계가 포함될 수 있다. 다수의 언어 중 하나로 텍스트를 통신 시스템을 통해 출력하는 단계가 포함될 수 있다. 음성 인식 모델과 연관된 사용자를 식별하고 그 모델을 적용하여 사용자의 오디오 입력을 인식하는 단계가 포함될 수 있다.

본 발명의 이들 목적, 특징, 이점 및 다른 목적, 특징, 이점은 첨부한 도면을 참조하여 본 발명의 예시적인 실시예의 상세한 설명으로부터 명확해질 것이다.

도 1은 본 발명에 따른 정정 메카니즘을 구비하는 범용 메시지 시스템의 블럭/흐름도,

도 2는 본 발명에 따라 메시지를 정정하기 위한 흐름도.

도면의 주요 부분에 대한 부호의 설명

12 : 메시지 서버 14 : 컴퓨터

16 : 전화기 18 : 이메일(e-mail)

20 : 팩스 22 : 보이스메일(voicemail)

24 : 페이지 26 : 전화 통신 서버

32 : 음성 인식 자연 언어 서버 34 : 음성 합성 서버

36 : 정정 메카니즘 38 : 언어 번역 서버

40 : 화자(speaker) ID 서버 42 : 웹(web) 페이지

본 발명은 다음의 도면을 참조하여 바람직한 실시예의 설명으로 상세하게 설명될 것이다.

본 발명은 보이스(voice) 인식용 편집 시스템에 관한 것으로, 보다 상세하게는 전화의 음성으로부터 변환전송된 메시지를 편집하기 위한 시스템 및 방법에 관한 것이다.

도 1 및 도 2에 도시한 구성 요소는 다양한 형태의 하드웨어, 소프트웨어, 혹은 이들의 조합으로 구현될 수 있음을 이해해야 한다. 바람직하게, 이들 구성 요소는 프로세서(processor), 메모리, 입력/출력 인터페이스(interface)를 구비하는 적절히 프로그래밍(programming)된 하나 이상의 범용 디지털 컴퓨터 상의 소프트웨어로 구현된다. 동일한 번호는 동일하거나 유사한 구성 요소를 나타내는 도면들 중에서 먼저 도 1을 참조하면, 통합 메시지 시스템/방법에 대응하는 블럭/흐름도가 일반적으로 시스템(10)으로서 지칭된다. 메시지 서버(12)는 모든 메시지를 수신/전송 및 저장하는 범용 허브(hub)이다. 메시지 서버(12)는 메시지를 검색하기 위한 목적으로 컴퓨터(14) 혹은 전화(16)를 통해 몇몇 포맷(format)(이메일(e-mail)(18), 팩스(20), 보이스메일(voicemail)(22), 페이지(page)(24)) 중 하나로 메시지를 전송하도록 액세싱(accessing)될 수 있으며, 또한 소정의 전화 및 PDA(personal digital assistant)가 텍스트 메시지를 수신하거나 메시지 서버(12)상의 사용자 메시지를 예컨대, 삭제, 응답 등의 처리를 할 수 있다. 더욱이, 메시지 서버(12)는 또한 사용자에 대한 메시지를 이메일(18), 팩스(20), 혹은 페이지(24)를 통해 직접 수신할 수 있다.

전화(16)를 통해 수신된 사용자에 대한 메시지가 또한 메시지 서버(12)에 저장될 수 있지만, 전화(16)로부터의 착신 음성 신호와 메시지 서버(12) 간의 중간 브리지(bridge)로서 작동하는 부가적인 전화 통신 서버(server)(26)가 있을 수 있다. 다른 실시예에서는 전화 통신 서버(26)가 메시지 서버(12) 내에 포함될 수 있다. 전화 통신 서버(26)는 또한 시스템(10) 구성 요소 간의 정보 흐름을 제어한다.

서버라는 용어는 네트워크를 통해 바람직하게 액세스 가능한 동일한 컴퓨터 혹은 상이한 컴퓨터에서 동작하는 프로그램이나 컴퓨터를 나타내는 데 사용되는 것으로 이해하여야 한다.

이제, 시스템/방법을 설명할 것인데, 사용자가 전화(16)를 사용하여 다른 사용자에 대한 메시지를 남겨놓을 수 있으며, 다양한 시스템 구성 요소의 기능이 그 방법에 포함된다.

제 1 사용자가 전화 호출을 한 다음 전화 통신 서버(26)가 그 전화 호출을 받으면, 이 전화 통신 서버(26)는 다른 사용자에 대한 메시지를 남기거나, 제 1 사용자의 메시지를 검색하거나, 제 1 사용자의 메시지를 처리하는 옵션(oprion)을 제 1 사용자에게 제공한다. 이 옵션은 전화 통신 서버(26)에 의해 제공되는 지시메시지(prompt)를 통해 제 1 사용자에게 제공된다. 제 1 사용자는 하나의 옵션을 선택하는 기회를 가질 수 있고, 이 하나의 옵션은 사전설정된 톤(tone)(옵션 1에 대해서는 1을 누름, 옵션 2에 대해서는 2를 누름 등)을 통하거나 제 1 사용자의 구두 응답을 기록하여 음성 인식 서버(32)로 음성을 텍스트로 변환시킴으로써 지정될 수 있으며, 이 음성 인식 서버(32)는 본 명세서에서 참조로서 인용되며 1995년도에 엘. 알. 발(L.R. Bahl) 등에 의한 "Performance of the IBM Large Vocabulary Continuous Speech Recognition System on ARPA Wall Street Journal Task", Proceedings of the International Acoustics Speech and Signal Processing에 개시된 시스템과 유사할 수 있다. 인식된 텍스트는 사용자가 어떤 옵션을 선택했는지를 판단하는 데 사용된다.

제 1 사용자가 다른 사용자에 대한 메시지를 남기려하는 경우, 시스템(10)은 메시지를 음성 메시지로서 바로 저장하거나 메시지를 텍스트로 변환하는 옵션을 제 1 사용자에게 제공한다. 사용자는 전술한 바와 같은 톤 혹은 음성으로 지정될 수 있는 옵션을 선택한다. 사용자가 페이지를 문자·숫자 페이저(pager)로 전송하려 하거나 메시지를 상이한 언어로 전송하려는 경우에는 음성을 텍스트로 변환하는 것이 필수적일 것이다.

사용자가 이 옵션을 지정하면, 전화 통신 서버(26)가 사용자에게 메시지를 기록할 것인지를 문의하는 지시메시지를 들려준다. 메시지가 일단 기록되면(메시지의 종료는 바람직하게 통화 중 침묵에 대한 검출이나 사용자가 키이(key)를 누름으로써 결정됨), 기록된 음성은 음성 인식 서버(32)로 전송된다. 음성 인식 서버(32)는 자동 음성 인식 알고리즘(algorithm)을 사용하여 음성을 텍스트로 변환 전송하고(변환전송문을 필터링(filtering)하기 위해 자연 언어 처리를 사용하는 것이 가능함), 변환전송된 텍스트를 (발음에서 각 단어에 대해 발생된 가능성 스코어(score), 혹은 발음에서 각 단어나 각 단어 또는 서브워드(subword)의 주기등에 관한 신뢰도 측정값과 같은) 소정의 진단값과 함께 전화 통신 서버(26)로 다시 전송한다.

전화 통신 서버(26)는 텍스트와 진단값을 음성 합성 서버(34)로 전송한 다음에, 이 음성 합성 서버(34)는 합성된 음성을 발생하여 이를 전화 통신 서버(26)로 다시 전송한다. 전화 통신 서버(26)는 본 발명에 따라 전화선을 통해 음성(이 음성은 많은 오류가 있을 수 있는 음성 인식 서버(32)에 의해 발생된 변환전송문에 대응함을 주지해야 함)을 사용자에게 다시 들려준다.

사용자에게 음성을 다시 들려주는 한가지 목적은 사용자가 마음에 들지 않거나 정확하지 않은 부분을 정정할 수 있도록 하기 위해서이다. 따라서, 전화 통신 서버(26)가 사용자에게 메시지를 정정하는 옵션을 제공하는 이점이 있다.

정정 매카니즘(36)과 연관된 음성의 재생은 다수의 방식으로 달성될 수 있다. 소정의 예로는 (i) 전화 통신 서버(26)가 전체 메시지를 사용자에게 다시 들려주어 마음에 들지 않거나 정확하지 않으면 메시지를 재기록할 것인지를 사용자에게 문의하는 방식과, (ii) 전화 통신 서버(26)가 음성 인식 서버(32)로부터 수신한 신뢰할 수 있는 진단값을 사용하여 낮은 신뢰도를 갖는 변환전송문의 부분을 판단하여 이들 부분만을 정정할 것인지를 사용자에게 문의하는 방식과, (iii) 전화 통신 서버(26)가 소정의 측정값 예컨대, 경과 시간 혹은 음성의 일시 정지에 근거하여 변환전송문을 부분으로 나누어 각 부분을 다시 사용자에게 들려주어 각각의 세그멘트(segment)를 개별적으로 정정하는 옵션을 사용자에게 제공하는 방식이 있다. 다른 정정 방법이 본 발명에 의해 또한 고찰된다.

사용자가 메시지의 어떤 원하는 부분을 정정할 수 있는 정정 메카니즘(36)은 상이한 방식으로 또한 달성될 수도 있다. 소정의 예로는 (i) 사용자가 전화(16) 상의 키이를 눌러 메시지(혹은 메시지의 일부)의 승인 혹은 거절을 표시하여 세그멘트를 재기록하며, 이 세그멘트는 전술한 바와 같은 동일한 방식으로 처리되는 방식과, (ii) 사용자가 "예" 혹은 "OK"를 말하거나 침묵하여 메시지의 승인을 표시하거나 "아니오"라고 말하여 거절을 표시하는 방식이 있다. 이 경우에, 사용자의 응답이 기록되어 텍스트로 변환전송되며, 변환전송된 텍스트("예", "OK", "침묵", 혹은 "아니오")는 사용자가 선택한 옵션을 결정한다.

사용자가 변환전송문에 만족한 후, 전화 통신 서버(26)는 사용자에 의해 선택된 바에 따라 통신 네트워크 혹은 시스템을 통해 텍스트를 기록된 음성과 함께 메시지 서버(12)로 전송하여 인스트럭션에 따라 나중에 액세싱하기 위해 이를 저장하거나 이메일(18), 팩스(20), 혹은 페이지(24)를 통해 텍스트를 전송한다.

또다른 실시예에서는 사용자가 다른 언어로 메시지를 전송하기를 원한다면, 전화 통신 서버(26)는 텍스트를 언어 번역 서버(38)로 전송하고, 이 언어 번역 서버(38)는 자동 번역 알고리즘을 사용하여 텍스트를 상이한 언어로 변환하여 번역된 텍스트를 전화 통신 서버(26)로 다시 전송하며, 이 전화 통신 서버(26)는 후속 처리를 위해 번역된 텍스트를 메시지 서버(12)로 전송한다.

일반적으로, 음성의 변환전송을 행하는 동안에 화자(speaker) 특정화 혹은 화자 적응 모델이 사용된다면 음성 인식 서버(32)의 음성 인식 수행이 개선된다. 따라서, 전화 통신 서버(26)가 화자 식별 서버(40)와 통신하여 호출 사용자의 신분을 판단할 수 있거나, 이와 달리 사용자에게 그의/그녀의 이름을 말하도록 요청하고 화자 독립 모델과 함께 음성 인식 서버(32)를 사용하여 음성을 변환전송하여 그 변환전송문을 사용하여 사용자의 신분을 판단할 수 있다. 사용자의 신분이 일단 판단되면, 음성 인식 서버(32)는 특정한 사용자 혹은 (가능하면) 사용자의 클래스(class)에 맞추어진 모델을 사용하여 그의/그녀의 음성을 변환전송 할 수 있다.

또다른 실시예에서는 메시지 서버(12)에 저장된 메시지가 다수의 구좌(account)/주소/디바이스에 전송될 수 있다. 예를 들면, 저장된 변환전송 메시지는 제 1 사용자 그룹의 페이저(pager)로 전송되고, 제 2 사용자 그룹에 이메일로 전송되며/되거나 제 3 사용자에게 팩스로 전송될 수 있다. 시스템(10)은 또한 상이한 매체 예컨대, 페이지, 팩스 등을 사용하여 동일한 메시지를 한 사용자에게 전송하는 데 사용될 수 있다. 또한, 음성 합성 서버(34)는 텍스트 메시지를 합성하여 이를 전화 혹은 보이스메일 시스템으로 전송하는 데 사용될 수 있다. 또다른 실시예에서, 각각의 사용자는 메시지가 각 사용자에게 변환전송될 때 자동적으로 갱신되는 개인 웹페이지(webpage)(42)를 가질 수 있다. 웹페이지(42)는 인터넷(Internet)과 같은 통신 네트워크를 통해 액세싱된다.

도 2를 참조하면, 사용자가 메시지를 기록하도록 지정하는 경우, 블럭(120)에서는 메시지를 기록할지를 문의하는 지시메시지를 사용자에게 들려준다. 단계(104)에서는 전화기 혹은 다른 음성 입력 디바이스에 말함으로써 메시지를 기록(메시지의 종료는 바람직하게 통화 중 침묵을 검출하거나 사용자가 키이를 누름으로써 결정됨)하며, 기록된 음성을 음성 인식 서버(32)로 전송한다(도 1). 블럭(106)에서는 음성 인식 서버(32)가 자동 음성 인식 알고리즘을 사용하여 음성을 텍스트로 변환전송하고(변환전송문을 필터링하기 위해 자연 언어 처리를 사용하는 것이 가능함), 변환전송된 텍스트를 (발음에서 각 단어에 대해 발생된 가능성 스코어, 혹은 발음에서 각 단어나 각 단어 또는 서브워드의 주기 등에 관한 신뢰도 측정값과 같은) 소정의 진단값과 함께 전화 통신 서버(26)로 다시 전송한다.

블럭(108)에서는 전화 통신 서버(26)가 텍스트와 진단값을 음성 합성 서버(34)로 전송한 다음에, 이 음성 합성 서버(34)는 합성된 음성을 발생하여 이를 전화 통신 서버(26)로 다시 전송한다. 전화 통신 서버(26)는 본 발명에 따라 전화선을 통해 음성(이 음성은 많은 오류가 있을 수 있는 음성 인식 서버(32)에 의해 발생된 변환전송문에 대응함을 주지해야 함)을 사용자에게 다시 들려준다.

블럭(110)에서는 사용자가 메시지에서 마음에 들지 않거나 정확하지 않은 부분을 정정한다. 정정의 위한 음성의 재생은 다수의 방식으로 달성될 수 있다. 소정의 예로는 (i) 전체 메시지를 사용자에게 다시 들려주어 마음에 들지 않거나 정확하지 않으면 메시지를 재기록할 것인지를 사용자에게 문의하는 방식과, (ii) 음성 인식 서버(32)로부터 수신한 신뢰할 수 있는 진단값을 사용하여 낮은 신뢰도를 갖는 변환전송문의 부분을 판단하여 이들 부분만을 정정할 것인지를 사용자에게 문의하는 방식과, (iii) 소정의 측정값 예컨대, 경과 시간 혹은 음성의 일시 정지에 근거하여 변환전송문을 부분으로 나누어 각 부분을 다시 사용자에게 들려주어 각각의 세그멘트(segment)를 개별적으로 정정하는 옵션을 사용자에게 제공하는 방식이 있다. 다른 정정 방법이 본 발명에 의해 또한 고찰된다.

메시지의 부분은 개별적으로 정정될 수 있다. 소정의 예로는 (i) 사용자가 전화(16) 상의 키이를 눌러 메시지(혹은 메시지의 일부)의 승인 혹은 거절을 표시하여 세그멘트를 재기록하며, 이 세그멘트는 전술한 바와 같은 동일한 방식으로 처리되는 방식과, (ii) 사용자가 "예" 혹은 "OK"를 말하거나 침묵하여 메시지의 승인을 표시하거나 "아니오"라고 말하여 거절을 표시하는 방식이 있다. 이 경우에, 사용자의 응답이 기록되어 텍스트로 변환전송되며, 변환전송된 텍스트("예", "OK", "침묵", 혹은 "아니오")는 사용자가 선택한 옵션을 결정한다.

블럭(112)에서는 사용자가 변환전송문에 만족한 후, 전화 통신 서버(26)는 사용자에 의해 선택된 바에 따라 텍스트를 기록된 음성과 함께 메시지 서버(12)로 전송하여 인스트럭션에 따라 나중에 액세싱하기 위해 이를 저장하거나 이메일(18), 팩스(20), 혹은 페이지(24)를 통해 텍스트를 전송한다. 사용자가 전화 시스템과 같은 통신 네트워크를 통해 전송하는 것을 선택한다면, 메시지는 상이한 언어로 변환될 것이다. 또한, 사용자는 메시지가 기록되는 언어를 지정할 수 있다. 이것은 전술한 화자 식별 처리의 부분일 수 있다.

전화 메시지의 변환전송문을 사용하기 위한 편집 시스템 및 방법의 바람직한 실시예(예시의 목적이지 제한을 위한 것이 아님)를 설명하였지만, 전술한 내용에 비추어 보면 당업자에 의해 변경 및 변형이 이루어질 수 있음을 주지해야 한다. 따라서, 첨부한 청구 범위로 요약한 바와 같이 본 발명의 범주 및 사상 내에서 개시한 본 발명의 특정한 실시예에서의 변형이 이루어질 수 있음을 이해하여야 한다. 특허법이 요구하는 상세한 설명 및 특징으로서 본 발명을 설명하였으나, 특허에 의해 보호받기를 원하는 청구 범위를 첨부한 청구 범위에 개시한다.

본 발명에 따르면, 음성 데이터를 텍스트로 변환하고 변환전송된 텍스트를 보이스로 정정하는 특징을 포함하는 대화형 편집 시스템 및 방법이 제공된다.

Claims

음성을 수신하고 상기 음성을 텍스트(text)로 변환하는 메시지 시스템에 있어서,

사용자에 의한 음성 입력을 수신하는 제 1 서버와,

상기 음성을 텍스트로 변화하는 음성 인식 시스템과,

상기 텍스트를 합성된 음성으로 변환하여 상기 사용자가 정정하도록 상기 합성된 음성을 재생하는 음성 합성기와,

상기 사용자가 상기 합성된 음성을 정정할 수 있도록 하여 상기 정정된 음성이 통신 시스템을 통해 전송되는 텍스트로서 제공되는 정정 매카니즘(mechanism)

을 포함하는 메시지 시스템.
제 1 항에 있어서,

상기 통신 시스템을 통해 전송되는 상기 텍스트가 텍스트 판독 디바이스(device)에 대한 전송을 포함하는 메시지 시스템.
제 1 항에 있어서,

상기 정정 메카니즘이 정정을 위해 상기 음성 입력의 일부분을 선택하도록 상기 사용자를 종용하는 메시지 시스템.
제 1 항에 있어서,

상기 음성 인식 서버가 진단 데이터를 상기 정정 메카니즘에 제공하여 상기 음성 입력의 정정될 일부분을 표시하는 메시지 시스템.
제 1 항에 있어서,

상기 정정 메카니즘이 정정을 위해 상기 음성 입력의 일부분을 재기록하도록 상기 사용자를 종용하는 메시지 시스템.
제 1 항에 있어서,

상기 통신 시스템을 통해 상이한 언어로 전송하기 위해 상기 음성 입력을 텍스트로 변환하는 언어 번역 서버를 더 포함하는 메시지 시스템.
제 1 항에 있어서,

상기 사용자를 식별하고 상기 음성 인식 서버로 음성 인식에 대한 음성 인식 모델을 조절하는 화자(speaker) 식별 서버를 더 포함하는 메시지 시스템.
범용 메시지 시스템에 대한 메시지를 정정하는 방법에 있어서,

오디오(audio) 메시지를 기록하는 단계와,

음성 인식 시스템을 사용하여 상기 메시지를 텍스트로 변환전송하는 단계와,

상기 변환전송된 텍스트에 따라 음성을 제공하고 정정을 위해 상기 메시지를 재생하는 단계와,

상기 메시지의 정정될 일부분을 식별하는 단계와,

상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 단계와,

상기 정정된 텍스트를 통신 시스템을 통해 출력하는 단계

를 포함하는 메시지 정정 방법.
제 8 항에 있어서,

상기 오디오 메시지가 전화에 의해 기록되는 메시지 정정 방법.
제 8 항에 있어서,

상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 메시지 일부분의 정정 가능성을 판단하기 위해 상기 음성 인식 서버로부터의 진단 데이터를 제공하는 단계를 포함하는 메시지 정정 방법.
제 8 항에 있어서,

상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 재생된 메시지를 청취하여 정정될 일부분을 선택하는 단계를 포함하는 메시지 정정 방법.
제 8 항에 있어서,

상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 상기 단계가,

상기 메시지의 일부분을 재기록하는 단계와,

상기 재기록된 일부분을 변환하고 상기 음성 인식 서버를 사용하여 상기 텍스트를 교정하는 단계와,

상기 교정된 텍스트에 따라 상기 재기록된 일부분의 음성을 재생하는 단계와,

만족스러우면, 상기 메시지의 일부분을 승인하는 단계

를 포함하는 메시지 정정 방법.
제 8 항에 있어서,

다수의 언어 중 하나로 상기 메시지를 기록하는 단계를 더 포함하는 메시지 정정 방법.
제 8 항에 있어서,

상기 통신 시스템을 통해 다수의 언어 중 하나로 상기 텍스트를 출력하는 단계를 더 포함하는 메시지 정정 방법.
제 8 항에 있어서,

음성 인식 모델과 연관된 사용자를 식별하는 단계와,

상기 모델을 적용하여 상기 사용자의 상기 오디오 입력을 인식하는 단계

를 더 포함하는 메시지 정정 방법.
머신(machine)에 의해 판독가능하며, 범용 메시지 시스템에서 메시지에 대한 정정을 제공하는 방법을 수행하기 위해 상기 머신에 의해 실행가능한 프로그램의 인스트럭션(instruction)을 명백히 포함하는 프로그램 저장 디바이스에 있어서,

상기 방법이,

오디오 메시지를 기록하는 단계와,

음성 인식 시스템을 사용하여 상기 메시지를 텍스트로 변환전송하는 단계와,

상기 변환전송된 음성을 제공하고 정정을 위해 상기 메시지를 재생하는 단계와,

상기 메시지의 정정될 일부분을 식별하는 단계와,

상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 단계와,

상기 정정된 텍스트를 통신 시스템을 통해 출력하는 단계

를 포함하는 프로그램 저장 디바이스.
제 16 항에 있어서,

상기 오디오 메시지가 전화에 의해 기록되는 프로그램 저장 디바이스.
제 16 항에 있어서,

상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 메시지 일부분의 정정 가능성을 판단하기 위해 상기 음성 인식 서버로부터의 진단 데이터를 제공하는 단계를 포함하는 프로그램 저장 디바이스.
제 16 항에 있어서,

상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 재생된 메시지를 청취하여 정정될 일부분을 선택하는 단계를 포함하는 프로그램 저장 디바이스.
제 16 항에 있어서,

상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 상기 단계가,

상기 메시지의 일부분을 재기록하는 단계와,

상기 재기록된 일부분을 변환하고 상기 음성 인식 서버를 사용하여 상기 텍스트를 교정하는 단계와,

상기 교정된 텍스트에 따라 상기 재기록된 일부분의 음성을 재생하는 단계와,

만족스러우면, 상기 메시지의 일부분을 승인하는 단계

를 포함하는 프로그램 저장 디바이스.
제 16 항에 있어서,

다수의 언어 중 하나로 상기 메시지를 기록하는 단계를 더 포함하는 프로그램 저장 디바이스.
제 16 항에 있어서,

상기 통신 시스템을 통해 다수의 언어 중 하나로 상기 텍스트를 출력하는 단계를 더 포함하는 프로그램 저장 디바이스.
제 16 항에 있어서,

음성 인식 모델과 연관된 사용자를 식별하는 단계와,

상기 모델을 적용하여 상기 사용자의 상기 오디오 입력을 인식하는 단계

를 더 포함하는 프로그램 저장 디바이스.