KR20000034881A - 메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스 - Google Patents

메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스 Download PDF

Info

Publication number
KR20000034881A
KR20000034881A KR1019990026971A KR19990026971A KR20000034881A KR 20000034881 A KR20000034881 A KR 20000034881A KR 1019990026971 A KR1019990026971 A KR 1019990026971A KR 19990026971 A KR19990026971 A KR 19990026971A KR 20000034881 A KR20000034881 A KR 20000034881A
Authority
KR
South Korea
Prior art keywords
message
text
user
voice
corrected
Prior art date
Application number
KR1019990026971A
Other languages
English (en)
Other versions
KR100329894B1 (ko
Inventor
파드마나반무쿤드
피체니마이클
나하무데이비드
루커스새일림
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Publication of KR20000034881A publication Critical patent/KR20000034881A/ko
Application granted granted Critical
Publication of KR100329894B1 publication Critical patent/KR100329894B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/10Telephonic communication systems specially adapted for combination with other electrical systems with dictation recording and playback systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/533Voice mail systems
    • H04M3/53366Message disposing or creating aspects
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/50Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
    • H04M3/53Centralised arrangements for recording incoming messages, i.e. mailbox systems
    • H04M3/5307Centralised arrangements for recording incoming messages, i.e. mailbox systems for recording messages comprising any combination of audio and non-audio components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

본 발명에 따라 전화를 통해 음성을 수신하여 이 음성을 텍스트로 변환하는 메시지 시스템이 사용자에 의한 음성 입력을 수신하는 제 1 서버와, 음성을 텍스트로 변환하는 음성 인식 시스템과, 텍스트를 음성으로 변환하여 사용자에 의한 정정을 위해 합성된 음성을 재생하는 음성 합성기와, 사용자가 음성을 정정할 수 있도록 하여 정정된 음성이 통신 시스템을 통해 전송되는 텍스트로서 제공되는 정정 메카니즘을 포함한다. 본 명세서에는 본 발명에 따른 방법을 또한 개시한다.

Description

메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스{EDITING SYSTEM AND METHOD FOR USE WITH TELEPHONE MESSAGING TRANSCRIPTION}
정부 관련 정보
미국 정부는 본 발명에 대한 기지불 라이센스(paid-up license)를 가지며, 본 발명의 특허권자가 제 3 자에게 라이센스를 제공할 경우에 정부는 DARPA(Defense and Advanced Research Projects Agency)와의 계약서 MDA972-97-C- 0012의 타당한 문구에 기초해서 제공하도록 제한된 범위 내에서 요구할 수 있는 권리를 갖는다.
본 발명은 보이스(voice) 인식용 편집 시스템에 관한 것으로, 보다 상세하게는 전화기의 음성으로부터 변환전송된 메시지를 편집하기 위한 시스템 및 방법에 관한 것이다.
최근에, 개인 통신의 발전으로 인해 정보가 다양한 채널, 예컨대 음성, 다중매체(영상 및 음성), 텍스트(text)(이메일(e-mail), 페이저(pager)) 등을 통해 사용자에게 전송되고 있다. 이러한 발전으로 인해, 통합 메시지(message)의 개념이 발생하였는데, 여기서 다양한 매체를 통해 사용자에 의해 수신된 메시지는 단일의 저장소에 저장되어 그의/그녀의 편리한 때에 사용자에 의해 검색되거나 탐색될 수 있다. 또한, 사용자가 그의 메시지를 검색하는 데 매우 한정된 성능을 구비한 PDA(personal digital assistant)만을 갖는 경우가 있을 수도 있다. 그러나, 일반적으로 가장 평범한 PDA는 텍스트 수신을 지원할지라도 다중 매체 신호 수신은 지원할 수 없을 것이다. 따라서, 음성 및 다중 매체 신호를 텍스트로 변환함으로써 신호가 쉽게 액세싱(accessing)될 수 있도록 하는 것이 필요할 것이다. 이것은 통신을 위한 대역폭 요건, 즉 전송을 위해 텍스트 신호가 음성 신호보다 적은 대역폭이 필요하다는 것을 또한 암시한다.
보이스메일(voicemail)은 사람의 음성을 기록한 다음 메시지의 수신에 후속하여 재생하는 통상적으로 사용되는 메시지 시스템이다. 따라서, 통합 메시지의 중요한 구성 요소는 그러한 메시지를 텍스트로 변환하는 능력이다. 물론, 이것은 자동 음성 인식 알고리즘에 의해 행해질 수 있다. 그러나, 보이스메일 메시지는 전형적으로 임의의(메시지를 남기는 호출자는 지구 반대편 혹은 옆집에 있을 수 있다) 전화 대역폭 채널을 통해 기록된 무의식적인 음성을 나타내기 때문에, 이는 자동 음성 인식 시스템에 있어서 매우 도전적인 임무를 의미한다. 따라서, 변환전송된 텍스트 전체에 오류가 발생하여 메시지의 수취인이 메시지를 전혀 해독할 수 없는 위험이 있을 수 있다. 그러므로, 메시지를 남기는 사람이 변환전송문의 품질을 검사하여 필요하다면 이를 정정할 수 있는 소정의 궤환 메카니즘 형태를 포함하는 것이 이점이 있다.
따라서, 음성 데이터를 텍스트로 변환하고 변환전송된 텍스트를 보이스로 정정하는 특징을 포함하는 대화형 시스템 및 방법에 대한 필요성이 있다.
본 발명에 따르면, 음성을 수신하여 이를 텍스트로 변환하는 메시지 시스템은 사용자에 의한 음성 입력을 수신하는 제 1 서버와, 음성을 텍스트로 변환하는 음성 인식 시스템과, 텍스트를 음성으로 변환하고 사용자에 의한 정정을 위해 합성된 음성을 재생하는 음성 합성기와, 사용자가 음성을 정정할 수 있도록 하여 정정된 음성이 통신 시스템을 통해 전송되는 텍스트로서 제공되는 정정 메카니즘을 포함한다.
다른 실시예에서, 통신 시스템을 통해 전송되는 텍스트는 페이저, 이메일, 팩스 중 하나에 대한 전송을 포함할 수 있다. 정정 메카니즘은 정정을 위해 음성입력의 일부분을 선택하도록 사용자를 종용할 수 있다. 음성 인식 서버(server)는 진단(diagnostic) 데이터를 정정 메카니즘에 제공하여 음성 입력의 정정될 일부분을 나타낼 수 있다. 정정 매카니즘은 정정을 위해 음성 입력의 일부분을 재기록하도록 사용자를 종용할 수 있다. 시스템은 음성 입력을 통신 시스템을 통해 상이한 언어로 전송하기 위한 텍스트로 변환하는 언어 번역 서버를 더 포함할 수 있다. 시스템은 사용자를 식별하고 음성 인식 서버에 의한 음성 인식을 위해 음성 인식 모델(model)을 조절하는 화자(speaker) 식별 서버를 더 포함할 수 있다.
범용 메시지 시스템에 대한 메시지 정정 방법은 오디오(audio) 메시지를 기록하는 단계와, 음성 인식 시스템을 사용하여 메시지를 텍스트로 변환전송하는 단계와, 변환전송된 텍스트에 따라 음성을 제공하고 메시지를 정정을 위해 재생하는 단계와, 메시지의 정정될 일부분을 식별하는 단계와, 식별된 일부분을 재기록하여 메시지를 정정하는 단계와, 통신 시스템을 통해 텍스트를 출력하는 단계를 포함한다.
머신(machine)에 의해 판독 가능하며, 범용 메시지 시스템에서 메시지에 대한 정정을 제공하는 방법을 수행하기 위해 머신에 의해 실행 가능한 프로그램의 인스트럭션(instruction)을 명백히 포함하는 프로그램 저장 디바이스(deivce)가 오디오 메시지를 수신하는 단계와, 음성 인식 시스템을 사용하여 메시지를 텍스트로 변환전송하는 단계와, 변환전송된 텍스트에 따라 음성을 제공하고 메시지를 정정을 위해 재생하는 단계와, 메시지의 정정될 일부분을 식별하는 단계와, 식별된 일부분을 재기록하여 메시지를 정정하는 단계와, 통신 시스템을 통해 텍스트를 출력하는 단계를 포함한다.
프로그램 저장 디바이스에 의해 실행 가능한 다른 방법에 있어서, 오디오 메시지는 바람직하게 전화에 의해 기록된다. 메시지의 정정될 일부분을 식별하는 단계는 메시지 일부분의 정정 가능성을 판단하기 위해 음성 인식 서버로부터의 진단데이터를 제공하는 단계를 포함할 수 있다. 메시지의 정정될 일부분을 식별하는 단계는 재생된 메시지를 청취하여 정정될 일부분을 선택하는 단계를 포함할 수 있다. 식별된 일부분을 재기록하여 메시지를 정정하는 단계는 메시지의 일부분을 재기록하는 단계와, 재기록된 일부분을 변환하고 음성 인식 서버를 사용하여 텍스트를 교정하는 단계와, 교정된 텍스트에 따라 재기록된 일부분의 음성을 재생하여 만족스러우면 메시지의 일부분을 승인하는 단계를 포함할 수 있다. 다수의 언어 중하나로 메시지를 기록하는 단계가 포함될 수 있다. 다수의 언어 중 하나로 텍스트를 통신 시스템을 통해 출력하는 단계가 포함될 수 있다. 음성 인식 모델과 연관된 사용자를 식별하고 그 모델을 적용하여 사용자의 오디오 입력을 인식하는 단계가 포함될 수 있다.
본 발명의 이들 목적, 특징, 이점 및 다른 목적, 특징, 이점은 첨부한 도면을 참조하여 본 발명의 예시적인 실시예의 상세한 설명으로부터 명확해질 것이다.
도 1은 본 발명에 따른 정정 메카니즘을 구비하는 범용 메시지 시스템의 블럭/흐름도,
도 2는 본 발명에 따라 메시지를 정정하기 위한 흐름도.
도면의 주요 부분에 대한 부호의 설명
12 : 메시지 서버 14 : 컴퓨터
16 : 전화기 18 : 이메일(e-mail)
20 : 팩스 22 : 보이스메일(voicemail)
24 : 페이지 26 : 전화 통신 서버
32 : 음성 인식 자연 언어 서버 34 : 음성 합성 서버
36 : 정정 메카니즘 38 : 언어 번역 서버
40 : 화자(speaker) ID 서버 42 : 웹(web) 페이지
본 발명은 다음의 도면을 참조하여 바람직한 실시예의 설명으로 상세하게 설명될 것이다.
본 발명은 보이스(voice) 인식용 편집 시스템에 관한 것으로, 보다 상세하게는 전화의 음성으로부터 변환전송된 메시지를 편집하기 위한 시스템 및 방법에 관한 것이다.
도 1 및 도 2에 도시한 구성 요소는 다양한 형태의 하드웨어, 소프트웨어, 혹은 이들의 조합으로 구현될 수 있음을 이해해야 한다. 바람직하게, 이들 구성 요소는 프로세서(processor), 메모리, 입력/출력 인터페이스(interface)를 구비하는 적절히 프로그래밍(programming)된 하나 이상의 범용 디지털 컴퓨터 상의 소프트웨어로 구현된다. 동일한 번호는 동일하거나 유사한 구성 요소를 나타내는 도면들 중에서 먼저 도 1을 참조하면, 통합 메시지 시스템/방법에 대응하는 블럭/흐름도가 일반적으로 시스템(10)으로서 지칭된다. 메시지 서버(12)는 모든 메시지를 수신/전송 및 저장하는 범용 허브(hub)이다. 메시지 서버(12)는 메시지를 검색하기 위한 목적으로 컴퓨터(14) 혹은 전화(16)를 통해 몇몇 포맷(format)(이메일(e-mail)(18), 팩스(20), 보이스메일(voicemail)(22), 페이지(page)(24)) 중 하나로 메시지를 전송하도록 액세싱(accessing)될 수 있으며, 또한 소정의 전화 및 PDA(personal digital assistant)가 텍스트 메시지를 수신하거나 메시지 서버(12)상의 사용자 메시지를 예컨대, 삭제, 응답 등의 처리를 할 수 있다. 더욱이, 메시지 서버(12)는 또한 사용자에 대한 메시지를 이메일(18), 팩스(20), 혹은 페이지(24)를 통해 직접 수신할 수 있다.
전화(16)를 통해 수신된 사용자에 대한 메시지가 또한 메시지 서버(12)에 저장될 수 있지만, 전화(16)로부터의 착신 음성 신호와 메시지 서버(12) 간의 중간 브리지(bridge)로서 작동하는 부가적인 전화 통신 서버(server)(26)가 있을 수 있다. 다른 실시예에서는 전화 통신 서버(26)가 메시지 서버(12) 내에 포함될 수 있다. 전화 통신 서버(26)는 또한 시스템(10) 구성 요소 간의 정보 흐름을 제어한다.
서버라는 용어는 네트워크를 통해 바람직하게 액세스 가능한 동일한 컴퓨터 혹은 상이한 컴퓨터에서 동작하는 프로그램이나 컴퓨터를 나타내는 데 사용되는 것으로 이해하여야 한다.
이제, 시스템/방법을 설명할 것인데, 사용자가 전화(16)를 사용하여 다른 사용자에 대한 메시지를 남겨놓을 수 있으며, 다양한 시스템 구성 요소의 기능이 그 방법에 포함된다.
제 1 사용자가 전화 호출을 한 다음 전화 통신 서버(26)가 그 전화 호출을 받으면, 이 전화 통신 서버(26)는 다른 사용자에 대한 메시지를 남기거나, 제 1 사용자의 메시지를 검색하거나, 제 1 사용자의 메시지를 처리하는 옵션(oprion)을 제 1 사용자에게 제공한다. 이 옵션은 전화 통신 서버(26)에 의해 제공되는 지시메시지(prompt)를 통해 제 1 사용자에게 제공된다. 제 1 사용자는 하나의 옵션을 선택하는 기회를 가질 수 있고, 이 하나의 옵션은 사전설정된 톤(tone)(옵션 1에 대해서는 1을 누름, 옵션 2에 대해서는 2를 누름 등)을 통하거나 제 1 사용자의 구두 응답을 기록하여 음성 인식 서버(32)로 음성을 텍스트로 변환시킴으로써 지정될 수 있으며, 이 음성 인식 서버(32)는 본 명세서에서 참조로서 인용되며 1995년도에 엘. 알. 발(L.R. Bahl) 등에 의한 "Performance of the IBM Large Vocabulary Continuous Speech Recognition System on ARPA Wall Street Journal Task", Proceedings of the International Acoustics Speech and Signal Processing에 개시된 시스템과 유사할 수 있다. 인식된 텍스트는 사용자가 어떤 옵션을 선택했는지를 판단하는 데 사용된다.
제 1 사용자가 다른 사용자에 대한 메시지를 남기려하는 경우, 시스템(10)은 메시지를 음성 메시지로서 바로 저장하거나 메시지를 텍스트로 변환하는 옵션을 제 1 사용자에게 제공한다. 사용자는 전술한 바와 같은 톤 혹은 음성으로 지정될 수 있는 옵션을 선택한다. 사용자가 페이지를 문자·숫자 페이저(pager)로 전송하려 하거나 메시지를 상이한 언어로 전송하려는 경우에는 음성을 텍스트로 변환하는 것이 필수적일 것이다.
사용자가 이 옵션을 지정하면, 전화 통신 서버(26)가 사용자에게 메시지를 기록할 것인지를 문의하는 지시메시지를 들려준다. 메시지가 일단 기록되면(메시지의 종료는 바람직하게 통화 중 침묵에 대한 검출이나 사용자가 키이(key)를 누름으로써 결정됨), 기록된 음성은 음성 인식 서버(32)로 전송된다. 음성 인식 서버(32)는 자동 음성 인식 알고리즘(algorithm)을 사용하여 음성을 텍스트로 변환 전송하고(변환전송문을 필터링(filtering)하기 위해 자연 언어 처리를 사용하는 것이 가능함), 변환전송된 텍스트를 (발음에서 각 단어에 대해 발생된 가능성 스코어(score), 혹은 발음에서 각 단어나 각 단어 또는 서브워드(subword)의 주기등에 관한 신뢰도 측정값과 같은) 소정의 진단값과 함께 전화 통신 서버(26)로 다시 전송한다.
전화 통신 서버(26)는 텍스트와 진단값을 음성 합성 서버(34)로 전송한 다음에, 이 음성 합성 서버(34)는 합성된 음성을 발생하여 이를 전화 통신 서버(26)로 다시 전송한다. 전화 통신 서버(26)는 본 발명에 따라 전화선을 통해 음성(이 음성은 많은 오류가 있을 수 있는 음성 인식 서버(32)에 의해 발생된 변환전송문에 대응함을 주지해야 함)을 사용자에게 다시 들려준다.
사용자에게 음성을 다시 들려주는 한가지 목적은 사용자가 마음에 들지 않거나 정확하지 않은 부분을 정정할 수 있도록 하기 위해서이다. 따라서, 전화 통신 서버(26)가 사용자에게 메시지를 정정하는 옵션을 제공하는 이점이 있다.
정정 매카니즘(36)과 연관된 음성의 재생은 다수의 방식으로 달성될 수 있다. 소정의 예로는 (i) 전화 통신 서버(26)가 전체 메시지를 사용자에게 다시 들려주어 마음에 들지 않거나 정확하지 않으면 메시지를 재기록할 것인지를 사용자에게 문의하는 방식과, (ii) 전화 통신 서버(26)가 음성 인식 서버(32)로부터 수신한 신뢰할 수 있는 진단값을 사용하여 낮은 신뢰도를 갖는 변환전송문의 부분을 판단하여 이들 부분만을 정정할 것인지를 사용자에게 문의하는 방식과, (iii) 전화 통신 서버(26)가 소정의 측정값 예컨대, 경과 시간 혹은 음성의 일시 정지에 근거하여 변환전송문을 부분으로 나누어 각 부분을 다시 사용자에게 들려주어 각각의 세그멘트(segment)를 개별적으로 정정하는 옵션을 사용자에게 제공하는 방식이 있다. 다른 정정 방법이 본 발명에 의해 또한 고찰된다.
사용자가 메시지의 어떤 원하는 부분을 정정할 수 있는 정정 메카니즘(36)은 상이한 방식으로 또한 달성될 수도 있다. 소정의 예로는 (i) 사용자가 전화(16) 상의 키이를 눌러 메시지(혹은 메시지의 일부)의 승인 혹은 거절을 표시하여 세그멘트를 재기록하며, 이 세그멘트는 전술한 바와 같은 동일한 방식으로 처리되는 방식과, (ii) 사용자가 "예" 혹은 "OK"를 말하거나 침묵하여 메시지의 승인을 표시하거나 "아니오"라고 말하여 거절을 표시하는 방식이 있다. 이 경우에, 사용자의 응답이 기록되어 텍스트로 변환전송되며, 변환전송된 텍스트("예", "OK", "침묵", 혹은 "아니오")는 사용자가 선택한 옵션을 결정한다.
사용자가 변환전송문에 만족한 후, 전화 통신 서버(26)는 사용자에 의해 선택된 바에 따라 통신 네트워크 혹은 시스템을 통해 텍스트를 기록된 음성과 함께 메시지 서버(12)로 전송하여 인스트럭션에 따라 나중에 액세싱하기 위해 이를 저장하거나 이메일(18), 팩스(20), 혹은 페이지(24)를 통해 텍스트를 전송한다.
또다른 실시예에서는 사용자가 다른 언어로 메시지를 전송하기를 원한다면, 전화 통신 서버(26)는 텍스트를 언어 번역 서버(38)로 전송하고, 이 언어 번역 서버(38)는 자동 번역 알고리즘을 사용하여 텍스트를 상이한 언어로 변환하여 번역된 텍스트를 전화 통신 서버(26)로 다시 전송하며, 이 전화 통신 서버(26)는 후속 처리를 위해 번역된 텍스트를 메시지 서버(12)로 전송한다.
일반적으로, 음성의 변환전송을 행하는 동안에 화자(speaker) 특정화 혹은 화자 적응 모델이 사용된다면 음성 인식 서버(32)의 음성 인식 수행이 개선된다. 따라서, 전화 통신 서버(26)가 화자 식별 서버(40)와 통신하여 호출 사용자의 신분을 판단할 수 있거나, 이와 달리 사용자에게 그의/그녀의 이름을 말하도록 요청하고 화자 독립 모델과 함께 음성 인식 서버(32)를 사용하여 음성을 변환전송하여 그 변환전송문을 사용하여 사용자의 신분을 판단할 수 있다. 사용자의 신분이 일단 판단되면, 음성 인식 서버(32)는 특정한 사용자 혹은 (가능하면) 사용자의 클래스(class)에 맞추어진 모델을 사용하여 그의/그녀의 음성을 변환전송 할 수 있다.
또다른 실시예에서는 메시지 서버(12)에 저장된 메시지가 다수의 구좌(account)/주소/디바이스에 전송될 수 있다. 예를 들면, 저장된 변환전송 메시지는 제 1 사용자 그룹의 페이저(pager)로 전송되고, 제 2 사용자 그룹에 이메일로 전송되며/되거나 제 3 사용자에게 팩스로 전송될 수 있다. 시스템(10)은 또한 상이한 매체 예컨대, 페이지, 팩스 등을 사용하여 동일한 메시지를 한 사용자에게 전송하는 데 사용될 수 있다. 또한, 음성 합성 서버(34)는 텍스트 메시지를 합성하여 이를 전화 혹은 보이스메일 시스템으로 전송하는 데 사용될 수 있다. 또다른 실시예에서, 각각의 사용자는 메시지가 각 사용자에게 변환전송될 때 자동적으로 갱신되는 개인 웹페이지(webpage)(42)를 가질 수 있다. 웹페이지(42)는 인터넷(Internet)과 같은 통신 네트워크를 통해 액세싱된다.
도 2를 참조하면, 사용자가 메시지를 기록하도록 지정하는 경우, 블럭(120)에서는 메시지를 기록할지를 문의하는 지시메시지를 사용자에게 들려준다. 단계(104)에서는 전화기 혹은 다른 음성 입력 디바이스에 말함으로써 메시지를 기록(메시지의 종료는 바람직하게 통화 중 침묵을 검출하거나 사용자가 키이를 누름으로써 결정됨)하며, 기록된 음성을 음성 인식 서버(32)로 전송한다(도 1). 블럭(106)에서는 음성 인식 서버(32)가 자동 음성 인식 알고리즘을 사용하여 음성을 텍스트로 변환전송하고(변환전송문을 필터링하기 위해 자연 언어 처리를 사용하는 것이 가능함), 변환전송된 텍스트를 (발음에서 각 단어에 대해 발생된 가능성 스코어, 혹은 발음에서 각 단어나 각 단어 또는 서브워드의 주기 등에 관한 신뢰도 측정값과 같은) 소정의 진단값과 함께 전화 통신 서버(26)로 다시 전송한다.
블럭(108)에서는 전화 통신 서버(26)가 텍스트와 진단값을 음성 합성 서버(34)로 전송한 다음에, 이 음성 합성 서버(34)는 합성된 음성을 발생하여 이를 전화 통신 서버(26)로 다시 전송한다. 전화 통신 서버(26)는 본 발명에 따라 전화선을 통해 음성(이 음성은 많은 오류가 있을 수 있는 음성 인식 서버(32)에 의해 발생된 변환전송문에 대응함을 주지해야 함)을 사용자에게 다시 들려준다.
블럭(110)에서는 사용자가 메시지에서 마음에 들지 않거나 정확하지 않은 부분을 정정한다. 정정의 위한 음성의 재생은 다수의 방식으로 달성될 수 있다. 소정의 예로는 (i) 전체 메시지를 사용자에게 다시 들려주어 마음에 들지 않거나 정확하지 않으면 메시지를 재기록할 것인지를 사용자에게 문의하는 방식과, (ii) 음성 인식 서버(32)로부터 수신한 신뢰할 수 있는 진단값을 사용하여 낮은 신뢰도를 갖는 변환전송문의 부분을 판단하여 이들 부분만을 정정할 것인지를 사용자에게 문의하는 방식과, (iii) 소정의 측정값 예컨대, 경과 시간 혹은 음성의 일시 정지에 근거하여 변환전송문을 부분으로 나누어 각 부분을 다시 사용자에게 들려주어 각각의 세그멘트(segment)를 개별적으로 정정하는 옵션을 사용자에게 제공하는 방식이 있다. 다른 정정 방법이 본 발명에 의해 또한 고찰된다.
메시지의 부분은 개별적으로 정정될 수 있다. 소정의 예로는 (i) 사용자가 전화(16) 상의 키이를 눌러 메시지(혹은 메시지의 일부)의 승인 혹은 거절을 표시하여 세그멘트를 재기록하며, 이 세그멘트는 전술한 바와 같은 동일한 방식으로 처리되는 방식과, (ii) 사용자가 "예" 혹은 "OK"를 말하거나 침묵하여 메시지의 승인을 표시하거나 "아니오"라고 말하여 거절을 표시하는 방식이 있다. 이 경우에, 사용자의 응답이 기록되어 텍스트로 변환전송되며, 변환전송된 텍스트("예", "OK", "침묵", 혹은 "아니오")는 사용자가 선택한 옵션을 결정한다.
블럭(112)에서는 사용자가 변환전송문에 만족한 후, 전화 통신 서버(26)는 사용자에 의해 선택된 바에 따라 텍스트를 기록된 음성과 함께 메시지 서버(12)로 전송하여 인스트럭션에 따라 나중에 액세싱하기 위해 이를 저장하거나 이메일(18), 팩스(20), 혹은 페이지(24)를 통해 텍스트를 전송한다. 사용자가 전화 시스템과 같은 통신 네트워크를 통해 전송하는 것을 선택한다면, 메시지는 상이한 언어로 변환될 것이다. 또한, 사용자는 메시지가 기록되는 언어를 지정할 수 있다. 이것은 전술한 화자 식별 처리의 부분일 수 있다.
전화 메시지의 변환전송문을 사용하기 위한 편집 시스템 및 방법의 바람직한 실시예(예시의 목적이지 제한을 위한 것이 아님)를 설명하였지만, 전술한 내용에 비추어 보면 당업자에 의해 변경 및 변형이 이루어질 수 있음을 주지해야 한다. 따라서, 첨부한 청구 범위로 요약한 바와 같이 본 발명의 범주 및 사상 내에서 개시한 본 발명의 특정한 실시예에서의 변형이 이루어질 수 있음을 이해하여야 한다. 특허법이 요구하는 상세한 설명 및 특징으로서 본 발명을 설명하였으나, 특허에 의해 보호받기를 원하는 청구 범위를 첨부한 청구 범위에 개시한다.
본 발명에 따르면, 음성 데이터를 텍스트로 변환하고 변환전송된 텍스트를 보이스로 정정하는 특징을 포함하는 대화형 편집 시스템 및 방법이 제공된다.

Claims (23)

  1. 음성을 수신하고 상기 음성을 텍스트(text)로 변환하는 메시지 시스템에 있어서,
    사용자에 의한 음성 입력을 수신하는 제 1 서버와,
    상기 음성을 텍스트로 변화하는 음성 인식 시스템과,
    상기 텍스트를 합성된 음성으로 변환하여 상기 사용자가 정정하도록 상기 합성된 음성을 재생하는 음성 합성기와,
    상기 사용자가 상기 합성된 음성을 정정할 수 있도록 하여 상기 정정된 음성이 통신 시스템을 통해 전송되는 텍스트로서 제공되는 정정 매카니즘(mechanism)
    을 포함하는 메시지 시스템.
  2. 제 1 항에 있어서,
    상기 통신 시스템을 통해 전송되는 상기 텍스트가 텍스트 판독 디바이스(device)에 대한 전송을 포함하는 메시지 시스템.
  3. 제 1 항에 있어서,
    상기 정정 메카니즘이 정정을 위해 상기 음성 입력의 일부분을 선택하도록 상기 사용자를 종용하는 메시지 시스템.
  4. 제 1 항에 있어서,
    상기 음성 인식 서버가 진단 데이터를 상기 정정 메카니즘에 제공하여 상기 음성 입력의 정정될 일부분을 표시하는 메시지 시스템.
  5. 제 1 항에 있어서,
    상기 정정 메카니즘이 정정을 위해 상기 음성 입력의 일부분을 재기록하도록 상기 사용자를 종용하는 메시지 시스템.
  6. 제 1 항에 있어서,
    상기 통신 시스템을 통해 상이한 언어로 전송하기 위해 상기 음성 입력을 텍스트로 변환하는 언어 번역 서버를 더 포함하는 메시지 시스템.
  7. 제 1 항에 있어서,
    상기 사용자를 식별하고 상기 음성 인식 서버로 음성 인식에 대한 음성 인식 모델을 조절하는 화자(speaker) 식별 서버를 더 포함하는 메시지 시스템.
  8. 범용 메시지 시스템에 대한 메시지를 정정하는 방법에 있어서,
    오디오(audio) 메시지를 기록하는 단계와,
    음성 인식 시스템을 사용하여 상기 메시지를 텍스트로 변환전송하는 단계와,
    상기 변환전송된 텍스트에 따라 음성을 제공하고 정정을 위해 상기 메시지를 재생하는 단계와,
    상기 메시지의 정정될 일부분을 식별하는 단계와,
    상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 단계와,
    상기 정정된 텍스트를 통신 시스템을 통해 출력하는 단계
    를 포함하는 메시지 정정 방법.
  9. 제 8 항에 있어서,
    상기 오디오 메시지가 전화에 의해 기록되는 메시지 정정 방법.
  10. 제 8 항에 있어서,
    상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 메시지 일부분의 정정 가능성을 판단하기 위해 상기 음성 인식 서버로부터의 진단 데이터를 제공하는 단계를 포함하는 메시지 정정 방법.
  11. 제 8 항에 있어서,
    상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 재생된 메시지를 청취하여 정정될 일부분을 선택하는 단계를 포함하는 메시지 정정 방법.
  12. 제 8 항에 있어서,
    상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 상기 단계가,
    상기 메시지의 일부분을 재기록하는 단계와,
    상기 재기록된 일부분을 변환하고 상기 음성 인식 서버를 사용하여 상기 텍스트를 교정하는 단계와,
    상기 교정된 텍스트에 따라 상기 재기록된 일부분의 음성을 재생하는 단계와,
    만족스러우면, 상기 메시지의 일부분을 승인하는 단계
    를 포함하는 메시지 정정 방법.
  13. 제 8 항에 있어서,
    다수의 언어 중 하나로 상기 메시지를 기록하는 단계를 더 포함하는 메시지 정정 방법.
  14. 제 8 항에 있어서,
    상기 통신 시스템을 통해 다수의 언어 중 하나로 상기 텍스트를 출력하는 단계를 더 포함하는 메시지 정정 방법.
  15. 제 8 항에 있어서,
    음성 인식 모델과 연관된 사용자를 식별하는 단계와,
    상기 모델을 적용하여 상기 사용자의 상기 오디오 입력을 인식하는 단계
    를 더 포함하는 메시지 정정 방법.
  16. 머신(machine)에 의해 판독가능하며, 범용 메시지 시스템에서 메시지에 대한 정정을 제공하는 방법을 수행하기 위해 상기 머신에 의해 실행가능한 프로그램의 인스트럭션(instruction)을 명백히 포함하는 프로그램 저장 디바이스에 있어서,
    상기 방법이,
    오디오 메시지를 기록하는 단계와,
    음성 인식 시스템을 사용하여 상기 메시지를 텍스트로 변환전송하는 단계와,
    상기 변환전송된 음성을 제공하고 정정을 위해 상기 메시지를 재생하는 단계와,
    상기 메시지의 정정될 일부분을 식별하는 단계와,
    상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 단계와,
    상기 정정된 텍스트를 통신 시스템을 통해 출력하는 단계
    를 포함하는 프로그램 저장 디바이스.
  17. 제 16 항에 있어서,
    상기 오디오 메시지가 전화에 의해 기록되는 프로그램 저장 디바이스.
  18. 제 16 항에 있어서,
    상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 메시지 일부분의 정정 가능성을 판단하기 위해 상기 음성 인식 서버로부터의 진단 데이터를 제공하는 단계를 포함하는 프로그램 저장 디바이스.
  19. 제 16 항에 있어서,
    상기 메시지의 정정될 일부분을 식별하는 상기 단계가 상기 재생된 메시지를 청취하여 정정될 일부분을 선택하는 단계를 포함하는 프로그램 저장 디바이스.
  20. 제 16 항에 있어서,
    상기 식별된 일부분을 재기록하여 상기 메시지를 정정하는 상기 단계가,
    상기 메시지의 일부분을 재기록하는 단계와,
    상기 재기록된 일부분을 변환하고 상기 음성 인식 서버를 사용하여 상기 텍스트를 교정하는 단계와,
    상기 교정된 텍스트에 따라 상기 재기록된 일부분의 음성을 재생하는 단계와,
    만족스러우면, 상기 메시지의 일부분을 승인하는 단계
    를 포함하는 프로그램 저장 디바이스.
  21. 제 16 항에 있어서,
    다수의 언어 중 하나로 상기 메시지를 기록하는 단계를 더 포함하는 프로그램 저장 디바이스.
  22. 제 16 항에 있어서,
    상기 통신 시스템을 통해 다수의 언어 중 하나로 상기 텍스트를 출력하는 단계를 더 포함하는 프로그램 저장 디바이스.
  23. 제 16 항에 있어서,
    음성 인식 모델과 연관된 사용자를 식별하는 단계와,
    상기 모델을 적용하여 상기 사용자의 상기 오디오 입력을 인식하는 단계
    를 더 포함하는 프로그램 저장 디바이스.
KR1019990026971A 1998-11-03 1999-07-05 메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스 KR100329894B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9/185,332 1998-11-03
US09/185,332 US6219638B1 (en) 1998-11-03 1998-11-03 Telephone messaging and editing system
US09/185,332 1998-11-03

Publications (2)

Publication Number Publication Date
KR20000034881A true KR20000034881A (ko) 2000-06-26
KR100329894B1 KR100329894B1 (ko) 2002-03-22

Family

ID=22680552

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990026971A KR100329894B1 (ko) 1998-11-03 1999-07-05 메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스

Country Status (4)

Country Link
US (1) US6219638B1 (ko)
JP (1) JP3873131B2 (ko)
KR (1) KR100329894B1 (ko)
CN (1) CN1155214C (ko)

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6169789B1 (en) * 1996-12-16 2001-01-02 Sanjay K. Rao Intelligent keyboard system
US8734339B2 (en) * 1996-12-16 2014-05-27 Ip Holdings, Inc. Electronic skin patch for real time monitoring of cardiac activity and personal health management
US6606373B1 (en) * 1997-12-31 2003-08-12 Weblink Wireless, Inc. Controller for use with communications systems for generating a condensed text message index
US6483899B2 (en) * 1998-06-19 2002-11-19 At&T Corp Voice messaging system
US20030078989A1 (en) * 1999-02-10 2003-04-24 David J. Ladd System and method for transmission and delivery of travel instructions to informational appliances
GB2352933A (en) * 1999-07-31 2001-02-07 Ibm Speech encoding in a client server system
JP3879323B2 (ja) * 1999-09-06 2007-02-14 ヤマハ株式会社 電話端末装置
AU1473201A (en) * 1999-11-10 2001-06-06 Global Market Insite, Inc. Content delivery in a preferred language for a large number of languages
US6999565B1 (en) * 2000-02-01 2006-02-14 Envoyworldwide, Inc. Multi-mode message routing and management
DE10018143C5 (de) * 2000-04-12 2012-09-06 Oerlikon Trading Ag, Trübbach DLC-Schichtsystem sowie Verfahren und Vorrichtung zur Herstellung eines derartigen Schichtsystems
US6687689B1 (en) 2000-06-16 2004-02-03 Nusuara Technologies Sdn. Bhd. System and methods for document retrieval using natural language-based queries
FR2810548A1 (fr) * 2000-06-26 2001-12-28 Oreal Utilisation d'ergothioneine et/ou de ses derives comme agent anti-glycation
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
DE10045081A1 (de) * 2000-09-12 2002-03-28 Mende Speech Solutions Gmbh & Vorrichtung und Verfahren zum graphischen Darstellen und zum Übertragen von Informationen
US7075671B1 (en) * 2000-09-14 2006-07-11 International Business Machines Corp. System and method for providing a printing capability for a transcription service or multimedia presentation
US8715177B2 (en) 2000-10-06 2014-05-06 Ip Holdings, Inc. Intelligent drug delivery appliance
US20080040227A1 (en) * 2000-11-03 2008-02-14 At&T Corp. System and method of marketing using a multi-media communication system
US7091976B1 (en) * 2000-11-03 2006-08-15 At&T Corp. System and method of customizing animated entities for use in a multi-media communication application
US7035803B1 (en) 2000-11-03 2006-04-25 At&T Corp. Method for sending multi-media messages using customizable background images
US6963839B1 (en) 2000-11-03 2005-11-08 At&T Corp. System and method of controlling sound in a multi-media communication application
US6990452B1 (en) 2000-11-03 2006-01-24 At&T Corp. Method for sending multi-media messages using emoticons
US6976082B1 (en) 2000-11-03 2005-12-13 At&T Corp. System and method for receiving multi-media messages
US7203648B1 (en) 2000-11-03 2007-04-10 At&T Corp. Method for sending multi-media messages with customized audio
EP1215659A1 (en) * 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
JP2002197081A (ja) * 2000-12-26 2002-07-12 Kobelco Systems Corp 音声・文字変換転送サービスシステム
US7412525B2 (en) * 2001-01-24 2008-08-12 Microsoft Corporation System verifying if an email request passed a policy check before initiating an interactive telephony session
US7225126B2 (en) 2001-06-12 2007-05-29 At&T Corp. System and method for processing speech files
US6782086B2 (en) * 2001-08-02 2004-08-24 Intel Corporation Caller ID lookup
WO2003019528A1 (fr) * 2001-08-22 2003-03-06 International Business Machines Corporation Procede de production d'intonation, dispositif de synthese de signaux vocaux fonctionnant selon ledit procede et serveur vocal
WO2003023766A2 (en) * 2001-09-06 2003-03-20 Copytalk, Llc A semi-automated intermodal voice to data transcription method and apparatus
US7346505B1 (en) * 2001-09-28 2008-03-18 At&T Delaware Intellectual Property, Inc. System and method for voicemail transcription
EP1466468B1 (en) * 2001-10-03 2006-08-02 Accenture Global Services GmbH Multi-modal messaging and callback with service authorizer and virtual customer database
US7472091B2 (en) * 2001-10-03 2008-12-30 Accenture Global Services Gmbh Virtual customer database
US7254384B2 (en) 2001-10-03 2007-08-07 Accenture Global Services Gmbh Multi-modal messaging
US7441016B2 (en) * 2001-10-03 2008-10-21 Accenture Global Services Gmbh Service authorizer
EP1708470B1 (en) * 2001-10-03 2012-05-16 Accenture Global Services Limited Multi-modal callback system
US7233655B2 (en) * 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
AU2007216929C1 (en) * 2001-10-03 2011-05-26 Accenture Global Services Limited Multi-modal callback
US7640006B2 (en) * 2001-10-03 2009-12-29 Accenture Global Services Gmbh Directory assistance with multi-modal messaging
JP4145796B2 (ja) * 2001-10-31 2008-09-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ テキストファイルのディクテーションを筆記するための及びテキストを修正するための方法及びシステム
US7671861B1 (en) 2001-11-02 2010-03-02 At&T Intellectual Property Ii, L.P. Apparatus and method of customizing animated entities for use in a multi-media communication application
DE50104036D1 (de) * 2001-12-12 2004-11-11 Siemens Ag Spracherkennungssystem und Verfahren zum Betrieb eines solchen
US7296057B2 (en) * 2002-01-08 2007-11-13 International Business Machines Corporation Method for user-specified error correction in an instant messaging system
US7593990B2 (en) * 2002-01-16 2009-09-22 International Business Machines Corporation Automatically sending a URL by e-mail or telephone
GB0204056D0 (en) 2002-02-21 2002-04-10 Mitel Knowledge Corp Voice activated language translation
US7092884B2 (en) 2002-03-01 2006-08-15 International Business Machines Corporation Method of nonvisual enrollment for speech recognition
US7464035B2 (en) * 2002-07-24 2008-12-09 Robert Bosch Corporation Voice control of home automation systems via telephone
DE10251112A1 (de) * 2002-11-02 2004-05-19 Philips Intellectual Property & Standards Gmbh Verfahren und System zur Spracherkennung
EP1422691B1 (en) * 2002-11-15 2008-01-02 Sony Deutschland GmbH Method for adapting a speech recognition system
US7822612B1 (en) * 2003-01-03 2010-10-26 Verizon Laboratories Inc. Methods of processing a voice command from a caller
US7379872B2 (en) * 2003-01-17 2008-05-27 International Business Machines Corporation Method, apparatus, and program for certifying a voice profile when transmitting text messages for synthesized speech
DE10304229A1 (de) * 2003-01-28 2004-08-05 Deutsche Telekom Ag Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten
DE602004018385D1 (de) * 2003-11-05 2009-01-22 Philips Intellectual Property Fehlerdetektion für sprach-zu-text-transkriptionssysteme
US7398215B2 (en) * 2003-12-24 2008-07-08 Inter-Tel, Inc. Prompt language translation for a telecommunications system
US7764771B2 (en) * 2003-12-24 2010-07-27 Kimberly-Clark Worldwide, Inc. Method of recording invention disclosures
TWI232431B (en) * 2004-01-13 2005-05-11 Benq Corp Method of speech transformation
US20050221142A1 (en) * 2004-03-23 2005-10-06 Narayanan Sekharipuram R Composite polymer electrolytes based on organosilica hybrid proton conductors for fuel cells
US7778187B2 (en) * 2004-06-29 2010-08-17 Damaka, Inc. System and method for dynamic stability in a peer-to-peer hybrid communications network
US7570636B2 (en) 2004-06-29 2009-08-04 Damaka, Inc. System and method for traversing a NAT device for peer-to-peer hybrid communications
US20060095365A1 (en) * 2004-06-29 2006-05-04 Damaka, Inc. System and method for conducting an auction in a peer-to peer network
US7623476B2 (en) * 2004-06-29 2009-11-24 Damaka, Inc. System and method for conferencing in a peer-to-peer hybrid communications network
US20060206310A1 (en) * 2004-06-29 2006-09-14 Damaka, Inc. System and method for natural language processing in a peer-to-peer hybrid communications network
US8009586B2 (en) * 2004-06-29 2011-08-30 Damaka, Inc. System and method for data transfer in a peer-to peer hybrid communication network
US7656870B2 (en) * 2004-06-29 2010-02-02 Damaka, Inc. System and method for peer-to-peer hybrid communications
US20070078720A1 (en) * 2004-06-29 2007-04-05 Damaka, Inc. System and method for advertising in a peer-to-peer hybrid communications network
US7623516B2 (en) * 2004-06-29 2009-11-24 Damaka, Inc. System and method for deterministic routing in a peer-to-peer hybrid communications network
US7933260B2 (en) * 2004-06-29 2011-04-26 Damaka, Inc. System and method for routing and communicating in a heterogeneous network environment
US8050272B2 (en) 2004-06-29 2011-11-01 Damaka, Inc. System and method for concurrent sessions in a peer-to-peer hybrid communications network
US20070036290A1 (en) * 2005-03-02 2007-02-15 Warner Bros. Entertainment Inc. Voicemail system and related method
CN100375087C (zh) * 2005-03-09 2008-03-12 邱聪智 实时翻译系统
US8542803B2 (en) 2005-08-19 2013-09-24 At&T Intellectual Property Ii, L.P. System and method for integrating and managing E-mail, voicemail, and telephone conversations using speech processing techniques
US20070099783A1 (en) * 2005-10-27 2007-05-03 Rennco, Inc. Bag forming device
US8379821B1 (en) 2005-11-18 2013-02-19 At&T Intellectual Property Ii, L.P. Per-conference-leg recording control for multimedia conferencing
US7657006B2 (en) 2005-12-15 2010-02-02 At&T Intellectual Property I, L.P. Messaging translation services
EP1821553B1 (en) 2006-02-16 2012-04-11 Imerj, Limited Method and system for converting a voice message into a text message
US9092542B2 (en) * 2006-03-09 2015-07-28 International Business Machines Corporation Podcasting content associated with a user account
US9361299B2 (en) * 2006-03-09 2016-06-07 International Business Machines Corporation RSS content administration for rendering RSS content on a digital audio player
US8510277B2 (en) * 2006-03-09 2013-08-13 International Business Machines Corporation Informing a user of a content management directive associated with a rating
US8849895B2 (en) 2006-03-09 2014-09-30 International Business Machines Corporation Associating user selected content management directives with user selected ratings
US9037466B2 (en) * 2006-03-09 2015-05-19 Nuance Communications, Inc. Email administration for rendering email on a digital audio player
US9436951B1 (en) 2007-08-22 2016-09-06 Amazon Technologies, Inc. Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
EP2008193B1 (en) 2006-04-05 2012-11-28 Canyon IP Holdings LLC Hosted voice recognition system for wireless devices
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US20090124272A1 (en) 2006-04-05 2009-05-14 Marc White Filtering transcriptions of utterances
US7860995B1 (en) 2007-11-29 2010-12-28 Saynow Corporation Conditional audio content delivery method and system
US20070274496A1 (en) * 2006-04-20 2007-11-29 Ujjwal Singh Method and system for multimodal communication using a phone number
US8000456B2 (en) 2006-04-20 2011-08-16 Cisco Technology, Inc. Techniques for marking and manipulating voice message segments through a telephone user interface
US20070255554A1 (en) * 2006-04-26 2007-11-01 Lucent Technologies Inc. Language translation service for text message communications
US8204185B1 (en) * 2006-04-28 2012-06-19 At&T Intellectual Property Ii, L.P. Method and apparatus for retrieving voicemail messages via customer premise equipment
US8300781B1 (en) * 2006-04-28 2012-10-30 At&T Intellectual Property Ii, L.P. Method and apparatus for retrieving all voicemail messages at the same time
US20070282613A1 (en) * 2006-05-31 2007-12-06 Avaya Technology Llc Audio buddy lists for speech communication
US20080004056A1 (en) * 2006-06-01 2008-01-03 Paul Suzman Methods and systems for incorporating a voice-attached, tagged rich media package from a wireless camera-equipped handheld mobile device into a collaborative workflow
US8521510B2 (en) * 2006-08-31 2013-08-27 At&T Intellectual Property Ii, L.P. Method and system for providing an automated web transcription service
US20080065378A1 (en) * 2006-09-08 2008-03-13 James Wyatt Siminoff System and method for automatic caller transcription (ACT)
US8131556B2 (en) 2007-04-03 2012-03-06 Microsoft Corporation Communications using different modalities
US8983051B2 (en) * 2007-04-03 2015-03-17 William F. Barton Outgoing call classification and disposition
US9973450B2 (en) * 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US20090076917A1 (en) * 2007-08-22 2009-03-19 Victor Roditis Jablokov Facilitating presentation of ads relating to words of a message
US8352261B2 (en) * 2008-03-07 2013-01-08 Canyon IP Holdings, LLC Use of intermediate speech transcription results in editing final speech transcription results
US8611871B2 (en) 2007-12-25 2013-12-17 Canyon Ip Holdings Llc Validation of mobile advertising from derived information
US8326636B2 (en) * 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
DE102007027363A1 (de) * 2007-06-11 2008-12-24 Avaya Gmbh & Co. Kg Verfahren zum Betreiben eines Voice-Mail-Systems
US9053489B2 (en) 2007-08-22 2015-06-09 Canyon Ip Holdings Llc Facilitating presentation of ads relating to words of a message
US8140632B1 (en) 2007-08-22 2012-03-20 Victor Roditis Jablokov Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
CA2701894C (en) * 2007-09-03 2015-11-17 Damaka, Inc. Device and method for maintaining a communication session during a network transition
US8862164B2 (en) * 2007-09-28 2014-10-14 Damaka, Inc. System and method for transitioning a communication session between networks that are not commonly controlled
WO2009070718A1 (en) 2007-11-28 2009-06-04 Damaka, Inc. System and method for endpoint handoff in a hybrid peer-to-peer networking environment
US8676577B2 (en) 2008-03-31 2014-03-18 Canyon IP Holdings, LLC Use of metadata to post process speech recognition output
US20090281833A1 (en) * 2008-05-09 2009-11-12 Tele Video Md, Inc. System and method for secure multi-party medical conferencing
US8301454B2 (en) 2008-08-22 2012-10-30 Canyon Ip Holdings Llc Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition
EP2196989B1 (en) * 2008-12-10 2012-06-27 Nuance Communications, Inc. Grammar and template-based speech recognition of spoken utterances
JP5471106B2 (ja) * 2009-07-16 2014-04-16 独立行政法人情報通信研究機構 音声翻訳システム、辞書サーバ装置、およびプログラム
US8217251B2 (en) * 2009-09-28 2012-07-10 Lawrence E Anderson Interactive display
CN102549653B (zh) * 2009-10-02 2014-04-30 独立行政法人情报通信研究机构 语音翻译系统、第一终端装置、语音识别服务器装置、翻译服务器装置以及语音合成服务器装置
US20110142208A1 (en) * 2009-12-10 2011-06-16 Lawrence Anderson Interactive answering system and method
US8725895B2 (en) 2010-02-15 2014-05-13 Damaka, Inc. NAT traversal by concurrently probing multiple candidates
US8892646B2 (en) 2010-08-25 2014-11-18 Damaka, Inc. System and method for shared session appearance in a hybrid peer-to-peer environment
US8874785B2 (en) * 2010-02-15 2014-10-28 Damaka, Inc. System and method for signaling and data tunneling in a peer-to-peer environment
US8689307B2 (en) * 2010-03-19 2014-04-01 Damaka, Inc. System and method for providing a virtual peer-to-peer environment
US9043488B2 (en) 2010-03-29 2015-05-26 Damaka, Inc. System and method for session sweeping between devices
US9191416B2 (en) 2010-04-16 2015-11-17 Damaka, Inc. System and method for providing enterprise voice call continuity
US8352563B2 (en) 2010-04-29 2013-01-08 Damaka, Inc. System and method for peer-to-peer media routing using a third party instant messaging system for signaling
US8446900B2 (en) 2010-06-18 2013-05-21 Damaka, Inc. System and method for transferring a call between endpoints in a hybrid peer-to-peer network
US8611540B2 (en) 2010-06-23 2013-12-17 Damaka, Inc. System and method for secure messaging in a hybrid peer-to-peer network
US8468010B2 (en) 2010-09-24 2013-06-18 Damaka, Inc. System and method for language translation in a hybrid peer-to-peer environment
US8743781B2 (en) 2010-10-11 2014-06-03 Damaka, Inc. System and method for a reverse invitation in a hybrid peer-to-peer environment
US8407314B2 (en) 2011-04-04 2013-03-26 Damaka, Inc. System and method for sharing unsupported document types between communication devices
US8694587B2 (en) 2011-05-17 2014-04-08 Damaka, Inc. System and method for transferring a call bridge between communication devices
US8478890B2 (en) 2011-07-15 2013-07-02 Damaka, Inc. System and method for reliable virtual bi-directional data stream communications with single socket point-to-multipoint capability
US8583431B2 (en) * 2011-08-25 2013-11-12 Harris Corporation Communications system with speech-to-text conversion and associated methods
EP2929677B1 (en) * 2012-12-06 2017-07-19 Saronikos Trading and Services, Unipessoal Lda Method and devices for language determination for voice to text transcription of phone calls
US9027032B2 (en) 2013-07-16 2015-05-05 Damaka, Inc. System and method for providing additional functionality to existing software in an integrated manner
US9357016B2 (en) 2013-10-18 2016-05-31 Damaka, Inc. System and method for virtual parallel resource management
CA2956617A1 (en) 2014-08-05 2016-02-11 Damaka, Inc. System and method for providing unified communications and collaboration (ucc) connectivity between incompatible systems
JP2016177782A (ja) * 2015-03-19 2016-10-06 パナソニックIpマネジメント株式会社 ウェアラブル装置及び翻訳システム
US10091025B2 (en) 2016-03-31 2018-10-02 Damaka, Inc. System and method for enabling use of a single user identifier across incompatible networks for UCC functionality
CN106383902A (zh) * 2016-09-29 2017-02-08 安徽声讯信息技术有限公司 一种现场访问新闻即时存储发布方法及系统
CN111177353B (zh) * 2019-12-27 2023-06-09 赣州得辉达科技有限公司 文本记录生成方法、装置、计算机设备及存储介质
CN113763920B (zh) * 2020-05-29 2023-09-08 广东美的制冷设备有限公司 空调器及其语音生成方法、语音生成装置和可读存储介质
US11902343B1 (en) 2021-04-19 2024-02-13 Damaka, Inc. System and method for highly scalable browser-based audio/video conferencing
US11770584B1 (en) 2021-05-23 2023-09-26 Damaka, Inc. System and method for optimizing video communications based on device capabilities

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5051924A (en) * 1988-03-31 1991-09-24 Bergeron Larry E Method and apparatus for the generation of reports
DE4331710A1 (de) * 1993-09-17 1995-03-23 Sel Alcatel Ag Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
US5875448A (en) * 1996-10-08 1999-02-23 Boys; Donald R. Data stream editing system including a hand-held voice-editing apparatus having a position-finding enunciator

Also Published As

Publication number Publication date
JP2000148182A (ja) 2000-05-26
JP3873131B2 (ja) 2007-01-24
CN1255011A (zh) 2000-05-31
CN1155214C (zh) 2004-06-23
US6219638B1 (en) 2001-04-17
KR100329894B1 (ko) 2002-03-22

Similar Documents

Publication Publication Date Title
KR100329894B1 (ko) 메시지 시스템, 메시지 정정 방법 및 프로그램 저장 디바이스
US9214154B2 (en) Personalized text-to-speech services
US6327343B1 (en) System and methods for automatic call and data transfer processing
CA2172748C (en) Digital secretary
US6507643B1 (en) Speech recognition system and method for converting voice mail messages to electronic mail messages
KR101149135B1 (ko) 음성 대화형 메시징을 위한 방법 및 장치
GB2364850A (en) Automatic voice message processing
US6148285A (en) Allophonic text-to-speech generator
US20060233319A1 (en) Automatic messaging system
US7593387B2 (en) Voice communication with simulated speech data
JP2005151553A (ja) ボイス・ポータル
JPH10149361A (ja) 情報処理方法及び装置及び記憶媒体
JP2005012833A (ja) 音声応答サービス装置
JP2001109487A (ja) 電子メールの音声再生装置、その音声再生方法、及び音声再生プログラムを記録した記録媒体
US7653181B2 (en) Method of creating and managing a customized recording of audio data relayed over a phone network
US10861463B2 (en) Method for speech processing and speech processing device
US20020188686A1 (en) System and method for accessing voice messaging system data
JPH04167749A (ja) 音声応答装置
JP5326539B2 (ja) 留守番電話システム、留守番電話サービスサーバ及び留守番電話サービス方法
JPH09258764A (ja) 通信装置および通信方法、並びに情報処理装置
KR100382827B1 (ko) 텍스트투스피치를 이용한 음성 자동 생성 장치 및 방법
JP3147897B2 (ja) 音声応答システム
GB2377119A (en) Interactive voice response system
JPH03162165A (ja) 留守番電話機
JPH10149362A (ja) 情報処理方法及び装置及び記憶媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20050124

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee