KR19990062566A - 음성 인식 신뢰도 레벨 디스플레이 - Google Patents

음성 인식 신뢰도 레벨 디스플레이 Download PDF

Info

Publication number
KR19990062566A
KR19990062566A KR1019980048484A KR19980048484A KR19990062566A KR 19990062566 A KR19990062566 A KR 19990062566A KR 1019980048484 A KR1019980048484 A KR 1019980048484A KR 19980048484 A KR19980048484 A KR 19980048484A KR 19990062566 A KR19990062566 A KR 19990062566A
Authority
KR
South Korea
Prior art keywords
words
speech recognition
text
different
recognition system
Prior art date
Application number
KR1019980048484A
Other languages
English (en)
Other versions
KR100297514B1 (ko
Inventor
제니퍼 씰 레이
존 죠지 베르고
Original Assignee
포만 제프리 엘
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포만 제프리 엘, 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 포만 제프리 엘
Publication of KR19990062566A publication Critical patent/KR19990062566A/ko
Application granted granted Critical
Publication of KR100297514B1 publication Critical patent/KR100297514B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/01Assessment or evaluation of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)

Abstract

본 발명의 음성 인식 컴퓨터 시스템 및 방법은 하나 또는 그 이상의 디스플레이되는 워드를 인식하는데 있어 음성 인식기가 가진 신뢰도 레벨을 표시한다. 이 시스템 및 벙법은 음성 인식 에러의 빠른 식별을 허용한다. 개개의 인식된 워드의 다수의 신뢰도 레벨이 시각적으로 표시될 수도 있다. 또한, 이 시스템 및 방법은 그 시스템의 사용자로 하여금, 시각적 표시가 이루어질 때를 판단하기 위해 임계치 레벨을 선택할 수 있도록 허용한다.

Description

음성 인식 신뢰도 레벨 디스플레이
본 발명은 일반적으로 음성 인식 시스템(speech recognition system) 분야에 관한 것으로서, 특히, 음성 인식 시스템을 위한 사용자 인터페이스에 관한 것이며, 보다 특정하여 말하면, 음성 인식 구술(dictation) 시스템으로부터의 전사(transcription) 결과를 검토하는데 있어 사용자를 보조하기 위한 방법 및 장치에 관한 것이다.
예를 들어, Novell사의 WordPro(상표) 및 Word Perfect(상표)와 같이, 스펠 체커(spell checkers)를 구비한 워드 프로세서 등의 텍스트 처리 시스템은 스펠링이 잘못된 워드(즉, 워드 프로세서 내부에 있는 사전에 의해 인식되지 못하는 워드)를 정상적인 텍스트의 칼라와 다른 칼라로 디스플레이할 수 있다. 변형예로서, Microsoft Word(상표)는 스펠링이 잘못된 워드를 정상적인 텍스트의 칼라와 다른 칼라로 밑줄이 그어져 있다. 이들의 경우에, 사전과 대비하여 워드를 검사함으로써 워드의 타당성(validity)을 확인하는 것은 간단한 일이다. 워드는 올바르게 스펠링되어 있거나, 또는 그렇지 않으면, 스펠링이 잘못된 경우이다. 그러나, 공지된 텍스트 처리 시스템의 이들 관점은 가능성 있는 스펠링 에러만을 취급하고 있다. 또한, 텍스트 처리 시스템의 스펠체커(spellchecker)는 소정의 워드가 올바르게 스펠링되어 있는지(또는 부정확하게 스펠링되어 있는지) 판단하기 위해 단지 2진수의 참/거짓 기준을 이용하기 때문에, 이들 시스템은 그 워드를 디스플레이하기 위해 2가지 칼라 중 하나를 선택하게 된다. 다시 말하면, 회색의 음영(shades)이 존재하지 않는다. 워드는 단지 그것이 올바르게 스펠링되어 있는 경우에는 한 칼라로 디스플레이되고, 시스템이 그 워드를 부정확하게 스펠링된 것으로 판단하는 경우에는 제2 칼라로 디스플레이된다. 문법 첵크 시스템도 이와 유사하게 동작하는데, 그 이유는 이 시스템이 정확한 문법이 사용되었는지에 관한 시스템의 판단에 따라 텍스트를 디스플레이하기 위해 2가지 칼라 중 하나를 선택하게 되기 때문이다.
이와 대조적으로, 본 발명의 방법 및 장치는 음성 인식 에러를 취급하고 있으며, 특히, 사용자가 말한 워드를 인식하는데 있어 음성 인식 시스템이 갖고 있는 신뢰도(level of confidence)를 취급한다. 본 발명의 방법 및 시스템에 있어서는, 워드를 정확하게 인식했는지에 관한 음성 인식 엔진의 계산된 확률(probability)과 상호관련된 표시(indication)가 생성된다. 워드가 정확하게 인식되었는지 여부에 따라, 디스플레이되는 워드는 항상 올바르게 스펠링되게 된다. 또한, 본 발명의 시스템은 멀티레벨 신뢰도 디스플레이를 제공함으로써, 워드를 어떻게 디스플레이할 것인지 판단하는데 있어 복수의 기준 레벨을 지원한다.
다른 영역에 있어서, 공지된 데이터 영상화(visualization) 시스템은 정량적(quantitative) 정보를 통신하기 위해 칼라 및 다른 시각적인 속성(attributes)을 이용한다. 예를 들어, EEG(eletroencephalograph) 시스템은 뇌의 칼라 등고선 맵을 디스플레이할 수 있으며, 여기서, 칼라는 전기적 활동 진폭의 표시가 된다. 또한, 기상관측(meteorological) 시스템은 강우량 및 기온이 상이한 칼라로 표시될 수 있는 맵을 디스플레이한다. 등고선 맵은 고도 및 깊이를 대응하는 칼라 범위로 디스플레이한다. 그러나, 이와 같은 데이터 영상화 시스템은 텍스트, 특히, 음성 인식/구술 시스템에 의해 생성된 텍스트에 적용되지 않았다.
또다른 영역에 있어서, 몇몇 음성 인식 구술 시스템은 구술된 명령을 인식하는 능력을 갖고 있다. 예를 들어, 텍스트를 구술하는 사람이 텍스트의 이 부분에 밑줄을 치시오 또는 이 문서를 프린트하시오와 같은, 명령을 구술할 수도 있다. 이러한 경우에, 인입 청각 신호와 디코드된 텍스트 사이에 정합(match)이 낮은 신뢰도 점수를 받으면, 구술된 명령은 인식되지 않은 것으로 플래깅된다. 이와 같은 상황에서, 시스템은 예를 들어, 물음표 또는 Pardon me?와 같은 표시를 사용자 인터페이스 위에 디스플레이한다. 그러나, 명백하게도, 이와 같은 시스템은 단지 구술된 명령이 인식되었는지 여부를 표시하며, 그러므로, 사실상 멀티레벨이 아닌 2진수로 표시하게 된다. 바로 전술한 예에서, 시스템은 사용자의 명령을 실행할 수 없다는 것을 표시한다. 따라서, 사용자는 소정의 행동을 취해야 한다. 이와 같은 시스템은 명령에 응하는 그 능력에서의 시스템의 변화되는 신뢰도 레벨을 반영하는 방식으로 텍스트를 디스플레이하는 문제를 다루지 못한다.
또다른 영역에서, R. Hartson 및 D. Hix가 편집자로 되어 있는,Advances in Human-Computer Interaction(4:216-218, Ablex, 1993)에 공표된 Recognition Based User Interfaces란 제목의 J.R. Rhyne and G.C. Wolfs 챕터는, 인터페이스는 인식 대안 사이의 유사성(resemblance)이 밀접하고 치환(substitution) 에러의 확률이 높을 때 바로 그 결과를 강조할 수도 있다라고 기재하고 있다. 그러나, 이것은 2진수 기준을 이용하는 평범한 사례이며, 본 발명의 멀티레벨 신뢰도 디스플레이와는 현저하게 다른 것이다. 또한, 이 레퍼런스는 단지 치환 에러를 다루고 있으며, 사용자 제어는 없지만, 이와 달리, 본 발명은 치환 에러 뿐만 아니라 삭제 에러 및 삽입 에러도 언급하고 있으며, 또한, 사용자 제어를 제공한다.
전통적으로, 사용자가 음성 인식 기술을 이용하여 구술할 때, 인식 에러는 검출되기 어렵다. 사용자는 통상적으로, 삽입부분(insertions), 삭제부분(deletions) 및 치환부분(substitutions)을 유의하면서, 구술된 전체 문서를 한 워드씩 주의깊게 읽어야 한다. 예를 들어, there is no signs of cancer라는 문장이 삭제 에러를 통해 there is signs of cancer가 될 수도 있다. 이러한 형태의 에러는 문서를 빠르게 교정 낭독할 때 놓치기 쉽다.
그러므로, 전사가 정확한 시스템의 신뢰도 레벨에 따라 전사된 텍스트를 디스플레이하는 시스템을 제공하는 것이 바람직하다. 또한, 이와 같은 시스템이 그 신뢰도 레벨의 2진수 이상의 표시를 디스플레이할 수 있다면 더욱 바람직할 것이다.
종래 기술의 단점은 다음의 목적을 가진 본 발명에 의해 극복된다.
본 발명의 한 목적은 개선된 음성 인식 시스템 인터페이스를 제공하는 것이다.
본 발명의 다른 목적은 인식된 텍스트에서 음성 엔진이 가진 신뢰도 레벨을 사용자에게 표시하는 음성 인식 인터페이스를 제공하는 것이다.
본 발명의 또다른 목적은 음성 인식 인터페이스에서 음성 엔진에 의해 인식된 디스플레이되는 텍스트의 신뢰도 레벨의 셋팅을 허용하는 최종 사용자 제어를 제공하는 것이다.
본 발명은 하나 또는 그 이상의 디스플레이된 워드에서 음성 인식기(recognizer)가 가진 신뢰도 레벨을 표시하는 음성 인식 컴퓨터 시스템 및 방법에 관련되어 있다. 신뢰도 레벨은 사용자 인터페이스 상에 디스플레이되는 워드와 관련된, 칼라와 같은, 인디케이터(indicator)를 이용하여 표시된다. 이 시스템은 청각 신호를 음성 인식기로 입력하는, 마이크로폰과 같은, 음성 입력 장치를 포함하고 있다. 음성 인식기는 음성 입력 장치로부터의 청각 신호를 텍스트, 즉, 예를 들어, 하나 또는 그 이상의 워드로 변환한다. 음성 인식기 내의 신뢰도 레벨 프로세스는 인식되는 각각의 워드에 대한 점수(score)(신뢰도 레벨)를 생성한다. 다음에, 신뢰도 레벨 인디케이터 프로세스는 사용자 인터페이스 상에 디스플레이되는 하나 또는 그 이상의 워드 각각과 관련된, 하나 또는 그 이상의 표시 중 하나의 표시를 생성한다. 이 표시는 그 점수가 속한 하나 또는 그 이상의 소범위(sub-ranges) 중 하나의 소범위와 관련된다. 워드들은 신뢰도 점수를 반영하는 텍스트의 특성(예, 칼라)을 가진 텍스트로서 사용자 인터페이스 상에 디스플레이된다.
도1은 본 발명의 양호한 실시예의 블록도.
도2는 도1에 도시된 시스템에서 수행되는 단계를 도시하는 흐름도.
도3은 신뢰도 레벨 인디케이터 프로세스를 보다 상세하게 도시하는 흐름도.
* 도면의 주요 부분에 대한 부호의 설명
105:출력 장치 110,120,130:워드
140:사용자 제어수단 150:GUI 애플리케이션
160:음성 엔진 프로세스 170:마이크로폰
180:신뢰도 레벨 인디케이터 프로세스
190:음성 인식기 200:신뢰도 레벨 스코어러
210:워드/점수 쌍
이제, 본 발명의 상기 및 다른 목적과 특징에 대해 첨부도면을 참조하여 상세하게 설명한다.
도1은 신뢰도 레벨과 상호관련된 속성과 함께 워드를 디스플레이하기 위한 시스템을 도시하고 있다. 사람인 화자(speaker)는 마이크로폰(170)으로 말한다. 이 마이크로폰(170)은 음성 엔진 프로세스(160)로 청각(음성) 신호를 전송한다. 음성 엔진 프로세스는 인입 청각 신호를 디지탈화하고 인식 기능(190)을 수행하는, 소프트웨어 또는 소프트웨어와 하드웨어의 조합이 될 수 있다. 인식 기능(190)은 청각 신호를 텍스트, 즉, 하나 또는 그 이상의 워드로 변환한다. 이러한 인식 및 변환은 이 기술분야에 잘 알려진 많은 상이한 방식으로 수행될 수 있다. 각각의 워드에는 신뢰도 레벨 스코어러(scorer)(200)에 의해 신뢰도 레벨 점수가 할당된다. 이 신뢰도 레벨 점수는 정확도(accuarcy) 레벨을 판단하기 위한 알고리즘을 이용하여 할당되며, 이 정확도 레벨을 이용하여 음성 인식기(190)는 그것이 청각(음성) 신호를 텍스트로 변환하였는지를 판단한다. 각각의 워드 및 그 할당된 신뢰도 레벨 점수는 워드/점수(210) 쌍을 형성하며, 이들 각각은 그래픽 사용자 인터페이스(GUI) 애플리케이션(150)으로 전송된다. GUI 애플리케이션(150)은 시스템의 사용자로 하여금 점수 임계치를 선택할 수 있도록 하기 위한 사용자 제어수단(140)으로부터 정보를 수신할 수도 있으며, 이 임계치 이상(또는 임계치 이하)의 디폴트 속성이 워드를 디스플레이하는데 사용된다. 사용자는 또한, 워드를 디스플레이하기 위해 어떤 칼라 맵 및/또는 속성 맵이 사용되는지를 제어하기 위해, 사용자 제어수단(140)을 통해, 정보를 제공할 수도 있다. 임계치 및 맵의 이용에 관해서는 더욱 상세하게 후술되게 된다.
워드/점수 쌍을 수신하면, GUI 애플리케이션(150)은 각각의 워드(110,120,130)에 칼라 및/또는 속성을 할당하기 위해, 만일 있다면, 사용자 제어수단(140)으로부터의 정보와 함께, 신뢰도 레벨 인디케이터 프로세스(CLIP)(180)를 이용한다. CLIP는 신뢰도 레벨 스코어러(200)에 의해 할당된 점수를 입수하고 어떤 칼라 및/또는 속성이 그 점수와 연관되어야 하는지를 판단하는 맵핑 알고리즘이다. 워드를 디스플레이하기 위해 사용되는 최종 칼라 및/또는 속성은 인식기가 그것이 청각(음성) 신호를 텍스트로 변환한 것을 판단하는 정확도 레벨을 반영한다.
선택된 칼라는 상이한 칼라 범위로된 맵에 의거하거나 또는 단일 칼라의 상이한 음영으로된 맵에 의거할 수도 있다. 또한, 선택된 속성은 폰트 형태, 포인트 크기, 볼드체, 이탤릭체, 밑줄, 이중 밑줄, 대문자 사용, 섬광(flashing), 깜박거림(blinking), 또는 이들의 조합과 같은, 기능을 포함할 수 있다. 일단 각각의 워드에 대해 워드 및 그 관련 칼라 및/또는 속성이 결정되면, 이들 쌍은 출력 장치(105) 상에 디스플레이되며, 이 출력 장치를 이용하여 각각의 워드(110,120,130)는 그 관련된 칼라 및/또는 속성과 함께 디스플레이된다.
도2는 도1과 관련하여 설명된 실시예에서 수행되는 단계를 흐름도 형태로 도시하고 있다. 도2에 도시된 바와 같이, 마이크로폰으로 말하는 화자에 의해 생성된 청각(음성) 신호는 청각 신호를 텍스트 또는 워드로 디코딩하기 위한 인식기(190) 뿐만 아니라 워드에 점수를 할당하기 위한 신뢰도 레벨 스코어러(200)도 포함하고 있는 음성 엔진 프로세스(160)로 전송된다. 이 점수는 처리된 청각 신호의 변환에 있어 음성 인식 시스템이 가진 신뢰도 레벨을 반영한다. 각각의 워드 및 그 관련된 점수는 음성 엔진 프로세스(160) 내의 신뢰도 레벨 스코어러(200)로부터 그래픽 사용자 인터페이스 애플리케이션(150)으로 전송된다. 그래픽 사용자 인터페이스 애플리케이션(150)은 임계치와 칼라 및/또는 속성 맵핑을 제어하기 위해 사용자 제어수단(140)으로부터의 정보를 수신할 수도 있으며, 이 정보를 그래픽 사용자 인터페이스 애플리케이션(150) 내의 CLIP(180)에서 이용한다. 다음에, CLIP(180)은 각각의 워드에 부여된 점수에 근거하여 또한, 만일 있다면, 사용자로부터의 정보에 근거하여, 각각의 워드에 칼라 및/또는 속성을 할당한다. 그러므로, 그래픽 사용자 인터페이스 애플리케이션(150)은 그 출력으로서 각각의 워드 및 그 관련 칼라 및/또는 속성을 출력한다. 이 정보는 각각의 워드를 그 관련 칼라 및/또는 속성과 함께 디스플레이하기 위해 사용되며, 이것은 각각의 워드와 관련된 신뢰도 레벨의 표시가 된다.
도3은 CLIP(도1 및 도2의 180)을 보다 상세하게 도시하는 흐름도이다. 워드/점수 쌍(210)은 디폴트 칼라 및 폰트 속성을 워드에 할당하는(단계 181) CLIP(180)에 의해 수신된다. 다음에, 워드 및 그 점수가 검토(review)된다(단계 182). 만일 그 워드가 임계치 이상이면, 그것은 디폴트 칼라 및 속성과 함께 디스플레이된다(단계 220). 그러나, 만일 점수가 사용자 또는 시스템에 의해 정의될 수 있는 임계치 이하이면, 그 워드 및 관련 점수는 칼라 맵핑에 대해 검사하는 프로세스에 도달한다(단계 183). 칼라 맵(240)이 사용되는 경우에는, (워드 점수에 의해 결정된) 적절한 칼라가 그 워드로 맵핑된다(단계 183). 칼라 맵핑이 사용되었는지 여부와 관계없이, 이 프로세스는 그 점수에 근거하여 워드의 속성 맵핑이 변경될 필요가 있는지 검사한다(단계 184). 만일 그렇다면, 속성 맵핑 프로세스(184)는 속성 맵(230)을 이용하여 점수에 근거하여 정확한 폰트 속성을 맵핑한다(단계 186). 다음에, 그 워드는 적절하다면, 칼라 및 속성과 함께 디스플레이된다(220).
본 발명에 대해 다양한 변형이 가능하다. 예를 들어, 도3의 흐름도에서, 만일 워드/점수 쌍이 임계치 이하가 아니고, 그 이상인 경우에, 칼라 및/또는 속성 맵핑이 수행될 수도 있다. 또한, 칼라 맵핑 또는 속성 맵핑이 연속적으로 수행되는 것이 아니라, 단독으로 수행될 수도 있다. 즉, 칼라 맵핑 또는 속성 맵핑이 단독으로 사용될 수도 있다.
비록 본 발명이 특정 실시예를 참조하여 설명되었지만, 이 기술분야에 통상의 지식을 가진자에게는 다양한 수정 및 변형이 이루어질 수도 있다는 것은 명백할 것이다. 따라서, 이와 같은 수정 및 변형은 다음의 특허 청구의 범위에 의해 정의된 바와 같은 본 발명의 범위 내에 포함된다.
전술한 바와 같은 본 발명에 따르면, 인식된 텍스트에서 음성 엔진이 가진 신뢰도 레벨을 사용자에게 표시하는 음성 인식 인터페이스를 제공할 수 있는 효과가 있다.

Claims (32)

  1. 음성 인식 시스템에 있어서,
    음성을 텍스트 - 여기서, 상기 텍스트는 하나 또는 그 이상의 워드임 - 로 변환하기 위한 음성 인식기 - 여기서, 상기 음성 인식기는 상기 하나 또는 그 이상의 각각의 워드에 대해 적어도 3개의 가능한 점수 중 하나를 할당하기 위한 신뢰도 레벨 스코어러를 더 포함하고, 상기 점수는 상기 하나 또는 그 이상의 워드가 정확하게 인식되었는지에 관한 신뢰도 측정치가 됨 - ; 및
    상기 하나 또는 그 이상의 워드 - 여기서, 상기 하나 또는 그 이상의 워드 각각은 상기 점수에 근거하여 상이한 디스플레이 특성을 가짐 - 를 디스플레이하기 위한 사용자 인터페이스
    를 포함하는 음성 인식 시스템.
  2. 제 1 항에 있어서,
    상기 상이한 디스플레이 특성은 디폴트 디스플레이 특성 및 2개 또는 그 이상의 다른 디스플레이 특성을 포함하는
    음성 인식 시스템.
  3. 제 2 항에 있어서,
    상기 디폴트 디스플레이 특성은 정상적인 텍스트인
    음성 인식 시스템.
  4. 제 2 항에 있어서,
    상기 하나 또는 그 이상의 워드는 상기 신뢰도 측정치가 임계치 레벨 이하일 때, 상기 2개 또는 그 이상의 다른 디스플레이 특성과 함께 디스플레이되며, 이에 따라 가능한 에러가 표시되는
    음성 인식 시스템.
  5. 제 4 항에 있어서,
    상기 임계치 레벨은 상기 음성 인식 시스템의 사용자에 의해 선택되는
    음성 인식 시스템.
  6. 제 2 항에 있어서,
    상기 하나 또는 그 이상의 워드는 상기 신뢰도 측정치가 임계치 레벨 이상일 때, 상기 디폴트 디스플레이 특성과 함께 디스플레이되는
    음성 인식 시스템.
  7. 음성 인식 시스템에 있어서,
    음성을 텍스트 - 여기서, 상기 텍스트는 하나 또는 그 이상의 워드임 - 로 변환하기 위한 음성 인식기 - 여기서, 상기 음성 인식기는 상기 하나 또는 그 이상의 각각의 워드에 대해 적어도 3개의 가능한 점수 중 하나를 할당하기 위한 신뢰도 레벨 스코어러를 포함함 - ;
    상기 점수 - 여기서, 상기 점수는 상기 하나 또는 그 이상의 워드가 상기 점수가 속한 그 다수의 소범위에 의존하는, 다수의 표시 중 하나 또는 그 이상의 표시에 따라 디스플레이되도록 함 - 에 근거하여 상기 하나 또는 그 이상의 워드를 디스플레이하기 위한 사용자 인터페이스; 및
    상기 음성 인식 시스템의 사용자가 상기 소범위를 정의할 수 있도록 하는 사용자 제어수단
    을 포함하는 음성 인식 시스템.
  8. 제 7 항에 있어서,
    상기 각각의 표시는 상이한 칼라인
    음성 인식 시스템.
  9. 제 7 항에 있어서,
    상기 각각의 표시는, 폰트 형태, 포인트 크기, 볼드체, 이탤릭체, 밑줄, 이중밑줄, 대문자 사용, 섬광(flashing) 및 깜박거림(blinking) 속성으로 이루어진 그룹으로부터 선택된 적어도 하나의 상이한 폰트 속성인
    음성 인식 시스템.
  10. 제 7 항에 있어서,
    상기 각각의 표시는 단일 칼라의 상이한 음영 또는 회색의 상이한 음영 중 하나인
    음성 인식 시스템.
  11. 제 10 항에 있어서,
    상기 사용자 제어수단은 상기 사용자로 하여금 상기 소범위를 식별하기 위해 칼라 맵 또는 회색 스케일 맵 중 하나를 선택할 수 있도록 하는
    음성 인식 시스템.
  12. 음성 인식 시스템에 있어서,
    음성을 텍스트 - 여기서, 상기 텍스트는 하나 또는 그 이상의 워드임 - 로 변환하기 위한 음성 인식기 - 여기서, 상기 음성 인식기는 상기 하나 또는 그 이상의 각각의 워드에 대해 적어도 3개의 가능한 점수 중 하나를 할당하기 위한 신뢰도 레벨 스코어러를 포함함 - ; 및
    상기 점수에 따라 상기 하나 또는 그 이상의 워드 - 여기서, 상기 디스플레이되는 하나 또는 그 이상의 워드 각각은 상기 점수에 근거하여 연속적인 칼라 범위로 맵핑되며, 그에 따라, 상기 상이한 각각의 점수에 대해 상이한 칼라 디스플레이를 제공함 - 를 디스플레이하기 위한 사용자 인터페이스
    를 포함하는 음성 인식 시스템.
  13. 제 12 항에 있어서,
    상기 칼라 범위에 대한 칼라 맵을 더 포함하고,
    상기 음성 인식 시스템의 사용자는 상기 칼라 맵 중 하나를 선택하는
    음성 인식 시스템.
  14. 음성 인식 방법에 있어서,
    입력 음성을 텍스트 - 여기서, 상기 텍스트는 하나 또는 그 이상의 워드임 - 로 변환하는 단계;
    상기 하나 또는 그 이상의 워드 각각에 대해 적어도 3개의 가능한 신뢰도 레벨 점수 - 여기서, 상기 점수는 상기 하나 또는 그 이상의 워드가 정확하게 인식되었는지에 관한 신뢰도 측정치가 됨 - 중 하나를 할당하는 단계; 및
    상기 할당 단계에 근거하여 상기 하나 또는 그 이상의 워드 - 여기서, 상기 하나 또는 그 이상의 워드 각각은 상기 점수에 근거하여 상이한 디스플레이 특성을 가짐 - 를 디스플레이하는 단계
    를 포함하는 음성 인식 방법.
  15. 제 14 항에 있어서,
    상기 상이한 디스플레이 특성은 디폴트 디스플레이 특성 및 2개 또는 그 이상의 다른 디스플레이 특성을 포함하는
    음성 인식 방법.
  16. 제 15 항에 있어서,
    상기 디폴트 디스플레이 특성은 정상적인 텍스트인
    음성 인식 방법.
  17. 제 15 항에 있어서,
    상기 하나 또는 그 이상의 워드는 상기 하나 또는 그 이상의 워드의 상기 신뢰도 측정치가 임계치 레벨 이하일 때, 상기 2개 또는 그 이상의 다른 디스플레이 특성과 함께 디스플레이되는
    음성 인식 방법.
  18. 제 17 항에 있어서,
    상기 임계치 레벨의 사용자 선택능력을 제공하는 단계
    를 더 포함하는 음성 인식 방법.
  19. 제 15 항에 있어서,
    상기 신뢰도 측정치가 임계치 레벨 이상일 때, 상기 디폴트 디스플레이 특성과 함께 상기 하나 또는 그 이상의 워드를 디스플레이하는 단계
    를 더 포함하는 음성 인식 시스템.
  20. 음성 인식 방법에 있어서,
    입력 음성을 텍스트 - 여기서, 상기 텍스트는 하나 또는 그 이상의 워드임 - 로 변환하는 단계;
    상기 하나 또는 그 이상의 워드 각각에 대해 적어도 3개의 신뢰도 레벨 점수 중 하나를 할당하는 단계; 및
    상기 할당 단계에 따라 상기 하나 또는 그 이상의 워드를 디스플레이하는 단계를 포함하고,
    상기 점수는 상기 하나 또는 그 이상의 워드가 상기 점수가 속한 그 다수의 소범위 - 여기서, 상기 소범위는 사용자에 의해 정의됨 - 에 의존하는, 다수의 표시 중 하나 또는 그 이상의 표시에 따라 디스플레이되도록 하는
    음성 인식 방법.
  21. 제 20 항에 있어서,
    상기 다수의 표시 각각에 대해 상이한 칼라를 제공하는 단계
    를 더 포함하는 음성 인식 방법.
  22. 제 20 항에 있어서,
    상기 다수의 표시 각각에 대해 적어도 하나의 상이한 폰트 속성 -여기서, 상기 상이한 폰트 속성은, 폰트 형태, 포인트 크기, 볼드체, 이탤릭체, 밑줄, 이중밑줄, 대문자 사용, 섬광(flashing) 및 깜박거림(blinking) 속성으로 이루어진 그룹으로부터 선택됨 - 을 제공하는 단계
    를 더 포함하는 음성 인식 방법.
  23. 제 20 항에 있어서,
    상기 하나 또는 그 이상의 표시 각각에 대해 단일 칼라의 상이한 음영 또는 회색의 상이한 음영 중 하나를 제공하는 단계
    를 더 포함하는 음성 인식 방법.
  24. 제 23 항에 있어서,
    상기 사용자가 상기 소범위를 식별하기 위해 칼라 맵 또는 회색 스케일 맵 중 하나를 선택하는 단계
    를 더 포함하는 음성 인식 시스템.
  25. 음성 인식 방법에 있어서,
    입력 음성을 텍스트 - 여기서, 상기 텍스트는 하나 또는 그 이상의 워드임 - 로 변환하는 단계;
    상기 하나 또는 그 이상의 워드 각각에 대해 적어도 3개의 가능한 신뢰도 레벨 점수 중 하나를 할당하는 단계; 및
    상기 할당 단계에 따라 상기 하나 또는 그 이상의 워드 - 여기서, 상기 하나 또는 그 이상의 워드는 상기 점수에 근거하여 연속적인 칼라 범위로 맵핑되며, 그에 따라, 상기 상이한 각각의 점수에 대해 상이한 칼라 디스플레이를 제공함 - 를 디스플레이하는 단계
    를 포함하는 음성 인식 방법.
  26. 제 25 항에 있어서,
    상기 칼라 범위에 대해 칼라 맵을 선택하는 단계
    를 더 포함하는 음성 인식 방법.
  27. 텍스트 내의 워드와 관련된 적어도 3개의 가능한 점수 중 하나를 할당하기 위한 프로세스; 및
    상기 점수에 근거한 시각적 속성에 따라 상기 텍스트를 디스플레이하기 위한 사용자 인터페이스
    를 포함하는 시스템.
  28. 제 27 항에 있어서,
    상기 각각의 시각적 속성은 상이한 칼라 또는 단일 칼라의 상이한 음영 중 하나인
    시스템.
  29. 제 27 항에 있어서,
    상기 각각의 시각적 속성은, 폰트 형태, 포인트 크기, 볼드체, 이탤릭체, 밑줄, 이중밑줄, 대문자 사용, 섬광(flashing) 및 깜박거림(blinking) 속성으로 이루어진 그룹으로부터 선택된 적어도 하나의 상이한 폰트 속성인
    시스템.
  30. 텍스트 내의 워드와 관련된 적어도 3개의 가능한 점수 중 하나를 할당하는 단계; 및
    상기 점수에 근거한 시각적 속성에 따라 상기 텍스트를 디스플레이하는 단계
    를 포함하는 방법.
  31. 제 30 항에 있어서,
    상기 각각의 시각적 속성은 상이한 칼라 또는 단일 칼라의 상이한 음영 중 하나인
    방법.
  32. 제 30 항에 있어서,
    상기 각각의 시각적 속성은, 폰트 형태, 포인트 크기, 볼드체, 이탤릭체, 밑줄, 이중밑줄, 대문자 사용, 섬광(flashing) 및 깜박거림(blinking) 속성으로 이루어진 그룹으로부터 선택된 적어도 하나의 상이한 폰트 속성인
    시스템.
KR1019980048484A 1997-12-16 1998-11-12 음성을인식하는시스템및그방법 KR100297514B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US8/991,264 1997-12-16
US08/991,264 US6006183A (en) 1997-12-16 1997-12-16 Speech recognition confidence level display
US08/991,264 1997-12-16

Publications (2)

Publication Number Publication Date
KR19990062566A true KR19990062566A (ko) 1999-07-26
KR100297514B1 KR100297514B1 (ko) 2001-08-07

Family

ID=25537037

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980048484A KR100297514B1 (ko) 1997-12-16 1998-11-12 음성을인식하는시스템및그방법

Country Status (4)

Country Link
US (1) US6006183A (ko)
EP (1) EP0924687A3 (ko)
JP (1) JPH11231891A (ko)
KR (1) KR100297514B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612882B1 (ko) * 2004-12-29 2006-08-14 삼성전자주식회사 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
KR102540178B1 (ko) * 2022-09-08 2023-06-05 (주)액션파워 음성 인식 결과를 편집하는 방법

Families Citing this family (121)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2153234C2 (ru) 1992-12-09 2000-07-20 Дискавери Коммьюникейшнз, Инк. Устройство для использования в головной станции системы кабельного телевидения (варианты) и способ распределения программ абонентам в системе кабельного телевидения
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US7509270B1 (en) 1992-12-09 2009-03-24 Discovery Communications, Inc. Electronic Book having electronic commerce features
US7849393B1 (en) 1992-12-09 2010-12-07 Discovery Communications, Inc. Electronic book connection to world watch live
US7835989B1 (en) 1992-12-09 2010-11-16 Discovery Communications, Inc. Electronic book alternative delivery systems
US8073695B1 (en) * 1992-12-09 2011-12-06 Adrea, LLC Electronic book with voice emulation features
US7168084B1 (en) 1992-12-09 2007-01-23 Sedna Patent Services, Llc Method and apparatus for targeting virtual objects
US7865567B1 (en) 1993-12-02 2011-01-04 Discovery Patent Holdings, Llc Virtual on-demand electronic book
US9053640B1 (en) 1993-12-02 2015-06-09 Adrea, LLC Interactive electronic book
US7861166B1 (en) 1993-12-02 2010-12-28 Discovery Patent Holding, Llc Resizing document pages to fit available hardware screens
US8095949B1 (en) 1993-12-02 2012-01-10 Adrea, LLC Electronic book with restricted access features
US6195637B1 (en) * 1998-03-25 2001-02-27 International Business Machines Corp. Marking and deferring correction of misrecognition errors
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern
US6138099A (en) * 1998-10-19 2000-10-24 International Business Machines Corp. Automatically updating language models
US6370503B1 (en) * 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
US6704709B1 (en) * 1999-07-28 2004-03-09 Custom Speech Usa, Inc. System and method for improving the accuracy of a speech recognition program
US6865258B1 (en) * 1999-08-13 2005-03-08 Intervoice Limited Partnership Method and system for enhanced transcription
US6834308B1 (en) 2000-02-17 2004-12-21 Audible Magic Corporation Method and apparatus for identifying media content presented on a media playing device
DE10021389A1 (de) * 2000-05-03 2001-11-08 Nokia Mobile Phones Ltd Verfahren zum Steuern eines Systems, insbesondere eines elektrischen und/oder elektronischen Systems mit zumindest einer Anwendungseinrichtung
WO2002009093A1 (en) * 2000-07-20 2002-01-31 Koninklijke Philips Electronics N.V. Feedback of recognized command confidence level
US6353767B1 (en) * 2000-08-25 2002-03-05 General Electric Company Method and system of confidence scoring
JP2002132287A (ja) * 2000-10-20 2002-05-09 Canon Inc 音声収録方法および音声収録装置および記憶媒体
US7562012B1 (en) 2000-11-03 2009-07-14 Audible Magic Corporation Method and apparatus for creating a unique audio signature
US6785650B2 (en) 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
EP1490767B1 (en) 2001-04-05 2014-06-11 Audible Magic Corporation Copyright detection and protection system and method
US20020184022A1 (en) * 2001-06-05 2002-12-05 Davenport Gary F. Proofreading assistance techniques for a voice recognition system
US6792408B2 (en) * 2001-06-12 2004-09-14 Dell Products L.P. Interactive command recognition enhancement system and method
US7529659B2 (en) 2005-09-28 2009-05-05 Audible Magic Corporation Method and apparatus for identifying an unknown work
US7877438B2 (en) * 2001-07-20 2011-01-25 Audible Magic Corporation Method and apparatus for identifying new media content
US8972481B2 (en) 2001-07-20 2015-03-03 Audible Magic, Inc. Playlist generation method and apparatus
US7793326B2 (en) 2001-08-03 2010-09-07 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator
US7908628B2 (en) 2001-08-03 2011-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content coding and formatting
DE10138408A1 (de) * 2001-08-04 2003-02-20 Philips Corp Intellectual Pty Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
US20030046071A1 (en) * 2001-09-06 2003-03-06 International Business Machines Corporation Voice recognition apparatus and method
US20030061022A1 (en) * 2001-09-21 2003-03-27 Reinders James R. Display of translations in an interleaved fashion with variable spacing
US7006968B2 (en) * 2001-10-11 2006-02-28 Hewlett-Packard Development Company L.P. Document creation through embedded speech recognition
ATE325413T1 (de) * 2001-10-31 2006-06-15 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte
US7613601B2 (en) * 2001-12-26 2009-11-03 National Institute Of Information And Communications Technology Method for predicting negative example, system for detecting incorrect wording using negative example prediction
US6898567B2 (en) * 2001-12-29 2005-05-24 Motorola, Inc. Method and apparatus for multi-level distributed speech recognition
US7016842B2 (en) * 2002-03-26 2006-03-21 Sbc Technology Resources, Inc. Method and system for evaluating automatic speech recognition telephone services
US7548847B2 (en) * 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7774194B2 (en) * 2002-08-14 2010-08-10 Raanan Liebermann Method and apparatus for seamless transition of voice and/or text into sign language
WO2004053836A1 (en) * 2002-12-10 2004-06-24 Kirusa, Inc. Techniques for disambiguating speech input using multimodal interfaces
US6834265B2 (en) 2002-12-13 2004-12-21 Motorola, Inc. Method and apparatus for selective speech recognition
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
US7197331B2 (en) * 2002-12-30 2007-03-27 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US8332326B2 (en) 2003-02-01 2012-12-11 Audible Magic Corporation Method and apparatus to identify a work received by a processing system
US7324940B1 (en) 2003-02-28 2008-01-29 Lumen Vox, Llc Speech recognition concept confidence measurement
EP1611570B1 (en) * 2003-03-31 2017-06-28 Nuance Communications Austria GmbH System for correction of speech recognition results with confidence level indication
US20050027523A1 (en) * 2003-07-31 2005-02-03 Prakairut Tarlton Spoken language system
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
US7383172B1 (en) 2003-08-15 2008-06-03 Patrick William Jamieson Process and system for semantically recognizing, correcting, and suggesting domain specific speech
JP4012143B2 (ja) * 2003-12-16 2007-11-21 キヤノン株式会社 情報処理装置およびデータ入力方法
US8130746B2 (en) 2004-07-28 2012-03-06 Audible Magic Corporation System for distributing decoy content in a peer to peer network
EP1787289B1 (en) * 2004-07-30 2018-01-10 Dictaphone Corporation A system and method for report level confidence
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US9520068B2 (en) * 2004-09-10 2016-12-13 Jtt Holdings, Inc. Sentence level analysis in a reading tutor
US20060106618A1 (en) * 2004-10-29 2006-05-18 Microsoft Corporation System and method for converting text to speech
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US7865362B2 (en) * 2005-02-04 2011-01-04 Vocollect, Inc. Method and system for considering information about an expected response when performing speech recognition
US7827032B2 (en) * 2005-02-04 2010-11-02 Vocollect, Inc. Methods and systems for adapting a model for a speech recognition system
US7788086B2 (en) * 2005-03-01 2010-08-31 Microsoft Corporation Method and apparatus for processing sentiment-bearing text
US7788087B2 (en) 2005-03-01 2010-08-31 Microsoft Corporation System for processing sentiment-bearing text
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
US7742921B1 (en) * 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for correcting errors when generating a TTS voice
US7693716B1 (en) 2005-09-27 2010-04-06 At&T Intellectual Property Ii, L.P. System and method of developing a TTS voice
US7630898B1 (en) 2005-09-27 2009-12-08 At&T Intellectual Property Ii, L.P. System and method for preparing a pronunciation dictionary for a text-to-speech voice
US7711562B1 (en) * 2005-09-27 2010-05-04 At&T Intellectual Property Ii, L.P. System and method for testing a TTS voice
US7742919B1 (en) 2005-09-27 2010-06-22 At&T Intellectual Property Ii, L.P. System and method for repairing a TTS voice database
US20070078806A1 (en) * 2005-10-05 2007-04-05 Hinickle Judith A Method and apparatus for evaluating the accuracy of transcribed documents and other documents
JP4757599B2 (ja) * 2005-10-13 2011-08-24 日本電気株式会社 音声認識システムと音声認識方法およびプログラム
US7822596B2 (en) * 2005-12-05 2010-10-26 Microsoft Corporation Flexible display translation
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
JP4197344B2 (ja) 2006-02-20 2008-12-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声対話システム
US20070208567A1 (en) * 2006-03-01 2007-09-06 At&T Corp. Error Correction In Automatic Speech Recognition Transcripts
US7680853B2 (en) * 2006-04-10 2010-03-16 Microsoft Corporation Clickable snippets in audio/video search results
US8121838B2 (en) 2006-04-11 2012-02-21 Nuance Communications, Inc. Method and system for automatic transcription prioritization
US20070299665A1 (en) * 2006-06-22 2007-12-27 Detlef Koll Automatic Decision Support
US7899674B1 (en) * 2006-08-11 2011-03-01 The United States Of America As Represented By The Secretary Of The Navy GUI for the semantic normalization of natural language
US8204746B2 (en) * 2007-03-29 2012-06-19 Intellisist, Inc. System and method for providing an automated call center inline architecture
US8006314B2 (en) 2007-07-27 2011-08-23 Audible Magic Corporation System for identifying content of digital data
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
US8199651B1 (en) 2009-03-16 2012-06-12 Audible Magic Corporation Method and system for modifying communication flows at a port level
US8463673B2 (en) 2010-09-23 2013-06-11 Mmodal Ip Llc User feedback in semi-automatic question answering systems
US9094291B1 (en) * 2010-12-14 2015-07-28 Symantec Corporation Partial risk score calculation for a data object
US8924394B2 (en) 2011-02-18 2014-12-30 Mmodal Ip Llc Computer-assisted abstraction for reporting of quality measures
US8914290B2 (en) 2011-05-20 2014-12-16 Vocollect, Inc. Systems and methods for dynamically improving user intelligibility of synthesized speech in a work environment
WO2012177662A1 (en) 2011-06-19 2012-12-27 Mmodal Ip Llc Document extension in dictation-based document generation workflow
US9361883B2 (en) * 2012-05-01 2016-06-07 Microsoft Technology Licensing, Llc Dictation with incremental recognition of speech
US9495966B2 (en) 2012-05-31 2016-11-15 Elwha Llc Speech recognition adaptation systems based on adaptation data
US20130325453A1 (en) * 2012-05-31 2013-12-05 Elwha LLC, a limited liability company of the State of Delaware Methods and systems for speech adaptation data
US9899026B2 (en) 2012-05-31 2018-02-20 Elwha Llc Speech recognition adaptation systems based on adaptation data
US9899040B2 (en) * 2012-05-31 2018-02-20 Elwha, Llc Methods and systems for managing adaptation data
US9620128B2 (en) 2012-05-31 2017-04-11 Elwha Llc Speech recognition adaptation systems based on adaptation data
US10431235B2 (en) 2012-05-31 2019-10-01 Elwha Llc Methods and systems for speech adaptation data
US9064492B2 (en) 2012-07-09 2015-06-23 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
JP6388864B2 (ja) 2012-08-13 2018-09-12 エムモーダル アイピー エルエルシー 自由形式テキストに含まれる情報に対応する離散データ表現の維持
US9081778B2 (en) 2012-09-25 2015-07-14 Audible Magic Corporation Using digital fingerprints to associate data with a work
US9978395B2 (en) 2013-03-15 2018-05-22 Vocollect, Inc. Method and system for mitigating delay in receiving audio stream during production of sound from audio stream
JP2014202848A (ja) * 2013-04-03 2014-10-27 株式会社東芝 テキスト生成装置、方法、及びプログラム
CN103700368B (zh) * 2014-01-13 2017-01-18 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
US20150206156A1 (en) * 2014-01-20 2015-07-23 Jason Tryfon Survey management systems and methods with natural language support
US10540979B2 (en) * 2014-04-17 2020-01-21 Qualcomm Incorporated User interface for secure access to a device using speaker verification
CN104021786B (zh) * 2014-05-15 2017-05-24 北京中科汇联信息技术有限公司 一种语音识别的方法和装置
EP2947861B1 (en) * 2014-05-23 2019-02-06 Samsung Electronics Co., Ltd System and method of providing voice-message call service
KR102319530B1 (ko) 2014-08-18 2021-10-29 삼성전자주식회사 사용자 입력 처리 방법 및 장치
US11151614B2 (en) * 2014-09-26 2021-10-19 Comcast Cable Communications, Llc Advertisements blended with user's digital content
KR102167719B1 (ko) 2014-12-08 2020-10-19 삼성전자주식회사 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
US10950329B2 (en) 2015-03-13 2021-03-16 Mmodal Ip Llc Hybrid human and computer-assisted coding workflow
US20160365088A1 (en) * 2015-06-10 2016-12-15 Synapse.Ai Inc. Voice command response accuracy
US10714121B2 (en) 2016-07-27 2020-07-14 Vocollect, Inc. Distinguishing user speech from background speech in speech-dense environments
EP3571608A4 (en) 2017-01-17 2020-10-28 MModal IP LLC PROCEDURES AND SYSTEMS FOR MANIFESTATION AND TRANSMISSION OF FOLLOW-UP NOTIFICATIONS
CA3083087A1 (en) 2017-11-22 2019-05-31 Mmodal Ip Llc Automated code feedback system
US10936812B2 (en) * 2019-01-10 2021-03-02 International Business Machines Corporation Responsive spell checking for web forms
JP2020201363A (ja) * 2019-06-09 2020-12-17 株式会社Tbsテレビ 音声認識テキストデータ出力制御装置、音声認識テキストデータ出力制御方法、及びプログラム
US11875780B2 (en) * 2021-02-16 2024-01-16 Vocollect, Inc. Voice recognition performance constellation graph

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
GB2302199B (en) * 1996-09-24 1997-05-14 Allvoice Computing Plc Data processing method and apparatus
DE19821422A1 (de) * 1998-05-13 1999-11-18 Philips Patentverwaltung Verfahren zum Darstellen von aus einem Sprachsignal ermittelten Wörtern

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100612882B1 (ko) * 2004-12-29 2006-08-14 삼성전자주식회사 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치
KR100717385B1 (ko) * 2006-02-09 2007-05-11 삼성전자주식회사 인식 후보의 사전적 거리를 이용한 인식 신뢰도 측정 방법및 인식 신뢰도 측정 시스템
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
KR102540178B1 (ko) * 2022-09-08 2023-06-05 (주)액션파워 음성 인식 결과를 편집하는 방법

Also Published As

Publication number Publication date
JPH11231891A (ja) 1999-08-27
KR100297514B1 (ko) 2001-08-07
EP0924687A3 (en) 2000-04-05
EP0924687A2 (en) 1999-06-23
US6006183A (en) 1999-12-21

Similar Documents

Publication Publication Date Title
KR100297514B1 (ko) 음성을인식하는시스템및그방법
EP0840286B1 (en) Method and system for displaying a variable number of alternative words during speech recognition
US6785650B2 (en) Hierarchical transcription and display of input speech
US5829000A (en) Method and system for correcting misrecognized spoken words or phrases
US5884258A (en) Method and system for editing phrases during continuous speech recognition
US5220639A (en) Mandarin speech input method for Chinese computers and a mandarin speech recognition machine
US7421387B2 (en) Dynamic N-best algorithm to reduce recognition errors
CN101276245B (zh) 一种输入过程中编码纠错的提示方法和系统
JP4680714B2 (ja) 音声認識装置および音声認識方法
US11615784B2 (en) Control method and control apparatus for speech interaction
US6983248B1 (en) Methods and apparatus for recognized word registration in accordance with speech recognition
AU9455498A (en) Apparatus and method for distinguishing similar-sounding utterances in speech recognition
JPH11202889A (ja) 音声識別装置、発音矯正装置およびこれらの方法
JP2007512608A (ja) テキストフォーマッティング及びスピーチ認識のためのトピック特有のモデル
JP2001092485A (ja) 音声情報の登録方法、認識文字列の特定方法、音声認識装置、音声情報の登録のためのソフトウエア・プロダクトを格納した記憶媒体、及び認識文字列の特定のためのソフトウエア・プロダクトを格納した記憶媒体
WO1998025252A1 (en) Method and system for unambiguous braille input and conversion
US20020128833A1 (en) Method of displaying words dependent on areliability value derived from a language model for speech
US20020152075A1 (en) Composite input method
Wells Computer-coded phonetic transcription
JP2002501632A (ja) 視覚障害を持つユーザーに複数バイト文字を可聴的に出力するための方法とシステム
US7430503B1 (en) Method of combining corpora to achieve consistency in phonetic labeling
CN114299930A (zh) 端到端语音识别模型处理方法、语音识别方法及相关装置
US5129000A (en) Voice recognition method by analyzing syllables
JPS634206B2 (ko)
KR101777141B1 (ko) 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20060417

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee