KR101255402B1 - 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 - Google Patents

대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 Download PDF

Info

Publication number
KR101255402B1
KR101255402B1 KR1020087002556A KR20087002556A KR101255402B1 KR 101255402 B1 KR101255402 B1 KR 101255402B1 KR 1020087002556 A KR1020087002556 A KR 1020087002556A KR 20087002556 A KR20087002556 A KR 20087002556A KR 101255402 B1 KR101255402 B1 KR 101255402B1
Authority
KR
South Korea
Prior art keywords
word
list
words
alternative
alternatives
Prior art date
Application number
KR1020087002556A
Other languages
English (en)
Other versions
KR20080031357A (ko
Inventor
로버트 엘. 챔버스
데이비드 모왓트
펠릭스 제라드 토큐일 이포 앤드류
로버트 이. 듀워
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US70583505P priority Critical
Priority to US60/705,835 priority
Priority to US11/255,329 priority
Priority to US11/255,329 priority patent/US8473295B2/en
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Priority to PCT/US2006/030812 priority patent/WO2007019477A1/en
Publication of KR20080031357A publication Critical patent/KR20080031357A/ko
Application granted granted Critical
Publication of KR101255402B1 publication Critical patent/KR101255402B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

디스플레이된 단어를 선택함에 따라, 선택된 단어에 대한 대안들의 목록이 디스플레이된다. 목록 내의 각각의 대안은 연관된 기호를 가지고 있다. 그리고 나서 음성 신호가 디코딩되어 가능한 단어들의 목록이 파악되고 가능한 단어들의 목록은 연관된 기호를 가지는 각각의 가능한 단어들과 함께 디스플레이된다.
받아쓰기, 다시 받아쓰기, 대안들의 목록, 대안 표현, 음성 신호, 연관된 기호, 디코딩, 디스플레이

Description

대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기{REDICTATION 0F MISRECOGNIZED WORDS USING A LIST OF ALTERNATIVES}

음성 인식은 음성 신호를 단어로 변환하는 것이다. 음성 인식 동안, 음성 신호가 하나 이상의 모델(model)과 비교되어, 말해졌을 단어가 파악(identify)된다.

일반적으로, 음성 인식은 그러한 음성 신호일 확률이 가장 높은 일련의 음성적 단위들을 파악하려고 시도하는 확률적 기법이다. 많은 인식 시스템들은 가장 근접한 단어의 배열을 파악할 뿐만 아니라 덜 근접하더라도 그러한 음성 신호에 의해 표현되었을 수 있는 대안의 단어 배열(sequences of words) 또한 파악한다.

최상의 음성 인식 시스템일지라도, 때때로 단어를 틀리게 인식한다. 일반적으로 음성 인식에 의존하는 응용예는 사용자가 이런 오류를 정정할 방법을 제공한다. 예컨대, 간단한 기법 하나는 사용자가 입력 장치를 사용하여 오류가 있는 단어를 선택하고 정확한 단어를 타이프하게 한다.

또 다른 오류 정정 기법은 사용자가 음성 명령을 사용하여 단어를 선택하게 한다. 이 응용예는 가장 근접하다고 인식된 단어에 대한 그럴듯한 대안으로서, 음성 인식 엔진에 의해 반환(return)되는 대안 단어들의 목록(a list of alternative words)을 제공한다. 이와 같은 시스템에서, 각각의 대안 단어는 사용자가 해당 숫자를 말함으로써 그 단어를 선택할 수 있도록 숫자와 연관되어 있다.

이러한 정정 기법이 유용하기 위해서는 사용자가 원하는 단어가 대안들의 목록(a list of alternatives)에 나타나야 한다. 만일 인식 시스템이 대안으로서 원하는 단어를 제시하지 않는다면 이 정정 기법은 정정을 이행하는데 사용할 수 없을 것이다.

사용자가 단어를 정정하기 위한 또 다른 방법은 오류가 있는 단어를 선택하고나서 단순히 원하는 단어로 다시 받아쓰게 하는(redictate) 방법이다. 이 정정 방법은 단어가 다시 발음(repronounce)되면 음성 인식 시스템이 그 단어를 인식할 수 있는 경우에 유용할 것이다. 그러나 많은 경우 음성 인식 엔진이 단어를 거듭 잘못 파악(misidentify)하여 선택된 단어를 또 다른 틀린 단어로 대체할 것이다. 이는 사용자가 다시 받아쓰기를 시키게 만들고, 사용자들을 짜증나게 할 수 있다.

상기의 설명은 단지 일반적인 배경 지식 정보를 제공하는 것이고 본 발명의 권리 범위를 결정하는 데 보조 수단으로서 사용되고자 하는 것은 아니다.

디스플레이된 단어를 선택함에 따라, 선택된 단어에 대한 대안들의 목록이 디스플레이된다. 목록 내의 각각의 대안은 연관된 기호(symbol)를 가지고 있다. 그리고 나서 음성 신호가 디코딩되어 가능한 단어 목록(a list of possible words)이 파악되고, 가능한 단어 목록이 연관된 기호를 갖는 각각의 가능한 단어와 함께 디스플레이된다.

지금까지의 간략한 설명은, - 아래의 실시예에서 더욱 상세히 기술될 - 사상들 중 선택된 일부를 소개하고자 제공되었다. 이 간략한 설명은 본 발명의 권리범위의 본질적인 특징이나 기본적인 특징을 파악하고자 하는 것도 아니고, 본 발명의 권리 범위를 결정하는 데 보조 수단으로서 사용되고자 하는 것도 아니다.

도 1은 컴퓨팅 환경의 블록도를 도시하는 도면.

도 2는 모바일 컴퓨팅 환경의 블록도를 도시하는 도면.

도 3은 대안들의 목록을 이용한 다시 받아쓰기를 위한 방법의 흐름도를 도시하는 도면.

도 4는 도 3의 흐름도에 사용되는 요소들의 블록도를 도시하는 도면.

도 5는 인식된 텍스트의 디스플레이 이미지를 도시하는 도면.

도 6은 정정 다이얼로그 박스와 함께 도 5의 디스플레이를 도시하는 도면.

도 7은 제2 정정 다이얼로그 박스와 함께 디스플레이된 텍스트의 이미지를 도시하는 도면.

도 8은 제3 다이얼로그 박스와 함께 인식된 텍스트의 디스플레이를 도시하는 도면.

도 9는 정정된 텍스트의 디스플레이를 도시하는 도면.

도 10은 대안들의 목록을 호출하기 위한 대안적 흐름도를 도시하는 도면.

도 1은 실시예들이 구현되기에 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 그러한 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 컴퓨팅 시스템 환경(100)이 해석되어서는 안된다.

실시예들은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 다양한 실시예들에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.

실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 어떤 실시예들은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 양쪽에 위치할 수 있다.

도 1과 관련하여, 어떤 실시예들을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장 치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 변조된 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예컨대, 통신 매체는 유선 네트워크 또는 직접 배선된 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.

시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. 통상적으로 RAM(132)에는 처리 장치(120)가 즉시 이용할 수 있고/있거나 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.

컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매 체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 도시한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.

위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체에는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터가 저장된다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이와 관련해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모 듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.

사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.

컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.

LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속된다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.

도 2는 예시적 컴퓨팅 환경인 이동 장치(mobile device; 200)의 블록도 이다. 이동 장치(200)는 마이크로 프로세서(202), 메모리(204), 입/출력 컴포넌트(input/output components; 206) 그리고 원격 컴퓨터(remote computer)나 다른 이동 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 전술한 구성요소는 상호 간에 통신을 하기 위해 적합한 버스(210)를 통해 연결된다.

메모리(204)는 이동 장치(200)의 주 전원이 꺼졌을 때도 메모리(204) 내에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시 없음)이 있는 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리형태로 구현된다. 메모리(204)의 일부분 은 프로그램 실행을 위한 번지 지정 메모리(addressable memory)로서 할당되는 것이 바람직하고, 반면에 메모리(204)의 또 다른 부분은 디스크 드라이브 상의 모의 저장장치(simulate storage)와 같은 저장장치로 사용되는 것이 바람직하다.

메모리(204)는 객체 기억장치(object store; 216) 뿐만 아니라 운영 체제(212), 애플리케이션 프로그램(214)도 포함한다. 동작 중에, 운영 체제(212)는 바람직하게는 메모리(204)로부터 읽혀져 프로세서(202)에 의해 실행된다. 한 바람직한 실시예에서 운영 체제(212)는 마이크로소프트 코포레이션(Microsoft Corporation) 에서 나온 상업적으로 이용가능한 윈도우즈 씨이(WINDOWS? CE) 상표(brand)의 운영 체제일 수 있다. 운영 체제(212)는 이동 장치를 위해 설계되는 것이 바람직하고, 애플리케이션(214)에 의해 사용될 수 있는 데이터베이스 특성을 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 집합(a set of exposed application programming interface and methods)을 통해 구현한다. 객체 기억장치(216) 내의 객체는 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 호출에 적어도 부분적으로 응답하여, 애플리케이션(214)과 운영 체제(212)에 의해 관리된다.

통신 인터페이스(208)는 이동 장치(200)가 정보를 송신하고 수신하는 것을 가능케하는 수많은 장치와 기술을 나타낸다. 상기 장치는 몇 개를 들자면 유/무선 모뎀, 위성 수신기 및 방송 동조기(broadcast tuner)를 포함한다. 이동 장치(200)는 또한 상호 간의 데이터 교환을 위해 컴퓨터에 직접 연결될 수 있다. 이런 경우, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 또는 병렬 통신 접속(a serial or a parallel communication connection)일 수 있으며 예시된 이들 모든 인터페이스는 스트리밍 정보를 전송하는 것이 가능하다.

입/출력 컴포넌트(206)는 접촉 감지 스크린(touch-sensitive screen), 버튼, 롤러 및 마이크로폰과 같은 다양한 입력 장치를 포함할 뿐만 아니라, 음향 생성기(audio generator), 진동 장치(vibrating device) 및 디스플레이와 같은 다양한 출력 장치들도 포함한다. 상기에 열거된 장치들은 예를 든 것이고 이동 장치(200)에 모두 갖춰져 있을 필요는 없다. 부가적으로, 기타 입/출력 장치는 이동 장치(200)에 부착되거나, 이동 장치(200)와 함께 있을 수 있다.

본 발명은 대안들의 목록을 호출하고 선택하기 위한 새로운 기법을 제공한다. 도 3은 음성 인식 오류를 정정하기 위해 대안들의 목록을 사용하고 호출하는 일 실시예의 흐름도를 제공한다. 도 4는 도 3의 방법에서 사용된 구성요소의 블록도를 제공한다.

도 3의 단계(300)에서 도 4의 음성 신호(400)는 음성 인식 엔진(402)에 제공되고, 이러한 음성 인식 엔진은 인식된 단어와 대안들(404)을 제시한다. 일 실시예에서, 음성 인식 엔진(402)에 의해 인식된 각각 단어에, 그와 같이 인식된 단어보다 덜 근접하지만 주어진 음성 인식 모델에 따르면 여전히 그럴듯한 하나 이상의 대안이 제공된다.

인식된 단어와 대안들(404)은, 말해진 음성이 받아쓰기(dictation)를 의미하는지 명령을 의미하는지 결정하는 모드 평가 메쏘드(mode evaluation method; 406)로 제공된다. 만일 모드 평가 메쏘드(406)가 인식된 단어가 받아쓰기를 의미한다고 결정하면, 모드 평가 메쏘드(406)는 디스플레이(410) 상에 디스플레이되는 디스플레이 가능한 인식 텍스트(displayable recognized text)를 생성하는 텍스트 디스플레이 메쏘드(text display method; 407)를 호출한다.

도 5는 오류를 포함하는 디스플레이된 인식 텍스트의 예시를 제공한다. 특별히, 도 5의 예시에서, 사용자는 "I was in awe of him" 라는 어구(phrase)를 말했으나 음성 인식 엔진은 "I was in ore of him" 라고 인식하였다.

단계(301)에서, 사용자는 디스플레이된 받아쓰기 내의 단어 또는 어구를 정정하라는 명령을 내린다. 일 실시예에서 이 명령은 "correct ore"와 같은 음성 명령(vocal command)이며, 이러한 음성 명령은 인식된 단어와 대안들(404)을 제시하기 위해 음성 인식 엔진(402)에 의해 디코딩된다. 인식된 단어와 대안들은 그것들이 명령을 담고 있는지 판정하기 위해 모드 평가 메쏘드(406)에 의해 평가된다. 인식된 단어가 텍스트를 정정하라는 명령을 담고 있기 때문에, 모드 평가 메쏘드(406)는, 도 6의 하이라이트 박스(highlighting box; 600)에 의해 도시된 바와 같이 선택된 단어 또는 어구를 단계(302)에서 하이라이트(highlight)하는 정정 메쏘드(411)를 호출한다.

소정의 실시예에서는, 단계(304)에서, 정정 메쏘드(411)가 원본 받아쓰기 내에서 선택된 언어나 어구와 함께 반환된 대안들의 목록을 확장한다. 특히, 정정 메쏘드(411)는, 대안들의 목록 내에서 가장 근접한 단어로 시작하여, 단어의 첫 번째 글자를 대문자로 바꾸거나, "one" 을 "1"로 바꾸는 것과 같이 문자 형식(textual version)의 단어를 기호로 바꾸거나, "street" 에 대하여 "st." 처럼 단어의 약어 표현을 추가하는 것과 같은 방법으로 단어의 대안 표현을 추가한다.

단계(306)에서, 정정 메쏘드(411)는 이러한 확장된 목록으로부터 상위 n 개의 대안 단어를 정정 다이얼로그 박스(412) 내에 디스플레이한다. 다이얼로그 박스(412)는 디스플레이(410) 상에 디스플레이된다.

도 6은 대안 단어들의 확장된 목록 내의 상위 n개의 단어의 목록(604)을 제공하는 다이얼로그 박스(602)의 예시를 제공한다. 도 6의 예시에서, 다섯 개의 대안이 제공되었다. 다른 실시예에서는 여덟 개의 대안이 제공된다. 당업자는 사용자에게 임의의 개수의 대안이 제공될 수 있음을 인식할 수 있을 것이다.

목록(604) 내에서 대안 단어는 기호, 특히 숫자와 연관된다. 다이얼로그 박스 내에서 사용자는 자신이 원하는 항목의 옆에 있는 숫자를 말하도록 안내받는다. 따라서, 만일 대안들의 확장된 목록이 사용자가 원하는 대안을 포함한다면, 사용자는 그 단어를 선택하기 위해서 단순히 숫자를 말해도 좋다. 다이얼로그 박스(602)는 또한 사용자가 목록(604) 내에서 원하는 단어를 찾지 못할 경우 단어를 다시 말할 것을 안내한다.

단계(308)에서 사용자는 그러한 목록 내의 항목에 대한 숫자를 말하거나 단어를 다시 발음한다. 음성 인식 엔진(402)은 모드 평가 메쏘드(406)에 제공될 인식 단어들 및 대안들(404)의 새 집합(new set of recognized words and alternatives)을 제시하기 위해 사용자의 음성을 디코딩한다. 단계(310)에서, 모드 평가 메쏘드(406)는 디코딩된 단어가 숫자를 지칭하는지 결정한다. 만약 디코딩된 단어가 숫자라면, 예컨대 단어(600)와 같은 선택된 단어는 대안들의 목록 내의 그 숫자와 연관된 단어 또는 어구로 대체된다. 그리고나서 커서는 정정 명령이 내려졌을 때 위치했던 장소로 되돌아 간다.

만일 단계(310)에서 디코딩된 음성 신호가 숫자를 나타내지 않으면, 단계(308)에서 새롭게 디코딩된 단어 또는 어구를 제공받은 대안들의 목록은, 단계(314)에서 단어의 대안 표현을 목록에 추가함으로써 확장된다. 그러면 이 과정은 단계(306)로 되돌아가서 새롭게 확장된 목록 중 상위 n개의 대안 단어를 정정 다이얼로그 박스에 디스플레이한다.

이런 다이얼로그 박스의 예시가 도 7에 다이얼로그 박스(700)로 도시되어 있다. 다이얼로그 박스(700)에서 목록(702)은 대안 단어의 다른 집단을 담고 있는 것으로 도시되어 있다. 다시 받아쓰기 동안의 단어에 대한 사용자의 발음이 최초의 받아쓰기 동안의 발음과 조금 달랐기 때문에, 대안들의 목록이 변경됐다.

도 7에 도시된 바와 같이, 사용자에게 다시 한 번 숫자를 말하거나 단어를 다시 발음하거나 할 수 있는 기회가 주어진다. 만일 사용자가 단어를 다시 발음한다면 단어는 디코딩되고 대안들의 새 집합이 단계(308)에서 새로운 발음에 근거하여 결정될 것이다. 단계(310)에서 모드 평가 메쏘드(406)는 사용자가 숫자를 말하였는지를 결정한다. 사용자가 다시 한번 숫자를 말하지 않았다면 단계(314)에서 대안들의 새 목록이 확장되고 본 과정은 단계(306)으로 되돌아갈 것이다.

단계(306)로 돌아간 때, 도 8의 다이얼로그 박스(800)인 새로운 다이얼로그 박스가 새로운 대안 목록(802)과 함께 도시된다. 단계(306), 단계(308), 단계(310) 및 단계(314)는 사용자가 숫자를 선택하거나 아니면 다이얼로그 박스를 떠날 때까지 반복된다. 만일 사용자가 단계(310)에서, 예컨대 도 8의 숫자 3과 같은 숫자를 선택하면, 단어 "ore" 대신에 단어 "awe"가 입력되는 도 9의 디스플레이를 제공하는 단계(312)에서 그 숫자와 연관된 텍스트가 선택된 텍스트를 대체할 것이다. 그리고 나서 커서는 정정 명령이 내려지기 전에 있던 지점으로 이동한다.

상기에서 기술하였듯이, 도 3의 메쏘드는 사용자가 그들이 원하는 단어를 담고있는 목록을 찾을 때까지 대안들의 목록 얻기를 계속하도록 허용한다. 이는 각각의 발음에 대하여 항상 사용자에게 선택할 다수의 항목이 주어지기 때문에 사용자가 어떤 단어를 그들이 실제로 받아쓰기에 나타내고 싶은지를 지시할 수 있을 가능성을 높여준다.

도 3의 방법이 한 개의 단어와 관련된 예시로 도시되었지만, 당업자는 한 단어 대신에 전체 어구가 사용될 수 있다는 것을 인식할 것이다. 이런 경우, 사용자는 하나 이상의 단어를 선택할 것이며 대안 목록은 대안 어구들의 목록(a list of alternative phrases)을 담고 있을 것이다. 어구의 발음 각각에 대하여, 사용자가 원하는 어구가 나타날 때까지 대안 어구들의 새 목록이 제시될 것이다.

도 10은 대안들의 목록을 호출하는 또 다른 방법이다. 단계(1000)에서 사용자로부터 받아쓰기가 수신되고 디스플레이된 텍스트로 디코딩된다. 단계(1002)에서 단어 또는 어구를 선택하라는 명령이 수신된다. 단계(1004)에서 선택된 어구를 대체할 새로운 단어 또는 어구를 나타내는 음성 신호가 수신된다. 단계(1006)에서 음성 신호는 새로운 단어 또는 어구를 파악하기 위하여 디코딩된다.

단계(1008)에서, 새로운 단어 또는 어구가 선택된 언어 또는 어구와 비교되어 그들이 일치하는지 결정한다. 단일 단어(single word)의 경우에는 새로운 단어와 정확하게 일치해야한다. 일 실시예에서 어구의 첫 단어와 끝 단어가 동일하면, 어구의 다른 단어들이 일치하는지에 상관없이 어구는 일치하는(match) 것이다. 만일 단계(1008)에서, 새로운 단어 또는 어구가 선택된 단어 또는 어구와 일치하지 않는다면, 선택된 단어 또는 어구는 단계(1010)에서 새로운 단어 또는 어구로 대체된다. 단계(1008)에서, 새로운 단어 또는 어구가 선택된 단어 또는 어구와 일치한다면, 디코딩 단계(1006)에서 새로운 단어 또는 어구와 함께 반환된 대안들의 목록은, 상기에 설명한 바와 같이 대안들의 목록 내의 단어에 대한 대안 표현을 찾음으로써 단계(1012)에서 확장된다. 한 가지 주목할 점은, 어구의 경우에는 음성 인식 엔진에 의해 파악된 어구가 사용자에게 더 많이 제공될 수 있도록 대안들의 목록이 확장되지 않을 수도 있다는 점이다.

단계(1014)에서 대안들의 확장된 목록의 상위 n 개의 대안 단어 또는 어구는 도 6의 정정 박스(602)와 같은 정정 박스 내에 표시된다. 그러면 도 10의 과정은 도 3에서 도시된 바와 같이 도 3의 박스(308)에서 계속됨으로써 루프에 들어가게 된다.

도 10의 실시예에서 음성 인식 엔진이 단계(1008)에서 동일한 실수를 범한 것을 감지함에 따라 대안들의 목록이 사용자에게 제공된다. 이는 음성 인식 엔진이 음성을 인식하는데 있어서 같은 실수를 계속하여 범할 때, 사용자가 단어를 다시 발음하여 대안들의 목록을 나타나게 하는 동작 외에 다른 어떤 동작도 취할 필요 없이 사용자가 대안들의 목록을 얻도록 돕는다.

본 발명의 요지가 구조적인 특징 및/또는 방법론적인 동작에 있어서 특정한 언어로 기술되었지만, 첨부된 청구항에 정의된 본 발명의 권리 범위는 상기에 기술된 특정 특징과 동작에 한정되지 않는 것으로 이해될 것이다. 오히려, 상기에 기술된 특정 특징과 동작은 청구항을 구현하는 예시적인 형태로서 개시된 것이다.

Claims (20)

  1. 컴퓨팅 디바이스에 의해 수행되는 방법으로서,
    디스플레이된 텍스트 내의 단어를 정정하라는 명령을 수신하는 단계와,
    상기 디스플레이된 텍스트 내에서 정정될 상기 단어를 하이라이트하는 단계와,
    상기 디스플레이된 텍스트 내에서 정정될 상기 단어를 계속 하이라이트하면서 상기 단어에 대한 대안들(alternatives)의 제1 목록을 디스플레이하는 단계 - 각각의 대안은 연관된 숫자를 가짐 - 와,
    상기 단어에 대한 상기 대안들의 제1 목록을 디스플레이하면서, 상기 대안들의 제1 목록 내에 있지 않은 단어로 구성된 음성 신호(speech signal)를 수신하는 단계와,
    상기 단어에 대한 상기 대안들의 제1 목록을 디스플레이하면서 수신된 상기 음성 신호를 디코딩하여, 디코딩된 단어 및 대안 단어들(alternative words)의 제2 목록을 상기 단어에 대한 상기 대안들의 제1 목록을 디스플레이하면서 파악하는(identify) 단계와,
    상기 디코딩된 단어가 숫자를 나타내는지 판정하는 단계와,
    상기 디코딩된 단어가 숫자를 나타내지 않는 경우, 상기 디스플레이된 텍스트 내에서 정정될 상기 단어를 계속 하이라이트하면서 상기 디코딩된 단어 및 상기 대안 단어들의 제2 목록을 사용자에게 디스플레이하는 단계 - 각각의 디스플레이되는 단어는 연관된 숫자를 가짐 - 와,
    제2 음성 신호를 수신하는 단계와,
    상기 제2 음성 신호를 디코딩하여 제2 디코딩된 단어 및 대안 단어들의 제3 목록을 파악하는 단계와,
    상기 제2 디코딩된 단어가 상기 대안 단어들의 제2 목록 내에 있는 단어와 연관된 숫자를 나타내는지 판정하는 단계와,
    상기 제2 디코딩된 단어가 상기 대안 단어들의 제2 목록 내에 있는 단어와 연관된 숫자를 나타내는 경우, 상기 디스플레이된 텍스트 내의 정정될 상기 하이라이트된 단어를 상기 제2 디코딩된 단어가 나타내는 숫자와 연관된 단어로 대체하는 단계를 포함하는
    방법.
  2. 제1항에 있어서,
    상기 대안 단어들의 제2 목록 및 상기 대안 단어들의 제3 목록 중 각각의 목록은 상기 각각의 목록의 대안 단어들 중에서 상기 디스플레이된 텍스트 내의 정정될 상기 단어에 가장 근접한 단어(most likely word)가 상기 각각의 목록의 처음에 오도록 정렬되는
    방법.
  3. 삭제
  4. 제1항에 있어서,
    단어를 정정하라는 상기 명령의 수신 전에, 상기 단어와 상기 대안들의 제1 목록 내의 적어도 한 단어를 파악하기 위하여 초기 음성 신호(initial speech signal)를 디코딩하는 단계를 더 포함하는
    방법.
  5. 제4항에 있어서,
    상기 초기 음성 신호를 디코딩하는 단계는
    상기 초기 음성 신호를 디코딩하여 단어를 파악하는 단계와,
    상기 초기 음성 신호의 디코딩에 의하여 파악된 단어에 대한 대안 표현을 결정하는 단계와,
    상기 초기 음성 신호의 디코딩에 의하여 파악된 단어와 상기 대안 표현을 상기 대안들의 제1 목록 내에 배치하는 단계를 포함하는
    방법.
  6. 삭제
  7. 제1항에 있어서,
    상기 음성 신호의 수신 전에, 상기 사용자로 하여금 상기 대안들의 제1 목록 내의 대안과 연관된 숫자를 발음하거나 상기 대안들의 제1 목록 내에 표시되지 않은 단어를 발음하도록 유도하는(prompting) 단계를 더 포함하는
    방법.
  8. 제1항에 있어서,
    적어도 두 개의 단어로 구성된 어구(phrase)를 정정하라는 명령을 수신하는 단계와,
    상기 어구에 대한 대안들의 목록을 디스플레이하는 단계 - 상기 어구에 대한 각각의 대안은 연관된 숫자를 가짐 - 와,
    제3 음성 신호를 수신하는 단계와,
    상기 제3 음성 신호를 디코딩하여 제3 디코딩된 단어 또는 어구 및 대안들의 제4 목록을 파악하는 단계와,
    상기 제3 디코딩된 단어 또는 어구가 숫자를 나타내는지 판정하는 단계와,
    상기 제3 디코딩된 단어 또는 어구가 숫자를 나타내지 않는 경우, 상기 대안들의 제4 목록 및 상기 제3 디코딩된 단어 또는 어구를 상기 사용자에게 디스플레이하는 단계 - 상기 제3 디코딩된 단어 또는 어구 및 상기 대안들의 제4 목록 내의 각각의 대안은 연관된 숫자 옆에 디스플레이됨 - 를 더 포함하는
    방법.
  9. 컴퓨터 실행가능 명령(computer executable instructions)을 구비한 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 실행가능 명령은 컴퓨팅 디바이스의 하나 이상의 프로세서에 의해 실행되는 경우 상기 컴퓨팅 디바이스로 하여금
    텍스트 내의 복수의 부정확한 단어들을 선택하라는 명령을 수신하는 것과,
    음성 신호를 디코딩하여 상기 복수의 부정확한 단어들에 대한 대체 어구 및 대안 어구들의 목록을 파악하는 것과,
    상기 대체 어구의 첫 단어 및 상기 대체 어구의 마지막 단어만을 각각 상기 복수의 부정확한 단어들 중 첫 단어 및 상기 복수의 부정확한 단어들 중 마지막 단어에 비교하는 것과,
    상기 대체 어구의 첫 단어가 상기 복수의 부정확한 단어들 중 첫 단어와 상이하거나 상기 대체 어구의 마지막 단어가 상기 복수의 부정확한 단어들 중 마지막 단어와 상이한 경우, 상기 복수의 부정확한 단어들을 상기 대체 어구로 대체하는 것과,
    상기 대체 어구의 첫 단어도 아니고 마지막 단어도 아닌 단어가 상기 복수의 부정확한 단어들 중 첫 단어도 아니고 마지막 단어도 아닌 단어와 매칭하는지에 관계 없이, 상기 대체 어구의 첫 단어가 상기 복수의 부정확한 단어들 중 첫 단어와 동일한 단어이고 상기 대체 어구의 마지막 단어가 상기 복수의 부정확한 단어들 중 마지막 단어와 동일한 단어인 경우, 상기 대안 어구들의 목록으로부터 적어도 한 어구를 디스플레이하는 것을 포함하는 동작을 수행하도록 하는
    컴퓨터 판독 가능 저장 매체.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 컴퓨팅 디바이스에 의하여 수행되는 방법으로서,
    음성 신호를 디코딩하여 단어 및 대안들의 목록을 파악하는 단계와,
    상기 단어를 디스플레이하는 단계와,
    상기 단어가 선택되었다는 표시를 수신하는 단계와,
    상기 선택된 단어를 하이라이트하는 단계와,
    상기 선택된 단어를 하이라이트하면서 제1 디스플레이되는 목록 내에서 상기 대안들의 목록으로부터 적어도 한 단어를 디스플레이하되, 각각의 디스플레이되는 단어는 각자의 숫자 옆에 디스플레이되도록 디스플레이하는 단계와,
    상기 제1 디스플레이되는 목록을 디스플레이하면서 수신된 제2 음성 신호 - 상기 제2 음성 신호는 상기 제1 디스플레이되는 목록 내에 있지 않은 단어로 이루어짐 - 를 디코딩하여 상기 제1 디스플레이되는 목록을 디스플레이하면서 제2 단어 및 대안들의 제2 목록을 파악하는 단계와,
    상기 제2 단어가 숫자를 나타내는지 판정하는 단계와,
    상기 제2 단어가 숫자를 나타내지 않는 경우, 상기 선택된 단어를 하이라이트하면서 제2 디스플레이되는 목록 내에서 상기 제2 단어 및 상기 대안들의 제2 목록으로부터의 적어도 한 단어를 디스플레이하는 단계 - 상기 제2 단어 및 상기 대안들의 제2 목록 내의 각각의 디스플레이되는 단어는 각자의 숫자 옆에 디스플레이됨 - 와,
    제3 음성 신호를 수신하는 단계와,
    상기 제3 음성 신호를 디코딩하여 제3 단어 및 대안들의 제3 목록을 파악하는 단계와,
    상기 제3 단어가 숫자를 나타내는지 판정하는 단계와,
    상기 제3 단어가 숫자를 나타내는 경우, 상기 제3 단어가 나타내는 숫자 옆의, 상기 제2 디스플레이되는 목록 내에서 디스플레이되는 단어로 상기 선택된 단어를 대체하는 단계를 포함하는
    방법.
  17. 삭제
  18. 삭제
  19. 제16항에 있어서,
    초기 어구를 디스플레이하는 단계와,
    상기 초기 어구가 선택되었다는 표시를 수신하는 단계와,
    대안 어구들의 목록을 디스플레이하는 단계와,
    제4 음성 신호를 디코딩하여 제2 어구 및 제2 대안 어구들의 목록을 파악하는 단계와,
    상기 제2 어구 및 상기 제2 대안 어구들의 목록으로부터의 적어도 한 어구를 디스플레이하는 단계를 더 포함하는
    방법.
  20. 제19항에 있어서,
    상기 제2 대안 어구들의 목록으로부터 디스플레이된 어구 중 하나가 선택되었다는 표시를 수신하는 단계와,
    상기 초기 어구를 상기 제2 대안 어구들의 목록으로부터 선택된 어구로 대체하는 단계를 더 포함하는
    방법.
KR1020087002556A 2005-08-05 2006-08-07 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 KR101255402B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
US70583505P true 2005-08-05 2005-08-05
US60/705,835 2005-08-05
US11/255,329 2005-10-21
US11/255,329 US8473295B2 (en) 2005-08-05 2005-10-21 Redictation of misrecognized words using a list of alternatives
PCT/US2006/030812 WO2007019477A1 (en) 2005-08-05 2006-08-07 Redictation of misrecognized words using a list of alternatives

Publications (2)

Publication Number Publication Date
KR20080031357A KR20080031357A (ko) 2008-04-08
KR101255402B1 true KR101255402B1 (ko) 2013-04-17

Family

ID=37718654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087002556A KR101255402B1 (ko) 2005-08-05 2006-08-07 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기

Country Status (4)

Country Link
US (1) US8473295B2 (ko)
KR (1) KR101255402B1 (ko)
CN (1) CN101238508B (ko)
WO (1) WO2007019477A1 (ko)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US20080221889A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile content search environment speech processing facility
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20080221884A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949266B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
DE102008009445A1 (de) * 2008-02-15 2009-08-20 Volkswagen Ag Verfahren zur Schrift- und Spracherkennung
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
US8374872B2 (en) * 2008-11-04 2013-02-12 Verizon Patent And Licensing Inc. Dynamic update of grammar for interactive voice response
CA2685779A1 (en) * 2008-11-19 2010-05-19 David N. Fernandes Automated sound segment selection method and system
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
US10522133B2 (en) * 2011-05-23 2019-12-31 Nuance Communications, Inc. Methods and apparatus for correcting recognition errors
US8249876B1 (en) * 2012-01-03 2012-08-21 Google Inc. Method for providing alternative interpretations of a voice input to a user
CN103714048B (zh) * 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN104217039B (zh) * 2014-10-10 2017-12-29 浙江完美在线网络科技有限公司 一种将电话对话实时记录并转化陈述句的方法和系统
CN104298664A (zh) * 2014-10-12 2015-01-21 王美金 一种将面谈实时记录并转化陈述句的方法和系统
KR20160056548A (ko) * 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
JP6605995B2 (ja) * 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
CN106250364A (zh) * 2016-07-20 2016-12-21 科大讯飞股份有限公司 一种文本修正方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5717826A (en) 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US20020138265A1 (en) 2000-05-02 2002-09-26 Daniell Stevens Error correction in speech recognition
US20030229497A1 (en) 2000-04-21 2003-12-11 Lessac Technology Inc. Speech recognition method
KR20050015586A (ko) * 2003-08-06 2005-02-21 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5608622A (en) * 1992-09-11 1997-03-04 Lucent Technologies Inc. System for analyzing translations
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5829000A (en) 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
CN1207664C (zh) * 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
US6604074B2 (en) * 2001-03-22 2003-08-05 Empirix Inc. Automatic validation of recognized dynamic audio data from data provider system using an independent data source
JP2004536348A (ja) * 2001-07-20 2004-12-02 グレースノート インコーポレイテッド 録音の自動識別
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
AU2002361710A1 (en) * 2001-12-17 2003-06-30 Empirix Inc. Method of testing a voice application
JP4453377B2 (ja) * 2004-01-30 2010-04-21 株式会社デンソー 音声認識装置、プログラム及びナビゲーション装置
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5717826A (en) 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US20030229497A1 (en) 2000-04-21 2003-12-11 Lessac Technology Inc. Speech recognition method
US20020138265A1 (en) 2000-05-02 2002-09-26 Daniell Stevens Error correction in speech recognition
KR20050015586A (ko) * 2003-08-06 2005-02-21 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치

Also Published As

Publication number Publication date
WO2007019477A1 (en) 2007-02-15
CN101238508B (zh) 2012-05-30
US8473295B2 (en) 2013-06-25
CN101238508A (zh) 2008-08-06
KR20080031357A (ko) 2008-04-08
US20070033037A1 (en) 2007-02-08

Similar Documents

Publication Publication Date Title
US10242661B2 (en) Recognizing accented speech
US9558737B2 (en) System and method for audibly presenting selected text
US20180190288A1 (en) System and method of performing automatic speech recognition using local private data
US9953636B2 (en) Automatic language model update
EP2862164B1 (en) Multiple pass automatic speech recognition
JP5819924B2 (ja) アジア文字を生成するための認識アーキテクチャ
KR101418163B1 (ko) 컨텍스트 정보를 이용한 음성 인식 복구
US9236045B2 (en) Methods and apparatus for proofing of a text input
US20150106093A1 (en) Systems and Methods for Providing an Electronic Dictation Interface
US20170032786A1 (en) Centralized method and system for determining voice commands
US10388284B2 (en) Speech recognition apparatus and method
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
US8909536B2 (en) Methods and systems for speech-enabling a human-to-machine interface
US8355920B2 (en) Natural error handling in speech recognition
US8285546B2 (en) Method and system for identifying and correcting accent-induced speech recognition difficulties
JP4768970B2 (ja) 音声アプリケーション言語タグとともに実装される理解同期意味オブジェクト
US8412524B2 (en) Replacing text representing a concept with an alternate written form of the concept
US7389235B2 (en) Method and system for unified speech and graphic user interfaces
US8676577B2 (en) Use of metadata to post process speech recognition output
US7124080B2 (en) Method and apparatus for adapting a class entity dictionary used with language models
US7689420B2 (en) Personalizing a context-free grammar using a dictation language model
KR101066741B1 (ko) 컴퓨터 시스템과 동적으로 상호작용하기 위한 컴퓨터 구현 방법, 시스템, 및 컴퓨터 판독가능 기록 매체
JP4444396B2 (ja) 音声認識におけるポジション操作
US9779080B2 (en) Text auto-correction via N-grams
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160318

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 5