KR20080031357A - 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 - Google Patents

대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 Download PDF

Info

Publication number
KR20080031357A
KR20080031357A KR1020087002556A KR20087002556A KR20080031357A KR 20080031357 A KR20080031357 A KR 20080031357A KR 1020087002556 A KR1020087002556 A KR 1020087002556A KR 20087002556 A KR20087002556 A KR 20087002556A KR 20080031357 A KR20080031357 A KR 20080031357A
Authority
KR
South Korea
Prior art keywords
word
list
words
alternative
phrase
Prior art date
Application number
KR1020087002556A
Other languages
English (en)
Other versions
KR101255402B1 (ko
Inventor
로버트 엘. 챔버스
데이비드 모왓트
펠릭스 제라드 토큐일 이포 앤드류
로버트 이. 듀워
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20080031357A publication Critical patent/KR20080031357A/ko
Application granted granted Critical
Publication of KR101255402B1 publication Critical patent/KR101255402B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

디스플레이된 단어를 선택함에 따라, 선택된 단어에 대한 대안들의 목록이 디스플레이된다. 목록 내의 각각의 대안은 연관된 기호를 가지고 있다. 그리고 나서 음성 신호가 디코딩되어 가능한 단어들의 목록이 파악되고 가능한 단어들의 목록은 연관된 기호를 가지는 각각의 가능한 단어들과 함께 디스플레이된다.
Figure P1020087002556
받아쓰기, 다시 받아쓰기, 대안들의 목록, 대안 표현, 음성 신호, 연관된 기호, 디코딩, 디스플레이

Description

대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기{REDICTATION 0F MISRECOGNIZED WORDS USING A LIST OF ALTERNATIVES}
음성 인식은 음성 신호를 단어로 변환하는 것이다. 음성 인식 동안, 음성 신호는 하나 이상의 모델(model)과 비교되어 말해진 단어가 파악(identify)된다.
일반적으로, 음성 인식은 음성 신호일 확률이 가장 높은 일련의 음성적 단위들을 파악하려고 시도하는 확률적 기법이다. 많은 인식 시스템들은 가장 근접한 단어의 배열을 파악할 뿐만 아니라 덜 근접하지만 그럴듯한 대안으로서 음성 신호에 의해 표현되었을 가능성 있는 단어 배열(sequences of words) 또한 파악한다.
최상의 음성 인식 시스템일지라도, 때때로 단어를 틀리게 인식한다. 일반적으로 음성 인식에 의존하는 응용예는 사용자가 이런 오류를 정정할 방법을 제공한다. 예컨대, 간단한 기법 하나는 사용자가 입력 장치를 사용하여 오류가 있는 단어를 선택하고 정확한 단어를 타이프하게 한다.
또 다른 오류 정정 기법에서는 사용자가 음성 명령을 사용하여 단어를 선택하게 한다. 이 응용예에서는 가장 근접하다고 인식된 단어에 대한 그럴듯한 대안으로서, 음성 인식 엔진에 의해 반환(return)되는 대안 단어들의 목록(a list of alternative words)을 제공한다. 이와 같은 시스템에서, 각각의 대안 단어는 사용자가 해당 숫자를 말함으로써 그 단어를 선택할 수 있도록 숫자와 연관되어 있다.
이러한 정정 기법이 유용하기 위해서는 사용자가 원하는 단어가 대안들의 목록(a list of alternatives)에 나타나야 한다. 만일 인식 시스템이 대안으로서 원하는 단어를 제시하지 않는다면 이 정정 기법은 정정을 이행하는데 사용할 수 없을 것이다.
사용자가 단어를 정정하기 위한 또 다른 방법은 오류가 있는 단어를 선택하고나서 단순히 원하는 단어로 다시 받아쓰는(redictate) 방법이다. 이 정정 방법은 단어가 다시 발음(repronounce)되면 음성 인식 시스템이 단어를 인식할 수 있는 경우에 유용할 것이다. 그러나 많은 경우 음성 인식 엔진이 단어를 거듭 잘못 파악(misidentify)하여 선택된 단어를 또 다른 틀린 단어로 대체할 것이다. 이는 사용자가 다시 받아쓰기를 하게 만들고, 사용자들을 짜증나게 할 수 있다.
상기의 설명은 단지 일반적인 배경 지식 정보를 제공하는 것이고 본 발명의 권리 범위를 결정하는데 보조 수단으로서 사용되고자 하는 것은 아니다.
디스플레이된 단어를 선택함에 따라, 선택된 단어에 대한 대안들의 목록이 디스플레이된다. 목록 내의 각각의 대안은 연관된 기호(symbol)를 가지고 있다. 그리고 나서 음성 신호가 디코딩되어 가능한 단어 목록(a list of possible words)이 파악되고, 가능한 단어 목록이 연관된 기호를 갖는 각각의 가능한 단어와 함께 디스플레이된다.
지금까지의 간략한 설명은, - 아래의 실시예에서 더욱 상세히 기술될 - 사상들 중 선택된 일부를 소개하고자 제공되었다. 이 간략한 설명은 본 발명의 권리범위의 본질적인 특징이나 기본적인 특징을 파악하고자 하는 것도 아니고, 본 발명의 권리 범위를 결정하는데 보조 수단으로서 사용되고자 하는 것도 아니다.
도 1은 컴퓨팅 환경의 블록도를 도시하는 도면.
도 2는 모바일 컴퓨팅 환경의 블록도를 도시하는 도면.
도 3은 대안들의 목록을 이용한 다시 받아쓰기를 위한 방법의 흐름도를 도시하는 도면.
도 4는 도 3의 흐름도에 사용되는 요소들의 블록도를 도시하는 도면.
도 5는 인식된 텍스트의 디스플레이 이미지를 도시하는 도면.
도 6은 정정 다이얼로그 박스와 함께 도 5의 디스플레이를 도시하는 도면.
도 7은 제2 정정 다이얼로그 박스와 함께 디스플레이된 텍스트의 이미지를 도시하는 도면.
도 8은 제3 다이얼로그 박스와 함께 인식된 텍스트의 디스플레이를 도시하는 도면.
도 9는 정정된 텍스트의 디스플레이를 도시하는 도면.
도 10은 대안들의 목록을 호출하기 위한 대안적 흐름도를 도시하는 도면.
도 1은 실시예들이 구현되기에 적합한 컴퓨팅 시스템 환경(100)의 일례를 도시하고 있다. 컴퓨팅 시스템 환경(100)은 적합한 컴퓨팅 환경의 일례에 불과하며, 본 발명의 용도 또는 기능성의 범위에 관해 어떤 제한을 암시하고자 하는 것이 아니다. 컴퓨팅 환경(100)이 예시적인 운영 환경(100)에 도시된 컴포넌트들 중 임의의 하나 또는 그 컴포넌트들의 임의의 조합과 관련하여 어떤 의존성 또는 요구사항을 갖는 것으로 해석되어서는 안된다.
실시예들은 많은 기타 범용 또는 특수 목적의 컴퓨팅 시스템 환경 또는 구성에서 동작할 수 있다. 다양한 실시예들에서 사용하는 데 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드-헬드 또는 랩톱 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋톱 박스, 프로그램가능한 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전화 시스템, 상기 시스템들이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경, 기타 등등이 있지만 이에 제한되는 것은 아니다.
실시예들은 일반적으로 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어와 관련하여 기술될 것이다. 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 개체, 컴포넌트, 데이터 구조 등을 포함한다. 어떤 실시예들은 또한 통신 네트워크를 통해 연결되어 있는 원격 처리 장치들에 의해 태스크가 수행되는 분산 컴퓨팅 환경에서 실시되도록 설계된다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 비롯한 로컬 및 원격 컴퓨터 저장 매체 양쪽에 위치할 수 있다.
도 1과 관련하여, 어떤 실시예들을 구현하는 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들은 처리 장 치(120), 시스템 메모리(130), 및 시스템 메모리를 비롯한 각종 시스템 컴포넌트들을 처리 장치(120)에 연결시키는 시스템 버스(121)를 포함하지만 이에 제한되는 것은 아니다. 시스템 버스(121)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스 및 각종 버스 아키텍처 중 임의의 것을 이용하는 로컬 버스를 비롯한 몇몇 유형의 버스 구조 중 어느 것이라도 될 수 있다. 예로서, 이러한 아키텍처는 ISA(industry standard architecture) 버스, MCA(micro channel architecture) 버스, EISA(Enhanced ISA) 버스, VESA(video electronics standard association) 로컬 버스, 그리고 메자닌 버스(mezzanine bus)로도 알려진 PCI(peripheral component interconnect) 버스 등을 포함하지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 통상적으로 각종 컴퓨터 판독가능 매체를 포함한다. 컴퓨터(110)에 의해 액세스 가능한 매체는 그 어떤 것이든지 컴퓨터 판독가능 매체가 될 수 있고, 이러한 컴퓨터 판독가능 매체는 휘발성 및 비휘발성 매체, 이동식 및 비이동식 매체를 포함한다. 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함하지만 이에 제한되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보를 저장하는 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 임의의 기타 매체를 포함하지만 이에 제한되는 것은 아니다. 통신 매체는 통상적으로 반송파(carrier wave) 또는 기타 전송 메커니즘(transport mechanism)과 같은 변조된 데이터 신호(modulated data signal)에 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등을 구현하고 모든 정보 전달 매체를 포함한다. "변조된 데이터 신호"라는 용어는, 신호 내에 정보를 인코딩하도록 그 신호의 특성들 중 하나 이상을 설정 또는 변경시킨 신호를 의미한다. 예컨대, 통신 매체는 유선 네트워크 또는 직접 배선된 접속(direct-wired connection)과 같은 유선 매체, 그리고 음향, RF, 적외선, 기타 무선 매체와 같은 무선 매체를 포함한다. 상술된 매체들의 모든 조합이 또한 컴퓨터 판독가능 매체의 영역 안에 포함되는 것으로 한다.
시스템 메모리(130)는 판독 전용 메모리(ROM)(131) 및 랜덤 액세스 메모리(RAM)(132)와 같은 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동 중과 같은 때에, 컴퓨터(110) 내의 구성요소들 사이의 정보 전송을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)(133)은 통상적으로 ROM(131)에 저장되어 있다. 통상적으로 RAM(132)에는 처리 장치(120)가 즉시 이용할 수 있고, 또는 현재 동작시키고 있는 데이터 및/또는 프로그램 모듈을 포함한다. 예로서, 도 1은 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136) 및 프로그램 데이터(137)를 도시하고 있지만 이에 제한되는 것은 아니다.
컴퓨터(110)는 또한 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 저장매 체를 포함한다. 단지 예로서, 도 1은 비이동식·비휘발성 자기 매체에 기록을 하거나 그로부터 판독을 하는 하드 디스크 드라이브(141), 이동식·비휘발성 자기 디스크(152)에 기록을 하거나 그로부터 판독을 하는 자기 디스크 드라이브(151), CD-ROM 또는 기타 광 매체 등의 이동식·비휘발성 광 디스크(156)에 기록을 하거나 그로부터 판독을 하는 광 디스크 드라이브(155)를 도시한다. 예시적인 운영 환경에서 사용될 수 있는 기타 이동식/비이동식, 휘발성/비휘발성 컴퓨터 기억 매체로는 자기 테이프 카세트, 플래시 메모리 카드, DVD, 디지털 비디오 테이프, 고상(solid state) RAM, 고상 ROM 등이 있지만 이에 제한되는 것은 아니다. 하드 디스크 드라이브(141)는 통상적으로 인터페이스(140)와 같은 비이동식 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 통상적으로 인터페이스(150)와 같은 이동식 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
위에서 설명되고 도 1에 도시된 드라이브들 및 이들과 관련된 컴퓨터 저장 매체에는, 컴퓨터(110)에 대한 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터가 저장된다. 도 1에서, 예를 들어, 하드 디스크 드라이브(141)는 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모듈(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 여기서 주의할 점은 이들 컴포넌트가 운영 체제(134), 애플리케이션 프로그램(135), 기타 프로그램 모듈(136), 및 프로그램 데이터(137)와 동일하거나 그와 다를 수 있다는 것이다. 이와 관련해, 운영 체제(144), 애플리케이션 프로그램(145), 기타 프로그램 모 듈(146) 및 프로그램 데이터(147)에 다른 번호가 부여되어 있다는 것은 적어도 이들이 다른 사본(copy)이라는 것을 나타내기 위한 것이다.
사용자는 키보드(162), 마이크(163) 및 마우스, 트랙볼(trackball) 또는 터치 패드와 같은 포인팅 장치(161) 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(110)에 입력할 수 있다. 다른 입력 장치(도시 생략)로는 조이스틱, 게임 패드, 위성 안테나, 스캐너 등을 포함할 수 있다. 이들 및 기타 입력 장치는 종종 시스템 버스에 결합된 사용자 입력 인터페이스(160)를 통해 처리 장치(120)에 접속되지만, 병렬 포트, 게임 포트 또는 USB(universal serial bus) 등의 다른 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 모니터(191) 또는 다른 유형의 디스플레이 장치도 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속될 수 있다. 모니터 외에, 컴퓨터는 스피커(197) 및 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있고, 이들은 출력 주변장치 인터페이스(195)를 통해 접속될 수 있다.
컴퓨터(110)는 원격 컴퓨터(180)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하여 네트워크화된 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드-헬드 장치, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 통상의 네트워크 노드일 수 있고, 통상적으로 컴퓨터(110)와 관련하여 상술된 구성요소들의 대부분 또는 그 전부를 포함한다. 도 1에 도시된 논리적 접속으로는 LAN(171) 및 WAN(173)이 있지만, 기타 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크(enterprise-wide computer network), 인트라넷, 및 인터넷에서 일반적인 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(110)는 통상적으로 인터넷과 같은 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속된다. 네트워크화된 환경에서, 컴퓨터(110) 또는 그의 일부와 관련하여 기술된 프로그램 모듈은 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 도 1은 원격 애플리케이션 프로그램(185)이 원격 컴퓨터(180)에 있는 것으로 도시하고 있지만 이에 제한되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것이며 이 컴퓨터들 사이에 통신 링크를 설정하는 기타 수단이 사용될 수 있다는 것을 이해할 것이다.
도 2는 예시적 컴퓨팅 환경인 이동 장치(mobile device; 200)의 블록도 이다. 이동 장치(200)는 마이크로 프로세서(202), 메모리(204), 입/출력 컴포넌트(input/output components; 206) 그리고 원격 컴퓨터(remote computer)나 다른 이동 장치와 통신하기 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 전술한 구성요소는 상호 간에 통신을 하기 위해 적합한 버스(210)를 통해 연결된다.
메모리(204)는 이동 장치(200)의 주 전원이 꺼졌을 때도 메모리(204) 내에 저장된 정보가 손실되지 않도록 배터리 백업 모듈(도시 없음)이 있는 랜덤 액세스 메모리(RAM)와 같은 비휘발성 전자 메모리형태로 구현된다. 메모리(204)의 일부분 은 프로그램 실행을 위한 번지 지정 메모리(addressable memory)로서 할당되는 것이 바람직하고, 반면에 메모리(204)의 또 다른 부분은 디스크 드라이브 상의 모의 저장장치(simulate storage)와 같은 저장장치로 사용되는 것이 바람직하다.
메모리(204)는 객체 기억장치(object store; 216) 뿐만 아니라 운영 체제(212), 애플리케이션 프로그램(214)도 포함한다. 동작 중에, 운영 체제(212)는 바람직하게는 메모리(204)로부터 읽혀져 프로세서(202)에 의해 실행된다. 한 바람직한 실시예에서 운영 체제(212)는 마이크로소프트 코포레이션(Microsoft Corporation) 에서 나온 상업적으로 이용가능한 윈도우즈 씨이(WINDOWS® CE) 상표(brand)의 운영 체제일 수 있다. 운영 체제(212)는 이동 장치를 위해 설계되는 것이 바람직하고, 애플리케이션(214)에 의해 사용될 수 있는 데이터베이스 특성을 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 집합(a set of exposed application programming interface and methods)을 통해 구현한다. 객체 기억장치(216) 내의 객체는 노출된 애플리케이션 프로그래밍 인터페이스와 메쏘드의 호출에 적어도 부분적으로 응답하여, 애플리케이션(214)과 운영 체제(212)에 의해 관리된다.
통신 인터페이스(208)는 이동 장치(200)가 정보를 송신하고 수신하는 것을 가능케하는 수많은 장치와 기술을 나타낸다. 상기 장치는 몇 개를 들자면 유/무선 모뎀, 위성 수신기 및 방송 동조기(broadcast tuner)를 포함한다. 이동 장치(200)는 또한 상호 간의 데이터 교환을 위해 컴퓨터에 직접 연결될 수 있다. 이런 경우, 통신 인터페이스(208)는 적외선 송수신기 또는 직렬 또는 병렬 통신 접속(a serial or a parallel communication connection)일 수 있으며 예시된 이들 모든 인터페이스는 스트리밍 정보를 전송하는 것이 가능하다.
입/출력 컴포넌트(206)는 접촉 감지 스크린(touch-sensitive screen), 버튼, 롤러 및 마이크로폰과 같은 다양한 입력 장치를 포함할 뿐만 아니라, 음향 생성기(audio generator), 진동 장치(vibrating device) 및 디스플레이와 같은 다양한 출력 장치들도 포함한다. 상기에 열거된 장치들은 예를 든 것이고 이동 장치(200)에 모두 갖춰져 있을 필요는 없다. 부가적으로, 기타 입/출력 장치는 이동 장치(200)에 부착되거나, 이동 장치(200)와 함께 있을 수 있다.
본 발명은 대안들의 목록을 호출하고 선택하기 위한 새로운 기법을 제공한다. 도 3은 음성 인식 오류를 정정하기 위해 대안들의 목록을 사용하고 호출하는 일 실시예의 흐름도를 제공한다. 도 4는 도 3의 방법에서 사용된 구성요소의 블록도를 제공한다.
도 3의 단계(300)에서 도 4의 음성 신호(400)는 음성 인식 엔진(402)에 제공되고, 엔진은 인식된 단어와 대안들(404)을 제시한다. 일 실시예에서 음성 인식 엔진(402)에 의해 인식된 각각 단어에 인식된 단어보다 덜 근접하지만 주어진 음성 인식 모델에 따르면 여전히 그럴듯한 하나 이상의 대안이 제공된다.
인식된 단어와 대안들(404)은, 말해진 음성이 받아쓰기(dictation)를 의미하는지 명령을 의미하는지 결정하는 모드 평가 메쏘드(mode evaluation method; 406)로 제공된다. 만일 모드 평가 메쏘드(406)가 인식된 단어가 받아쓰기를 의미한다고 결정하면, 모드 평가 메쏘드(406)는 텍스트 디스플레이 메쏘드(text display method; 407)를 호출하고, 텍스트 디스플레이 메쏘드는 디스플레이 가능한 인식 텍스트(displayable recognized text)를 생성하고 그 텍스트는 디스플레이(410) 상에 디스플레이된다.
도 5는 오류를 포함하는 디스플레이된 인식 텍스트의 예시를 제공한다. 특별히, 도 5의 예시에서, 사용자는 "I was in awe of him" 라는 어구(phrase)를 말했으나 음성 인식 엔진은 "I was in ore of him" 라고 인식하였다.
단계(301)에서, 사용자는 디스플레이된 받아쓰기 내의 단어 또는 어구를 정정하라는 명령을 내린다. 일 실시예에서 이 명령은 "correct ore"와 같은 음성 명령(vocal command)이며, 음성 명령은 인식된 단어와 대안들(404)을 제시하기 위해 음성 인식 엔진(402)에 의해 디코딩된다. 인식된 단어와 대안들은 그것들이 명령을 담고 있는지 판정하기 위해 모드 평가 메쏘드(406)에 의해 평가된다. 인식된 단어가 텍스트를 정정하라는 명령을 담고 있기 때문에, 모드 평가 메쏘드(406)는 정정 메쏘드(411)를 호출하고, 정정 메쏘드는 도 6의 하이라이트 박스(highlighting box; 600)에 의해 도시된 바와 같이 선택된 단어 또는 어구를 단계(302)에서 하이라이트(highlight)한다.
소정의 실시예에서는, 단계(304)에서, 정정 메쏘드(411)가 원본 받아쓰기 내에서 선택된 언어나 어구와 함께 반환된 대안들의 목록을 확장한다. 특히, 정정 메쏘드(411)는, 대안들의 목록 내에서 가장 근접한 단어로 시작하여, 단어의 첫 번째 글자를 대문자로 바꾸거나, "one" 을 "1"로 바꾸는 것과 같이 단어를 문자 형식(textual version)에서 기호로 바꾸거나, "street" 에 대하여 "st." 처럼 단어 의 약어 표현을 추가하는 것과 같은 방법으로 단어의 대안 표현을 추가한다.
단계(306)에서, 정정 메쏘드(411)는 확장된 목록으로부터 상위 n 개의 대안 단어를 정정 다이얼로그 박스(412) 내에 디스플레이한다. 다이얼로그 박스(412)는 디스플레이(410) 상에 디스플레이된다.
도 6은 다이얼로그 박스(602)의 확장된 대안 단어들의 목록 내의 상위 n개의 단어 목록(604)을 제공하는 예시를 제공한다. 도 6의 예시에서, 다섯 개의 대안이 제공되었다. 다른 실시예에서는 여덟 개의 대안이 제공된다. 당업자는 사용자에게 대안이 몇 개든지 제공될 수 있음을 인식할 수 있을 것이다.
목록(604) 내에서 대안 단어는 기호, 특히 숫자와 연관된다. 다이얼로그 박스 내에서 사용자는 자신이 원하는 항목의 옆에 있는 숫자를 말하도록 안내받는다. 따라서, 만일 확장된 대안들의 목록이 사용자가 원하는 대안을 포함한다면, 사용자는 그 단어를 선택하기 위해서 단순히 번호를 말할 것이다. 다이얼로그 박스(602)는 또한 사용자가 목록(604) 내에서 원하는 단어를 찾지 못할 경우 단어를 다시 말할 것을 안내한다.
단계(308)에서 사용자는 항목에 대한 숫자를 말하던지 단어를 다시 발음한다. 음성 인식 엔진(402)은 텍스트 평가 메쏘드(406)에 제공될 인식 단어들 및 대안들(404)의 새 집합(new set of recognized words and alternatives)을 제시하기 위해 사용자의 음성을 디코딩한다. 단계(310)에서, 텍스트 평가 메쏘드(406)는 디코딩된 단어가 번호를 지칭하는지 결정한다. 만약 디코딩된 단어가 숫자라면, 단어(600)와 같이, 선택된 단어는 대안들의 목록 내의 번호와 연관된 단어 또는 어구 로 대체된다. 그리고나서 커서는 정정 명령이 내려졌을 때 위치했던 장소로 되돌아 간다.
만일 단계(310)에서 디코딩된 음성 신호가 숫자를 나타내지 않으면, 단계(308)에서 새롭게 디코딩된 단어 또는 어구를 제공받은 대안들의 목록은, 단계(314)에서 단어의 대안 표현을 목록에 추가함으로써 확장된다. 그러면 이 과정은 단계(306)로 되돌아가서 새롭게 확장된 목록 중 상위 n개의 대안 단어를 정정 다이얼로그 박스에 디스플레이한다.
이런 다이얼로그 박스의 예시가 도 7에 다이얼로그 박스(700)로 도시되어 있다. 다이얼로그 박스(700)에서 목록(702)은 대안 단어의 각기 다른 집단을 담고 있는 것으로 도시되어 있다. 다시 받아쓰기 동안에 단어에 대한 사용자의 발음이 최초의 받아쓰기 동안에 발음과 조금 달랐기 때문에, 대안들의 목록이 변경됐다.
도 7에 도시된 바와 같이, 사용자에게 다시 한 번 숫자를 말하거나 단어를 다시 발음하거나 할 수 있는 기회가 주어진다. 만일 사용자가 단어를 다시 발음한다면 단어는 디코딩되고 새 대안 집합이 단계(308)에서 새로운 발음에 근거하여 결정될 것이다. 단계(310)에서 텍스트 평가 메쏘드(406)는 사용자가 숫자를 말하였는지를 결정한다. 사용자가 다시 한번 숫자를 말하지 않았다면 단계(314)에서 새 대안들의 목록이 확장되고 본 과정은 단계(306) 으로 되돌아갈 것이다.
단계(306)로 돌아가는 중에, 새로운 다이얼로그 박스, 도 8의 다이얼로그 박스(800)가 새로운 대안 목록(802)과 함께 도시된다. 단계(306),단 계(308), 단계(310) 및 단계(314)는 사용자가 숫자를 선택하거나 아니면 다이얼로그 박스를 떠 날 때 까지 반복된다. 만일 사용자가 단계(310)에서, 도 8의 숫자 3과 같이, 숫자를 선택하면, 단어 "ore" 대신에 단어 "awe"가 입력되는 도 9의 디스플레이를 제공하는 단계(312)에서 그 숫자와 연관된 텍스트가 선택된 텍스트를 대체할 것이다. 그리고 나서 커서는 정정 명령이 내려지기 전에 있던 지점으로 이동한다.
상기에서 기술하였듯이, 도 3의 메쏘드는 사용자가 그들이 원하는 단어를 담고있는 목록을 찾을 때까지 대안들의 목록 얻기를 계속하도록 허용한다. 이는 각각의 발음에 대하여 항상 사용자에게 선택할 다수의 항목이 주어지기 때문에 사용자가 어떤 단어를 그들이 실제로 받아쓰기에 나타내고 싶은지를 지시할 수 있을 가능성을 높여준다.
도 3의 메쏘드가 한 개의 단어와 관련된 예시를 도시하였지만, 당업자는 단어 대신에 전체 어구가 사용될 수 있다는 것을 인식할 것이다. 이런 경우, 사용자는 하나 이상의 단어를 선택할 것이며 대안 목록은 대안 어구들의 목록(a list of alternative phrases)을 담고 있을 것이다. 어구의 발음에 대하여, 사용자가 원하는 어구가 나타날 때까지 새로운 대안 어구들의 목록이 제시될 것이다.
도 10은 대안들의 목록을 호출하는 또 다른 방법이다. 단계(1000)에서 사용자로부터 받아쓰기가 수신되고 디스플레이된 텍스트로 디코딩된다. 단계(1002)에서 단어 또는 어구를 선택하라는 명령이 수신된다. 단계(1004)에서 선택된 어구를 대체할 새로운 단어 또는 어구를 나타내는 음성 신호가 수신된다. 단계(1006)에서 음성 신호는 새로운 단어 또는 어구를 파악하기 위하여 디코딩된다.
단계(1008)에서, 선택된 언어 또는 어구와 일치하는지 결정하기 위해서 새로 운 단어 또는 어구는 선택된 언어 또는 어구와 비교된다. 단일 단어(single word)의 경우에는 새로운 단어와 정확하게 일치해야한다. 일 실시예에서 어구의 첫 단어와 끝 단어가 동일하면, 어구의 다른 단어들이 일치하는지에 상관없이 어구는 일치하는(match) 것이다. 만일 단계(1008)에서, 새로운 단어 또는 어구가 선택된 단어 또는 어구와 일치하지 않는다면, 선택된 단어 또는 어구는 단계(1010)에서 새로운 단어 또는 어구로 대체된다. 단계(1008)에서, 새로운 단어 또는 어구가 선택된 단어 또는 어구와 일치한다면, 디코딩 단계(1006)에서 새로운 단어 또는 어구와 함께 반환된 대안들의 목록은, 상기에 설명한 바와 같이 대안들의 목록 내의 단어에 대한 대안 표현을 검색함으로써 단계(1012)에서 확장된다. 한 가지 주목할 점은 어구의 경우에는, 음성 인식 엔진에 의해 파악된 어구가 사용자에게 더 많이 제공될 수 있도록 대안들의 목록이 확장되지 않을 수도 있다는 점이다.
단계(1014)에서 확장된 대안들의 목록의 상위 n 개의 대안 단어 또는 어구는 도 6의 정정 박스(602)와 같은 정정 박스 내에 표시된다. 그러면 도 10의 과정은 도 3에서 도시된 바와 같이 도 3의 박스(308)에서 계속됨으로써 루프에 들어가게 된다.
도 10의 실시예에서 음성 인식 엔진이 단계(1008)에서 동일한 실수를 범한 것을 감지함에 따라 대안들의 목록이 사용자에게 제공된다. 이는 음성 인식 엔진이 음성을 인식하는데 있어서 같은 실수를 계속하여 범할 때, 사용자가 단어를 다시 발음하여 대안들의 목록을 나타나게 하는 동작 외에 다른 어떤 동작도 취할 필요 없이 사용자가 대안들의 목록을 얻도록 돕는다.
본 발명의 요지가 구조적인 특징 및/또는 방법론적인 동작에 있어서 특정한 언어로 기술되었지만, 첨부된 청구항에 정의된 본 발명의 권리 범위는 상기에 기술된 특정 특징과 동작에 한정되지 않는 것으로 이해될 것이다. 오히려, 상기에 기술된 특정 특징과 동작은 청구항을 구현하는 예시적인 형태로서 개시된 것이다.

Claims (20)

  1. 단어를 정정하라는 명령을 수신하는 단계;
    상기 단어에 대한 대안들의 목록을 디스플레이하는 단계 - 각각의 대안은 연관된 기호를 가짐 - ;
    음성 신호를 수신하는 단계;
    가능한 단어들의 목록(a list of possible words)을 파악하기 위하여 음성 신호를 디코딩하는 단계;및
    상기 가능한 단어들의 목록을 사용자에게 디스플레이하는 단계 - 각각의 가능한 단어는 연관된 기호를 가짐 - ;
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 가능한 단어들의 목록은 가장 근접한 단어가 상기 목록의 처음에 오도록 정렬되는 방법.
  3. 제2항에 있어서,
    상기 가능한 단어들의 목록 내의 가장 근접한 단어가 상기 대안들의 목록 내에 표시된 기호들 중 하나인지 결정하는 단계
    를 더 포함하는 방법.
  4. 제1항에 있어서,
    단어를 정정하라는 상기 명령의 수신 전에, 제1 음성 신호를 디코딩하여 상기 단어와 상기 대안들의 목록 내의 적어도 한 단어를 파악하는 단계
    를 더 포함하는 방법.
  5. 제4항에 있어서,
    상기 제1 음성 신호를 디코딩하여 단어를 파악하는 단계,
    상기 단어에 대한 대안 표현을 결정하는 단계, 및
    상기 단어와 상기 대안들의 목록 내에 상기 단어에 대한 상기 대안 표현을 배치하는 단계
    를 포함하는 방법.
  6. 제1항에 있어서,
    제2 음성 신호를 수신하는 단계;
    상기 제2 음성 신호를 디코딩하여 제2 가능한 단어들의 목록(a second list of possible words)을 파악하는 단계; 및
    상기 제2 가능한 단어들의 목록을 사용자에게 디스플레이하는 단계
    를 포함하되,
    상기 디스플레이하는 단계에서 상기 제2 가능한 단어들의 목록 내의 각각의 단어들은 연관된 기호를 가지는 방법.
  7. 제1항에 있어서,
    사용자가 상기 대안들의 목록 내의 기호를 발음하든지 상기 대안들의 목록 내에 표시되지 않은 단어를 발음하도록 유도하는(prompting) 단계
    를 더 포함하는 방법.
  8. 제1항에 있어서,
    적어도 두 개의 단어로 구성된 어구(phrase)를 정정하라는 명령을 수신하는 단계;
    상기 어구에 대한 대안들의 목록을 디스플레이하는 단계 - 각각의 대안은 연관된 기호를 가짐 - ;
    음성 신호를 수신하는 단계;
    상기 음성 신호를 디코딩하여 가능한 어구들의 목록(a list of possible phrases)을 파악하는 단계; 및
    상기 가능한 어구들의 목록을 사용자에게 디스플레이하는 단계 - 각각의 가능한 어구는 연관된 기호를 가짐 -
    를 더 포함하는 방법.
  9. 컴퓨터 판독 가능 매체로서,
    부정확한 단어를 정정하라는 명령을 수신하는 단계;
    음성 신호를 디코딩하여 상기 부정확한 단어에 대한 대체 단어와 대안 단어들의 목록을 파악하는 단계;
    상기 대체 단어와 상기 부정확한 단어를 비교하는 단계; 및
    상기 대체 단어가 상기 부정확한 단어와 동일한 단어일 때, 상기 대안 단어들의 목록 내의 상기 단어들 중 적어도 하나를 디스플레이하는 단계;
    를 포함하는 단계들을 수행하기 위한 컴퓨터 실행가능 명령(computer executable instructions)을 구비한 컴퓨터 판독 가능 매체.
  10. 제9항에 있어서,
    상기 대안 단어들의 목록 내의 상기 단어들 중 적어도 하나를 디스플레이하는 상기 단계는 각각의 단어가 기호와 연관된 복수의 단어들을 디스플레이하는 단계를 포함하는 컴퓨터 판독 가능 매체.
  11. 제9항에 있어서,
    상기 대체 단어가 상기 부정확한 단어와 동일하지 않은 단어일 경우, 상기 부정확한 단어를 상기 대체 단어로 대체하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  12. 제9항에 있어서,
    복수의 부정확한 단어들을 정정하라는 명령을 수신하는 단계;
    음성 신호를 디코딩하여 상기 복수의 부정확한 단어들에 대한 대체 어구와 대안 어구들의 목록을 파악하는 단계;
    적어도 상기 대체 어구의 일부분을 적어도 상기 복수의 부정확한 단어들의 일부분과 비교하는 단계; 및
    상기 대체 어구의 상기 일부분이 상기 복수의 부정확한 단어들의 상기 일부분과 다를 경우, 상기 대안 어구들의 목록으로부터 적어도 한 어구를 디스플레이하는 단계
    를 더 포함하는 컴퓨터 판독가능 매체.
  13. 제12항에 있어서,
    상기의 적어도 상기 대체 어구의 일부분을 적어도 상기 복수의 부정확한 단어들의 일부분과 비교하는 단계는,
    상기 대체 어구의 오직 첫 번째 단어를 상기 복수의 부정확한 단어들의 첫 번째 단어와만 비교하고 상기 대체 어구의 마지막 단어를 상기 복수의 부정확한 단어들의 마지막 단어와만 비교하는 단계를 포함하는 컴퓨터 판독가능 매체.
  14. 제13항에 있어서,
    상기 대체 어구의 첫 번째 단어가 상기 복수의 부정확한 단어들의 첫 번째 단어와 동일하고 상기 대체 어구의 마지막 단어가 상기 복수의 부정확한 단어들의 마지막 단어와 동일한 경우, 상기 복수의 부정확한 단어들을 상기 대체 어구로 대체하는 단계를 더 포함하는 컴퓨터 판독가능 매체.
  15. 제9항에 있어서,
    상기 대안들의 목록 내의 단어에 대한 대안 표현을 결정하는 단계 및
    상기 대안 표현을 디스플레이하는 단계를
    더 포함하는 컴퓨터 판독가능 매체.
  16. 음성 신호를 디코딩하여 단어 및 대안들의 목록을 파악하는 단계;
    상기 단어를 디스플레이하는 단계;
    상기 단어가 선택되었다는 지시를 수신하는 단계;
    상기 대안들의 목록으로부터 적어도 하나의 단어를 디스플레이하는 단계;
    제2 음성 신호를 디코딩하여 제2 단어 및 제2 대안들의 목록을 파악하는 단계; 및
    상기 제2 단어 및 상기 제2 대안들의 목록으로부터 적어도 한 단어를 디스플레이하는 단계
    를 포함하는 방법.
  17. 제16항에 있어서,
    상기 대안들의 목록으로부터 적어도 한 단어를 디스플레이하는 단계는 각각 의 디스플레이된 단어와 함께 각각의 기호를 디스플레이하는 단계를 포함하고,
    상기 방법은 상기 제2 단어 및 상기 제2 대안들의 목록으로부터의 적어도 한 단어를 디스플레이할지 결정하기 위해 상기 제2 단어와 각각의 상기 디스플레이된 기호를 비교하는 단계를 더 포함하는 방법.
  18. 제17항에 있어서,
    상기 제2 단어 및 상기 제2 대안들의 목록으로부터의 적어도 한 단어를 디스플레이하는 상기 단계는 각각의 디스플레이된 단어와 함께 각각의 기호를 디스플레이하는 단계를 포함하는 방법.
  19. 제16항에 있어서,
    초기 어구를 디스플레이하는 단계;
    상기 초기 어구가 선택되었다는 지시를 수신하는 단계;
    대안 어구들의 목록을 디스플레이하는 단계;
    음성 신호를 디코딩하여 제2 어구 및 제2 대안 어구들의 목록을 파악하는 단계; 및
    상기 제2 어구 및 상기 제2 대안 어구들의 목록으로부터의 적어도 한 어구를 디스플레이하는 단계
    를 더 포함하는 방법.
  20. 제19항에 있어서,
    상기 제2 대안 어구들의 목록으로부터 디스플레이된 상기 어구들 중 하나가 선택되었다는 지시를 수신하는 단계 및
    상기 초기 어구를 상기 제2 대안 어구들의 목록으로부터 선택된 상기 어구로 대체하는 단계를 더 포함하는 방법.
KR1020087002556A 2005-08-05 2006-08-07 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기 KR101255402B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US70583505P 2005-08-05 2005-08-05
US60/705,835 2005-08-05
US11/255,329 US8473295B2 (en) 2005-08-05 2005-10-21 Redictation of misrecognized words using a list of alternatives
US11/255,329 2005-10-21
PCT/US2006/030812 WO2007019477A1 (en) 2005-08-05 2006-08-07 Redictation of misrecognized words using a list of alternatives

Publications (2)

Publication Number Publication Date
KR20080031357A true KR20080031357A (ko) 2008-04-08
KR101255402B1 KR101255402B1 (ko) 2013-04-17

Family

ID=37718654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087002556A KR101255402B1 (ko) 2005-08-05 2006-08-07 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기

Country Status (4)

Country Link
US (1) US8473295B2 (ko)
KR (1) KR101255402B1 (ko)
CN (1) CN101238508B (ko)
WO (1) WO2007019477A1 (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US20080221884A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
US8949130B2 (en) * 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US20080221899A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile messaging environment speech processing facility
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8635243B2 (en) * 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
DE102008009445A1 (de) * 2008-02-15 2009-08-20 Volkswagen Ag Verfahren zur Schrift- und Spracherkennung
US8224656B2 (en) * 2008-03-14 2012-07-17 Microsoft Corporation Speech recognition disambiguation on mobile devices
US8374872B2 (en) * 2008-11-04 2013-02-12 Verizon Patent And Licensing Inc. Dynamic update of grammar for interactive voice response
CA2685779A1 (en) * 2008-11-19 2010-05-19 David N. Fernandes Automated sound segment selection method and system
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
KR101233561B1 (ko) * 2011-05-12 2013-02-14 엔에이치엔(주) 단어 수준의 후보 생성에 기초한 음성 인식 시스템 및 방법
US9236045B2 (en) * 2011-05-23 2016-01-12 Nuance Communications, Inc. Methods and apparatus for proofing of a text input
US8249876B1 (en) * 2012-01-03 2012-08-21 Google Inc. Method for providing alternative interpretations of a voice input to a user
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
CN104732975A (zh) * 2013-12-20 2015-06-24 华为技术有限公司 一种语音即时通讯方法及装置
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
CN104217039B (zh) * 2014-10-10 2017-12-29 浙江完美在线网络科技有限公司 一种将电话对话实时记录并转化陈述句的方法和系统
CN104298664A (zh) * 2014-10-12 2015-01-21 王美金 一种将面谈实时记录并转化陈述句的方法和系统
KR20160056548A (ko) 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
EP3089159B1 (en) 2015-04-28 2019-08-28 Google LLC Correcting voice recognition using selective re-speak
US10249297B2 (en) * 2015-07-13 2019-04-02 Microsoft Technology Licensing, Llc Propagating conversational alternatives using delayed hypothesis binding
JP6605995B2 (ja) * 2016-03-16 2019-11-13 株式会社東芝 音声認識誤り修正装置、方法及びプログラム
CN106250364A (zh) * 2016-07-20 2016-12-21 科大讯飞股份有限公司 一种文本修正方法及装置
CN113378530A (zh) * 2021-06-28 2021-09-10 北京七维视觉传媒科技有限公司 语音编辑方法及装置、设备和介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI97919C (fi) * 1992-06-05 1997-03-10 Nokia Mobile Phones Ltd Puheentunnistusmenetelmä ja -järjestelmä puheella ohjattavaa puhelinta varten
US5608622A (en) * 1992-09-11 1997-03-04 Lucent Technologies Inc. System for analyzing translations
US5428707A (en) * 1992-11-13 1995-06-27 Dragon Systems, Inc. Apparatus and methods for training speech recognition systems and their users and otherwise improving speech recognition performance
US5717826A (en) 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US5950160A (en) * 1996-10-31 1999-09-07 Microsoft Corporation Method and system for displaying a variable number of alternative words during speech recognition
US5829000A (en) 1996-10-31 1998-10-27 Microsoft Corporation Method and system for correcting misrecognized spoken words or phrases
US6278968B1 (en) * 1999-01-29 2001-08-21 Sony Corporation Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system
CN1207664C (zh) 1999-07-27 2005-06-22 国际商业机器公司 对语音识别结果中的错误进行校正的方法和语音识别系统
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
US7280964B2 (en) * 2000-04-21 2007-10-09 Lessac Technologies, Inc. Method of recognizing spoken language with recognition of language color
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US6604074B2 (en) * 2001-03-22 2003-08-05 Empirix Inc. Automatic validation of recognized dynamic audio data from data provider system using an independent data source
US7328153B2 (en) * 2001-07-20 2008-02-05 Gracenote, Inc. Automatic identification of sound recordings
US7809574B2 (en) * 2001-09-05 2010-10-05 Voice Signal Technologies Inc. Word recognition using choice lists
WO2003052739A1 (en) * 2001-12-17 2003-06-26 Empirix Inc. Method of testing a voice application
KR100577387B1 (ko) * 2003-08-06 2006-05-10 삼성전자주식회사 음성 대화 시스템에서의 음성 인식 오류 처리 방법 및 장치
JP4453377B2 (ja) * 2004-01-30 2010-04-21 株式会社デンソー 音声認識装置、プログラム及びナビゲーション装置
US20060293889A1 (en) * 2005-06-27 2006-12-28 Nokia Corporation Error correction for speech recognition systems

Also Published As

Publication number Publication date
WO2007019477A1 (en) 2007-02-15
US20070033037A1 (en) 2007-02-08
CN101238508B (zh) 2012-05-30
CN101238508A (zh) 2008-08-06
KR101255402B1 (ko) 2013-04-17
US8473295B2 (en) 2013-06-25

Similar Documents

Publication Publication Date Title
KR101255402B1 (ko) 대안들의 목록을 사용하는 오인된 단어들의 다시 받아쓰기
US20240127789A1 (en) Systems and methods for providing non-lexical cues in synthesized speech
US9767092B2 (en) Information extraction in a natural language understanding system
KR101312849B1 (ko) 이동 장치에 대한 조합된 음성 및 교체 입력 양식을 위한정보 입력 방법, 이동 장치 및 사용자 인터페이스
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software
US8290775B2 (en) Pronunciation correction of text-to-speech systems between different spoken languages
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
US20080052073A1 (en) Voice Recognition Device and Method, and Program
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
US20180143970A1 (en) Contextual dictionary for transcription
JP2008083459A (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US20050256717A1 (en) Dialog system, dialog system execution method, and computer memory product
JP5688677B2 (ja) 音声入力支援装置
US7181397B2 (en) Speech dialog method and system
US20060129398A1 (en) Method and system for obtaining personal aliases through voice recognition
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP2013050742A (ja) 音声認識装置および音声認識方法
JP2004334207A (ja) 日本語および中国語音声認識システムのトレーニングのための動的な発音の補助
GB2568902A (en) System for speech evaluation
US12008986B1 (en) Universal semi-word model for vocabulary contraction in automatic speech recognition
JP2007293595A (ja) 情報処理装置及び情報処理方法
CN117219062A (zh) 训练数据的生成方法、装置、电子设备和存储介质
CN112988955A (zh) 多语语音识别及主题语意分析方法与装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160318

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170317

Year of fee payment: 5