KR20030076661A - 음성 인식을 위한 방법, 모듈, 디바이스 및 서버 - Google Patents

음성 인식을 위한 방법, 모듈, 디바이스 및 서버 Download PDF

Info

Publication number
KR20030076661A
KR20030076661A KR10-2003-7010428A KR20037010428A KR20030076661A KR 20030076661 A KR20030076661 A KR 20030076661A KR 20037010428 A KR20037010428 A KR 20037010428A KR 20030076661 A KR20030076661 A KR 20030076661A
Authority
KR
South Korea
Prior art keywords
unrecognized
terminal
language model
representation
data
Prior art date
Application number
KR10-2003-7010428A
Other languages
English (en)
Other versions
KR100908358B1 (ko
Inventor
수프레프레데릭
따쟁누르-에댕
Original Assignee
톰슨 라이센싱 소시에떼 아노님
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 톰슨 라이센싱 소시에떼 아노님 filed Critical 톰슨 라이센싱 소시에떼 아노님
Publication of KR20030076661A publication Critical patent/KR20030076661A/ko
Application granted granted Critical
Publication of KR100908358B1 publication Critical patent/KR100908358B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은, 적어도 하나의 단말(114)에서 구현되는 음성 인식 방법으로서, 이 음성 인식 방법은, 언어 모델(311)을 사용하여,
- 하나의 단말에서 적어도 하나의 미인식된 표현을 검출(502)하는 단계와,
- 상기 미인식된 표현(309)을 나타내는 데이터를 단말에 리코드(503)하는 단계와,
- 상기 리코드된 데이터를 단말에 의해 리모트 서버(116)로 송신(603)하는 단계와,
- 상기 리모트 서버의 레벨에서 상기 데이터를 분석(803)하며 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성(805)하는 단계와,
- 상기 미인식된 표현의 적어도 특정 표현을 차후 인식 가능하게 하기 위하여, 상기 정정 정보를 상기 서버로부터 적어도 하나의 단말(114, 117, 118)로 송신 (806)하는 단계
를 포함하는 음성 인식 방법에 관한 것이다.
또한 본 발명은 대응하는 모듈, 디바이스(102), 및 리모트 서버(116)에 관한 것이다.

Description

음성 인식을 위한 방법, 모듈, 디바이스 및 서버{METHOD, MODULE, DEVICE AND SERVER FOR VOICE RECOGNITION}
정보 또는 제어 시스템은 음성 인터페이스의 사용을 더욱 더 증가시켜 더 신속하며 및/또는 보다 직관적으로 유저와 상호작용 가능하게 한다. 이들 시스템이 훨씬 더 복잡해지고 있으므로, 음성 인식 면에서의 요구조건도 인식 범위(매우 많은 어휘)와 인식 속도(실시간 인식) 모두에 관해 훨씬 더 고려해야 한다.
언어 모델(응용 어휘의 주어진 워드가 문장의 시간적 순서에서 다른 워드나 워드의 그룹의 다음에 위치할 확률)과 음성 유닛의 사용에 기초한 음성 인식 방법은 이 기술 분야에 알려져 있다. 이들 기술은 특히 1997년에 MIT 출판사에서 발행한 프레드릭 제리넥(Frederik Jelinek)의 "음성 인식을 위한 통계적 방법 (Statistical methods for speech recognition)" 논문에 기술되어 있다.
이들 기술은, 대표적인 음성 샘플(예를 들어 명령을 입력하는 단말의 유저의 집단(population)으로부터 나오는 샘플)로부터 생성된 언어 모델과 음성 유닛에 의존하고 있다.
실제, 언어 모델은 시스템의 유저에 의해 통상 사용되는 발언 스타일 (speaking style)과 특히 자기의 "결점", 즉 말더듬(hesitation), 잘못된 시작 (false start), 마음의 변화(change of mind) 등을 고려하여야만 한다.
널리 사용되고 있는 언어 모델의 품질은 음성 인식의 신뢰성에 크게 영향을 미친다. 이 품질은 언어 모델의 혼란(perplexity)이라고 부르는 지수(index)로 종종 측정되는데, 이 지수는 개략적으로 시스템이 각 디코딩된 워드에 대해 취해야 하는 선택의 수를 나타내는 것이다. 이 혼란이 낮으면 낮을수록, 품질은 더 우수하게 된다.
언어 모델은 음성 신호를 워드의 문자 열(textual string)로 변환하는데 필요하며, 이 단계는 다이알로그 시스템(dialogue system)에 의해 종종 사용된다. 이후, 질문에 답을 하기 위해 질문을 이해할 수 있게 하는 이해 로직(comprehension logic)을 구성하는 것이 필요하다.
많은 어휘의 언어 모델을 생성하는 데에는 2가지 표준 방법이 있다:
대부분 흔히 바이그램(bigram) 또는 트라이그램(trigram)을 사용하는, 소위 N-그램 통계적 방법(statistical method)은, 문장 내에 워드의 발생 확률이 문장의 나머지 문맥에 상관없이 그 워드에 선행하는 N개의 워드에만 의존하는 것으로 가정하고 있다.
만일, 1000개의 워드의 어휘에 대해 트라이그램의 예를 가지면, 언어 모델을 한정하기 위해 10003의 확률을 한정할 필요가 있게 되는데, 이것은 불가능하다. 그러므로 이 워드는 모델 디자이너에 의해 명시적으로 한정되거나 또는 자기 구성 방법으로 추론되는 세트로 그룹화된다.
그리하여 이 언어 모델은 텍스트 언어자료로부터 자동적으로 구성된다.
이 타입의 언어 모델은, 그 궁극적인 기능이 임의의 이해 단계도 필요없이 음성 신호를 텍스트로 변환하는 것인 음성 명령 시스템에 주로 사용된다.
2번째 방법은, 개연적 문법, 전형적으로 소위 배커스 나우르 폼 즉 BNF (Backus Naur Form)로 기술되는 룰 세트에 의하여 한정된 문맥없는 문법(context-free grammer), 또는 이 폼을 문맥상의 문법으로 연장한 문법에 의하여 구문 (syntax)을 기술하는 것이다. 문법을 기술하는 룰은 대부분 흔히 손으로 기록된다. 이 타입의 언어 모델은, 음성 인식 단계 후에 어플라이언스를 제어하는 단계 또는 데이터베이스 내 정보를 검색하는 단계가 따라오는 명령 및 제어 응용(command and control application)에 적합하다.
응용의 언어 모델은 인식하는데 응용을 요구하는 표현(예를 들어 문장)의 세트를 기술한다. 종래 기술의 단점은, 만일 언어 모델의 품질이 불량한 경우, 인식 시스템이 음향-음성 디코딩 레벨(acoustico-phonetic decoding level)에서 매우 잘 수행되더라도, 이 음성 시스템은 특정 표현에 대해서는 평범한 성능(mediocre performance)을 가질 수 있다는 것이다.
이 확률적인 타입의 언어 모델은, 적절히 말하면, 언어 모델 내에 있는 표현과 외부에 있는 표현에 대한 명확한 정의를 갖지 않는다. 특정 표현은 단지 다른 표현에 비해 선험적으로 더 높은 발생 확률을 가지고 있다.
개연적인 문법 타입의 언어 모델은 언어 모델에 속하는 표현과 언어 모델 외부에 있는 표현 사이에 명확한 차이를 보여준다. 그리하여 이들 모델에서는, 사용되고 있는 음성 모델의 품질에 상관없이, 전혀 인식될 수 없는 표현이 존재하게 된다. 이들은 일반적으로 개발된 시스템의 응용 분야 외의 의미를 가지거나 또는 전혀 의미를 가지지 않는 표현들이다.
개연적인 타입의 언어 모델과 그 파생 모델은 명령 및 제어 응용에 보다 효과적인 것으로 밝혀져 있다. 이들 문법은 종종 손으로 기록되며, 다이알로그 시스템의 개발의 주요 어려움 중 하나는 우수한 품질의 언어 모델을 제공하는 것이다.
특히, 문법 타입의 모델에 관한 한, 많은 집단(예를 들어 대량 판매되는 어플라이언스를 위한 리모트 콘트롤의 경우)에 의해 언어가 사용되기 쉬운 경우에 특히 그 언어를 구체적으로 한정하는 것이 가능하지 않을 수 있다. 모든 가능한 표현과 구의 말투(turns of phrase)(형식적 언어에서부터 속어에 이르기까지) 및/또는 문법의 오류 등을 고려하는 것이 가능하지 않을 수 있다.
본 발명은 음성 인터페이스 분야에 관한 것이다.
보다 상세하게는, 본 발명은 음성 인식을 사용하여 단말에서 언어 모델 (language model) 및/또는 음성 유닛(phonetic unit)의 최적화에 관한 것이다.
도 1 은 본 발명의 기술이 구현될 수 있는 음성 제어 박스를 포함하는 시스템의 전체 개략도.
도 2 는 도 1의 시스템의 음성 인식 박스의 개략도.
도 3 은 도 2의 개략도를 구현하는 음성 인식 박스의 전자 도면.
도 4 는 도 1의 시스템의 서버의 개략도.
도 5 는 도 2의 인식 엔진으로 구현되는, 미인식된 표현에 관한 데이터를 리코드하며 표현을 테스트 하는 방법의 흐름도.
도 6 은 도 2의 거부 모듈에 의해 구현되는, 미인식된 표현에 관한 데이터를 송신하는 방법의 흐름도.
도 7 은 도 2의 언어 모델을 로딩하기 위한 모듈에 의해 구현되는, 정정 데이터를 수신하는 방법의 흐름도.
도 8 은 도 4의 리모트 서버에서 구현되는, 정정 데이터를 수신 및 처리하는방법의 흐름도.
본 발명은, 시스템에 의해 인식되지 못한 표현의 리코딩에 기초하여, 언어 모델을 원격적으로 수정 및 개선할 수 있게 하는 음성 인식 방법 및 시스템에 관한 것이다.
보다 구체적으로, 본 발명의 주제는, 적어도 하나의 단말에서 구현되는 음성 인식 방법으로서, 상기 음성 인식 방법은, 언어 모델을 사용하여,
- 하나의 단말에서 적어도 하나의 미인식된 표현을 검출하는 단계와,
- 상기 미인식된 표현을 나타내는 데이터를 단말에 리코딩하는 단계와,
- 제 1 송신 채널을 통해, 상기 리코드된 데이터를 리모트 서버로 단말에 의해 송신하는 단계와,
- 상기 리모트 서버의 레벨에서, 상기 데이터를 분석하며 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성하는 단계와,
- 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식하도록 하기 위해, 제 2 송신 채널을 통해 상기 정정 정보를 상기 서버로부터 적어도 하나의 단말로 송신하는 단계
를 포함하는 것을 특징으로 하는 음성 인식 방법에 있다.
따라서, 본 발명은, 정정 정보를 생성하는 중요한 자원(예를 들어, 사람 및/또는 연산 능력)을 리모트 서버에 갖춰 놓고 국부적으로 미인식된 표현의 함수로서 음성 인식을 가능하게 하는 여러 요소를 업데이트할 수 있는, 음성 인식에 대한 전적으로 새롭고 진보적인 접근법에 의존한다.
여기서 이 언어 모델은,
- 엄격한 의미(strict sense)의 언어 모델(이것은, 예를 들어, 인식 주제인 데이터가 순수하게 텍스트 타입일 때 그러하다)과;
- 엄격한 의미의 하나 이상의 언어 모델과 음성 유닛의 하나 이상의 세트로 형성된 모델(이것은 특히 음성 샘플에 적용된 음성 인식의 일반적인 경우에 해당한다)
을 포함하는 것을 특징으로 한다.
본 발명은 어휘의 단순한 업데이트를 넘어 진행된다. 구체적으로, 어휘 내의 표현의 특징을 갖는 모든 워드가 단말의 언어 모델에 의해 사용되었다하더라도, 이 표현이 인식되지 못할 수도 있다는 것이다. 언어 모델 자체의 업데이트만이 이 표현이 차후 인식될 수 있게 할 수 있다. 언어 모델이 유도되는 정보 아이템 중 하나인 어휘의 업데이트로는 충분치 않다.
여기에서, 그 표현은 넓은 의미에서 취해진 것이며 단말과 그 유저 사이에 상호작용을 가능하게 하는 임의의 구두 표현(vocal expression)에 관련된 것이다. 표현(또는 말)은, 특히, 문장(sentence), 구(phrase), 분리 또는 비분리된 워드 (isolated or non-isolated word), 단말에 지정된 코드 워드(code word), 지시, 명령 등을 포함한다.
정정 정보는, 단말 내에 있는 요소를 삭제, 대체, 또는 추가함으로써 각 단말에 존재하는 음성 유닛 및/또는 언어 모델의 부분적 또는 완전한 수정을 가능하게 하는 정보를 특히 포함할 수 있다.
서버는 각 단말로부터 데이터를 수신할 수 있어, 이에 의해 각 단말은 데이터 송신 단말과 또한 다른 모든 단말에 존재하는 음성 유닛 및/또는 언어 모델을 개선시킬 수 있게 되며, 여기서 각 단말은 모든 단말로부터 서버에 의해 획득한 공유 경험(shared experience)으로부터 이익을 얻는다.
이리하여, 본 발명은, 특정 유저에 지정된 언어 스타일이나 구의 말투, 예를 들어, "8pm" 또는 "저녁 8시"가 아닌 표현, 즉 구현되는 언어 모델의 구성 동안 제공되지 않았던 표현인 "저녁 8pm"(선험적으로 상상하기 어려운 용어)을 참작할 수도 있다.
나아가, 본 발명은 현용 언어(living language)의 진화(새로운 구의 말투 또는 표현 등)도 참작한다.
본 발명은 개연적인(probabilistic) 문법 타입의 언어 모델과 확률적 (stochastic) 타입의 언어 모델에 동일하게 잘 적용된다는 것이 주목된다. 본 발명이 확률적 타입의 언어 모델에 적용될 때, 인식에 영향을 미치는 매우 많은 정정 데이터가 일반적으로 존재하는 반면, 개연적인 문법 타입의 모델에 대해서는 정정 데이터가 거의 없을 수 있고 또한 인식의 효과와 신뢰성에 상당한 영향력을 가질 수 있다.
특정 특성에 따라, 본 방법은 미인식된 표현을 나타내는 데이터가 음향 신호를 기술하는 파라미터를 나타내는 압축된 음성 리코딩을 포함하는 것을 특징으로 한다.
따라서, 본 발명은 리모트 서버로 송신되는 데이터의 양을 제한하면서도 서버 레벨에서 정교한 분석을 위해 소스로 송신된 음성 데이터를 유리하게 고려할 수 있도록 한다.
특정 특성에 따라, 본 방법은, 단말에 의해 송신되는 단계 동안, 단말은,
- 어느 표현이 인식되지 못하였을 때 음성 인식 방법의 사용에 대한 문맥 정보와,
- 미인식된 표현을 말한 화자에 관한 정보
를 포함하는 그룹의 부분을 형성하는 정보 중 적어도 하나의 아이템을 서버로 더 송신하는 것을 특징으로 한다.
그리하여, 원격적으로 수행될 수 있는 단말에 의해 인식되지 못한 표현의 음성 인식이 용이해지게 된다.
나아가, 미인식된 표현의 콘텐츠의 유효성 체크(check of the validity)가 문맥의 함수로서 수행될 수 있다(예를 들어, "송신 리코드" 명령은 이 명령이 보내진 단말이 비디오 리코더일 때는 의미를 가지며 따라서 유효하지만 모바일 전화인 경우에는 의미를 가지지 않는다).
특정 특성에 따라, 본 방법은 암호화 및/또는 리코드된 데이터 및/또는 정정 정보의 스크램블링을 구현하는 것을 특징으로 한다.
따라서, 데이터는 효과적으로 안전하게 만들어지며 기밀로 유지된다.
이 정보는 또한 언어 모델을 사용하는 음성 인식 모듈에 관한 것으로서,
- 미인식된 표현을 검출하는 분석기와,
- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드하는 리코더와,
- 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,
- 모듈에 의해 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록, 정정 모듈로 송신된 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 리모트 서버의 레벨에서 상기 데이터를 분석한 후 그리고 미인식된 표현 중 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성한 후 상기 정정 정보가 리모트 서버에 의해 송신되는, 수신기
를 포함하는 것을 특징으로 하는 음성 인식 모듈에 관한 것이다.
본 발명은 또한 언어 모델을 사용하는 음성 인식 디바이스에 관한 것으로서,
- 미인식된 표현을 검출하는 분석기와,
- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드 하는 리코더와,
- 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,
- 디바이스에 의해 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록 디바이스로 송신된 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 리모트 서버의 레벨에서 상기 데이터를 분석한 후 그리고 미인식된 표현 중 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성한 후 상기 정정 정보가 리모트 서버에 의해 송신되는, 수신기
를 포함하는 것을 특징으로 하는 음성 인식 디바이스에 관한 것이다.
본 발명은 또한 언어 모델을 사용하여 적어도 하나의 리모트 단말의 세트에서 인식이 구현되는 음성 인식 서버에 관한 것으로서, 다음의 수단, 즉
- 적어도 하나의 리모트 단말의 세트의 부분을 형성하며 그리고 음성 인식 동작 동안 미인식된 표현을 검출한, 적어도 하나의 단말에 의해 미인식된 적어도 하나의 표현을 나타내는 데이터를 수신하는 수신기와,
- 서버의 레벨에서 수신된 데이터의 분석에 기초하여 획득된 정정 정보를 적어도 하나의 리모트 단말의 세트로 송신하는 송신기로서, 상기 정정 정보는 상기 세트의 각 단말에 의해 미인식된 표현의 적어도 하나의 부분을 차후 인식 가능하게 하도록 언어 모델의 정정을 가능하게 하는, 송신기
를 포함하는 것을 특징으로 하는, 음성 인식 서버에 관한 것이다.
음성 인식 모듈, 디바이스, 및 서버의 특정 특성 및 잇점은 음성 인식 방법의 특성 및 잇점과 유사하므로, 이들의 특성과 잇점은 여기에서는 재기술하지 않는다.
본 발명의 다른 특성과 잇점은 단지 비제한적인 예시적인 예에 의하여 주어지는 바람직한 실시예와 첨부 도면에 관한 이후 상세한 설명을 판독할 때 보다 명확하게 밝혀질 것이다.
따라서 본 발명의 일반적인 원리는, 음성 인식 방법이 특히 리모트 서버가 필요하다고 간주할 때 리모트 서버에 의해 업데이트될 수 있는 음성 유닛의 세트 및/또는 언어 모델을 사용하는, 단말에서 구현되는 음성 인식에 의존한다.
일반적으로, 각 단말은 화자에 의해 구성된 표현(예를 들어, 문장이나 명령)을 인식하여 대응하는 조치를 수행할 수 있다.
그럼에도 불구하고, 사람에게 완전히 이해가능한 특정 표현이 음성 인식을 구현하는 디바이스나 모듈에 의해서는 인식되지 못하는 일이 종종 발견된다.
인식을 못하는 이유로는 여러 원인, 즉
- 언어 모델의 부분을 형성하지 않는 화자에 의해 사용되는 어휘와,
- (예를 들어, 액센트가 있는) 특정 발음(pronunciation)과,
- 음성 인식 디바이스나 모듈에 의해 제공되지 않는 특정 구의 말투(turn)와,
- 등
이 있을 수 있다.
구체적으로, 언어 모델과 음성 유닛의 세트는 전형적인 집단에 의해 관습적으로 사용되는 표현의 샘플, 즉 특정 어휘의 워드, 발음, 및/또는 전에는 고려되지 않은(그리고 고려할 수 없었던) 구의 말투를 고려하여 통계적 데이터에 기초하여 종종 구성된다.
본 발명은 음성 인식 디바이스나 모듈에 의해 미인식된 표현을 먼저 검출하는 것에 의존한다.
어느 표현이 인식되지 못하였을 때, 단말은 미인식된 표현을 리모트 서버로 송신하기 위하여 미인식된 표현에 해당하는 신호를 나타내는 데이터를 리코딩한다(예를 들어, 그 표현의 음성 디지털 리코딩과 같이).
단말의 세트로부터 미인식된 표현을 중앙 집중시키는 리모트 서버의 레벨에서, 인간인 오퍼레이터는 이 미인식된 표현을 분석할 수 있다.
이 미인식된 표현 중 특정 표현은 이해 불가능 및/또는 사용불가능인 것으로 밝혀질 수 있으며 그러면 버려지게 될 것이다.
한편, 다른 표현들은, (만일 오퍼레이터가 유용하다고 생각하면) 사람/기계 연결을 통해 단말에 의해 지금까지 미인식된 이들 표현을 서버에서 이해할 수 있는 코드로 "번역"할 수 있는 오퍼레이터에게 완전히 이해될 수 있을 것이다.
서버는 언어 모델 및/또는 음성 유닛 세트를 정정하기 위한 정보를 생성하기 위해 이들 표현과 그 번역문과 함께 고려할 수 있다.
여기서 정정은,
- 모델의 수정 및/또는
- 모델의 보완
으로서 이해되는 것을 주목하여야 한다.
이후 서버는 각 단말에 이 정정 정보를 송신하며, 각 단말은 스스로 또는 다른 단말에 의해 인식되지 못한 다수의 표현으로 차 있는 그 언어 모델 및/또는 음성 유닛 세트를 업데이트할 수 있다.
이리하여, 각 단말의 음성 인식은 모든 단말이 공유하는 경험으로부터 유익을 얻음으로써 개선된다.
본 발명의 특정 모드에 따라, 분석은 오퍼레이터에 의해 수행되는 것이 아니라 단순한 단말보다 임의대로 훨씬 더 많은 자원을 가질 수 있는 서버에 의해 수행된다.
특정 실시예에 따라, 단말은 미인식된 표현에 해당하는 신호를 나타내는 데이터와 함께 서버 문맥 데이터(예를 들어, 시간, 날짜, 음성 명령이 실패한 후 수동으로 또는 구두로 수행되는 제어, 위치, 단말 타입, 등)를 송신한다.
이것은 오퍼레이터 및/또는 서버의 분석 작업을 용이하게 할 수 있다.
본 발명의 기술이 구현될 수 있는 음성 제어 박스를 포함하는 시스템의 전체 개략도가 도 1과 연계하여 묘사되어 있다.
본 시스템은,
- 사람인 오퍼레이터(122)에 의해 제어되는 리모트 서버(116)와,
- 복수의 유저 시스템(114, 117 및 118)
을 특히 포함한다.
리모트 서버(116)는 통신 다운링크(115, 119 및 120)를 통해 각 유저 시스템 (114, 117 및 118)에 각각 링크된다. 이들 링크는 영구적이거나 임시적인 것일 수 있으며 이 기술 분야에 숙련된 사람에게 잘 알려져 있는 임의의 타입일 수 있다. 이들 링크는 특히 방송 타입일 수 있으며 그리고 TV에 의해 사용되는 RF, 위성 또는 유선 채널이나 예를 들어, 인터넷 타입 링크와 같은 임의의 다른 타입에 기초할 수 있다.
도 1 은 통신 업링크(121)를 통해 서버(116)에 링크된 유저 시스템(114)을 특히 기술한다. 이 링크도 마찬가지로 이 기술 분야에 숙련된 사람에게는 잘 알려진 임의의 타입(특히 전화, 인터넷 등)일 수 있다.
유저 시스템(114)은
- 화자에 의해 발생된 음성 신호를 픽업하기 위한 마이크로폰으로 특히 구성될 수 있는 음성 소스(100)와,
- 음성 인식 박스(102)와,
- 어플라이언스(107)를 구동하기 위한 제어 박스(105)와,
- 예를 들어 TV, 비디오 리코더 또는 모바일 통신 단말 타입의 제어되는 어플라이언스(107)
- 미인식된 것으로 검출된 표현을 저장하기 위한 유닛(109)과,
- 서버(116)에 대해 업워드(upward) 및 다운워드(downward) 통신을 가능하게 하는 인터페이스(112)
를 특히 포함한다.
소스(100)는 링크(101)를 통해 음성 인식 박스(102)에 링크되며, 이 링크 (101)는 소스(100)가 음성 신호를 나타내는 아날로그 소스의 음파를 박스(102)로 송신할 수 있게 한다.
박스(102)는 링크(104)를 통해 문맥 정보(104){예를 들어, 제어 코드의 리스트 또는 제어 박스(105)에 의해 제어될 수 있는 어플라이언스(107)의 타입과 같은 정보}를 검색하며 링크(103)를 통해 제어 박스(105)에 명령을 송신할 수 있다.
제어 박스(105)는, 박스(102)가 자기의 언어 모델과 사전(dictionary)에 따라 인식하는 정보 함수로서, 예를 들어, 적외선과 같은 링크(106)를 통해 명령을 어플라이언스(107)로 송신한다.
제어 박스(105)는 박스(102)가 인식하지 못한 표현을 검출하며 그리고 이들 표현을 단순히 거부하는 대신에 미인식 신호를 송신함으로써, 박스(102)는 링크 (108)를 통해 이들 표현을 저장 유닛(109)으로의 리코딩을 수행한다.
미인식된 표현을 저장하기 위한 유닛(109)은 링크(111)를 통해 인터페이스 (112)로 대표적인 데이터를 송신하며, 인터페이스(112)는 이 데이터를 링크(121)를 통해 서버(116)로 중계한다. 올바른 송신 후에, 인터페이스(112)는 저장 유닛(109)으로 신호(110)를 송신할 수 있으며, 이 저장 유닛(109)은 이후 송신된 데이터를 소거할 수 있다.
제어 박스(105)는, 인터페이스(112)가 링크(115)를 통해 리모트 서버로부터 수신한 정정 데이터를 링크(113)를 통해 인터페이스(112)로부터 더 수신한다. 이들 정정 데이터는 음성 유닛의 세트 및/또는 언어 모델의 업데이트를 위해 제어 박스 (105)에 의해 고려된다.
고려되는 실시예에 따라, 소스(100), 음성 인식 박스(102), 제어 박스(105), 저장 유닛(109), 및 인터페이스(112)는 하나이며 동일한 디바이스의 일부를 형성하며, 따라서 링크(101, 103, 104, 108, 111, 110 및 113)는 이 디바이스 내부의 링크이다. 이 링크(106)는 전형적으로 무선 링크이다.
도 1에 기술되어 있는 본 발명의 제 1 변형 실시예에 따라, 요소(100, 102, 105, 109, 및 112)는 부분적으로 또는 완전히 분리되어 있으며, 하나이며 동일한 디바이스의 일부를 이루지 않는다. 이 경우에, 링크(101, 103, 104, 108, 111, 110, 및 113)는 외부 배선이나 다른 링크이다.
제 2 변형 실시예에 따라, 소스(100), 박스(102 및 105), 저장 유닛(109), 및 인터페이스(112) 뿐만 아니라 어플라이언스(107)는 하나이며 동일한 디바이스의 일부를 형성하며, 내부 버스{링크(101, 103, 104, 108, 111, 110, 113, 및 106)}에 의해 상호 링크된다. 본 변형 실시예는 이 디바이스가 예를 들어 모바일 전화 또는 휴대형 통신 단말인 경우 특히 유익하다.
도 2 는 도 1에 대해 도시되어 있는 박스(102)와 같은 음성으로 제어되는 박스의 개략도를 도시한다.
박스(102)는 외부에서부터 아날로그 소스의 음파(101)를 수신하며, 이 음파 (101)는 음향-음성 디코더(200)(Acoustico-Phonetic Decoder) 즉 APD("프론트 엔드"라고도 부름)에 의해 처리되는 것이 주목된다. 이 APD(200)는, 링크(201)를 통해 인식 엔진(203)으로 송신되는 전형적으로 구술 공명(oral resonance)을 나타내는 코드 북(code book)에 속하는 리얼 벡터(real vector) 즉 벡터를 생성하기 위하여 일정 간격(전형적으로 매 10ms마다)으로 소스 음파(101)를 샘플링한다. APD 는 예를 들어 하이넥 헤르만스키(Hynek Hermansky)에 의해 저술되고 "미국 음향 협회 저널(Journal of the Acoustical Society of America)" Vol. 97, No4, 1990년,1738-1752페이지에 발행된 논문 "음성 지각의 선형 예측 분석(Perceptual Linear Prediction (PLP) analysis of speech)"에 특히 기술되어 있는 PLP("Perceptual Linear Prediction")에 기초를 두고 있다.
사전(202)의 도움으로, 인식 엔진(203)은 특히 숨은 마르코브 모델(hidden Markov model) 즉 HMM 및 언어 모델(하나의 워드가 다른 워드에 따라 나올 확률을 나타내는 모델)을 사용하여 인식 엔진(203)이 수신하는 리얼 벡터를 분석한다. 인식 엔진은 특히 프레데릭 제리넥(Frederick Jelinek)에 의해 저술되고 MIT 출판사에 의해 1997년 출판된 책 "통계적 음성 인식 방법(Statistical Methods for Speech Recognition)"에 상세하게 기술되어 있다.
언어 모델에 의해 (특히 숨은 마르코브 네트워크를 사용할 수 있는) 인식 엔진(203)은 어느 워드가 주어진 응용에서 화자에 의해 사용가능한 임의의 표현의 정해진 워드를 따라 갈 수 있는지를 결정할 수 있고 관련 확률을 제공할 수 있다. 관련 워드는 언어 모델에 상관없이 소(小) 사이즈(전형적으로 10 내지 300 워드) 또는 대(大) 사이즈(예를 들어, 300 000 워드보다 더 큰 사이즈)일 수 있는 응용의 어휘에 속한다.
톰슨 멀티미디어(Thomson Multimedia)의 이름으로 출원된 1999년 11월 29일자 특허 출원 PCT/FR00/03329는 복수의 구문 블록(syntactic block)을 포함하는 언어 모델을 기술한다. 본 특허 출원의 주제인 본 발명의 사용은 모듈이 독립적으로 업데이트될 수 있어 과도하게 많은 양의 파일을 다운로드하는 것을 피할 수 있게 하므로, 이 타입의 모듈 언어 모델과 연관하여 특히 유리하다.
언어 모델은 언어 모델 로딩 모듈(207)에 의해 송신된다. 이 모듈(207)은 링크(113)를 통해 서버로부터 송신된 언어 모델을 수신하며, 서버로부터 송신된 음성 유닛 및/또는 언어 모델의 업데이트 또는 정정 데이터를 수신한다.
사전(202)은 이 사전으로부터 워드를 참조하여 언어 모델에 속하는 것이 주목된다. 그리하여, 이 사전(202)은 모듈(207)에 의해 로딩된 언어 모델을 통해 업데이트 및/또는 정정될 수 있다.
비터비 알고리즘(Viterbi algorithm)의 사용에 기초하는 인식 동작을 구현한 후, 인식 엔진(203)은 발성된 표현에 대한 베스트 스코어를 나타내는 언어 모델에 따른 워드 열의 순서 리스트를 거부 모듈(211)에 공급한다.
거부 모듈(211)은 인식 엔진(203)의 다운스트림에서 동작하며 이하의 원리 중 하나의 원리에 따라 동작한다:
- 때때로, 비터비 알고리즘에 특정된 이유로서, 비터비 알고리즘은 그 스코어가 너무 낮아 산술 연산 면에서 볼 때 기계의 허용가능한 정확도의 한계를 초과하기 때문에, 일관적인 리스트를 생성하지 못할 수 있다. 그러므로, 일관된 완전한 안이 존재하지 못한다. 따라서, 거부 모듈(211)이 미리 결정된 허용가능한 한계 아래에 있는 하나 이상의 스코어를 검출할 때 이 표현은 거부된다.
- 비터비 알고리즘에 의해 연산된 리스트의 각 요소는, 관련된 스코어가 언어 모델에 따라 모든 가능한 표현의 최고의 상대 스코어 중에 있었기 때문에, 간직되어왔다. 추가적으로, 이들 표현 각각과 연관된 마르코브 네트워크에 의해, 관측된 스코어와 연관된 표현을 생성하는 관련 네트워크의 고유(intrinsic) 확률을 평가할 수 있다. 이 거부 모듈(211)은 이 확률을 분석하며, 만일 이 확률이 허용가능한 확률의 미리 결정된 임계치보다 적으면 이 표현은 거부된다.
- 다른 방법에 따라, 비터비 알고리즘을 통해 획득된 최상의 안에 대해 거부 모듈(211)은 비터비 개발 과정에서 고려되지 못했던 기준을 사용하여 이 표현의 보완 처리를 수행한다. 예를 들어, 거부 모듈은, 발성되어야 하는 신호 부분이 모음 (vowel)과 연관되어 있기 때문에 발성되어야 하는 이들 신호 부분이 실제로 그런지를 체크한다. 만일 발의된 표현이 이들 조건을 충족하지 못하는 경우에는 이 표현은 거부된다.
거부 모듈(211)이 앞서 예시된 바와 같이 어느 표현을 거부하면, 이 표현은 미인식된 것이라 하게 되며 그리고 거부된 표현을 나타내는 신호는 인식 엔진(203)으로 송신된다. 동시에, 거부 모듈은 링크(108)를 통해 저장 유닛(109)으로 미인식된 표현의 리코딩을 송신한다.
인식 엔진(203)은 음성 샘플의 형태로 APD(200)로부터 나오는 표현을 인식하는 일을 담당한다. 그리하여, 인식 엔진(203)은,
- 사전(202)의 각 워드가 아마도 수 개의 "음성화(phonetizations)"를 가질 수 있는, 마르코브 모델의 형태로 된 워드의 음성 표현(phonetic representation)을 구성하기 위한 음성 유닛과, 동시에
- 더 크거나 또는 더 낮은 복잡도(complexity)의 표현을 인식하기 위한 엄격한 의미의 언어 모델
을 사용한다.
인식 엔진(203)은, 인식된 표현{즉 모듈(211)에 의해 거부되지 않은 표현}과 인식 엔진(203)이 수신된 벡터에 기초하여 식별한 표현을, 이들 표현을 어플라이언스(107)가 이해될 수 있는 명령으로 번역하기 위한 수단(205)으로 공급한다. 이 수단(205)은 하나 이상의 명령(103)을 제어 박스(105)에 송신하기 전에 제어 박스 (105)에 의해 공급된 문맥 정보(104)를 고려하는 인공 지능 번역 방법(artificial intelligence translation process)을 사용한다.
도 3 은 도 1과 연계하여 도시된 바와 같은 도 2의 개략도를 구현하는 음성 인식 모듈 또는 디바이스(102)를 개략적으로 도시한다.
박스(I02)는 어드레스와 데이터 버스에 의해 상호 연결된,
- 음성 인터페이스(301)와,
- 아날로그 디지털 변환기(302)와,
- 프로세서(304)와,
- 비휘발성 메모리(305)와,
- 랜덤 억세스 메모리(306)와,
- 수신 모듈(312)과,
- 송신 모듈(313)과,
- 입력/출력 인터페이스(307)
를 포함한다.
도 3에 도시된 각 요소는 이 기술 분야에 숙련된 사람에게 잘 알려져 있다. 이들 평범한 요소는 여기에 기술되지 않는다.
상세한 설명 전체에 걸쳐 사용되는 워드 "레지스터"는 언급된 각 메모리에서 소 용량의 메모리 영역(수 개의 데이터 비트)과 대 용량의 메모리 영역(전체 프로그램 또는 거래 데이터의 전체 열을 저장할 수 있는 영역) 모두를 지시한다.
비휘발성 메모리(305)(ROM)는 "prog" 레지스터(308)에서 프로세서(304)를 동작시키기 위한 프로그램을 특히 보유한다.
랜덤 억세스 메모리(306)는, 레지스터가 보유하는 데이터와 편의상 동일한 이름을 가지는 레지스터에 있는 데이터, 변수, 및 중간 처리 결과를 간직하며, 이 레지스터는
- 미인식된 표현의 리코딩이 간직되는 레지스터(309)(Exp_Not_Rec)와,
- 미인식된 문장의 카운터(310)(Nb_Exp_Not_Rec)와,
- 레지스터(311) 내의 언어 모델(Model_Language)
를 특히 포함한다.
수신 모듈(312)과 송신 모듈(313)은 리모트 서버(116)로부터 또는 리모트 서버(116)로 데이터를 각각 송신할 수 있게 하는 모듈이다. 수신 및 송신용 유선 또는 무선 기술은 원격통신 기술 분야에서 숙련된 사람에게는 잘 알려져 있으며 더 상세하게 기술되지 않는다.
도 4 는 도 1에 관해 도시된 시스템의 서버(116)를 도시한다.
서버(116)는 임의의 사람/기계 인터페이스(404)(예를 들어, 키보드와 스크린 타입의 인터페이스)를 통해 사람인 오퍼레이터(122)에 의해 제어된다.
서버(116)는
- 수신기(400)와,
- 분석기(401)와,
- 음성 유닛 세트 및/또는 언어 모델의 정정 데이터를 구성하기 위한 모듈 (402)과,
- 송신기(403)
를 특히 포함한다.
수신기(400)는 단말의 송신기(313)와 호환가능하며 그리고 링크(121)를 통해 미인식된 표현과 아마 보완적인 데이터(예를 들어 문맥 데이터)를 나타내는 특정 데이터(에를 들어 리코딩)를 각 단말로부터 수신할 수 있다.
분석기(401)는 링크(121)를 통해 수신기(400)로부터 오는 데이터 세트를 수신하며, 이 분석기(401)는 이 데이터 세트를 인터페이스(404)를 통해 오퍼레이터 (122)로 송신하며, 이 오퍼레이터(122)는, 예를 들어,
- 서버(116) 및 그 제어장치와 대화가능하게 하는 스크린과 키보드가 장착되며,
- 미인식된 리코딩을 듣기 위한 스피커나 오디오 헤드셋이 장착된
단말이다.
또한 이 인터페이스(404)에 의해 분석기(401)는,
- 언어 모델에 의해 커버되지 않은 미인식된 표현이 이해불가능한 상태로 남아 있는지, 단말에 대해 응용 내에 의미를 가지지 않는지, 및/또는 단말과 관련되어 있지 않는지(그리하여 이것은 언어 모델에 포함되어서는 아니되는 것이다)와,이 경우, 이 표현은 이후 언어 모델의 정정에 대해 무시되며 분석기(401)에 의해 버려지게 되며,
- 그럼에도 불구하고 미인식된 표현이 엄격한 의미의 언어 모델에 속하는지(이때 이것은 순수 인식 문제를 수반한다)와, 이 경우에 이것은 엄격한 의미의 언어 모델이 아니라 음성 유닛의 수정을 수반하게 되며,
- 오퍼레이터에 의해 어느 표현의 콘텐츠를 식별한 후에 예를 들어 제어 코드 형태로 번역한 것인지와, 여기서 미인식된 표현은 언어 모델에 속하지 않으며 이 표현이 의도하는 단말에 대한 의미를 가지지 않는 것이며, 이후 이것은 엄격한 의미의 언어 모델을 정정하는 것을 수반하는 것이며,
를 나타내는, 오퍼레이터(122)로부터의 정보를 수신할 수 있다.
제 2 및 제 3 솔루션을 조합하는 것도 가능하며, 이 경우에, 이것은 엄격한 의미의 언어 모델과 음성 유닛을 모두 수정하는 것을 수반한다.
본 실시예는 미인식된 표현을 수동으로 처리하는 것에 해당한다. 이 실시예에 따라, 사람인 오퍼레이터(122)는 미인식된 표현을 청취하며 거부 이유의 원인을 분석한다. 오퍼레이터(122)는 특히 이 표현이 언어 모델에 속하는지 아닌지를 결정한다. 이 표현이 언어 모델에 속하는 경우에는, 오퍼레이터는 고유 인식 문제 (intrinsic recognition problem)를 확인하기 위해 표현(인식했어야 하지만 다른 이유, 즉 잡음, 스피커의 액센트 등에 의해 인식하지 못한 언어 모델에 속하는 표현)을 분석한다.
제 1 변형 실시예에 따라, 처리는 자동적이며 사람인 오퍼레이터의 개입은없어지게 된다. 이 경우에, 서버(116)와 특히 분석기(401)는 특히 단말보다도 훨씬 더 클 수 있는 비교적 상당한 연산 능력을 소유한다. 이 변형 실시예에 따라, 분석기(401)는, 예를 들어 더 좋은 언어 모델 및/또는 더 복잡한 음성 모델을 사용하여, 단말에 의해 행해질 수 있는 것보다 더 적절한 방식으로 미인식된 각 표현을 분석한다. (화자의 명령에 빠른 응답 시간을 종종 요구하는) 단말일 수 있는 이러한 엄격한 실시간 연산 요건을 받지 않고, 분석기(401)는 또한 예를 들어, 단말에서보다 더 긴 처리 시간을 요구하는 인식을 허용할 수 있다.
제 2 변형 실시예에 따라, 처리는 반자동이며, 사람인 오퍼레이터의 개입은 분석기에 의해 해결될 수 없는 경우로 제한된다.
서버(116)의 일반적인 구조는 바람직한 실시예에 따라 도 3에 대해 기술된 것과 같은 단말의 것과 유사하게 여기에서 기술되며, 그리고 특히 어드레스와 데이터 버스에 의해 상호 연결된,
- 프로세서와,
- 랜덤 억세스 메모리와,
- 비휘발성 메모리와,
- 적절한 송신 모듈과,
- 수신 모듈과,
- 사람/기계 연결 인터페이스
를 포함한다.
도 2의 인식 엔진(203)에 의해 구현되는, 표현을 테스트하며 미인식된 표현에 관한 데이터의 리코딩의 흐름도를 나타내는 도 5에 따라, 첫 번째 초기화 단계 (500) 동안, 마이크로프로세서(304)는 프로그램(308)의 실행을 시작하며 랜덤 억세스 메모리(306)의 변수를 초기화한다.
이후, 표현 대기 단계(501) 동안, 마이크로프로세서는 화자에 의해 송신된 표현을 기다리며 수신한다.
그 다음에, 테스트(502) 동안, 수신된 표현에 대한 음성 인식 동작을 실행한 후, 이 마이크로프로세서는 이 표현이 도 2의 거부 모듈(211)의 기술에 관해 도시된 하나 이상의 기준에 따라 인식되었는지 또는 인식되지 못했는지를 결정한다.
만약 인식되었다면, 제어 단계(504) 동안, 음성 인식 박스(102)는 수신된 표현에 적용된 음성 인식의 결과를 고려하며 그리고 예를 들어 명령과 같은 적절한 조치를 실행한다.
만약 인식되지 못했다면, 표현을 리코딩하는 단계(503) 동안, 미인식된 표현은 압축되며 도 6에 관해 도시된 리모트 서버(116)로의 송신을 기다리는 저장 유닛 (109)에 리코드된다.
단계(503 또는 504) 중 어느 하나가 완료된 때, 표현을 기다리는 단계(501)가 반복된다.
도 6 은 도 2의 거부 모듈에 의해 구현되는, 미인식된 표현에 관한 데이터의 송신 흐름도를 나타내며, 첫 번째 초기화 단계(600) 동안, 마이크로프로세서(304)는 프로그램(308)의 실행을 시작하며 랜덤 억세스 메모리(306)의 변수를 초기화한다.
이후, 음성 인식 박스(102)에 의해 미인식된 표현을 기다리는 단계(601) 동안, 마이크로프로세서(304)는 미인식된 표현의 리코딩을 기다리며 그후 수신한다.
그 뒤, 단계(602) 동안, 단말(114)은 원격통신의 기술 분야에 숙련된 사람에게 잘 알려진 방법에 따라 리모트 서버(116)로까지 연결한다.
그 다음에, 단계(603) 동안, 미인식된 표현의 리코딩이 이루어지고 리모트 서버(116)로 송신된다.
이후, 단절 단계(604) 동안, 단말은 리모트 서버(116)와 단절되며, 신호는 리모트 서버와의 인터페이스(112)와 표현의 리코딩의 송신을 나타내는 미인식된 표현에 해당하는 데이터를 저장하기 위한 유닛(109) 사이에 송신된다. 이때 이들 표현에 해당하는 데이터는 저장 유닛(109)으로부터 소거된다.
그 다음에 단계(601)가 반복된다.
도 7 은 도 2의 언어 모델을 로딩하기 위한 모듈(207)에 의해 구현되는, 정정 데이터의 수신 흐름도를 나타낸다.
첫 번째 초기화 단계(700) 후에, 단계(701)동안, 단말은 서버(116)에 의해 복수의 단말로 방송되는 정정 데이터를 기다리는 대기 상태에 놓인다.
그 다음에, 단계(702) 동안, 단말은 음성 인식 모듈에 의해 사용되는 음성 유닛 세트 및/또는 언어 모델을 업데이트하기 위하여 정정 데이터를 고려한다. 정정 데이터의 특성에 따라, 이들 데이터는 특히
- 음성 유닛 세트 및/또는 언어 모델 내의 현존하는 데이터를 대체하는 것과,
- 현존하는 데이터를 수정하는 것과,
- 현존하는 데이터를 보완하는 것과, 및/또는
- 현존하는 데이터의 삭제를 수행하는 것
을 할 수 있다.
단계(702)의 수행 후에, 단계(701)가 반복된다.
도 8 은 도 4의 리모트 서버 내에 구현되는, 정정 데이터의 수신 및 처리 흐름도를 나타낸다.
서버의 관리를 위한 프로그램의 유인(instigation)과 파라미터(parameter)를 초기화하는 첫 번째 단계(800) 후에, 서버(116)는 단말{도 6에 대해 도시된 단계 (602)를 수행하는 단말}로부터 유래하는 연결 요청을 기다리는 대기 상태에 놓이며 그리고 원격통신의 기술 분야에 숙련된 사람에게는 잘 알려진 방법에 따라 단말과 연결을 수립한다.
이후 단계(802) 동안, 서버(116)는 전술된 단계(603)를 수행하는 연결된 단말에서부터 유래하는 데이터를 수신한다. 이들 데이터는, 단말에서 구현되는 음성 인식 모듈에 의해 인식되지 못한 것으로 인해, 단말에 의해 거부된 하나 이상의 표현의 리코딩을 특히 포함한다. 모든 데이터가 수신되었을 때, 단말과 서버(116) 사이의 연결이 끊어진다.
그 다음에, 수신된 데이터를 처리하는 단계(803) 동안, 서버(116)는 오퍼레이터(122)에 의해 수동으로 또는 도 4에 대해 도시된 여러 대안에 따라 자동적으로 또는 반자동으로 수신된 표현의 리코딩 각각을 처리한다.
이후, 테스트(804) 동안, 서버(116)는 특히 수신된 하나 이상의 표현이 이해할 수 있었는지 그리고 이 표현 또는 이들 표현을 송신한 단말에 대해 관련된 것인지를 결정한다. 이때는 언어 모델 및/또는 음성 유닛의 업데이트가 필요하다.
만약 아니라면, 대기 단계(801)가 반복된다.
반대의 경우에, 서버(116)는 정정 데이터를 수신한 후에 단말 내에 단계 (607)(앞에서 예시된)를 가능하게 하는 수 개의 형태를 취할 수 있는 언어 모델의 정정 데이터를 구성한다. 이들 정정 데이터는 특히
- 정정의 특성(특히, 대체, 수정, 보완, 또는 삭제)을 지정하는 지시자 (indicator)와,
- 지시자의 함수로서의 정정 데이터
를 포함한다.
언어 모델이 복수의 구문 블록을 포함하면(특히 전술된 특허 PCT/FR00/03329에 기술된 바와 같은 언어 모델의 경우), 각 모듈은 개별적으로 정정될 수 있다는 것을 주의해야 한다. 이 경우에, 정정 데이터는 정정될 모듈이나 모듈들의 지시자를 또한 포함한다.
이후, 단계(806) 동안, 서버(116)는 단계(607)에 따라 음성 유닛 세트 및/또는 그 언어 모델을 업데이트할 수 있는 단말 중 하나 또는 바람직하게는 단말의 세트로 정정 데이터를 방송한다.
이후 단계(801)가 반복된다.
그 절차는 이렇게 반복되며 수 회 반복될 수 있다. 이 절차는 또한 응용이새로운 질문을 추가함으로써 업데이트될 수 있게 한다.
물론, 본 발명은 전술된 예시적인 실시예로 한정되지 않는다.
특히, 이 기술 분야에 숙련된 사람은, 음성 인식 방법을 사용하거나 사용할 수 있는 모듈 및/또는 임의의 타입의 디바이스에 관한 본 발명을 구현하는 단말의 정의를 변경할 수 있다{예를 들어, 멀티미디어 단말, TV, 비디오 리코더, 멀티미디어 디지털 디코더(또는 셋톱박스), 오디오 또는 비디오 장비, 고정형 또는 휴대형 단말 등의 타입}.
마찬가지로. 본 발명은 임의의 타입의 리모트 서버에 관한 것이다(예를 들어, 인터넷 서버, TV 프로그램 방송국에 연결된 장비, 모바일 통신 네트워크에 연결된 장비, 서비스 제공자 장비 등)
나아가, 본 발명에 따라, 미인식된 문장에 해당하는 데이터에 대한 송신 채널과 언어 모델 및/또는 음성 유닛을 정정하기 위한 데이터에 대한 송신 채널은 무엇이든 임의적인 것이며 그리고 특히
- RF 송신 패스웨이(pathway)와,
- 위성 송신 패스웨이와,
- TV 방송 네트워크의 채널과,
- 인터넷 타입 네트워크의 채널과,
- 전화 네트워크의 채널과,
- 모바일 네트워크의 채널과,
- 이동가능한 매체
를 포함한다.
나아가, 본 발명은 미인식된 문장에 뿐만 아니라 예를 들어, 기계와 그 유저 사이의 대화를 가능하게 하는 하나 이상의 문장(sentence), 분리 또는 비분리된 워드(isolated or unisolated word), 구(phrase), 음성 코드(voice code)와 같은 임의의 타입의 구두 표현에 관련된 것이라는 것을 주목하여야 한다. 이들 구술 표현은, 예를 들어, 유저가 기계에 구성 데이터(configuration data), 프로그래밍 데이터(programming data) 등을 송신할 수 있는 정보 데이터로서, 명령 뿐만아니라 기계와 그 유저 사이의 대화 주제를 형성할 수 있는 임의의 타입의 데이터와 연관될 수도 있다.
본 특허에 기술되어 있는 언어 모델을 업데이트하는 방법은 엄격한 의미의 음성 인식 방법 뿐만 아니라 철자의 실수(orthographic mistake) 및/또는 타이핑 실수를 지원하며 또한 이 특허에 기술된 바와 같이 엄격한 의미의 마르코브 모델 (Markovian model) 또는 언어 모델(language model)에 기초하는 텍스트 입력의 인식 방법에도 적용된다는 것을 또한 주목하여야 한다.
본 발명은 순수 하드웨어의 설치로 제한되는 것이 아니라 컴퓨터 프로그램의 지시 열의 형태로 또는 하드웨어 부분과 소프트웨어 부분을 혼합하는 임의의 형태로 또한 구현될 수 있다는 것을 알 수 있을 것이다. 본 발명이 부분적으로 또는 전적으로 소프트웨어 형태로 설치되는 경우에, 해당 지시 열은 이동가능한 저장 수단 (예를 들어, 디스켓, CD-ROM 또는 DVD_ROM과 같은 수단) 내에 저장될 수 있으며 또는 그렇지 않은 경우, 이 저장 수단은 컴퓨터 또는 마이크로프로세서에 의해 부분적으로 또는 전적으로 판독가능하다.
전술한 바와 같이, 본 발명은 음성 인터페이스 분야 등에 이용가능하다.

Claims (7)

  1. 적어도 하나의 단말(114)에서 구현되며 언어 모델(311)을 사용하는 음성 인식 방법으로서,
    - 상기 단말 중 하나의 단말에서 적어도 하나의 미인식된 표현을 검출(502)하는 단계와,
    - 상기 미인식된 표현(309)을 나타내는 데이터를 상기 단말에 리코딩(503)하는 단계와,
    - 제 1 송신 채널(121)을 통해, 상기 단말에 의해 상기 리코드된 데이터를 리모트 서버(116)로 송신(603)하는 단계와,
    - 상기 리코드된 데이터를 상기 리모트 서버의 레벨에서 분석(803)하며, 그리고 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성(805)하는 단계와,
    - 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하기 위하여, 상기 정정 정보를 상기 서버로부터 제 2 송신 채널(115, 119, 120)을 통해 적어도 하나의 단말(114, 117, 118)로 송신(806)하는 단계
    를 포함하는 것을 특징으로 하는, 음성 인식 방법.
  2. 제 1 항에 있어서, 상기 미인식된 표현(309)을 나타내는 상기 데이터는 음향 신호(acoustic signal)를 묘사하는 파라미터를 나타내는 압축된 음성 리코딩을 포함하는 것을 특징으로 하는, 음성 인식 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 단말에 의한 상기 송신 단계 동안, 상기 단말은
    - 어느 표현이 인식되지 못하였을 때 상기 음성 인식 방법의 사용에 관한 문맥 정보와,
    - 미인식된 표현을 말한 화자에 관한 정보
    를 포함하는 그룹 중 일부를 형성하는 정보의 적어도 하나의 아이템을 상기 서버로 더 송신하는 것을 특징으로 하는, 음성 인식 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 리코드된 데이터 및/또는 상기 정정 정보의 암호화 및/또는 스크램블링을 구현하는 것을 특징으로 하는, 음성 인식 방법.
  5. 언어 모델을 사용하는 음성 인식 모듈(102)로서,
    - 미인식된 표현을 검출하는 분석기와,
    - 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드하는 리코더와,
    - 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,
    - 상기 모듈에 의해 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록, 상기 모듈에 송신된 상기 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 상기 정정 정보는, 상기 데이터를 상기 리모트 서버의 레벨에서 분석한 후 그리고 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성한 후, 상기 리모트 서버에 의해 송신되는, 수신기
    를 포함하는 것을 특징으로 하는, 음성 인식 모듈.
  6. 언어 모델을 사용하는 음성 인식 디바이스(102)로서,
    - 미인식된 표현을 검출하는 분석기와,
    - 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드하는 리코더와,
    - 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,
    - 상기 디바이스에 의한 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록, 상기 디바이스에 송신된 상기 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 상기 정정 정보는, 상기 데이터를 상기 리모트 서버의 레벨에서 분석한 후 그리고 상기 미인식된 표현 중 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성한 후, 상기 리모트 서버에 의해 송신되는, 수신기
    를 포함하는 것을 특징으로 하는, 음성 인식 디바이스.
  7. 언어 모델을 사용하여 음성 인식이 적어도 하나의 리모트 단말의 세트에서 구현되는 음성 인식 서버(116)로서,
    - 상기 단말 세트의 부분을 형성하고, 음성 인식 동작 동안 상기 미인식된 표현을 검출한 적어도 하나의 단말에 의해 상기 미인식된 적어도 하나의 표현을 나타내는 데이터를 수신하는 수신기와,
    - 상기 서버의 레벨에서 수신된 상기 데이터의 분석에 기초하여 획득된 정정 정보를 적어도 하나의 리모트 단말의 상기 단말 세트로 송신하는 송신기로서, 상기 정정 정보는 상기 단말 세트의 각 단말에 의해 상기 미인식된 표현의 적어도 하나의 부분을 차후 인식 가능하게 하도록 상기 언어 모델의 정정을 가능하게 하는, 송신기
    를 포함하는 것을 특징으로 하는, 음성 인식 서버.
KR1020037010428A 2001-02-13 2002-02-12 음성 인식을 위한 방법, 모듈, 디바이스 및 서버 KR100908358B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0101910A FR2820872B1 (fr) 2001-02-13 2001-02-13 Procede, module, dispositif et serveur de reconnaissance vocale
FR01/01910 2001-02-13
PCT/FR2002/000518 WO2002065454A1 (fr) 2001-02-13 2002-02-12 Procede, module, dispositif et serveur de reconnaissance vocale

Publications (2)

Publication Number Publication Date
KR20030076661A true KR20030076661A (ko) 2003-09-26
KR100908358B1 KR100908358B1 (ko) 2009-07-20

Family

ID=8859932

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037010428A KR100908358B1 (ko) 2001-02-13 2002-02-12 음성 인식을 위한 방법, 모듈, 디바이스 및 서버

Country Status (10)

Country Link
US (1) US7983911B2 (ko)
EP (1) EP1362343B1 (ko)
JP (1) JP4751569B2 (ko)
KR (1) KR100908358B1 (ko)
CN (1) CN1228762C (ko)
DE (1) DE60222093T2 (ko)
ES (1) ES2291440T3 (ko)
FR (1) FR2820872B1 (ko)
MX (1) MXPA03007178A (ko)
WO (1) WO2002065454A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210075815A (ko) * 2019-12-13 2021-06-23 주식회사 소리자바 음성 인식 힌트 적용 장치 및 방법

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
JP4267385B2 (ja) 2003-06-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 統計的言語モデル生成装置、音声認識装置、統計的言語モデル生成方法、音声認識方法、およびプログラム
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
US7542904B2 (en) * 2005-08-19 2009-06-02 Cisco Technology, Inc. System and method for maintaining a speech-recognition grammar
EP1760566A1 (en) * 2005-08-29 2007-03-07 Top Digital Co., Ltd. Voiceprint-lock system for electronic data
US20070136069A1 (en) * 2005-12-13 2007-06-14 General Motors Corporation Method and system for customizing speech recognition in a mobile vehicle communication system
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US8117268B2 (en) 2006-04-05 2012-02-14 Jablokov Victor R Hosted voice recognition system for wireless devices
US8214213B1 (en) * 2006-04-27 2012-07-03 At&T Intellectual Property Ii, L.P. Speech recognition based on pronunciation modeling
WO2007147077A2 (en) 2006-06-14 2007-12-21 Personics Holdings Inc. Earguard monitoring system
TWI321313B (en) * 2007-03-03 2010-03-01 Ind Tech Res Inst Apparatus and method to reduce recognization errors through context relations among dialogue turns
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8352264B2 (en) 2008-03-19 2013-01-08 Canyon IP Holdings, LLC Corrective feedback loop for automated speech recognition
US11683643B2 (en) 2007-05-04 2023-06-20 Staton Techiya Llc Method and device for in ear canal echo suppression
US11856375B2 (en) 2007-05-04 2023-12-26 Staton Techiya Llc Method and device for in-ear echo suppression
US8335829B1 (en) 2007-08-22 2012-12-18 Canyon IP Holdings, LLC Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof
US9053489B2 (en) 2007-08-22 2015-06-09 Canyon Ip Holdings Llc Facilitating presentation of ads relating to words of a message
US9129599B2 (en) * 2007-10-18 2015-09-08 Nuance Communications, Inc. Automated tuning of speech recognition parameters
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
JP5327838B2 (ja) * 2008-04-23 2013-10-30 Necインフロンティア株式会社 音声入力分散処理方法及び音声入力分散処理システム
US8600067B2 (en) 2008-09-19 2013-12-03 Personics Holdings Inc. Acoustic sealing analysis system
US8374872B2 (en) * 2008-11-04 2013-02-12 Verizon Patent And Licensing Inc. Dynamic update of grammar for interactive voice response
US20120215528A1 (en) 2009-10-28 2012-08-23 Nec Corporation Speech recognition system, speech recognition request device, speech recognition method, speech recognition program, and recording medium
US9842591B2 (en) * 2010-05-19 2017-12-12 Sanofi-Aventis Deutschland Gmbh Methods and systems for modifying operational data of an interaction process or of a process for determining an instruction
US20110307250A1 (en) * 2010-06-10 2011-12-15 Gm Global Technology Operations, Inc. Modular Speech Recognition Architecture
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US9472185B1 (en) 2011-01-05 2016-10-18 Interactions Llc Automated recognition system for natural language understanding
US9245525B2 (en) 2011-01-05 2016-01-26 Interactions Llc Automated speech recognition proxy system for natural language understanding
JP5837341B2 (ja) * 2011-06-24 2015-12-24 株式会社ブリヂストン 路面状態判定方法とその装置
GB2493413B (en) 2011-07-25 2013-12-25 Ibm Maintaining and supplying speech models
JP2013127536A (ja) * 2011-12-19 2013-06-27 Sharp Corp 音声出力装置、当該音声出力装置を備える通信端末、当該音声出力装置を備える補聴器、音声出力装置を制御するためのプログラム、音声出力装置の使用者に応じた音声を提供するための方法、および、音声出力装置の変換データを更新するためのシステム
AU2018202888B2 (en) * 2013-01-17 2020-07-02 Samsung Electronics Co., Ltd. Image processing apparatus, control method thereof, and image processing system
JP6025785B2 (ja) * 2013-07-08 2016-11-16 インタラクションズ リミテッド ライアビリティ カンパニー 自然言語理解のための自動音声認識プロキシシステム
DE102013216427B4 (de) * 2013-08-20 2023-02-02 Bayerische Motoren Werke Aktiengesellschaft Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung
EP3040985B1 (en) * 2013-08-26 2023-08-23 Samsung Electronics Co., Ltd. Electronic device and method for voice recognition
EP2851896A1 (en) 2013-09-19 2015-03-25 Maluuba Inc. Speech recognition using phoneme matching
DE102013219649A1 (de) * 2013-09-27 2015-04-02 Continental Automotive Gmbh Verfahren und System zum Erstellen oder Ergänzen eines benutzerspezifischen Sprachmodells in einem mit einem Endgerät verbindbaren lokalen Datenspeicher
US10043534B2 (en) 2013-12-23 2018-08-07 Staton Techiya, Llc Method and device for spectral expansion for an audio signal
DE102014200570A1 (de) * 2014-01-15 2015-07-16 Bayerische Motoren Werke Aktiengesellschaft Verfahren und System zur Erzeugung eines Steuerungsbefehls
US9601108B2 (en) 2014-01-17 2017-03-21 Microsoft Technology Licensing, Llc Incorporating an exogenous large-vocabulary model into rule-based speech recognition
CN103956168A (zh) * 2014-03-29 2014-07-30 深圳创维数字技术股份有限公司 一种语音识别方法、装置及终端
US10749989B2 (en) 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
JP2016009193A (ja) * 2014-06-23 2016-01-18 ハーマン インターナショナル インダストリーズ インコーポレイテッド ユーザ適合音声認識
US10163453B2 (en) 2014-10-24 2018-12-25 Staton Techiya, Llc Robust voice activity detector system for use with an earphone
CN107077843A (zh) * 2014-10-30 2017-08-18 三菱电机株式会社 对话控制装置和对话控制方法
US9711141B2 (en) * 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
KR102325724B1 (ko) * 2015-02-28 2021-11-15 삼성전자주식회사 다수의 기기에서 텍스트 데이터 동기화
US20160274864A1 (en) * 2015-03-20 2016-09-22 Google Inc. Systems and methods for enabling user voice interaction with a host computing device
CN104758075B (zh) * 2015-04-20 2016-05-25 郑洪� 基于语音识别控制的家用口腔护理工具
US10325590B2 (en) * 2015-06-26 2019-06-18 Intel Corporation Language model modification for local speech recognition systems using remote sources
US10616693B2 (en) 2016-01-22 2020-04-07 Staton Techiya Llc System and method for efficiency among devices
US9858918B2 (en) * 2016-03-15 2018-01-02 GM Global Technology Operations LLC Root cause analysis and recovery systems and methods
US9761227B1 (en) 2016-05-26 2017-09-12 Nuance Communications, Inc. Method and system for hybrid decoding for enhanced end-user privacy and low latency
US10971157B2 (en) * 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10229682B2 (en) 2017-02-01 2019-03-12 International Business Machines Corporation Cognitive intervention for voice recognition failure
US10636423B2 (en) 2018-02-21 2020-04-28 Motorola Solutions, Inc. System and method for managing speech recognition
CN108683937B (zh) * 2018-03-09 2020-01-21 百度在线网络技术(北京)有限公司 智能电视的语音交互反馈方法、系统及计算机可读介质
US10951994B2 (en) 2018-04-04 2021-03-16 Staton Techiya, Llc Method to acquire preferred dynamic range function for speech enhancement
KR102544250B1 (ko) 2018-07-03 2023-06-16 삼성전자주식회사 소리를 출력하는 디바이스 및 그 방법
US11087739B1 (en) * 2018-11-13 2021-08-10 Amazon Technologies, Inc. On-device learning in a hybrid speech processing system
CN110473530B (zh) * 2019-08-21 2021-12-07 北京百度网讯科技有限公司 指令分类方法、装置、电子设备及计算机可读存储介质
CN113052191A (zh) * 2019-12-26 2021-06-29 航天信息股份有限公司 一种神经语言网络模型的训练方法、装置、设备及介质
US11552966B2 (en) 2020-09-25 2023-01-10 International Business Machines Corporation Generating and mutually maturing a knowledge corpus

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
ZA948426B (en) * 1993-12-22 1995-06-30 Qualcomm Inc Distributed voice recognition system
JPH07222248A (ja) 1994-02-08 1995-08-18 Hitachi Ltd 携帯型情報端末における音声情報の利用方式
US5852801A (en) * 1995-10-04 1998-12-22 Apple Computer, Inc. Method and apparatus for automatically invoking a new word module for unrecognized user input
US6058363A (en) * 1997-01-02 2000-05-02 Texas Instruments Incorporated Method and system for speaker-independent recognition of user-defined phrases
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
US5953700A (en) * 1997-06-11 1999-09-14 International Business Machines Corporation Portable acoustic interface for remote access to automatic speech/speaker recognition server
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
US5937385A (en) * 1997-10-20 1999-08-10 International Business Machines Corporation Method and apparatus for creating speech recognition grammars constrained by counter examples
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
US6157910A (en) * 1998-08-31 2000-12-05 International Business Machines Corporation Deferred correction file transfer for updating a speech file by creating a file log of corrections
US6185535B1 (en) * 1998-10-16 2001-02-06 Telefonaktiebolaget Lm Ericsson (Publ) Voice control of a user interface to service applications
US6275803B1 (en) * 1999-02-12 2001-08-14 International Business Machines Corp. Updating a language model based on a function-word to total-word ratio
US6195636B1 (en) * 1999-02-19 2001-02-27 Texas Instruments Incorporated Speech recognition over packet networks
WO2000058946A1 (en) * 1999-03-26 2000-10-05 Koninklijke Philips Electronics N.V. Client-server speech recognition
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6463413B1 (en) * 1999-04-20 2002-10-08 Matsushita Electrical Industrial Co., Ltd. Speech recognition training for small hardware devices
US6360201B1 (en) * 1999-06-08 2002-03-19 International Business Machines Corp. Method and apparatus for activating and deactivating auxiliary topic libraries in a speech dictation system
JP2001013985A (ja) 1999-07-01 2001-01-19 Meidensha Corp 音声認識システムの辞書管理方式
US6484136B1 (en) * 1999-10-21 2002-11-19 International Business Machines Corporation Language model adaptation via network of similar users
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
JP3728177B2 (ja) * 2000-05-24 2005-12-21 キヤノン株式会社 音声処理システム、装置、方法及び記憶媒体
JP2003036088A (ja) * 2001-07-23 2003-02-07 Canon Inc 音声変換の辞書管理装置
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210075815A (ko) * 2019-12-13 2021-06-23 주식회사 소리자바 음성 인식 힌트 적용 장치 및 방법

Also Published As

Publication number Publication date
FR2820872A1 (fr) 2002-08-16
CN1491412A (zh) 2004-04-21
ES2291440T3 (es) 2008-03-01
EP1362343A1 (fr) 2003-11-19
JP4751569B2 (ja) 2011-08-17
MXPA03007178A (es) 2003-12-04
DE60222093D1 (de) 2007-10-11
EP1362343B1 (fr) 2007-08-29
CN1228762C (zh) 2005-11-23
KR100908358B1 (ko) 2009-07-20
DE60222093T2 (de) 2008-06-05
WO2002065454A1 (fr) 2002-08-22
FR2820872B1 (fr) 2003-05-16
US20050102142A1 (en) 2005-05-12
US7983911B2 (en) 2011-07-19
JP2004530149A (ja) 2004-09-30

Similar Documents

Publication Publication Date Title
KR100908358B1 (ko) 음성 인식을 위한 방법, 모듈, 디바이스 및 서버
US11437041B1 (en) Speech interface device with caching component
CN110473531B (zh) 语音识别方法、装置、电子设备、系统及存储介质
KR101183344B1 (ko) 사용자 정정들을 이용한 자동 음성 인식 학습
CN1667700B (zh) 把字的语音或声学描述、发音添加到语音识别词典的方法
US7412387B2 (en) Automatic improvement of spoken language
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
EP0965978B1 (en) Non-interactive enrollment in speech recognition
KR101247578B1 (ko) 자동 음성 인식 음향 모델들의 적응
CN110047481B (zh) 用于语音识别的方法和装置
WO2000049599A1 (fr) Traducteur de sons vocaux, procede de traduction de sons vocaux et support d'enregistrement sur lequel est enregistre un programme de commande de traduction de sons vocaux
JP5149107B2 (ja) 音響処理装置およびプログラム
US7076422B2 (en) Modelling and processing filled pauses and noises in speech recognition
JP5271299B2 (ja) 音声認識装置、音声認識システム、及び音声認識プログラム
WO2023109129A1 (zh) 语音数据的处理方法及装置
JP4689032B2 (ja) シンタックス上の置換規則を実行する音声認識装置
US20030105632A1 (en) Syntactic and semantic analysis of voice commands
US7206738B2 (en) Hybrid baseform generation
Odell et al. Architecture, user interface, and enabling technology in Windows Vista's speech systems
JP2001013992A (ja) 音声理解装置
Nguyen et al. Progress in transcription of Vietnamese broadcast news
Ju et al. Spontaneous Mandarin speech understanding using Utterance Classification: A case study
GB2465384A (en) A speech recognition based method and system for retrieving data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130620

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150619

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160616

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170616

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190711

Year of fee payment: 11