KR20030076661A

KR20030076661A - 음성 인식을 위한 방법, 모듈, 디바이스 및 서버

Info

Publication number: KR20030076661A
Application number: KR10-2003-7010428A
Authority: KR
Inventors: 수프레프레데릭; 따쟁누르-에댕
Original assignee: 톰슨 라이센싱 소시에떼 아노님
Priority date: 2001-02-13
Filing date: 2002-02-12
Publication date: 2003-09-26
Also published as: FR2820872A1; CN1491412A; ES2291440T3; EP1362343A1; JP4751569B2; MXPA03007178A; DE60222093D1; EP1362343B1; CN1228762C; KR100908358B1; DE60222093T2; WO2002065454A1; FR2820872B1; US20050102142A1; US7983911B2; JP2004530149A

Abstract

본 발명은, 적어도 하나의 단말(114)에서 구현되는 음성 인식 방법으로서, 이 음성 인식 방법은, 언어 모델(311)을 사용하여,

- 하나의 단말에서 적어도 하나의 미인식된 표현을 검출(502)하는 단계와,

- 상기 미인식된 표현(309)을 나타내는 데이터를 단말에 리코드(503)하는 단계와,

- 상기 리코드된 데이터를 단말에 의해 리모트 서버(116)로 송신(603)하는 단계와,

- 상기 리모트 서버의 레벨에서 상기 데이터를 분석(803)하며 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성(805)하는 단계와,

- 상기 미인식된 표현의 적어도 특정 표현을 차후 인식 가능하게 하기 위하여, 상기 정정 정보를 상기 서버로부터 적어도 하나의 단말(114, 117, 118)로 송신 (806)하는 단계

를 포함하는 음성 인식 방법에 관한 것이다.

또한 본 발명은 대응하는 모듈, 디바이스(102), 및 리모트 서버(116)에 관한 것이다.

Description

음성 인식을 위한 방법, 모듈, 디바이스 및 서버{METHOD, MODULE, DEVICE AND SERVER FOR VOICE RECOGNITION}

정보 또는 제어 시스템은 음성 인터페이스의 사용을 더욱 더 증가시켜 더 신속하며 및/또는 보다 직관적으로 유저와 상호작용 가능하게 한다. 이들 시스템이 훨씬 더 복잡해지고 있으므로, 음성 인식 면에서의 요구조건도 인식 범위(매우 많은 어휘)와 인식 속도(실시간 인식) 모두에 관해 훨씬 더 고려해야 한다.

언어 모델(응용 어휘의 주어진 워드가 문장의 시간적 순서에서 다른 워드나 워드의 그룹의 다음에 위치할 확률)과 음성 유닛의 사용에 기초한 음성 인식 방법은 이 기술 분야에 알려져 있다. 이들 기술은 특히 1997년에 MIT 출판사에서 발행한 프레드릭 제리넥(Frederik Jelinek)의 "음성 인식을 위한 통계적 방법 (Statistical methods for speech recognition)" 논문에 기술되어 있다.

이들 기술은, 대표적인 음성 샘플(예를 들어 명령을 입력하는 단말의 유저의 집단(population)으로부터 나오는 샘플)로부터 생성된 언어 모델과 음성 유닛에 의존하고 있다.

실제, 언어 모델은 시스템의 유저에 의해 통상 사용되는 발언 스타일 (speaking style)과 특히 자기의 "결점", 즉 말더듬(hesitation), 잘못된 시작 (false start), 마음의 변화(change of mind) 등을 고려하여야만 한다.

널리 사용되고 있는 언어 모델의 품질은 음성 인식의 신뢰성에 크게 영향을 미친다. 이 품질은 언어 모델의 혼란(perplexity)이라고 부르는 지수(index)로 종종 측정되는데, 이 지수는 개략적으로 시스템이 각 디코딩된 워드에 대해 취해야 하는 선택의 수를 나타내는 것이다. 이 혼란이 낮으면 낮을수록, 품질은 더 우수하게 된다.

언어 모델은 음성 신호를 워드의 문자 열(textual string)로 변환하는데 필요하며, 이 단계는 다이알로그 시스템(dialogue system)에 의해 종종 사용된다. 이후, 질문에 답을 하기 위해 질문을 이해할 수 있게 하는 이해 로직(comprehension logic)을 구성하는 것이 필요하다.

많은 어휘의 언어 모델을 생성하는 데에는 2가지 표준 방법이 있다:

대부분 흔히 바이그램(bigram) 또는 트라이그램(trigram)을 사용하는, 소위 N-그램 통계적 방법(statistical method)은, 문장 내에 워드의 발생 확률이 문장의 나머지 문맥에 상관없이 그 워드에 선행하는 N개의 워드에만 의존하는 것으로 가정하고 있다.

만일, 1000개의 워드의 어휘에 대해 트라이그램의 예를 가지면, 언어 모델을 한정하기 위해 1000³의 확률을 한정할 필요가 있게 되는데, 이것은 불가능하다. 그러므로 이 워드는 모델 디자이너에 의해 명시적으로 한정되거나 또는 자기 구성 방법으로 추론되는 세트로 그룹화된다.

그리하여 이 언어 모델은 텍스트 언어자료로부터 자동적으로 구성된다.

이 타입의 언어 모델은, 그 궁극적인 기능이 임의의 이해 단계도 필요없이 음성 신호를 텍스트로 변환하는 것인 음성 명령 시스템에 주로 사용된다.

2번째 방법은, 개연적 문법, 전형적으로 소위 배커스 나우르 폼 즉 BNF (Backus Naur Form)로 기술되는 룰 세트에 의하여 한정된 문맥없는 문법(context-free grammer), 또는 이 폼을 문맥상의 문법으로 연장한 문법에 의하여 구문 (syntax)을 기술하는 것이다. 문법을 기술하는 룰은 대부분 흔히 손으로 기록된다. 이 타입의 언어 모델은, 음성 인식 단계 후에 어플라이언스를 제어하는 단계 또는 데이터베이스 내 정보를 검색하는 단계가 따라오는 명령 및 제어 응용(command and control application)에 적합하다.

응용의 언어 모델은 인식하는데 응용을 요구하는 표현(예를 들어 문장)의 세트를 기술한다. 종래 기술의 단점은, 만일 언어 모델의 품질이 불량한 경우, 인식 시스템이 음향-음성 디코딩 레벨(acoustico-phonetic decoding level)에서 매우 잘 수행되더라도, 이 음성 시스템은 특정 표현에 대해서는 평범한 성능(mediocre performance)을 가질 수 있다는 것이다.

이 확률적인 타입의 언어 모델은, 적절히 말하면, 언어 모델 내에 있는 표현과 외부에 있는 표현에 대한 명확한 정의를 갖지 않는다. 특정 표현은 단지 다른 표현에 비해 선험적으로 더 높은 발생 확률을 가지고 있다.

개연적인 문법 타입의 언어 모델은 언어 모델에 속하는 표현과 언어 모델 외부에 있는 표현 사이에 명확한 차이를 보여준다. 그리하여 이들 모델에서는, 사용되고 있는 음성 모델의 품질에 상관없이, 전혀 인식될 수 없는 표현이 존재하게 된다. 이들은 일반적으로 개발된 시스템의 응용 분야 외의 의미를 가지거나 또는 전혀 의미를 가지지 않는 표현들이다.

개연적인 타입의 언어 모델과 그 파생 모델은 명령 및 제어 응용에 보다 효과적인 것으로 밝혀져 있다. 이들 문법은 종종 손으로 기록되며, 다이알로그 시스템의 개발의 주요 어려움 중 하나는 우수한 품질의 언어 모델을 제공하는 것이다.

특히, 문법 타입의 모델에 관한 한, 많은 집단(예를 들어 대량 판매되는 어플라이언스를 위한 리모트 콘트롤의 경우)에 의해 언어가 사용되기 쉬운 경우에 특히 그 언어를 구체적으로 한정하는 것이 가능하지 않을 수 있다. 모든 가능한 표현과 구의 말투(turns of phrase)(형식적 언어에서부터 속어에 이르기까지) 및/또는 문법의 오류 등을 고려하는 것이 가능하지 않을 수 있다.

본 발명은 음성 인터페이스 분야에 관한 것이다.

보다 상세하게는, 본 발명은 음성 인식을 사용하여 단말에서 언어 모델 (language model) 및/또는 음성 유닛(phonetic unit)의 최적화에 관한 것이다.

도 1 은 본 발명의 기술이 구현될 수 있는 음성 제어 박스를 포함하는 시스템의 전체 개략도.

도 2 는 도 1의 시스템의 음성 인식 박스의 개략도.

도 3 은 도 2의 개략도를 구현하는 음성 인식 박스의 전자 도면.

도 4 는 도 1의 시스템의 서버의 개략도.

도 5 는 도 2의 인식 엔진으로 구현되는, 미인식된 표현에 관한 데이터를 리코드하며 표현을 테스트 하는 방법의 흐름도.

도 6 은 도 2의 거부 모듈에 의해 구현되는, 미인식된 표현에 관한 데이터를 송신하는 방법의 흐름도.

도 7 은 도 2의 언어 모델을 로딩하기 위한 모듈에 의해 구현되는, 정정 데이터를 수신하는 방법의 흐름도.

도 8 은 도 4의 리모트 서버에서 구현되는, 정정 데이터를 수신 및 처리하는방법의 흐름도.

본 발명은, 시스템에 의해 인식되지 못한 표현의 리코딩에 기초하여, 언어 모델을 원격적으로 수정 및 개선할 수 있게 하는 음성 인식 방법 및 시스템에 관한 것이다.

보다 구체적으로, 본 발명의 주제는, 적어도 하나의 단말에서 구현되는 음성 인식 방법으로서, 상기 음성 인식 방법은, 언어 모델을 사용하여,

- 하나의 단말에서 적어도 하나의 미인식된 표현을 검출하는 단계와,

- 상기 미인식된 표현을 나타내는 데이터를 단말에 리코딩하는 단계와,

- 제 1 송신 채널을 통해, 상기 리코드된 데이터를 리모트 서버로 단말에 의해 송신하는 단계와,

- 상기 리모트 서버의 레벨에서, 상기 데이터를 분석하며 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성하는 단계와,

- 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식하도록 하기 위해, 제 2 송신 채널을 통해 상기 정정 정보를 상기 서버로부터 적어도 하나의 단말로 송신하는 단계

를 포함하는 것을 특징으로 하는 음성 인식 방법에 있다.

따라서, 본 발명은, 정정 정보를 생성하는 중요한 자원(예를 들어, 사람 및/또는 연산 능력)을 리모트 서버에 갖춰 놓고 국부적으로 미인식된 표현의 함수로서 음성 인식을 가능하게 하는 여러 요소를 업데이트할 수 있는, 음성 인식에 대한 전적으로 새롭고 진보적인 접근법에 의존한다.

여기서 이 언어 모델은,

- 엄격한 의미(strict sense)의 언어 모델(이것은, 예를 들어, 인식 주제인 데이터가 순수하게 텍스트 타입일 때 그러하다)과;

- 엄격한 의미의 하나 이상의 언어 모델과 음성 유닛의 하나 이상의 세트로 형성된 모델(이것은 특히 음성 샘플에 적용된 음성 인식의 일반적인 경우에 해당한다)

을 포함하는 것을 특징으로 한다.

본 발명은 어휘의 단순한 업데이트를 넘어 진행된다. 구체적으로, 어휘 내의 표현의 특징을 갖는 모든 워드가 단말의 언어 모델에 의해 사용되었다하더라도, 이 표현이 인식되지 못할 수도 있다는 것이다. 언어 모델 자체의 업데이트만이 이 표현이 차후 인식될 수 있게 할 수 있다. 언어 모델이 유도되는 정보 아이템 중 하나인 어휘의 업데이트로는 충분치 않다.

여기에서, 그 표현은 넓은 의미에서 취해진 것이며 단말과 그 유저 사이에 상호작용을 가능하게 하는 임의의 구두 표현(vocal expression)에 관련된 것이다. 표현(또는 말)은, 특히, 문장(sentence), 구(phrase), 분리 또는 비분리된 워드 (isolated or non-isolated word), 단말에 지정된 코드 워드(code word), 지시, 명령 등을 포함한다.

정정 정보는, 단말 내에 있는 요소를 삭제, 대체, 또는 추가함으로써 각 단말에 존재하는 음성 유닛 및/또는 언어 모델의 부분적 또는 완전한 수정을 가능하게 하는 정보를 특히 포함할 수 있다.

서버는 각 단말로부터 데이터를 수신할 수 있어, 이에 의해 각 단말은 데이터 송신 단말과 또한 다른 모든 단말에 존재하는 음성 유닛 및/또는 언어 모델을 개선시킬 수 있게 되며, 여기서 각 단말은 모든 단말로부터 서버에 의해 획득한 공유 경험(shared experience)으로부터 이익을 얻는다.

이리하여, 본 발명은, 특정 유저에 지정된 언어 스타일이나 구의 말투, 예를 들어, "8pm" 또는 "저녁 8시"가 아닌 표현, 즉 구현되는 언어 모델의 구성 동안 제공되지 않았던 표현인 "저녁 8pm"(선험적으로 상상하기 어려운 용어)을 참작할 수도 있다.

나아가, 본 발명은 현용 언어(living language)의 진화(새로운 구의 말투 또는 표현 등)도 참작한다.

본 발명은 개연적인(probabilistic) 문법 타입의 언어 모델과 확률적 (stochastic) 타입의 언어 모델에 동일하게 잘 적용된다는 것이 주목된다. 본 발명이 확률적 타입의 언어 모델에 적용될 때, 인식에 영향을 미치는 매우 많은 정정 데이터가 일반적으로 존재하는 반면, 개연적인 문법 타입의 모델에 대해서는 정정 데이터가 거의 없을 수 있고 또한 인식의 효과와 신뢰성에 상당한 영향력을 가질 수 있다.

특정 특성에 따라, 본 방법은 미인식된 표현을 나타내는 데이터가 음향 신호를 기술하는 파라미터를 나타내는 압축된 음성 리코딩을 포함하는 것을 특징으로 한다.

따라서, 본 발명은 리모트 서버로 송신되는 데이터의 양을 제한하면서도 서버 레벨에서 정교한 분석을 위해 소스로 송신된 음성 데이터를 유리하게 고려할 수 있도록 한다.

특정 특성에 따라, 본 방법은, 단말에 의해 송신되는 단계 동안, 단말은,

- 어느 표현이 인식되지 못하였을 때 음성 인식 방법의 사용에 대한 문맥 정보와,

- 미인식된 표현을 말한 화자에 관한 정보

를 포함하는 그룹의 부분을 형성하는 정보 중 적어도 하나의 아이템을 서버로 더 송신하는 것을 특징으로 한다.

그리하여, 원격적으로 수행될 수 있는 단말에 의해 인식되지 못한 표현의 음성 인식이 용이해지게 된다.

나아가, 미인식된 표현의 콘텐츠의 유효성 체크(check of the validity)가 문맥의 함수로서 수행될 수 있다(예를 들어, "송신 리코드" 명령은 이 명령이 보내진 단말이 비디오 리코더일 때는 의미를 가지며 따라서 유효하지만 모바일 전화인 경우에는 의미를 가지지 않는다).

특정 특성에 따라, 본 방법은 암호화 및/또는 리코드된 데이터 및/또는 정정 정보의 스크램블링을 구현하는 것을 특징으로 한다.

따라서, 데이터는 효과적으로 안전하게 만들어지며 기밀로 유지된다.

이 정보는 또한 언어 모델을 사용하는 음성 인식 모듈에 관한 것으로서,

- 미인식된 표현을 검출하는 분석기와,

- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드하는 리코더와,

- 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,

- 모듈에 의해 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록, 정정 모듈로 송신된 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 리모트 서버의 레벨에서 상기 데이터를 분석한 후 그리고 미인식된 표현 중 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성한 후 상기 정정 정보가 리모트 서버에 의해 송신되는, 수신기

를 포함하는 것을 특징으로 하는 음성 인식 모듈에 관한 것이다.

본 발명은 또한 언어 모델을 사용하는 음성 인식 디바이스에 관한 것으로서,

- 미인식된 표현을 검출하는 분석기와,

- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드 하는 리코더와,

- 디바이스에 의해 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록 디바이스로 송신된 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 리모트 서버의 레벨에서 상기 데이터를 분석한 후 그리고 미인식된 표현 중 적어도 하나의 부분을 고려하여 언어 모델을 정정하기 위한 정보를 생성한 후 상기 정정 정보가 리모트 서버에 의해 송신되는, 수신기

를 포함하는 것을 특징으로 하는 음성 인식 디바이스에 관한 것이다.

본 발명은 또한 언어 모델을 사용하여 적어도 하나의 리모트 단말의 세트에서 인식이 구현되는 음성 인식 서버에 관한 것으로서, 다음의 수단, 즉

- 적어도 하나의 리모트 단말의 세트의 부분을 형성하며 그리고 음성 인식 동작 동안 미인식된 표현을 검출한, 적어도 하나의 단말에 의해 미인식된 적어도 하나의 표현을 나타내는 데이터를 수신하는 수신기와,

- 서버의 레벨에서 수신된 데이터의 분석에 기초하여 획득된 정정 정보를 적어도 하나의 리모트 단말의 세트로 송신하는 송신기로서, 상기 정정 정보는 상기 세트의 각 단말에 의해 미인식된 표현의 적어도 하나의 부분을 차후 인식 가능하게 하도록 언어 모델의 정정을 가능하게 하는, 송신기

를 포함하는 것을 특징으로 하는, 음성 인식 서버에 관한 것이다.

음성 인식 모듈, 디바이스, 및 서버의 특정 특성 및 잇점은 음성 인식 방법의 특성 및 잇점과 유사하므로, 이들의 특성과 잇점은 여기에서는 재기술하지 않는다.

본 발명의 다른 특성과 잇점은 단지 비제한적인 예시적인 예에 의하여 주어지는 바람직한 실시예와 첨부 도면에 관한 이후 상세한 설명을 판독할 때 보다 명확하게 밝혀질 것이다.

따라서 본 발명의 일반적인 원리는, 음성 인식 방법이 특히 리모트 서버가 필요하다고 간주할 때 리모트 서버에 의해 업데이트될 수 있는 음성 유닛의 세트 및/또는 언어 모델을 사용하는, 단말에서 구현되는 음성 인식에 의존한다.

일반적으로, 각 단말은 화자에 의해 구성된 표현(예를 들어, 문장이나 명령)을 인식하여 대응하는 조치를 수행할 수 있다.

그럼에도 불구하고, 사람에게 완전히 이해가능한 특정 표현이 음성 인식을 구현하는 디바이스나 모듈에 의해서는 인식되지 못하는 일이 종종 발견된다.

인식을 못하는 이유로는 여러 원인, 즉

- 언어 모델의 부분을 형성하지 않는 화자에 의해 사용되는 어휘와,

- (예를 들어, 액센트가 있는) 특정 발음(pronunciation)과,

- 음성 인식 디바이스나 모듈에 의해 제공되지 않는 특정 구의 말투(turn)와,

- 등

이 있을 수 있다.

구체적으로, 언어 모델과 음성 유닛의 세트는 전형적인 집단에 의해 관습적으로 사용되는 표현의 샘플, 즉 특정 어휘의 워드, 발음, 및/또는 전에는 고려되지 않은(그리고 고려할 수 없었던) 구의 말투를 고려하여 통계적 데이터에 기초하여 종종 구성된다.

본 발명은 음성 인식 디바이스나 모듈에 의해 미인식된 표현을 먼저 검출하는 것에 의존한다.

어느 표현이 인식되지 못하였을 때, 단말은 미인식된 표현을 리모트 서버로 송신하기 위하여 미인식된 표현에 해당하는 신호를 나타내는 데이터를 리코딩한다(예를 들어, 그 표현의 음성 디지털 리코딩과 같이).

단말의 세트로부터 미인식된 표현을 중앙 집중시키는 리모트 서버의 레벨에서, 인간인 오퍼레이터는 이 미인식된 표현을 분석할 수 있다.

이 미인식된 표현 중 특정 표현은 이해 불가능 및/또는 사용불가능인 것으로 밝혀질 수 있으며 그러면 버려지게 될 것이다.

한편, 다른 표현들은, (만일 오퍼레이터가 유용하다고 생각하면) 사람/기계 연결을 통해 단말에 의해 지금까지 미인식된 이들 표현을 서버에서 이해할 수 있는 코드로 "번역"할 수 있는 오퍼레이터에게 완전히 이해될 수 있을 것이다.

서버는 언어 모델 및/또는 음성 유닛 세트를 정정하기 위한 정보를 생성하기 위해 이들 표현과 그 번역문과 함께 고려할 수 있다.

여기서 정정은,

- 모델의 수정 및/또는

- 모델의 보완

으로서 이해되는 것을 주목하여야 한다.

이후 서버는 각 단말에 이 정정 정보를 송신하며, 각 단말은 스스로 또는 다른 단말에 의해 인식되지 못한 다수의 표현으로 차 있는 그 언어 모델 및/또는 음성 유닛 세트를 업데이트할 수 있다.

이리하여, 각 단말의 음성 인식은 모든 단말이 공유하는 경험으로부터 유익을 얻음으로써 개선된다.

본 발명의 특정 모드에 따라, 분석은 오퍼레이터에 의해 수행되는 것이 아니라 단순한 단말보다 임의대로 훨씬 더 많은 자원을 가질 수 있는 서버에 의해 수행된다.

특정 실시예에 따라, 단말은 미인식된 표현에 해당하는 신호를 나타내는 데이터와 함께 서버 문맥 데이터(예를 들어, 시간, 날짜, 음성 명령이 실패한 후 수동으로 또는 구두로 수행되는 제어, 위치, 단말 타입, 등)를 송신한다.

이것은 오퍼레이터 및/또는 서버의 분석 작업을 용이하게 할 수 있다.

본 발명의 기술이 구현될 수 있는 음성 제어 박스를 포함하는 시스템의 전체 개략도가 도 1과 연계하여 묘사되어 있다.

본 시스템은,

- 사람인 오퍼레이터(122)에 의해 제어되는 리모트 서버(116)와,

- 복수의 유저 시스템(114, 117 및 118)

을 특히 포함한다.

리모트 서버(116)는 통신 다운링크(115, 119 및 120)를 통해 각 유저 시스템 (114, 117 및 118)에 각각 링크된다. 이들 링크는 영구적이거나 임시적인 것일 수 있으며 이 기술 분야에 숙련된 사람에게 잘 알려져 있는 임의의 타입일 수 있다. 이들 링크는 특히 방송 타입일 수 있으며 그리고 TV에 의해 사용되는 RF, 위성 또는 유선 채널이나 예를 들어, 인터넷 타입 링크와 같은 임의의 다른 타입에 기초할 수 있다.

도 1 은 통신 업링크(121)를 통해 서버(116)에 링크된 유저 시스템(114)을 특히 기술한다. 이 링크도 마찬가지로 이 기술 분야에 숙련된 사람에게는 잘 알려진 임의의 타입(특히 전화, 인터넷 등)일 수 있다.

유저 시스템(114)은

- 화자에 의해 발생된 음성 신호를 픽업하기 위한 마이크로폰으로 특히 구성될 수 있는 음성 소스(100)와,

- 음성 인식 박스(102)와,

- 어플라이언스(107)를 구동하기 위한 제어 박스(105)와,

- 예를 들어 TV, 비디오 리코더 또는 모바일 통신 단말 타입의 제어되는 어플라이언스(107)

- 미인식된 것으로 검출된 표현을 저장하기 위한 유닛(109)과,

- 서버(116)에 대해 업워드(upward) 및 다운워드(downward) 통신을 가능하게 하는 인터페이스(112)

를 특히 포함한다.

소스(100)는 링크(101)를 통해 음성 인식 박스(102)에 링크되며, 이 링크 (101)는 소스(100)가 음성 신호를 나타내는 아날로그 소스의 음파를 박스(102)로 송신할 수 있게 한다.

박스(102)는 링크(104)를 통해 문맥 정보(104){예를 들어, 제어 코드의 리스트 또는 제어 박스(105)에 의해 제어될 수 있는 어플라이언스(107)의 타입과 같은 정보}를 검색하며 링크(103)를 통해 제어 박스(105)에 명령을 송신할 수 있다.

제어 박스(105)는, 박스(102)가 자기의 언어 모델과 사전(dictionary)에 따라 인식하는 정보 함수로서, 예를 들어, 적외선과 같은 링크(106)를 통해 명령을 어플라이언스(107)로 송신한다.

제어 박스(105)는 박스(102)가 인식하지 못한 표현을 검출하며 그리고 이들 표현을 단순히 거부하는 대신에 미인식 신호를 송신함으로써, 박스(102)는 링크 (108)를 통해 이들 표현을 저장 유닛(109)으로의 리코딩을 수행한다.

미인식된 표현을 저장하기 위한 유닛(109)은 링크(111)를 통해 인터페이스 (112)로 대표적인 데이터를 송신하며, 인터페이스(112)는 이 데이터를 링크(121)를 통해 서버(116)로 중계한다. 올바른 송신 후에, 인터페이스(112)는 저장 유닛(109)으로 신호(110)를 송신할 수 있으며, 이 저장 유닛(109)은 이후 송신된 데이터를 소거할 수 있다.

제어 박스(105)는, 인터페이스(112)가 링크(115)를 통해 리모트 서버로부터 수신한 정정 데이터를 링크(113)를 통해 인터페이스(112)로부터 더 수신한다. 이들 정정 데이터는 음성 유닛의 세트 및/또는 언어 모델의 업데이트를 위해 제어 박스 (105)에 의해 고려된다.

고려되는 실시예에 따라, 소스(100), 음성 인식 박스(102), 제어 박스(105), 저장 유닛(109), 및 인터페이스(112)는 하나이며 동일한 디바이스의 일부를 형성하며, 따라서 링크(101, 103, 104, 108, 111, 110 및 113)는 이 디바이스 내부의 링크이다. 이 링크(106)는 전형적으로 무선 링크이다.

도 1에 기술되어 있는 본 발명의 제 1 변형 실시예에 따라, 요소(100, 102, 105, 109, 및 112)는 부분적으로 또는 완전히 분리되어 있으며, 하나이며 동일한 디바이스의 일부를 이루지 않는다. 이 경우에, 링크(101, 103, 104, 108, 111, 110, 및 113)는 외부 배선이나 다른 링크이다.

제 2 변형 실시예에 따라, 소스(100), 박스(102 및 105), 저장 유닛(109), 및 인터페이스(112) 뿐만 아니라 어플라이언스(107)는 하나이며 동일한 디바이스의 일부를 형성하며, 내부 버스{링크(101, 103, 104, 108, 111, 110, 113, 및 106)}에 의해 상호 링크된다. 본 변형 실시예는 이 디바이스가 예를 들어 모바일 전화 또는 휴대형 통신 단말인 경우 특히 유익하다.

도 2 는 도 1에 대해 도시되어 있는 박스(102)와 같은 음성으로 제어되는 박스의 개략도를 도시한다.

박스(102)는 외부에서부터 아날로그 소스의 음파(101)를 수신하며, 이 음파 (101)는 음향-음성 디코더(200)(Acoustico-Phonetic Decoder) 즉 APD("프론트 엔드"라고도 부름)에 의해 처리되는 것이 주목된다. 이 APD(200)는, 링크(201)를 통해 인식 엔진(203)으로 송신되는 전형적으로 구술 공명(oral resonance)을 나타내는 코드 북(code book)에 속하는 리얼 벡터(real vector) 즉 벡터를 생성하기 위하여 일정 간격(전형적으로 매 10ms마다)으로 소스 음파(101)를 샘플링한다. APD 는 예를 들어 하이넥 헤르만스키(Hynek Hermansky)에 의해 저술되고 "미국 음향 협회 저널(Journal of the Acoustical Society of America)" Vol. 97, No4, 1990년,1738-1752페이지에 발행된 논문 "음성 지각의 선형 예측 분석(Perceptual Linear Prediction (PLP) analysis of speech)"에 특히 기술되어 있는 PLP("Perceptual Linear Prediction")에 기초를 두고 있다.

사전(202)의 도움으로, 인식 엔진(203)은 특히 숨은 마르코브 모델(hidden Markov model) 즉 HMM 및 언어 모델(하나의 워드가 다른 워드에 따라 나올 확률을 나타내는 모델)을 사용하여 인식 엔진(203)이 수신하는 리얼 벡터를 분석한다. 인식 엔진은 특히 프레데릭 제리넥(Frederick Jelinek)에 의해 저술되고 MIT 출판사에 의해 1997년 출판된 책 "통계적 음성 인식 방법(Statistical Methods for Speech Recognition)"에 상세하게 기술되어 있다.

언어 모델에 의해 (특히 숨은 마르코브 네트워크를 사용할 수 있는) 인식 엔진(203)은 어느 워드가 주어진 응용에서 화자에 의해 사용가능한 임의의 표현의 정해진 워드를 따라 갈 수 있는지를 결정할 수 있고 관련 확률을 제공할 수 있다. 관련 워드는 언어 모델에 상관없이 소(小) 사이즈(전형적으로 10 내지 300 워드) 또는 대(大) 사이즈(예를 들어, 300 000 워드보다 더 큰 사이즈)일 수 있는 응용의 어휘에 속한다.

톰슨 멀티미디어(Thomson Multimedia)의 이름으로 출원된 1999년 11월 29일자 특허 출원 PCT/FR00/03329는 복수의 구문 블록(syntactic block)을 포함하는 언어 모델을 기술한다. 본 특허 출원의 주제인 본 발명의 사용은 모듈이 독립적으로 업데이트될 수 있어 과도하게 많은 양의 파일을 다운로드하는 것을 피할 수 있게 하므로, 이 타입의 모듈 언어 모델과 연관하여 특히 유리하다.

언어 모델은 언어 모델 로딩 모듈(207)에 의해 송신된다. 이 모듈(207)은 링크(113)를 통해 서버로부터 송신된 언어 모델을 수신하며, 서버로부터 송신된 음성 유닛 및/또는 언어 모델의 업데이트 또는 정정 데이터를 수신한다.

사전(202)은 이 사전으로부터 워드를 참조하여 언어 모델에 속하는 것이 주목된다. 그리하여, 이 사전(202)은 모듈(207)에 의해 로딩된 언어 모델을 통해 업데이트 및/또는 정정될 수 있다.

비터비 알고리즘(Viterbi algorithm)의 사용에 기초하는 인식 동작을 구현한 후, 인식 엔진(203)은 발성된 표현에 대한 베스트 스코어를 나타내는 언어 모델에 따른 워드 열의 순서 리스트를 거부 모듈(211)에 공급한다.

거부 모듈(211)은 인식 엔진(203)의 다운스트림에서 동작하며 이하의 원리 중 하나의 원리에 따라 동작한다:

- 때때로, 비터비 알고리즘에 특정된 이유로서, 비터비 알고리즘은 그 스코어가 너무 낮아 산술 연산 면에서 볼 때 기계의 허용가능한 정확도의 한계를 초과하기 때문에, 일관적인 리스트를 생성하지 못할 수 있다. 그러므로, 일관된 완전한 안이 존재하지 못한다. 따라서, 거부 모듈(211)이 미리 결정된 허용가능한 한계 아래에 있는 하나 이상의 스코어를 검출할 때 이 표현은 거부된다.

- 비터비 알고리즘에 의해 연산된 리스트의 각 요소는, 관련된 스코어가 언어 모델에 따라 모든 가능한 표현의 최고의 상대 스코어 중에 있었기 때문에, 간직되어왔다. 추가적으로, 이들 표현 각각과 연관된 마르코브 네트워크에 의해, 관측된 스코어와 연관된 표현을 생성하는 관련 네트워크의 고유(intrinsic) 확률을 평가할 수 있다. 이 거부 모듈(211)은 이 확률을 분석하며, 만일 이 확률이 허용가능한 확률의 미리 결정된 임계치보다 적으면 이 표현은 거부된다.

- 다른 방법에 따라, 비터비 알고리즘을 통해 획득된 최상의 안에 대해 거부 모듈(211)은 비터비 개발 과정에서 고려되지 못했던 기준을 사용하여 이 표현의 보완 처리를 수행한다. 예를 들어, 거부 모듈은, 발성되어야 하는 신호 부분이 모음 (vowel)과 연관되어 있기 때문에 발성되어야 하는 이들 신호 부분이 실제로 그런지를 체크한다. 만일 발의된 표현이 이들 조건을 충족하지 못하는 경우에는 이 표현은 거부된다.

거부 모듈(211)이 앞서 예시된 바와 같이 어느 표현을 거부하면, 이 표현은 미인식된 것이라 하게 되며 그리고 거부된 표현을 나타내는 신호는 인식 엔진(203)으로 송신된다. 동시에, 거부 모듈은 링크(108)를 통해 저장 유닛(109)으로 미인식된 표현의 리코딩을 송신한다.

인식 엔진(203)은 음성 샘플의 형태로 APD(200)로부터 나오는 표현을 인식하는 일을 담당한다. 그리하여, 인식 엔진(203)은,

- 사전(202)의 각 워드가 아마도 수 개의 "음성화(phonetizations)"를 가질 수 있는, 마르코브 모델의 형태로 된 워드의 음성 표현(phonetic representation)을 구성하기 위한 음성 유닛과, 동시에

- 더 크거나 또는 더 낮은 복잡도(complexity)의 표현을 인식하기 위한 엄격한 의미의 언어 모델

을 사용한다.

인식 엔진(203)은, 인식된 표현{즉 모듈(211)에 의해 거부되지 않은 표현}과 인식 엔진(203)이 수신된 벡터에 기초하여 식별한 표현을, 이들 표현을 어플라이언스(107)가 이해될 수 있는 명령으로 번역하기 위한 수단(205)으로 공급한다. 이 수단(205)은 하나 이상의 명령(103)을 제어 박스(105)에 송신하기 전에 제어 박스 (105)에 의해 공급된 문맥 정보(104)를 고려하는 인공 지능 번역 방법(artificial intelligence translation process)을 사용한다.

도 3 은 도 1과 연계하여 도시된 바와 같은 도 2의 개략도를 구현하는 음성 인식 모듈 또는 디바이스(102)를 개략적으로 도시한다.

박스(I02)는 어드레스와 데이터 버스에 의해 상호 연결된,

- 음성 인터페이스(301)와,

- 아날로그 디지털 변환기(302)와,

- 프로세서(304)와,

- 비휘발성 메모리(305)와,

- 랜덤 억세스 메모리(306)와,

- 수신 모듈(312)과,

- 송신 모듈(313)과,

- 입력/출력 인터페이스(307)

를 포함한다.

도 3에 도시된 각 요소는 이 기술 분야에 숙련된 사람에게 잘 알려져 있다. 이들 평범한 요소는 여기에 기술되지 않는다.

상세한 설명 전체에 걸쳐 사용되는 워드 "레지스터"는 언급된 각 메모리에서 소 용량의 메모리 영역(수 개의 데이터 비트)과 대 용량의 메모리 영역(전체 프로그램 또는 거래 데이터의 전체 열을 저장할 수 있는 영역) 모두를 지시한다.

비휘발성 메모리(305)(ROM)는 "prog" 레지스터(308)에서 프로세서(304)를 동작시키기 위한 프로그램을 특히 보유한다.

랜덤 억세스 메모리(306)는, 레지스터가 보유하는 데이터와 편의상 동일한 이름을 가지는 레지스터에 있는 데이터, 변수, 및 중간 처리 결과를 간직하며, 이 레지스터는

- 미인식된 표현의 리코딩이 간직되는 레지스터(309)(Exp_Not_Rec)와,

- 미인식된 문장의 카운터(310)(Nb_Exp_Not_Rec)와,

- 레지스터(311) 내의 언어 모델(Model_Language)

를 특히 포함한다.

수신 모듈(312)과 송신 모듈(313)은 리모트 서버(116)로부터 또는 리모트 서버(116)로 데이터를 각각 송신할 수 있게 하는 모듈이다. 수신 및 송신용 유선 또는 무선 기술은 원격통신 기술 분야에서 숙련된 사람에게는 잘 알려져 있으며 더 상세하게 기술되지 않는다.

도 4 는 도 1에 관해 도시된 시스템의 서버(116)를 도시한다.

서버(116)는 임의의 사람/기계 인터페이스(404)(예를 들어, 키보드와 스크린 타입의 인터페이스)를 통해 사람인 오퍼레이터(122)에 의해 제어된다.

서버(116)는

- 수신기(400)와,

- 분석기(401)와,

- 음성 유닛 세트 및/또는 언어 모델의 정정 데이터를 구성하기 위한 모듈 (402)과,

- 송신기(403)

를 특히 포함한다.

수신기(400)는 단말의 송신기(313)와 호환가능하며 그리고 링크(121)를 통해 미인식된 표현과 아마 보완적인 데이터(예를 들어 문맥 데이터)를 나타내는 특정 데이터(에를 들어 리코딩)를 각 단말로부터 수신할 수 있다.

분석기(401)는 링크(121)를 통해 수신기(400)로부터 오는 데이터 세트를 수신하며, 이 분석기(401)는 이 데이터 세트를 인터페이스(404)를 통해 오퍼레이터 (122)로 송신하며, 이 오퍼레이터(122)는, 예를 들어,

- 서버(116) 및 그 제어장치와 대화가능하게 하는 스크린과 키보드가 장착되며,

- 미인식된 리코딩을 듣기 위한 스피커나 오디오 헤드셋이 장착된

단말이다.

또한 이 인터페이스(404)에 의해 분석기(401)는,

- 언어 모델에 의해 커버되지 않은 미인식된 표현이 이해불가능한 상태로 남아 있는지, 단말에 대해 응용 내에 의미를 가지지 않는지, 및/또는 단말과 관련되어 있지 않는지(그리하여 이것은 언어 모델에 포함되어서는 아니되는 것이다)와,이 경우, 이 표현은 이후 언어 모델의 정정에 대해 무시되며 분석기(401)에 의해 버려지게 되며,

- 그럼에도 불구하고 미인식된 표현이 엄격한 의미의 언어 모델에 속하는지(이때 이것은 순수 인식 문제를 수반한다)와, 이 경우에 이것은 엄격한 의미의 언어 모델이 아니라 음성 유닛의 수정을 수반하게 되며,

- 오퍼레이터에 의해 어느 표현의 콘텐츠를 식별한 후에 예를 들어 제어 코드 형태로 번역한 것인지와, 여기서 미인식된 표현은 언어 모델에 속하지 않으며 이 표현이 의도하는 단말에 대한 의미를 가지지 않는 것이며, 이후 이것은 엄격한 의미의 언어 모델을 정정하는 것을 수반하는 것이며,

를 나타내는, 오퍼레이터(122)로부터의 정보를 수신할 수 있다.

제 2 및 제 3 솔루션을 조합하는 것도 가능하며, 이 경우에, 이것은 엄격한 의미의 언어 모델과 음성 유닛을 모두 수정하는 것을 수반한다.

본 실시예는 미인식된 표현을 수동으로 처리하는 것에 해당한다. 이 실시예에 따라, 사람인 오퍼레이터(122)는 미인식된 표현을 청취하며 거부 이유의 원인을 분석한다. 오퍼레이터(122)는 특히 이 표현이 언어 모델에 속하는지 아닌지를 결정한다. 이 표현이 언어 모델에 속하는 경우에는, 오퍼레이터는 고유 인식 문제 (intrinsic recognition problem)를 확인하기 위해 표현(인식했어야 하지만 다른 이유, 즉 잡음, 스피커의 액센트 등에 의해 인식하지 못한 언어 모델에 속하는 표현)을 분석한다.

제 1 변형 실시예에 따라, 처리는 자동적이며 사람인 오퍼레이터의 개입은없어지게 된다. 이 경우에, 서버(116)와 특히 분석기(401)는 특히 단말보다도 훨씬 더 클 수 있는 비교적 상당한 연산 능력을 소유한다. 이 변형 실시예에 따라, 분석기(401)는, 예를 들어 더 좋은 언어 모델 및/또는 더 복잡한 음성 모델을 사용하여, 단말에 의해 행해질 수 있는 것보다 더 적절한 방식으로 미인식된 각 표현을 분석한다. (화자의 명령에 빠른 응답 시간을 종종 요구하는) 단말일 수 있는 이러한 엄격한 실시간 연산 요건을 받지 않고, 분석기(401)는 또한 예를 들어, 단말에서보다 더 긴 처리 시간을 요구하는 인식을 허용할 수 있다.

제 2 변형 실시예에 따라, 처리는 반자동이며, 사람인 오퍼레이터의 개입은 분석기에 의해 해결될 수 없는 경우로 제한된다.

서버(116)의 일반적인 구조는 바람직한 실시예에 따라 도 3에 대해 기술된 것과 같은 단말의 것과 유사하게 여기에서 기술되며, 그리고 특히 어드레스와 데이터 버스에 의해 상호 연결된,

- 프로세서와,

- 랜덤 억세스 메모리와,

- 비휘발성 메모리와,

- 적절한 송신 모듈과,

- 수신 모듈과,

- 사람/기계 연결 인터페이스

를 포함한다.

도 2의 인식 엔진(203)에 의해 구현되는, 표현을 테스트하며 미인식된 표현에 관한 데이터의 리코딩의 흐름도를 나타내는 도 5에 따라, 첫 번째 초기화 단계 (500) 동안, 마이크로프로세서(304)는 프로그램(308)의 실행을 시작하며 랜덤 억세스 메모리(306)의 변수를 초기화한다.

이후, 표현 대기 단계(501) 동안, 마이크로프로세서는 화자에 의해 송신된 표현을 기다리며 수신한다.

그 다음에, 테스트(502) 동안, 수신된 표현에 대한 음성 인식 동작을 실행한 후, 이 마이크로프로세서는 이 표현이 도 2의 거부 모듈(211)의 기술에 관해 도시된 하나 이상의 기준에 따라 인식되었는지 또는 인식되지 못했는지를 결정한다.

만약 인식되었다면, 제어 단계(504) 동안, 음성 인식 박스(102)는 수신된 표현에 적용된 음성 인식의 결과를 고려하며 그리고 예를 들어 명령과 같은 적절한 조치를 실행한다.

만약 인식되지 못했다면, 표현을 리코딩하는 단계(503) 동안, 미인식된 표현은 압축되며 도 6에 관해 도시된 리모트 서버(116)로의 송신을 기다리는 저장 유닛 (109)에 리코드된다.

단계(503 또는 504) 중 어느 하나가 완료된 때, 표현을 기다리는 단계(501)가 반복된다.

도 6 은 도 2의 거부 모듈에 의해 구현되는, 미인식된 표현에 관한 데이터의 송신 흐름도를 나타내며, 첫 번째 초기화 단계(600) 동안, 마이크로프로세서(304)는 프로그램(308)의 실행을 시작하며 랜덤 억세스 메모리(306)의 변수를 초기화한다.

이후, 음성 인식 박스(102)에 의해 미인식된 표현을 기다리는 단계(601) 동안, 마이크로프로세서(304)는 미인식된 표현의 리코딩을 기다리며 그후 수신한다.

그 뒤, 단계(602) 동안, 단말(114)은 원격통신의 기술 분야에 숙련된 사람에게 잘 알려진 방법에 따라 리모트 서버(116)로까지 연결한다.

그 다음에, 단계(603) 동안, 미인식된 표현의 리코딩이 이루어지고 리모트 서버(116)로 송신된다.

이후, 단절 단계(604) 동안, 단말은 리모트 서버(116)와 단절되며, 신호는 리모트 서버와의 인터페이스(112)와 표현의 리코딩의 송신을 나타내는 미인식된 표현에 해당하는 데이터를 저장하기 위한 유닛(109) 사이에 송신된다. 이때 이들 표현에 해당하는 데이터는 저장 유닛(109)으로부터 소거된다.

그 다음에 단계(601)가 반복된다.

도 7 은 도 2의 언어 모델을 로딩하기 위한 모듈(207)에 의해 구현되는, 정정 데이터의 수신 흐름도를 나타낸다.

첫 번째 초기화 단계(700) 후에, 단계(701)동안, 단말은 서버(116)에 의해 복수의 단말로 방송되는 정정 데이터를 기다리는 대기 상태에 놓인다.

그 다음에, 단계(702) 동안, 단말은 음성 인식 모듈에 의해 사용되는 음성 유닛 세트 및/또는 언어 모델을 업데이트하기 위하여 정정 데이터를 고려한다. 정정 데이터의 특성에 따라, 이들 데이터는 특히

- 음성 유닛 세트 및/또는 언어 모델 내의 현존하는 데이터를 대체하는 것과,

- 현존하는 데이터를 수정하는 것과,

- 현존하는 데이터를 보완하는 것과, 및/또는

- 현존하는 데이터의 삭제를 수행하는 것

을 할 수 있다.

단계(702)의 수행 후에, 단계(701)가 반복된다.

도 8 은 도 4의 리모트 서버 내에 구현되는, 정정 데이터의 수신 및 처리 흐름도를 나타낸다.

서버의 관리를 위한 프로그램의 유인(instigation)과 파라미터(parameter)를 초기화하는 첫 번째 단계(800) 후에, 서버(116)는 단말{도 6에 대해 도시된 단계 (602)를 수행하는 단말}로부터 유래하는 연결 요청을 기다리는 대기 상태에 놓이며 그리고 원격통신의 기술 분야에 숙련된 사람에게는 잘 알려진 방법에 따라 단말과 연결을 수립한다.

이후 단계(802) 동안, 서버(116)는 전술된 단계(603)를 수행하는 연결된 단말에서부터 유래하는 데이터를 수신한다. 이들 데이터는, 단말에서 구현되는 음성 인식 모듈에 의해 인식되지 못한 것으로 인해, 단말에 의해 거부된 하나 이상의 표현의 리코딩을 특히 포함한다. 모든 데이터가 수신되었을 때, 단말과 서버(116) 사이의 연결이 끊어진다.

그 다음에, 수신된 데이터를 처리하는 단계(803) 동안, 서버(116)는 오퍼레이터(122)에 의해 수동으로 또는 도 4에 대해 도시된 여러 대안에 따라 자동적으로 또는 반자동으로 수신된 표현의 리코딩 각각을 처리한다.

이후, 테스트(804) 동안, 서버(116)는 특히 수신된 하나 이상의 표현이 이해할 수 있었는지 그리고 이 표현 또는 이들 표현을 송신한 단말에 대해 관련된 것인지를 결정한다. 이때는 언어 모델 및/또는 음성 유닛의 업데이트가 필요하다.

만약 아니라면, 대기 단계(801)가 반복된다.

반대의 경우에, 서버(116)는 정정 데이터를 수신한 후에 단말 내에 단계 (607)(앞에서 예시된)를 가능하게 하는 수 개의 형태를 취할 수 있는 언어 모델의 정정 데이터를 구성한다. 이들 정정 데이터는 특히

- 정정의 특성(특히, 대체, 수정, 보완, 또는 삭제)을 지정하는 지시자 (indicator)와,

- 지시자의 함수로서의 정정 데이터

를 포함한다.

언어 모델이 복수의 구문 블록을 포함하면(특히 전술된 특허 PCT/FR00/03329에 기술된 바와 같은 언어 모델의 경우), 각 모듈은 개별적으로 정정될 수 있다는 것을 주의해야 한다. 이 경우에, 정정 데이터는 정정될 모듈이나 모듈들의 지시자를 또한 포함한다.

이후, 단계(806) 동안, 서버(116)는 단계(607)에 따라 음성 유닛 세트 및/또는 그 언어 모델을 업데이트할 수 있는 단말 중 하나 또는 바람직하게는 단말의 세트로 정정 데이터를 방송한다.

이후 단계(801)가 반복된다.

그 절차는 이렇게 반복되며 수 회 반복될 수 있다. 이 절차는 또한 응용이새로운 질문을 추가함으로써 업데이트될 수 있게 한다.

물론, 본 발명은 전술된 예시적인 실시예로 한정되지 않는다.

특히, 이 기술 분야에 숙련된 사람은, 음성 인식 방법을 사용하거나 사용할 수 있는 모듈 및/또는 임의의 타입의 디바이스에 관한 본 발명을 구현하는 단말의 정의를 변경할 수 있다{예를 들어, 멀티미디어 단말, TV, 비디오 리코더, 멀티미디어 디지털 디코더(또는 셋톱박스), 오디오 또는 비디오 장비, 고정형 또는 휴대형 단말 등의 타입}.

마찬가지로. 본 발명은 임의의 타입의 리모트 서버에 관한 것이다(예를 들어, 인터넷 서버, TV 프로그램 방송국에 연결된 장비, 모바일 통신 네트워크에 연결된 장비, 서비스 제공자 장비 등)

나아가, 본 발명에 따라, 미인식된 문장에 해당하는 데이터에 대한 송신 채널과 언어 모델 및/또는 음성 유닛을 정정하기 위한 데이터에 대한 송신 채널은 무엇이든 임의적인 것이며 그리고 특히

- RF 송신 패스웨이(pathway)와,

- 위성 송신 패스웨이와,

- TV 방송 네트워크의 채널과,

- 인터넷 타입 네트워크의 채널과,

- 전화 네트워크의 채널과,

- 모바일 네트워크의 채널과,

- 이동가능한 매체

를 포함한다.

나아가, 본 발명은 미인식된 문장에 뿐만 아니라 예를 들어, 기계와 그 유저 사이의 대화를 가능하게 하는 하나 이상의 문장(sentence), 분리 또는 비분리된 워드(isolated or unisolated word), 구(phrase), 음성 코드(voice code)와 같은 임의의 타입의 구두 표현에 관련된 것이라는 것을 주목하여야 한다. 이들 구술 표현은, 예를 들어, 유저가 기계에 구성 데이터(configuration data), 프로그래밍 데이터(programming data) 등을 송신할 수 있는 정보 데이터로서, 명령 뿐만아니라 기계와 그 유저 사이의 대화 주제를 형성할 수 있는 임의의 타입의 데이터와 연관될 수도 있다.

본 특허에 기술되어 있는 언어 모델을 업데이트하는 방법은 엄격한 의미의 음성 인식 방법 뿐만 아니라 철자의 실수(orthographic mistake) 및/또는 타이핑 실수를 지원하며 또한 이 특허에 기술된 바와 같이 엄격한 의미의 마르코브 모델 (Markovian model) 또는 언어 모델(language model)에 기초하는 텍스트 입력의 인식 방법에도 적용된다는 것을 또한 주목하여야 한다.

본 발명은 순수 하드웨어의 설치로 제한되는 것이 아니라 컴퓨터 프로그램의 지시 열의 형태로 또는 하드웨어 부분과 소프트웨어 부분을 혼합하는 임의의 형태로 또한 구현될 수 있다는 것을 알 수 있을 것이다. 본 발명이 부분적으로 또는 전적으로 소프트웨어 형태로 설치되는 경우에, 해당 지시 열은 이동가능한 저장 수단 (예를 들어, 디스켓, CD-ROM 또는 DVD_ROM과 같은 수단) 내에 저장될 수 있으며 또는 그렇지 않은 경우, 이 저장 수단은 컴퓨터 또는 마이크로프로세서에 의해 부분적으로 또는 전적으로 판독가능하다.

전술한 바와 같이, 본 발명은 음성 인터페이스 분야 등에 이용가능하다.

Claims

적어도 하나의 단말(114)에서 구현되며 언어 모델(311)을 사용하는 음성 인식 방법으로서,

- 상기 단말 중 하나의 단말에서 적어도 하나의 미인식된 표현을 검출(502)하는 단계와,

- 상기 미인식된 표현(309)을 나타내는 데이터를 상기 단말에 리코딩(503)하는 단계와,

- 제 1 송신 채널(121)을 통해, 상기 단말에 의해 상기 리코드된 데이터를 리모트 서버(116)로 송신(603)하는 단계와,

- 상기 리코드된 데이터를 상기 리모트 서버의 레벨에서 분석(803)하며, 그리고 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성(805)하는 단계와,

- 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하기 위하여, 상기 정정 정보를 상기 서버로부터 제 2 송신 채널(115, 119, 120)을 통해 적어도 하나의 단말(114, 117, 118)로 송신(806)하는 단계

를 포함하는 것을 특징으로 하는, 음성 인식 방법.
제 1 항에 있어서, 상기 미인식된 표현(309)을 나타내는 상기 데이터는 음향 신호(acoustic signal)를 묘사하는 파라미터를 나타내는 압축된 음성 리코딩을 포함하는 것을 특징으로 하는, 음성 인식 방법.
제 1 항 또는 제 2 항에 있어서, 상기 단말에 의한 상기 송신 단계 동안, 상기 단말은

- 어느 표현이 인식되지 못하였을 때 상기 음성 인식 방법의 사용에 관한 문맥 정보와,

- 미인식된 표현을 말한 화자에 관한 정보

를 포함하는 그룹 중 일부를 형성하는 정보의 적어도 하나의 아이템을 상기 서버로 더 송신하는 것을 특징으로 하는, 음성 인식 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서, 상기 리코드된 데이터 및/또는 상기 정정 정보의 암호화 및/또는 스크램블링을 구현하는 것을 특징으로 하는, 음성 인식 방법.
언어 모델을 사용하는 음성 인식 모듈(102)로서,

- 미인식된 표현을 검출하는 분석기와,

- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드하는 리코더와,

- 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,

- 상기 모듈에 의해 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록, 상기 모듈에 송신된 상기 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 상기 정정 정보는, 상기 데이터를 상기 리모트 서버의 레벨에서 분석한 후 그리고 상기 미인식된 표현의 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성한 후, 상기 리모트 서버에 의해 송신되는, 수신기

를 포함하는 것을 특징으로 하는, 음성 인식 모듈.
언어 모델을 사용하는 음성 인식 디바이스(102)로서,

- 미인식된 표현을 검출하는 분석기와,

- 적어도 하나의 미인식된 표현을 나타내는 데이터를 리코드하는 리코더와,

- 상기 리코드된 데이터를 리모트 서버로 송신하는 송신기와,

- 상기 디바이스에 의한 상기 미인식된 표현 중 적어도 특정 표현을 차후 인식 가능하게 하도록, 상기 디바이스에 송신된 상기 언어 모델의 정정을 가능하게 하는 정정 정보를 수신하는 수신기로서, 상기 정정 정보는, 상기 데이터를 상기 리모트 서버의 레벨에서 분석한 후 그리고 상기 미인식된 표현 중 적어도 하나의 부분을 고려하여 상기 언어 모델을 정정하기 위한 정보를 생성한 후, 상기 리모트 서버에 의해 송신되는, 수신기

를 포함하는 것을 특징으로 하는, 음성 인식 디바이스.
언어 모델을 사용하여 음성 인식이 적어도 하나의 리모트 단말의 세트에서 구현되는 음성 인식 서버(116)로서,

- 상기 단말 세트의 부분을 형성하고, 음성 인식 동작 동안 상기 미인식된 표현을 검출한 적어도 하나의 단말에 의해 상기 미인식된 적어도 하나의 표현을 나타내는 데이터를 수신하는 수신기와,

- 상기 서버의 레벨에서 수신된 상기 데이터의 분석에 기초하여 획득된 정정 정보를 적어도 하나의 리모트 단말의 상기 단말 세트로 송신하는 송신기로서, 상기 정정 정보는 상기 단말 세트의 각 단말에 의해 상기 미인식된 표현의 적어도 하나의 부분을 차후 인식 가능하게 하도록 상기 언어 모델의 정정을 가능하게 하는, 송신기

를 포함하는 것을 특징으로 하는, 음성 인식 서버.