KR20080088490A - 다언어 이국 음성 인식 - Google Patents
다언어 이국 음성 인식 Download PDFInfo
- Publication number
- KR20080088490A KR20080088490A KR1020080028820A KR20080028820A KR20080088490A KR 20080088490 A KR20080088490 A KR 20080088490A KR 1020080028820 A KR1020080028820 A KR 1020080028820A KR 20080028820 A KR20080028820 A KR 20080028820A KR 20080088490 A KR20080088490 A KR 20080088490A
- Authority
- KR
- South Korea
- Prior art keywords
- language
- confusion
- list
- unit
- matrix
- Prior art date
Links
- 239000011159 matrix material Substances 0.000 claims abstract description 156
- 238000000034 method Methods 0.000 claims description 46
- 238000002474 experimental method Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 2
- 238000013459 approach Methods 0.000 description 27
- 238000012545 processing Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Navigation (AREA)
Abstract
본 발명은 음성 입력을 통해 요소들의 리스트로부터 임의의 리스트 요소를 선택하기 위한 방법에 관한 것이다. 상기 방법은
상기 음성 입력에 대한 하위단어 단위 열을 인식하는 단계와;
상기 인식된 하위단어 단위 열을 상기 요소들의 리스트와 비교하는 단계와,
상기 비교 결과에 기초하여, 가장 잘 매치되는 요소들의 후보 리스트를 생성하는 단계를 포함하고,
상기 가장 잘 매치되는 요소들의 후보 리스트를 생성하기 위하여, 상이한 언어들의 하위단어 단위들(상이한 자연어들의 하위단어 단위들을 포함한다)의 혼동 가능성에 대한 정보를 포함하는 매트릭스 요소들을 담고 있는 혼동 매트릭스가 이용된다.
Description
본 발명은 음성 입력을 통해 요소들의 리스트로부터 임의의 리스트 요소를 선택하는 방법 및 시스템에 관한 것이다.
많은 전자 애플리케이션은 사용자에 의해 음성 안내되거나 음성 제어되는 디자인 프로세스 또는 시퀀스를 갖고 있다. 상기 전자 애플리케이션은 차량용 목적지 안내 시스템, 전화기 및/또는 주소 시스템 등을 포함한다. 차량은 자동차, 트럭, 보트, 비행기 등을 포함한다.
이들 프로세스 또는 시퀀스에서, 사용자는 음성 인식 유닛에 음성 입력을 제공한다. 상기 음성 입력은, 리스트 요소들로 이루어지는 리스트 또는 그룹으로부터 사용자가 선택하고자 하는 리스트 요소에 대응할 수 있다. 상기 음성 인식 유닛은 상기 음성 입력을 처리하고, 그 처리된 음성 입력에 응답하여 상기 원하는 리스트 요소를 선택한다.
WO 2004/077405는 사용자의 음성 입력 상에서 수행되는 2단계 인식 과정을 이용하는 음성 인식 시스템을 개시하고 있다. 한 가지 인식 과정은 전체 단어의 음성 입력을 음성 하위단위(speech subunits)로 이루어지는 적어도 하나의 시퀀스로 분리하여 리스트 요소들의 어휘를 생성한다. 이어지는 인식 과정에서는 상기 전체 단어의 음성 입력을 상기 리스트 요소들의 어휘와 비교한다.
현재의 접근법에 따르면, 리스트 요소들의 언어와 인식 시스템의 언어가 동일해야 한다. 예컨대, 내비게이션 애플리케이션에 있어서, 독일어 내비게이션 시스템을 갖고 있는 사용자는 프랑스에서 주행하고 있을 때 목적지 위치를 음성 구동식으로 선택하는 데에 어려움을 겪을 수 있다.
따라서, 음성 인식 시스템을 훈련시키는 언어와는 다른 자연어(natural language)로부터 나오는 리스트 요소를 음성 구동식으로 선택할 가능성을 제공할 필요성이 있다.
본 발명은 독립항에 한정한 것과 같은 방법 및 음성 인식 시스템을 제공함으로써 상기 필요성을 해결한다. 종속항에는 본 발명의 바람직한 실시예가 한정되어 있다.
본 발명의 제1 양태에 따르면, 음성 입력을 통해 요소들의 리스트로부터 임의의 리스트 요소를 선택하기 위한 방법이 제공된다. 상기 방법은 상기 음성 입력에 대한 하위단어 단위 열(a string of subword units)을 인식하는 단계를 포함한다. 추가의 단계에서, 상기 인식된 하위단어 단위 열은 상기 요소들의 리스트와 비교되고, 가장 잘 매치되는 요소들(최상의 매칭 요소들)의 후보 리스트가 상기 비교 결과에 기초하여 생성된다. 상기 가장 잘 매치되는 요소들의 후보 리스트를 생성하기 위하여, 상이한 언어들의 하위단어 단위들의 혼동 가능성(확률)(confusion probability)에 대한 정보를 포함하는 매트릭스 요소들을 담고 있는 혼동 매트릭스(confusion matrix)가 이용된다. 종래의 시스템에 있어서, 음성 인식 시스템에 이용되는 혼동 매트릭스는 동일한 언어의 하위단어 단위들을 비교한다. 본 발명의 한 가지 양태는 상이한 언어들을 비교할 수 있는 혼동 매트릭스를 구축하여 사용하는 것이다. 상기 혼동 매트릭스는 하위단어 단위들의 주어진 셋트에 대하여, 각 하위단어 단위를 인식 시스템이 잘못 인식할 수도 있는 하위단어 단위들의 셋트를 규정한다. 상기 하위단어 단위는 어떤 언어의 음소(phoneme) 또는 음절(syllable), 또는 음소들로 이루어지는 보다 더 큰 그룹, 반음소(demiphonemes)와 같은 보다 작은 그룹과 같은 임의의 다른 단위에 대응할 수도 있다. 상기 하위단어 단위가 음소인 경우, 음소들의 시퀀스가 상기 음성 입력과 가장 잘 매치되는 하위단어 단위 열로서 결정된다.
바람직하게는, 상기 혼동 매트릭스의 각 매트릭스 요소는, 제1 언어의 하위단어 단위와 상기 제1 언어와는 다른 제2 언어의 하위단어 단위를 포함하는 특정 하위단어 단위 쌍에 대한 혼동 가능성을 나타낸다. 상기 매트릭스의 각 요소는 어는 특정 하위단어 단위 쌍에 대한 혼동 가능성을 나타낸다. 각 매트릭스 요소는 상기 하위단어 단위 쌍의 제1 하위단어 단위가 상기 하위단어 단위 쌍의 다른 하위단어 단위와 얼마나 혼동 가능한지를 수치적으로 특정한다. 바람직하게는, 상기 혼동 매트릭스는 제1 언어의 가능한 하위단어 단위들을 포함하고, 또 상기 제1 언어의 가능한 하위단어 단위들이 제2 언어의 가능한 하위단어 단위들과 혼동될 가능성을 포함한다. 상기 두 언어의 하위단어 단위들은 보통 하위단어 단위들 또는 음소들의 수가 상이하기 때문에, 상기 혼동 매트릭스는 더 이상 정방형(square)이 아니다. 단지 한 언어의 하위단어 단위들을 비교하는 혼동 매트릭스는, 동일한 개수 의 행과 열을 갖고 있는 매트릭스처럼 정방형이다.
본 발명의 다른 양태에 따르면, 상기 하위단어 단위 열은, 제1 언어가 아닌 언어의 음성 입력을 인식하기 위하여 제1 언어의 하위단어 단위들을 인식하도록 훈련된 하위단어 단위 음성 인식 유닛을 이용하여 인식된다. 이러한 양태의 아이디어는 상기 인식을 위해 이용된 혼동 매트릭스를 동일한 인식기를 이용하여 그러나 외국어 상에서 훈련시키는 것이다. 예컨대, 독일어 음성 입력을 이해하도록 훈련된 하위단어 단위 음성 인식 유닛은, 상기 혼동 매트릭스의 혼동 가능성을 평가하기 위하여, 프랑스어 또는 영어와 같은 다른 언어의 하위단어 단위 시퀀스를 인식하는데에 이용된다. 이러한 접근법의 이점은, 두 개의 상이한 언어 사이에서 가장 통상적인 하위단어 단위 혼동을 내재적으로(implicitly) 학습한다는 것이다.
본 발명의 한 가지 양태에 따르면, 상이한 혼동 매트릭스들에 상이한 언어 쌍들에 대한 혼동 가능성이 제공될 수 있다. 이러한 실시에 있어서, 상기 상이한 언어 쌍들에 대하여 몇몇 혼동 매트릭스들이 이용 가능하다. 이는 상이한 언어들에 대하여 매칭을 가능하게 한다. 상이한 언어 쌍들과 상이한 혼동 매트릭스들이 이용 가능한 경우, 가장 잘 매치되는 요소들의 후보 리스트를 생성하기 위하여 사용될 혼동 매트릭스가 선택되어야 한다.
이를 위해, 상기 음성 입력의 언어 쌍을 결정하고, 대응하여, 사용자의 언어를 결정함으로써 그리고 상기 요소들의 리스트의 언어를 결정함으로써 혼동 매트릭 스를 선택하는 것이 바람직하다. 대부분의 음성 인식 애플리케이션에 있어서, 상기 음성 인식 시스템의 사용자의 언어는 알려져 있다. 상기 요소들의 리스트의 언어를 결정할 수 있다면, 상기 언어 쌍은 알려지게 된다.
상기 요소들의 리스트가, 상기 리스트의 목적지 위치 중 어느 한 위치까지 사용자를 안내하기 위한 내비게이션 시스템에 사용되는 목적지 위치들의 리스트인 경우에, 상기 언어 쌍의 언어 중 하나를 다음과 같은 방식으로 결정할 수 있다. 우선, 예컨대 차량의 현재 위치를 결정하고, 그것을 맵 데이터와 비교함으로써, 내비게이션 시스템이 어느 나라에서 사용되고 있는지를 결정하여야 한다. 차량의 위치가 알려지면, 차량이 이동하고 있는 나라가 도출될 수 있다. 상기 나라가 알려지면, 그 나라의 공식 언어를 결정할 수 있다. 예컨대, 차량이 독일에서 이동하고 있는 경우, 목적지 위치들의 리스트는 독일 이름을 포함하고 있다고 도출될 수 있고, 차량이 프랑스에서 이동하고 있는 경우, 상기 리스트는 도시 또는 다른 목적지 위치의 이름과 같은 프랑스어 리스트 요소들을 포함하고 있다고 도출될 수 있다.
본 발명의 다른 양태에서, 상기 내비게이션 시스템의 사용자의 언어가 결정되는데, 이 언어는 상기 언어 쌍의 다른 언어로서 사용되는 것이다. 내비게이션 시스템의 소유자는 그 내비게이션 시스템용의 사용자 언어와 같은 미리 결정된 언어를 선택할 가능성을 갖고 있는데, 그 언어는 다른 언어가 선택되지 않는 한 동작 중에 디폴트 값으로서 사용된다. 상기 사용자의 언어와 상기 요소들의 리스트의 언어가 알려지면, 상기 언어 쌍이 알려져 적절한 혼동 매트릭스를 선택할 수 있다.
상기 혼동 매트릭스는 상기 사용자의 언어가 알려지고 상기 리스트 요소들의 언어 역시 알려짐에 따라 결정될 수 있다.
상기 음성 인식 방법이 내비게이션 시스템과 연계되어 사용되는 경우, 2개 이상의 공식 언어를 갖고 있는 나라, 예컨대 독일어, 이탈리아어 및 프랑스어의 공식 언어를 갖고 있는 스위스, 두 개의 공식 언어를 갖고 있는 벨기에에서 차량이 이동할 수도 있다. 이러한 경우에, 상이한 언어로 된 상이한 요소들의 리스트들이 제공될 수 있고, 가장 잘 매치되는 항목들(best matching items)의 후보 리스트가 결정되어야 한다. 상기 음성 인식 시스템의 사용자의 언어는 알려진다. 그러나, 이러한 경우에, 상기 사용자 언어 대 독일어, 상기 사용자 언어 대 프랑스어 또는 상기 사용자 언어 대 이탈리어의 혼동 매트릭스가 사용되는 지를 결정하여야 한다. 3개의 혼동 매트릭스에 추가하여, 3개의 상이한 요소 리스트, 즉 독일어로 된 목적지 위치들의 리스트, 프랑스어로 된 목적지 위치들의 리스트 및 이탈리아어로 된 목적지 위치들의 리스트가 제공된다. 어느 리스트 및 어느 혼동 매트릭스가 상기 매칭 단계에 사용될지와 관련하여 문제가 발생한다. 한 가지 접근법은 상기 상이한 리스트들을 합체하고, 상기 3개의 상이한 혼동 매트릭스를 이용하여 3개의 모든 리스트로부터 가장 잘 매치되는 엔트리들을 컴파일하는 것이다. 이 접근법의 단점은 둘 이상의 요소 리스트를 검색하여야 하기 때문에 검색 시간이 상당히 증가한다 는 것이다. 또한, 동일한 엔트리들이 각 언어로 선택되어, 가장 잘 매치되는 요소들의 리스트에서 확실한 엔트리들의 개수가 줄을 것이다.
다른 접근법에 따르면, 상이한 언어 쌍들을 갖는 상이한 혼동 매트릭스들이 제공되고 복수 개의 리스트가 제공되는 경우에, 그리고 상기 혼동 매트릭스들 중 하나를 가장 잘 매치되는 요소들의 후보 리스트를 결정하기 위하여 선택하여야 하는 경우에, 가장 작은(최소) 평균 혼동 개수(least number of average confusions)를 갖고 있는 혼동 매트릭스가 선택될 수 있다. 이는, 사용자의 언어와 가장 잘 매치되는 언어가 선택된다는 것을 의미한다. 일단 혼동 매트릭스가 선택되면, 상기 상이한 리스트들의 요소들의 리스트가 상기 선택된 혼동 매트릭스에 따라 선택될 수 있다.
사용자 언어에 대한 적합도(fit)를 나타내는 각 매트릭스의 스코어(score)를 계산함으로써 최소의 평균 혼동 개수를 결정할 수 있다. 상기 스코어는 예컨대, 우선 순위(priority)에 의해 상기 이용 가능한 언어들을 소팅하는 데 사용될 수 있다. 사용자가 일부 언어 선호도를 선택해야 한다면, 즉 사용자가 여행하고 있는 나라의 언어들 중 하나의 언어를 사용자가 말할 수 있다면, 적절한 혼동 매트릭스를 선택하고 적절한 대응 요소 리스트를 선택하기 위하여, 이들 선호 사항 역시 고려될 수 있다.
상기 가능한 언어 쌍들은 미리 알려져 있다. 따라서, 사용중에 상기 스코어 를 컴퓨팅할 필요가 없다. 상기 스코어를 미리 컴퓨팅할 수 있고, 각각의 스코어를 상이한 매트릭스로 저장할 수 있다. 정방형 매트릭스의 경우에, 주 대각선 상의 엔트리들은 자기-혼동 가능성(self-confusion probabilities)에 대응하고, 대각선에서 벗어나는 요소들은 올바르지 않은 인식, 즉 인식 에러에 대응한다. 상기 매트릭스에서의 모든 에러를 계산하는 것은 상기 리스트와 인식 시스템 사이의 적합도를 결정하는 한 가지 방법일 수 있다. 불행하게도, 이러한 접근법은, 상기 매트릭스가 두 개의 상이한 언어들을 상이한 음소 셋트들과 비교하는 것과 같이, 본 발명의 경우에 어려움을 야기할 수 있다.
본 발명의 한 가지 실시예에 따르면, 각 매트릭스의 엔트로피를 결정함으로써 상기 스코어를 결정할 수 있는데, 엔트로피가 낮을수록 사용자 언어에 대한 적합도가 더 좋아진다. 본 발명에서 사용되는 통계적 접근법에 있어서, 상기 엔트로피는 미시적 구성(microscopic configurations)의 개수의 척도이다. 본 접근법에 있어서, 상기 엔트로피는 매트릭스의 각 행(row)에 대하여 결정될 수 있다. 만약 엔트로피가 크다면, 이는 상기 행의 모든 상이한 매트릭스 요소들에 대한 혼동 가능성이 거의 동일하다는 것을 의미한다. 본 발명에서, 이는 제1 음소 또는 하위단어 단위가 다른 언어의 음소 또는 하위단어 단위로서 이해될 가능성이 다른 언어의 모든 음소에 대하여 거의 동일하다는 것을 의미한다. 본 발명에서, 상이한 열들(columns)을 추가함으로써 각 열 및 전체 매트릭스의 엔트로피가 더 낮을수록, 사용자 언어에 대한 적합도는 더 좋아지고 혼동 가능성은 더 낮아진다.
또한, 상호 정보(mutual information)를 결정함으로써 상기 스코어를 계산할 수 있는데, 상기 상호 정보가 더 클수록(the higher the mutual information) 사용자 언어에 대한 적합도는 더 좋아진다. 혼동 매트릭스에 대한 혼동 가능성을 평가하기 위하여, 인식 실행이 이루어져야 한다. 따라서, 훈련 셋트에서의 각각의 발성(utterance)을 위해, 정확한 그리고 인식된 음소 시퀀스들이 이용 가능하다. 이는 상기 음소 시퀀스 사이에서의 상호 정보를 컴퓨팅할 수 있도록 해준다. 상기 상호 정보가 더 클수록, 인식된 음소열의 예측력(predictive power)은 더 좋아지고 매트릭스는 더 양호하다.
또 다른 접근법은 실제 데이터 상에서 실제 인식 실험을 수행하는 것이다. 이러한 실시예에서, 상기 스코어는 상이한 매트릭스들을 이용하여 그리고 시험 데이터를 이용하여 인식 실험을 수행함으로써 결정되는데, 가장 높은 인식율(recognition rate)을 갖고 있는 매트릭스가 후보 리스트를 생성하는데에 이용된다. 이러한 접근법은 매우 비싼 접근법인 반면에, 가장 정확한 스코어를 제공한다.
본 발명의 다른 양태는 음성 입력을 이용하여, 요소들의 리스트로부터 임의의 리스트 요소를 선택하기 위한 음성 인식 시스템에 관한 것이다. 상기 시스템은 상기 음성 입력에 대하여 하위단어 단위 열을 인식하는 하위단어 단위 음성 인식 유닛을 포함한다. 하위단어 단위 비교 유닛이 상기 인식된 하위단어 단위 열을 상기 요소들의 리스트와 비교하고, 그 비교 결과에 기초하여 가장 잘 매치되는 요소들의 후보 리스트를 생성한다. 또한, 혼동 매트릭스가 메모리에 제공되는데, 상기 혼동 매트릭스는 제1 언어의 하위단어 단위가 제2 언어의 하위단어 단위와 혼동될 혼동 가능성에 대한 정보를 포함하는 혼동 요소들을 담고 있다. 상기 하위단어 단위 비교 유닛은 상기 적어도 하나의 다언어 혼동 매트릭스에 기초하여 가장 잘 매치되는 요소들의 리스트를 생성한다. 상기 음성 인식 시스템은 상기 리스트 요소들의 언어와는 다른 언어로 소정의 리스트로부터 엔트리의 음성에 의해 상기 선택을 가능하게 해준다. 상기 음성 인식 시스템은 임베디드형 디바이스 상에서 동작하기에 효율적인 메모리 및 CPU라는 이점을 갖고 있다.
상기 매트릭스는 혼동 매트릭스의 각 매트릭스 요소가 특정 하위단어 단위 쌍에 대한 혼동 가능성을 나타내는 방식으로 설계될 수 있는데, 상기 하위단어 단위 쌍은 제1 언어의 하위단어 단위와 제2 언어의 하위단어 단위를 포함한다. 상기 음성 인식 시스템은 WO 2004/077405에 개시된 것과 같은 2단계 음성 인식 시스템일 수 있다. 이러한 실시예에 있어서, 상기 음성 인식의 제1 단계는 가장 잘 매치되는 항목들의 후보 리스트, 즉 보다 더 큰 요소 리스트로부터 보다 작은 리스트를 생성하는 것이다. 제2 음성 인식 단계는 상기 음성 입력과 가장 잘 매치되는 후보 리스트로부터 임의의 항목을 인식하고 선택하는 것이다. 일단 짧은 후보 리스트가 생성되었으면, 그 리스트는 제2 인식 단계를 위해 상기 인식 시스템에 등재되어야 한다(enrolled). 이것은, 전에 그러나 이제 상기 인식 시스템이 상이한 언어들의 엔트리들을 취급하는 것처럼 행해진다. 예컨대, 독일어 인식 시스템은 영어 음소들을 수신할 수 있을 것이다. 종래에, 외부의 음소 셋트로부터 인식기의 언어의 음소 셋트로의 매핑을 수행하는 방법이 이용 가능하고 이는 당업자에게 알려져 있다. 별법으로서, 상이한 언어들로부터 외국어 음소를 취급하는 음향 모델과 함께 인식기를 이용할 수 있다. 두 접근법은, 짧은 리스트가 전체 리스트의 엔트리들의 일부를 포함함에 따라 실현 가능하다.
음성 인식 시스템 및 다언어 혼동 매트릭스를 이용하는 상기 제1 인식 단계로 돌아가면, 상기 하위단어 단위 음성 인식 유닛은 제1 언어의 하위단어 유닛들을 인식하도록 훈련될 수 있고, 상기 제1 언어가 아닌 다른 언어의 음성 입력에 대하여 하위단어 단위 열을 생성할 수 있다. 상기한 바와 같이, 이러한 접근법의 이점은 상기 시스템이 두 개의 상이한 언어 사이에서 가장 통상적인 혼동을 내재적으로 학습한다는 것이다. 상이한 언어들의 상이한 하위단어 유닛 쌍들에 대하여 혼동 가능성을 제공하는 상이한 혼동 매트릭스를 포함하는 저장부가 제공될 수 있다.
어느 매트릭스 및 어느 요소 리스트가 사용되어야 하는지를 결정하기 위하여, 상기 음성 인식 시스템은 상기 하위단어 단위 쌍 또는 쌍들의 두 언어를 결정하는 언어 쌍 결정 유닛을 포함할 수 있다.
내비게이션 애플리케이션의 경우에, 사용자를 안내할 수 있는 상이한 나라들에 대한 요소들 또는 상이한 목적지 위치들의 상이한 리스트를 포함하는 데이터베이스가 제공된다. 상기 언어 쌍을 결정하기 위하여, 음성 인식 시스템의 사용자 언어를 결정하는 사용자 언어 결정 유닛이 제공될 수 있는데, 사용자 언어는 상기 하위단어 단위 쌍의 언어들 중 하나를 결정하는 데 사용된다. 또한, 차량이 이동하는 나라의 공식 언어를 결정하는 나라 결정 유닛이 제공될 수 있는데, 상기 공식 언어는 상기 언어 쌍의 다른 언어를 결정하는데 이용된다.
상기 언어 쌍이 알려지면, 복수의 혼동 매트릭스로부터 임의의 혼동 매트릭스를 선택하는 혼동 매트릭스 선택 유닛이 제공되는데, 상기 혼동 매트릭스 선택 유닛은 상기 언어 쌍 결정 유닛으로부터 수신된 정보에 따라서 혼동 매트릭스를 선택한다. 혼동 매트릭스 선택 유닛이, 차량이 이동하고 있는 나라의 공식 언어 및 사용자 언어를 고려하여 혼동 매트릭스를 선택할 수 없는 경우에(예컨대, 나라가 두 개 이상의 공식 언어를 갖고 있는 경우), 각 혼동 매트릭스의 평균 혼동 개수를 결정하는 혼동 결정 유닛이 사용될 수 있다. 다음에, 혼동 매트릭스 선택 유닛이 최소의 혼동 개수를 갖고 있는 매트릭스를 선택한다. 이를 위해, 각각의 혼동 매트릭스에 대하여 스코어를 결정하는 스코어 결정 유닛이 제공될 수 있는데, 상기 스코어는 사용자 언어에 대한 적합도를 나타낸다. 상기 스코어 결정 유닛은 전체 시간 동안 음성 인식 시스템 내에 제공될 필요는 없다는 것을 이해하여야 한다. 상기 스코어 결정 유닛은 상이한 스코어들을 결정하기 위해 한 번 제공되기만 하면 된다. 상기 스코어가 컴퓨팅되고 각각의 혼동 매트릭스에 대하여 스코어가 결정되고, 상기 스코어들이 대응 매트릭스들에 스코어된 후에, 스코어 결정 유닛은 더 이상 필요 없다. 상이한 매트릭스들의 스코어에 따라서, 혼동 매트릭스 선택 유닛은 상기 복수의 혼동 매트릭스로부터 소정의 혼동 매트릭스를 선택한다. 바람직하게는, 상기 음성 인식 시스템은 상기한 방법에 따라서 동작한다.
본 발명은 다음의 도면 및 실시예를 참조하여 더 잘 이해될 수 있다. 도면에서 구성요소들은 비례적으로 나타낸 것은 아니며, 대신에 본 발명의 원리를 설명할 때 강조하여 나타내었다.
도 1은 음성 입력의 다언어 인식을 가능하게 하는 음성 인식 시스템을 도시한다. 도 1에 도시된 시스템은 특히 사용자의 언어가 아닌 언어의 리스트로부터 소정의 엔트리의 음성에 의한 선택을 가능하게 한다. 도시된 실시예에서 상기 시스템은 사용자를 미리 결정된 목적지 위치로 안내하는 내비게이션 시스템과 관련하여 도시되어 있다. 그러나, 본 발명은 음성 입력을 통한 목적지 위치의 선택에 제한되지 않는다. 본 발명은 사용자 언어가 아닌 언어의 음성 입력이 정확하게 확인되어야 하는 임의의 상황에서 이용될 수 있다. 많은 음성 인식 시스템에서, 인식 출력으로서 음향 신호의 가장 유망한 디코딩이 사용자에게 출력되거나, 사용자가 가장 잘 매치되는 결과들 중 하나를 선택할 수 있도록 사용자에게 가장 잘 매치되는 결과들이 출력된다. 상기 시스템은 인식 프로세스 중에 고려되는 복수의 가설 을 유지하는데, 본 발명에서 가장 잘 매치되는 요소들이라 지칭되는 이들 가설은 검색 시스템에 의하여 조사된 추가 정보에 대한 근거를 제공한다. 음성 인식 시스템에서 하나의 이슈는 알려진 그리고 알려지지 않은 어휘의 개념인데, 어휘는 음성 인식 시스템이 음성을 텍스트로 변환하는데 이용하는 단어들의 세트이다. 디코딩 프로세스의 일부로서, 음성 인식 시스템은 음성 입력으로부터의 음향을 어휘 중의 단어와 매치시킨다. 따라서, 어휘 중의 단어만이 인식될 수 있다. 어휘에 없는 단어는 음성 인식 시스템에 알려지지 않은 다른 단어와 음성상 유사한 알려진 어휘 단어로서 종종 잘못 인식된다. 상기 어휘는 임의의 어휘, 예컨대 이름, 주소 또는 한 언어 상에서 단어들의 완전한 세트와 같은 임의의 다른 어휘일 수 있다. 따라서, 상기 어휘는 목적지 위치를 설명하는 리스트 요소들에 한정되지 않고, 상기 어휘는 임의 종류의 리스트 요소들을 포함할 수 있다.
도 1은 음성 입력이 하위단어 음성 인식 유닛(10)에 입력되는 음성 인식 시스템을 개략적으로 도시한다. 하위단어 음성 인식 유닛(10)은 음성 입력을 처리하고, 본 실시예에서 음소열(phoneme string)로 나타낸 하위단어 단위 열을 생성한다. 음소열이 매처(matcher)(11)에 공급되는데, 이 매처에서 상기 음소열은 데이터베이스(12)에 저장된 요소들의 리스트와 비교된다. 도시된 실시예에서, 데이터베이스(12)는 상이한 리스트 목적지 위치들을 포함한다. 예컨대, 리스트(A) 중의 나라(A)에 대하여, 이 나라 안에서 도달될 수 있는 모든 가능한 목적지 위치가 포함된다. 이러한 리스트는 많은 수의 엔트리, 예컨대 50,000 또는 150,000개 보다 많은 리스트 요소들을 갖고 있을 수 있다. 도시된 실시예에서, 상기 리스트는 내비게이션 데이터를 포함한다. 그러나, 상기 리스트는 또한 개인 이름, 전화 번호 또는 임의의 다른 데이터를 포함할 수 있다. 데이터베이스(12)에서, 상기 리스트는 각 나라의 공식 언어로 제공된다. 도시된 실시예에서 나라(A 및 B)는 하나의 리스트가 각 나라에 제공되도록 하나의 공식 언어를 갖고 있다. 국가(C)는 상이한 목적지들의 리스트가 제 1 및 제 2 공식 언어에 대하여 존재하도록 두 개의 공식 언어를 갖고 있다. 사용자가 상기 리스트의 요소들 중 하나를 선택하고자 하는 경우, 음성 입력은 이 리스트 요소를 포함할 것이다. 상기 매처는 하위단어 음성 인식 유닛으로부터 수신된 음소열을 비교하고, 가장 잘 매치되는 항목들의 후보 리스트를 생성하고, 따라서, 가장 잘 매치되는 항목들의 후보 리스트가 작은 수의 요소들을 포함한다면, 그 리스트는 사용자에게 직접 제공될 수 있다. 그러나, 상기 후보 리스트는 또한 더 많은 수의 리스트 요소들, 예컨대 500 또는 2000개의 훨씬 더 많은 리스트 요소를 포함할 수 있다. 이러한 경우에, 가장 잘 매치되는 요소들의 후보 리스트는 음성 입력이 이러한 더 작은 리스트와 비교되는 제2 음성 인식 단계의 기초를 형성한다.
내비게이션 시스템의 사용자는 사용자의 언어가 아닌 다른 언어가 통용되는 나라를 현재 여행 중일 수 있다. 예컨대, 영어 내비게이션 시스템을 이용하는 영어 사용 운전자가 독일 또는 프랑스에서 여행할 수 있고, 또는, 독일 운전자가 프랑스 또는 영국에서 여행할 수 있다. 이들 예에서, 리스트에 저장된 목적지 위치 는 사용자 언어가 아닌 언어를 갖는 리스트 요소들이다.
사용자가 다른 언어의 도시 이름을 말하는 경우에 인식률을 높게 하기 위하여, 상이한 혼동 매트릭스들을 포함하는 메모리(13)가 제공된다. 도시된 실시예에서, 메모리(13)는 독일어 하위단어 단위들과 이탈리아어 하위단어 단위들을 포함하는 제1 혼동 매트릭스를 포함한다. 또한, 독일어와 영어 하위단어 단위들을 포함하는 혼동 매트릭스가 제공되고, 프랑스어와 영어의 음소 셋트들 또는 하위단어 단위들을 포함하는 혼동 매트릭스가 제공된다.
도 2를 참조하면, 혼동 매트릭스(20)가 더욱 상세하게 도시되어 있다. 혼동 매트릭스는 복수의 매트릭스 요소(21)를 포함하고, 상기 혼동 매트릭스는 음향이 다른 하위단어 단위에 속한다면 하나의 하위단어 단위가 인식될 가능성을 나타낸다. 각각의 매트릭스 요소(21) Cij는 특정 하위단어 단위 쌍에 대한 혼동 가능성을 표현한다. 즉, Cij=P(j/i)이고, Cij는 하위단어 단위(i)가 하위단어 단위(j)와 얼마나 혼동가능한지를 수치적으로 특정한다. P(j/i)는 음향이 하위단어 단위(i)에 속한다면 하위단어 유닛(j)이 인식될 가능성이다. 도시된 실시예에서, 상부 좌측 매트릭스 요소(21)는 하위단어 단위 쌍(22)에 대한 혼동의 가능성을 나타낸다. 도 2에 도시된 실시예에서, 큰 글자는 한 언어의 하위단어 단위 또는 음소를 나타내고, 작은 글자는 다른 언어의 하위단어 단위 또는 음소를 나타낸다. 제 1 언어는 가능 한 하위단어 단위(AA-ZZ)를 갖고, 제 2 언어는 하위단어 단위(ba-zz)를 갖는다. 두 개의 상이한 언어의 음소 셋트들은 보통 음소의 개수가 다르므로, 혼동 매트릭스는 더이상 정방형이 아니다.
도 1에 도시된 시스템은 이들 혼동 매트릭스 몇몇 개를 포함하고, 각각의 혼동 매트릭스는 한 언어의 하위단어 단위들의 다른 언어의 하위단어 단위들과의 혼동 가능성을 나타낸다.
도 3과 관련하여, 어떤 혼동 매트릭스가 이용되고 어떤 리스트가 이용되는지를 어떻게 결정하는지를 더욱 상세하게 설명한다. 가장 잘 매치되는 결과를 결정하는데 어느 혼동 매트릭스가 이용되어야 하는지를 결정하기 위하여, 언어 쌍을 결정하여야 한다. 사용자의 언어가 시스템에 알려짐에 따라, 예컨대 시스템이 사용자가 독일어를 말하는 것을 알게 됨에 따라, 언어 쌍의 한 언어는 결정될 수 있고, 이 언어는 디폴트 값으로서 설정된다. 언어 쌍 중 다른 하나의 언어는 다음의 방법으로 결정할 수 있다. 이를 위하여, 언어 쌍 결정 유닛(31)이 제공되는데, 언어 쌍 결정 유닛은 하나의 입력으로서 사용자 언어를 수신한다. 상기 언어 쌍 결정 유닛은 음성 인식 시스템이 어느 나라에서 이용되는 지를 결정하는 나라 결정 유닛(32)을 더 포함한다. 내비게이션 애플리케이션에서, 상기 시스템은 보통 (차량에서 이용될 경우 차량의) 시스템의 현재 위치를 결정하는 위치 결정 유닛(33)을 포함한다. 차량 또는 시스템 위치가 알려지면, 그 차량 위치를 맵 데이터와 비교 함으로써 나라를 용이하게 결정할 수 있다. 상기 언어 쌍 결정 유닛은 이제 언어 쌍의 두 개의 언어를 알고, 이어서 대응하는 혼동 매트릭스를 검색하기 위하여 메모리(13)에 액세스할 수 있다. 예컨대, 영어 사용자가 프랑스에서 여행한다고 하자. 그 결과, 언어 쌍 결정 유닛은 영어 및 프랑스어 하위단어 단위들에 대한 혼동 가능성을 포함하는 혼동 매트릭스를 검색할 것이다. 이 혼동 매트릭스는 매처에 전송되고, 매처에서, 데이터베이스(12)의 리스트 중 하나와 관련하여 이용된다. 차량이 이동하는 나라가 알려졌다는 사실로 인하여, 상기 리스트 역시 알게 된다. 위에서 설명한 예에서, 이것은 영어 사용자가 목적지 위치들의 프랑스어 리스트를 이용하여 프랑스어 이름을 갖는 프랑스에서 어떤 목적지 위치를 선택하는 것을 의미한다. 이를 위하여, 영어-프랑스어 언어 쌍을 포함하는 혼동 매트릭스가 이용된다.
보통, 이들 혼동 매트릭스는 미리 결정되어 시스템 내에 저장된다. 혼동 가능성을 결정하기 위해 시스템은 훈련되어야 한다. 본 발명의 다른 측면에 따르면, 혼동 매트릭스의 혼동 가능성은, 동일한 매처를 사용하여 그러나 외국어 상에서 결정될 수 있다. 예를 들면, 영어 매처는 혼동 매트릭스의 혼동 가능성을 추정하기 위해 프랑스어 데이터에 대한 음소 시퀀스를 인식하는데 사용된다. 이러한 접근 방식의 장점은 프랑스어와 영어 사이에서 가장 전형적인 음성 혼동을 내재적으로 학습할 수 있다는 점이다. 상이한 혼동 매트릭스에 상이한 언어 쌍을 제공하는 것에 의해 상기 시스템은 상이한 언어에 대한 매칭을 행할 수 있다.
그러나, 상황은 더욱 복잡해질 수도 있다. 예를 들면, 사용자가 2개 이상의 공용어를 가지는 외국에서 음성 인식 시스템을 사용하는 것도 가능하다. 제시된 실시예에서, 데이터 베이스는 3개의 다른 리스트(C1, C2, C3)를 갖는 국가(C)를 포함한다. 예컨대, 시스템을 스위스에서 사용시, 요소(즉, 목적지)의 스위스 리스트는 독일어, 프랑스어 및 이탈리아어로 이용 가능할 수 있다. 그러나, 스위스 내의 영어 구사 여행자는 이들 언어 중 어느 하나도 구사하지 못할 수 있다. 그러나, 영어-이탈리아어, 영어-프랑스어, 영어-독일어의 언어 쌍 중 어느 것에 대한 혼동 매트릭스가 존재할 수 있다. 이제 매칭을 위해 어떤 리스트를 사용하는가에 대한 문제가 발생한다.
하나의 접근법은 단순히 모든 리스트를 사용하여 그 모든 리스트로부터 가장 잘 매치되는 엔트리들을 컴파일하는 것일 수 있다. 그러나, 이 방식의 단점은 2개 이상의 리스트를 검색하여야 함으로써 검색 시간을 크게 증가시킨다는 것이다. 각 리스트가 50,000 이상의 엔트리를 가질 수 있음을 고려하면, 상기와 같은 접근 방식은 매우 효율적이지 않을 것이다. 이 접근 방식의 다른 단점은 동일한 엔트리들이 각 언어로 선택될 수 있음으로써, 가장 잘 매치되는 결과 중 확실한 엔트리의 갯수를 줄인다는 점이다. 이제 사용자는 지시된 소정의 언어 선호도를 가지는 것이 가능하다(예, 영어 구사 여행자는 스위스의 공용어 중 하나를 구사할 수 있다). 이 선호도는 적절한 혼동 매트릭스와 그에 대응하는 리스트를 선택하는데 이용될 수 있다. 예를 들면, 영어 여행자가 독일어를 구사하는 경우, 최상의 매칭 결과를 결정하는데 영어-독일어 혼동 매트릭스와 독일어로 된 엔트리 리스트를 사용할 수 있다.
그러나, 어떤 선호도도 존재하지 않을 수도 있는데, 이 경우 절차는 다음과 같을 수 있다. 시스템은 최소의 평균 혼동 갯수를 갖는 언어 쌍을 선택하는 방식으로 구성될 수 있다. 전술한 예의 경우, 이는 언어 쌍이 영어-독일어, 영어-프랑스어, 영어-이탈리아어 사이에서 선택됨을 의미한다. 언어 쌍과 그 대응하는 혼동 매트릭스 및 그 관련 리스트가 결정되어야 한다. 사용자의 언어와 가장 잘 매치되는 언어는 사용자의 언어에 대한 적합도를 나타내는 스코어를 미리 결정하는 것에 의해 선택될 수 있다. 도 3에 제시된 실시예에서, 혼동 매트릭스와 함께 스코어가 저장되어 있다. 스코어 결정을 위해 스코어 결정 유닛이 제공될 수 있다. 매트릭스와 함께 스코어가 저장되면, 그 스코어는 사용중 계산될 필요가 없다. 그러나, 음성 인식 시스템의 설계 중에 그 스코어는 어느 정도 결정되어야 한다. 스코어를 컴퓨팅하기 위해 여러 접근법이 가능하다. 정방형 매트릭스의 경우, 주대각선의 엔트리는 자기-혼동 가능성에 대응하는 반면, 대각선에서 벗어나는 요소는 부정확한 인식에 대응하여, 즉 인식 에러가 존재한다. 매트릭스 내의 모든 에러를 계수하는 것은 두 개의 언어 사이, 또는 리스트와 인식기(recognizer) 사이의 적합도를 결정하는 하나의 방법일 수 있다. 불행히도, 본 발명에서는 매트릭스가 두 개의 상이한 언어를 상이한 하위단어 단위 세트와 비교하기 때문에, 상기의 접근법을 실 시하는 것이 어려울 수 있다. 매트릭스는 통상 더 이상 정방 배열이 아니므로, 비대각선 매트릭스 요소들을 결정하기가 어려울 수 있다. 스코어를 결정할 수 있는 다른 방안은 매트릭스의 엔트로피 측정을 이용하는 것이다. 매트릭스의 엔트로피는 매트릭스의 적용 후 잔존하는 불확실성의 척도이다. 불확실성이 적을수록 적합도는 더 양호하다. 다른 가능한 접근법은 상호 정보(mutual information)를 컴퓨팅하는 것이다. 혼동 매트릭스에 있어 혼동 가능성의 추정을 위해 인식 실행을 행하여야 한다. 훈련 세트에서의 각 발성을 위해, 정확한 음소 시퀀스 및 인식된 음소 시퀀스가 활용 가능하다. 이것은 음소 시퀀스 간의 상호 정보를 컴퓨팅할 수 있도록 해준다. 상호 정보가 클수록 인식된 음소 시퀀스의 예측력과 매트릭스가 더 양호하다. 또 다른 접근법은 실제 데이터에 대해 실제 인식 실험을 수행하는 것이다. 이 접근법은 단연 고비용이지만, 또한 가장 정확한 스코어를 가져온다. 최상의 인식률을 갖는 매트릭스가 이 경우에 얻어진다.
정확한 매트릭스 선택을 위해 혼동 매트릭스 선택 유닛(34)이 제공되어, 여러 개의 혼동 매트릭스와 여러 개의 리스트가 가능한 경우에, 필요한 매트릭스와 그 대응하는 리스트를 결정할 수 있다. 혼동 매트릭스 선택 유닛은 최소의 평균 혼동 개수를 갖는 혼동 매트릭스를 선택한다. 사용자 언어가 알려지고, 시스템이 사용되는 나라의 공식 언어로부터 사용자 언어에 가장 적합한 언어를 선택하는 것에 의해 언어 쌍의 나머지 언어가 비로소 결정된다. 이제 언어 쌍의 제2 언어가 알려지고, 그 대응하는 리스트를 사용하여 그 리스트로부터 최상의 매칭 요소들이 결정된다. 최상의 매칭 요소는 예컨대 100과 2000개 요소들의 리스트와 같이 보다 작은 리스트에 포함될 수 있다. 제2 음성 인식 단계(본 도면에서는 제시되어 있지 않음)는 보다 작은 엔트리 리스트 상에서 음성 인식을 적용한다. 제2 단계에서, 동일한 음성 입력에 대해 가장 그럴듯한 리스트 내 엔트리는 후보 리스트에 열거된 엔트리의 음성적 음향 표현을 음향 입력에 매칭시킨 후 최상의 매칭 엔트리를 결정하는 것에 의해 결정된다. 이 접근법은 제1 단계에서 행한 음소 인식이 덜 요구되고 고비용의 제2 계산 단계가 큰 요소 리스트 중 작은 서브세트에 대해서만 행해지므로 계산상의 리소스를 절감시킨다. 이러한 2-단계 인식 시스템은 상기 2-단계 인식 접근법을 더욱 상세히 참조할 수 있는 독일 공개 공보 DE 102 07 895 A1에 공지되어 있다.
제2 인식 단계에서는 다시 2개의 상이한 언어들이 비교된다. 예를 들면, 독일어 인식기는 영어 음소를 수신할 수 있다. 문헌 내에서 외국어의 음소 세트로부터 상기 인식기의 언어의 음소 세트로의 매핑을 수행하는 여러 가지 방법이 존재한다. 대안으로, 상이한 언어들로부터 외국어 음소를 취급하는 음향 모델과 함께 인식기를 이용할 수 있다. 두 접근법은, 짧은 리스트가 리스트 요소들의 큰 리스트의 엔트리 중 일부를 포함함에 따라 실현 가능하다.
도 4에는 이러한 2-단계 인식 접근법이 제시되어 있다. 단계(41)의 과정을 시작한 후, 발성자(speaker)는 원하는 리스트 요소의 전체 설명을 발성한다. 상기 리스트 요소는 예컨대, 도시 이름 또는 거리 이름 또는 전화번호 리스트로부터 선택시 사람 이름을 포함한다. 이 음성 입력은 제2 인식 단계에서의 추가적인 사용을 위해 단계(41)에서 기록된다. 제1 인식 단계에서 음소열이 단계(42)에서 생성된다. 보통, 제1 음소열은 데이터 베이스(12)에 저장된 리스트 요소들의 어휘와 무관하게 생성된다. 일련의 연속 음소 파트, 일련의 음소, 일련의 문자, 또는 일련의 음절 등을 포함하는 일련의 음성 하위단어 단위들이 구성된다. 단계(43)에서, 다언어 혼동 매트릭스를 사용하여 전술한 바와 같이 매핑 과정이 수행된다. 생성된 하위단어 단위 열은 요소들의 리스트와 비교되고, 최상의 매칭 요소들의 후보 리스트가 단계(44)에서 생성된다. 단계(45)에서, 제2 인식 단계가 행해지는데, 이 제2 인식 단계는 제1 매칭 단계(43)에서 사용된 전체 리스트가 아닌 상기 최상의 매칭 결과의 후보 리스트를 기초로 한다. 단계(45)에서, 기록된 음성 입력은 최상의 매칭 항목들의 후보 리스트로 구성된 인식 유닛(도시 생략)으로 전달된다. 단계(46)에서, 가장 알맞은 리스트 요소 또는 리스트 요소들이 사용자에게 제공되거나, 가장 알맞은 리스트 요소가 사용되고 추가 처리될 수 있다. 상기 방법은 단계(47)에서 종료한다.
도 5에는 혼동 매트릭스와 도 3에 설명된 그 대응하는 요소 리스트의 선택 과정이 흐름도로 요약되고 있다. 단계(51)의 처리 과정이 시작된 후 그리고 단계(52)에서 하위단어 음성 인식 유닛으로부터 음소열이 수신된 후, 언어 쌍 중 하나의 언어를 결정하기 위해 사용자 언어를 결정하여야 한다(단계(53)). 언어 쌍의 결정은 혼동 매트릭스와 그 요소 리스트의 선택을 위해 필요하다. 다음 단계에서, 인식 시스템이 사용되는 나라의 공식 언어가 단계(54)에서 결정된다. 단계(55)에서, 시스템이 사용되는 나라의 공식 언어가 2개 언어 이상인지 여부가 질의된다. 그 경우가 아니면, 공식 언어가 알려지고 단계(56)에서 언어 쌍을 결정할 수 있다. 언어 쌍이 알려지면, 단계(57)에서 대응하는 혼동 매트릭스가 결정될 수 있고, 단계(58)에서 최상의 매칭 요소들의 후보 리스트가 결정될 수 있다. 이 후보 리스트는 도 4와 관련하여 설명된 제2 인식 단계로 출력될 수 있다(단계(59)). 1-단계 인식 절차의 경우, 최상의 매칭 요소(들)가 확인 또는 추가의 선택을 위해 사용자에게 제공된다. 어떤 나라에 2개 이상의 공식 언어가 존재하는 경우, 인식 처리를 위해 사용될 수 있는 가능한 혼동 매트릭스가 단계(60)에서 결정되어야 한다. 영어 구사 여행자가 스위스를 여행하는 전술한 예에서, 상기 결정된 그룹은 영어-독일어, 영어-프랑스어, 영어-이탈리아어의 매트릭스 요소를 포함한다. 매칭 과정을 위해 어떤 혼동 매트릭스를 사용하여야 할지를 결정하기 위해, 단계(61)에서는 어떤 언어가 사용자 언어에 가장 적합한 언어인지를 나타내는 최소의 혼동 개수를 어떤 매트릭스가 갖고 있는지가 결정된다. 이것은 매트릭스의 스코어를 비교하는 것에 의해 이루어질 수 있다. 단계(62)에서는 상기 스코어에 따라 매트릭스가 선택된다. 최상의 매칭 언어가 스코어 계산에 의해 알려지면, 상기 언어의 리스트 요소들의 리스트가 선택되고, 상기 선택된 매트릭스와 그 대응하는 요소들의 리스트를 이용하여 최상의 매칭 엔트리들의 후보 리스트가 결정된다(단계(63)). 그 결과는 단계(64)에서 추가의 처리를 위해 출력될 수 있으며, 이후 단계(65)에서 그 처 리가 종료된다.
요약하면, 본 발명은 상이한 언어들을 비교하는 혼동 매트릭스를 이용하는 것에 의해 사용자 언어가 아닌 어떤 언어의 리스트로부터의 소정 엔트리의 음성에 의해 메모리 및 CPU를 효율적으로 선택할 수 있게 한다.
도 1은 본 발명의 음성 인식 시스템의 개략도이다.
도 2는 도 1의 시스템에 이용되는 두 개의 상이한 언어에 대한 혼동 가능성을 포함하는 혼동 매트릭스를 보여준다.
도 3은 도 1에 도시된 음성 인식 시스템의 상세도이다.
도 4는 도 2의 매트릭스를 이용하여 요소들의 리스트로부터 임의의 리스트 요소를 선택하기 위한 음성 인식 방법의 흐름도이다.
도 5는 요소들의 리스트에서 다언어 이국 인식의 방법의 단계들을 더욱 상세하게 나타내는 다른 흐름도이다.
Claims (40)
- 음성 입력을 통해 요소들의 리스트로부터 임의의 리스트 요소를 선택하는 방법으로서,상기 음성 입력에 대한 하위단어 단위 열을 인식하는 단계와;상기 인식된 하위단어 단위 열을 상기 요소들의 리스트와 비교하는 단계와,상기 비교 결과에 기초하여, 가장 잘 매치되는 요소들의 후보 리스트를 생성하는 단계를 포함하고,상기 가장 잘 매치되는 요소들의 후보 리스트를 생성하기 위하여, 상이한 언어들의 하위단어 단위들의 혼동 가능성에 대한 정보를 포함하는 매트릭스 요소들을 담고 있는 혼동 매트릭스가 이용되는 것인 방법.
- 청구항 1에 있어서, 상기 혼동 매트릭스의 각 매트릭스 요소는 특정 하위단어 유닛 쌍에 대한 혼동 가능성을 나타내고, 상기 하위단어 단위 쌍은 제1 언어의 하위단어 단위와 제2 언어의 하위단어 단위를 포함하는 것인 방법.
- 청구항 1 또는 청구항 2에 있어서, 상기 혼동 매트릭스는 제1 언어의 가능한 하위단어 단위들을 포함하고, 상기 제1 언어의 가능한 하위단어 단위들이 제2 언어의 가능한 하위단어 단위들과 혼동될 가능성을 포함하는 것인 방법.
- 청구항 1 내지 청구항 3 중 어느 한 항에 있어서, 상기 하위단어 단위 열은 제1 언어가 아닌 언어의 음성 입력을 인식하기 위하여 제1 언어의 하위단어 단위들을 인식하도록 훈련된 하위단어 단위 음성 인식 유닛을 이용하여 인식되는 것인 방법.
- 청구항 1 내지 청구항 4 중 어느 한 항에 있어서, 상이한 언어 쌍들에 대한 혼동 가능성을 제공하는 상이한 혼동 매트릭스들이 제공되는 것인 방법.
- 청구항 1 내지 청구항 5 중 어느 한 항에 있어서, 상기 언어 쌍 및 대응하는 혼동 매트릭스는 사용자의 언어를 결정함으로써 그리고 상기 요소들의 리스트의 언어를 결정함으로써 결정되는 것인 방법.
- 청구항 1 내지 청구항 6 중 어느 한 항에 있어서, 상기 요소들의 리스트는 사용자를 상기 리스트의 목적지 위치들 중 하나로 안내하기 위한 내비게이션 시스템에 사용되는 상이한 목적지 위치들을 포함하는 것인 방법.
- 청구항 5 또는 청구항 7에 있어서, 어는 혼동 매트릭스가 사용될지를 결정하기 위하여, 어느 나라에서 상기 내비게이션 시스템이 사용되는지를 결정하고, 상기 정보는 상이한 목적지 위치들을 포함하는 요소들의 리스트의 언어를 결정하기 위하여 및/또는 상기 언어 쌍의 한 언어를 결정하기 위하여 이용되는 것인 방법.
- 청구항 6 내지 청구항 8 중 어느 한 항에 있어서, 어느 혼동 매트릭스가 사용될지를 결정하기 위하여, 상기 내비게이션 시스템의 사용자의 언어가 결정되고, 상기 사용자의 언어는 상기 언어 쌍의 다른 언어를 결정하기 위하여 이용되는 것인 방법.
- 청구항 8 또는 청구항 9에 있어서, 상기 혼동 매트릭스는 상기 내비게이션 시스템이 사용되는 나라의 언어에 따라가서 그리고 상기 사용자의 언어에 따라서 선택되는 것인 방법.
- 청구항 1 내지 청구항 10 중 어느 한 항에 있어서, 요소들의 상이한 리스트들이 상이한 언어로 제공되고 가장 잘 매치되는 항목들의 후보 리스트가 결정되는 경우, 상기 상이한 리스트들은 합쳐지고, 상기 가장 잘 매치되는 항목들의 후보 리스트는 상기 상이한 리스트들로부터의 요소들에 기초하여 생성되는 것인 방법.
- 청구항 1 내지 청구항 11 중 어느 한 항에 있어서, 상이한 언어 쌍들로 상이한 혼동 매트릭스들이 제공되고 복수의 리스트 요소들이 제공되는 경우, 그리고 상기 혼동 매트릭스 중 하나를 상기 후보 리스트를 결정하기 위하여 선택하여야 하는 경우, 최소의 평균 혼동 개수를 갖는 혼동 매트릭스가 선택되는 것인 방법.
- 청구항 12에 있어서, 상기 혼동 매트릭스 중 하나가 선택된 경우, 상기 상이한 리스트들의 요소들의 리스트가 상기 선택된 혼동 매트릭스에 따라서 선택되는 것인 방법.
- 청구항 12 또는 청구항 13에 있어서, 상기 최소의 평균 혼동 개수를 결정하기 위하여, 사용자 언어에 대한 적합도를 나타내는 스코어를 각각의 매트릭스에 대하여 계산하는 것인 방법.
- 청구항 14에 있어서, 상기 스코어는 각 매트릭스의 엔트로피를 결정함으로써 결정되고, 상기 엔트로피가 낮을수록 사용자 언어에 대한 적합도가 더 좋은 것인 방법.
- 청구항 14 또는 청구항 15에 있어서, 상기 스코어는 상호 정보를 결정함으로써 결정되고, 상기 상호 정보가 클수록 사용자 언어에 대한 적합도가 더 좋은 것인 방법.
- 청구항 14 내지 청구항 16 중 어느 한 항에 있어서, 상기 스코어는 상이한 매트릭스들을 이용하여 그리고 시험 데이터를 이용하여 인식 실험을 수행함으로써 결정되고, 가장 높은 인식율을 갖는 매트릭스가 상기 후보 리스트를 생성하는 데에 사용되는 것인 방법.
- 음성 입력을 통해 요소들의 리스트로부터 임의의 리스트 요소를 선택하는 음성 인식 시스템으로서,- 상기 음성 입력에 대한 하위단어 단위 열을 인식하는 하위단어 단위 음성 인식 유닛과;- 상기 인식된 하위단어 단위 열을 상기 요소들의 리스트와 비교하고, 그 비교 결과에 기초하여 가장 잘 매치되는 요소들의 후보 리스트를 생성하는 하위단어 단위 비교 유닛과;- 적어도 하나의 혼동 매트릭스를 저장하는 메모리를 포함하고,상기 각각의 매트릭스는 제1 언어의 하위단어 단위가 다른 언어의 하위단어 단위와 혼동될 혼동 가능성에 대한 정보를 포함하는 매트릭스 요소들을 포함하며,상기 하위단어 단위 비교 유닛은 상기 적어도 하나의 혼동 매트릭스에 기초하여, 상기 가장 잘 매치되는 요소들의 리스트를 생성하는 것인 음성 인식 시스템.
- 청구항 18에 있어서, 상기 혼동 매트릭스의 각 매트릭스 요소는 특정 하위단어 단위 쌍에 대한 혼동의 가능성을 나타내고, 상기 하위단어 단위 쌍은 제1 언어의 하위단어 단위와 제2 언어의 하위단어 단위를 포함하는 것인 음성 인식 시스템.
- 청구항 18 또는 청구항 19에 있어서, 상기 혼동 매트릭스는 상기 제1 언어의 가능한 하위단어 단위들이 제2 언어의 하위단어 단위들과 혼동될 가능성을 나타내는 것인 음성 인식 시스템.
- 청구항 18 내지 청구항 20 중 어느 한 항에 있어서, 상기 하위단어 단위 음성 인식 유닛은 제1 언어의 하위단어 단위들을 인식하도록 훈련되고, 상기 제1 언어 외의 언어의 음성 입력에 대한 하위단어 단위 열을 생성하는 것인 음성 인식 시스템.
- 청구항 18 내지 청구항 21 중 어느 한 항에 있어서, 상기 메모리는 상이한 언어들의 하위단어 단위 쌍들에 대한 혼동 가능성을 제공하는 상이한 혼동 매트릭스들을 포함하는 것인 음성 인식 시스템.
- 청구항 22에 있어서, 상기 하위단어 단위 쌍들의 두 언어를 결정하는 언어 쌍 결정 유닛을 더 포함하는 음성 인식 시스템.
- 청구항 18 내지 청구항 23 중 어느 한 항에 있어서, 상기 요소들의 리스트를 포함하는 데이터베이스가 제공되고, 상기 요소들의 리스트는 사용자를 상기 리스트의 목적지 위치 중 하나로 안내하기 위한 내비게이션 시스템에 사용되는 상이한 목적지 위치들에 대응하는 것인 음성 인식 시스템.
- 청구항 23 또는 청구항 24에 있어서, 상기 언어 쌍 결정 유닛은 상기 음성 인식 시스템의 사용자의 언어를 결정하는 사용자 언어 결정 유닛을 포함하고, 상기 사용자 언어는 상기 하위단어 단위 쌍의 언어 중 하나를 결정하는 데에 사용되는 것인 음성 인식 시스템.
- 청구항 18 내지 청구항 25 중 어느 한 항에 있어서, 상기 언어 쌍 결정 유닛은 차량이 이동하는 나라의 공식 언어들을 결정하는 나라 결정 유닛을 더 포함하고, 상기 언어들은 상기 언어 쌍의 다른 언어를 결정하는 데에 사용되는 것인 음성 인식 시스템.
- 청구항 26에 있어서, 상기 나라 결정 유닛은 차량 위치 결정 유닛을 포함하고, 이 차량 위치 결정 유닛은 실제 차량 위치를 결정하고, 차량이 이동하고 있는 나라의 공식 언어를 도출하는 것인 음성 인식 시스템.
- 청구항 18 내지 청구항 27 중 어느 한 항에 있어서, 복수의 혼동 매트릭스로부터 어느 혼동 매트릭스를 선택하는 혼동 매트릭스 선택 유닛이 제공되고, 상기 혼동 매트릭스 선택 유닛은 상기 언어 쌍 결정 유닛으로부터 수신되는 정보에 따라 상기 혼동 매트릭스를 선택하는 것인 음성 인식 시스템.
- 청구항 18 내지 청구항 28 중 어느 한 항에 있어서,- 차량이 이동하고 있는 나라의 공식 언어를 결정하는 공식 언어 결정 유닛과;- 혼동 매트릭스들로 이루어지는 그룹에서 임의의 혼동 매트릭스를 선택하는 혼동 매트릭스 선택부를 더 포함하고, 상기 그룹은 상기 혼동 매트릭스들을 포함하며, 이 혼동 매트릭스들에서 상기 언어 쌍 중 하나의 언어는 사용자 언어이고 상기 언어 쌍 중 다른 언어는 차량이 이동하고 있는 나라의 공식 언어 중 하나인 것인 음성 인식 시스템.
- 청구항 18 내지 청구항 29 중 어느 한 항에 있어서, 각 혼동 매트릭스의 평균 혼동 개수를 결정하는 혼동 결정 유닛이 제공되는 것인 음성 인식 시스템.
- 청구항 29 또는 청구항 30에 있어서, 상기 혼동 매트릭스 선택 유닛은, 하나의 언어는 사용자 언어이고 다른 언어는 상기 음성 인식 시스템이 사용되는 나라의 공식 언어인 언어 쌍을 갖는 몇몇 혼동 매트릭스가 제공된다면, 최소의 혼동 개수를 갖는 매트릭스를 선택하는 것인 음성 인식 시스템.
- 청구항 29 내지 청구항 31 중 어느 한 항에 있어서, 상기 혼동 매트릭스 선택 유닛은 어느 매트릭스가 최소의 혼동 개수를 갖고 있는지에 대한 정보를 제공하는 혼동 결정 유닛의 정보에 따라 혼동 매트릭스를 선택하는 것인 음성 인식 시스 템.
- 청구항 18 내지 청구항 32 중 어느 한 항에 있어서, 사용자 언어에 대한 적합도를 나타내는 스코어를 각각의 혼동 매트릭스에 대하여 결정하는 스코어 결정 유닛이 제공되는 것인 음성 인식 시스템.
- 청구항 29 내지 청구항 33 중 어느 한 항에 있어서, 상기 혼동 매트릭스 선택 유닛은 상기 상이한 매트릭스들의 스코어에 따라, 상기 복수의 혼동 매트릭스로부터 어느 혼동 매트릭스를 선택하는 것인 음성 인식 시스템.
- 청구항 18 내지 청구항 34 중 어느 한 항에 있어서, 상기 음성 인식 시스템은 청구항 1 내지 청구항 17 중 어느 한 항에 따른 방법에 따라 작동하는 것인 음성 인식 시스템.
- 요소들의 리스트로부터 가장 잘 매치되는 요소들의 후보 리스트를 생성하는 방법으로서,- 음성 입력으로부터 하위단어 단위 열을 생성하고,- 한 언어의 하위단어 단위들을 다른 언어의 하위단어 단위들과 관련시키는 혼동 매트릭스를 이용하여 상기 하위단어 단위 열을 음성 표기하고,- 상기 음성 표기된 열을 상기 요소들의 리스트와 비교하며,- 상기 비교 결과에 기초하여, 가장 잘 매치되는 요소들의 후보 리스트를 생성하는 것을 포함하는 것인 방법.
- 음성 입력을 통해 요소들의 리스트로부터 리스트 요소를 선택하는 음성 인식 시스템으로서,- 상기 음성 입력으로부터 하위단어 단위 열을 생성하는 수단과,- 상이한 언어들의 하위단어 단위들을 관련시키는 가능성을 포함하는 적어도 하나의 혼동 매트릭스를 저장하는 수단과,- 상기 적어도 하나의 혼동 매트릭스를 이용하여 상기 하위단어 단위 열을 상기 요소들의 리스트와 비교하는 수단과,- 상기 비교 결과에 기초하여, 가장 잘 매치되는 요소들의 후부 리스트를 생성하는 수단을 포함하는 것인 음성 인식 시스템.
- 청구항 37에 있어서, 상기 하위단어 단위 열의 언어는 상기 요소들의 리스트의 요소들의 언어와 상이하고, 상기 혼동 매트릭스는 상기 두 언어의 하위단어 단위들에 대한 혼동 가능성을 포함하는 것인 음성 인식 시스템.
- 청구항 38에 있어서,- 상기 후보 리스트로부터 임의의 요소를 선택하는 인식 수단과,- 상기 후보 리스트를 상기 인식 수단 내에 등재하는 수단을 더 포함하는 음성 인식 시스템.
- 음성 입력을 통해 요소들의 리스트로부터 임의의 리스트 요소를 선택하기 위한 프로세서-실행 가능한 명령어들을 갖는 프로세서 판독 가능한 매체로서,상기 명령어들은 어느 디바이스의 프로세서 상에서 실행되는 경우,- 상기 음성 입력에 대한 하위단어 단위 열을 인식하는 단계와,- 상기 인식된 하위단어 단위 열을 상기 요소들의 리스트와 비교하고, 그 비교 결과에 기초하여 가장 잘 매치되는 요소들의 후보 리스트를 생성하는 단계를 실행하며, 상기 비교 결과에 기초하여 가장 잘 매치되는 요소들의 후보 리스트를 생성하기 위하여, 상이한 언어들의 하위단어 단위들의 혼동 가능성에 대한 정보를 포함하는 매트릭스 요소들을 포함하는 혼동 매트릭스가 사용되는 것인 프로세서 판독 가능한 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP07105096.7A EP1975923B1 (en) | 2007-03-28 | 2007-03-28 | Multilingual non-native speech recognition |
EP07105096.7 | 2007-03-28 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080088490A true KR20080088490A (ko) | 2008-10-02 |
KR101526918B1 KR101526918B1 (ko) | 2015-06-08 |
Family
ID=38008294
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080028820A KR101526918B1 (ko) | 2007-03-28 | 2008-03-28 | 다언어 이국 음성 인식 |
Country Status (5)
Country | Link |
---|---|
EP (1) | EP1975923B1 (ko) |
JP (1) | JP5189874B2 (ko) |
KR (1) | KR101526918B1 (ko) |
CN (1) | CN101276585B (ko) |
CA (1) | CA2626651A1 (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103076893B (zh) * | 2012-12-31 | 2016-08-17 | 百度在线网络技术(北京)有限公司 | 一种用于实现语音输入的方法与设备 |
KR102084646B1 (ko) * | 2013-07-04 | 2020-04-14 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 방법 |
CN104021786B (zh) * | 2014-05-15 | 2017-05-24 | 北京中科汇联信息技术有限公司 | 一种语音识别的方法和装置 |
DE102014210716A1 (de) | 2014-06-05 | 2015-12-17 | Continental Automotive Gmbh | Assistenzsystem, das mittels Spracheingaben steuerbar ist, mit einer Funktionseinrichtung und mehreren Spracherkennungsmodulen |
DE112014007287B4 (de) * | 2014-12-24 | 2019-10-31 | Mitsubishi Electric Corporation | Spracherkennungsvorrichtung und Spracherkennungsverfahren |
WO2016176820A1 (en) * | 2015-05-05 | 2016-11-10 | Nuance Communications, Inc. | Automatic data switching approach in onboard voice destination entry (vde) navigation solution |
DE102015014206B4 (de) | 2015-11-04 | 2020-06-25 | Audi Ag | Verfahren und Vorrichtung zum Auswählen eines Navigationsziels aus einer von mehreren Sprachregionen mittels Spracheingabe |
CN107195296B (zh) * | 2016-03-15 | 2021-05-04 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置、终端及系统 |
US10249298B2 (en) | 2017-01-11 | 2019-04-02 | Here Global B.V. | Method and apparatus for providing global voice-based entry of geographic information in a device |
US10593321B2 (en) * | 2017-12-15 | 2020-03-17 | Mitsubishi Electric Research Laboratories, Inc. | Method and apparatus for multi-lingual end-to-end speech recognition |
CN117935785A (zh) * | 2019-05-03 | 2024-04-26 | 谷歌有限责任公司 | 用于在端到端模型中跨语言语音识别的基于音素的场境化 |
CN115083437B (zh) * | 2022-05-17 | 2023-04-07 | 北京语言大学 | 一种确定学习者发音的不确定性的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992020344A1 (en) * | 1991-05-16 | 1992-11-26 | Glaxo Group Limited | Antiviral combinations containing nucleoside analogs |
DE10207895B4 (de) * | 2002-02-23 | 2005-11-03 | Harman Becker Automotive Systems Gmbh | Verfahren zur Spracherkennung und Spracherkennungssystem |
AU2003273357A1 (en) | 2003-02-21 | 2004-09-17 | Harman Becker Automotive Systems Gmbh | Speech recognition system |
JP4333838B2 (ja) * | 2003-07-04 | 2009-09-16 | マイクロジェニックス株式会社 | 複数言語音声認識プログラム及び複数言語音声認識システム |
JP2006084966A (ja) * | 2004-09-17 | 2006-03-30 | Advanced Telecommunication Research Institute International | 発話音声の自動評定装置およびコンピュータプログラム |
CN100431003C (zh) * | 2004-11-12 | 2008-11-05 | 中国科学院声学研究所 | 一种基于混淆网络的语音解码方法 |
ATE385024T1 (de) | 2005-02-21 | 2008-02-15 | Harman Becker Automotive Sys | Multilinguale spracherkennung |
-
2007
- 2007-03-28 EP EP07105096.7A patent/EP1975923B1/en not_active Not-in-force
-
2008
- 2008-03-20 CA CA002626651A patent/CA2626651A1/en not_active Abandoned
- 2008-03-27 JP JP2008084074A patent/JP5189874B2/ja not_active Expired - Fee Related
- 2008-03-28 CN CN200810086920.4A patent/CN101276585B/zh not_active Expired - Fee Related
- 2008-03-28 KR KR1020080028820A patent/KR101526918B1/ko not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR101526918B1 (ko) | 2015-06-08 |
EP1975923A1 (en) | 2008-10-01 |
EP1975923B1 (en) | 2016-04-27 |
JP5189874B2 (ja) | 2013-04-24 |
CN101276585A (zh) | 2008-10-01 |
CA2626651A1 (en) | 2008-09-28 |
JP2008242462A (ja) | 2008-10-09 |
CN101276585B (zh) | 2013-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101526918B1 (ko) | 다언어 이국 음성 인식 | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP6188831B2 (ja) | 音声検索装置および音声検索方法 | |
US7949524B2 (en) | Speech recognition correction with standby-word dictionary | |
EP1693828B1 (en) | Multilingual speech recognition | |
KR100679042B1 (ko) | 음성인식 방법 및 장치, 이를 이용한 네비게이션 시스템 | |
JP5089955B2 (ja) | 音声対話装置 | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
EP0769184B1 (en) | Speech recognition methods and apparatus on the basis of the modelling of new words | |
US20070124147A1 (en) | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems | |
JPWO2009028647A1 (ja) | 非対話型学習装置及び対話型学習装置 | |
US8306820B2 (en) | Method for speech recognition using partitioned vocabulary | |
JP2008268571A (ja) | 音声認識装置、その音声認識方法 | |
JP2014164261A (ja) | 情報処理装置およびその方法 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP4661239B2 (ja) | 音声対話装置及び音声対話方法 | |
Kou et al. | Fix it where it fails: Pronunciation learning by mining error corrections from speech logs | |
JP5004863B2 (ja) | 音声検索装置および音声検索方法 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
JP4736962B2 (ja) | キーワード選択方法、音声認識方法、キーワード選択システム、およびキーワード選択装置 | |
KR20060098673A (ko) | 음성 인식 방법 및 장치 | |
KR20030010979A (ko) | 의미어단위 모델을 이용한 연속음성인식방법 및 장치 | |
JPWO2009147745A1 (ja) | 検索装置 | |
JP2008083165A (ja) | 音声認識処理プログラム及び音声認識処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |