KR20010024521A - 음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치 - Google Patents

음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치 Download PDF

Info

Publication number
KR20010024521A
KR20010024521A KR1020007004103A KR20007004103A KR20010024521A KR 20010024521 A KR20010024521 A KR 20010024521A KR 1020007004103 A KR1020007004103 A KR 1020007004103A KR 20007004103 A KR20007004103 A KR 20007004103A KR 20010024521 A KR20010024521 A KR 20010024521A
Authority
KR
South Korea
Prior art keywords
evaluation
acoustic
model
models
voice
Prior art date
Application number
KR1020007004103A
Other languages
English (en)
Inventor
가쯔끼 미나미노
Original Assignee
이데이 노부유끼
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이데이 노부유끼, 소니 가부시끼 가이샤 filed Critical 이데이 노부유끼
Publication of KR20010024521A publication Critical patent/KR20010024521A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식 장치는 음성 신호를 분석하기 위한 음향 분석부, 및 음향 모델 및 언어 모델을 사용하여 음성을 인식하기 위한 인식부를 구비한다. 인식부는 평가될 보델을 제한하면서 순서대로 평가 모델을 평가하기 위한 제1 스코어링부, 평가 모델을 역순으로 동일하게 평가하기 위한 제2 스코어링부, 및 제1 및 제2 스코어링부의 평가 결과에 기초하여 후보 단어를 선택하기 위한 선택부를 구비한다. 그 결과, 후보 단어들이 고속으로 음성 신호의 인식으로부터 발견될 수 있다.

Description

음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화 장치 및 정보 처리 장치{SPEECH RECOGNIZING DEVICE AND METHOD, NAVIGATION DEVICE, PORTABLE TELEPHONE, AND INFORMATION PROCESSOR}
종래부터, 입력 음성 신호에 대응한 단어의 계열을 자동적으로 결정하는 음성 인식의 기술이 제공되고 있다.
이러한 음성 인식의 기술은, 음성에 의해 데이터 베이스의 검색이나 기기의 조작을 행할 수 있도록 하거나, 혹은, 각종 정보 기기에의 데이터의 입력을 음성으로 행할 수 있도록 하기 위해 사용된다.
예를 들면, 음성에 의해서 어떤 지명에 관한 조회가 입력된 경우에, 이것을 인식하고, 그 결과로부터 대응하는 지명을 골라 내고, 그 지명에 관한 지도 등의 정보를 출력한다고 하는 데이터 베이스 검색 장치가 고려된다.
혹은, 음성에 의해 어떤 커맨드가 입력된 경우에, 그것을 인식하여 대응하는 동작을 행하는 장치, 또한, 키보드로 데이터를 입력하는 대신에, 음성으로 데이터를 입력할 수 있도록 한 시스템 등이 고려된다.
이러한 음성 인식에 관한 종래 기술에 대해 구체적으로 설명한다.
음성 인식 장치의 구성을 도 1에 도시한다. 음성 인식 장치는, 통상은, 음성 신호로부터 특징량이 추출되는 음향 분석(acoustic analysis)부(1O1)와, 특징 계열로부터 단어 계열이 결정되는 인식 처리(recognition process)부(102)와, 음운 등을 모델화한 음향 모델(acoustic model: 103)과, 음향 모델(103)의 접속 관계를 모델화한 언어 모델(langage model: 104)로 구성된다.
우선, 입력 음성 신호가 음향 분석부(101)에 보내지고, 여기서, 인식에 필요한 특징량의 추출이 미소 시간 간격으로 행해진다. 예를 들면, 신호의 에너지, 0 교차수, 피치, 주파수 특성, 및 이들 변화량 등이 추출된다. 주파수 분석에는, 선형 예측 분석(LPC), 고속 푸리에 변환(FFT), 대역 통과 필터(BPF) 등이 이용된다. 또한, 이들의 특징량은 벡터로서 추출되거나, 양자화가 행해져서 스칼라로서 추출되기도 한다. 그리고, 이 특징량 계열은, 인식 처리부(102)로 보내진다.
인식 처리부(102)에서는, 음향 모델(103)과 언어 모델(104)을 이용하여, 음향 분석부(101)로부터 보내져오는 특징량 계열에 대응하는 단어 계열을 결정하고, 이것을 출력한다. 인식 수법으로서는, DP 매칭, 뉴럴 네트워크, HMM(Hidden Markov Model) 등이 널리 이용되고 있다.
DP 매칭은, 템플릿이라 불리는 표준 패턴과의 비교에 의해 인식을 행하는 것이다. 뉴럴 네트워크는, 인간의 뇌의 구조를 모방하는 네트워크 모델에 의해 인식을 행하고자 하는 것이다. 또한, HMM이란, 상태 천이 확률과 심볼 출력 확률을 갖는 상태 천이 모델로서, 이 확률 모델에 의해 인식을 행하고자 하는 것이다.
어느 것이나, 학습 과정 있어서, 음향 모델(103)과 언어 모델(104)에 상당하는, 템플릿이나, 네트워크 모델의 무게 계수, HMM의 확률·통계치 등을 미리 결정해 둘 필요가 있다. 그 때, 음향 모델(103)로서는, 음운, 음절, 단어, 프레이즈, 문장 등, 여러가지 레벨로 모델화하는 것이 가능하다.
한편, 언어 모델(104)은 음향 모델(103)의 접속 관계를 모델화한 것으로, 몇개의 음향 모델(103)을 접속하여 얻어지는 단어나 프레이즈, 문장 등을 인식할 수 있도록 하기 위해 이용된다.
인식 처리 과정(102)에서는, 이들 음향 모델(103)과 언어 모델(104)을 이용하여, 여러가지 단어의 계열에 대해 스코어를 매기고, 그 스코어가 가장 높은 단어 계열, 혹은 상위 복수의 단어 계열을 인식 결과의 가설로서 골라 내는 작업이 행해진다.
또, 하나의 입력 음성에 대해, 대응하는 한 단어를 골라 내는 경우를 단어 인식이라 부르고, 대응하는 단어의 계열을 골라 내는 경우를 연속 단어 인식 혹은 연속 음성 인식이라 부르는 경우가 있지만, 여기서는 이들을 구별하지 않고서 출력은 전부 단어 계열로서 취급하도록 한다.
여기서, HMM을 이용한 음성 인식에 대해, 더 상세히 진술한다.
우선, 일본어의 가나에 대응하는 HMM을 구성하고, 이것을 음향 모델(103)로서 미리 구해 놓는다. 이것은, 복수의 상태를 패스로 연결한 상태 천이 모델로서 모델화된 것으로, 상태 천이 확률과 심볼 출력 확률이라 불리는 확률 파라미터가, 어떤 평가치를 최대화하도록 결정된 것으로서 정의된다.
통상, 대응하는 음성 신호를 분석하고, 그 얻어진 특징량 계열의 생기 확률이 높아지도록 파라미터가 결정된다. 예를 들면, 『あ』에 대응하는 HMM은『あ(아)』라고 발성된 음성 신호로부터 얻어지는 특징량 계열의 생기 확률이 높아지도록 파라미터가 결정된다. 이러한 HMM을 이용함으로써, 각각의 가나에 대한 생기 확률의 계산이 실행 가능해진다.
그런데, 언어 모델(104)에, 예를 들면, 『今日(きょう)』, 『明日(あす)』, 『1(いち)』, 『2(に)』,『3(さん)』등의 사전이 주어진 경우, 각각은 가나를 접속하여 구성할 수 있기 때문에, 가나에 대응하는 음향 모델(HMM)을 연결함으로써, 각각의 단어에 대한 생기 확률(스코어)의 계산이 가능해진다.
마찬가지로 하면, 가나를 접속하여 이루어지는 임의의 단어에 대한 스코어 계산이 가능해진다. 이것에 의해, 언어 모델(104)에 새로운 단어를 추가하거나, 다른 사전으로 치환하거나 하는 것도 용이하게 행할 수 있게 된다. 만약에 『4(よん)』과『4(し)』와 같이, 동일 단어로 복수의 읽는 방법을 갖는 것이 있으면, 각각을 사전의 엔트리로서 언어 모델(104)에 포함시킴으로써, 어느쪽의 발성에 대해서도 스코어의 계산을 행하는 것이 가능해진다.
마찬가지로, 『9시부터 10시까지(くじからじゅうじまで)』와 같은 문장도, 하나의 단어로서 취급하고, 사전의 하나의 엔트리로서 언어 모델에 포함시키는 것도 가능하다. 다만, 일반적으로, 인식 처리부(102)의 처리 능력에는 한계가 있어, 취급할 수 있는 어수에 제한을 받는 경우가 많다.
그래서, 단어의 접속 관계나 의미적인 연결 등을 언어 모델(104)에 기억해 놓고, 그 제한을 이용하면서, 연속한 단어의 배열에 대한 스코어의 계산을 행하도록 함으로써, 보다 대규모이고 복잡한 것을 취급할 수 있도록 한 방법이 이용된다.
상기의 예의 경우, 언어 모델(104)에, 『0(ぜろ)』으로부터『24(にじゅうよん)』까지의 숫자와, 『시(じ)』, 『∼로부터』, 『∼까지』라는 단어를 사전으로서 갖고, 이것에 의해 가나를 단위로 하는 음향 모델의 접속 관계를 나타내며, 또한『(숫자)』+『시』+『∼로부터』+『(숫자)』+『시간』+『∼까지』라는 룰을 갖는 것으로, 단어의 접속 관계를 나타내면, 『(숫자)시로부터 (숫자)시까지』라는 문장을 전부 취급하는 것이 가능해진다.
또, 언어 모델(104)로서, 접속 관계에 천이 확률 등의 확률치를 매립함으로써 정밀한 모델로 하는 방법도 널리 이용되고 있다.
이상과 같이, HMM을 이용한 음성 인식에서는, 음향 모델(103)을 언어 모델(104)에 따라서 접속하고, 그 취급할 수 있는 모든 단어 계열 중으로부터 스코어가 가장 높은 것, 혹은 상위 복수 후보를 골라 냄으로써, 입력 음성 신호에 대응하는 단어 계열의 결정이 행해진다.
또한, 여기서는, 가나에 대응하는 HMM을 이용하는 예를 나타내었지만, 음운, 음절 등의 다른 인식 단위의 HMM을 접속하여 실현하거나, 단어 단위의 HMM을 이용하는 등도 가능하다. 또한, 음향 모델(103)로서, HMM이 아니라, DP 매칭으로 이용되는 템플릿이나, 뉴럴 네트워크 등을 이용하는 것도 가능하다.
그런데, 여기서 음성 인식의 문제를 일반화해 놓는다. 음향 분석부(101)로부터 보내져오는 특징량 계열을
X= {x1, x2, …, xT}
로 한다.
이 때, 음향 모델(103)과 언어 모델(104)에 의해 취급할 수 있는 모든 단어계열에 대해 스코어를 매긴 경우, 각 단어 계열
W1, W2, …, WT에 대해 스코어
S(W1, W2, …, WN|X1, X2,…, XT)
가 구해지게 된다.
따라서, 이 스코어를 최대화하는 단어 계열, 혹은 상위 복수 후보를 구하는 문제로서, 정식화를 행할 수 있다.
스코어의 계산 방법이나 값은, 음향 모델(103)이나 언어 모델(104)의 차이에 따라 다르지만, 여기서는, 상태 천이 모델을 이용한 스코어 계산 방법에 대해 간단하게 설명한다.
음향 모델(103)을 어떤 상태 천이 모델로 나타내는 경우, 언어 모델(104)에 따라서 음향 모델(103)을 접속함으로써, 취급할 수 있는 모든 단어 계열을 표현하기 위한 대규모의 상태 천이 네트워크를 구성하는 것이 가능해진다.
예를 들면, 3개의 단어 w1, w2, w3이 제공되고, 각 단어의 접속에 대해, 도 2에서 도시된 바와 같은 단어 사이의 천이에 관한 제약이 제공되었다고 한다. 즉, 개시(start)로부터 w1, w2, w3으로 천이하고, w1, w2, w3으로부터는 종료(end) 및 w1, w2, w3으로 천이한다. 이 때, 단어 w1, w2, w3을 조합하여 이루어지는 모든 단어 계열을 취급하는 것이 가능해진다. 이러한 네트워크를 단어 네트워크라 부르기로 한다.
한편, 음향 모델(1O3)로서 p2, p2, p3, …, p9가 제공되고, 각각의 음향 모델 p1이 n개의 상태를 갖는 상태 천이 모델로서 모델화되어 있도록 한다. 예를 들면, p1에서는, 음운이나, 음절, 혹은 가나 등을 모델화한 것이 고려된다. 도 3은, 3개의 상태에서 모델화된 음향 모델(103)의 일례를 나타내고 있다.
여기서, 각각의 단어 w1, w2, w3에 대해, 다음과 같은 음향 모델(103)의 접속에 관한 제약이 제공되었다고 한다. 예를 들면, 각 단어에 대해 음운 표기나 음절 표기, 혹은 가나 표기 등이 제공되어 있는 경우이다.
w1: p1p2p4p7p9
w2: p1p2p5p8p9
w3: p1p3p6p8p9
이 때, 도 4에 도시되는 바와 같은, pi를 노드로 하는 네트워크를 구성할 수가 있다. 또한, 각각의 pi를, 대응하는 음향 모델(103)의 상태 천이 모델로 치환하면, 도 5에 도시되는 바와 같은 상태 천이 네트워크를 얻을 수 있다.
통상, 이러한 상태 천이 네트워크에는, 초기 노드와 최종 노드가 설정된다. 그리고, 네트워크의 작성 방법으로부터도 알 수 있듯이, 초기 노드와 최종 노드를 연결하는 모든 경로에 대해, 어떤 단어 계열을 대응시키는 것이 가능해진다.
그리고, 이 상태 천이 네트워크 상의 각 노드에는, 음향 분석부(101)로부터 보내져오는 특징량 xi와의 유사성을 평가하기 위한 평가 척도가 얻어진다. 예를 들면, 템플릿이라 불리는 표준 패턴과의 거리로서 제공되거나, 미리 학습을 행한 뉴럴 네트워크나 확률 밀도 함수를 이용하여, 그 유사성을 수치화하는 방법 등에 의해서 그 평가 척도가 제공되기도 한다.
여기서, 네트워크 상의 각 상태를 s1, s2, …, sn으로 나타내도록 한다. 이 때, 어떤 상태 si의 시각 t에서의 누적 스코어 α(t)는, 예를 들면, 다음과 같은 점화식을 이용하여 계산하는 것이 가능해진다.
다만, αji는 상태 Si로부터 Si로 천이할 때에 제공되는 스코어이고, di(xt)는 상술한 바와 같은, 상태 si에 있어서 제공되는 특징량 xt와의 유사도를 나타내는 스코어이다.
즉, 각 상태 Si에 있어서 계산되는 국소적인 유사도 di(Xt)를, 상태 천이 시의 스코어αji를 가미하면서 시간과 함께 누적함으로써, 누적 스코어 αi(t)가 계산되어 가게 된다.
또, αi(t)의 계산에는, 수학식 1 대신에, 다음의 식에 의해 계산이 행해지는 경우도 있다.
이것은, 소위 비터비 알고리즘(Viterbi algorithm)이라 불리는 계산 방법이고, 연산량을 삭감하기 위해 종종 이용되는 수법이다.
그리고, 최종 시각 t=T에 있어서, 상태 천이 네트워크 상의 최종 노드에 있어서의 누적 스코어를 구한 후, 그 스코어를 제공하는 초기 노드로부터 최종 노드까지의 경로를 찾아 내기 시작하여, 그 경로에 대응하는 단어 계열 W1, W2,…, WN에 대해 얻어진 스코어를
S(W1, W2, …, WN|X1, X2, …, XT)
로서 제공한다.
αji의 값이나 di(xt)의 계산 방법, 및 αi(t)의 스코어의 누적 방법은, 제공되는 음향 모델(103)이나 언어 모델(104)에 의해 다르지만, 상술한 바와 같은 상태 천이 네트워크 상에서의 스코어 계산과, 스코어가 가장 좋은 경로, 혹은 상위 복수의 경로로부터, 대응하는 단어 계열을 구한다고 하는 수법은, 음성 인식에 있어서 널리 이용되고 있다.
또한, 상태 천이 네트워크의 구성의 방법에 의해, 특히, 초기 노드와 최종 노드의 설정의 방법에 의해, 하나의 단어 계열로 밖에 스코어를 매길 수 없거나, 복수의 단어 계열로 스코어를 매기는 것이 가능한 경우도 있다.
또한, 상태 천이 네트워크를 미리 완전하게 작성해 놓는 것이 아니라, 시간의 경과와 함께 축차적으로 작성하면서, 스코어의 계산을 행하는 방법도 고려된다.
그런데, 이러한 상태 천이 네트워크 상에서의 스코어의 계산을 고려한 경우, 음향 분석부(101)로부터 보내져오는 특징량 xt에 대해, 모든 상태 si에 있어서 누적 스코어 αi(t)를 계산하는 것은 원리적으로는 가능하지만, 어휘수가 많아지거나, 취급해야 되는 단어 계열의 종류가 증가하면, 상태 천이 네트워크의 노드수가 매우 많아져, 그 결과, 계산량이 매우 방대하게 된다고 하는 문제가 발생한다.
이것을 해결하는 방법으로서, 지금까지 여러가지 방법이 제안되어 있다. 그 하나로, 상태 천이 네트워크 그 자체를 작게 하는 방법이 이미 제안되어 있다. 이것은, 상태 네트워크 상의 중복한 부분을 묶어서 공통화한다고 하는 방법이다.
예를 들면, 『京都(きょうと)』와『競爭(きょうそう)』라는 단어가 제공된 경우, 어두의『きょう(쿄)』의 부분은 공통이다. 그래서 이러한 어두의 공통 부분을, 네트워크 상에서 묶음으로써, 상태 천이 네트워크의 노드 수를 적게 하는 것이 가능해진다.
상술의 도 2에 도시된 3단어 w1, w2, w3으로 구성되는 네트워크의 예에서는,어두의 p1이나 p2가 공통이기 때문에, 도 4에서 도시되는 네트워크를, 도 6과 같이 압축하는 것이 가능해진다. 즉, 도 4의 어두의 p1이나 p2를 묶어 도 6과 같이 공통화함으로써 네트워크를 압축시킬 수가 있다.
마찬가지로, 어미에 공통의 부분을 갖는 단어도 수많이 존재한다. 이들을 묶음으로써, 상태 천이 네트워크의 노드 수를 더욱 작게 하는 것도 가능해진다. 상기한 예에서는, 어미의 p8이나 p9도 공통으로 묶을 수 있기 때문에, 도 6에서 도시된 네트워크를 도 7과 같은 네트워크로 압축하는 것도 가능해진다. 즉, 도 4의 어미의 p8이나 p9를 묶어 도 7과 같이 공통화함으로써, 네트워크를 압축시킬 수가 있다.
그리고, 압축된 네트워크에 있어서, 각 노드 p1을 음향 모델의 상태 천이 모델로 치환하면, 보다 작은 상태 천이 네트워크가 얻어지게 된다. 이에 따라, 상술의 계산량의 문제를 조금 완화하는 것이 가능해진다.
그러나, 가령 이와 같이 상태 천이 네트워크의 압축을 행하였다고 해도, 거기에 포함되는 상태 수가 많으면, 누적 스코어의 계산을 행하기 위해 필요로 하는 계산량은 여전히 큰 상태 그대로이므로, 그 계산량을 더욱 작게 하고 싶다고 하는 요구가 종종 발생된다.
그래서, 이것을 해결하는 방법으로서, 빔 검색이라 불리는 가지치기 수법이 널리 이용되고 있다. 이것은, 상태 천이 네트워크에 포함되는 모든 상태 Si에 대해 스코어 αi(t)의 계산을 행하는 것이 아니라, 어떠한 기준에 기초하여 스코어 계산하여야 할 것을 선택하고, 선택된 상태만 스코어의 계산을 행한다고 하는 방법이다.
어떤 상태 Si의 스코어 계산을 행하는지를 선택하는 기준으로서는, 어떤 시각 t의 누적 스코어에 기초하여, 스코어가 가장 좋은 것으로부터 상위 k개만을 남기는 방법이나, 어떤 임계치를 설정하여, 그보다 좋은 스코어만큼 남기는 방법 등이 있다.
여기서, 주의해야 할 점은, 모든 상태에 대해 누적 스코어의 계산을 행하면, 상태 천이 네트워크 상에서 가장 좋은 스코어를 제공하는 경로를 반드시 결정할 수 있는데 대해, 스코어 계산하여야 할 상태 si의 수가 제한되게 되면, 이 가장 좋은 스코어를 제공하는 경로가 얻어진다고 하는 보증이 없어지게 된다고 하는 문제가 새롭게 발생된다고 하는 것이다.
이것에 대한 해결 방법은, 스코어 계산하여야 할 상태 si의 수를 될 수 있는 한 많게 한다고 하는 것이 가장 간단한 방법이다. 일반적으로, 스코어 계산하여야 할 상태 si의 수가 증가하면 증가할 수록 가장 좋은 스코어를 제공하는 경로가 얻어질 가능성이 높아진다. 한편, 음향 모델(103)이나 언어 모델(104)은 올바른 단어계열에 대응하는 경로로부터 가장 좋은 스코어가 구해지도록 설계가 행해진다.
따라서, 스코어 계산하여야 할 상태 si의 수가 증가하면 증가할수록 올바른 단어 계열이 얻어질 가능성이 높아지는 것을 기대할 수 있게 된다. 그래서, 올바른 단어 계열이 얻어지는 비율, 즉 인식율이 될 수 있는 한 높아지도록, 또한 스코어 계산하여야 할 상태 si의 수가 될 수 있는 한 적어지게 되도록, 빔 검색에 있어서의 임계치 등의 조정을 행한다고 하는 방법이 종래부터 행해지고 있다. 또한, 경우에 따라서는, 시스템이 갖는 계산 파워 등의 제약으로부터, 다소의 인식율의 저하를 허용하더라도, 스코어 계산하여야 할 상태 수를 원하는 수보다 적게 되도록, 제약을 강화하여 설정한다는 것이 행해지기도 한다.
그러나, 기본적으로는, 계산량과 인식율의 트레이드 오프의 문제이고, 제약을 지나치게 강화하면, 인식율의 대폭적인 저하를 초래하기 때문에 바람직하지 않다. 그래서, 인식율을 될 수 있는 한 저하시키지 않고서 계산량을 작게 하는 방법으로서, 스코어 계산하여야 할 상태수를 제한하기 위한 임계치를 일정치로 하는 것이 아니라 동적으로 변동시키는 방법이나, 방금 전의 시각까지의 특징량 계열을 이용하여 간단한 평가를 행하고, 그 결과에 기초하여 현 시각에 있어서 스코어 계산하여야 할 상태를 제약하는 방법 등도 제안되어 있다.
또한, 특징량 계열 전체를 이용하여 제한을 행하는 방법, 즉, 현 시각으로부터 최종 시각까지의 특징량 계열에 의해 누적되는 스코어를 추정하고, 현 시각까지 이미 계산이 행해진 누적 스코어에 그 추정치를 가한 것을 구하며, 그 값에 기초하여 스코어 계산하여야 할 상태를 제한한다고 하는 방법도 제안되어 있다.
예를 들면, 최대 제1(best-first)로 누적 스코어의 계산을 진행시켜 가는 수법(A*검색)이나, 상술한 빔 검색과 같이, 스코어 계산하여야 할 상태를 제한하면서, 시간에 동기하여 누적 스코어의 계산을 진행시키는 수법(A*빔 검색) 등이다. 특히, A*검색에 있어서, 그 추정치가 실제로 구해지는 값에 어느 정도 근사해야 된다는 조건을 만족시키는 경우에는, 모든 상태에 대한 누적 스코어의 계산을 행한 시간과 동일 결과, 즉, 상태 천이 네트워크 상에서 가장 좋은 스코어를 제공하는 경로가 구해지는 것이 보증된다.
더구나, 이들 수법에서는, 그 추정치가, 실제로 계산을 행한 경우의 값과 가까우면 가까울수록, 누적 스코어의 계산에 요하는 계산량을 삭감시키는 효과가 높아지게 되는 것을 기대할 수 있다.
그러나, 추정치의 계산이 여분으로 발생하게 되어, 이 계산량은 될 수 있는 한 작게 해 두는 것이 바람직하며, 또한, 정밀도가 높은 추정치를 얻는 것은 매우 어렵다.
반대로, 추정치의 정밀도가 낮으면, A*검색은 폭 제1(breadth-first)로 누적 스코어의 계산을 진행시켜 가는 수법에 근접하기 때문에, 누적 스코어의 계산에 요하는 계산량이 대폭 증가하게 되고, A*빔 검색도, 상술한 빔 검색에 가깝게 되기 때문에, 계산량과 인식율의 트레이드 오프의 문제가 다시 발생하게 된다.
또한, A*검색이나 A+빔 검색에서는, 특징량 계열의 종단으로부터 시단에 걸쳐서 스코어의 누적을 행해 가는 방법도 제안되어 있다.
이 경우에는, 현 시각으로부터 초기 시각까지의 특징량 계열에 의해 누적되는 스코어가 추정되고, 현 시각까지 이미 계산이 행해진 최종 시각으로부터의 누적 스코어에 그 추정치를 가한 것을 구하고, 그 값에 기초하여 스코어 계산하여야 할 상태가 제한되게 된다.
그러나, 처리를 진행시켜 가는 방향이 다를 뿐으로, 상술한 A*검색이나 A*빔 검색이 갖는 문제가 해결되어 있는 것은 아니다.
본 발명은, 입력 음성 신호에 대응한 단어의 계열을 자동적으로 결정하는 음성 인식 장치 및 방법, 특히, 인식 결과가 되는 단어의 계열을 고속으로 구하는 음성 인식 장치 및 방법, 및 상기 음성 인식을 이용한 내비게이션 장치, 휴대 전화 장치 및 정보 처리 장치에 관한 것이다.
도 1은 음성 인식 장치의 개략적인 구성을 나타낸 블록도.
도 2는 3 단어 w1, w2, w3의 접속에 관한 제약의 예를 나타낸 도면.
도 3은 상태 천이 모델로 모델화된 음향 모델의 예를 나타낸 도면.
도 4는 음향 모델의 네트워크의 예를 나타낸 도면.
도 5는 상태 천이 네트워크의 예를 나타낸 도면.
도 6은 네트워크의 어두의 공통 부분을 묶은 네트워크를 나타낸 도면.
도 7은 도 6의 네트워크로부터, 어미의 공통 부분을 더욱 묶어 얻어지는 네트워크를 나타낸 도면.
도 8은 음성 인식 장치의 개략적인 구성을 나타낸 블록도.
도 9는 음성 인식 장치의 인식부의 내부의 구성을 나타낸 블록도.
도 10은 음성 인식의 처리 과정을 나타낸 플로우차트.
도 11은 단어 w1, w2, w3을 이용한 단어 음성 인식에 이용하는 네트워크를 나타낸 도면.
도 12는 단어 w1, w2, w3을 이용한 단어 음성 인식에 이용하는 네트워크를 나타낸 도면.
도 13은 단어 인식 실험의 결과를 나타낸 도면.
도 14는 상태 천이 네트워크의 일례를 나타낸 도면.
도 15는 처리 과정을 개량한 플로우차트.
도 16A는 상태 천이 네트워크 상의 모든 상태에 있어서의 스코어 계산을 한 경우를 나타낸 도면.
도 16B는 전방 스코어의 계산과 후방 스코어의 계산을 이용하여 스코어 계산을 한 경우를 나타낸 도면.
도 16C는 단순하게 누적 스코어의 계산을 행하는 상태수를 제한하면서 스코어 계산을 한 경우를 나타낸 도면.
도 17은 내비게이션 장치의 개략적인 구성을 나타낸 블록도.
도 18은 내비게이션 장치를 자동차에 탑재시킨 상태를 나타낸 사시도.
도 19는 내비게이션 장치를 자동차에 탑재시킨 경우의 운전석의 근방을 나타낸 사시도.
도 20은 휴대 전화 장치의 개략적인 구성을 나타낸 블록도.
도 21은 휴대 전화 장치의 외관을 나타낸 사시도.
도 22는 정보 처리 장치의 개략적인 구성을 나타낸 블록도.
본 발명은, 상술한 실정에 감안하여 이루어진 것으로, 인식 정밀도를 떨어뜨리지 않고, 종래보다도 고속으로, 가장 스코어가 좋은 단어의 계열을 구할 수 있는 음성 인식 장치 및 방법, 및 상기 음성 인식을 이용한 내비게이션 장치, 휴대 전화 장치 및 정보 처리 장치를 제공하는 것을 목적으로 한다.
본 발명에 따른 음성 인식 장치는, 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 장치에 있어서, 상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과, 상기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 수단과, 상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 갖는다.
본 발명에 따른 음성 인식 방법은, 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석 공정과, 상기 음향 분석 공정으로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리 공정을 갖는 음성 인식 방법에 있어서, 상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 공정과, 상기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 공정과, 상기 제1의 평가 공정 및 제2의 평가 공정으로부터 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 공정을 갖는다.
본 발명에 따른 내비게이션 장치는, 차량의 현재 위치를 검출하기 위한 현재 위치 검출 장치와, 차량의 진행 방향을 검출하는 방향 검출 장치와, 도로 지도 정보가 기억된 기억 수단과, 상기 현재 위치 검출 수단에 의해 검출된 차량의 현재 위치와 상기 기억 수단으로부터 판독된 도로 지도 정보에 기초하여, 상기 차량의 현재 위치를 도로 상에 위치하도록 수정한 현재 위치 정보를 산출하는 연산 처리 수단과, 음성 신호가 입력되는 음성 입력 수단과, 상기 음성 입력 수단에 입력된 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 수단에 있어서, 상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로써 되는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과, 상기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 수단과, 상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 지니고, 상기 음성 입력 수단으로부터 입력된 음성 신호를 인식하는 음성 인식 수단과, 상기 연산 처리 수단에 의해 산출된 현재 위치 정보에 기초하여 상기 기록 수단으로부터 도로 지도 정보를 판독함과 함께, 상기 음성 인식 수단으로부터 얻어진 음성 인식 정보에 기초하여 동작 상태를 제어하는 제어 수단과, 상기 기억 수단으로부터 판독된 도로 지도 상에 상기 현재 위치 정보에 의한 현재 위치를 표시하는 표시 수단을 갖는 것이다.
본 발명에 따른 휴대 전화 장치는, 무선 주파수의 전자파를 이용하여 기지국 사이에서 통신을 행하는 휴대 전화 장치에 있어서, 음성 신호가 입력되는 음성 입력 수단과, 키 조작에 의해 정보가 입력되는 키 입력 수단과, 상기 음성 입력 수단에 입력된 음성 신호를 무선 주파수의 신호로 변조하는 변조 수단과, 상기 변조 수단으로부터 보내진 무선 주파수의 신호를 송신함과 함께, 무선 주파수의 신호를 수신하는 안테나와, 상기 안테나로 수신된 무선 주파수의 신호를 음성 신호로 복조하는 복조 수단과, 상기 복조 수단으로 음성 신호로 복조된 상기 안테나로 수신된 무선 주파수의 신호를 출력하는 음성 출력 수단과, 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 수단에 있어서, 상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과, 상기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 수단과, 상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 지니고, 상기 음성 입력 수단으로부터 입력된 음성 신호를 인식하는 음성 인식 수단과, 상기 키 입력 수단에 입력된 정보 또는 상기 음성 인식 수단으로 인식된 음성 인식 정보과 기초하여, 통신 동작을 제어하는 제어 수단을 갖는 것이다.
본 발명에 따른 정보 처리 장치는, 프로그램이 기억된 기억 수단과, 키 조작에 따라서 정보가 입력되는 키 입력 수단과, 음성 신호가 입력되는 음성 입력 수단과, 상기 음성 입력 수단에 입력된 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 수단에 있어서, 상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과, 기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 수단과, 상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 지니고, 상기 음성 입력 수단으로부터 입력된 음성 신호를 인식하는 음성 인식 수단과, 상기 기억 수단에 기억된 프로그램에 기초를 둔 처리를 실행하고, 상기 키 입력 수단으로부터의 정보 또는 상기 음성 인식 수단으로부터의 음성 인식 정보에 기초하여 상기 프로그램의 처리 상태를 제어하는 연산 수단을 갖는 것이다.
이하, 본 발명의 바람직한 구성예에 대해, 도면을 참조하면서 설명한다.
본 실시 형태에 있어서의 음성 인식 장치는, 도 8에 도시한 바와 같이, 음성 신호로부터 특징량의 추출을 행하는 음향 분석부(1)와, 음향 분석부(1)로부터 보내지는 특징량 계열로부터 단어 계열을 결정하는 인식 처리부(2)와, 음운 등을 모델화한 음향 모델(3), 음향 모델(3)의 접속 관계를 모델화한 언어 모델(4)에 의해 구성된다.
또한, 본 발명의 실시 형태에 있어서는, 음성의 인식 수법으로서는, HMM(Hidden Markov Model; HMM)을 채용한다. HMM이란, 상태 천이 확률과 심볼 출력 확률을 갖는 상태 천이 모델로서, 이 확률 모델에 의해 인식을 행하고자 하는 것이다.
음성 인식 장치에 입력된 음성 신호는 음향 분석부(1)에 보내지고, 여기서, 인식에 필요한 특징량의 추출이 미소 시간 간격으로 행해진다. 또한, 이들 특징량은 벡터로서 추출되거나, 양자화가 행해져서 스칼라로서 추출되기도 한다. 음향 분석부(1)로써 추출된 특징량 계열은, 인식 처리부(2)에 보내진다.
인식 처리부(2)에서는, 음향 모델(3)과 언어 모델(4)을 이용하여, 음향 분석부(1)로부터 보내져오는 특징량 계열에 대응하는 단어 계열을 결정하여, 이것을 출력한다. 인식 처리부(2)는 도 9에 도시한 바와 같이, 단어 계열의 평가를 위한 기능적인 블록으로서, 전방에 스코어링을 행하는 제1의 평가 수단인 전방 스코어링부(11)와, 후방에 스코어링을 행하는 제2의 평가 수단인 후방 스코어링부(12)와, 이들 전방 스코어링부(11) 및 후방 스코어링부(12)로부터의 평가치에 기초하여 단어 계열을 선택하는 선택부(13)를 갖고 있다.
전방 스코어링부(11) 및 후방 스코어링부(12)에 있어서는, 음향 모델(3)과 언어 모델(4)을 이용하여, 여러가지의 단어의 계열에 대해 스코어 매김을 행하고, 그 스코어가 가장 높은 단어 계열, 혹은 상위 복수의 단어 계열을 인식 결과의 가설로서 골라 내는 작업이 행해진다.
그 때, 음향 모델(3)로서는, 음운, 음절, 단어, 프레이즈, 문장 등, 여러가지의 레벨로 모델화하는 것이 가능하다. 한편, 언어 모델(4)은 음향 모델(3)의 접속 관계를 모델화한 것으로, 몇개의 음향 모델(3)을 접속하여 얻어지는 단어나 프레이즈, 문장 등을 인식할 수 있도록 하기 위해 이용된다.
또한, 하나의 입력 음성에 대해, 대응하는 한 단어를 골라 내는 경우를 단어 인식이라 부르고, 대응하는 단어의 계열을 골라 내는 경우를 연속 단어 인식 혹은 연속 음성 인식이라 부르는 경우가 있지만, 여기서는 이들을 구별하지 않고서 출력은 전부 단어 계열로서 취급하도록 한다.
음성 인식의 문제는, 음향 분석부(1)로부터 보내져 오는 특징량 계열
X1= {X1, X2, …, XT}
에 대해, 음향 모델(3)과 언어 모델(4)에 의해 취급할 수 있는 모든 단어 계열 내에서, 그 스코어
S(W1, W2, …, WN|X1, X2, …, XT)
최대화되는 단어 계열
W1, W2, …, WN
혹은 상위 복수 후보를 구하는 문제로서, 정식화를 행할 수 있다. 그 스코어의 계산 방법은 상태 천이 네트워크를 이용하여 행하는 것이 가능하다.
우선, 본 발명의 제1의 실시 형태에 대해 설명한다.
입력 음성에 대응하는 단어를 w1, w2, w3중으로부터 결정한다고 하는 간단한 단어 음성 인식의 문제를 생각한다.
여기서, 각 단어는 음향 모델
p1, p2, p3,…, p9
를 접속하여, 다음과 같이 제공되도록 한다.
W1: p1p2p4p7p9
W2: p1p2p5p8p9
w3: p1p3p6p8p9
또한, 각 음향 모델 pi는 도 3에 도시되는 바와 같은 상태 천이 모델로서 모델화되어 있도록 한다. 즉, 각 음향 모델 pi는, 3개의 상태로 이루어지는 상태 천이 모델로서 모델화되어 있도록 한다.
제1의 실시 형태의 언어 인식의 흐름을, 도 10에 도시한 플로우차트를 참조하여 설명한다.
이러한 상태 천이 모델에 대해, 도 11에 도시되는 바와 같은 어두를 공통화한 네트워크와 도 12에 도시되는 바와 같은 어미를 공통화한 네트워크를 각각 별도로 구성할 수가 있다.
그리고, 각각의 네트워크 상의 노드를 음향 모델의 상태 천이 모델로 치환함으로써, 2개의 상태 천이 네트워크를 작성할 수 있다.
여기서, 음향 분석부(1)로부터 특징량 계열 X={x1, x2,…, xT}가 보내져 온 경우에, 인식 처리부(2)에서는, 우선, 도 11로부터 구성되는 상태 천이 네트워크를 이용하여, 시각 t=1로부터 시간 방향으로 누적 스코어의 계산을 행한다.
다만, 상술한 빔 검색과 마찬가지로, 스코어 계산하여야 할 상태를 제한하면서 계산을 행한다.
즉, 도 10의 최초의 스텝 S11에 있어서는, 제1의 평가 공정으로서, 최종 시각 t=T까지의 스코어 계산이 종료하면, 그 결과로서 구해지는 초기 노드로부터 최종 노드까지의 누적 스코어를, 전방 스코어로서, 각 단어로 설정한다. 이러한 전방 스코어의 계산은 인식 처리부의 전방 스코어링부(11)에서 행해진다.
이 때, 경로가 제거되었기 때문에 누적 스코어가 구해지지 않는 단어에 대해서는, 스코어 없음으로 취급하도록 한다.
스텝 S12에 있어서, 제2의 평가 공정으로서, 도 12로부터 구성되는 상태 천이 네트워크를 이용하여, 시각 t=T로부터 시간과 역방향으로 스코어 계산을 행한다. 이 때, 역시 스코어 계산하여야 할 상태를 제한하면서 계산을 행한다.
그 결과, 이번은, 스텝 S12에 있어서, 최종 노드로부터 초기 노드에의 누적 스코어가 구해지게 된다. 이것을 후방 스코어로서, 각 단어에 새롭게 설정한다. 이러한 후방 스코어의 계산은, 인식 처리부(2)의 후방 스코어링부(12)에서 행해진다.
이 때에도, 경로가 제거되었기 때문에 누적 스코어가 구해지지 않은
단어에 대해서는, 스코어 없음으로 취급하도록 한다.
또한, 스텝 S11의 전방 스코어링과 스텝 S12의 후방 스코어링에 대해서는, 스텝 S12의 후방 스코어링을 먼저 행하고 나서 스텝 S11의 전방 스코어링을 행하여도 좋다.
다음에, 스텝 S13에 있어서, 각 단어마다, 전방 스코어와 후방 스코어를 비교하여 그 스코어가 좋은 쪽을, 그 단어의 최종 스코어로서 다시 설정한다.
마지막으로, 스텝 S14에 있어서, 모든 단어 중에서 최종 스코어가 가장 좋은 것, 혹은, 상위 복수 후보를 골라 내는 작업을 행한다. 이러한 후방의 선택은, 인식 처리부(2)의 선택부(13)에서 행해진다.
여기서 주의하여야 할 점은, 전방 스코어와 후방 스코어는, 스코어의 누적을 t=1로부터 시간 방향으로 행하거나, t=T로부터 시간과 역방향으로 행하는지가 다를 뿐이므로, 만일 스코어 계산하여야 할 상태수에 제한을 걸지 않으면, 완전히 똑같은 스코어가 된다는 것이다.
이상의 처리의 흐름으로, 종래와 크게 다른 것은, 후방 스코어의 계산을 행하는 스텝 S12의 처리와 전방 스코어 및 후방 스코어를 비교하여 좋은 쪽을 최종 스코어로서 단어에 제공하는 스텝 S13의 처리를 추가한 점이다.
이러한 처리를 추가함으로써, 전방 스코어의 계산을 행할 때에, 스코어가 가장 좋아지는 경로가 상태 천이 네트워크 상에서 제거되었다고 해도, 후방 스코어의 계산을 행할 때에, 그 경로가 발견된다는 것을 기대할 수 있게 된다.
마찬가지로, 후방 스코어의 계산을 행할 때에, 스코어가 가장 좋은 경로가 제거되는 경우가 있더라도, 전방 스코어의 계산을 행할 때에, 이미 그 경로의 스코어 계산은 종료하고 있다는 것도 기대할 수 있게 된다.
즉, 전방 스코어의 계산과 후방 스코어의 계산을, 양방 독립적으로 행함으로써, 스코어가 가장 좋아지는 경로가 구해지는 비율을 서로 높일 수 있는 것을 기대할 수 있는 것이다.
이 성질을 이용하면, 전방 스코어의 계산 과정에 있어서, 스코어가 가장 좋아지는 경로를 반드시 찾아낼 필요는 없게 되어, 그 결과 스코어 계산하여야 할 상태 수를 대폭 제한하는 것이 가능해진다.
특히, 초기의 시각에 있어서 누적 스코어가 낮아지는 특징량 계열 X가 입력된 경우에서도, 만일 최종적으로 스코어가 가장 높아지면, 특징량 계열의 후반에 누적되는 스코어는 높다는 것을 기대할 수 있고, 이것은 후방 스코어의 계산 과정에 있어서 제거될 가능성이 낮은 것을 의미하므로, 전방 스코어의 계산 과정에 있어서, 스코어 계산하여야 할 상태수에 과감히 제약을 거는 것이 가능해지는 것이다.
실제로, 이 방법에서, 단어 인식의 실험을 행해 본 결과, 도 13에서 도시되는 바와 같은 결과가 얻어졌다. 실험은, 5075단어의 사전을 이용한 단어 인식의 실험이고, 남녀 합쳐서 20명이 사전에 포함되는 303어를 발성했을 때에 정확하게 인식된 비율을 조사한 것이다.
종축은 정확하게 인식된 비율[%]을 나타내고 있다. 또한, 횡축은 실제로 스코어 계산을 행한 총 상태수가 입력된 특징량 계열
X= {x1, x2, …, xT}
의 길이 T로 나눈 것, 즉, 일 시각당 스코어 계산을 행한 평균 상태수를 나타내고 있다.
실선은, 종래와 같이, 도 11로부터 구성되는 상태 천이 네트워크를 이용하여 전방 방향만으로 스코어 계산을 행한 경우의 결과를 나타내고 있다. 점선은, 이 제1의 실시 형태에서 설명한 스코어 계산을 행한 경우의 결과를 나타내고 있다. 다만, 이 방식에서는, 전방과 후방 양쪽의 스코어 계산을 행하였을 때의 총 상태수를 전부 합산하고, 이것이 입력된 특징량 계열의 길이 T로 나눈 것을 횡축의 값으로 하였다.
덧붙여서 말하면, 도 11로 구성되는 상태 천이 네트워크의 상태 수는 전부 73873상태이고, 이 네트워크를 이용하여, 스코어 계산을 행하는 상태에 제약을 걸지 않은 경우의 정답율은 96.39%였다.
이 실험 결과에 의해, 종래의 방식과, 이 제1의 실시 형태의 방식 중 어느 한쪽의 방법을 이용하더라도, 스코어 계산을 하여야 할 상태수를 증가시키면, 정답율이 높아지게 되고, 모든 상태에 있어서 스코어 계산을 행한 경우의 정답율 96.39%에 근접해 가는 것을 알 수 있다.
그러나, 양 방식을 비교한 경우, 제1의 실시 형태의 방식쪽이 보다 빠르게 96.39%에 수속해 가는 모습을 엿볼 수 있다. 즉, 동일 정도의 정답율을 달성하기위해서 요구되는 계산량은, 이 방식의 쪽이 보다 적게 끝난다는 것이 나타나게 된다.
또, 여기서는, 단어 음성 인식을 예로 설명하였지만, 도 2에서 도시되는 바와 같은 언어 제약을 기초로, 입력 음성에 대응하는 단어 계열을 구하는 경우에서도 마찬가지의 스코어 계산을 행할 수 있다.
우선, 전방 스코어의 계산을 위해, 도 6과 같은 공통의 어두를 묶은, 즉 공통화한 네트워크를 준비한다. 또한 이것과는 별도로, 후방 스코어를 계산하기 위해서, 도 6과 동일하게 하여, 공통의 어미를 묶은 네트워크도 준비한다. 또한, 각각의 네트워크에 있어서, 각 노드를 음향 모델로 치환함으로써, 상태 천이 네트워크가 얻어지게 된다.
이상을 전 처리로서 행하고, 인식 과정에 있어서는, 각각의 상태 천이 네트워크를 이용하여 도 10에서 도시되는 바와 같은, 스텝 S11의 전방 스코어의 계산과, 스텝 S12의 후방 스코어의 계산을 행한다.
이 때, 전방 스코어의 계산에 의해, 가장 전방 스코어가 높은 단어 계열과 그 스코어가 구해진다. 마찬가지로, 후방 스코어의 계산에 있어서, 가장 후방 스코어가 높은 단어 계열과 그 스코어가 구해진다.
그래서, 스텝 S13에서, 각각에 있어서 가장 높던 스코어를 비교하여, 스텝 S 14에 있어서, 보다 높은 쪽의 스코어를 갖는 단어 계열을 최종적으로 골라 내는 작업을 행하면 좋다.
또한, 도 2 이외에도, 복수의 초기 노드나 최종 노드를 갖는 언어 제약에 대해서도, 마찬가지의 스코어 계산을 행하는 방법을 적용시킬 수 있다. 그 경우에는, 스텝 S11에 있어서의 전방 스코어의 계산, 및 스텝 S12에 있어서의 후방 스코어의 계산 과정에 있어서, 각각, 복수의 단어 계열과 그것에 대응하는 스코어가 구해지게 된다.
따라서, 만일 양쪽에 동일 단어 계열이 포함된 경우에는, 스텝 S13에 있어서, 상기한 단어 인식의 경우와 마찬가지로, 전방 스코어와 후방 스코어의 좋은 쪽을 그 단어 계열의 최종 스코어로서 설정하면 좋다. 그리고, 마지막으로, 스텝 S14에 있어서, 구해진 모든 단어 계열 중에서 가장 최종 스코어가 좋은 것, 혹은, 상위 복수 후보를 골라 내는 작업을 행하면 좋다.
계속해서, 상술한 제1의 실시 형태를 보충하는 설명을 행한다. 제1의 실시 형태의 보충 설명으로서, 상태 천이 네트워크에 대해 더 상세히 설명한다.
상술한 제1의 실시 형태에서는, 스코어의 계산에 이용하는 상태 천이 네트워크로서, 전방 스코어 및 후방 스코어의 계산을 위해 2가지의 방법을 나타내었다.
이것은, 전방 스코어의 계산과 후방 스코어의 계산을 독립적으로 행한다고 하는 관점으로부터, 각각에 가장 적합한 상태 천이 네트워크를 만든 쪽이, 각각의 스코어 계산의 정밀도를 높게 한다고 하는 이유에 기초하고 있다.
특히, 제1의 실시 형태에서는, 언어 모델(3)에 포함되는 단어의 공통인 어두를 묶는 방법과, 공통의 어미를 묶는 방법을 이용하여 이것을 실현하였다.
일반적으로, 상태 천이 네트워크로서는, 어떤 천이 조건 하에서, 어떤 상태에서의 천이처가 일의로 결정할 수 있는 것과, 일의로 결정할 수 없는 것, 즉 천이처가 복수개 존재하는 것이 고려된다.
예를 들면, 도 4에서 도시되는 네트워크에서는, 개시로부터 p1로의 천이는 일의로 결정할 수 없다. 이 도 4는, 도 2에 도시한 단어 사이의 천이에 대해 상술한 바와 같은 다음에 도시하는 음향 모델에 대해 표현한 것이다.
W1: p1p2p4p7p9
W2: p1p2p5p8p9
W3: p1p3p6p8p9
도 5는, 도 4에 있어서의 각 음향 모델이 도 3에서 도시된 바와 같이 3개의 상태에서 모델화된 경우에 대해 나타낸 것이다. 이것에 대해, 도 6에서 도시되는 네트워크에서는 개시로부터 p1로의 천이는 일의로 결정할 수 있다.
그리고, 천이처가 일의로 결정되지 않는 네트워크를, 일의로 결정할 수 있는 네트워크로 변환하는 방법으로서는, 상술한 바와 같은 공통의 어두나 어미를 묶는 것으로, 트리 구조로 조직화해 간다고 하는 방법과, 그 이외에도, 비결정성 오토마톤(automaton)으로부터 결정성 오토마튼으로부터 변환하는 방법 등, 몇개의 알고리즘이 이미 제안되어 있다.
그래서, 상술한 스텝 S11에 있어서의 전방 스코어의 계산과 스텝 S12에 있어서의 후방 스코어의 계산에 적합한 상태 천이 네트워크를 생각해 본다.
전방 스코어의 계산은, 시각 t=1로부터 시간 방향으로 정 순서로, 초기 노드로부터의 누적 스코어를 계산해 가는 과정이라 파악할 수 있다. 그 의미에서, 초기 노드로부터 순서대로, 일의로 결정할 수 없는 천이처를 묶어감으로써 얻어지는 상태 천이 네트워크를, 전방 스코어의 계산에 이용하면 좋은 것을 알 수 있다.
마찬가지로, 후방 스코어의 계산은, 최종 시각 t=T로부터 시간과 역방향의 역 순서에, 최종 노드로부터의 누적 스코어를 계산해 가는 과정이라 파악할 수 있다. 그 의미에서, 최종 노드로부터 순서대로, 일의로 결정할 수 없는 천이처를 묶어 감으로써 얻어지는 상태 천이 네트워크를, 후방 스코어의 계산에 이용하면 좋은 것을 알 수 있다.
따라서, 준비하여야 할 2개의 상태 천이 네트워크는, 초기 노드로부터의 천이에 있어서의 애매성을 될 수 있는 한 작게 한 것, 및, 최종 노드로부터의 천이에 있어서의 애매성을 될 수 있는 한 작게 한 것으로서 작성하면 된다.
상술한 제1의 실시 형태로 나타낸, 도 11이나 도 12의 네트워크는, 그 일례로 되어 있다.
또한, 소규모의 하드웨어로 음성 인식을 실현하려고 하는 경우에는, 이러한 전혀 다른 2개의 상태 천이 네트워크를 사용하는 것은, 메모리의 유효 이용이라는 점으로부터, 그다지 바람직하지 않을지도 모른다.
그와 같은 경우에는, 하나의 상태 천이 네트워크로 대용하는 것도 가능하다. 예를 들면, 제1의 실시 형태에서 진술한 연속 음성 인식의 문제, 즉, 도 2에서 설명되는 언어 제약 하에서, w1, w2, w3을 조합하여 이루어지는 단어 계열 중으로부터, 입력 음성에 대응하는 단어 계열을 하나 결정한다고 하는 문제에 있어서, 도 7에 도시되는 바와 같은 어두와 어미를 공통화한 네트워크를 구성하며, 그 네트워크 상의 노드를 음향 모델인 상태 천이 모델로 치환함으로써, 상태 천이 네트워크를 하나만 작성하는 것도 가능하다.
이 네트워크는, 상술한 바와 같은 다음에 나타내는 각각의 단어에 대응하는 경로를 전부 포함하고 있다.
W1: p1p2p4p7p9
W2: p1 p2p5p6p9
W3: p1p3p6p8p9
따라서, 이것을 이용하여 도 10에서 도시되는 스텝 S 11에 있어서의 전방 스코어의 계산과 스텝 S12에 있어서의 후방 스코어의 계산을 행하는 것이 가능하다. 그 후에 행하는 스텝 S13에 있어서의 스코어의 비교, 및 스텝 S14에 있어서의 단어 계열의 선정은, 제1의 실시 형태와 마찬가지로 하면 된다.
다음에, 본 발명의 제2의 실시 형태에 대해 설명한다.
상술한 제1의 실시 형태에서는, 도 10에 도시된 바와 같이, 스텝 S11에 있어서의 전방 스코어의 계산과 스텝 S12에 있어서의 후방 스코어의 계산을 독립적으로 행하고, 스텝 S13에 있어서, 전방 스코어와 후방 스코어가 좋은 쪽을 최종 스코어로서, 대응하는 단어 계열로 설정하고, 마지막으로, 가장 최종 스코어가 높은 단어 계열, 혹은 상위 복수 후보를 골라 내어 출력한다고 하는 방식을 나타내었다.
스텝 S11에 있어서의 전방 스코어의 계산과 스텝 S12에 있어서의 후방 스코어의 계산을 완전히 독립하여 행한 경우, 각각에 있어 중복된 계산을 행하는 경우가 있으므로, 이것을 공통화하는 방법을 여기서는 제2의 실시 형태에서 설명한다.
우선, 종래 기술의 설명에 있어서, 누적 스코어의 계산식으로서 수학식 1, 혹은 수학식 2를 이용한 계산 방법을 나타내었지만, 이들 식 중에서, 국소적인 유사도 di(xt)가 누적되어 간다는 것을 이미 설명하였다.
이 국소적인 유사도 di(Xt)는, 상태 천이 네트워크의 각 상태 si에 있어서 정의되는 평가 척도를 이용함으로써, 특징량 xt와의 유사성을 나타내는 값으로서 계산이 행해진다.
그리고, 각 상태 si에 있어서 정의되는 평가 척도란, 예를 들면, 템플릿과의 거리나, 확률 밀도 함수나 뉴럴 네트 등으로부터 계산되는 값으로서 제공되므로, 그 평가치를 구하기 위한 계산량도 매우 크게 되는 경우가 있다.
실제로, 그 계산 식에, 다음의 식으로 나타내는 다차원 정규 분포가 이용되는 경우도 있다.
이 수학식 3과 같은 함수를 이용한 평가치의 계산을 각 상태 i에 대해 행하기 위해서는, 매우 큰 계산량이 필요해진다. 여기서, μi와 Σi는 각각, 상태 i에 있어서 정의되는 평균 벡터와 함께 분산 행렬을 나타내고 있다.
그런데, 어떤 시각 t에 있어서, 스텝 S11에 있어서의 전방 스코어의 계산과 스텝 S12에 있어서의 후방 스코어의 계산에 있어서 필요로 되는 국소적인 유사도 di(xt)의 계산은, 만일 동일 평가 식을 이용하여 계산하는 것이면, 완전히 동일한 것으로 될 것이다.
예를 들면, 전방 스코어의 계산 과정에 있어서, 어떤 상태 si에 있어서의 평가치 di(xt)의 계산을 행할 필요가 있고, 또한, 후방 스코어의 계산 과정에 있어서, 어떤 상태 Sj에 있어서의 평가치 di(xt)의 계산을 행할 필요가 있는 경우에, 만약에 평가식di(xt)와 dj(xt)가 동일하면, 완전히 동일 계산을 행하게 된다. 그래서, 이 계산을 공통화하는 것이 우선 생각된다.
일반적으로, 스텝 S11에 있어서의 전방 스코어의 계산을 행하기 위해 이용하는 상태 천이 네트워크 상에서 정의되는 모든 평가 식의 조합
di(x) (i=1, 2, …, N)
와, 스텝 S12에 있어서의 후방 스코어의 계산을 행하기 위해 이용하는 상태 천이 네트워크 상에서 정의되는 모든 평가 식의 조합
dj(x) (j=1, 2, …, N)
동일 음향 모델을 이용한 경우, 완전히 동일하게 될 것이다.
그래서, 전방 스코어의 계산, 혹은 후방 스코어의 계산 중 어느쪽이든 한쪽에 있어서, 평가치 di(xt)의 계산이 행해진 경우, 그 결과를 테이블에 기억하고, 또 한쪽에 동일 계산이 필요하게 된 경우에는, 그 계산 결과는 테이블로부터 참조하도록 하여 놓는다. 이와 같이 함으로써, 동일 계산의 중복을 피하는 것이 가능해진다.
즉, 각 특징량과의 음향적인 유사성의 평가를 행하기 위해 이용하는 평가식에 대해, 특징량 계열에 포함되는 어떤 특징량에 대한 평가치의 계산을 일단 행한 것은, 그 계산 결과를 테이블에 기억하도록 하고, 그 이후에 동일 특징량에 대해 동일 평가식을 이용한 계산이 필요하게 된 경우에는, 테이블에 기억된 계산 결과를 이용한다. 또한, 마이크로폰으로부터 입력된 음성 신호에 대해, 음성을 입력하면서 인식 처리를 진행시키는 경우, 스텝 S12에 있어서의 후방 스코어의 계산은, 발화의 종료 시점으로부터밖에 계산을 시작할 수 없는 것이지만, 상태 천이 네트워크 상에서 정의되는 모든 평가 식의 조합
dj(x) (j=1, 2,…, N)
에 대해, 음성의 입력에 동기하면서, 매시각, 평가치 dj(xt)를 계산하는 것이 가능하면, 그 계산 결과를 테이블에 전부 기억해 놓음으로써,
후방 스코어의 계산 시에는, 테이블 참조만으로 평가치 dj(Xt)의 값을 얻는 것이 가능하게 된다.
물론, 후방 스코어의 계산 과정에서, 스코어 계산하여야 할 상태에 제약이 걸리고 있으므로, 원래는, 모든 평가 식에 대해, 평가치 dj(xt)의 계산을 행할 필요는 없는 것이지만, 그 평가치를 계산할 필요가 있을지의 여부는, 후방 스코어의 계산의 과정에서 결정되는 것이므로, 발화의 종료 시점까지는, 적어도 결정할 수가 없다.
따라서, 만일 모든 평가식에 대해, 발화 중에 평가치 dj(xt)의 계산을 행하는 것이 가능하면, 이 계산을 전부 행해 놓음으로써, 스텝 S14에 있어서의 발화 종료 후에 스코어가 가장 높은 단어 계열을 결정할 때까지 요하는 시간을 단축하는 것이 가능해진다.
즉, 각 특징량과의 음향적인 유사성의 평가를 행하기 위해 이용하는 모든 평가 식에 대해, 특징량 계열에 포함되는 각 특징량과의 평가치의 계산을, 평가치의 누적을 행하는 처리와는 독립적으로 계산하여, 이것을 테이블에 기억한다.
또한, 미리 대량의 테스트 데이터를 이용하여, 후방 스코어의 계산을 실제로 행함으로써, 상태 천이 네트워크 상에서 정의되는 모든 평가식
dj(x)(j=1, 2, …, N)
에 대해, 각 평가식 dj(xt)의 계산이 행해지는 빈도를 조사해 두는 것이 가능하다.
그래서, 그 빈도 분포에 기초하여, 빈도가 높은 평가식 dj(xt)의 계산만큼, 음성의 입력에 동기하면서 행하도록 하고, 그 계산 결과를 테이블에 기억하도록 한다.
즉, 모든 평가식에 대해 평가치의 계산을 행하는 것이 아니라, 평가치의 누적을 행하는 과정에서 테이블로부터의 참조가 행해지는 빈도를 미리 추정해 놓고, 그 빈도가 높은 평가 식에 대해서만, 실제로 얻어지는 특징량과의 평가치의 계산을 행하고, 이것을 테이블에 기억한다.
또한, 전방 스코어의 계산에 있어서 구해진 평가치 di(xt)에 대해서도 테이블에 기억해 놓는다. 그리고, 후방 스코어의 계산 시에는, 계산 종료의 것은 테이블 참조하고, 그 이외는 계산을 실제로 행하도록 한다.
그 결과, 후방 스코어의 계산을 행할 때에 필요해지는 평가치 dj(xt)의 계산의 일부를 생략할 수가 있으므로, 역시, 스텝 S14에 있어서의 발화 종료 후에 가장 스코어가 높은 단어 계열을 결정할 때까지 요하는 시간을 단축하는 것이 가능해진다.
또한, 전방 스코어와 후방 스코어의 계산을 행할 때, 누적 스코어의 계산 그자체가 중복되는 경우가 있다.
예를 들면, 도 14와 같은 상태 천이 네트워크를 이용한 계산을 고려해 본다. 이 네트워크를 이용하여, 스텝 S11에 있어서의 전방 스코어의 계산을 행한 경우, 시각 t에 있어서 스코어 계산을 행한 상태 si에 대해서는, 그 상태의 누적 스코어 αi(t)가 구해지게 되므로, 이것을 테이블에 기억시킬 수 있다. 동시에, 누적 스코어가 어떤 경로로부터 누적이 행해졌는지도 기억할 수가 있다.
예를 들면, 종래 기술에서 설명을 행한 수학식 2를 이용한 누적 스코어의 계산, 즉 비터비 알고리즘(Viterbi algorithm)을 이용한 계산의 경우, αi(t)의 계산과 동시에, 어떤 상태 sj로부터 천이해 왔는지를 결정할 수 있는, 그 천이처의 상태 sj를 αi(t)와 동시에 기억하는 것만이어도 좋다. 이것을 Bi(t)로 나타내도록 한다.
통상은, 시각 t=1로부터 시각 t=T까지, 누적 스코어의 계산을 행함으로써, 최종 상태 s16에 있어서의 누적 스코어α16(T)가 구해지므로, 이것을 전방 스코어로서 설정하고, 그 최종 상태 s16에 있어서 최종 시각 t=T로 결정된 천이원 B16(T)로부터 시간과 역방향으로 천이원을 찾아감으로써, 전방 스코어 α16(T)를 제공하는 경로가 하나 결정되게 된다.
또, 이하에서는, 모든 상태를 대상으로 하여, 누적 스코어αi(t)와 천이원 Bi(t)를 기억하는 것으로서 설명을 행하지만, 예를 들면, 단어의 끝을 나타내는 상태에 있어서만 이들 값을 기억하는 등도 가능하다.
여기서, 상태 s5에 주목해 본다. 만약에 어떤 시각 t=t1에 있어서 이 상태의 스코어 계산이 행해졌다고 하면, 누적 스코어 α5(t1)과 천이원 B5(T1)이 기억되어 있게 된다.
α5(t1)은, 시각 t=1로부터 시각 t=t1까지의 누적 스코어를 나타내며, 그 스코어를 제공하는 경로는, B5(T1)로부터 시간과 역방향으로 천이원을 찾아감으로써 얻을 수 있다. 특히, 이 예에서는, 초기 노드 s0으로부터 상태 s5까지의 경로는 일의로 결정할 수가 있다.
전방 스코어의 계산은, 스코어 계산하여야 할 상태를 매시각 제약하면서 행하므로, 반드시, 이 누적 스코어 α5(t1)이, 모든 상태에 대해 스코어 계산을 행하였을 때에 얻어지는 것과 일치하는 것은 아니다.
그러나, 스코어 계산이 행해졌다는 것은, 높은 스코어로 천이가 행해져 온 가능성이 높으므로, 모든 상태에 대해 스코어 계산을 행하였을 때에 얻어지는 것과 가까운 값으로 되어 있는 것을 기대할 수 있다.
따라서, 만일 시각 t= t1로부터 시각 t=1까지, 시간과 역방향으로, 상태 s5로부터 s0까지 누적 스코어의 계산을 행하였다고 해도, 그 값은 역시 α5(t1)에 가까운 값이 되는 것을 기대할 수 있다.
그리고, 만약에 그 값이 α5(t1)과 일치하는 것이면, 그 계산은 완전히 중복되어 있는 것을 의미한다.
그래서, 도 14에서 제공되는 상태 천이 네트워크에 있어서, 스텝 S12에 있어서의 후방 스코어의 계산을 행하는 경우, 어떤 상태 si의 시각 t1에 있어서의 누적 스코어 αi(t1)이 전방 스코어의 계산 과정에서 이미 구해져 있으면, 그 상태 si로부터 초기 노드 s0을 향해서 누적 스코어의 계산을 진행시켜 가는 것을 생략하도록 한다.
다만, 초기 노드 s0으로부터 그 상태 si까지의 경로가 상태 천이 네트워크 상에서 일의로 결정할 수 있는 경우에만, 이 생략을 행하도록 한다. 예를 들면, s0으로부터 s5까지의 경로는 일의로 결정할 수 있지만, s0으로부터 s13까지의 경로는 일의로는 결정할 수 없으므로, 상태 s13에 있어서 누적 스코어α13(t1)이 구해졌다고 하여도, 그 앞의 스코어 계산은 생략하지 않도록 한다.
그리고, 이러한 누적 스코어의 계산의 생략을 행할 때에, 전방 스코어의 계산 과정에서 얻어지고 있는 αi(t1)과, 후방 스코어의 계산 과정에 있어서, 그 시각 t1에 상태 si로 천이해 오는 스코어의 누적치를 가함으로써, 후방 스코어의 하나의 후보로서 기억한다.
또한, 초기 노드 s0으로부터 상태 s1까지의 경로와, 후방 스코어의 계산 과정에 있어서 결정되는 상태 s1로부터 최종 노드 s16까지의 경로를 일치시킴으로써, 초기 노드로부터 최종 노드까지의 경로가 하나 얻어지므로, 그 경로가 나타내는 단어 계열을, 방금전에 기억한 스코어에 대응하는 단어 계열로서 설정하도록 한다.
그 결과, 후방 스코어의 계산이 종료했을 때에는, 몇개의 단어 계열의 후보와, 각각에 대응한 후방 스코어가 구해지게 된다.
그래서, 그 중의 가장 스코어가 높은 것을, 스텝 S12에 있어서의 후방 스코어의 계산으로 결정되는 단어 계열로서, 다시 선정한다. 그 후에 행하는, 스텝 S13에 있어서의, 전방 스코어와 후방 스코어의 비교나, 스텝 S14에 있어서의 최종적인 단어 계열의 결정은, 상술과 같다.
또, 도 14에 있어서의 상태 s13과 같이, 초기 노드 s0까지의 경로가 상태 천이 네트워크 상에서 일의로 결정할 수 없는 경우에는, 그 후의 누적 스코어의 계산을 생략하지 않는다고 진술하였지만, 그 이유는, 복수의 경로가 고려되는 경우에, 후방 스코어의 계산을 진행시킴으로써, 전방 스코어의 계산으로 얻어진 경로와는 다른 경로에 대해서 보다 높은 스코어가 제공될 가능성이 있기 때문이다.
본 발명은, 그와 같은 전방 스코어의 계산으로는 얻어지지 않는 경로를 후방 스코어의 계산에 의해 구하는 것을 목적으로 하고 있으므로, 이러한 계산의 생략은 할 수 없게 된다.
다음에, 본 발명의 제3의 실시 형태에 대해 설명한다.
상술한 제2의 실시 형태에 있어서는, 스텝 S11에 있어서의 전방 스코어의 계산과 스텝 S12에 있어서의 후방 스코어의 계산에 있어서, 중복된 계산을 공통화하는 방법에 대해 설명하였다. 여기서는, 마이크로폰으로부터 입력된 음성 신호에 대해, 음성을 입력하여 인식 처리를 진행시키는 경우의 실시예에 대해, 좀 더 설명한다.
상술한 바와 같이, 스텝 S12에 있어서의 후방 스코어의 계산은, 발화의 종료 시점으로부터밖에 계산을 시작할 수 없다. 따라서, 임시로, 발화의 종료와 동시에 전방 스코어의 계산이 종료하였다고 해도, 후방 스코어의 계산에 요하는 계산 시간의 분만큼은, 인식 결과를 출력하는 것이 지연되게 된다.
이것은, 음성 인식의 결과를 사용하여 기기를 조작하는 경우 등에, 그 응답의 지연을 초래하는 것을 의미한다. 그 의미에서는, 후방 스코어의 계산에 요하는 계산량은 될 수 있는 한 작게 한 쪽이 좋다고 할 수 있다.
그래서, 전방 스코어의 계산을 행할 때에는, 스코어 계산하여야 할 상태의 제약을 완화시키고, 후방 스코어의 계산을 행할 때에는, 스코어 계산하여야 할 상태의 제약을 강화하는 방법이 생각된다.
또한, 도 15에 도시된 바와 같이, 스텝 S21에 있어서, 전방 스코어의 계산이 종료한 시점에서, 스텝 S23에 있어서, 전방 스코어가 가장 좋은 단어 계열, 혹은 상위 복수 후보를 구하고, 그 결과를 출력하고, 그 후, 스텝 S22에 있어서, 후방 스코어의 계산이 종료한 시점에서, 스텝 S24에 있어서, 상술한 바와 같은 전방 스코어와 후방 스코어의 비교를 행하고, 만일 전방 스코어의 계산으로 결정한 인식 결과와 다른 결과가 얻어진 경우에는, 스텝 S25에 있어서, 이것을 정정하여 출력하고, 만일 결과에 차이가 없으면, 이미 출력하고 있는 인식 결과가 올바른 것이라고 하는 신호를 출력하도록 한다.
이러한 구성으로 함으로써, 스텝 S22에 있어서의 후방 스코어의 계산이 종료하기 전에도, 스텝 S21에 있어서의 전방 스코어의 계산의 결과를 사용한 처리를 행하는 것이 가능해진다.
예를 들면, 지명을 인식한 후에, 대응하는 지도를 검색하여 표시하는 시스템에 있어서, 표시할 때까지 행하지 않으면 안되는 검색이나, 지도 정보의 판독 등의 처리를, 전방 스코어의 계산의 결과에 기초하여 행하는 것이 가능해진다.
만약에 전방 스코어의 계산 결과에 오류가 있는 경우에는, 지도를 재검색하면 되고, 반대로 오류가 없으면, 전방 스코어의 계산 결과에 기초하는 지도 표시를 행하면 된다.
그 결과, 오류가 없는 경우에는, 발화 종료 후의 지도가 표시될 때까지 요하는 시간이 단축되게 된다.
마지막으로, 본 발명의 실시 형태의 개념에 대해, 도 16A, 도 16B 및 도 16C를 참조하여 설명한다. 이들 도면에서는, 사선부가 올바르게 단어 계열이 구해진 발화, 그 외에는 올바르게 구해지지 않은 발화를 나타내는 것으로 한다.
도 16A는, 상태 천이 네트워크 상의 모든 상태에서 스코어 계산한 경우를 나타낸다.
통상, 스코어의 계산을 행하는 상태수를 제한함으로써, 올바르게 단어 계열이 구해지는 비율은 작아진다. 따라서, 이 비율을 높이기 위해, 제약을 완화시키는 방법이 종래에는 이용되어 왔다.
이에 비해, 상술된 실시 형태에서 설명한 것이 도 16B에 대응하고 있다. 즉, 본 발명의 실시 형태에서는, 전방 스코어의 계산과 후방 스코어 계산의 양방의 결과에 따라, 바른 단어 계열이 구해지는 비율을 높이도록 한다.
그 결과, 전방 스코어의 계산이나 후방 스코어의 계산에서, 누적 스코어의 계산을 행하는 상태수를 크게 제한해도 최종적으로 얻어지는 정답율을 그만큼 저하시키지 않도록 하는 것이 가능해진다.
도 16C는, 종래와 같이 단순하게 누적 스코어의 계산을 행하는 상태수를 제한하면서 스코어 계산을 행한 경우를 나타낸다. 따라서, 종래의 주보에 대응하는 도 16B와 비교한 경우, 동일 정답율을 달성시키기 때문에 필요한 총계산량은 작아지는 것이다.
이어서, 상술된 음성 인식을 자동차의 내비게이션에 적용한 구체예에 대해, 도 17을 참조하여 설명한다.
본 구체예는, 음성 인식 장치(210)를 내비게이션 장치(220)와 접속하여 구성시킨 것으로, 음성 인식 장치(210)에는, 마이크로폰(211)이 접속되어 있다. 이 마이크로폰(211)으로는, 예를 들면 지향성이 비교적 좁게 설정되어, 자동차의 운전석에 착석한 사람의 이야기하는 소리만을 양호하게 픽업하는데 사용한다.
그리고, 이 마이크로폰(211)이 픽업하여 얻은 음성 신호를, 아날로그/디지털 변환기(212)로 공급하고, 소정의 샘플링 주파수의 디지털 음성 신호로 변환한다. 그리고, 이 아날로그/디지털 변환기(212)가 출력하는 디지털 음성 신호를, DSP(아날로그·디지털·프로세서)라고 칭해지는 집적 회로 구성의 디지털 음성 처리 회로(213)로 공급한다. 이 디지털 음성 처리 회로(213)에서는, 대역 분할, 필터링등의 처리로, 디지털 음성 신호를 예를 들면 벡터 데이터로 하여, 이 벡터 데이터를 음성 인식 회로(214)로 공급한다.
이 음성 인식 회로(214)에는 음성 인식 데이터 기억용 ROM215가 접속되고, 디지털 음성 처리 회로(213)로부터 공급되는 벡터 데이터와의 소정의 음성 인식 알고리즘(예를 들면 HMM : Hidden Markov Model)에 따른 인식 동작을 행하고, ROM215에 기억된 음성 인식용 음운 모델로부터 후보를 복수개 선정하고, 그 후보 중에서 가장 일치도가 높은 음운 모델에 대응하여 기억된 문자 데이터를 판독한다.
여기서, 본 예의 음성 인식 데이터 기억용 ROM215의 데이터 기억 상태에 대해 설명하면, 본예의 경우에는, 지명과, 내비게이션 장치의 조작을 지시하는 말만을 인식하도록 하고, 지명으로는, 국내의 都道府縣(일본의 행정구역)과, 市區町村(일본의 행정구역)의 이름만을 등록시키고, 각 都道府縣과 市區町村(일본의 행정구역)마다, 그 지명의 문자 코드와, 지명을 음성 인식시키기 위한 데이터인 음운 모델이 기억되어 있다.
그리고, 음성 인식 회로(214)에서, 입력 벡터 데이터로부터, 소정의 음성 인식 알고리즘을 거쳐 얻어진 인식 결과에 일치하는, 음운 모델에 대응하는 문자 코드가, 지명의 문자 코드인 경우에는, 이 문자 코드를, ROM215로부터 판독한다. 그리고, 이 판독된 문자 코드를, 경위도 변환 회로(216)로 공급한다. 이 경위도 변환 회로(216)에는 경위도 변환 데이터 기억용 ROM217이 접속되고, 음성 인식 회로(214)로부터 공급되는 문자 데이터에 대응한 경위도 데이터 및 그 수반 데이터를 ROM217로부터 판독한다.
음성 인식 장치(214)에서의 음성 인식의 알고리즘은, 상술된 바와 같이, 음성을 분석하고, 음향 모델 및 언어 모델을 이용하여 인식 처리하는 것으로서, 평가 모델을 정순서로 평가 대상의 모델을 제약하면서 평가하는 제1 스코어링과, 마찬가지로 역순서로 평가하는 제2 스코어링과, 이들 제1 및 제2 스코어링에서의 평가에 기초하여 후보 단어를 선택하는 것이다. 이 음성 인식에 대해서는, 먼저 자세히 설명했으므로, 여기서의 설명을 생략한다.
이러한 음성 인식의 알고리즘을 이용함으로써, 음성 인식 장치는, 인식 결과가 되는 단어의 계열을 고속으로 구할 수 있으므로, 입력할 때의 사용자의 부담이 경감된다.
그리고, 경위도 변환 데이터 기억용 ROM217로부터 판독된 경위도 데이터 및 그 수반 데이터를, 음성 인식 장치(210)의 출력으로 하여 출력 단자(210a)로 공급한다. 또한, 음성 인식 회로(214)에서 일치가 검출된 입력 음성의 문자 코드의 데이터를, 음성 인식 장치(210)의 출력으로 하여 출력 단자(210b)로 공급한다. 이 출력 단자(210a, 210b)로 얻어지는 데이터는, 내비게이션 장치(220)로 공급된다.
또, 본 구체예의 음성 인식 장치(210)에는, 로크되지 않은 개폐 스위치(즉 눌렀을 때만 온 상태가 되는 스위치)인 토크 스위치(218)가 설치되고, 이 토크 스위치(18)가 눌러지는 동안, 마이크로폰(211)이 픽업한 음성 신호만을, 아날로그/디지털 변환기(212)로부터 경위도 변환 회로(216)까지의 회로에서 상술한 처리를 행하도록 되어 있다.
이어서, 음성 인식 장치(210)와 접속된 내비게이션 장치(220)의 구성에 대해 설명한다. 이 내비게이션 장치(220)는, GPS용 안테나(221)를 구비하고, 이 안테나(221)가 수신한 GPS용 위성으로부터의 측위용 신호를, 현재 위치 검출 회로(222)에서 수신 처리하고, 이 수신한 데이터를 해석하여, 현재 위치를 검출한다. 이 검출한 현재 위치의 데이터로서는, 그 때의 절대적인 위치인 위도와 경도의 데이터이다.
그리고, 이 검출한 현재 위치의 데이터를, 연산 회로(223)로 공급한다. 이 연산 회로(223)는, 내비게이션 장치(220)에 의한 동작을 설명하는 시스템 컨트롤러로서 기능하는 회로에서, 도로 지도 데이터가 기억된 CD-ROM(광 디스크)이 세트되어, 이 CD-ROM의 기억 데이터를 판독하는 CD-ROM 드라이버(224)와, 데이터 처리에 필요한 각종 데이터를 기억하는 RAM225와, 이 내비게이션 장치가 탑재된 차량의 움직임을 검출하는 차속 센서(226)와, 조작 키(227)가 접속되어 있다. 그리고, 현재 위치등의 경위도의 좌표 데이터가 얻어졌을 때, CD-ROM 드라이버(224)에 그 좌표 위치 근방의 도로 지도 데이터를 판독하는 제어를 행한다. 그리고, CD-ROM 드라이버(224)로 판독한 도로 지도 데이터를 RAM225에 일시 기억시키고, 이 기억된 도로 지도 데이터를 사용하여, 도로 지도를 표시시키기 위한 표시 데이터를 작성한다. 이 때에는, 자동차 내의 소정 위치에 배치된 조작 키(227)의 조작등에 의해 설정된 표시 스케일(축척)로 지도를 표시시키는 표시 데이터로 한다.
또한, 연산 회로(223)는, 음성 인식 장치(210)로써 인식된 음성 인식 정보에 기초하여, 각종 모드의 전환을 제어한다. 이 모드로서는, 예를 들면 지도의 도형 정보의 표시나, 해당 위치에 관한 문자 정보의 표시 등이 있다.
그리고, 연산 회로(223)에서 작성된 표시 데이터를, 영상 생성 회로(228)로 공급하고, 이 영상 신호 생성 회로(228)에서 표시 데이터에 기초하여 소정의 포맷의 영상 신호를 생성시키고, 이 영상 신호를 출력 단자(220c)로 공급한다.
그리고, 이 출력 단자(220c)로부터 출력되는 영상 신호를, 디스플레이 장치(240)로 공급하고, 이 디스플레이 장치(240)에서 영상 신호에 기초한 수상 처리를 행하고, 디스플레이 장치(240)의 표시 패널(240)에 도로 지도 등을 표시시킨다.
그리고, 이러한 현재 위치의 근방의 도로 지도를 표시시키는 것 외에, 조작 키(227)의 조작등으로 지시된 위치의 도로 지도등도, 연산 회로(223)의 제어에 기초하여 표시할 수 있도록 되어 있다. 또한, 조작 키(227)의 조작등에 기초하여, 「목적지」, 「출발지」,「경유지」, 「자택」등의 특정한 좌표 위치를 등록한 경우에는, 그 등록한 좌표 위치의 데이터(경도와 위도)를 RAM225에 기억시킨다.
또한, 차속 센서(226)가 자동차의 주행을 검출했을 때에는, 연산 회로(223)가 조작 키(227)의 조작 내에 비교적 간단한 조작 외의 조작을 접수하지 않도록 되어 있다.
또한, 이 내비게이션 장치(220)는, 자율 항법부(229)를 구비하고, 자동차측의 엔진 제어용 컴퓨터 등으로부터 공급되는 차속에 대응한 펄스 신호에 기초하여, 자동차의 정확한 주행 속도를 연산함과 함께, 자율 항법부(229) 내의 나침반 센서의 출력에 기초하여 진행 방향을 검출하고, 속도와 진행 방향으로 기초하여 결정된 위치로부터의 자율 항법에 따른 현재 위치의 측위를 행한다. 예를 들면 현재 위치 검출 회로(222)에서 위치 검출을 할 수 없는 상태가 되었을 때, 마지막으로 현재 위치 검출 회로(222)에서 검출할 수 있던 위치로부터, 자율 항법에 따른 측위를 행한다.
또한, 연산 회로(223)에는 음성 합성 회로(231)가 접속되어 있어, 연산 회로(223)로 음성에 의한 어떠한 지시가 필요한 경우에는, 음성 합성 회로(231)에서 이 지시하는 음성의 합성 처리를 실행시키고, 음성 합성 회로(231)에 접속된 스피커(232)로부터 음성을 출력시키도록 되어 있다. 예를 들면, 「목적지에 근접하였습니다」, 「진행 방향은 좌측입니다」등의 내비게이션 장치로서 필요한 각종 지시를 음성으로 행하도록 되어 있다. 또한, 이 음성 합성 회로(231)에서는, 음성 인식 장치(210)로 인식한 음성을, 공급되는 문자 데이터에 기초하여 음성 합성 처리하여, 스피커(232)로부터 음성으로서 출력시키도록 되어 있다. 그 처리에 대해서는 후술하겠다.
여기서, 이 내비게이션 장치(220)는, 음성 인식 장치(210)의 출력 단자(210a, 210b)로부터 출력되는 경위도 데이터와 그 수반 데이터 및 문자 코드의 데이터가 공급되는 입력 단자(220a, 220b)를 구비하고, 이 입력 단자(220a, 220b)에 얻어지는 경위도 데이터와 그 수반 데이터 및 문자 코드의 데이터를, 연산 회로(223)로 공급한다.
그리고, 연산 회로(223)에서는, 이 경위도 데이터등이 음성 인식 장치(210)측으로부터 공급될 때, 그 경도와 위도 근방의 도로 지도 데이터를 CD-ROM 드라이버(224)로 디스크로부터 판독하는 제어를 행한다. 그리고, CD-ROM 드라이버(224)로 판독한 도로 지도 데이터를 RAM225에 일시 기억시키고, 이 기억된 도로 지도 데이터를 사용하여, 도로 지도를 표시시키기 위한 표시 데이터를 작성한다. 이 때에는, 공급되는 위도와 경도가 중심에 표시되는 표시 데이터로 함과 함께, 경위도 데이터에 수반하는 표시 스케일로 지시된 스케일(축척)로 지도를 표시시키는 표시 데이터로 한다.
그리고, 이 표시 데이터에 기초하여, 영상 신호 생성 회로(228)에서 영상 신호를 생성시키고, 디스플레이 장치(240)에, 음성 인식 장치(210)로부터 지시된 좌표 위치의 도로 지도를 표시시킨다.
또한, 음성 인식 장치(210)의 출력 단자(210b)로부터 내비게이션 장치의 조작을 지시하는 말의 문자 코드가 공급되는 경우에는, 그 조작을 지시하는 말의 문자 코드를 연산 회로(223)로 판별하면, 대응한 제어를 연산 회로(223)가 행하도록 되어 있다. 이 경우, 「목적지」, 「출발지」, 「경유지」, 「자택」등의 표시 위치를 지시하는 말의 문자 코드인 경우에는, 이 표시 위치의 좌표가 RAM225에 등록되어 있는지의 여부를 판단한 후, 등록되어 있는 경우에는, 그 위치 근방의 도로 지도 데이터를 CD-ROM 드라이버(224)로 디스크로부터 판독하는 제어를 행한다.
또한, 「목적지」, 「출발지」, 「경유지」, 「자택」등의 표시 위치를 등록시키는 경우에 대해서도, 「목적지 등록」등의 음성을 인식시켜, 설정할 수 있도록 되어 있다. 이들의 위치를 등록시키는 경우에는, 그 지정이 있었을 때, 디스플레이 장치(240)로 표시된 지도 상의 커서 위치(조작 키(227)의 소정의 조작으로 지도 내의 임의의 위치의 표시된 표시)를, 등록된 위치로 하는 것이다. 또 음성의 연산 회로(223)에서는, 목적지나 경유지등의 등록이 있었을 때에는, 그 위치까지의 루트 설정을 자동적으로 행하도록 되어 있다. 즉, 자택으로서 등록된 위치 또는 현재 위치 검출 회로(22)에서 검출된 현재 위치를 기점으로 하여, 그 위치까지의 가장 적절하다고 생각되어지는 루트를 연산 처리로, 자동적으로 행한다. 이 경우, 정체 정보등의 도로 상황의 데이터가 외부로부터 얻어지는 경우에는, 이 데이터를 고려하여 루트 설정을 행하도록 해도 좋다.
또한, 연산 회로(223)에 음성 인식 장치(210)로부터, 인식한 음성의 발음을 나타내는 문자 코드의 데이터가 공급될 때에는, 그 문자 코드로 나타내는 말을, 음성 합성 회로(231)에서 합성 처리시키고, 음성 합성 회로(231)에 접속된 스피커(232)로부터 음성으로서 출력시키도록 되어 있다. 예를 들면, 음성 인식 장치(210)측에서 「도쿄토 분쿄쿠 東京都 文京區」라고 음성 인식했을 때, 이 인식한 발음의 문자 열의 데이터에 기초하여, 「도쿄토 분쿄쿠」라고 발음시키는 음성 신호를 생성하는 합성 처리를, 음성 합성 회로(231)에서 행하고, 그 생성된 음성 신호를 스피커(232)로부터 출력시킨다.
이 경우, 본 구체예에서는 음성 인식 장치(210)에서 음성 인식을 행한 경우에, 내비게이션 장치(220)의 단자(220a)에 위도, 경도의 데이터가 공급되므로, 단자(220b)에 인식한 음성의 발음을 나타내는 문자 코드의 데이터가 공급되는 것이, 거의 동시이지만, 연산 회로(223)에서는 처음에 음성 합성 회로(231)에서 인식한 말을 음성 합성시키는 처리를 실행시키고, 이어서 경도, 위도의 데이터에 기초를 둔 도로 지도의 표시 데이터의 작성 처리를 실행시키도록 되어 있다.
계속해서, 본 구체예가 자동자에 탑재될 때의 설치 상태에 대해 설명하겠다.
도 18에 도시된 바와 같이, 자동차(250)는, 핸들(251)이 운전석(252)의 전방에 설치되고, 기본적으로는 운전석(252)에 착석한 운전자가 내비게이션 장치의 조작을 행하도록 한 것이다. 단, 이 자동차(250) 내의 다른 동승자가 조작하는 경우도 있다. 그리고, 이 내비게이션 장치 본체(220)에 접속된 음성 인식 장치(210)는, 자동차(250) 내의 임의의 공간(예를 들면 후방부 트렁크 내)에 설치되고, 측위 신호 수신용 안테나(221)가 차체의 외측(혹은 리어윈도우의 내측등의 차내)에 부착되어 있다.
그리고, 도 19의 운전석에 근방을 나타낸 바와 같이, 핸들(251) 옆에는, 후술된 토크 스위치(218)나 내비게이션 장치의 조작 키(227)가 배치되고, 이들의 스위치나 키는, 운전 중에 조작되어도 지장이 없도록 배치되어 있다. 또한, 내비게이션 장치에 접속된 디스플레이 장치(240)가, 운전자의 전방의 시계를 방해하지 않은 위치에 배치되어 있다. 또한, 내비게이션 장치(220) 내에서 음성 합성된 음성 신호를 출력시키는 스피커(232)가, 운전자에게 출력 음성이 닿는 위치(예를 들면 디스플레이 장치(240) 옆등)에 부착되어 있다.
또한, 본 구체예의 내비게이션 장치는, 음성 입력할 수 있도록 되어 있고, 그로 인한 마이크로폰(211)이, 운전석(252)에 전방의 자동차 앞유리 상부에 배치된 선바이저(253)에 부착되어 있어, 운전석(252)에 착석한 운전자가 이야기하는 소리를 픽업하도록 되어 있다.
또한, 본 구체예의 내비게이션 장치 본체(220)는, 이 자동차의 엔진 제어용 컴퓨터(254)와 접속되어 있어, 엔진 제어용 컴퓨터(254)로부터 차속에 비례한 펄스 신호가 공급되도록 되어 있다.
상술된 바와 같이, 본 구체예는, 차량의 현재 위치를 검출하기 위한 현재 위치 검출 회로(222)와, 차속 센서(226), 자율 항법부(229) 등에 기초하여 차량의 진행 방향을 검출하는 방향 검출 수단과, 도로 지도 정보가 기억된 CD-ROM을 저장하는 CD-ROM 디스크(224)와, 음성 신호가 입력되는 마이크로폰(211)과, 음성 인식 장치(210)를 갖는 것이다.
또한, 본 구체예는, 현재 위치 검출 회로(222)에 의해 검출된 차량의 현재 위치와 CD-ROM으로부터 판독된 도로 지도 정보에 기초하여, 차량의 현재 위치를 도로 상에 위치하도록 수정한 현재 위치 정보를 산출하고, 산출된 현재 위치 정보에 기초하여 CD-ROM으로부터 도로 지도 정보를 판독함과 함께, 음성 인식 장치(210)로부터 얻어진 음성 인식 정보에 기초하여 동작 상태를 제어하는 연산 회로(223)와, 기억 수단으로부터 판독된 도로 지도 상에 현재 위치 정보에 의한 현재 위치를 표시하는 디스플레이 장치(240)를 갖는 것이다.
이어서, 상술된 음성 인식을 휴대 전화 장치에 적용한 구체예에 대해, 도 20을 참조하여 설명한다.
휴대 전화 장치에서, 안테나(315)는 고주파 블록(322)에 접속되어 있다. 고주파 블록(322)에는, 복조 변조 등가 회로(323), 채널 코덱 회로(324), 음성 코덱 회로(325), 오디오 회로(326)가 각각 순차적으로 접속되어 있다. 오디오 회로(326)에는 마이크로폰(311)과 스피커(312)가 접속되어 있다. CPU329는 전체의 동작을 제어한다. 메모리(328)는 필요한 데이터를 수시로 기억한다.
휴대 전화 장치에서, 음성 인식 회로(327)는, 마이크로폰(311)으로부터 오디오 회로(326)를 통해 입력된 음성 신호를 인식하는 것이다.
음성 인식 회로(327)에서의 음성 인식은, 상술된 바와 같이, 음성을 분석하고, 음향 모델 및 언어 모델을 이용하여 인식 처리하는 것으로서, 평가 모델을 플러스 정순서로 평가 대상의 모델을 제약하면서 평가하는 제1 스코어링과, 마찬가지로 역순서로 평가하는 제2 스코어링과, 이들 제1 및 제2 스코어링에서의 평가에 기초하여 후보 단어를 선택하는 것이다. 이 음성 인식에 대해서는, 먼저 자세히 설명했으므로, 여기서의 설명을 생략한다.
휴대 전화 장치에서, 표시부(313)는, 문자등의 정보를 표시한다. 입력부(314)는, 키 조작에 의해 정보를 입력한다. 배터리 매니저(330)는 전원 스위치(316)의 조작에 대응하여, 내장하는 전지로부터 각 부에 필요한 전력을 공급한다.
전원 스위치(316)를 온하여 배터리 매니저(330)로부터 각 부에 필요한 전력을 공급하면, CPU329는 초기 상태로 하여 아이들 모드를 설정시킨다. 이 아이들 모드가 설정되었을 때, CPU329는 표시부(313)에, 아이들 모드인 것을 나타내는 IDLE를 나타내는 기호를 표시시킨다.
이 상태에서 발호 신호가 도래하면, 이 발호 신호는 고주파 블록(322)으로 수신되고, 변조 복조 등가 회로(323)에서 복조된다. 복조 출력이 채널 코덱 회로(324)로 공급되고, 디코드된다. CPU329는 디코드한 데이터가, 이 장치의 발호 신호라고 판정했을 때, 음성 코덱 회로(325)를 제어하고, 호출음을 발생시킨다. 이 호출은 오디오 회로(326)를 통해 스피커(312)로부터 출력된다. 또한, 이 때 CPU329는 표시부(313)를 제어하고, 호출이 이루어진 것을 나타내는 CALL의 표시를 점멸시킨다.
사용자는 스피커(312)로부터의 호출음, 혹은 문자 CALL의 점멸에 의해 호출이 있는 것을 인식한다. 이에 따라, 사용자는 예를 들면 「전화 수신」이라고 발성한다. 이 음성 신호는, 마이크로폰(311) 및 오디오 회로(326)를 통해 음성 인식 회로(327)로 입력된다.
음성 인식 회로(327)는, 이 「전화 수신」이라는 음성 신호를, 사용자에 의한 전화를 받는 의사라고 판단하여, CPU329로 전한다.
CPU329는, 이에 따라 채널 코덱 회로(324)를 제어하고, 전화를 수신하는 취지의 신호를 발생시킨다. 이 신호는 복조 변조 등가 회로(323)로부터 변조되어, 고주파 블록(322)으로부터 안테나(315)를 통해 송신된다. 기지국이 되는 전화국은, 이 검출 신호를 수신했을 때 전화 회선을 체결하게 된다.
또, 사용자는, 입력부(314)의 키를 누르는 것만으로도, 전화를 받는 의사를 입력할 수 있다. 즉, 사용자가 입력부(314)의 리시브 키를 누르면, CPU329는, 마찬가지로 함으로써 전화 회선을 체결하도록 처리를 행한다.
전화 회선이 체결된 후에는, 안테나(315)를 통해 고주파 블록(322)에서 수신된 전파가 복조 변조 등가 회로(323)에서 복조되고, 채널 코덱 회로(324)에서 디코드된다. 채널 코덱 회로(324)로부터 출력된 음성 데이터는, 음성 코덱 회로(325)로 입력되어 디코드된다. 음성 코덱 회로(325)로부터 출력된 음성 데이터는, 오디오 회로(326)에 입력되어 D/A 변환된 후, 스피커(312)로부터 출력된다.
한편, 마이크로폰(311)으로부터 입력된 음성 신호는, 오디오 회로(326)에 의해 A/D 변환된 후, 음성 코덱 회로(325)에 입력되고, 인코드된다. 이 음성 데이터는 채널 코덱 회로(324)를 통해 변조 복조 등가 회로(323)로 입력되고, 변조된다. 이 변경 신호는 고주파 블록(322)으로 공급되고, RF 신호로 하여 안테나(315)로부터 출력된다. 이와 같이 함으로써 통상의 회화가 행해진다.
회화가 종료했을 때, 사용자는 예를 들면 「회화 종료」라고 발성한다. 이 음성 신호는, 마이크로폰(311) 및 오디오 회로(326)를 통해 음성 인식 회로(327)로 입력된다.
음성 인식 회로(327)는, 이 「회화 종료」라는 음성 신호를, 사용자에 의한 전화를 종료하는 의사라고 판단하고, CPU329로 전한다. CPU329는, 전화를 종료하는 취지의 신호를 출력시킨다. 기지국이 되는 전화국에서는, 이 신호를 수신했을 때, 전화 회선을 개방시킨다.
또, 사용자는, 입력부(314)의 키를 누르는 것으로도, 전화를 받는 의사를 입력할 수 있다. 즉, 사용자가 입력부(314)의 엔드 키를 누르면, CPU329는, 마찬가지로 함으로써 전화 회선을 개방하도록 처리를 행한다.
CPU329는, 음성 인식 회로(327)로부터 전화 회선을 개방하는 취지의 음성 인식 정보가 입력되면, 모드를 수신 모드로부터 아이들 모드로 이행시킨다. 이에 따라, CPU329는, 표시부(313)의 표시를 아이들 모드의 표시에 자동적으로 복귀시킨다.
아이들 모드에서, 사용자가 예를 들면 「다이얼 모드」라고 발성하면, 이 음성 신호는 마이크로폰(311) 및 오디오 회로(326)를 통해 음성 인식부(327)에 입력되고, 인식에 의해 그 취지가 CPU329로 전해진다. 이에 따라, CPU329는, 모드를 아이들 모드로부터 다이얼 모드로 변경시킨다.
다이얼 모드가 설정되었을 때, 입력부(314) 숫자의 키를 조작하여 소정의 전화 번호를 입력한 후, 예를 들면 「전화 송신」이라고 발성하면, 상술된 순서와 마찬가지로 함으로써, 그 전화의 상대방에 대한 발호 동작이 개시된다. 통화를 종료시키는 경우에는, 마찬가지로 「회화 종료」라고 발성하면 된다.
또, 다이얼 모드에서, 전화 번호는 입력부(314)에 대해 키 입력하는 대신에, 예를 들면 「1234···」라고 발성함으로써 입력할 수 있다. 또한, 예를 들면 상대의 이름을 발성함으로써, 상대의 전화 번호를 입력할 수도 있다.
이 경우, 전화 번호의 음성 신호는 마이크로폰(311) 및 오디오 회로(326)를 통해 음성 인식부(327)가 입력되고, 음성 신호는 전화 번호로서 인식된다. 인식된 전화 번호는, CPU329로 송신된다.
상술된 바와 같이, 음성 인식부(327)에서는, 고속으로 단어 계열이 인식되므로, 휴대 전화 장치를 사용할 때의 사용자의 부담이 경감된다. 휴대 전화 장치에서는, 음성 인식 장치(327)에서의 인식 결과에 기초하여, 아이들 모드나 다이얼 모드의 전환이나, 전화의 수신이나 발신 등의 통신 동작의 제어가 이루어진다.
계속해서, 휴대 전화 장치의 외관에 대해, 도 21을 참조하여 설명한다.
휴대 전화 장치의 정면의 상측에는 스피커(312)가, 또한 하측에는 마이크로폰(311)이 배치되어 있다. 마이크로폰(311) 상에는, 발호 동작을 행하는 데에 필요한 여러 키를 구비하는 입력부(314)가 배치되어 있다. 그리고, 이들의 입력부(314)와 스피커(312)사이에는 액정 표시부(313)가 설치되어 있다. 입력부(314)에 구비되는 키를 조작하거나, 매크로폰(311)에 소정의 음성 신호를 입력함으로써, 소정의 전화 번호에 발호 동작을 행하게 하면, 안테나(315)로부터 전파가 발사되고, 이 전파가 근처의 전화국 안테나(315)에서 수신되어, 상대방이 호출된다. 발호 상대가 응답하면 전화 회선이 접속되어, 통화가 가능해진다.
한편, 아이들 모드에서 안테나(315)를 통해 발호 신호를 검출하면, 스피커(312)로부터 호출음이 발생된다. 이 때, 마이크로폰(311)에 소정의 음성 신호를 입력하거나, 입력부(314)에서의 소정의 키를 조작하면 전화 회선이 접속되어, 통화 가능해진다.
액정 표시부(313)에는, 자신이 입력한 상대편의 전화 번호나 조작에 관련한 여러 메시지등이 표시된다. 또한, 음성 신호에 의해 입력한 정보의 음성 인식부(327)에 의한 인식 결과가, 수시로 표시된다.
이어서, 상술된 음성 인식을 정보 처리 장치에 적용한 구체예에 대해, 도 22를 참조하여 설명한다.
이 정보 처리 장치는, 연산을 실행하는 CPU402와, 불휘발성의 기억 소자인 ROM403과, 휘발성의 기억 소자인 RAM404와, 대용량의 고정 디스크 장치인 하드디스크(411)를 갖고 있다.
이들 CPU402, ROM403, RAM404, 하드디스크(411)는, 버스(401)에 의해 서로 접속되어 있다.
CPU402는, ROM403이나 RAM404에 기억된 프로그램의 순서에 따라, 연산 처리를 실행한다. 예를 들면, 어플리케이션의 프로그램의 순서를 실행한다. CPU402는, 음성 인식의 기능을 갖지만, 이것에 대해서는 후술하겠다.
ROM403은, 예를 들면 정보 처리 장치가 구동된 부팅시에 실행하는 프로그램등이 기억되어 있다. RAM404에는, 어플리케이션 프로그램이 판독되거나, CPU402에 의해 처리되는 데이터가 판독되기도 한다. 하드디스크(411)에는, 예를 들면 음성 데이터와 같은 대용량의 데이터가 축적된다.
정보 처리 장치는, 입출력 디바이스와 버스(401)사이의 인터페이스가 되는 입출력 인터페이스(405)와, 문자나 화상을 표시하는 표시부(406)와, 키 조작에 의해 정보를 입력하는 입력부(407)와, 외부의 기기와 통신을 행하는 통신부(408)와, 소위 FD 등의 착탈 가능한 디스크를 구동시키는 드라이브(409)와, 음성 신호를 입력하는 음성 입력부(410)를 구비하고 있다.
표시부(406)는, 예를 들면 CRT가 이용되어, CPU의 제어 하에 문자나 화상이 표시된다. 입력부(407)에는 예를 들면 키보드가 이용되어, 키 조작에 의해 정보가 입력된다.
통신부(408)는, 외부 기기와의 통신을 행하는 것으로, 예를 들면 TCP/IP 에 따라 통신한다. 드라이브(409)는, 예를 들면 FD와 같은 착탈 가능한 디스크에 대해 데이터의 기록/재생을 행하는 것이다.
음성 입력부(410)는, 마이크로폰에 의해 음성 신호가 입력되는 것이다. 음성 입력부(410)에 입력된 음성 신호는, CPU402에 의해 음성 인식이 이루어진다.
즉, CPU402는, 음성 입력부(410)로부터 입력된 음성을 분석하고, 음향 모델 및 언어 모델을 이용하여 인식 처리하는 것으로, 평가 모델을 정순서로 평가 대상의 모델을 제약하면서 평가하는 제1 스코어링과, 마찬가지로 역순서로 평가하는 제2 스코어링과, 이들 제1 및 제2 스코어링에서의 평가에 기초하여 후보 단어를 선택하는 것이다. 이 음성 인식은, 먼저 자세히 설명했으므로, 여기서의 설명을 생략한다.
CPU402는, 어플리케이션 프로그램이 실행되는 경우에, 음성 입력부(410)로 입력된 음성 신호를 인식하고, 음성 인식 정보에 기초하여 프로그램의 처리 상태를 제어한다. 예를 들면, 음성 입력부(410)에 「실행」이라는 음성 신호가 입력되면 특정한 처리를 실행시키고, 「정지」라는 음성이 입력이 되면 특정한 처리를 정지시킨다. 이러한 음성 인식에 의해 사용자에 의한 음성 입력이 고속으로 인식되므로, 사용자가 입력부(407)에 대해 키 조작에 의해 정보를 입력하는 경우와 비교하면, 사용자의 부담이 경감된다.
이상 설명한 바와 같이, 본 발명에 따른 실시 형태는, 입력 음성 신호에 대해 음향적인 특징량 계열의 추출을 행하는 음향 분석부를 구비하고, 그 음향 분석부에서 추출되는 개개의 특징량과의 음향적인 유사성의 평가를 행하기 위한 평가 식을 이용하여, 음성의 부분적 혹은 전체적인 특징량 계열의 패턴과의 유사성의 평가를 행할 수 있는 음향 모델을 구비하고, 또한 음향 모델의 접속에 관한 제약을 제공하기 위한 언어 모델을 구비하고, 또한 언어 모델에 따라 음향 모델을 접속해감에 따라 구성할 수 있는 모든 음향 모델의 배열 중에서, 음향 분석부에서 추출되는 특징량 계열과 가장 유사한 후보, 혹은 상위 복수 후보를 선출하는 인식 처리부를 구비하는 음성 인식 장치에서, 언어 모델에 따라 음향 모델을 접속함으로써 구성할 수 있는 모든 음향 모델의 배열을 평가 대상으로 하여, 특징량 계열의 시단으로부터 종단에 걸쳐, 각 특징량과의 음향적인 유사성의 평가를 축차로 행하면서, 음향 모델의 배열의 전방으로부터 후방으로 평가치를 누적해감으로써, 몇개의 음향 모델의 배열에 대해 누적된 평가치를 제공하는 처리를 행하고, 상기 처리와 동일 평가 대상에 대해, 즉 언어 모델에 따라 음향 모델을 접속함으로써 구성할 수 있는 모든 음향 모델의 배열을 평가 대상으로 하여, 상기 처리와는 역방향, 즉 특징량 계열의 종단으로부터 시단에 걸쳐, 각 특징량과의 음향적인 유사성의 평가를 축차 행하면서, 음향 모델 배열의 후방으로부터 전방으로 평가치를 누적해 감으로써, 몇개의 음향 모델의 배열에 대해 누적된 평가치를 제공하는 처리를 행하고, 또한 상기 두개의 처리를 행할 때에는, 언어 모델에 따라 음향 모델을 접속함으로써 구성할 수 있는 모든 음향 모델의 배열 내에 있는 제약된 부분에 대해서만, 각 특징량과의 음향적인 유사성의 평가, 및 그 평가치의 누적을 행하는 것으로 함으로써, 즉 대상으로 해야 할 모든 음향 모델의 배열 중에서, 각 특징량과의 음향적인 유사성의 평가를 행해야되는 부분을 제한하면서, 그 평가치의 계산과 누적의 처리를 행하는 것으로 함으로써, 상기 두개의 처리의 각각에서 얻어지는 음향 모델의 배열과 누적 평가치와의 조합을 전부 통합하여, 그 결과로서 얻어지는 모든 음향 모델의 배열과 누적 평가치와의 조합 중에서, 가장 누적 평가치가 높은 음향 모델의 배열, 혹은 누적 평가치가 높은 것으로부터 상위 복수의 음향 모델의 배열을 선출하는 것이다.
또한, 언어 모델에 따라 음향 모델을 접속할 때에, 언어의 개시를 의미하는 음향 모델로부터 언어의 종료를 의미하는 음향 모델에 걸쳐 공통적인 부분을 다발화하여, 이에 따라 얻어지는 네트워크를 이용하여, 특징량 계열의 시단으로부터 종단에 걸친 평가치의 누적을 행하고, 이것과는 독립적으로, 언어의 종료를 의미하는 음향 모델로부터 언어의 개시를 의미 음향 모델에 걸쳐 공통적인 부분을 다발화하고, 이에 따라 얻을 수 있는 또하나의 네트워크를 이용하여, 특징량 계열의 종단으로부터 시단에 걸친 평가치의 누적을 행하는 것이다.
또한, 언어 모델에 따라 음향 모델을 접속할 때에, 언어의 개시를 의미하는 음향 모델로부터 언어의 종료를 의미하는 음향 모델에 걸쳐 공통적인 부분을 다발화함과 동시에, 언어의 종료를 의미하는 음향 모델로부터 언어의 개시를 의미 음향 모델에 걸쳐서도 공통적인 부분을 다발화하고, 이에 따라 얻어지는 하나의 네트워크를 이용하여, 특징량 계열의 시단으로부터 종단에 걸친 평가치의 누적과, 특징량 계열의 종단으로부터 시단에 걸친 평가치의 누적을 행하는 것이다.
그리고, 특징량 계열의 시단으로부터 종단에 걸친 평가치의 누적을 행하는 처리 과정에서, 시단으로부터의 누적이 행해진 평가치의 도중 결과와, 그 도중 결과의 평가치를 제공하는 음향 모델의 배열을 기억해 두도록 하고, 또하나의 처리 과정, 즉 특징량 계열의 종단으로부터 시단에 걸친 평가치의 누적을 행하는 처리 과정에서, 만약 동일 특징량 계열을 이용하여 동일 음향 모델의 배열에 대한 평가치의 누적을 행할 필요가 생긴 경우, 즉 남은 시단까지의 특징량 계열을 이용하는 어느 음향 모델의 배열에 대해 평가치의 누적을 진행시켜 가는 처리가 발생하고, 또한 그것에 대응하는 누적 평가치로서, 역방향, 즉 시단으로부터 누적한 평가치가 이미 계산되어, 그 값이 기억되는 경우에, 그 기억된 값을 이용함으로써, 남은 시단까지의 특징량 계열을 이용한 평가치의 누적을 행하는 계산을 생략하는 것이다.
또한, 각 특징량과의 음향적인 유사성의 평가를 행할 때의 제약, 즉 언어 모델에 따라 접속된 음향 모델 내의 어느 부분에 대해 평가를 행하는 제약에 대해, 특징량 계열의 시단으로부터 종단에 걸쳐 평가치의 누적을 행할 때에 거는 제약을 완화시키고, 반대로 종단으로부터 시단에 걸쳐 평가치의 누적을 행할 때의 제약은 강화시키는 것이다.
또한, 특징량 계열의 시단으로부터 종단에 걸쳐 평가치의 누적을 행하는 처리가 종료한 시점에서, 가장 누적 평가치가 높은 음향 모델의 배열, 혹은 누적 평가치은 높은 것으로부터 상위 복수의 음향 모델의 배열을 선출하여 출력하고, 특징량 계열의 종단으로부터 시단에 걸쳐 평가치의 누적을 행한 후에, 시단으로부터 종단에 걸친 처리와 종단으로부터 시단에 걸친 처리를 합해 얻어지는 결과가, 만일 앞에 나온 결과와 동일해지는 경우에는, 그것을 의미하는 신호를 출력하고, 만일 다른 경우에는, 다시 가장 누적 평가치가 높은 음향 모델의 배열, 혹은 누적 평가치가 높은 것으로부터 상위 복수의 음향 모델의 배열을 다시 선출하여 출력하는 것이다.
이상 설명한 바와 같이, 입력 음성 신호에 대해, 대응하는 단어의 계열을 자동적으로 구하여 출력을 행하는 음성 인식 장치에 있어서, 인식 결과가 되는 단어의 계열을 고속으로 구하기 위한 음성 인식 장치 및 방법을 제안하는 것이다.
또, 상술된 실시 형태에서는, 인식 수법으로서 HMM을 예로 들어 설명했지만, 본 발명은 이것에 한정되는 것은 아니다. 본 발명에는, 인식 수법으로서, HMM 외에도, 예를 들면 DP 매칭, 뉴럴 네트워크를 적용할 수 있다.
본 발명에서는, 전방 스코어의 계산과 후방 스코어의 계산을 독립적으로 행하여, 양방의 결과를 통합함으로써, 종래보다도 고속으로 입력 음성 신호에 대응하는 단어 계열을 구한다는 것을 실현하였다.
예를 들면, 상태 천이 네트워크 상에서의 스코어 계산으로서 생각한 경우에, 종래와 같이, 단순하게 누적 스코어의 계산을 행하는 상태수를 제한하면서 스코어 계산을 행하려고 하면, 정답율과 계산량과의 트레이드 오프의 문제가 되어, 그 결과, 높은 정답율을 달성하기 위해 큰 계산량이 필요해지거나, 혹은 계산 파워의 제약으로부터 정답율을 내려야하는 문제가 발생하는 경우가 있었다.
그러나, 본 발명에서는, 후방 스코어의 계산의 결과에 따라 보정이 행해지기 때문에, 전방 스코어만으로 높은 정답율을 달성할 필요가 없어져, 결과적으로 총계산량을 대폭 삭감하는 것이 가능해진다. 특히, 계산량등이 제한된 상황하에서 음성 인식 장치를 실현하려고 한 경우, 본 발명 방법은 매우 유효하다.
또한, 본 발명은, 후방 스코어의 계산에 의해 이루어지는 응답의 지연 문제를 완화시키기 위해, 전방 스코어와 후방 스코어의 계산에서 공통으로 행해지는 부분을 공통화하는 방법이나, 전방 스코어와 후방 스코어의 계산으로 이용하는 제약을 변화시키는 방법, 또한 전방 스코어의 계산 결과를 먼저 출력하고, 후방 스코어의 계산 결과에 따라 정정 처리를 행하는 방법등을 나타내었다. 이에 따라, 음성을 입력하면서 처리를 행하는 경우의 응답 속도를, 더욱 향상시키는 것이 가능해진다.

Claims (17)

  1. 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 장치에 있어서,
    상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과,
    상기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 수단과,
    상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 갖는 것을 특징으로 하는 음성 인식 장치.
  2. 제1항에 있어서,
    상기 선택 수단은, 평가치가 큰 순서로 복수의 평가 모델을 선택하는 것을 특징으로 하는 음성 인식 장치.
  3. 제1항에 있어서,
    상기 제1의 평가 수단은, 상기 복수의 평가 모델에 대해, 상기 정 순서로 공통화 가능한 부분을 공통화하고, 상기 제2의 평가 수단은, 상기 복수의 평가 모델에 대해, 상기 역 순서로 공통화 가능한 부분을 공통화하는 것을 특징으로 하는 음성 인식 장치.
  4. 제1항에 있어서,
    상기 제1의 평가 수단 및 제2의 평가 수단은, 상기 복수 모델에 대해, 상기정 순서 및 역 순서로 공통화 가능한 부분을 함께 공통화시키는 것을 특징으로 하는 음성 인식 장치.
  5. 제1항에 있어서,
    상기 복수의 평가 모델의 공통화 가능한 부분의 평가치를 저장하는 테이블을 지니고, 상기 제1의 평가 수단 및 제2의 평가 수단은, 상기 복수의 평가 모델의 평가일 때에, 상기 테이블에 평가치가 저장되어 있지 않은 경우에는 그 평가치를 저장하고, 상기 테이블에 평가치가 저장되어 있는 경우에는 그 평가치를 판독하는 것을 특징으로 하는 음성 인식 장치.
  6. 제1항에 있어서,
    상기 복수의 평가 모델의 공통화 가능한 부분의 평가치를 저장하는 테이블과, 상기 복수의 공통 모델의 공통화할 수 있는 부분의 평가치를 미리 산출하여 상기 테이블에 저장하는 수단을 갖는 것을 특징으로 하는 음성 인식 장치.
  7. 제6항에 있어서,
    상기 테이블에 대한 참조의 빈도를 검출하는 빈도 검출 수단을 지니고, 상기 제1의 평가 수단 및 제2의 평가 수단은, 상기 빈도 검출 수단으로부터의 빈도에 따라서, 상기 복수의 평가 모델로부터 평가의 대상으로 하는 평가 모델을 제약하는 것을 특징으로 하는 음성 인식 장치.
  8. 제4항에 있어서,
    상기 제1의 평가 수단은, 상기 복수의 평가 모델의 상기 정 순서의 평가치를 상기 음향 모델 단위로 기억하고, 상기 제2의 평가 수단은, 상기 복수의 평가 모델의 상기 역 순서의 평가치를 상기 음향 모델 단위로 기억하며, 상기 복수의 평가 모델의 평가치로 공통화 가능한 부분은 공통화하는 것을 특징으로 하는 음성 인식 장치.
  9. 제1항에 있어서,
    상기 제1의 평가 수단에 있어서의 상기 복수의 평가 모델에 대한 제약은, 상기 제2의 평가 수단에 있어서의 상기 복수의 평가 모델에 대한 제약보다 약한 것을 특징으로 하는 음성 인식 장치.
  10. 제1항에 있어서,
    상기 제1의 평가 수단에 의한 결과로부터, 평가치가 큰 순서로 소정수의 평가 모델을 출력하는 제1의 출력 수단과, 상기 제2의 평가 수단의 결과가 상기 제1의 평가 수단과 일치하는지의 여부를 판단하는 비교 수단과, 상기 비교 수단으로써 일치한 경우에는 신호를 출력하는 신호 출력 수단과, 상기 비교 수단으로써 일치하지 않는 경우에는, 상기 제1의 평가 수단 및 제2의 평가 수단의 결과에 기초하여, 평가치가 큰 순서로 소정수의 평가 모델을 출력하는 제2의 출력 수단을 갖는 것을 특징으로 하는 음성 인식 장치.
  11. 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석 공정과, 상기 음향 분석 공정으로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리 공정을 갖는 음성 인식 방법에 있어서,
    상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 공정과,
    상기 복수의 평가 모델로부터 평가를 행하는 평가의 대상이 되는 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 공정과, 상기 제1의 평가 공정 및 제2의 평가 공정에서 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 공정
    을 갖는 것을 특징으로 하는 음성 인식 방법.
  12. 차량의 현재 위치를 검출하기 위한 현재 위치 검출 장치와,
    차량의 진행 방향을 검출하는 방향 검출 장치와,
    도로 지도 정보가 기억된 기억 수단과,
    상기 현재 위치 검출 수단에 의해 검출된 차량의 현재 위치와 상기 기억 수단으로부터 판독된 도로 지도 정보에 기초하여, 상기 차량의 현재 위치를 도로 상에 위치하도록 수정한 현재 위치 정보를 산출하는 연산 처리 수단과,
    음성 신호가 입력되는 음성 입력 수단과,
    상기 음성 입력 수단에 입력된 음성 신호로부터 음향적인 특징량을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 수단에 있어서, 상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과, 상기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 수단과, 상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 내에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 지니고, 상기 음성 입력 수단으로부터 입력된 음성 신호를 인식하는 음성 인식 수단과,
    상기 연산 처리 수단에 의해 산출된 현재 위치 정보에 기초하여 상기 기록 수단으로부터 도로 지도 정보를 판독함과 함께, 상기 음성 인식 수단으로부터 얻어진 음성 인식 정보에 기초하여 동작 상태를 제어하는 제어 수단과,
    상기 기억 수단으로부터 판독된 도로 지도 상에 상기 현재 위치 정보에 의한 현재 위치를 표시하는 표시 수단을 갖는 것을 특징으로 하는 내비게이션 장치.
  13. 제12항에 있어서,
    상기 음성 인식 수단은, 상기 음성 입력 수단에 입력된 음성 신호로부터,
    都道府縣(일본의 행정구역)명과 市區町村(일본의 행정구역)명과 특정한 조작을 지시하는 음성을 인식하고, 상기 제어 수단은, 상기 음성 인식 수단으로써 인식한 음성 인식 정보에 기초하여 상기 기록 수단으로부터의 판독 제어를 하는 것을 특징으로 하는 내비게이션 장치.
  14. 제12항에 있어서,
    상기 음성 인식 수단은, 상기 음성 입력 수단에 입력된 음성 신호로부터, 각종 모드의 전환을 지시하는 음성을 지시하는 음성을 인식하여, 상기 제어 수단은, 상기 음성 인식 수단으로써 인식한 음성 인식 정보에 기초하여 모드 전환의 제어를 하는 것을 특징으로 하는 내비게이션 장치.
  15. 무선 주파수의 전자파를 이용하여 기지국의 사이에서 통신을 행하는 휴대 전화 장치에 있어서,
    음성 신호가 입력되는 음성 입력 수단과, 키 조작에 의해 정보가 입력되는 키 입력 수단과,
    상기 음성 입력 수단에 입력된 음성 신호를 무선 주파수의 신호에 변조하는 변조 수단과,
    상기 변조 수단으로부터 보내어진 무선 주파수의 신호를 송신함과 함께, 무선 주파수의 신호를 수신하는 안테나와,
    상기 안테나로 수신된 무선 주파수의 신호를 음성 신호로 복조하는 복조 수단과,
    상기 복조 수단으로 음성 신호로 복조된 상기 안테나로 수신된 무선 주파수의 신호를 출력하는 음성 출력 수단과,
    음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 수단이고, 상기언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과, 상기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 대한 평가치를 축적하는 제2의 평가 수단과, 상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 중에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 지니고,
    상기 음성 입력 수단으로부터 입력된 음성 신호를 인식하는 음성 인식 수단과,
    상기 키 입력 수단에 입력된 정보 또는 상기 음성 인식 수단으로써 인식된 음성 인식 정보에 기초하여, 통신 동작을 제어하는 제어 수단
    을 갖는 것을 특징으로 하는 휴대 전화 장치.
  16. 제15항에 있어서,
    상기 제어 수단에는, 상기 키 입력 수단으로부터의 정보 또는 상기 음성 인식 수단으로부터의 음성 인식 정보로서, 전화 번호가 제공되는 것을 특징으로 하는 휴대 전화 장치.
  17. 프로그램이 기억된 기억 수단과,
    키 조작에 따라서 정보가 입력되는 키 입력 수단과,
    음성 신호가 입력되는 음성 입력 수단과,
    상기 음성 입력 수단에 입력된 음성 신호로부터 음향적인 특징량 계열을 추출하는 음향 분석부와, 상기 음향 분석부로부터 제공되는 특징량 계열에 기초하여, 음향적인 특징량의 음향 모델 및 상기 음향 모델의 접속 관계를 규정하는 언어 모델을 이용하여, 상기 음성 신호에 대응하는 단어 후보를 제공하는 인식 처리부를 갖는 음성 인식 수단에 있어서, 상기 언어 모델에 따라서 상기 음향 모델을 접속하여 이루어지는 음향 모델의 열로 이루어지는 복수의 평가 모델로부터 평가를 행하는 평가 대상의 모델을 제약하면서, 상기 특징 계열의 시단으로부터 종단을 향하는 정 순서로 상기 특징 계열과의 유사성의 평가치를 축적하는 제1의 평가 수단과, 기 복수의 평가 모델로부터 평가를 행하는 대상의 평가 모델을 제약하면서, 상기 특징 계열의 종단으로부터 시단을 향하는 역 순서로 상기 특징 계열과의 유사성에 관해서의 평가치를 축적하는 제2의 평가 수단과, 상기 제1의 평가 수단 및 제2의 평가 수단으로 얻어진 평가치 중에서 최대의 평가치를 제공하는 평가 모델을 선택하는 선택 수단을 지니고, 상기 음성 입력 수단으로부터 입력된 음성 신호를 인식하는 음성 인식 수단과,
    상기 기억 수단에 기억된 프로그램에 기초를 둔 처리를 실행하고, 상기 키 입력 수단으로부터의 정보 또는 상기 음성 인식 수단으로부터의 음성 인식 정보에 기초하여 상기 프로그램의 처리 상태를 제어하는 연산 수단을 갖는 것을 특징으로 하는 정보 처리 장치.
KR1020007004103A 1998-08-17 1999-08-17 음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치 KR20010024521A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1998-230982 1998-08-17
JP23098298 1998-08-17
PCT/JP1999/004424 WO2000010160A1 (fr) 1998-08-17 1999-08-17 Dispositif et procede de reconnaissance vocale, dispositif de navigation, telephone portable et processeur d'informations

Publications (1)

Publication Number Publication Date
KR20010024521A true KR20010024521A (ko) 2001-03-26

Family

ID=16916383

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007004103A KR20010024521A (ko) 1998-08-17 1999-08-17 음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치

Country Status (4)

Country Link
EP (1) EP1024476A1 (ko)
KR (1) KR20010024521A (ko)
CN (1) CN1287657A (ko)
WO (1) WO2000010160A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170022445A (ko) * 2015-08-20 2017-03-02 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3984207B2 (ja) * 2003-09-04 2007-10-03 株式会社東芝 音声認識評価装置、音声認識評価方法、及び音声認識評価プログラム
KR100612882B1 (ko) * 2004-12-29 2006-08-14 삼성전자주식회사 시계열 신호의 패턴 인식 가능성 판단 방법 및 장치
CN101257680B (zh) * 2008-03-26 2012-04-25 宇龙计算机通信科技(深圳)有限公司 一种具有导航功能的移动终端及导航方法
KR20090107365A (ko) 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
CN102374864B (zh) * 2010-08-13 2014-12-31 国基电子(上海)有限公司 语音导航设备及语音导航方法
WO2013125203A1 (ja) * 2012-02-21 2013-08-29 日本電気株式会社 音声認識装置、音声認識方法およびコンピュータプログラム
US9691382B2 (en) * 2013-03-01 2017-06-27 Mediatek Inc. Voice control device and method for deciding response of voice control according to recognized speech command and detection output derived from processing sensor data
CN104732968B (zh) * 2013-12-20 2018-10-02 上海携程商务有限公司 语音操控系统的评价系统及方法
CN104064184B (zh) * 2014-06-24 2017-03-08 科大讯飞股份有限公司 异构解码网络的构建方法及系统、语音识别方法及系统
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants
CN110046045B (zh) * 2019-04-03 2021-07-30 百度在线网络技术(北京)有限公司 语音唤醒的数据包处理方法和装置
CN112146660B (zh) * 2020-09-25 2022-05-03 电子科技大学 一种基于动态词向量的室内地图定位方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60172100A (ja) * 1984-02-16 1985-09-05 電子計算機基本技術研究組合 音声認識装置
JPH02305159A (ja) * 1989-05-19 1990-12-18 Toshiba Corp 無線電話装置
JPH077273B2 (ja) * 1989-10-27 1995-01-30 三菱電機株式会社 連続音声認識用構文処理装置
JPH0440557A (ja) * 1990-06-06 1992-02-10 Seiko Epson Corp 携帯型音声認識電子辞書
JPH09114489A (ja) * 1995-10-16 1997-05-02 Sony Corp 音声認識装置,音声認識方法,ナビゲーション装置,ナビゲート方法及び自動車

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170022445A (ko) * 2015-08-20 2017-03-02 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법

Also Published As

Publication number Publication date
CN1287657A (zh) 2001-03-14
EP1024476A1 (en) 2000-08-02
WO2000010160A1 (fr) 2000-02-24

Similar Documents

Publication Publication Date Title
ES2278763T3 (es) Sistema y procedimiento de reconocimiento de voz con una pluralidad de motores de reconocimiento.
US8639508B2 (en) User-specific confidence thresholds for speech recognition
US8438028B2 (en) Nametag confusability determination
US9202465B2 (en) Speech recognition dependent on text message content
JP4497834B2 (ja) 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体
US8055502B2 (en) Voice dialing using a rejection reference
US8560313B2 (en) Transient noise rejection for speech recognition
US8880402B2 (en) Automatically adapting user guidance in automated speech recognition
US8756062B2 (en) Male acoustic model adaptation based on language-independent female speech data
US9711136B2 (en) Speech recognition device and speech recognition method
US20130080172A1 (en) Objective evaluation of synthesized speech attributes
US9911408B2 (en) Dynamic speech system tuning
US20120109649A1 (en) Speech dialect classification for automatic speech recognition
US20080126100A1 (en) Correcting substitution errors during automatic speech recognition
US9484027B2 (en) Using pitch during speech recognition post-processing to improve recognition accuracy
US20100076764A1 (en) Method of dialing phone numbers using an in-vehicle speech recognition system
US9997155B2 (en) Adapting a speech system to user pronunciation
JPH05232984A (ja) 音声分析における基準パターン形成方法
US9881609B2 (en) Gesture-based cues for an automatic speech recognition system
US20110282668A1 (en) Speech adaptation in speech synthesis
US20120323577A1 (en) Speech recognition for premature enunciation
KR20010024521A (ko) 음성 인식 장치 및 방법, 내비게이션 장치, 휴대 전화장치 및 정보 처리 장치
US9473094B2 (en) Automatically controlling the loudness of voice prompts
US20040215454A1 (en) Speech recognition apparatus, speech recognition method, and recording medium on which speech recognition program is computer-readable recorded
KR20040068023A (ko) 은닉 궤적 은닉 마르코프 모델을 이용한 음성 인식 방법

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid