KR20040102224A - 음성 인식 장치 - Google Patents

음성 인식 장치 Download PDF

Info

Publication number
KR20040102224A
KR20040102224A KR10-2004-7018136A KR20047018136A KR20040102224A KR 20040102224 A KR20040102224 A KR 20040102224A KR 20047018136 A KR20047018136 A KR 20047018136A KR 20040102224 A KR20040102224 A KR 20040102224A
Authority
KR
South Korea
Prior art keywords
speech
model
voice
parameter
speech model
Prior art date
Application number
KR10-2004-7018136A
Other languages
English (en)
Other versions
KR100650473B1 (ko
Inventor
도시유끼 미야자끼
Original Assignee
아사히 가세이 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아사히 가세이 가부시키가이샤 filed Critical 아사히 가세이 가부시키가이샤
Publication of KR20040102224A publication Critical patent/KR20040102224A/ko
Application granted granted Critical
Publication of KR100650473B1 publication Critical patent/KR100650473B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치를 제공한다. 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하고, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개한다.

Description

음성 인식 장치{SPEECH RECOGNITION DEVICE}
음성 인식의 세계에서는, 일반적으로, 불특정 화자를 대상으로 하여 음성을 인식하는 기술을 불특정 화자 음성 인식이라고 칭하고, 특정 화자를 대상으로 하여 음성을 인식하는 기술을 특정 화자 음성 인식이라고 칭하고 있다.
음성 인식 방법의 하나로서는, 예를 들면, 하나의 단어를 구성하는 음운을 음성 단위로 하여, 각 음운마다 음성 파라미터에 의해 모델화한 음성 모델을 이용하여 음성을 인식한다고 하는 것이 있다. 「홋카이도」라는 단어를 예로 들면, 「h」, 「o」, 「ts」, 「k」, 「a」, 「i」, 「d」, 「o」, 「u」라는 9개의 음운을 직렬로 접속한 네트워크로 「홋카이도」의 음성 모델을 작성한다. 그 외에, 「아오모리」라든가 「아키타」라는 다른 단어를 인식하는 경우에는, 이것에 대응한 음성 모델을 각각 준비할 필요가 있다. 불특정 화자 인식의 경우에는, 이 음성 모델이, 많은 화자에게 공통되는 음성 파라미터에 의해 모델화되고 있다.
종래, 이러한 음운의 음성 모델을 이용하여 불특정 화자 음성 인식을 행하는기술로서는, 은닉 마르코프 모델(이하, 간단히 HMM(Hidden Markov Model)이라고 함)이 널리 알려져 있고, 예를 들면, 「음성·음 정보의 디지털 신호 처리」(鹿野淸宏, 中村哲, 伊勢史郎共著, (株)昭晃堂)에 상세히 설명되어 있다.
HMM에 의한 불특정 화자 음성 인식 방법을 도 7 및 도 8을 참조하면서 간단히 설명한다. 도 7은 소정 구분으로 분류한 음운 세트를 나타내는 도면이다. 도 8은 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면이다.
HMM에 따르면, 일본어의 경우, 우선, 도 7에 도시하는 바와 같이, 모음, 마찰음, 파찰음, 파열음, 반모음 및 비음 중 어느 하나의 음운을 이용하여, 하나의 단어를, 음운을 직렬로 접속한 네트워크로 구성한다. 그리고, 이것에 대응하는 상태 천이를 작성하고, 각 상태에 대하여, 다음의 상태로 천이하는 확률을 나타내는 천이 확률, 및 다음의 상태로 천이할 때에 음성 파라미터를 출력하는 확률을 나타내는 출력 확률을 규정함으로써, 음성 모델을 작성한다. 예를 들면, 「홋카이도」라는 단어에 대한 음성 모델은 도 8의 (A)에 도시하는 바와 같이, 9개의 음운을 발성 순으로 직렬로 접속한 네트워크로 모델화할 수 있다. 도 8의 (B)에는, 각 음운의 HMM의 상태 천이가 도시되어 있다.
여기서, 도 8의 (B) 중의 a(I, J)는 상태 I로부터 상태 J로의 천이 확률을 나타내고, 예를 들면 도면 중의 a(1, 1)은 상태 1로부터 상태 1로의 천이 확률을 나타낸다. 또한, b(I, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1에서의 출력 확률을 나타내고, 도면 중의 b(1, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1의출력 확률을 나타낸다.
또한, 도 8의 (B) 중의 p(I)는 상태 I의 확률을 나타내고, 하기의 수학식 1에 의해 표현된다.
또, 상기의 수학식 1 중 「max」는 인수 중에서 최대값을 선택하는 함수이다.
다음에, 이러한 음성 모델을 복수개 이용하여 비교적 긴 단어 열의 음성을 인식하는 경우를 도 9를 참조하면서 상세히 설명한다. 본 예에서는, 주소 등과 같이 도도부현명이나 시읍면명을 결합한 단어 열의 음성을 인식하는 경우가 있다. 도 9는 음성 모델 네트워크(500)의 구성을 나타내는 도면이다.
음성 모델 네트워크는, 도 9에 도시하는 바와 같이, 입력 음성의 무음 성분을 검출하는 포즈(502)와, 각 도도부현명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(504)과, 도도부현 아래의 계층인 각 시명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(506)과, 시 아래의 계층인 구명 또는 동명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(508)과, 구 또는 거리 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(510)과, 입력 음성의 무음 성분을 검출하는 포즈(512)로 구성되어 있다.
음성 모델 그룹(504)은 각 도도부현에 대응하여 그 도도부현명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 포즈(502)에 결합하고 있다.
음성 모델 그룹(506)은 각 시에 대응하여 그 시명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(504)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(504)에 속하는 음성 모델 중 가나가와현의 음성을 인식 가능한 것에, 가나가와현에 속하는 각 시명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(506)이 결합되어 있다.
음성 모델 그룹(508)은 각 구 또는 각 거리에 대응하여 그 구명 또는 동명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(506)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(506)에 속하는 음성 모델 중 후지사와시의 음성을 인식 가능한 것에, 후지사와시에 속하는 각 동명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(508)이 결합되어 있다.
음성 모델 그룹(510)은 각 지구에 대응하여 그 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(508)에 속하는 각 음성 모델과 결합하고 있다. 도 9의 예에서는, 음성 모델 그룹(508)에 속하는 음성 모델 중 기따구의 음성을 인식 가능한 것에, 기따구에 속하는 각 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(510)이 결합되어 있다.
포즈(512)는 음성 모델 그룹(508) 또는 음성 모델 그룹(510)에 결합하고 있다.
또한, 이들 결합 관계에서는, 음성 파라미터를 부여하는 것에 수반하여, 포즈(502), 음성 모델 그룹(504), 음성 모델 그룹(506), 음성 모델 그룹(508), 음성 모델 그룹(510) 및 포즈(512)의 순으로, 또는 포즈(502), 음성 모델 그룹(504), 음성 모델 그룹(506), 음성 모델 그룹(508) 및 포즈(512)의 순으로 생기 확률의 변동이 전파되도록 되어 있다.
이와 같이, 불특정 화자 음성 인식을 행하는 데 있어서는, 복수의 음성 모델을 미리 준비해 두고, 이들 음성 모델을 RAM 등의 메모리에 배치하여 음성 인식을 행하게 되어 있다.
그러나, 이 방법으로는, 결합 단어 수가 증가하게 되면, 단어 수가 조합하여 폭발적으로 증대하여, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 증대하며, 카 내비게이션과 같은 조립형 시스템에서는, 시스템을 구성하는 메모리 용량이 증대한다. 예를 들면, 지명 인식을 행하는 경우, 도도부현에 계속하여 시읍면명까지 연속하는 단어 열의 음성을 인식 가능한 음성 모델 네트워크에서는 인식할 단어 수는 3500개 정도 되지만, 도도부현, 시읍면명에 계속해서 구명, 군명 등까지 연속하는 단어 열을 인식 가능한 음성 모델 네트워크에서는 인식할 단어 수는 10만 어를 넘는다.
그래서, 본 발명은, 이러한 종래 기술이 갖는 미해결의 과제에 주목하여 이루어진 것으로, 불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치를 제공하는 것을 목적으로 하고 있다.
본 발명은 불특정 화자용의 음성 모델에 기초하여 음성 인식을 행하는 시스템에 관한 것으로, 특히 불특정 화자 음성 인식을 행하는 데 필요한 메모리 용량을 저감하는 데 적합한 음성 인식 장치에 관한 것이다.
도 1은 음성 인식 장치(100)의 구성을 나타내는 블록도.
도 2는 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면으로, 도 2의 (A)는 음운의 직렬 접속에 의한 단어 음성 모델을 나타내는 도면이고, 도 2의 (B)는 각 음운의 HMM 상태 천이를 나타내는 도면.
도 3은 제1 음성 모델 네트워크(300)의 구성을 나타내는 도면.
도 4는 가비지 모델(350)의 구성을 나타내는 도면.
도 5는 제2 음성 모델 네트워크(400)의 구성을 나타내는 도면.
도 6은 음성 모델 네트워크의 전환 타이밍을 도시하는 타임챠트.
도 7은 소정 구분으로 분류한 음운 세트를 나타내는 도면.
도 8은 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면으로, 도 8의 (A)는 음운의 직렬 접속 네트워크에 의한 남녀 공용 단어 음성 모델을 나타내는 도면이고, 도 8의 (B)는 각 음운의 HMM 상태 천이를 나타내는 도면.
도 9는 음성 모델 네트워크(500)의 구성을 나타내는 도면.
상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제1항에 기재된음성 인식 장치는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비하며, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 음성 인식을 행할 때는, 비특정 음성 인식용 음성 모델 및 부모 음성 모델 그룹에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개되고, 입력 음성으로부터 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
여기서, 부모 음성 모델 그룹 및 자식 음성 모델 그룹은 어떠한 결합 관계를 갖고 있어도 되며, 예를 들면, 부모 음성 모델 그룹의 후방에 자식 음성 모델 그룹이 결합하고 있는 경우, 또는 자식 음성 모델 그룹의 후방에 부모 음성 모델 그룹이 결합하고 있는 경우가 상정된다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다. 이것은, 부모 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계, 또는 자식 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계에 대해서도 동일하다. 이하, 청구의 범위 제12항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14항에 기재된 음성 인식 방법에서 동일하다.
또한, 음성 모델은 소정의 음성 단위로 모델화한 것으로, 소정의 음성 단위로서는 음운이어도 되고, 복수의 음운의 계열이어도 된다. 이하, 청구의 범위 제2항에 기재된 음성 인식 장치, 청구의 범위 제12 및 제13항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14 및 제15항에 기재된 음성 인식 방법에서 동일하다.
또한, 음성 모델 전개용 기억 수단은 음성 모델을 모든 수단에서 그리고 모든 시기에 기억하는 것으로, 음성 모델을 미리 기억하고 있는 것이어도 되고, 음성 모델을 미리 기억하지 않고, 본 장치의 동작 시에 외부로부터의 입력 등에 의해서 음성 모델을 기억하도록 되어 있어도 된다. 이하, 청구의 범위 제2항에 기재된 음성 인식 장치, 청구의 범위 제12 및 제13항에 기재된 음성 인식 프로그램, 및 청구의 범위 제14 및 제15항에 기재된 음성 인식 방법에서 동일하다.
또한, 본 발명에 따른 청구의 범위 제2항에 기재된 음성 인식 장치는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단과, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단을 구비하고, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에 의해, 음성 파라미터가 입력 음성으로부터 추출된다. 그리고, 음성 인식 수단에 의해, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단에 전개되고, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
여기서, 제1 음성 모델 그룹, 제2 음성 모델 그룹 및 제3 음성 모델 그룹은 어떠한 결합 관계를 갖고 있어도 되고, 예를 들면, 제1 음성 모델 그룹의 후방에 제2 음성 모델 그룹 및 제3 음성 모델 그룹이 결합하고 있는 경우, 또는 제2 음성 모델 그룹 및 제3 음성 모델 그룹의 후방에 제1 음성 모델 그룹이 결합하고 있는 경우가 상정된다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다. 이것은, 제1 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계, 또는 제2 음성 모델 그룹 및 제3 음성 모델 그룹 및 비특정 음성 인식용 음성 모델의 결합 관계에 대해서도 동일하다.
또한, 본 발명에 따른 청구의 범위 제3항에 기재된 음성 인식 장치는, 청구의 범위 제2항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
또한, 본 발명에 따른 청구의 범위 제4항에 기재된 음성 인식 장치는, 청구의 범위 제2 및 제3항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단으로부터 삭제하고, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단으로부터 삭제되고, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
또한, 본 발명에 따른 청구의 범위 제5항에 기재된 음성 인식 장치는, 청구의 범위 제3 및 제4항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 비특정 음성 인식용 음성 모델은, 상기 제1 음성 모델 그룹에 속하는 음성 모델과 결합하고 있고, 상기 음성 파라미터를 부여하는 것에 수반하여, 상기 제1 음성 모델 그룹의 음성 모델 및 상기 비특정 음성 인식용 음성 모델의 순으로 상기 생기 확률의 변동이 전파되도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여, 제1 음성 모델 그룹의 음성 모델 및 비특정 음성 인식용 음성 모델의 순으로 생기 확률의 변동이 전파된다.
또한, 본 발명에 따른 청구의 범위 제6항에 기재된 음성 인식 장치는, 청구의 범위 제5항에 기재된 음성 인식 장치로서, 상기 음성 파라미터를 기억하기 위한 음성 파라미터 기억 수단을 더 구비하고, 상기 음성 파라미터 추출 수단은, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 상기 음성 파라미터 기억 수단에 소정 순서로 저장하도록 되어 있으며, 상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단으로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델전개용 기억 수단에 전개하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소정 순서와 역의 순서로 소정 수 복귀하며, 그 판독 위치로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하게 되어 있다.
이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에 의해, 음성 파라미터가 입력 음성으로부터 추출되고, 추출된 음성 파라미터가 음성 파라미터 기억 수단에 소정 순서로 저장된다. 그리고, 음성 인식 수단에 의해, 음성 파라미터 기억 수단으로부터 소정 순서로 음성 파라미터가 판독되고, 판독된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다. 그리고, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가 소정 순서와 역의 순서로 소정 수 복귀되고, 그 판독 위치로부터 소정 순서로 음성 파라미터가 판독되며, 판독된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다.
여기서, 음성 파라미터 기억 수단은 음성 파라미터를 모든 수단으로 그리고 모든 시기에 기억하는 것으로, 음성 파라미터를 미리 기억하고 있는 것이어도 되고, 음성 파라미터를 미리 기억하지 않고, 본 장치의 동작 시에 외부로부터의 입력 등에 의해서 음성 파라미터를 기억하도록 되어 있어도 된다.
또한, 본 발명에 따른 청구의 범위 제7항에 기재된 음성 인식 장치는, 청구의 범위 제6항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 인식 음성 모델로부터 상기 비특정 음성 인식용 음성 모델에 상기 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소요 시간에 상당하는 수만큼 복귀하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 제1 음성 모델 그룹 내에서 생기 확률이 가장 높은 음성 모델이 인식 음성 모델로서 특정되고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다. 그리고, 인식 음성 모델로부터 비특정 음성 인식용 음성 모델에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가 소요 시간에 상당하는 수만큼 복귀된다.
또한, 본 발명에 따른 청구의 범위 제8항에 기재된 음성 인식 장치는, 청구의 범위 제7항에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를, 상기 인식 음성 모델을 특정한 시점에서의 상기 판독 위치로부터 상기 소요 시간에 상당하는 수만큼복귀하게 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치가, 인식 음성 모델을 특정한 시점에서의 판독 위치로부터, 산출된 소요 시간에 상당하는 수만큼 복귀된다.
또한, 본 발명에 따른 청구의 범위 제9항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제8항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 발음 표기 문자열을 상기 음성 모델 전개용 기억 수단에 기억함과 함께, 상기 발음표기 문자열에 기초하여 상기 음성 모델을 구성 가능한 음성 모델 템플릿을, 상기 제2 음성 모델 그룹에 속하는 음성 모델의 수 및 상기 제3 음성 모델 그룹에 속하는 음성 모델의 수 중 많은 쪽에 상당하는 수만큼 상기 음성 모델 전개용 기억 수단에 기억해 놓고, 상기 음성 인식 수단은, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 경우에는, 상기 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 상기 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 상기 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 상기 음성 모델을 구성하도록 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하는 경우에는, 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 음성 모델이 구성된다.
또한, 본 발명에 따른 청구의 범위 제10항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제9항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 제1 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 음성 모델 전개용 기억 수단에 전개한 것 중에서 상기 생기 확률이 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하며, 상기 제1 인식 음성 모델의 특정 음성 및 상기 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정하게 되어 있다.
이러한 구성이면, 음성 인식 수단에 의해, 제1 음성 모델 그룹 내에서 생기 확률이 가장 높은 음성 모델이 제1 인식 음성 모델로서 특정되고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 음성 모델 전개용 기억 수단에 전개한 것 중에서 생기 확률이 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다. 그리고, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정된다.
또한, 본 발명에 따른 청구의 범위 제11항에 기재된 음성 인식 장치는, 청구의 범위 제2 내지 제10항 중 어느 하나에 기재된 음성 인식 장치로서, 상기 비특정 음성 인식용 음성 모델은 가비지 모델이다.
이러한 구성이면, 화자로부터 음성이 입력되면, 음성 파라미터 추출 수단에의해, 음성 파라미터가 입력 음성으로부터 추출된다. 그리고, 음성 인식 수단에 의해, 제1 음성 모델 그룹에 속하는 음성 모델 및 가비지 모델이 음성 모델 전개용 기억 수단에 전개되고, 추출된 음성 파라미터가 음성 모델 전개용 기억 수단의 음성 모델에 주어진다. 이것에 수반하여 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 가비지 모델로부터 출력되는 생기 확률에 기초하여, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델이 음성 모델 전개용 기억 수단에 전개된다.
한편, 상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제12항에 기재된 음성 인식 프로그램은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비한 컴퓨터에 대하여, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 처리를 실행시키기 위한 프로그램이다.
이러한 구성이면, 컴퓨터에 의해 프로그램이 판독되고, 판독된 프로그램에 따라 컴퓨터가 처리를 실행하면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 작용이 얻어진다.
또한, 본 발명에 따른 청구의 범위 제13항에 기재된 음성 인식 프로그램은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과, 상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 이용 가능한 컴퓨터에 대하여, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단, 및 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단으로서 실현되는 처리를 실행시키기 위한 프로그램이며, 상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있다.
이러한 구성이면, 컴퓨터에 의해 프로그램이 판독되고, 판독된 프로그램에따라 컴퓨터가 처리를 실행하면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 작용이 얻어진다.
한편, 상기 목적을 달성하기 위해서, 본 발명에 따른 청구의 범위 제14항에 기재된 음성 인식 방법은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며, 상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며, 음성 인식을 행할 때는, 상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개한다.
또한, 본 발명에 따른 청구의 범위 제15항에 기재된 음성 인식 방법은, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과, 상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화면서, 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹을 구성하고, 상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 단계와, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 단계를 포함하며, 상기 음성 인식 단계는, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 제1 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개한다.
이하, 본 발명의 제1 실시 형태를 도면을 참조하면서 설명한다. 도 1 내지 도 6은 본 발명에 따른 음성 인식 장치의 제1 실시 형태를 나타내는 도면이다.
본 실시 형태는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용한 것이다.
우선, 음성 인식 장치(100)의 구성을 도 1을 참조하면서 설명한다. 도 1은 음성 인식 장치(100)의 구성을 나타내는 블록도이다.
음성 인식 장치(100)는, CPU, ROM, RAM 및 I/F 등을 버스 접속한 일반적인 컴퓨터와 동일 기능을 갖게 구성되어 있고, 도 1에 도시하는 바와 같이, 마이크(102)와, 마이크(102)로부터의 입력 음성을 A/D 변환하는 A/D 변환기(104)와, A/D 변환기(104)에서 변환한 음성 데이터로부터 음성 파라미터를 추출하는 음성 파라미터 추출부(106)와, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 기억하는 링 버퍼(108)와, 음성 모델을 기억하는 음성 모델 기억부(110)와, 음성 모델 기억부(110)의 음성 모델을 전개하기 위한 RAM(112)과, 대조 처리부(114)와, 음성 파라미터 추출부(106) 및 대조 처리부(114)의 프로그램 등을 기억한 ROM(116)과, 대조 처리부(114)의 인식 결과를 출력하는 출력부(118)로 구성되어 있다.
링 버퍼(108)는 음성 파라미터를 기억하기 위한 소정의 기억 영역을 갖는다. 링 버퍼(108)에의 기입에서는, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 기입 포인터가 지시하는 어드레스에 기입하여, 기입 포인터를 1 가산한다. 단, 기입 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 기입 포인터를 선두의 어드레스에 설정한다. 이를 반복함으로써, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다. 또, 기입 포인터는 음성 파라미터 추출부(106)에 의해 제어된다.
또한, 링 버퍼(108)로부터의 판독에서는, 판독 포인터가 지시하는 어드레스로부터 음성 파라미터를 판독하고, 판독 포인터를 1 가산한다. 단, 판독 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 판독 포인터를 선두의 어드레스에 설정한다. 이를 반복함으로써, 음성 파라미터는, 링 버퍼(108)에 기입된 순서로 링 버퍼(108)로부터 순환적으로 판독되어 간다. 또, 판독 포인터는 대조 처리부(114)에 의해 제어되고, 기입 포인터를 추월하지 않도록 조정된다.
음성 모델 기억부(110)에는, 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 생기 확률이 높게 되도록 모델화된 음성 모델이 기억되어 있다.
HMM에 의한 불특정 화자 음성 인식 방법을 도 2를 참조하면서 간단히 설명한다. 도 2는 음운의 직렬 접속 네트워크에 의해 모델화한 음성 모델의 개념을 나타내는 도면이다.
HMM에 따르면, 일본어의 경우, 우선,모음, 마찰음, 파찰음, 파열음, 반모음 및 비음 중 어느 하나의 음운을 이용하여, 하나의 단어를, 음운을 직렬로 접속한네트워크로 구성한다. 그리고, 이것에 대응하는 상태 천이를 작성하고, 각 상태에 대하여, 다음의 상태로 천이하는 확률을 나타내는 천이 확률, 및 다음의 상태로 천이할 때에 음성 파라미터를 출력하는 확률을 나타내는 출력 확률을 규정함으로써, 음성 모델을 작성한다. 예를 들면, 「홋카이도」라는 단어에 대한 음성 모델은, 도 2의 (A)에 도시하는 바와 같이, 9개의 음운을 발성 순으로 직렬로 접속한 네트워크로 모델화할 수 있다. 도 2의 (B)에는 각 음운의 HMM의 상태 천이가 도시되어 있다.
여기서, 도 2의 (B) 중의 a(I, J)는 상태 I로부터 상태 J로의 천이 확률을 나타내고, 예를 들면 도면 중의 a(1, 1)은, 상태 1로부터 상태 1로의 천이 확률을 나타낸다. 또한, b(I, x)는 음성 파라미터 x가 얻어졌을 때의 상태 I에서의 출력 확률을 나타내고, 도면 중의 b(1, x)는 음성 파라미터 x가 얻어졌을 때의 상태 1의 출력 확률을 나타낸다.
또한, 도 2의 (B) 중의 p(I)는 상태 I의 확률을 나타내고, 상기 수학식 1에 의해 표시된다.
이러한 음성 모델을 복수개 이용하여, 주소 등과 같이 도도부현명이나 시읍면명을 결합한 단어 열의 음성을 인식하는 경우에는, 복수의 음성 모델을 결합한 음성 모델 네트워크를 구축한다.
본 실시 형태에서, 음성 모델 네트워크는 RAM(112)에 전개하는 단위마다 구성되어 있고, 제1 음성 모델 네트워크(300)와, 제2 음성 모델 네트워크(400)로 이루어져 있다. 제2 음성 모델 네트워크(400)는 제1 음성 모델 네트워크(300)의 후방에 논리적으로 결합한다. 여기서, 후방이란, 생기 확률의 변동이 전파되는 방향에 대하여 후방인 것을 의미한다.
제1 음성 모델 네트워크(300)의 구성을 도 3을 참조하면서 상세히 설명한다. 도 3은 제1 음성 모델 네트워크(300)의 구성을 나타내는 도면이다.
제1 음성 모델 네트워크(300)는, 도 3에 도시하는 바와 같이, 입력 음성의 무음 성분을 검출하는 포즈(302)와, 각 도도부현명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(304)과, 도도부현 아래의 계층인 각 시명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(306)과, 시 아래의 계층인 구명 또는 동명의 음성을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(308)으로 구성되어 있다.
음성 모델 그룹(304)은 각 도도부현에 대응하여 그 도도부현의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 포즈(302)에 결합하고 있다.
음성 모델 그룹(306)은 각 시에 대응하여 그 시명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(304)에 속하는 각 음성 모델과 결합하고 있다. 도 3의 예에서는, 음성 모델 그룹(304)에 속하는 음성 모델 중 가나가와현의 음성을 인식 가능한 것에, 가나가와현에 속하는 각 시명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(306)이 결합되어 있다.
음성 모델 그룹(308)은 각 구 또는 각 거리에 대응하여 그 구명 또는 동명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 음성 모델 그룹(306)에 속하는 각 음성 모델과 결합하고 있다. 도 3의 예에서는, 음성 모델 그룹(306)에 속하는음성 모델 중 후지사와시의 음성을 인식 가능한 것에, 후지사와시에 속하는 각 동명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(308)이 결합되어 있다.
또한, 제1 음성 모델 네트워크(300)의 후방에, 가비지 모델(350)이 결합하고 있다. 가비지 모델(350)은, 음성 모델 그룹(304), 음성 모델 그룹(306) 및 음성 모델 그룹(308)에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 생기 확률이 높게 되도록 모델화된 것으로, 음성 모델 그룹(306) 또는 음성 모델 그룹(308)에 결합하고 있다. 가비지 모델(350)은 미지 용장어에 대한 필러 모델로서, 음성 모델 네트워크 내에서, 임의의 경로 상에 있는 음성 모델의 열(이하, 라벨 계열이라고 함)에 없는 단어를 발화한 경우, 그 생기 확립(우도)이 높게 되는 성질을 갖는 모델이다. 예를 들면, 도 4에 도시되는 예는, 현명만을 인식하는 음성 모델 그룹이고, 현명 앞에「아-」라든가 「그-」라고 하는 용장어를 수반하는 발화에 대하여 현명의 인식율을 향상시키는 것이다. 가비지 모델(350)에 관한 기술에 관해서는, 종래 문헌 「H. Boulard, B.D' hoore and J. -M. Bolite, "Optimizing recognition and Rejection Performance in Wordspotting Systems", "Porc. ICASSP, Adelaide, Austria, pp.I-373-376, 1994」를 참조하길 바란다.
또한, 이들 결합 관계에 있어서는, 음성 파라미터를 부여하는 것에 수반하여, 포즈(302), 음성 모델 그룹(304), 음성 모델 그룹(306), 음성 모델 그룹(308) 및 가비지 모델(350)의 순으로, 또는 포즈(302), 음성 모델 그룹(304), 음성 모델그룹(306) 및 가비지 모델(350)의 순으로, 생기 확률의 변동이 전파되도록 되어 있다.
다음에, 제2 음성 모델 네트워크(400)의 구성을 도 5를 참조하면서 상세히 설명한다. 도 5는 제2 음성 모델 네트워크(400)의 구성을 나타내는 도면이다.
제2 음성 모델 네트워크(400)는, 도 5에 도시하는 바와 같이, 구 또는 거리 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(402)과, 입력 음성의 무음 성분을 검출하는 포즈(404)로 구성되어 있다.
음성 모델 그룹(402)은 각 지구에 대응하여 그 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 것으로, 가비지 모델(350)과 결합하고 있다. 도 5의 예에서는, 기따구에 속하는 각 지구명의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(402)이 가비지 모델(350)에 결합되어 있다.
포즈(404)는 음성 모델 그룹(402)에 결합하고 있다. 다음에, 대조 처리부(114)의 구성을 설명한다.
대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개한다.
계속해서, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터를 판독하고, 판독 포인터를 1 가산한다. 단, 판독 포인터가 기억 영역의 말미의 어드레스에 도달했을 때는, 판독 포인터를 선두의 어드레스에 설정한다.
계속해서, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여한다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열을 제1 인식 음성 모델로서 특정한다.
계속해서, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)으로부터 삭제하고, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)를 음성 모델 기억부(110)로부터 판독하며, 판독한 음성 모델 및 포즈(404)를 RAM(112)에 전개한다.
계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를, 산출한 소요 시간에 상당하는 수만큼 복귀한다. 단, 판독 포인터가 기억 영역의 선두의 어드레스에 도달했을 때는, 판독 포인터를 말미의 어드레스에 설정한다.
그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여한다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하고, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정한다.
다음에, 본 실시 형태의 동작을 도 6을 참조하면서 설명한다. 도 6은 음성 모델 네트워크의 전환 타이밍을 도시하는 타임챠트이다.
여기서는, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우를 예로 들어 설명한다.
음성 인식을 행하는 데 있어서는, 대조 처리부(114)에 의해, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 음성 모델 기억부(110)로부터 판독되고, 판독된 음성 모델 및 가비지 모델(350)이 RAM(112)에 전개된다.
이러한 상태에서, 화자로부터의 음성이 마이크(102)로부터 입력되면, A/D 변환기(104)에 의해, 마이크(102)로부터의 입력 음성이 A/D 변환되고, 음성 파라미터 추출부(106)에 의해, A/D 변환기(104)에서 변환된 음성 데이터로부터 음성 파라미터가 추출되고, 추출된 음성 파라미터가 링 버퍼(108)에서 기입 포인터가 나타내는 어드레스에 기입된다. 이에 의해, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다.
계속해서, 대조 처리부(114)에 의해, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독 포인터가 1 가산된다. 이 때, 판독 포인터가 기억 영역의 말미의 어드레스에 도달하면, 판독 포인터가 선두의 어드레스에 설정된다.
계속해서, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열이 제1 인식 음성 모델로서 특정된다. 도 6의 예에서는, 「가나가와현 후지사와시 미로꾸지」라는 음성이 화자로부터 입력되면, 음성 모델 그룹(304) 내에서는, 「가나가와현」이라는 특정 음성을 인식 가능한 음성 모델이, 음성 모델 그룹(306) 내에서는, 「후지사와시」라는 특정 음성을 인식 가능한 음성 모델이 제1 인식 음성 모델로서 특정된다.
계속해서, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 RAM(112)으로부터 삭제되고, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)가 음성 모델 기억부(110)로부터 판독되며, 판독된 음성 모델 및 포즈(404)가 RAM(112)에 전개된다. 도 6의 예에서는, 제1 인식 음성 모델의 말미에는, 후지사와시 아래의 계층인 각 지구명을 인식 가능한 복수의 음성 모델을 그룹화한 음성 모델 그룹(402)이 결합되어 있기 때문에, 그와 같은 음성 모델 그룹(402)이 판독된다.
계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터가, 산출된 소요 시간에 상당하는 수만큼 복귀된다. 이 때, 판독 포인터가 기억 영역의 선두의 어드레스에 도달하면, 판독 포인터가 말미의 어드레스에 설정된다. 판독 포인터를 복귀하는 것은, 가비지 모델(350)의 생기 확률이 소정값으로 되기까지의 지연 시간의 영향을 저감하기 위해서이다. 도 6의 예에서는, 리트레이스 프레임 수로서 판독 포인터를 1 감소시키고 있다.
그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다. 도 6의 예에서는,「가나가와현 후지사와시 미로꾸지」라는 음성이 화자로부터 입력되면, 음성 모델 그룹(402) 내에서는, 「미로꾸지」라는 특정 음성을 인식 가능한 음성 모델이 제2 인식 음성 모델로서 특정된다. 제1 인식 음성 모델 및 제2 인식 음성 모델이 특정되면, 제1 인식 음성 모델의 특정 음성 및 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정된다. 즉, 「가나가와현 후지사와시 미로꾸지」라는 음성이 입력 음성에 포함되어 있다고 판정된다.
[실시예]
다음에, 본 발명의 실시예를 설명한다.
제1 음성 모델 네트워크(300)에는 약 3500 단어의 음성을 인식 가능한 음성 모델이 포함되고, 제2 음성 모델 네트워크(400)에는 최대로 약 1000 단어의 음성을 인식 가능한 음성 모델을 그룹화한 음성 모델 그룹(402)이 포함되어 있는 것으로 한다.
종래와 같이, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)에 속하는 모든 음성 모델을 RAM(112)에 전개하여 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 2O [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 1 [MByte]로 되어, 합계 21 [MByte]의 메모리 용량을 소비하게 된다.
이에 대하여, 본 발명과 같이, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하여 전단의 음성 인식을 행하고, 그것을 삭제한 후에, 제2 음성 모델 네트워크(400)에 속하는 음성 모델을 RAM(112)에 전개하여 후단의 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 1.4 [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 O.5 [MByte]로 되어, 합계 1.9 [MByte]의 메모리 용량을 소비하게 된다. 따라서, 종래에 비해, 필요한 메모리 용량을 91% 저감할 수 있었다.
이와 같이 하여, 본 실시 형태에서는, 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하고, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률 및 가비지 모델(350)로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 되어 있다.
이에 의해, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, RAM(112)에는, 음성 모델 그룹(402)의 전부에 대하여 그 음성 모델을 전개하지 않고, 음성 모델 그룹(402) 중 어느 하나에 대하여 그 음성 모델을 전개할 뿐으로 끝나기 때문에, 종래에 비해, 음성 인식을 행하는 데 필요한 메모리 용량을 저감할 수 있다.
또한, 본 실시 형태에서는, 대조 처리부(114)는, 음성 파라미터 추출부(106)에서 추출한 음성 파라미터를 RAM(112)의 음성 모델에 부여하고, 이것에 수반하여가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)로부터 삭제하고, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 되어 있다.
이에 의해, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 것에 수반하여, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)이 RAM(112)으로부터 삭제되기 때문에, 음성 인식을 행하는 데 필요한 메모리 용량을 더욱 저감할 수 있다.
또한, 본 실시 형태에서는, 가비지 모델(350)은, 제1 음성 모델 네트워크(300)에 속하는 음성 모델과 결합하고 있고, 음성 파라미터를 부여하는 것에 수반하여, 제1 음성 모델 네트워크(300)의 음성 모델 및 가비지 모델(350)의 순으로 생기 확률의 변동이 전파되도록 되어 있다.
이에 의해, 제1 음성 모델 네트워크(300)를 상위 계층으로 하여 계층적인 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에, 필요한 메모리 용량을 저감할 수 있다. 예를 들면, 본 실시 형태와 같이, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 유리하다.
또한, 본 실시 형태에서는, 음성 파라미터 추출부(106)는, 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 링 버퍼(108)에 소정 순서로저장하도록 되고 있고, 대조 처리부(114)는, 링 버퍼(108)로부터 소정 순서로 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여하며, 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 소정 순서와 역의 순서로 소정 수 복귀하며, 그 판독 포인터로부터 소정 순서로 음성 파라미터를 판독하고, 판독한 음성 파라미터를 RAM(112)의 음성 모델에 부여하게 되어 있다.
이에 의해, 가비지 모델(350)의 생기 확률이 소정값으로 될 때까지 어느 정도의 지연 시간을 요하기 때문에, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 복귀함으로써, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 저감하여, 비교적 정확한 음성 인식을 행하는 것이 가능하다.
또한, 본 실시 형태에서는, 대조 처리부(114)는, 제1 음성 모델 네트워크(300) 내에서 생기 확률이 가장 높은 라벨 계열을 제1 인식 음성 모델로서 특정하고, 음성 모델 그룹(402) 중 제1 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 RAM(112)에 전개하며, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를 소요 시간에 상당하는 수만큼 복귀하게 되어 있다.
이에 의해, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 음성 파라미터의 판독 포인터가 복귀되기 때문에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다.
또한, 본 실시 형태에서는, 대조 처리부(114)는, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터를, 제1 인식 음성 모델을 특정한 시점에서의 판독 포인터로부터 소요 시간에 상당하는 수만큼 복귀하게 되어 있다.
이에 의해, 음성 파라미터의 판독 포인터가, 제1 인식 음성 모델을 특정한 시점에서의 판독 포인터를 기준으로 하여, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 복귀되기 때문에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다.
상기 제1 실시 형태에서, 음성 파라미터 추출부(106)는 청구의 범위 제2 내지 제4, 제6 또는 제13항에 기재된 음성 파라미터 추출 수단에 대응하고, 음성 파라미터 추출부(106)에 의한 추출은 청구의 범위 제15항에 기재된 음성 파라미터 추출 단계에 대응하며, 링 버퍼(108)는 청구의 범위 제6 내지 제8항에 기재된 음성 파라미터 기억 수단에 대응하고 있다. 또, RAM(112)은 청구의 범위 제1 내지 제4, 제6, 제7, 제10, 제12 내지 제15항에 기재된 음성 모델 전개용 기억 수단에 대응하고, 대조 처리부(114)는 청구의 범위 제2 내지 제4, 제6 내지 제8, 제10 또는 제13항에 기재된 음성 인식 수단에 대응하고 있다.
또한, 상기 제1 실시 형태에서, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)는 청구의 범위 제1, 제12 또는 제14항에 기재된 음성 모델 네트워크에 대응하고, 음성 모델 그룹(306) 또는 음성 모델 그룹(308)은 청구의 범위 제1, 제12 혹은 제14항에 기재된 부모 음성 모델 그룹, 또는 청구의 범위 제2 내지 제7, 제10, 제13 혹은 제15항에 기재된 제1 음성 모델 그룹에 대응하고 있다. 또, 가비지 모델(350)은 청구의 범위 제1 내지 제7, 제11 내지 제15항에 기재된 비특정 음성 인식용 음성 모델에 대응하고, 음성 모델 그룹(402)은 청구의 범위 제1, 제12 혹은 제14항에 기재된 자식 음성 모델 그룹, 청구의 범위 제2 내지 제4, 제6, 제7, 제10, 제13 혹은 제15항에 기재된 제2 음성 모델 그룹, 또는 청구의 범위 제2 내지 제4, 제6, 제7, 제10, 제13 혹은 제15항에 기재된 제3 음성 모델 그룹에 대응하고 있다.
다음에, 본 발명의 제2 실시 형태를 설명한다.
본 실시 형태는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용한 것이며, 상기 제1 실시 형태와 다른 것은 음성 모델 템플릿으로부터 음성 모델을 구성하는 점에 있다.
음성 모델 기억부(110)에는, 음성 모델 그룹(402)에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 가나 문자열을 기억되어 있음과 함께, 가나 문자열에 기초하여 음성 모델을 구성 가능한 음성 모델 템플릿을, 음성 모델 그룹(402)에 속하는 음성 모델의 수만큼 기억되어 있다.
대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개한다.
다음에, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성한다.
HMM을 이용한 음성 인식을 행하는 경우, 최종적으로는, 인식시키고자 한 단어, 예를 들면 「홋카이도」를 HMM 계열로 변환하는 것이 필요하게 된다. 이 경우, 우선, 「홋카이도」를 음운 계열 「h, q, ts, k, a, i, d, o, u」로 변환한다. 그 후, 음운 계열 「h, q, ts, k, a, i, d, o, u」를 더 상세한 음운 계열로 더 분할하는 것도 있지만, 최종적으로는, 각 음운 계열에 대응한 HMM 계열을 작성한다.
도 2의 예에서는, 각각의 음운 계열에 대하여, HMM의 상태가 3개 할당되어 있다. 즉, 「홋카이도」라는 문자 데이터가, 9(음운 계열)×3(상태 수)=27의 상태로 되는 것을 의미한다. 「홋카이도」는, 반각 가나로 나타내면, 6 [Byte]의 데이터로 된다. 한편, HMM의 각 상태는, 각 2 [Byte]로 표시된다고 한다면, 27×2=54 [Byte]로 된다.
또한, 음성 모델 네트워크의 데이터에서는, 음성 모델과 음성 모델의 연결 정보(그래머 또는 룰)가 기술되어 있다. 예를 들면, 「홋카이도」라는 단어는, 「홋카이도의 시읍면명」에 연결되어 있는 정보이다. 또한, 단어가 인식된 경우에 단어의 ID로서 인식 결과를 반환하는 경우에는, 단어의 ID값 등이 포함되는 경우도 있다. 그 외에, 음성 인식에서는, 이 이상의 데이터가 음성 모델 네트워크의 데이터로서 포함되어 있다.
따라서, 음성 모델을 RAM(112)에 그대로 전개하는 경우와, 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개해 놓고, 음성 인식에 필요한 분만큼 음성 모델을 구성하는 경우를 비교하면, 후자쪽이 필요한 메모리 용량이 적다.
다음에, 본 실시 형태의 동작을 설명한다.
여기서는, 카 내비게이션 등에서 이용되는 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우를 예로 들어 설명한다.
음성 인식을 행하는 데 있어서는, 대조 처리부(114)에 의해, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿이 음성 모델 기억부(110)로부터 판독되고, 판독된 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿이 RAM(112)에 전개된다.
이러한 상태에서, 화자로부터의 음성이 마이크(102)로부터 입력되면, A/D 변환기(104)에 의해, 마이크(102)로부터의 입력 음성이 A/D 변환되고, 음성 파라미터 추출부(106)에 의해, A/D 변환기(104)에서 변환된 음성 데이터로부터 음성 파라미터가 추출되고, 추출된 음성 파라미터가 링 버퍼(108)에서 기입 포인터가 지시하는어드레스에 기입된다. 이에 의해, 음성 파라미터는, 음성 파라미터 추출부(106)로부터 추출된 순서로 링 버퍼(108)에 순환적으로 기입되어 간다.
계속해서, 대조 처리부(114)에 의해, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독 포인터가 1 가산된다. 이 때, 판독 포인터가 기억 영역의 말미의 어드레스에 도달하면, 판독 포인터가 선두의 어드레스에 설정된다.
계속해서, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 가비지 모델(350)로부터 출력되는 생기 확률이 소정값 이상으로 되면, 제1 음성 모델 네트워크(300) 내에서, 생기 확률의 적산치가 가장 높은 라벨 계열이 제1 인식 음성 모델로서 특정된다.
계속해서, 음성 모델 그룹(402) 중 제1 인식 음성 모델의 말미에 결합할 것에 속하는 음성 모델 및 포즈(404)를 RAM(112)에 전개할 필요가 있지만, 이 경우, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델이 구성된다.
계속해서, 제1 인식 음성 모델로부터 가비지 모델(350)에 생기 확률의 변동이 전파되기까지의 소요 시간이 산출되고, 링 버퍼(108)에서의 음성 파라미터의 판독 포인터가, 산출된 소요 시간에 상당하는 수만큼 복귀된다. 이 때, 판독 포인터가 기억 영역의 선두의 어드레스에 도달하면, 판독 포인터가 말미의 어드레스에 설정된다. 판독 포인터를 복귀하는 것은, 가비지 모델(350)의 생기 확률이 소정값으로 되기까지의 지연 시간의 영향을 저감하기 위해서 이다.
그리고, 링 버퍼(108)에서 판독 포인터가 나타내는 어드레스로부터 음성 파라미터가 판독되고, 판독된 음성 파라미터가 RAM(112)의 음성 모델에 주어진다. 이것에 수반하여 음성 모델 그룹(402) 내에서, 생기 확률의 적산치가 가장 높은 음성 모델이 제2 인식 음성 모델로서 특정된다.
[실시예]
다음에, 본 발명의 실시예를 설명한다. 또, 단어 수 등의 조건은 상기 실시예와 마찬가지로 한다.
종래와 같이, 제1 음성 모델 네트워크(300) 및 제2 음성 모델 네트워크(400)에 속하는 모든 음성 모델을 RAM(112)에 전개하여 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 2O [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 1 [MByte]로 되어, 합계 21 [MByte]의 메모리 용량을 소비하게 된다.
이에 대하여, 본 발명과 같이, 제1 음성 모델 네트워크(300)에 속하는 음성 모델 및 가비지 모델(350)을 RAM(112)에 전개하여 전단의 음성 인식을 행하고, 가나 문자열에 기초하여 음성 템플릿으로부터 음성 모델을 구성하여 후단의 음성 인식을 행하는 경우에는, 음성 모델을 전개하는 데 필요한 메모리 용량이 약 O.86 [MByte]로 되고, 비터비 알고리즘 등의 음성 인식 처리에서 필요한 메모리 용량이 약 0.5 [MByte]로 되어, 합계 1.36 [MByte]의 메모리 용량을 소비하게 된다. 따라서, 종래에 비해, 필요한 메모리 용량을 93% 저감할 수 있다.
이와 같이 하여, 본 실시 형태에서는, 대조 처리부(114)는, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우에는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성하도록 되어 있다.
이에 의해, 일반적으로 음성 모델 템플릿은 음성 모델에 비해 데이터 용량이 적기 때문에, 음성 모델을 필요한 때에 동적으로 전개함으로써, 음성 인식을 행하게 하는 데 필요한 메모리 용량을 더욱 저감할 수 있다. 또, 일련의 음성 인식을 행하게 하는 데 있어, 음성 모델 기억부(110)로부터 음성 모델의 판독이 행해지지 않기 때문에, 음성 모델의 판독에 요하는 시간을 저감할 수 있다.
상기 제2 실시 형태에서, RAM(112)은 청구의 범위 제9항에 기재된 음성 모델 전개용 기억 수단에 대응하고, 대조 처리부(114)는 청구의 범위 제9항에 기재된 음성 인식 수단에 대응하며, 음성 모델 그룹(402)은 청구의 범위 제9항에 기재된 제2 음성 모델 그룹, 또는 청구의 범위 제9항에 기재된 제3 음성 모델 그룹에 대응하고 있다. 또, 가나 문자열은 청구의 범위 제9항에 기재된 발음 표기 문자열에 대응하고 있다.
또, 상기 제2 실시 형태에서, 대조 처리부(114)는, 제1 음성 모델 네트워크(300)에 속하는 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 음성 모델 기억부(110)로부터 판독하고, 판독한 음성 모델, 가비지 모델(350), 가나 문자열 및 음성 모델 템플릿을 RAM(112)에 전개하며, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하는 경우에는, RAM(112)의 가나 문자열 중 RAM(112)에 전개할 음성 모델에 대응하는 것에 기초하여, RAM(112)의 음성 모델 템플릿으로부터 음성 모델을 구성하도록 하였지만, 이것에 한하지 않고, 가나 문자열 또는 음성 모델 템플릿에 대해서는 후단의 음성 인식(제2 음성 모델 네트워크(400)에 의한 음성 인식)에 필요한 분만큼 RAM(112)에 판독하도록 구성하여도 된다.
또한, 상기 제1 및 제2 실시 형태에서는, 제1 음성 모델 네트워크(300)의 후방에 가비지 모델(350)을 결합하도록 구성하였지만, 이것에 한하지 않고, 제1 음성 모델 네트워크(300)의 전방에 가비지 모델(350)을 결합하고, 제1 음성 모델 네트워크(300)에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 음성 모델 그룹(402) 중 어느 하나에 속하는 음성 모델을 RAM(112)에 전개하도록 구성하여도 된다.
또한, 상기 제1 및 제2 실시 형태에서, 가비지 모델(350)이 복수의 이력 정보를 취하는 경우에는, 음성 모델 네트워크의 전환 시에, 원하는 후보 수에 따른 음성 모델 네트워크를 구축하여, 인식 처리를 행할 수 있다. 상기 지명 인식의 예에서는, 예를 들면, 제1 음성 모델 네트워크(300)에서 얻어진 제1 후보가 라벨 계열 「가나가와현→후지사와시」이고, 제2 후보가 라벨 계열 「가나가와현→아스키시」인 경우에는, 라벨 계열 「가나가와현→후지사와시」에 결합할 음성 모델 네트워크와, 라벨 계열 「가나가와현→아스키시」에 결합할 음성 모델 네트워크를 구축하고, 한쪽 음성 모델 네트워크에서의 각각의 생기 확률과, 다른 쪽 음성 모델 네트워크에서의 각각의 생기 확률을 고려하여, 최종 인식 결과를 출력할 수 있다.
또한, 상기 제1 및 제2 실시 형태에서, 음성 파라미터 추출부(106) 및 대조처리부(114)의 기능을 실현하는 데 있어서는, 어느 것이나, ROM(116)에 미리 저장되어 있는 제어 프로그램을 실행하는 경우에 대해 설명하였지만, 이것에 한하지 않고, 이들 수순을 나타낸 프로그램이 기억된 기억 매체로부터, 그 프로그램을 RAM(112)에 판독하고 실행하도록 하여도 된다.
여기서, 기억 매체란, RAM, ROM 등의 반도체 기억 매체, FD, HD 등의 자기 기억형 기억 매체, CD, CDV, LD, DVD 등의 광학적 판독 방식 기억 매체, MO 등의 자기 기억형/광학적 판독 방식 기억 매체로서, 전자적, 자기적, 광학적 등의 판독 방법의 여하에 관계없이, 컴퓨터로 판독 가능한 기억 매체이면 모든 기억 매체를 포함한다.
또한, 상기 제1 및 제2 실시 형태에서는, 본 발명에 따른 음성 인식 장치를, 도 1에 도시하는 바와 같이, 복수의 음성 모델을 결합한 음성 모델 네트워크를 이용하여 주소 등의 비교적 긴 단어 열의 음성을 인식하는 경우에 대해 적용하였지만, 이것에 한하지 않고, 본 발명의 주지를 일탈하지 않는 범위에서 다른 경우에도 적용 가능하다.
이상 설명한 바와 같이, 본 발명에 따른 청구의 범위 제1항에 기재된 음성 인식 장치에 따르면, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, 음성 모델 전개용 기억 수단에는, 모든 자식 음성 모델 그룹에 대하여 그 음성 모델을 전개하지 않고, 어느 하나의 자식 음성 모델 그룹에 대하여 그 음성 모델을 전개할 뿐으로 끝나기 때문에, 종래에 비해, 음성 인식을행하는 데 필요한 메모리 용량을 저감할 수 있다고 하는 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제2 내지 제11항에 기재된 음성 인식 장치에 따르면, 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에도, 음성 모델 전개용 기억 수단에는, 제2 음성 모델 그룹 및 제3 음성 모델 그룹의 양쪽에 대하여 그 음성 모델을 전개하지 않고, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 대하여 그 음성 모델을 전개할 뿐으로 끝나기때문에, 종래에 비해, 음성 인식을 행하는 데 필요한 메모리 용량을 저감할 수 있다고 하는 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제4항에 기재된 음성 인식 장치에 따르면, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하는 데에 수반하여, 제1 음성 모델 그룹에 속하는 음성 모델 및 비특정 음성 인식용 음성 모델이 음성 모델 전개용 기억 수단으로부터 삭제되기 때문에, 음성 인식을 행하게 하는 데 필요한 메모리 용량을 더욱 저감할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제5 내지 제8항에 기재된 음성 인식 장치에 따르면, 제1 음성 모델 그룹을 상위 계층으로 하여 계층적인 결합 관계를 갖는 복수의 음성 모델 그룹을 이용하여 음성 인식을 행하는 경우에, 필요한 메모리 용량을 저감할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제6 내지 제8항에 기재된 음성 인식 장치에 따르면, 비특정 음성 인식용 음성 모델의 생기 확률이 소정값으로 될 때까지 어느 정도의 지연 시간을 요하기 때문에, 음성 파라미터 기억 수단에서의 음성 파라미터의 판독 위치를 복귀함으로써, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 저감하여, 비교적 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제7 또는 제8항에 기재된 음성 인식 장치에 따르면, 인식 음성 모델로부터 비특정 음성 인식용 음성 모델에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 음성 파라미터의 판독 위치가 복귀되기 때문에, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제8항에 기재된 음성 인식 장치에 따르면, 음성 파라미터의 판독 위치가, 인식 음성 모델을 특정한 시점에서의 판독 위치를 기준으로 하여, 인식 음성 모델로부터 비특정 음성 인식용 모델에 생기 확률의 변동이 전파되기까지의 시간에 상당하는 수만큼 복귀되기 때문에, 제2 음성 모델 그룹 및 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 이용하여 음성 인식을 행하는 경우에, 지연 시간의 영향을 더욱 저감하여, 보다 정확한 음성 인식을 행할 수 있다고 하는 효과도 얻어진다.
또한, 본 발명에 따른 청구의 범위 제9항에 기재된 음성 인식 장치에 따르면, 일반적으로 음성 모델 템플릿은 음성 모델에 비해 데이터 용량이 적기 때문에,음성 모델을 필요한 때에 동적으로 전개함으로써, 음성 인식을 행하는 데 필요한 메모리 용량을 더욱 저감할 수 있다고 하는 효과도 얻어진다.
한편, 본 발명에 따른 청구의 범위 제12항에 기재된 음성 인식 프로그램에 따르면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제13항에 기재된 음성 인식 프로그램에 따르면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.
한편, 본 발명에 따른 청구의 범위 제14항에 기재된 음성 인식 방법에 따르면, 청구의 범위 제1항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.
또한, 본 발명에 따른 청구의 범위 제15항에 기재된 음성 인식 방법에 따르면, 청구의 범위 제2항에 기재된 음성 인식 장치와 동등한 효과가 얻어진다.

Claims (15)

  1. 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서,
    상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비하며,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며,
    상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며,
    음성 인식을 행할 때는,
    상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며,
    입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
  2. 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 구비하고, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 장치로서,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과,
    상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과,
    상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단과,
    상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과,
    상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델, 및 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단
    을 구비하고,
    상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
  3. 제2항에 있어서,
    상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
  4. 제2항 또는 제3항에 있어서,
    상기 음성 인식 수단은, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단으로부터 삭제하고, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
  5. 제3항 또는 제4항에 있어서,
    상기 비특정 음성 인식용 음성 모델은, 상기 제1 음성 모델 그룹에 속하는음성 모델과 결합하고 있고,
    상기 음성 파라미터를 부여하는 데 수반하여, 상기 제1 음성 모델 그룹의 음성 모델 및 상기 비특정 음성 인식용 음성 모델의 순으로 상기 생기 확률의 변동이 전파되도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
  6. 제5항에 있어서,
    상기 음성 파라미터를 기억하기 위한 음성 파라미터 기억 수단
    을 더 구비하고,
    상기 음성 파라미터 추출 수단은, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터를 상기 음성 파라미터 기억 수단에 소정 순서로 저장하도록 되어 있으며,
    상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단으로부터 상기 소정 순서로 상기 음성 파라미터를 판독하고, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률이 상기 소정값 이상으로 되었을 때는, 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소정 순서와 역의 순서로 소정 수 복귀하고, 그 판독 위치로부터 상기 소정 순서로 상기 음성 파라미터를 판독하며, 판독한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
  7. 제6항에 있어서,
    상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 인식 음성 모델과 결합 관계를 갖는 것에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며, 상기 인식 음성 모델로부터 상기 비특정 음성 인식용 음성 모델에 상기 생기 확률의 변동이 전파되기까지의 소요 시간을 산출하고, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를 상기 소요 시간에 상당하는 수만큼 복귀하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
  8. 제7항에 있어서,
    상기 음성 인식 수단은, 상기 음성 파라미터 기억 수단에서의 상기 음성 파라미터의 판독 위치를, 상기 인식 음성 모델을 특정한 시점에서의 상기 판독 위치로부터 상기 소요 시간에 상당하는 수만큼 복귀하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
  9. 제2항 내지 제8항 중 어느 한 항에 있어서,
    상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델 대신에, 이들 음성 모델이 인식 가능한 특정 음성의 발음을 표기한 발음 표기 문자열을 상기 음성 모델 전개용 기억 수단에 기억함과 함께, 상기 발음 표기 문자열에 기초하여 상기 음성 모델을 구성 가능한 음성 모델 템플릿을, 상기 제2 음성 모델 그룹에 속하는 음성 모델의 수와 상기 제3 음성 모델 그룹에 속하는 음성 모델의 수 중 많은 쪽에 상당하는 수만큼 상기 음성 모델 전개용 기억 수단에 기억해 놓고,
    상기 음성 인식 수단은, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 경우에는, 상기 음성 모델 전개용 기억 수단의 발음 표기 문자열 중 상기 음성 모델 전개용 기억 수단에 전개할 음성 모델에 대응하는 것에 기초하여, 상기 음성 모델 전개용 기억 수단의 음성 모델 템플릿으로부터 상기 음성 모델을 구성하도록 되어 있는 것을 특징으로 하는 음성 인식 장치.
  10. 제2항 내지 제9항 중 어느 한 항에 있어서,
    상기 음성 인식 수단은, 상기 제1 음성 모델 그룹 내에서 상기 생기 확률이 가장 높은 음성 모델을 제1 인식 음성 모델로서 특정하고, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 상기 음성 모델 전개용 기억 수단에 전개한 것 내에서 상기 생기 확률이 가장 높은 음성 모델을 제2 인식 음성 모델로서 특정하며, 상기 제1 인식 음성 모델의 특정 음성 및 상기 제2 인식 음성 모델의 특정 음성을 결합한 것이 입력 음성에 포함되어 있다고 판정하게 되어 있는 것을 특징으로 하는 음성 인식 장치.
  11. 제2항 내지 제10항 중 어느 한 항에 있어서,
    상기 비특정 음성 인식용 음성 모델은 가비지 모델인 것을 특징으로 하는 음성 인식 장치.
  12. 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서,
    상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 구비한 컴퓨터에 대하여,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며,
    상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 네트워크와 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며,
    음성 인식을 행할 때는,
    상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하며,
    입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 처리를 실행시키기 위한 프로그램인 것을 특징으로 하는 음성 인식 프로그램.
  13. 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 프로그램으로서,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹과,
    상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델과,
    상기 음성 모델을 전개하기 위한 음성 모델 전개용 기억 수단을 이용 가능한 컴퓨터에 대하여,
    상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 수단과, 상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델과, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 수단으로서 실현되는 처리를 실행시키기 위한 프로그램이며,
    상기 음성 인식 수단은, 상기 제1 음성 모델 그룹에 속하는 음성 모델 및 상기 비특정 음성 인식용 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 수단에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하도록 되어 있는 것을 특징으로 하는 음성 인식 프로그램.
  14. 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 음성 모델 그룹을 복수 구성하고, 이들 음성 모델 그룹에 대하여 소정의 결합 관계를 규정한 음성 모델 네트워크를 구성하며,
    상기 음성 모델 네트워크 중 복수의 음성 모델 그룹과 결합 관계를 갖는 것을 부모 음성 모델 그룹으로 하고, 상기 음성 모델 네트워크 중 상기 부모 음성 모델 그룹과 결합 관계를 갖는 것을 자식 음성 모델 그룹으로 하며,
    음성 인식을 행할 때는,
    상기 부모 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 부모 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하며,
    입력 음성으로부터 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하고, 이것에 수반하여 상기 부모 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 자식 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 것을 특징으로 하는 음성 인식 방법.
  15. 주어진 음성 파라미터에 기초하여 입력 음성에 특정 음성이 포함되어 있을 가능성을 생기 확률로서 출력함과 함께 특정 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 음성 모델을 이용하여, 상기 음성 파라미터를 입력 음성으로부터 추출하고, 추출한 음성 파라미터 및 상기 음성 모델에 기초하여 음성 인식을 행하는 방법으로서,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화한 제1 음성 모델 그룹과,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 어느 하나의 음성 모델과 결합 관계를 갖는 제2 음성 모델 그룹과,
    상기 특정 음성 파라미터가 서로 다른 복수의 음성 모델을 그룹화하고, 또한 상기 제1 음성 모델 그룹에 속하는 다른 어느 하나의 음성 모델과 결합 관계를 갖는 제3 음성 모델 그룹을 구성하고,
    상기 음성 파라미터를 입력 음성으로부터 추출하는 음성 파라미터 추출 단계와,
    상기 제1 음성 모델 그룹, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹에 속하는 음성 모델과, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터에 기초하여 음성 인식을 행하는 음성 인식 단계
    를 포함하며,
    상기 음성 인식 단계는, 상기 제1 음성 모델 그룹에 속하는 음성 모델이 인식 가능한 특정 음성 이외의 음성을 나타내는 음성 파라미터가 주어졌을 때에 상기 생기 확률이 높게 되도록 모델화된 비특정 음성 인식용 음성 모델, 및 상기 제1 음성 모델 그룹에 속하는 음성 모델을 음성 모델 전개용 기억 수단에 전개하고, 상기 음성 파라미터 추출 단계에서 추출한 음성 파라미터를 상기 음성 모델 전개용 기억 수단의 음성 모델에 부여하며, 이것에 수반하여 상기 제1 음성 모델 그룹에 속하는 음성 모델로부터 출력되는 생기 확률 및 상기 비특정 음성 인식용 음성 모델로부터 출력되는 생기 확률에 기초하여, 상기 제2 음성 모델 그룹 및 상기 제3 음성 모델 그룹 중 어느 하나에 속하는 음성 모델을 상기 음성 모델 전개용 기억 수단에 전개하는 것을 특징으로 하는 음성 인식 방법.
KR1020047018136A 2002-05-10 2003-05-07 음성 인식 장치 KR100650473B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002135770 2002-05-10
JPJP-P-2002-00135770 2002-05-10
PCT/JP2003/005695 WO2003096324A1 (fr) 2002-05-10 2003-05-07 Dispositif de reconnaissance vocale

Publications (2)

Publication Number Publication Date
KR20040102224A true KR20040102224A (ko) 2004-12-03
KR100650473B1 KR100650473B1 (ko) 2006-11-29

Family

ID=29416761

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047018136A KR100650473B1 (ko) 2002-05-10 2003-05-07 음성 인식 장치

Country Status (8)

Country Link
US (1) US7487091B2 (ko)
EP (1) EP1505573B1 (ko)
JP (1) JP4316494B2 (ko)
KR (1) KR100650473B1 (ko)
CN (1) CN1320520C (ko)
AU (1) AU2003235868A1 (ko)
DE (1) DE60323362D1 (ko)
WO (1) WO2003096324A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020263016A1 (ko) * 2019-06-26 2020-12-30 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003302063A1 (en) * 2002-11-21 2004-06-15 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
DE602004011545T2 (de) * 2003-10-03 2009-01-08 Asahi Kasei Kabushiki Kaisha Datenverarbeitungseinrichtung und datenverarbeitungseinrichtungssteuerprogramm
US7865357B2 (en) * 2006-03-14 2011-01-04 Microsoft Corporation Shareable filler model for grammar authoring
DK2102619T3 (en) * 2006-10-24 2017-05-15 Voiceage Corp METHOD AND DEVICE FOR CODING TRANSITION FRAMEWORK IN SPEECH SIGNALS
US8180641B2 (en) * 2008-09-29 2012-05-15 Microsoft Corporation Sequential speech recognition with two unequal ASR systems
US8595010B2 (en) * 2009-02-05 2013-11-26 Seiko Epson Corporation Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition
KR20100136890A (ko) * 2009-06-19 2010-12-29 삼성전자주식회사 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법
EP2357647B1 (de) * 2010-01-11 2013-01-02 Svox AG Verfahren zur Spracherkennung
US9001976B2 (en) * 2012-05-03 2015-04-07 Nexidia, Inc. Speaker adaptation
US9390708B1 (en) * 2013-05-28 2016-07-12 Amazon Technologies, Inc. Low latency and memory efficient keywork spotting
US9251806B2 (en) * 2013-09-05 2016-02-02 Intel Corporation Mobile phone with variable energy consuming speech recognition module
US9183830B2 (en) * 2013-11-01 2015-11-10 Google Inc. Method and system for non-parametric voice conversion
US9177549B2 (en) * 2013-11-01 2015-11-03 Google Inc. Method and system for cross-lingual voice conversion
US9542927B2 (en) 2014-11-13 2017-01-10 Google Inc. Method and system for building text-to-speech voice from diverse recordings
CN107771205B (zh) * 2015-04-09 2021-03-23 沙特阿拉伯石油公司 用于提高烃采收的胶囊型纳米组合物
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
CN110556103B (zh) * 2018-05-31 2023-05-30 阿里巴巴集团控股有限公司 音频信号处理方法、装置、系统、设备和存储介质
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
CN110875033A (zh) * 2018-09-04 2020-03-10 蔚来汽车有限公司 用于确定语音结束点的方法、装置和计算机存储介质
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
CN110164431B (zh) * 2018-11-15 2023-01-06 腾讯科技(深圳)有限公司 一种音频数据处理方法及装置、存储介质
KR20200063521A (ko) 2018-11-28 2020-06-05 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
US11694685B2 (en) * 2020-12-10 2023-07-04 Google Llc Hotphrase triggering based on a sequence of detections
CN112786055A (zh) * 2020-12-25 2021-05-11 北京百度网讯科技有限公司 资源挂载方法、装置、设备、存储介质及计算机程序产品

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6417292A (en) * 1987-07-09 1989-01-20 Nec Corp Static memory circuit
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
US6230128B1 (en) * 1993-03-31 2001-05-08 British Telecommunications Public Limited Company Path link passing speech recognition with vocabulary node being capable of simultaneously processing plural path links
JP2775140B2 (ja) * 1994-03-18 1998-07-16 株式会社エイ・ティ・アール人間情報通信研究所 パターン認識方法、音声認識方法および音声認識装置
US6076054A (en) * 1996-02-29 2000-06-13 Nynex Science & Technology, Inc. Methods and apparatus for generating and using out of vocabulary word models for speaker dependent speech recognition
US5842165A (en) * 1996-02-29 1998-11-24 Nynex Science & Technology, Inc. Methods and apparatus for generating and using garbage models for speaker dependent speech recognition purposes
JP3039634B2 (ja) * 1997-06-16 2000-05-08 日本電気株式会社 音声認識装置
JPH1115492A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp 音声認識装置
CA2216224A1 (en) * 1997-09-19 1999-03-19 Peter R. Stubley Block algorithm for pattern recognition
US6073095A (en) * 1997-10-15 2000-06-06 International Business Machines Corporation Fast vocabulary independent method and apparatus for spotting words in speech
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes
JP2000089782A (ja) * 1998-09-17 2000-03-31 Kenwood Corp 音声認識装置と方法、ナビゲーションシステム、及び記録媒体
FI116991B (fi) * 1999-01-18 2006-04-28 Nokia Corp Menetelmä puheen tunnistamisessa, puheentunnistuslaite ja puheella ohjattava langaton viestin
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US6195639B1 (en) * 1999-05-14 2001-02-27 Telefonaktiebolaget Lm Ericsson (Publ) Matching algorithm for isolated speech recognition
JP4642953B2 (ja) * 1999-09-09 2011-03-02 クラリオン株式会社 音声検索装置、および、音声認識ナビゲーション装置
GB2364814A (en) * 2000-07-12 2002-02-06 Canon Kk Speech recognition
JP4116233B2 (ja) * 2000-09-05 2008-07-09 パイオニア株式会社 音声認識装置ならびにその方法
JP4283984B2 (ja) * 2000-10-12 2009-06-24 パイオニア株式会社 音声認識装置ならびに方法
JP3584002B2 (ja) * 2001-03-29 2004-11-04 三洋電機株式会社 音声認識装置および音声認識方法
US6950796B2 (en) * 2001-11-05 2005-09-27 Motorola, Inc. Speech recognition by dynamical noise model adaptation
JP2003308091A (ja) * 2002-04-17 2003-10-31 Pioneer Electronic Corp 音声認識装置、音声認識方法および音声認識プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020263016A1 (ko) * 2019-06-26 2020-12-30 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법

Also Published As

Publication number Publication date
CN1653518A (zh) 2005-08-10
US20050203737A1 (en) 2005-09-15
JPWO2003096324A1 (ja) 2005-09-15
DE60323362D1 (de) 2008-10-16
WO2003096324A1 (fr) 2003-11-20
AU2003235868A1 (en) 2003-11-11
US7487091B2 (en) 2009-02-03
KR100650473B1 (ko) 2006-11-29
EP1505573A4 (en) 2005-07-13
CN1320520C (zh) 2007-06-06
EP1505573A1 (en) 2005-02-09
EP1505573B1 (en) 2008-09-03
JP4316494B2 (ja) 2009-08-19

Similar Documents

Publication Publication Date Title
KR100650473B1 (ko) 음성 인식 장치
US5949961A (en) Word syllabification in speech synthesis system
CN104157285B (zh) 语音识别方法、装置及电子设备
US8639507B2 (en) Voice recognition system, voice recognition method, and program for voice recognition
JP5274711B2 (ja) 音声認識装置
JPH0772840B2 (ja) 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
TWI420510B (zh) 可調整記憶體使用空間之語音辨識系統與方法
CN104899192A (zh) 用于自动通译的设备和方法
KR100930714B1 (ko) 음성인식 장치 및 방법
WO2002029615A1 (en) Search method based on single triphone tree for large vocabulary continuous speech recognizer
US7464033B2 (en) Decoding multiple HMM sets using a single sentence grammar
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
KR100848148B1 (ko) 음절 단위의 음성 인식 장치, 음절 단위의 음성 인식을이용한 문자 입력 장치, 그 방법 및 기록 매체
JP3059398B2 (ja) 自動通訳装置
JP6542823B2 (ja) 音響モデル学習装置、音声合成装置、それらの方法、及びプログラム
US8260614B1 (en) Method and system for expanding a word graph to a phone graph based on a cross-word acoustical model to improve continuous speech recognition
Kiruthiga et al. Design issues in developing speech corpus for Indian languages—A survey
JP4478088B2 (ja) 記号列変換方法、音声認識方法、記号列変換装置とプログラム、記録媒体
JP6078435B2 (ja) 記号列変換方法、音声認識方法、それらの装置及びプログラム
Huang et al. Internet-accessible speech recognition technology
KR101068120B1 (ko) 다중 탐색 기반의 음성 인식 장치 및 그 방법
JP6023543B2 (ja) 記号列変換方法とそれを用いた音声認識方法と、それらの装置とプログラムとその記録媒体
Seneff The use of subword linguistic modeling for multiple tasks in speech recognition
JP3532248B2 (ja) 学習音声パタンモデル使用音声認識装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121114

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131031

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141103

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee