WO2004047076A1

WO2004047076A1 - 標準モデル作成装置及び標準モデル作成方法

Info

Publication number: WO2004047076A1
Application number: PCT/JP2003/014626
Authority: WO
Inventors: Shinichi Yoshizawa
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2002-11-21
Filing date: 2003-11-18
Publication date: 2004-06-03
Also published as: JP3667332B2; AU2003302063A1; EP1564721A1; US20060053014A1; US20090271201A1; JPWO2004047076A1; US7603276B2

Abstract

隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解、確率モデルによるデータマイニングなどに用いる高精度な標準モデルを提供する標準モデル作成装置であって、１以上の参照モデルを準備する参照モデル準備部（１０２）と、参照モデル準備部（１０２）が準備した参照モデル（１２１）を記憶する参照モデル記憶部（１０３）と、参照モデル記憶部（１０３）が記憶している１以上の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデル（１２２）を作成する標準モデル作成部（１０４）とを備える。

Description

明細書

標準モデル作成装置及び標準モデル作成方法 · 技術分野

本発明は、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデ一タマイニング（データ特性の認識）、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証（対象を認識して特定の対象かどうかを判断する）、株価予測、天気予測などの予測（状況を認識して判断する）、複数の話者音声の合成、複数の顔画像などの合成（合成したモデルを人が認識して楽しむ）などに用いられる標準モデルの作成装置及びその方法に関する。背景技術

近年、インターネットなどの普及により、ネットワークの大容量化、通信コストの低価格化が進んでいる。このため、ネットワークを利用することで、多くの認識用モデル（参照モデル）を収集することが可能となってきている。例えば、音声認識において、様々な研究機関で配布している多くの音声認識用モデル（子供用モデル、成人用モデル、高齢者用モデル、自動車内用モデル、携帯電話用モデルなど）をインターネットによりダウンロードすることが可能となってきている。また、ネットワークによる機器連携により、カーナビゲーシヨンシステムなどで利用する音声認識用モデルをテレビやパソコンなどにダウンロードできるようになつてきている。また、意図理解において、各地の様々な人の経験を学習した認識用モデルを、ネットワークを通して収集することが可能となってきている。

また、認識技術の発展により、認識用モデルは、パソコン、テレビのリモコン、携帯電話、カーナビゲーションシステムなど、 C P Uパワー、メモリ量などの仕様の異なる幅広い機器に利用されるようになってきている。また、セキュリティーなどの認識精度が要求されるアプリケーシヨンや、テレビのリモコンでの操作のように認識結果が出力されるまでの時間の速さが要求されるアプリケーションなど、要求仕様の異なる幅広いアプリケーションに利用されるようになってきている。

また、認識技術は、認識対象の異なる多くの環境で利用されるようになってきている。例えば、音声認識において、子供の声、成人の声、高齢者の声を認識したり、自動車内での声、携帯電話での声を認識するなど、多くの環境で利用される。

これらの社会環境の変化を鑑みると、多くの認識用モデル（参照モデル）を有効に活用することで、機器やアプリケーションの仕様、利用環境に適した精度の高い認識用モデル（標準モデル）を短時間に作成して利用者に提供することが望まれると考えられる。

音声認識などのパターン認識の分野では、認識用の標準モデルとして確率モデルを用いる方法が近年注目されており、特に、隠れマルコフモデル（以下 H M Mと呼ぶ）や混合ガウス分布モデル（以下 G M Mと呼ぶ）が広く用いられている。また、意図理解において、意図、知識、嗜好などを表す標準モデルとして確率モデルを用いる方法が近年注目されておリ、特に、ベイジアンネットなどが広く用いられている。また、データマイニングの分野で、データを分類するために各カテゴリの代表モデルとして確率モデルを用いる方法が注目されており、 G M Mなどが広く用いられている。また、音声認証、指紋認証、顔認証、虹彩認証などの認証の分野で、認証用の標準モデルとして確率モデルを用いる方法が注目されており、 G M Mなどが用いられている。 H M Mにより表現される標準モデルの学習アルゴリズムとしてバウム ■ ウエルチ（ B a u m— W e

I c h ) の再推定の方法が広く用いられている（例えば、今井聖著、 " 音声認識"、 P P .1 5 0 - 1 5 2、共立出版株式会社、 1 9 9 5年 "！ 1 月 2 5日発行参照）。また、 G M Mにより表現される標準モデルの学習ァノレゴリスムとして E M ( E x p e c t a t i o n — M a x i m i z a t i o n ) アルゴリズムが広く用いられている（例えば、古井貞▲ひろ▼ 著、 "音声情報処理 "、 P P . 1 0 0 — 1 0 4、森北出版株式会社、 1 9

9 8年 6月 3 0 曰発行参照）。 E Mアルゴリズムでは、標準モデル (式 1 )

M_f

2J ^ωί、》ί)ί、^Χ f(m)，び/ (m)ノ

m-\

(ここで、

(式 2 ) f(x; _fim))a_f ² _(m)) ( 二 1，2，.."M,) はガウス分布を表し、

(式 3 ) 二、 (1) , (2)，…， ^X(J) ) ^ ^Λ は J (≥ 1 ) 次元の入力データを表す）における統計量である混合重み係数

(式 4 )

^f(m) (w = l₎2,..., _/) 、 J (≥ 1 ) 次元の平均値

(式 5 )

^f(m) ⁼ り，i"/(w，2)，…， /(«!,·/)) ^{S Λ}

及び J (≥ 1 ) 次元の分散値（共分散行列の J個の対角成分） (式 6 ) び/ W = (び /( ，び/ _(m,₂₎，'"，び/ _(OT，）

(m = l,2,...,M_f,j=l,2^J) を、

N個の学習データ

(式 7 )

を用いて、学習データに対する尤度

(式 8 )

を最大化もしくは極大化するように、

(式 9 )

(/« = 1,2,...，M,)

(式 1 o )

(w = l,2₅..., _?7 = l,2,...₅J)

(式 1 1 )

(w = l,2.., _/,y = l,2..,^)

(ここで、

(式 1 2 )

(»ϊ = 1，2,.·,，Μ,)

である）を利用して 1 以上繰り返して計算して学習を行う。また、ベィズ推定法（例えば、繁桝算男著、 "ベイズ統計入門"、 ρ ρ .4 2— 5 3、東京大学出版会、 1 9 8 5年 4月 3 0 日発行参照）などの方法も提案されている。バウム . ウエルチの再推定の方法、 E Mアルゴリズム、べィズ推定法のいずれの学習アルゴリズムも、学習データに対する確率（尤度）を最大化もしくは極大化するように標準モデルのパラメータ（統計量）を計算して標準モデルを作成する。これらの学習方法では、確率（尤度）を最大化もしくは極大化するという数学的な最適化が実現されている。

上記の学習方法を音声認識の標準モデルの作成に用いた場合、多様な話者や雑音などの音響的特徴量の変動に対応するために多数の音声データで標準モデルを学習することが望ましい。また、意図理解に用いた場合、多様な話者や状況などの変動に対応するために多数のデータで標準モデルを学習することが望ましい。また、虹彩認証に用いた場合、太陽光、カメラ位置，回転などの変動に対応するために多数の虹彩画像デ一タで標準モデルを学習することが望ましい。しかしながら、このような多量のデータを取り扱う場合、学習に膨大な時間がかかるため、利用者に標準モデルを短時間に提供できない。また、多量のデータを蓄積するためのコストが膨大となる。また、ネットワークを利用してデータを収集した場合、通信コストが膨大となる。

一方、複数のモデル（以下、標準モデルの作成のために参照用と'して準備されるモデルを「参照モデル」と呼ぶ。）を合成することで標準モデルを作成する方法が提案されている。参照モデルは、多くの学習データを確率分布の母数（平均、分散など）で表現した確率分布モデルであり、多くの学習データの特徴を少数のパラメータ（母数）で集約したものである。以下に示す従来技術では、モデルはガウス分布で表現されている。第 1 の従来方法では、参照モデルは G M Mで表現されており、複数の参照モデルの G M Mを重み付きで合成することで標準モデルを作成している（例えば、特開平 4一 1 2 5 5 9 9号公報に開示された技術）。また、第 2の従来方法では、第 1 の従来方式に加えて、学習データに対する確率（尤度）を最大化あるいは極大化して線形結合された混合重みを学習することで標準モデルを作成している（例えば、特開平 1 0— 2 6 8 8 9 3号公報に開示された技術）。

また、第 3の従来方法では、標準モデルの平均値を参照モデルの平均値の線形結合で表現し、入力データに対する確率（尤度）を最大化あるいは極大化して線形結合係数を学習することで標準モデルを作成している。ここでは学習データとして特定話者の音声データを用いており標準モデルを音声認識用の話者適応モデルとして用いている（例えば、 M. J . F . G a l e s 、 " C l u s t e r A d a p t i v e r a i n i n g F o r S p e e c h R e c o g n i t i o n "、， 9 9 8年、 I C S L P 9 8予稿集、 p p . 1 7 8 3 — 1 7 8 6 )。

また、第 4の従来方法では、参照モデルは単一ガウス分布で表現されており、複数の参照モデルのガウス分布を合成したのちに、クラスタリングにより同一クラスに属するガウス分布を統合することで標準モデルを作成している（例えば、特開平 9 — 8 1 1 7 8号公報に開示された技術）₀

また、第 5の従来方法では、複数の参照モデルは同数の混合数の混合ガウス分布で表現され、各ガウス分布には 1 対 1 に対応した通し番号が付与されている。標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成される。合成する複数の参照モデルは利用者に音響的に近い話者で作成されたモデルであり、作成させる標準モデルは話者適応モデルである（例えば、芳澤、外 6名、 "十分統計量と話者距離を用いた音韻モデルの教師なし学習法"、 2 0 0 2年 3月 1 日、電子情報通信学会、 V o に J 8 5 - D - I Ι 、 Ν ο · 3、 p p . 3 8 2— 3 8 9 )。

しかしながら、第 1 の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。この課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。

第 2の従来方法では、合成する参照モデル数の増加とともに標準モデルの混合数が増加して、標準モデルのための記憶容量、認識処理量が膨大となり実用的でない。また、仕様に応じて標準モデルの混合数を制御することができない。また、標準モデルは、参照モデルの単純な混合和であり学習するパラメータが混合重みに限定されているため、高精度の標準モデルが作成できない。また、標準モデルの作成において、多くの学習データを用いて学習を行っているため学習時間がかかる。これらの課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。

第 3の従来方法では、学習するパラメータが参照モデルの平均値の線形結合係数に限定されているため高精度の標準モデルが作成できない。また、標準モデルの作成において、多くの学習データを用いて学習を行つているため学習時間がかかる。

第 4の従来方法では、クラスタリングをヒューリスティックに行うため高精度の標準モデルを作成することが困難である。また、参照モデルは単一のガウス分布であるため精度が低く、それらを統合した標準モデルの精度は低い。認識精度に関する課題は、合成する参照モデルの数の増加に伴い顕著になってくると考えられる。

第 5の従来方法では、標準モデルは、同一の通し番号をもつガウス分布を合成することにより作成されるが、最適な標準モデルを作成するためには、一般的には合成するガウ.ス分布は 1 対 1 に対応するとは限らないため、認識精度が低下する。また、複数の参照モデルが異なる混合数をもつ場合に標準モデルを作成することができない。また、一般的には、参照モデルにおけるガウス分布に通し番号が付与されておらず、この場合に標準モデルを作成することができない。また、仕様に応じて標準モデルの混合数を制御することができない。発明の開示

そこで、本発明は、このような問題点に鑑みてなされたものであり、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデ一タマイニング（データ特性の認識）、株価予測、天気予測などの予測（状況を認識して判断する）などに用いられる高精度な標準モデルを作成する標準モデル作成装置等を提供することを目的とする。

また、本発明は、学習のためのデータや教師データを必要とすることなく、簡易に標準モデルを作成することが可能な標準モデル作成装置等を提供することをも目的とする。

さらに、本発明は、標準モデルを利用する認識の対象にふさわしい標準モデルを作成したり、標準モデルを用いて認識処理を実行する装置の仕様や環境に適した標準モデルを作成することが可能な汎用性及び柔軟性に優れた標準モデル作成装置等を提供することをも目的とする。本発明で用いる「認識」とは、音声認識などの狭義の意味での認識だけではなく、パターンマッチング、識別、認証、ペイズ推定や予測など、確率で表現された標準モデルを利用するもの全般を意味する。

上記目的を達成するために、本発明に係る標準モデル作成装置は、事象の集合と事象または事象間の遷移の出力確率とによって定義される認識用のモデルである標準モデルを作成する装置であって、特定の対象を認識するために予め作成されたモデルである 1 以上の参照モデルを記憶する参照モデル記憶手段と、前記参照モデル記憶手段に記憶された 1 以上の参照モデルに対する標準モデルの確率または尤度を最大化または極大化するように当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。

たとえば、音声認識用の標準モデル作成装置として、音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照モデルを記憶する参照モデル記憶手段と、前記参照モデル記憶手段に格納された 1 以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有することを特徴とする。

これによつて、 1 以上の参照モデルに対する標準モデルの確率又は尤 ' 度を最大化又は極大化するように標準モデルの統計量が計算され、標準モデルが作成されるので、音声データ等の学習データや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した高精度な標準モデルが作成される。

ここで、前記標準モデル作成装置は、さらに、外部から参照モデルを取得して前記参照モデル記憶手 ¾に格納すること、及び、参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方を行う参照モデル準備手段を備えてもよい。例えば、音声認識用に適用した場合であれば、音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照モデルを記憶するための参照モデル記憶手段と、外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、新たな参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方を行う参照モデル準備手段と、所定の構造をもつ当該標準モデルの統計量の初期値を準備し、前記参照モデル記憶手段に格納された 1 以上の参照モデルに対する標準モデルの確率又は尤度を最大化又は極大化するように、前記参照モデルの統計量を用いて当該標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備えることを特徴とする。

これによつて、標準モデル作成装置の外部から新たな参照モデルを取リ込み、取り込んだ参照モデルに基づいた標準モデルの作成が可能となるので、様々な認識対象に対応した汎用性の高い標準モデル作成装置が実現される。

また、前記標準モデル作成装置は、さらに、認識の対象に関する情報である利用情報を作成する利用情報作成手段と、作成された前記利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から 1 以上の参照モデルを選択する参照モデル選択手段とを備え、前記標準モデル作成手段は、前記参照モデル選択手段が選択した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。

これによつて、利用者の特徴、利用者の年齢、性別、利用環境などの利用情報に基づいて、準備された複数の参照モデルの中から認識対象に適した参照モデルだけが選択され、それら参照モデルを統合した標準モデルが作成されるので、認識対象によリ特化した精度の高い標準モデルが作成される。

ここで、前記標準モデル作成装置は、さらに、前記利用情報と選択された参照モデルに関する情報との類似度を算出して、前記類似度が所定のしきい値以上であるか否かを判定して判定信号を作成する類似度判定手段を備えてもよい。

これによつて、利用情報にふさわしい（近い）参照モデルが参照モデル記憶手段に存在しない場合に、参照モデルの準備の要求を行うことができる。

また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、認識の対象に関する情報である利用情報を前記端末装置から受信する利用情報受信手段と、受信された前記利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から 1 以上の参照モデルを選択する参照モデル選択手段とを備え、前記標準モデル作成手段は、前記参照モデル選択手段が選択した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。

これによつて、通信路を介して送信されてきた利用情報に基づいて標準モデルが作成されるので、遠隔制御による標準モデルの生成が可能になるとともに、通信システムを基盤とする認識システムの構築が実現される。

また、前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報を作成する仕様情報作成手段を備え、前記標準モデル作成手段は、前記仕様情報作成手段が作成した仕様情報に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。

これによつて、標準モデルを使用する装置の C P Uパワー、記憶容量、要求される認識精度、要求される認識処理時間などの仕様情報に基づいて標準モデルが作成されるので、特定の仕様条件を満たす標準モデルの生成が可能となリ、計算エンジン等の認識処理に必要なリソース環境に適した標準モデルの生成が実現される。

ここで、前記仕様情報は、例えば、標準モデルを使用するアプリケーシヨンプログラムの種類に対応づけられた仕様を示すような情報であつてもよい。そして、前記標準モデル作成装置は、さらに、標準モデルを使用するアプリケーションプログラムと標準モデルの仕様との対応を示すアプリケーション仕様対応データベースを前記仕様情報として保持する仕様情報保持手段を備え、前記標準モデル作成手段は、前記仕様情報保持手段に保持されたアプリケーション仕様対応データベースから、起動されるアプリケーションプログラムに対応する仕様を読み出し、読み出した仕様に基づいて、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。

これによつて、各アプリケ一ションごとに対応づけられた仕様に沿つて標準モデルが作成されるので、アプリケーションごとに最適な標準モデルが作成され、標準モデルが使用される認識システム等における認識精度が向上される。

また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報を前記端末装置から受信する仕様情報受信手段を備え、前記標準モデル作成手段は、前記仕様情報受信手段が受信した仕様情報に基づいて、前記參照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。

これによつて、通信路を介して送信されてきた仕様情報に基づいて標準モデルが作成されるので、遠隔制御による標準モデルの生成が可能になるとともに、通信システムを基盤とする認識システムの構築が実現される。

たとえば、前記参照モデル及び前記標準モデルは、 1 以上のガウス分布を用いて表現され、前記標準モデル作成手段は、前記仕様情報に基づいて、前記標準モデルの混合分布数（ガウス分布の数）を決定してもよい。

これによつて、作成される標準モデルに含まれるガウス分布の混合分布数が動的に決定されることとなリ、認識処理が実行される環境や要求仕様等に応じて標準モデルの構造を制御することが可能となる。例として、標準モデルを使用する認識装置の C P Uパワーが小さい場合、記憶容量が小さい場合、要求される認識処理時間が短い場合などは標準モデルの混合分布数を少なく設定して仕様に合わせることができ、一方、要求される認識精度が高い場合などは混合分布数を多く設定して認識精度を高くすることができる。

なお、上記利用情報あるいは仕様情報を用いて標準モデルを作成する場合において、参照モデル準備手段は必ずしも必要ではない。たとえば、利用者の要求に基づいて、あるいは、利用者の要求とは無関係に、予め参照モデルを標準モデル作成装置内に記憶させた状態で標準モデル作成装置を出荷し、利用情報や仕様情報を用いて標準モデルを作成することが可能だからである。

また、前記参照モデル及び前記標準モデルは、 1 以上のガウス分布を用いて表現され、前記参照モデル記憶手段は、少なくとも 1 対の参照モデルの混合分布数（ガウス分布の数）が異なる参照モデルを記憶し、前記標準モデル作成手段は、少なくとも 1 対の参照モデルの混合分布数（ガウス分布の数）が異なる参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。

これによつて、混合分布数が異なる参照モデルに基づいて標準モデルが作成されるので、予め準備された多種多様な構造の参照モデルに基づく標準モデルの作成が可能となリ、よ認識対象に適した精度の高い標準モデルの作成が実現される。

また、前記標準モデル作成装置は、さらに、前記標準モデル作成手段が作成した標準モデルを記憶する標準モデル記憶手段を備えてもよい。

これによつて、作成された標準モデルを一時的にバッファリングしておき、送信要求に対してすぐに出力したリ、他の装置に提供するデータサーバとしての役割を果たしたりする «—とが可能となる

また、前記標準モデル作成装置には通信路を介して末装置が接続され、前記標準モデル作成装置は、さらに、前記標準モデル作成手段が作成した標準モデルを前記端末装置に送信する標準モデル送信手段を備えてもよい。

これによつて、作成された標準モデルは空間的に離れた場所に置かれた外部装置に送信されるので、本標準モデル作成装置を標準モデル作成エンジンとして独立させたり、標準モデル作成装置を通信システムにおけるサーバとして機能させたりすることが可能になる。

また、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記端末装置から送信される参照モデルを受信する参照モデル受信手段を備え、前記標準モデル作成手段は、少なくとも前記参照モデル受信手段が受信した参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算してもよい。

これによつて、端末装置が保持した利用環境にふさわしい参照モデルを、通信路を介して送信して、送信した参照モデルを用いて標準モデルを作成できるため、より認識対象に適した精度の高い標準モデルの作成が実現される。例として、利用者 Aが環境 Aで利用していた参照モデル Aが端末装置に保持されており利用者 Aは環境 Bで利用したい場合、参照モデル Aを利用して標準モデルを作成することにより、利用者 Aの特徴を反映した精度の高い標準モデルを作成することができる。

また、前記参照モデル準備手段は、さらに、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行ってもよし、。たとえば、前記標準モデル作成装置には、通信路を介して端末装置が接続され、前記標準モデル作成装置は、さらに、前記端末装置から送信される参照モデルを受信する参照モデル受信手段を備え、前記参照モデル準備手段は、前記参照モデル受信手段が受信した参照モデルを用いて前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行ってもよい。

これによつて、準備される参照モデルの追加、更新等が行われるので、様々な認識対象用のモデルを参照モデルとして追加したり、より精度の高い参照モデルに置き換えたりすることが可能となり、更新した参照モデルによる標準モデルの再生成や、生成された標準モデルを参照モデルとして再び標準モデルを作成するというフィ一ドバックによる学習等が可能となる。

また、前記標準モデル作成手段は、作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された前記標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、前記参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有するように構成してもよい。このとき、前記初期標準モデル作成部は、前記統計量推定部が標準モデルの統計量を計算するために用いる、 1 以上の前記參照モデルを用いて前記標準モデルを特定する統計量の初期値を決定してもよい。たとえば、前記初期標準モデル作成部は、標準モデルの種類を識別するクラス I Dに基づいて、前記初期値を決定してもよい。具体的には、前記初期標準モデル作成部は、前記クラス I Dと前記初期値と前記参照モデルとの対応を示す対応表を保持し、前記対応表に従つて、前記初期値を決定してもよい。

これによつて、標準モデルが使用される認識の対象の種類ごとにクラス I Dを付与しておくことで、最終的に必要とされる標準モデルと共通の性質をもつ初期標準モデルを使用することができるので、精度の高い標準モデルが作成される。

以上のように、本発明により、隠れマルコフモデル、ベイズ理論、線形判別分析などの確率モデルによる音声認識、文字認識、画像認識などのパターン認識、ベイジアンネットなどの確率モデルによる意図理解（意図の認識）、確率モデルによるデータマイニング（データ特性の認識）、確率モデルによる人物検出、指紋認証、顔認証、虹彩認証（対象を認識して特定の対象かどうかを判断する）、株価予測、天気予測などの予測（状況を認識して判断する）などに用いる高精度な標準モデルが提供され、その実用的価値は極めて高い。

なお、本発明は、このような標準モデル作成装置として実現することができるだけでなく、標準モデル作成装置が備える特徴的な構成要素をステップとする標準モデル作成方法として実現したり、それらのステツプをコンピュータに実行させるプログラムとして実現したりすることができる。そして、そのプログラムを C D— R O M等の記録媒体やインタ一ネット等の伝送媒体を介して配信することができるのは言うまでもない。図面の簡単な説明

図 1 は、本発明の第 1 の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。

図 2は、同サーバの動作手順を示すフローチヤ一トである。

図 3は、図 1 における参照モデル記憶部に記憶されている参照モデルの例を示す図である。

図 4は、図 2におけるステップ S 1 0 1 (標準モデルの作成）の詳細な手順を示すフローチャートである。

図 5は、図 1 における第 1 近似部 1 0 4 eによる近似計算を説明する図である。

図 6は、参照モデルを選択する際の画面表示例を示す図である。図 7 ( a ) は、作成する標準モデルの構造（混合分布数）を指定する際の画面表示例を示し、図 7 ( b ) は、仕様情報を選択する際の画面表示例を示す図である。

図 8は、標準モデルを作成しているときの進渉状況を示す画面表示例を示す図である。

図 9は、本発明の第 2の実施の形態における標準モデル作成装置に係る S T Bの全体構成を示すブロック図である。

図 1 0は、同 S T Bの動作手順を示すフローチャートである。

図 1 1 は、図 1 0における参照モデル記憶音 !5に記憶されている参照モデルの例を示す図である。図 1 2は、図 1 0における第 2近似部による近似計算を説明する図で

¾ ' ϊ

図 1 3は、本発明の第 3の実施の形態における標準モデル作成装置に係る P D Aの全体構成を示すブロック図である。

図 1 4は、同 P D Aの動作手順を示すフローチャートである。

図 1 5は、図 1 3における参照モデル記憶部に記憶されている参照モデルの例を示す図である。

図 1 6は、同 P D Aの選択画面の一例を示す。

図 1 7は、図 1 3における統計量推定部による統計量の推定手順を示す概念図である。

図 1 8は、図 1 3における第 3近似部による近似計算を説明する図であ ₀

図 1 9は、本発明の第 4の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。

図 2 0は、同サーバの動作手順を示すフローチャートである。

図 2 1 は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。

図 2 2は、利用情報としての個人情報を入力する際の画面表示例を示す図である。

図 2 3は、本発明の第 5の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すプロック図である。

図 2 4は、同サーバの動作手順を示すフローチヤ一トである。

図 2 5は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。

図 2 6は、本発明の第 6の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。図 2 7は、同サーバの動作手順を示すフローチャートである。

図 2 8は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。

図 2 9は、本発明の第 7の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。

図 3 0は、同サーバの動作手順を示すフローチヤ一トである。

図 3 1 は、同サーバの動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。

図 3 2は、本発明の第 8の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。

図 3 3は、携帯電話 9 0 1 の動作手順を示すフローチヤ一トである。図 3 4は、参照モデル記憶部に格納されている参照モデルの一例を示す図である。

図 3 5は、新たたに参照モデル記憶部に格納された参照モデルの一例を示す図である。

図 3 6は、利用情報を作成するときの画面表示例を示す図である。図 3 7は、参照モデルを準備すときの画面表示例を示す図である。図 3 8は、第 3近似部を用いて作成した標準モデルを用いた認識実験の結果を示すグラフである。

図 3 9は、第 3の実施の形態における第 2近似部により作成された標準モデルによる認識実験の結果を示すグラフである。

図 4 0は、本発明の第 9の実施の形態における標準モデル作成装置の全体構成を示すプロック図である。

図 4 1 は、アプリ ' 仕様情報対応データベースのデータ例を示す図である。

図 4 2は、 P D A 1 0 0 1 の動作手順を示すフローチャートである。図 4 3は、参照モデル記憶部に格納されている参照モデルの一例を示す図である。

図 44は、初期標準モデル作成部によるクラスタリングによる初期値の決定方法を示すフローチヤ一トである。

図 4 5は、図 4 4におけるステップ S 1 0 0 4の具体例を示す図である。

図 4 6は、図 4 4におけるステップ S 1 0 0 5の具体例を示す図である。

図 4 7は、図 4 4におけるステップ S 1 0 0 6の具体例を示す図である。

図 4 8は、図 44におけるステップ S 1 0 0 8の具体例を示す図である。

図 4 9は、本発明の第 1 0の実施の形態における標準モデル作成装置に係るサーバの全体構成を示すブロック図である。

図 5 0は、同サーバの動作手順を示すフローチャートである。

図 5 1 は、本発明に係る標準モデル作成装置を具体的に適用したシス亍ム例を示す図である。

図 5 2は、クラス I D ■ 初期標準モデル ■ 参照モデル対応表の例を示す図である。

図 5 3は、図 5 2のクラス I D ■ 初期標準モデル ' 参照モデル対応表における参照モデル 8 A A〜 A Zの例を示す図である。

図 54は、図 5 2のクラス I D ■ 初期標準モデル ' 参照モデル対応表における参照モデル 6 4 Z A ~ Z Zの例を示す図である。

図 5 5は、図 5 2のクラス I D ' 初期標準モデル ■ 参照モデル対応表における初期標準モデル 8 A〜 6 4 Zの例を示す図である。

図 5 6は、クラス I D ■ 初期標準モデル ' 参照モデル対応表の作成方法を示すフローチヤ一トである。

図 5 7は、図 5 6におけるステップ S I 1 0 0の具体例を示す図である。

図 5 8は、図 5 6におけるステップ S I 1 0 2の具体例を示す図である。

図 5 9は、図 5 6におけるステップ S 1 1 0 3の具体例を示す図である。

図 6 0は、図 5 6におけるステップ S 1 1 0 4の具体例を示す図であ図 6 1 は、端末がサーバと通信することによつてクラス I D ■ 初期標準モデル • 参照モデル対応表を完成させる手順を示す図である。

図 6 2は、クラス I D ■ 初期標準モデル - 参照モデル対応表を用いた初期標準モデルの決定方法を示すフローチヤ —— 卜である。

図 6 3は、図 6 2におけるステップ S 1 1 0 5の具体例を示す図である。

図 6 4は、第 3近似部を用いて作成した標準モデルを用いた認識実験の結果を示すグラフである。

図 6 5 ( a ) 〜（』' ）は、音声認識の対象についての属性と標準モデルの構造（ガウス分布の混合数）との関係例を示す図である。発明を実施するための最良の形態

以下、本発明の実施の形態について図面を参照しながら詳しく説明する。なお、図中同一又は相当部分には同一符号を付し、その説明は繰り返さない。

(第 1 の実施の形態）

図 1 は、本発明の第 1 の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ 1 0 1 に組み込まれた例が示されている。本実施の形態では特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する場合を例にして説明する。

サーバ 1 0 1 は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部 1 1 1 と、参照モデル準備部 1 0 2と、参照モデル記憶部 1 0 3 と、標準モデル作成部 1 0 4と、書き込み部 1 1 2とを備える。

読み込み部 1 1 1 は、 C D— R O Mなどのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込む。参照モデル準備部 1 0 2は、読み込まれた参照モデル 1 2 1 を参照モデル記憶部 1 0 3へ送信する。参照モデル記憶部 1 0 3は、 3 個の参照モデル 1 2 1 を記憶する。ここで、参照モデルとは、標準モデルを作成するに際して参照される予め作成されたモデル（ここでは、音声認識用のモデル、つまり、一定の属性を有する音声の特徴を示す確率モデル）である。

標準モデル作成部 1 0 4は、参照モデル記憶部 1 0 3が記憶した 3個 ( N g = 3 ) の参照モデル 1 2 1 に対する確率又は尤度を最大化又は極大化するように標準モデル 1 2 2を作成する処理部であリ、標準モデルの構造（ガウス分布の混合数など）を決定する標準モデル構造決定部 1 0 4 a と、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部 1 0 4 と、決定された初期標準モデルを記憶する統計量記憶部 1 0 4 c と、統計量記憶部 1 0 4 c に記憶された初期標準モデルに対して、第 1 近似部 1 0 4 e による近似計算等を用いることにより、参照モデル記憶部 1 0 3に記憶されている 3個（ N g= 3 ) の参照モデル 1 2 1 に対する確率又は尤度を最大化又は極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部 1 0 4 d とからなる。なお、統計量とは、標準モデルを特定するパラメータであり、ここでは、混合重み係数、平均値、分散値である。

書き込み部 1 1 2は、標準モデル作成部 1 0 4が作成した標準モデル 1 2 2を C D— R O Mなどのストレ一ジデバイスに書き込む。

次に、以上のように構成されたサーバ 1 0 1 の動作について説明する。図 2は、サーバ 1 0 1 の動作手順を示すフローチャートである。

まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（ステップ S 1 0 0 )。つまり、読み込み部 1 1 1 は、 C D— R O M などのストレージデバイスに書き込まれた子供用参照モデル、成人用参照モデル、高齢者用参照モデルを読み込み、参照モデル準備部 1 0 2は、読み込まれた参照モデル 1 2 1 を参照モデル記憶部 1 0 3へ送信し、参照モデル記憶部 1 0 3は、 3個の参照モデル 1 2 1 を記憶する。

参照モデル 1 2 1 は、音素ごとの H M Mにより構成される。参照モデル 1 2 1 の一例を図 3に示す。ここでは、子供用参照モデル、成人用参照モデル、高齢者用参照モデルのイメージ図が示されている（なお、本図では、高齢者用参照モデルのイメージ図は省略されている）。これら 3 個の参照モデルの全てが、状態数 3個、各状態は混合分布数が 3個の混合ガウス分布によリ H M Mの出力分布が構成される。特徴量として 1 2 次元（ J = 1 2 ) のケプストラム係数が用いられる。

次に、標準モデル作成部 1 0 4は、参照モデル記憶部 1 0 3が記憶した 3個の参照モデル 1 2 1 に対する確率又は尤度を最大化又は極大化するように標準モデル 1 2 2を作成する（ステップ S 1 0 1 )。最後に、書き込み部 1 1 2は、標準モデル作成部 1 0 4が作成した標準モデル 1 2 2を C D— R O Mなどのストレージデバイスに書き込む (ステップ S 1 0 2 )。 C D— R O Mなどのストレージデバイスに書き込まれた標準モデルは、子供、成人、高齢者を考慮した音声認識用の標準モデルとして利用される。

図 4は、図 2におけるステップ S 1 0 1 (標準モデルの作成）の詳細な手順を示すフローチヤ一トである。

まず、標準モデル構造決定部 1 0 4 aは、標準モデルの構造を決定する（ステップ S 1 0 2 a )。ここでは、標準モデルの構造として、音素ごとの H M Mにより構成され、 3状態であり、各状態における出力分布の混合数を 3個（Mf= 3 ) と決定する。

次に、初期標準モデル作成部 1 0 4 bは、標準モデルを計算するための統計量の初期値を決定する（ステップ S 1 0 2 b )。ここでは、参照モデル記憶部 1 0 3に記憶された 3つの参照モデルを、統計処理計算を用いて 1 つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部 1 0 4 cに記憶する。

具体的には、初期標準モデル作成部 1 0 4 bは、上記 3つの状態 I ( I = 1、 2、 3 ) それぞれについて、以下の式 1 3に示される出力分布を生成する。なお、式中の Mf (ガウス分布の混合数）は、ここでは、 3である。

(式 1 3 )

ここで、

(式 1 4 )

は、ガウス分布を表し、

(式 1 5 )

^X ~ ( (1), (2)，'", (</)) ^e R

は、 1 2次元（ J = 1 2 ) の L P Cケプストラム係数を表し、 (式 1 6 )

は、各ガウス分布の混合重み係数を表し、

(式 1 7 ) A_m) = ( /( , "/ _(m,₂₎，"'， _Am,j_})≡ irn = ，…，ルは、各ガウス分布の平均値を表し、

(式 1 8 ) び) _(m) = (び) ( ，び， ₂₎，…，び）ら (^m = 1,2，..·, Μ,) は、各ガウス分布の分散値を表す。

そして、統計量推定部 1 0 4 dは、参照モデル記憶部 1 0 3に記憶された 3つの参照モデル 1 2 1 を用いて、統計量記憶部 1 0 4 cに記憶された標準モデルの統計量を推定する（ステップ S I 0 2 c )。

具体的には、 3つ（ N g = 3 ) の参照モデル 1 2 1 の各状態 I ( I = 1 、 2、 3 ) における出力分布、即ち、以下の式 1 9に示される出力分布に対する標準モデルの確率又は尤度（以下の式 2 5に示される尤度 logP ) を極大化もしくは最大化するような標準モデルの統計量（上記式 1 6に示される混合重み係数、上記式 1 7に示される平均値、及び、上記式 1 8に示される分散値）を推定する。

(式 1 9 )

^LgO)

∑ひ (ぶ; _giiJ)， ) = 1，2，,.., N_g )

1=1 ここで、

(式 20 ) g ( ;〃 ) ,び (")） (i = 1,2,..., N_g = 1,2,...， L_(i)) はガウス分布を表し、

(式 2 1 ) υ) ( =1，2，.." ) は各参照モデルの混合分布数（ここでは、 3 ) を表し、

(式 2 2 ) u_g(U) ( = ,..„ L_g(i)) は各ガウス分布の混合重み係数を表し、

(式 2 3 ) g(i ) ⁼ ，…，は各ガウス分布の平均値を表し、

(式 24 ) ag(U) ( = l，2""， _g (り）は各ガウス分布の分散値を表す。

(式 2 5 )

そして、以下の式 2 6、式 2 7及び式 2 8に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。

(式 2 6 )

(m = l,2,...,M_f)

(式 2 7 )

(式 2 8 ) g(')

∑

σ /=1

j ^ {∑ひ ) g ( ; ( ), ") )

;=1 1=1

このとき、統計量推定部 1 0 4 dの第 1 近似部 1 0 4 eにより、以下の式 2 9に示される近似式が用いられる。

(式 2 9 ) y

⁹

=1

ここで、

(式 3 0 )

¾ ( ;； ¾ ，び )） (m = 1,2,… ) は、

(式 3 U h{m) (m = 1 ，. (式 3 2 ) h(m) ⁼、 h(m，Vf， Αλ(/η,2)，♦♦·， A¾(m,J)ノ ^G ^ を平均値とし、

(式 3 3 )

2 一 >J

σΗ{ηι)一

^Λ を分散値とする単一のガウス分布を表す。

また、第 1 近似部 1 04 eは、上記式 3 0に示された単一ガウス分布の重み（式 3 1 ) 平均値（式 3 2 ) 及び分散値（式 3 3 ) を、それぞれ、以下の式 3 4、式 3 5及び式 3 6に示された式に従って算出する。 (式 3 4 )

u m) =∑^ω ,,_Ρ) =∑^ω/(_Ρ) ⁼¹·° ( = 1,2,.., M_f)

(式 3 5 )

m,j)

{m = \ ...,M_f = \,2,...,J)

(式 3 6 )

( ニ ^…，ゾ，…，）図 5は、第 1 近似部 1 0 4 eによる近似計算を説明する図である。第 1近似部 1 0 4 eは、本図に示されるように、上記式 2 9に示された近似式における単一ガウス分布（式 3 0 ) を、標準モデルを構成する全ての混合ガウス分布を用いて決定している。

以上の第 1 近似部 1 0 4 eによる近似式を考慮してまとめると、統計量推定部 1 0 4 dでの計算式は次の通りになる。つまり、統計量推定部 1 0 4 dは、以下の式 3 7、式 3 8及び式 3 9に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、統計量記憶部 1 0 4 cに記憶する。そして、このような統計量の推定と統計量記憶部 1 0 4 cへの記憶を R (≥ 1 ) 回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル 1 2 2の統計量として出力する。

(式 3 7 )

( 6 ε

1=/ 1=/ =·'

= ( ^w) /y

\=l 1=1

)^S7 ^SN

( 8 ε ）

1=/ \=f 1=^ \=!

ω t=/ [= " [=;

r ^asi Z9M0/C00Zdf/X3d 9ム0ム請 00Z OAV なお、状態遷移確率については、 H M Mの対応する状態遷移確率を参照モデル 1 2 1 に対して全て加えあわせた全体が 1 になるように正規化したものを用いる。

次に、本実施の形態をパーソナルコンピュータによる音声認識に適用した具体例を説明する。ここでは、サーバ 1 0 1 としてパソコン（ P C)、読み込み部 1 1 1 として C D— R O M ドライブ装置を用いるものとし、標準モデルの具体的な使い方を中心に説明する。

まず、利用者は、 P C (サーバ 1 0 1 ) の C D— R O M ドライブ装置 (読み込み部 1 1 1 ) に、参照モデルとしての複数の音響モデルが格納された 1 枚の C D— R O Mを装着する。その C D— R O Mには、例えば、「幼児」、「子供：男」、「子供：女」、「大人：男」、「大人：女」、「高齢者：男」、「高齢者：女」の各音響モデルが記憶されている。

次に、利用者は、図 6 ( a ) 及び（ b ) に示される画面表示例のように、 P C (サーバ 1 0 1 ) に接続されたディスプレイを用いて、家族構成（音声認識を利用する人）にあった音響モデルを選択する。図 6には、 C D— R O Mに記憶されている音響モデルが「 C D— R O M」と書かれた枠内に表示され、それらの音響モデルの中から選択された音響モデル力《「利用者」と書かれた枠内にコピーされる様子が示されている。ここでは、利用者の家族構成が、 1 0歳の男の子と、 5 0歳のお父さんと、 4 0歳のお母さんの 3人であるとし、利用者（お父さん）によって、「子供：男」、「大人：男」、「大人：女」の 3個のモデルが「利用者 J と書かれた枠内にドラッグして移動されている。このような操作によって、参照モデル準備部 1 0 2による参照モデルの準備が行われる。つまり、 3 個の参照モデルが読み込み部 1 1 1 で読み出され、参照モデル準備部 1 0 2を介して、参照モデル記憶部 1 0 3に格納される。

続いて、利用者は、図 7 ( a ) に示される画面表示例のように、作成する標準モデルの構造（混合分布数）を指定する。図 7 ( a ) では、「混合分布数」として Γ 3個」、「 1 0個」、「 2 0個」が表示され、利用者は、これらの個数の中から希望するものを選択する。この操作によって、標準モデル構造決定部 1 0 4 aにより、これから作成する標準モデルの構造が決定される。

なお、混合分布数の決定については、このような直接的な指定に限られず、例えば、図 7 ( b ) に示される画面表示例のように、利用者が選択した仕様情報に基づいて混合分布数を決定してもよい。図 7 ( b ) では、標準モデルを使用して音声認識を実行させる対象機器として、 3種類の「利用機器」、つまり、 Γテレビ用」、「カーナビ用」、「携帯電話用」の中から利用機器を選択する様子が示されている。このとき、予め記憶された対応表に従って、例えば、「テレビ用」が選択された場合には混合分布数を 3個と決定し、「カーナビ用」が選択された場合には混合分布数を 2 0個と決定し、「携帯電話用」が選択された場合には混合分布数を 1 0個と決定してもよい。

その他、混合分布数の決定については、認識速度や精度、つまり、「素早く認識」、「通常」、「高精度に認識」の中から選択することで、それぞれの選択項目に対応した値（「素早く認識」 = 3個、「通常」 = 1 0個、「高精度に認識」 = 2 0個）を混合分布数として決定してもよい。

このような入力操作が終了すると、初期標準モデル作成部 1 0 4 bによつて初期標準モデルが作成された後に、統計量推定部 1 0 4 dによる繰り返し計算（学習）が行われ、標準モデルが作成される。このとき、図 8の画面表示例に示されるように、標準モデル構造決定部 1 0 4 aによって、学習の進埗状況が表示される。利用者は、学習の進涉状況、学習終了時期などを知ることができ、標準モデルが完成されるまで安心して待つことができる。なお、進涉状況の表示として、例えば、図 8 ( a ) に示されるような学習度合いのバー表示、図 8 ( b ) に示されるような学習回数の表示、その他、尤度基準の表示等がある。また、未学習時は一般的な顏画像を表示し、学習の完了に近づくにしたがって利用者の顔画像に変更していくような進涉表示であってもよい。同様に、未学習時には赤ちゃんを表示し、学習の完了に近づくにしたがって仙人を表示するような進埗表示であってもよい。

このようにして標準モデルの作成が完了すると、作成された標準モデルは、標準モデル作成部 1 0 4によってメモリカード（書き込み部 1 1 2 ) に記録される。利用者は、そのメモリカードを P C (サーバ 1 0 1 の書き込み部 1 1 2 ) から抜き出し、利用機器、例えば、テレビのメモリカード用スロットに挿入する。これによつて、作成された標準モデルが P C (サーバ 1 0 1 ) から利用機器（テレビ）に移動される。テレビは、装着されたメモリカードに記録された標準モデルを用いて、利用者 (ここでは、テレビを利用する家族）を対象とした音声認識を行う。たとえば、テレビに付属したマイクに入力された音声を認識することによつて、テレビ操作用のコマンドを判別し、そのコマンド（例えば、チヤンネルの切り替え、 E P Gなどによる番組検索）を実行する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた、音声によるテレビ操作が実現される。

以上説明したように、本発明の第 1 の実施の形態によれば、予め準備された参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、学習のためのデータや教師データを必要とすることなく簡易に標準モデルが作成されるとともに、既に作成された複数の参照モデルを総合的に勘案した精度の高い標準モデルが作成される。

なお、標準モデル 1 2 2は、音素ごとに H M Mを構成するに限らず、文脈依存の H M Mで構成してもよい。

また、標準モデル作成部 1 0 4は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。

また、標準モデル 1 2 2 を構成する H M Mは、曰素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。

また、参照モデル 1 2 1 は、子供用参照モデル、成人用参照モデル、高齢者用参照モデルにおいて、異なる状態数によ構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。

また、標準モデル 1 2 2 を用いて、サーバ 1 0 1 において音声 Sit 行ってもよい。

また、参照モデル 1 2 1 を C D— R O M、 D V D一 R A Mなどのストレ一ジデバイスから読み込む代わリに、サーバ 1 0 1 において音声データから参照モデル 1 2 1 を作成してもよい。

また、参照モデル準備部 "！ 0 2は、必要に応じて C D— R O M 、 D V

D— R A Mなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部 1 0 3 に追加 ■ 更新してもよい。つまり、参照モデル準備部 1 0 2は、新たな参照モデルを参照モデル記憶部 1 0 3 に格納するだけでなく、同一の認識対象についての参照モデルが参照モデル記憶部 1 0 3に格納されている場合には、その参照モデルと置き換えることによって参照モデルを更新したり、参照モデル記憶部 1 0 3 に格納されている不要な参照モデルを削除してもよい。

また、参照モデル準備部 1 0 2は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部 1 0 3に追加 ■ 更新してもよい。また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などの H M Mの構造や、状態数などを決定してもよい。

(第 2の実施の形態）

図 9は、本発明の第 2の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がセットトップボックス 2 0 1 (以下、 S T Bと呼ぶ）に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（話者適応モデル）を作成する場合を例にして説明する。具体的には、 S T Bによる音声認識機能により、テレビの E P G検索や番組切替、録画予約などを行う場合を例にして説明する。

S T B 2 0 1 は、ユーザの発話を認識して T V番組の自動切替等を行うデジタル放送用受信機であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、マイク 2 1 1 と、音声データ蓄積部 2 1 2と、参照モデル準備部 2 0 2と、参照モデル記憶部 2 0 3 と、利用情報作成部 2 0 4と、参照モデル選択部 2 0 5と、標準モデル作成部 2 0 6 と、音声認識部 2 1 3とを備える。

マイク 2 1 1 に収集された音声データは、音声データ蓄積部 2 1 2に蓄積される。参照モデル準備部 2 0 2は、音声データ蓄積部 2 1 2が蓄積した音声データを用いて話者ごとに参照モデル 2 2 1 を作成し、参照モデル記憶部 2 0 3に記憶する。

利用情報作成部 2 0 4は、利用情報 2 2 4である利用者の音声をマイク 2 1 1 によリ収集する。ここで、利用情報とは、認識（狭義での認識、識別、認証など）の対象（人 ' 物）に関する情報であり、ここでは、音声認識の対象となる利用者の音声である。参照モデル選択部 2 0 5は、利用情報作成部 2 0 4が作成した利用情報 2 2 4に基づいて、参照モデル記憶部 2 0 3が記憶している参照モデル 2 2 1 の中から、利用情報 2 2 4が示す利用者の音声に音響的に近い参照モデル 2 2 3を選択する。標準モデル作成部 2 0 6は、参照モデル選択部 2 0 5が選択した話者の参照モデル 2 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 2 2 2を作成する処理部であり、標準モデルの構造（ガウス分布の混合分布数など）を決定する標準モデル構造決定部 2 0 6 a と、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部 2 0 6 bと、決定された初期標準モデルを記憶する統計量記憶部 2 0 6 c と、統計量記憶部 2 0 6 cに記憶された初期標準モデルに対して、一般近似部 2 0 6 eによる近似計算等を用いることにより、参照モデル選択部 2 0 5が選択した参照モデル 2 2 3に対する確率又は尤度を最大化又は極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部 2 0 6 d とからなる。

音声認識部 2 1 3は、標準モデル作成部 2 0 6によつて作成された標準モデル 2 2 2を用いて利用者の音声を認識する。

次に、以上のように構成された S T B 2 0 1 の動作について説明する。図 1 0は、 S T B 2 0 "I の動作手順を示すフローチャートである。まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（ステップ S 2 0 0 )。つまり、マイク 2 1 1 により Aさんから Zさんの音声データを収集して音声データ蓄積部 2 1 2に蓄積する。たとえば、屋内に設置された複数のマイク、テレビのリモコンに内蔵されたマイク、電話機などが、 S T B 2 0 1 の音声データ蓄積部 2 1 2と接続されており、マイクや電話機から入力された音声データを音声データ蓄積部 2 1 2に蓄積する。たとえば、お兄ちゃん、妹、お父さん、お母さん、おじいちゃん、近所のひと、友達の音声が蓄積される。参照モデル準備部 2 0 2は、音声データ蓄積部 2 1 2が蓄積した音声データを用いて話者ごとに参照モデル 2 2 "I をバウム · ゥ Iルチの再推定の方法により作成する。この処理は、標準モデルの作成が要求される以前に行われる。

参照モデル記憶部 2 0 3は、参照モデル準備部 2 0 2が作成した参照モデル 2 2 1 を記憶する。参照モデル 2 2 1 は、音素ごとの H M Mによリ構成される。参照モデル 2 2 1 の一例を図 1 1 に示す。ここでは、 A さんから Zさんの全ての参照モデルが、状態数 3個、各状態は混合分布数が 5個の混合ガウス分布により H M Mの出力分布が構成される。特徴量として 2 5次元（ J .= 2 5 ) のメルケプストラム係数が用いられる。

ここで、標準モデルの作成が要求される。たとえば、利用者が「利用者の確認」のポタンを押すことによって、標準モデルの作成が要求される。「利用者確認」のポタンについては、テレビ画面に表示させて選択する方法や、テレビのリモコンに「利用者の確認」スィッチをつけて選択する方法が考えられる。ボタンを押すタイミングとしては、テレビを起動したタイミング、音声認識を用いてコマンド操作を行っているときに利用者にふさわしい標準モデルがほしいと感じたタイミングなどが考えられる。

次に、利用情報作成部 2 0 4は、利用情報 2 2 4である利用者の音声をマイク 2 1 1 により収集する（ステップ S 2 0 1 )。たとえば、標準モデルの作成が要求されると、画面上で「名前を入力してください」と表示される。利用者は、テレビのリモコンに内蔵されたマイクにより名前 (利用者の音声）を入力する。この利用者の音声が利用情報である。なお、入力する音声は名前に限定されない。例えば「適応と発声してください」と表示して、利用者は「適応」と発声してもよい。

参照モデル選択部 2 0 5は、その利用者の音声に音響的に近い参照モデル 2 2 3を、参照モデル記憶部 2 0 3が記憶している参照モデル 2 2 1 の中から選択する（ステップ S 2 0 2 )。具体的には、利用者の音声を Aさんから Zさんの参照モデルに入力して発声単語に対する尤度が大きい 1 0人（N g = 1 0 ) の話者の参照モデルを選択する。

そして、標準モデル作成部 2 0 6は、参照モデル選択部 2 0 5が選択した 1 0個の参照モデル 2 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 2 2 2を作成する（ステップ S 2 0 3 )。このとき、第 1 の実施の形態のように、学習の進埗状況を表示してもよい。そうすることで、利用者は学習の進涉状況、学習終了時期などが判断でき、安心して標準モデルを作成することができる。また、学習の進涉状況を非表示にする進渉状況非表示部を.設けてもよい。この機能により、画面を有効に使うことができる。また、慣れた人に対して非表示にすることで、うっとうしく感じることが回避される。

最後に、音声認識部 2 1 3は、マイク 2 1 1 から介して送られてくる利用者の音声を入力とし、標準モデル作成部 2 0 6で作成された標準モデル 2 2 2を用いて音声認識を行う（ S 2 0 4 )。たとえば、利用者が発話した音声を音響解析等を行うことで 2 5次元のメルケプストラム係数を算出し、音素ごとの標準モデル 2 2 2に入力することで、高い尤度を有する音素の連なりを特定する。そして、その音素の連なりと予め受信している電子番組データ中の番組名とを比較し、一定以上の尤度が検出された場合に、その番組に切り替えるという自動番組切替の制御を行う。次に、図 1 0におけるステップ S 2 0 3 (標準モデルの作成）の詳細な手順を説明する。手順の流れは、図 4に示されたフロ一チャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。

まず、標準モデル構造決定部 2 0 6 aは、標準モデルの構造を決定する（図 4のステップ S 1 0 2 a )。ここでは、標準モデルの構造として、音素ごとの H M Mにより構成され、 3状態であり、各状態における出力分布の混合分布数が 1 6個（Mf= 1 6 ) と決定する。

次に、初期標準モデル作成部 2 0 6 bは、標準モデルを計算するための統計量の初期値を決定する（図 4のステップ S 1 0 2 b )。ここでは、参照モデル選択部 2 0 5が選択した 1 0個の参照モデル 2 2 3を、統計処理計算を用いて 1 つのガウス分布に統合したものを統計量の初期値とし、その初期値を初期標準モデルとして統計量記憶部 2 0 6 cに記憶する。ここでは、話者ごとに学習した混合分布数が 5の参照モデルを用いて精度の高い混合分布数が 1 6 ( 1 6混合）の標準モデル（話者適応モデル）を作成する。

具体的には、初期標準モデル作成部 2 0 6 bは、上記 3つの状態 I ( I = 1 、 2、 3 ) それぞれについて、上記式 1 3に示される出力分布を生成する。

ただし、本実施の形態では、上記式 1 3に示された出力分布における (式 4 0 )

^X ~

^Λ

は、 2 5次元（ J = 2 5 ) のメルケプストラム係数を表す。

そして、統計量推定部 2 0 6 dは、参照モデル選択部 2 0 5が選択した 1 0個の参照モデル 2 2 3を用いて、統計量記憶部 2 0 6 cに記憶された標準モデルの統計量を推定する（図 4のステップ S 1 0 2 c )。つまり、 1 0個（ N g= 1 0 ) の参照モデル 2 2 3の各状態 I ( 1 = 1 、 2、 3 ) における出力分布、即ち、上記式 1 9に示される出力分布に対する標準モデルの確率（ここでは、上記式 2 5に示される尤度 log P ) を極大化もしくは最大化する.ような標準モデルの統計量（上記式 1 6に示される混合重み係数、上記式 1 7に示される平均値、及び、上記式 1 8に示される分散値）を推定する。

ただし、本実施の形態では、上記式 1 9に示された出力分布における (式 4 1 ) (0 ( 1，2，.", ) は、 5 (各参照モデルの混合分布数）である。

具体的には、上記式 2 6、式 2 7及び式 2 8に従って、それぞれ、標準モデルの混合重み係数、平均値及び分散値を算出する。

このとき、統計量推定部 2 0 6 dの一般近似部 2 0 6 eにより、上記式 2 9に示される近似式が用いられる。

ここで、一般近似部 2 0 6 eは、第 1 の実施の形態と異なり、上記式 2 9の近似式の分母に示された出力分布

(式 4 2 ) / ( /( ； /( ，び) (り） (k = 2,-,M_f) の中から、上記式 2 9の近似式の分子に示された出力分布

(式 4 3 )

/(m)， ^af{m) ) に距離的に近い 3個（ P h(m)= 3 ) の出力分布

(式 4 4 ) /( / 〃/( )) O = H"M p = 1,2，.."尸 )）

.

を選択し、選択した 3個の出力分布を用いて、上記式 3 0に示された単一ガウス分布の重み（式 3 1 )、平均値（式 3 2 ) 及び分散値（式 3 3 ) を、それぞれ、以下の式 4 5、式 4 6及び式 4 7に示された式に従って算出する。

(式 4 5 )

uh{m)

f{m,p) (m = 1,2，,,., ΜΛ

1

(式 4 6 )

，2，...， )

(式 4 7 )

び

0 = 1,2,..., 1^, = 1,2，··.， ) 図 1 2は、一般近似部 2 0 6 eによる近似計算を説明する図である。一般近似部 2 0 6 eは、本図に示されるように、上記式 2 9に示された近似式における単一ガウス分布（式 3 0 ) を、標準モデルを構成する M f 個の混合ガウス分布の中から、計算対象となる混合ガウス分布に近い一部（ Ph(m)個）の混合ガウス分布だけを用いて決定している。したがつて、全部（ M f 個）の混合ガウス分布を用いる第 1 の実施の形態と比較し、近似計算における計算量が削減される。

以上の一般近似部 2 0 6 eによる近似式を考慮してまとめると、統計量推定部 2 0 6 dでの計算式は次の通りになる。つまり、統計量推定部 2 0 6 dは、以下の式 4 8、式 4 9及び式 5 0に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、統計量記憶部 2 0 6 cに記憶する。そして、このような統計量の推定と統計量記憶部 2 0 6 cへの記憶を R (≥ 1 ) 回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル 2 2 2の統計量として出力する。なお、繰り返し計算においては、その回数に対応させて、上記近似計算における出力分布の選択個数 Ph(m)を小さくし、最終的に Ph(m)= 1 とする計算を行う。 (式 4 8 )

^mj^mj) ⁺ ' Λ 一ひ/ W) ,")

(式 4 9 ) ,..., J)

(式 5 0 )

^Ng ½_'>

L L · - -'、

び/ (w,ゾ） = ~N_g L~ (/？？：：！，…，^^，ゾニ；！，…，ゾ)

i=l l=\

？）一

+ i 2 2 2 2 2 }

ひ j)°Kmj)ャひ g ij ひ Ρ 一ひ/ ( )°g ('ソ 'ゾ）ノなお、状態遷移確率については、 H M Mの対応する状態遷移確率を参照モデル 2 2 3に対して全て加えあわせた全体が 1 になるように正規化したものを用いる。

以上説明したように、本発明の第 2の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。

なお、標準モデルを作成するタイミングとしては、本実施の形態のような利用者による明示的な指示だけに限られず、他のタイミングで標準モデルを作成してもよい。たとえば、 S T B 2 0 1 にさらに、利用者が変更されたかどうかを自動的に判断する利用者変更判断部を設ける。その利用者変更判断部は、テレビのリモコンに入力された認識用の音声を用いて、利用者が変更されたか否か、つまり、現在の利用者が直前まで認識していた利用者と同一人物であるか否かを判断する。利用者が変更されたと判断した場合に、その音声を利用情報として標準モデルを作成する。これにより、利用者が意識することなく、利用者にふさわしい標準モデルを用いた音声認識が行われる。

なお、標準モデル 2 2 2は、音素ごとに H MMを構成するに限らず、文脈依存の H MMで構成してもよい。

また、標準モデル作成部 2 0 6は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。

また、標準モデル 2 2 2を構成する H MMは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。

また、参照モデル 2 2 1 は、話者ごと H M Mにおいて、異なる状態数により構成してもよいし、異なる混合数の混合ガウス分布により構成してもよい。

また、参照モデル 2 2 1 は、話者ごと H MMに限らず、話者 ■ 雑音 ■ 声の調子ごとに作成してもよい。

また、標準モデル 2 2 2を C D— R O M、ハードディスク、 D V D— R A Mなどのストレージデバイスに記録してもよい。

また、参照モデル 2 2 1 を作成する代わりに、 C D— R O M、 D V D 一 R A Mなどのストレージデバイスから読み込んでもよい。

また、参照モデル選択部 2 0 5は、利用情報 2 24に基づいて利用者ごとに選択する参照モデルの数を変えてもよい。

また、参照モデル準備部 2 0 2は、必要に応じて新たな参照モデルを作成して参照モデル記憶部 2 0 3に追加 ■ 更新してもよいし、参照モデル記憶部 2 0 3に格納されている不要な参照モデルを削除してもよい。また、参照モデル準備部 2 0 2は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部 2 0 3に追加 ■ 更新してもよい。また、上記近似計算において選択する出力分布の個数 P Mm)は、対象とする事象や標準モデルの出力分布によつて異なってもよいし、分布間距離に基づいて決定してもよい。

また、標準モデルを作成したのちに、さらに音声データにより学習してもよい。

また、標準モデル構造決定部は、モノフォン、トライフォン、状態共有型などの H M Mの構造や、状態数などを決定してもよい。

また、混合分布数については、本実施の形態における S T Bを出荷するときに、所定の値に設定しておいてもよいし、ネットワーク連携を考慮した機器の C P Uパワーなどの仕様、起動するアプリケーションの仕様などに基づいて混合分布数を決定してもよい。

(第 3の実施の形態）

図 1 3は、本発明の第 3の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置力 P D A ( P e r s o n a l D i g i t a l A s s i s t a n t ) 3 0 1 に組み込まれた例が示されている。本実施の形態では雑音識別用の標準モデル（雑音モデル）を作成する場合を例にして説明する。

P D A 3 0 1 は、携帯情報端末であり、事象の出力確率によって定義される雑音識別用の標準モデルを作成する標準モデル作成装置として、読み込み部 3 1 1 と、参照モデル準備部 3 0 2 と、参照モデル記憶部 3 0 3 と、利用情報作成部 3 0 4 と、参照モデル選択部 3 0 5 と、標準モデル作成部 3 0 6 と、仕様情報作成部 3 0 7 と、マイク 3 1 2 と、雑音識別部 3 1 3 とを備える。

読み込み部 3 1 1 は、 C D— R O Mなどのストレージデバイスに書き込まれた乗用車 Aの参照モデル、乗用車 Bの参照モデル、バス Aの参照モデル、小雨の参照モデル、大雨の参照モデルなどの雑音の参照モデルを読み込む。参照モデル準備部 3 0 2は、読み込まれた参照モデル 3 2 1 を参照モデル記憶部 3 0 3へ送信する。参照モデル記憶部 3 0 3は、参照モデル 3 2 1 を記憶する。

利用情報作成部 3 0 4は、利用情報 3 2 4である雑音の種類を P D A 3 0 1 の画面とキーを利用して作成する。参照モデル選択部 3 0 5は、利用情報 3 2 4である雑音の種類に音響的に近い参照モデルを、參照モデル記憶部 3 0 3が記憶している参照モデル 3 2 1 の中から選択する。仕様情報作成部 3 0 7は、 P D A 3 0 1 の仕様に基づき仕様情報 3 2 5 を作成する。ここで、仕様情報とは、作成する標準モデルの仕様に関する情報であり、ここでは、 P D A 3 0 1 が備える C P Uの処理能力に関する情報である。

標準モデル作成部 3 0 6は、仕様情報作成部 3 0 7 で作成された仕様情報 3 2 5に基づいて、参照モデル選択部 3 0 5が選択した雑音の参照モデル 3 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 3 2 2 を作成する処理部であり、標準モデルの構造（ガウス分布の混合分布数など）を決定する標準モデル構造決定部 3 0 6 a と、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部 3 0 6 b と、決定された初期標準モデルを記憶する統計量記憶部 3 0 6 c と、統計量記憶部 3 0 6 c に記憶された初期標準モデルに対して、第 2近似部 3 0 6 eによる近似計算等を用いることにより、参照モデル選択部 3 0 5が選択した参照モデル 3

2 3に対する確率又は尤度を最大化又は極大化するような統計量を算出する（最終的な標準モデルを生成する）統計量推定部 3 0 6 d とからなる。

雑音識別部 3 1 3は、標準モデル作成部 3 0 6で作成された標準モデル 3 2 2を用いて、マイク 3 1 2から入力された雑音の種類を識別する。次に、以上のように構成された P D A 3 0 1 の動作について説明する。図 1 4は、 P D A 3 0 1 の動作手順を示すフローチヤ一トである。まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（ステップ S 3 0 0 )。つまり、読み込み部 3 1 1 は、ストレージデバイスに書き込まれた雑音の参照モデルを読み込み、参照モデル準備部

3 0 2は、読み込まれた参照モデル 3 2 1 を参照モデル記憶部 3 0 3へ送信し、参照モデル記憶部 3 0 3は、参照モデル 3 2 1 を記憶する。参照モデル 3 2 1 は、 G M Mより構成される。参照モデル 3 2 1 の一例を図 1 5に示す。ここでは、各雑音モデルは混合分布数が 3個の G M Mによリ構成される。特徴量として 5次元（ J = 5 ) の L P Cケプストラム係数が用いられる。

次に、利用情報作成部 3 0 4は、識別したい雑音の種類である利用情報 3 2 4を作成する（ステップ S 3 0 1 )。図 1 6に P D A 3 0 1 の選択画面の一例を示す。ここでは、乗用車の雑音が選択される。参照モデル選択部 3 0 5は、選択された利用情報 3 24である乗用車の雑音に音響的に近い参照モデルである乗用車 Aの参照モデルと乗用車 Bの参照モデルを、参照モデル記憶部 3 0 3が記憶している参照モデル 3 2 1 の中から選択する（ステップ S 3 0 2 )。

そして、仕様情報作成部 3 0 7は、 P D A 3 0 1 の仕様に基づき、仕様情報 3 2 5を作成する（ステップ S 3 0 3 )。ここでは、 P D A 3 0 1 の C P Uの仕様に基づき C P Uパワーが小さいという仕様情報 3 2 5を作成する。標準モデル作成部 3 0 6は、作成された仕様情報 3 2 5に基づいて、参照モデル選択部 3 0 5が選択した参照モデル 3 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 3 2 2を作成する（ステップ S 3 0 4 )。

最後に、雑音識別部 3 1 3は、利用者によってマイク 3 1 2から入力された雑音に対して、標準モデル 3 2 2を用いて、雑音の識別を行う（ステツプ S 3 0 5 )。

次に、図 1 4におけるステップ S 3 0 4 (標準モデルの作成）の詳細な手順を説明する。手順の流れは、図 4に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。

まず、標準モデル構造決定部 3 0 6 aは、標準モデルの構造を決定する（図 4のステップ S 1 0 2 a )。ここでは、標準モデルの構造として、仕様情報 3 2 5である C P Uパワーが小さいという情報に基づいて 1 混合（Mf= 1 ) の G M Mにより標準モデル 3 2 2を構成すると決定する。次に、初期標準モデル作成部 3 0 6 bは、標準モデルを計算するための統計量の初期値を決定する（図 4のステップ S 1 0 2 b )。ここでは、選択された参照モデル 3 2 3である乗用車 Aの 3混合の参照モデルを、統計処理計算を用いて 1 つのガウス分布に統合したものを統計量の初期値として統計量記憶部 3 0 6 cに記憶する。

具体的には、初期標準モデル作成部 3 0 6 bは、上記式 1 3に示される出力分布を生成する。

ただし、本実施の形態では、上記式 1 3に示された出力分布における (式 5 1 ) ^X ~ ( (1)， (2),··.,

^e R

は、 5次元（ J = 5 ) の L P Cケプストラム係数を表す。

そして、統計量推定部 3 0 6 dは、参照モデル選択部 3 0 5が選択した 2個の参照モデル 3 2 3を用いて、統計量記憶部 3 0 6 cに記憶された標準モデルの統計量を推定する（図 4のステップ S 1 0 2 c )。

つまり、 2個（ N g= 2 ) の参照モデル 3 2 3における出力分布、即ち、上記式 1 9に示される出力分布に対する標準モデルの確率（ここでは、上記式 2 5に示される尤度 logP ) を極大化もしくは最大化するような標準モデルの統計量（上記式 1 6に示される混合重み係数、上記式 1 7に示される平均値、及び、上記式 1 8に示される分散値）を推定する。

ただし、本実施の形態では、上記式 1 9に示された出力分布における (式 5 2 )

は、 3 (各参照モデルの混合分布数）である。

このとき、統計量推定部 3 0 6 dの第 2近似部 3 0 6 eは、標準モデルの各ガウス分布はお互いに影響を与えないと仮定して、以下の近似式を用いる。

(式 5 3 ) y m) ^(m) (^X' ， ) 1.0

(m = 1，2，.，"M,)

また、標準モデルのガウス分布

(式 5 4 ) / )/ ; ),び O = 2,..,M_f,p = 1，2，…，尸 )）の近傍の

(式 5 5 )

X とは、前記式 5 4が示す出力分布との平均値のユークリッド距離、マハラノビス距離、カルバック ' ライブラー（ K L ) 距離などの分布間距離が近い Qg(m，i)個の参照モデル 3 2 3のガウス分布

(式 5 6 ) g(x^_giU)9a_g-_(U)) (i = 1，2，...， N_g,l = 1,2,..., L_(i)) が存在する空間であって、

(式 5 7 )

U 、^χ', , _P)) {m = 1,2,.··, M_f9p = 1,2，.." P_h(m)) との分布間距離が近い Qg(m，i)個（ 1 ≤ Q_g(m,i)≤し g(i)) の前記参照べクトルの出力分布とは、前記参照モデルの出力分布

(式 5 8 ) ひ g (リ) g (ぶ;

U""， N_g = 1,2,..., L_g(i)) のうち分布間距離が 1 番近い（近傍指示パラメータ G = 1 ) 前記標準モデルの出力分布が前記式 5 7である前記参照べクトルの出力分布であると近似する。

図 1 7は、この統計量推定部 3 0 6 dによる統計量の推定手順を示す概念図である。各参照モデルの各ガウス分布に対して、平均値のユークリツド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布 m であるガウス分布を用いて統計量の推定を行うことが示されている。

図 1 8は、第 2近似部 3 0 6 eによる近似計算を説明する図である。第 2近似部 3 0 6 eは、本図に示されるように、各参照モデルの各ガウス分布に対して、距離が最も近い標準モデルのガウス分布 mを決定することで、上記式 5 3に示された近似式を用いている。

以上の第 2近似部 3 0 6 eによる近似式を考慮してまとめると、統計量推定部 3 0 6 dでの計算式は次の通りになる。つまり、統計量推定部 3 0 6 dは、以下の式 5 9、式 6 0及び式 6 1 に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、それらのパラメータによって特定される標準モデルを最終的な標準 ΐデル 3 2 2として生成する。 (式 5 9 )

N_g ¾<

乙 Σひ）

m 一 '=1 /=1

H ΖΛ('·,り

(w = l,2,..., _/) (ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布 m であるガウス分布に関する和を意味する。）

(式 6 0 )

― 」=1

(w = 1,2，...， M,，ゾ = 1,2，.··，·/)

(ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のュ一クリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布 m であるガウス分布に関する和を意味する。）

(式 6 1 )

(ここで、分母、分子の和は、各参照モデルの各ガウス分布に対して、平均値のユークリッド距離、マハラノビス距離などの分布間距離が最も近いものが標準モデルのガウス分布 m であるガウス分布に関する和を意味する。）ただし、

(式 6 2 )

l，2,.." M,) の場合において、

(第 1 の方法）混合重み係数、平均値、分散値を更新しない。

(第 2の方法）混合重み係数の値をゼロにして、平均値、分散値を所定の値にする。

(第 3の方法）混合重み係数の値を所定の値にして、平均値、分散値を標準モデルめ出力分布を 1 個の分布に表現したときの平均値、分散値にする。

のいずれかを利用して統計量の値を決定する。なお、利用する方法は、繰り返し回数 R、 H M M、 H M Mの状態ごとに異なっていてもよい。ここでは、第 1 の方法を用いる。

統計量推定部 3 0 6 dは、このように推定した標準モデルの統計量を統計量記憶部 3 0 6 cに記憶する。そして、このような統計量の推定と統計量記憶部 3 0 6 cへの記憶を R (≥ 1 ) 回、繰り返す。その結果得られた統計量を最終的に生成する標準モデル 3 2 2の統計量として出力する。

次に、本実施の形態を P D Aによる環境音識別に適用した具体例を説明する。

まず、参照モデル準備部 3 0 2は、 C D— R O Mから環境音の識別に必要な参照モデルを読み出す。利用者は、識別を行う環境（利用.情報）を考慮して、識別したい環境音を画面上から選択する。たとえば、「乗用車」を選択し、続いて、「警報音」、「赤ちゃんの声」、「電車の音」などを選択する。この選択に基づいて、参照モデル選択部 3 0 5は、参照モデル記憶部 3 0 3に記憶されている参照モデルの中から対応する参照モデルを選択する。そして、選択した参照モデル 3 2 3を 1 つずつ用いて、標準モデル作成部 3 0 6は、それぞれに対して標準モデルを作成する。続いて、利用者は、 P D A 3 0 1 において、「らくらく情報提供」（環境音に基づく状況判断による情報提供）というアプリケーションプログラムを起動する。このアプリケーションは、環境音に基づいて状況判断を行い、利用者に適切な情報を提供するプログラムである。起動されると、 P D A 3 0 1 の表示画面に「正確に判断」、「素早く判断 J という表示がされる。これに対して、利用者はどちらかを選択する。

そして、仕様情報作成部 3 0 7は、その選択結果に基づいて、仕様情報を作成する。たとえば、「正確に判断」が選択された場合には、精度を高くするために、混合分布数を 1 0個とする仕様情報を作成する。一方、「素早く判断」が選択された場合には、高速に処理するために、混合分布数を 1個とする仕様情報を作成する。なお、複数の P D Aが連携して処理できる場合などには、現在利用できる C P Uパワーを判断し、その C P Uパワーに基づいて仕様情報.を作成してもよい。

このような仕様情報にしたがって、「乗用車」、「警報音」、「赤ちゃんの声」、「電車の音」などの 1 混合の標準モデルが作成される。そして、 P D A 3 0 1 は、作成された標準モデルにより環境識別を行い、その識別結果に基づき、各種情報を P D Aの画面に表示する。例えば、「乗用車」が近くにあると識別した場合は、道路地図を表示したり、「赤ちゃんの声」を識別した場合は、おもちゃ屋さんの広告を表示したりする。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた、環境音識別に基づく情報提供が実現される。なお、アプリケ一ションの仕様に応じて標準モデルの複雑さを調節することができる。

以上説明したように、本発明の第 3の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。

また、仕様情報に基づいて標準モデルが作成されるため、標準モデルを利用する機器にふさわしい標準モデルが準備される。

なお、統計量推定部 3 0 6 dによる処理の繰リ返し回数は、上記式 2 5に示された尤度の大きさがある一定のしきい値以上になるまでの回数としてもよい。

また、標準モデル 3 2 2を構成する G M Mは、雑音の種類ごとに異なる混合分布数の混合ガウス分布により構成してもよい。

また、識別モデルは、雑音モデルに限らず、話者を識別してもよいし、年齢などを識別してもよい。

また、標準モデル 3 2 2を C D— R O M、 D V D— R A M、ハードデイスクなどのストレージデバイスに記録してもよい。

また、参照モデル 3 2 1 を C D— R O Mなどのストレージデバイスから読み込む代わりに、 P D A 3 0 1 において雑音データから参照モデル 3 2 1 を作成してもよい。

また、参照モデル準備部 3 0 2は、必要に応じて C D— R O Mなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部 3 0 3に追加 ■ 更新しても'よいし、参照モデル記憶部 3 0 3に格納されている不要な参照モデルを削除してもよい。

また、参照モデル準備部 3 0 2は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部 3 0 3に追加 ■ 更新してもよい。また、標準モデルを作成したのちに、さらにデータにより学習してもよい。

また、標準モデル構造決定部は、標準モデルの構造や、状態数などを決定してもよい。

また、近傍指示パラメータ Gは、対象とする事象や標準モデルの出力分布によって異なってもよいし、繰り返し回数 Rによって変化させてもよい。

(第 4の実施の形態）

図 1 9 は、本発明の第 4の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ 4 0 1 に組み込まれた例が示されている。本実施の形態では顏認識用の標準モデルを作成する場合を例にして説明する。

サーバ 4 0 1 は、通信システムにおけるコンピュータ装置等であり、事象の出力確率によって定義される顔認識用の標準モデルを作成する標準モデル作成装置として、カメラ 4 1 1 と、画像データ蓄積部 4 1 2 と、参照モデル準備部 4 0 2 と、参照モデル記憶部 4 0 3 と、利用情報受信部 4 0 4 と、参照モデル選択部 4 0 5 と、標準モデル作成部 4 0 6 と、書き込み部 4 1 3 とを備える。

カメラ 4 1 1 により、顔の画像データが収集され、画像データ蓄積部 4 1 2に顔画像データが蓄積される。参照モデル準備部 4 0 2は、画像データ蓄積部 4 1 2が蓄積した顔画像データを用いて話者ごとに参照モデル 4 2 1 を作成し、参照モデル記憶部 4 0 3 に記憶する。

利用情報受信部 4 0 4は、利用者が希望する顔認識の対象となる人間の年齢の年代と性別の情報を利用情報 4 2 4 として電話 4 1 4によリ受信する。参照モデル選択部 4 0 5は、利用情報受信部 4 0 4が受信した利用情報 4 2 4に基づいて、参照モデル記憶部 4 0 3が記憶している参照モデル 4 2 1 の中から、利用情報 4 2 4が示す年代と性別の話者に対応する参照モデル 4 2 3を選択する。

標準モデル作成部 4 0 6は、参照モデル選択部 4 0 5が選択した話者の顏画像の参照モデル 4 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 4 2 2を作成する処理部であり、第 2の実施の形態における標準モデル作成部 2 0 6と同一の機能を有するとともに、第 1 の実施の形態における第 1 近似部 1 0 4 e と第 3の実施の形態における第 2近似部 3 0 6 eの機能を有する。つまり、第 1 〜第 3の実施の形態で示された 3種類の近似計算を組み合わせた計算を行う。

書き込み部 4 1 3は、標準モデル作成部 4 0 6が作成した標準モデル 4 2 2を C D— R O Mなどのストレージデバイスに書き込む。

次に、以上のように構成されたサーバ 4 0 1 の動作について説明する。図 2 0は、サーバ 4 0 1 の動作手順を示すフローチャートである。図 2 1 は、サーバ 4 0 1 の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。

まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図 2 0のステップ S 4 0 0 )。つまり、カメラ 4 1 1 により Aさんから Zさんの顔画像データを収集して画像データ蓄積部 4 1 2に蓄積する。參照モデル準備部 4 0 2は、画像データ蓄積部 4 1 2が蓄積した顔画像データを用いて、話者ごとの参照モデル 4 2 1 を E Mアルゴリズムによリ作成する。ここでは参照モデル 4 2 1 は G MMで構成される。参照モデル記憶部 4 0 3は、参照モデル準備部 4 0 2が作成した参照モデル 4 2 1 を記憶する。ここでは、図 2 1 の参照モデル 4 2 1 に示されるように、 Aさんから Zさんの全ての参照モデルが、混合分布数が 5 個の G M Mにより構成される。特徴量として 1 0 0次元（ J = 1 0 0 ) の画素の濃度値を用いる。

次に、利用情報受信部 4 0 4は、利用情報 4 2 4である年代と性別の情報を電話 4 1 4により受信する（図 2 0のステップ S 4 0 1 )。ここでは、利用情報 4 2 4として、 1 1 歳から 1 5歳の男性と 2 2歳から 2 6 歳の女性である。参照モデル選択部 4 0 5は、その利用情報 4 2 4に基づいて、参照モデル記憶部 4 0 3が記憶している参照モデル 4 2 1 から、利用情報 4 2 4に対応する参照モデル 4 2 3を選択する（図 2 0のステップ S 4 0 2 )。具体的には、図 2 1 の「選択された参照モデル 4 2 3」に示されるように、ここでは、 1 1 歳から 1 5歳の男性及び 2 2歳から 2 6歳の女性の参照モデルを選択する。

そして、標準モデル作成部 4 0 6は、参照モデル選択部 4 0 5が選択した話者の参照モデル 4 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 4 2 2を作成する (図 2 0のステップ S 4 0 3 )。ここでは、図 2 1 の標準モデル 4 2 2に示されるように、 2つの標準モデル 4 2 2それぞれを、混合分布数が 3個の G M Mにより構成する。標準モデル 4 2 2の作成方法は、基本的には、第 2の実施の形態と同様に行われる。ただし、標準モデル 4 2 2の統計量の推定における近似計算については、具体体には、以下のようにして行われる。つまり、標準モデル作成部 4 0 6は、内蔵の記憶部等を介することで、第 1 の実施の形態における第 1 近似部 1 0 4 eによる近似計算と同様の近似計算よつて作成したモデルを初期値として、第 2の実施の形態における一般近似部 2 0 6 eによる近似計算と同様の近似計算による計算を行い、その結果を初期値として第 3の実施の形態における第 2近似部 3 0 6 eによる近似計算と同様の近似計算を行う。

書き込み部 4 1 3は、標準モデル作成部 4 0 6が作成した 2つの標準モデル 4 2 2を C D— R O Mなどのストレージデバイスに書き込む（図 2 0のステップ S 4 0 4 )。

利用者は、 1 1 歳から 1 5歳の男性の標準モデルと 2 2歳から 2 6歳の女性の標準モデルが書き込まれたストレージデバイスを郵送で受け取る。

次に、本実施の形態を、行動予測に基づいてお店などを紹介する情報提供システムに適用した具体例を説明する。この情報提供システムは、通信ネットワークで接続されたカーナピゲーション装置と情報提供サ一バ装置から構成される。力一ナビゲーシヨン装置は、本実施の形態における標準モデル作成装置 4 0 1 によって予め作成された標準モデルを行動予測モデルとして利用することで、人の行動（つまり、車による行先等）を予測し、その行動に関連した情報（行先の近くに位置するレストランなどのお店の情報など）を提供する機能を備える。

まず、利用者は、カーナビゲーシヨン装置を用いて、電話回線 4 1 4 で接続されたサーバ 4 0 1 に対して、自分用の行動予測モデルの作成を依頼する。

具体的には、利用者は、カーナビゲ一シヨン装置が表示する項目選択画面で、「らくらく推薦機能」のボタンを押す。すると、利用者の住所（利用場所）、年齢、性別、趣味などを入力する画面になる。

ここでは、利用者はお父さんとお母さんとする。まず、お父さんの個人情報を力一ナビゲ一シヨン装置の画面と対話しながら入力する。住所については、電話番号を入力することにより自動的に変換される。あるいは、カーナビゲーシヨン装置において現在位置が表示されているときに「利用場所」のボタンを押すことで、その現在位置が利用場所として入力される。ここでは住所の情報を住所 Aとする。年齢と性別については、「 5 0代」、「男」を選択して入力する。趣味については、予め表示されたチェック項目があるので、利用者は、該当箇所をチェックする。ここではお父さんの趣味の情報を趣味情報 Aとする。

続いて、お母さんの個人情報についても同様に入力する。住所 B、 4 0代、女、趣味情報 Bからなる個人情報が作成される。このような入力の結果は、図 2 2の画面表示例に示されるとおりである。

最後に、カーナビゲーシヨン装置は、このようにして作成された個人情報を利用情報として、付属の電話回線 4 1 4を用いて、情報提供サーバ装置であるサーバ 4 0 1 に転送する。

次に、サーバ 4 0 1 は、転送されてきた個人情報（利用情報）に基づいて、お父さんとお母さんの 2個の行動予測モデルを作成する。ここで、行動予測モデルは、確率モデルで表現され、その入力は、曜日、時刻、現在地などで、出力は、お店 Aの情報を提示する確率、お店 Bの情報を提示する確率、お店 Cの情報を提示する確率、駐車場の情報を提示する確率などである。

サーバ 4 0 1 の參照モデル記憶部 4 0 3に記憶されている複数の参照モデルは、年代、性別、代表的な住所と趣味の傾向で作成した行動予測モデルである。サーバ 4 0 1 では、予め、カメラ 4 1 1 に代えて、力一ナビゲーシヨン装置の入力ボタン等を用いて各種個人情報（上記入力及ぴ出力についての情報）を入力することで、画像データ蓄積部 4 1 2に各種個人情報を蓄積したうえで、参照モデル準備部 4 0 2によって、画像データ蓄積部 4 1 2に蓄積された個人情報から、複数種類の典型的な利用者ごとの参照モデル 4 2 1 が作成され、参照モデル記憶部 4 0 3に格納されている。

参照モデル選択部 4 0 5は、個人情報（利用情報）を用いて、個人情報にふさわしい参照モデルを選択する。例えば、同じ町の、年代と性別が同じで、趣味のチェック項目が 8割以上一致した参照モデルを選択する。サーバ 4 0 1 の標準モデル作成部 4 0 6は、選択された参照モデルを統合した標準モデルを作成する。作成された標準モデルは書き込み部 4 1 3により、メモリカードに記憶される。ここでは、お父さんとお母さんの 2人の標準モデルが記憶される。メモリカードは、郵送で利用者に届けられる。

利用者は、受け取ったメモリカードをカーナビゲ一シヨン装置に挿入し、画面に表示された「お父さん」と「お母さん」を選択することで、利用者を設定する。これによつて、カーナビゲーシヨン装置は、装着されたメモリ力一ドに記憶された標準モデルを行動予測モデルとして使用することで、現在の曜日、時刻、場所などから、必要なタイミングでお店の情報などを提示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを行動予測モデルとして用いることで、人の行動（つまり、車による行先）を予測し、その行動に関連した情報を提供する情報提供システムが実現される。

以上説明したように、本発明の第 4の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によリふさわしい高精度な標準モデルが提供される。

なお、標準モデル 4 2 2 を構成する G M Mは、話者ごとに異なる分布数の混合ガウス分布により構成してもよい。

また、参照モデル準備部 4 0 2は、必要に応じて新たな参照モデルを作成して参照モデル記憶部 4 0 3 に追加 ' 更新してもよいし、参照モデル記憶部 4 0 3に格納されている不要な参照モデルを削除してもよい。また、標準モデルを作成したのちに、さらにデータにより学習してもよい。

(第 5の実施の形態）

図 2 3は、本発明の第 5の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ 5 0 1 に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（適応モデル）を作成する場合を例にして説明する。

サーバ 5 0 1 は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部 5 1 1 と、音声データ蓄積部 5 1 2と、参照モデル準備部 5 0 2と、参照モデル記憶部 5 0 3と、利用情報受信部 5 0 4と、参照モデル選択部 5 0 5と、標準モデル作成部 5 0 6と、仕様情報受信部 5 0 7 と、書き込み部 5 1 3とを備える。

読み込み部 5 1 1 は、 C D— R O Mなどのストレージデバイスに書き込まれた子供、成人、高齢者の音声データを読み込み、音声データ蓄積部 5 1 2に蓄積する。参照モデル準備部 5 0 2は、音声データ蓄積部 5 1 2が蓄積した音声データを用いて話者ごとに参照モデル 5 2 1 を作成する。参照モデル記憶部 5 0 3は、参照モデル準備部 5 0 2が作成した参照モデル 5 2 1 を記憶する。

仕様情報受信部 5 0 7は、仕様情報 5 2 5を受信する。利用情報受信部 5 0 4は、利用情報 5 2 4である利用者の音声を受信する。参照モデル選択部 5 0 5は、利用情報 5 2 4である利用者の音声に音響的に近い話者の参照モデルを、参照モデル記憶部 5 0 3が記憶している参照モデル 5 2 1 から選択する。

標準モデル作成部 5 0 6は、仕様情報 5 2 5に基づいて、参照モデル選択部 5 0 5が選択した話者の参照モデル 5 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 5 2 2を作成する処理部であリ、第 1 の実施の形態における標準モデル作成部 1 0 4と同一の機能を有する。書き込み部 5 1 3は、標準モデル作成部 5 0 6が作成した標準モデル 5 2 2を C D— R O Mなどのストレージデバイスに書き込む。次に、以上のように構成されたサーバ 5 0 1 の動作について説明する。図 2 4は、サーバ 5 0 1 の動作手順を示すフローチャートである。図 2 5は、サーバ 5 0 1 の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。

まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図 2 4のステップ S 5 0 0 )。つまり、読み込み部 5 1 1 は、 C D — R O Mなどのストレ一ジデバイスに書き込まれた音声データを読み込み、音声データ蓄積部 5 1 2に蓄積する。参照モデル準備部 5 0 2は、音声データ蓄積部 5 1 2が蓄積した音声データを用いて話者ごとに参照モデル 5 2 1 をバウム ' ウエルチの再推定の方法により作成する。参照モデル記憶部 5 0 3は、参照モデル準備部 5 0 2が作成した参照モデル 5 2 1 を記憶する。

参照モデル 5 2 1 は、音素ごとの H M Mにより構成される。ここでは、図 2 5の参照モデル 5 2 1 に示されるように、子供の各話者の参照モデルは、状態数 3個、各状態は混合分布数が 3個の混合ガウス分布により H M Mの出力分布が構成され、成人の各話者の参照モデルが、状態数 3 個、各状態は混合分布数が 6 4個の混合ガウス分布により H M Mの出力分布が構成され、高齢者の各話者の参照モデルは、状態数 3個、各状態は混合分布数が 1 6個の混合ガウス分布により H M Mの出力分布が構成される。これは、子供の音声データが比較的少なく、成人の音声データが多いためである。特徴量として 2 5次元（ J = 2 5 ) のメルケプストラム係数が用いられる。

次に、利用情報受信部 5 0 4は、利用者の音声を、端末装置 5 1 4から、利用情報 5 2 4 として受信する（図 2 4のステップ S 5 0 1 )。参照モデル選択部 5 0 5は、利用情報 5 2 4である利用者の音声に音響的に近い参照モデル 5 2 3を、参照モデル記憶部 5 0 3が記憶している参照モデル 5 2 1 から選択する（図 2 4のステップ S 5 0 2 )。具体的には、図 2 5の「選択された参照モデル 5 2 3」に示されるように、ここでは、近い話者 1 0人（ N g= 1 0 ) の参照モデルが選択される

そして、仕様情報受信部 5 0 7は、利用者の要求に基づき仕様情報 5 2 5を端末装置 5 1 4から受信する（図 2 4のステップ S 5 0 3 )。ここでは、速い認識処理という仕様情報 5 2 5を受信する。標準モデル作成部 5 0 6は、仕様情報受信部 5 0 7が受信した仕様情報 5 2 5に基づいて、参照モデル選択部 5 0 5が選択した話者の参照モデル 5 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 5 2 2を作成する（図 2 4のステップ S 5 0 4 )。具体的には、標準モデル 5 2 2は、図 2 5の標準モデル 5 2 2に示されるように、仕様情報 5 2 5である速い認識処理という情報に基づいて、 2混合（Mf= 2 ) で、 3状態の H M Mより構成する。 H M Mは音素ごとに構成する。

標準モデル 5 2 2の作成方法は、第 1 の実施の形態と同様に行われる。書き込み部 5 1 3は、標準モデル作成部 5 0 6が作成した標準モデル 5 2 2を C D— R O Mなどのストレージデバイスに書き込む（図 2 4のステップ S 5 0 5 )。

次に、本実施の形態を、通信ネットワークを用いた音声認識によるゲームに適用した具体例を説明する。ここでは、サーバ 5 0 1 は、作成した標準モデルを用いて音声認識を行う音声認識部を備えるものとする。また、端末装置 5 1 4として、 P D Aとする。これらは、通信ネットヮークで接続されている。

サーバ 5 0 1 では、読み込み部 5 1 1 、音声データ蓄積部 5 1 2及び参照モデル準備部 5 0 2により、音声データを C Dや D V Dなどで入手したタイミングで参照モデルを逐次準備している。

利用者は、 P D A (端末装置 5 1 4 ) において、音声認識を利用したゲームプログラム、ここでは、「アクションゲーム」を立ち上げる。すると、「『アクション』と発声してください」と表示されるので、利用者は、「アクション」と発声する。その音声は、利用情報として、 P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信され、サーバ 5 0 1 の利用情報受信部 5 0 4及び参照モデル選択部 5 0 5により、参照モデル記憶部 5 0 3に記憶された複数の参照モデルの中から利用者に合った参照モデルを選択する。

また、利用者は、速くリアクションしてほしいので、 P D A (端末装置 5 1 4 ) の設定画面において「高速に認識する」と設定する。その設定内容は、仕様情報として、 P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信され、サーバ 5 0 1 においては、このような仕様情報及び選択された参照モデルに基づいて、標準モデル作成部 5 0 6により、 2混合の標準モデルが作成される。

利用者は、アクションゲームにおいて、 P D Aのマイクに「右に移動」、「左に移動」などのコマンドを発声する。入力された音声は、サーバへ送信され、既に作成された標準モデルを利用した音声認識が行われる。その認識結果は、サーバ 5 0 1 から P D A (端末装置 5 1 4 ) に送信され、 P D A (端末装置 5 1 4 ) において、送信されてきた認識結果に基づいて、アクションゲームのキャラクタが動く。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声によるアクションゲームが実現される。また、同様にして、本実施の形態を別のアプリケーション、例えば、通信ネットワークを用いた翻訳システムに適用することもできる。たとえば、利用者は、 P D A (端末装置 5 1 4 ) において、「音声翻訳」というアプリケーションプログラムを立ち上げる。すると、「『翻訳』と発声してください」と表示される。利用者は、「翻訳」と発声する。その音声は、利用情報として、 P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信される。また、利用者は、正確に認識してほしいので、そのアプリケーシヨンにおいて、「正確に認識してほしい」旨を指示する。その指示は、仕様情報として、 P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信される。サーバ 5 0 1 では、送信されてきた利用情報及び仕様情報に従つて、たとえば、 1 0 0混合の標準モデルが作成される。

利用者は、 P D A (端末装置 5 1 4 ) のマイクに向かって「おはようございます」と発声する。入力された音声は P D A (端末装置 5 1 4 ) からサーバ 5 0 1 に送信され、サーバ 5 0 1 で「おはようございます」と認識された後に、その認識結果が P D A (端末装置 5 1 4 ) に返信される。 P D A (端末装置 5 1 4 ) は、サーバ 5 0 1 から受信した認識結果を英語に翻訳し、その結果「G O O D M O R N I N G」を画面に表示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを音声認識に用いることで、音声による翻訳装置が実現される。

以上説明したように、本発明の第 5の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によリふさわしい精度の高い標準モデルが提供される。

また、参照モデル準備部 5 0 2において、参照モデルごとにデータ数に適した混合分布数の精度の高い参照モデルを準備でき、精度の高い参照モデルを用いて標準モデルを作成できる。このため精度の高い標準モデルの利用が可能となる。

なお、標準モデル 5 2 2は、音素ごとに H M Mを構成するに限らず、文脈依存の H M Mで構成してもよい。

また、標準モデル 5 2 2を構成する H M Mは、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。

また、標準モデル 5 2 2を用いて、サーバ 5 0 1 において音声認識を行ってもよい。

また、参照モデル準備部 5 0 2は、必要に応じて新たな参照モデルを作成して参照モデル記憶部 5 0 3に追加 ■ 更新してもよいし、参照モデル記憶部 5 0 3に格納されている不要な参照モデルを削除してもよい。また、標準モデルを作成したのちに、さらにデータにより学習してもよい。

(第 6の実施の形態）

図 2 6は、本発明の第 6の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ 6 0 1 に組み込まれた例が示されている。本実施の形態では意図理解のための標準モデル（嗜好モデル）を作成する場合を例にして説明する。

サーバ 6 0 1 は、通信システムにおけるコンピュータ装置等であり、事象の出力確率によって定義される意図理解用の標準モデルを作成する標準モデル作成装置として、読み込み部 6 1 1 と、参照モデル準備部 6 0 2と、参照モデル記憶部 6 0 3 と、利用情報受信部 6 0 4と、參照モデル選択部 6 0 5と、標準モデル作成部 6 0 6 と、仕様情報作成部 6 0 7 とを備える。

読み込み部 6 1 1 は、 C D— R O Mなどのストレージデバイスに書き込まれた年齢別の話者 Aさんから話者 Zさんの嗜好モデルを読み込み、参照モデル準備部 6 0 2は、読み込まれた参照モデル 6 2 1 を参照モデル記憶部 6 0 3へ送信し、参照モデル記憶部 6 0 3は、参照モデル 6 2 1 を記憶する。

仕様情報作成部 6 0 7は、普及しているコンピュータの C P Uパワーに合わせて仕様情報 6 2 5を作成する。利用情報受信部 6 0 4は、端末装置 6 1 4から利用情報 6 2 4を受信する。参照モデル選択部 6 0 5は、利用情報受信部 6 0 4が受信した利用情報 6 2 4に基づいて、参照モデル記憶部 6 0 3が記憶している参照モデル 6 2 "I からの中から、利用情報 6 2 4に対応した参照モデル 6 2 3を選択する。

標準モデル作成部 6 0 6は、仕様情報作成部 6 0 7が作成した仕様情報 6 2 5に基づいて、参照モデル選択部 6 0 5が選択した参照モデル 6 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 6 2 2を作成する処理部であり、第 2の実施の形態における標準モデル作成部 2 0 6と同一の機能を有するとともに、第 3の実施の形態における第 2近似部 3 0 6 eの機能を有する。つまり、第 2及び第 3の実施の形態で示された 2種類の近似計算を組み合わせた計算を行う。

次に、以上のように構成されたサーバ 6 0 1 の動作について説明する。図 2 7は、サーバ 6 0 1 の動作手順を示すフローチャートである。図 2 8は、サーバ 6 0 1 の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図 2 7のステップ S 6 0 0 )。つまり、読み込み部 6 1 1 は、 C D 一 R O Mなどのストレ一ジデバイスに書き込まれた年齢別の話者 Aさんから話者 Zさんの嗜好モデルを読み込み、参照モデル準備部 6 0 2は、読み込まれた参照モデル 6 2 1 を参照モデル記憶部 6 0 3へ送信し、参照モデル記憶部 6 0 3は、参照モデル 6 2 1 を記憶する。

参照モデル 6 2 1 は、 G M Mより構成される。ここでは、図 2 8の参照モデル 6 2 1 に示されるように、混合分布数が 3個の G M Mにより構成される。学習データとして、趣味、性格などを数値化した 5次元（ J = 5 ) の特徴量を用いる。参照モデルの準備は、標準モデルの作成が要求される以前に行う。

次に、利用情報受信部 6 0 4は、嗜好モデルを作成したい年齢層である利用情報 6 2 4を受信する（図 2 7のステップ S 6 0 1 )。ここでは、 2 0代、 3 0代、 4 0代の年代別の嗜好モデルを利用するという利用情報 6 2 4である。参照モデル選択部 6 0 5は、図 2 8の「選択された参照モデル 6 2 3」に示されるように、利用情報受信部 6 0 4が受信した利用情報 6 2 4が示す年代の話者の嗜好モデルを、参照モデル記憶部 6 0 3が記憶している参照モデル 6 2 1 から選択する（図 2 7のステップ S 6 0 2 )。

そして、仕様情報作成部 6 0 7は、普及しているコンピュータの C P Uパワー、記憶容量などに基づき仕様情報 6 2 5を作成する（図 2 7のステップ S 6 0 3 )。ここでは、通常速度の認識処理という仕様情報 6 2 5を作成する。

標準モデル作成部 6 0 6は、仕様情報作成部 6 0 7が作成した仕様情報 6 2 5に基づいて、参照モデル選択部 6 0 5が選択した話者の参照モデル 6 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 6 2 2を作成する（図 2 7のステップ S 6 0 4 )。ここでは、標準モデル 6 2 2は、図 2 8の標準モデル 6 2 2に示されるように、仕様情報 6 2 5である通常速度の認識処理という情報に基づいて 3混合（ M f = 3 ) の G M Mより構成する。

標準モデル 6 2 2の作成方法は、基本的には、第 2の実施の形態と同様に行われる。ただし、標準モデル 6 2 2の統計量の推定における近似計算については、具体体には、以下のようにして行われる。つまり、標準モデル作成部 6 0 6は、内蔵の記憶部等を介することで、第 2の実施の形態における一般近似部 2 0 6 eによる近似計算と同様の近似計算による計算を行い、その結果を初期値として第 3の実施の形態における第 2近似部 3 0 6 eによる近似計算と同様の近似計算を行う。

次に、本実施の形態を情報検索装置に適用した具体例を説明する。ここでは、参照モデルは、入力が検索キーワードであり、出力が検索ルール A、検索ルール Bなどを利用する確率である。異なる検索ルールを用いると、表示される検索結果が異なってくる。また、サーバ 6 0 1 の参照モデル記憶部 6 0 3に準備される参照モデルは、代表的な特徴をもつ話者のモデルとする。

まず、利用者は、サーバ 6 0 1 に付属しているリモコン（端末装置 6 1 4 ) を用いて利用情報を入力する。利用情報は、年齢、性格、性別、趣味などでである。また、「子供」、「俳優」、「高校生」などの所定のグループを識別する情報であってもよい。

続いて、利用者は、選択画面で、「カーナビゲーシヨン装置用」、「携帯電話用」、「パソコン用」、「テレビ用」などから 1 つの利用機器を選択する。サーバ 6 0 1 の仕様情報作成部 6 0 7は、利用機器の C P Uパワー、記憶容量に基づいて仕様情報を作成する。ここでは、「テレビ用」が選択されたとし、 C P Uパワーと記憶容量が小さい旨の仕様情報 6 2 5が作成され、その仕様情報 6 2 5に基づいて、標準モデル作成部 6 0 6によつて、小さい C P Uパワーでも動作する 3混合の標準モデルが作成される。作成された標準モデルはメモリカードに書き込まれ、そのメモリ力ードは利用者によってテレビに挿入される。

利用者は、テレビに表示された E P Gなどで、おすすめ番組を検索するために検索キーワードを入力する。すると、テレビは、メモリカードに記録された標準モデルを用いて、検索キーヮードに合った検索ルールを決定し、その検索ルールに沿って番組を検索し、利用者の嗜好にあつた番組として表示する。このようにして、本実施の形態における標準モデル作成装置によって作成された標準モデルを用いた便利な検索装置が実現される。

以上説明したように、本発明の第 6の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によりふさわしい精度の高い標準モデルが提供される。

なお、標準モデル 6 2 2を構成する G M Mは、話者ごとに異なる分布数の混合ガウス分布により構成してもよい。

また、参照モデル準備部 6 0 2は、必要に応じて C D _ R O Mなどのストレージデバイスから読み込まれた新たな参照モデルを参照モデル記憶部 6 0 3に追加 ' 更新してもよいし、参照モデル記憶部 6 0 3に格納されている不要な参照モデルを削除してもよい。

また、参照モデル及び標準モデルの G M Mはベイジアンネットの一部を表現するものでもよい。また、標準モデルを作成したのちに、さらにデータにより学習してもよい。

(第 7の実施の形態）

図 2 9は、本発明の第 7の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ 7 0 1 に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（適応モデル）を作成する場合を例にして説明する。

サーバ 7 0 1 は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部 7 1 1 と、参照モデル準備部 7 0 2と、参照モデル記憶部 7 0 3 と、利用情報受信部 7 0 4と、参照モデル選択部 7 0 5と、標準モデル作成部 7 0 6と、仕様情報受信部 7 0 7 と、標準モデル記憶部 7 0 8 と、標準モデル送信部 7 0 9とを備える。

参照モデル準備部 7 0 2は、読み込み部 7 1 1 が読み込んだ、 C D— R O Mなどのストレージデバイスに書き込まれた話者 ' 雑音 ■ 声の調子別の音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信し、参照モデル記憶部 7 0 3は、送信された参照モデル Ί 2 1 を記憶する。

仕様情報受信部 7 0 7は、端末装置 7 1 2から仕様情報 7 2 5を受信する。利用情報受信部 7 0 4は、端末装置 7 1 2から利用情報 7 2 4である雑音下で発声した利用者の音声を受信する。参照モデル選択部 7 0 5は、利用情報 7 2 4である利用者の音声に音響的に近い話者 ' 雑音 - 声調子の参照モデル 7 2 3を、参照モデル記憶部 7 0 3が記憶している参照モデル 7 2 1 の中から選択する。

標準モデル作成部 7 0 6は、仕様情報受信部 7 0 7が受信した仕様情報 7 2 5に基づいて、参照モデル選択部 7 0 5が選択した参照モデル， 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 7 2 2を作成する処理部であり、第 2の実施の形態における標準モデル作成部 2 0 6と同一の機能を有する。標準モデル記憶部 7 0 8は、仕様情報 7 2 5に基づいた 1 もしくは複数の標準モデルを記憶する。標準モデル送信部 7 0 9は、利用者の端末装置 7 1 2から仕様情報と標準モデルの要求信号を受信すると、その仕様情報に適した標準モデルを端末装置 7 1 2へ送信する。

次に、以上のように構成されたサーバ 7 0 1 の動作について説明する。図 3 0は、サーバ 7 0 1 の動作手順を示すフローチヤ一トである。図 3 1 は、サーバ 7 0 1 の動作手順を説明するための参照モデル及び標準モデルの一例を示す図である。

まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図 3 0のステップ S 7 0 0 )。つまり、参照モデル準備部 7 0 2は、読み込み部 7 1 1 が読み込んだ、 C D— R O Mなどのストレージデバイスに書き込まれた話者 ■ 雑音 ■ 声の調子別の音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信し、参照モデル記憶部 7 0 3は、送信された参照モデル 7 2 1 を記憶する。ここでは、参照モデル 7 2 1 は、話者 ' 雑音 ' 声の調子ごとに、音素ごとの H M Mにより構成される。また、各参照モデルは、図 3 1 の参照モデル 7 2 1 に示されるように、状態数 3 個、各状態は混合分布数が 1 2 8個の混合ガウス分布により H M Mの出力分布が構成される。特徴量として 2 5次元（ J = 2 5 ) のメルケプストラム係数が用いられる。

次に、利用情報受信部 7 0 4は、利用者 Aの雑音下での音声を端末装置 7 1 2から利用情報 7 2 4として受信する（図 3 0のステップ S 7 0 1 )。参照モデル選択部 7 0 5は、利用情報 7 2 4である利用者 Aの音声に音響的に近い参照モデル 7 2 3を、参照モデル記憶部 7 0 3が記憶している参照モデル 7 2 1 の中から選択する（図 3 0のステップ S 7 0 2 )。具体的には、図 3 1 の「選択された参照モデル 7 2 3」に示されるように、ここでは、近い話者 1 0 0人（ N g= 1 0 0 ) の参照モデルが選択される

そして、仕様情報受信部 7 0 7.は、利用者 Aの要求に基づき仕様情報 7 2 5を端末装置 7 1 2から受信する（図 3 0のステップ S 7 0 3 )。ここでは、高い認識精度という仕様情報 7 2 5を受信する。標準モデル作成部 7 0 6は、仕様情報 7 2 5に基づいて、参照モデル選択部 7 0 5が選択した参照モデル 7 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 7 2 2を作成する（図 3 0のステップ S 7 0 4 )。具体的には、標準モデル 7 2 2は、図 3 1 の標準モデル 7 2 2に示されるように、仕様情報 7 2 5である高い認識精度という情報に基づいて、 6 4混合（ M f = 6 4 ) で、 3状態の H M Mより構成する。 H M Mは音素ごとに構成する。

標準モデル 7 2 2の作成方法は、第 2の実施の形態と同様に行われる。標準モデル記憶部 7 0 8は、仕様情報 7 2 5に基づいた 1 もしくは複数の標準モデル 7 2 2を記憶する。ここでは、以前に作成した標準モデルである利用者 Bの 1 6混合の H M Mがすでに記憶されており、新たに利用者 Aの 6 4混合の H M Mが記憶される。

利用者 Aは、端末装置 7 1 2からサーバ 7 0 1 の標準モデル送信部 7 0 9へ、仕様情報である利用者 Aと雑音の種類と標準モデルの要求信号とを送信する（図 3 0のステップ S 7 0 6 )。標準モデル送信部 7 0 9は、利用者 Aが送信した仕様情報と標準モデルの要求信号とを受信すると、その端末装置 7 1 2へ、仕様に適した標準モデルを端末装置 7 1 2へ送信する（図 3 0のステップ S 7 0 7 )。ここでは、先ほど作成した利用者 Aの標準モデル 7 2 2を端末装置 7 1 2へ送信する。

利用者 Aは端末装置 7 1 2において受信した標準モデル 7 2 2を用いて音声認識を行う（図 3 0のステップ S 7 0 8 )。

次に、本実施の形態を、通信ネットワークで接続されたカーナビゲ一シヨン装置（端末装置 7 1 2 ) とサーバ装置（サーバ 7 0 1 ；標準モデル作成装置）から構成される音声認識システムに適用した具体例を説明する。

まず、利用者は、カーナビゲーシヨン装置（端末装置 7 1 2 ) の画面にて「自分の音声モデルを獲得」する旨のポタンを選択する。すると、「名前を入力」と表示されるので、ボタン操作により自分の名前を入力する。次に、（"『音声』と発声してください」と表示されるので、利用者は、カーナビゲ一シヨン装置付属のマイクに向かって「音声」と発声する。これらの情報（利用者の名前、雑音下での音声）は、利用情報として、カーナビゲーシヨン装置（端末装置 7 1 2 ) からサーバ 7 0 1 に送信される。

同様にして、利用者は、カーナビゲーシヨン装置（端末装置 7 1 2 ) の画面にて「高精度の音声認識」のボタンを選択する。すると、その選択情報は、仕様情報として、力一ナビゲーション装置（端末装置 7 1 2 ) からサーバ 7 0 1 に送信される。

サーバ 7 0 1 は、それらの利用情報及び仕様情報に基づいて、利用者にふさわしい音声認識用の標準モデルを作成し、作成した標準モデルを利用者の名前と対応づけて標準モデル記憶部 7 0 8に格納しておく。次回にカーナビゲーシヨン装置（端末装置 7 1 2 ) を起動すると、「名前を入力」と表示されるので、利用者は、名前を入力する。すると、その名前がサーバ 7 0 1 に送信され、標準モデル 7 2 2に格納された対応する標準モデルが標準モデル送信部 7 0 9によってサーバ 7 0 1 から端末装置 7 1 2に送信される。名前（利用者）に対応した標準モデルをサーバ 7 0 1 からダウンロードした端末装置 7 1 2は、その標準モデルを用いて、利用者に対する音声認識を行い、音声による目的地設定などを行う。このようにして、本実施の形態における標準モデル作成装置によつて作成された標準モデルを音声認識に用いることで、音声によって力ーナビゲーション装置を操作することが可能となる。

以上説明したように、本発明の第 7の実施の形態によれば、利用情報に基づいて選択された複数の参照モデルに対する確率又は尤度を最大化又は極大化するように標準モデルの統計量を計算して標準モデルが作成されるので、利用状況によリふさわしい精度の高い標準モデルが提供される。

また、標準モデル記憶部 7 0 8は、複数の標準モデルを記憶することができるため、必要に応じてすぐに標準モデルが提供される。

また、標準モデル送信部 7 0 9により、標準モデルが端末装置 7 1 2 へ送信されるので、端末装置 7 1 2とサーバ 7 0 1 が空間的に離れた場所に設置してある場合に、端末装置 7 1 2は、容易にサーバ 7 0 1 が作成した標準モデルを利用することできる。

なお、標準モデル 7 2 2は、音素ごとに H M Mを構成するに限らず、文脈依存の H M Mで構成してもよい。

また、標準モデル 7 2 2を構成する H M Mは、状態ごとに異なる混合数の混合ガウス分布により構成してもよい。

また、標準モデル 7 2 2を用いて、サーバ 7 0 1 において音声認識を行い、認識結果を端末装置 7 1 2へ送信してもよい。

また、参照モデル準備部 7 0 2は、必要に応じて新たな参照モデルを作成して参照モデル記憶部 7 0 3に追加 ■ 更新してもよいし、參照モデル記憶部 7 0 3 に格納されている不要な参照モデルを削除してもよい。また、参照モデル準備部 7 0 2は、必要に応じて、通信路を介して新たな参照モデルを参照モデル記憶部 7 0 3に追加 ■ 更新してもよい。また、標準モデルを作成したのちに、さらにデータにより学習してもよい。

(第 8の実施の形態）

図 3 2は、本発明の第 8の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置が携帯電話 9 0 1 に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。携帯電話 9 0 1 は、携帯情報端末であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、参照モデル受信部 9 0 9 と、参照モデル準備部 9 0 2 と、参照モデル記憶部 9 0 3 と、利用情報作成部 9 0 4 と、参照モデル選択部 9 0 5 と、類似度情報作成部 9 0 8 と、標準モデル作成部 9 0 6 と、仕様情報作成部 9 0 7 と、マイク 9 1 2 と、音声認識部 9 1 3 とを備える。

利用情報作成部 9 0 4は、利用情報 9 2 4を携帯電話 9 0 1 の画面とキーを利用して作成する。

仕様情報作成部 9 0 7 は、携帯電話 9 0 1 の仕様に基づき仕様情報 9 2 5 を作成する。ここで、仕様情報とは、作成する標準モデルの仕様に関する情報であり、ここでは、携帯電話 9 0 1 が備える C P Uの処理能力に関する情報である。

類似度情報作成部 9 0 8 は、利用情報 9 2 4 と仕様情報 9 2 5 と参照モデル記憶部 9 0 3が記憶した参照モデル 9 2 1 に基づいて、類似度情報 9 2 6 を作成して参照モデル準備部に送信する。

参照モデル準備部 9 0 2は、類似度情報 9 2 6に基づいて、参照モデルを準備するか否かを決定する。参照モデル準備部 9 0 2は、参照モデルを準備すると決定した場合に、利用情報 9 2 4 と仕様情報 9 2 5 を参照モデル受信部 9 0 9に送信する。

参照モデル受信部 9 0 9は、利用情報 9 2 4 と仕様情報 9 2 5に対応した参照モデルを、サーバ装置 9 1 0から受信して参照モデル準備部 9 0 2に送信する。

参照モデル準備部 9 0 2は、参照モデル受信部 9 0 9が送信した參照モデルを参照モデル記憶部 9 0 3に記憶する。

参照モデル選択部 9 0 5は、利用情報 9 2 4に対応した参照モデル 9 2 3 を、参照モデル記憶部 9 0 3が記憶している参照モデル 9 2 1 の中から選択する。

標準モデル作成部 9 0 6は、仕様情報作成部 9 0 7で作成された仕様情報 9 2 5に基づいて、参照モデル選択部 9 0 5が選択した参照モデル 9 2 3 に対する確率又は尤度を最大化又は極大化するように標準モデル 9 2 2 を作成する処理部であり、標準モデルの構造（ガウス分布の混合分布数など）を決定する標準モデル構造決定部 9 0 6 a と、標準モデルを計算するための統計量の初期値を決定することで初期標準モデルを作成する初期標準モデル作成部 9 0 6 b と、決定された初期標準モデルを記憶する統計量記憶部 9 0 6 c と、統計量記憶部 9 0 6 c に記憶された初期標準モデルに対して、第 3近似部 9 0 6 e による近似計算等を用いることにより、参照モデル選択部 9 0 5が選択した参照モデル 9 2 3に対する確率又は尤度を最大化又は極大化するような統計量を算出する (最終的な標準モデルを生成する）統計量推定部 9 0 6 d とからなる。音声認識部 9 1 3は、標準モデル作成部 9 0 6で作成された標準モデル 9 2 2を用いて、マイク 9 1 2から入力された利用者の音声を認識する。

次に、以上のように構成された携帯電話 9 0 1 の動作について説明する。

図 3 3は、携帯電話 9 0 1 の動作手順を示すフローチヤ一トである。いま、参照モデル記憶部 9 0 3には、あらかじめ参照モデル 9 2 1 として子供用モデルが記憶されているとする。その参照モデル 9 2 1 は、音素ごとの H M Mにより構成される。参照モデル 9 2 1 の一例を図 3 4 に示す。ここでは、子供用参照モデルのイメージ図が示されている。これらの参照モデルは、状態数 3個、各状態は分布数が 1 6個の混合ガウス分布により H M Mの出力分布が構成される。特徴量として、 1 2次元のメルケプストラム係数、 1 2次元のデルタメルケプストラム係数、デルタパワーの合計 2 5次元（ J = 2 5 ) の特徴量が用いられる。

まず、利用情報作成部 9 0 4は、利用者の属するカテゴリである利用情報 9 2 4を作成する（ステップ S 9 0 0 )。図 3 6は、利用情報 9 2 4 の作成例を示す図である。図 3 6 ( a ) に携帯電話 9 0 1 の選択画面の一例を示す。ここでは、「 4 ：成人」のポタンを押すことにより、この携帯電話 9 0 1 が成人女性と成人男性に利用されることが選択されている。別の一例を図 3 6 ( b ) に示す。ここでは、「メニュー」ポタンを押しながら音声を入力している。その利用者の音声は、特徴量に変換されることで、利用情報 9 2 4である "利用者の音声データ "が作成される。

一方、仕様情報作成部 9 0 7は、携帯電話 9. 0 1 の仕様に基づき、仕様情報 9 2 5 を作成する（ステップ S 9 0 1 )。ここでは、携帯電話 9 0 1 のメモリ容量の大きさに基づいて「混合分布数 1 6」という仕様情報 9 2 5 を作成する。

次に、類似度情報作成部 9 0 8 は、利用情報 9 2 4 と仕様情報 9 2 5 と参照モデル記憶部 9 0 3が記憶した参照モデル 9 2 1 に基づいて、類似度情報 9 2 6を作成して（ステップ S 9 0 2 )、類似度情報 9 2 6 を参照モデル準備部 9 0 2に送信する。ここでは、参照モデル記憶部 9 0 3 に存在する参照モデル 9 2 1 は、混合分布数 3の子供用モデル（図 3 4 を参照）のみであり、利用情報 9 2 4である「成人」（図 3 6 ( a ) に対応）と仕様情報 9 2 5である「混合分布数 1 6」に対応する参照モデルが参照モデル記憶部 9 0 3 に存在しないため、「類似した参照モデルが存在しない」という類似度情報 9 2 6 を作成して、類似度情報 9 2 6 を参照モデル準備部 9 0 2に送信する。別の一例では、利用情報 9 2 4は" 利用者の音声データ " （図 3 6 ( b ) に対応）であり、利用者の音声データを参照モデル記憶部 9 0 3が記憶している子供用モデルに入力して類似度情報 9 2 6 を作成する。ここでは、子供用モデルに対する尤度が所定のしきい値以下であるため、「類似した参照モデルが存在しない」という類似度情報 9 2 6 を作成して参照モデル準備部 9 0 2に送信する。続いて、参照モデル準備部 9 0 2は、類似度情報 9 2 6 に基づいて、参照モデルを準備するか否かを決定する（ステップ S 9 0 3 )。ここでは、「類似した参照モデルが存在しない」ため、図 3 7 ( a ) の携帯電話 9 0 1 の画面表示例に示すように利用者に参照モデルの準備を促す。ここで、利用者が「メモ j ボタンを押して参照モデルの準備を要求した場合に、参照モデル準備部 9 0 2 は、参照モデルを準備すると決定して、利用情報 9 2 4 と仕様情報 9 2 5 を参照モデル受信部 9 0 9 に送信する。別の一例では、「類似した參照モデルが存在しない」ため、参照モデル準備部 9 0 2は、自動的に参照モデルを準備すると決定して、利用情報 9 2 4 と仕様情報 9 2 5 を参照モデル受信部 9 0 9に送信する。この場合の携帯電話 9 0 1 の画面の一例を図 3 7 ( b ) に示す。

これに対して、参照モデル受信部 9 0 9は、利用情報 9 2 4 と仕様情報 9 2 5 に対応した参照モデルをサーバ装置 9 1 0から受信して参照モデル準備部 9 0 2に送信する。ここでは、参照モデル受信部 9 0 9は、利用情報 9 2 4である「成人」（図 3 6 ( a ) に対応）と仕様情報 9 2 5 である「混合分布数 1 6」に対応する参照モデルである、 "混合分布数 1 6の成人女性用モデル"と "混合分布数 1 6の成人男性用モデル"の 2個の参照モデルをサーバ装置 9 1 0から受信する。

そして、参照モデル準備部 9 0 2は、参照モデル受信部 9 0 9が送信した参照モデルを参照モデル記憶部 9 0 3に記憶することによつて参照モデルを準備する（ステップ S 9 0 4 )。図 3 5 にその参照モデルの一例を示す。ここでは、成人男性用、成人女性用、子供用の参照モデルのィメージ図が示されている。

次に、参照モデル選択部 9 0 5は、利用情報 9 2 4である「成人 j に対応した同じカテゴリに属する"混合分布数 1 6の成人女性用モデル"と "混合分布数 1 6の成人男性用モデル"の 2個の参照モデルを参照モデル記憶部 9 0 3が記憶している参照モデル 9 2 1 の中から選択する（ステップ S 9 0 5 )。別の一例では、参照モデル選択部 9 0 5は、利用情報 9 2 4である"利用者の音声データ "と音響的に近い（尤度が大きい） "混合分布数 1 6の成人女性用モデル"と "混合分布数 1 6の成人男性用モデル "の 2個の参照モデルを参照モデル記憶部 9 0 3が記憶している参照モデル 9 2 1 の中から選択する。

続いて、標準モデル作成部 9 0 6は、作成された仕様情報 9 2 5 に基づいて、参照モデル選択部 9 0 5が選択した参照モデル 9 2 3 に対する確率又は尤度を最大化又は極大化するように標準モデル 9 2 2を作成する（ステップ S 9 0 6 )。

最後に、音声認識部 9 1 3は、標準モデル作成部 9 0 6によって作成された標準モデル 9 2 2に従って、マイク 9 1 2から入力された利用者の音声を認識する（ステップ S 9 0 7 )。

次に、図 3 3におけるステップ S 9 0 6 (標準モデルの作成）の詳細な手順を説明する。手順の流れは、図 4に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。

まず、標準モデル構造決定部 9 0 6 aは、標準モデルの構造を決定する（図 4のステップ S 1 0 2 )。ここでは、標準モデルの構造として、仕様情報 9 2 5である「混合分布数 1 6」に基づいて、音素ごとの H M M により構成し、状態数を 3 とし、各状態における出力分布の混合分布数を 1 6個（ M f = 1 6 ) と決定する。

次に、初期標準モデル作成部 9 0 6 bは、標準モデルを計算するための統計量の初期値を決定する（図 4のステップ S 1 0 2 b )。ここでは、選択された参照モデル 9 2 3である"混合分布数 1 6の成人女性用モデル"を統計量の初期値として統計量記憶部 9 0 6 cに記憶する。別の一例では、選択された参照モデル 9 2 3である"混合分布数 1 6の成人男性女モデル''を統計量の初期値として統計量記憶部 9 0 6 cに記憶する。具体的には、初期標準モデル作成部 9 0 6 bは、上記式 1 3に示される出力分布を生成する。

そして、統計量推定部 9 0 6 dは、参照モデル選択部 9 0 5が選択した 2個の参照モデル 9 2 3を用いて、統計量記憶部 9 0 6 cに記憶された標準モデルの統計量を推定する（図 4のステツプ S 1 0 2 c )。つまり、 2個（ N g = 2 ) の参照モデル 9 2 3における出力分布、即ち、上記式 1 9に示される出力分布に対する標準モデルの確率（ここでは、上記式 2 5に示される尤度 log P ) を極大化もしくは最大化するような標準モデルの統計量（上記式 1 6に示される混合重み係数、上記式 1 7に示される平均値、及び、上記式 1 8に示される分散値）を推定する。ただし、本実施の形態では、上記式 1 9に示された出力分布における式 2 1 は、 1 6 (各参照モデルの混合分布数）である。

このとき、統計量推定部 9 0 6 dの第 3近似部 9 0 6 eは、標準モデルの各ガウス分布はお互いに影響を与えないと仮定して、式 5 3の近似式を用いる。また、繰り返し回数 Rが 1 回目の場合には、式 5 4に示される標準モデルのガウス分布の近傍の式 5 5 とは、式 5 4が示す出力分布とのマハラノビス距離、力ルバック ' ライブラー（ K L ) 距離などの分布間距離が最も近いものと 2番目に近いものの 2個（近傍指示パラメータ G = 2 ) の式 5 6に示される参照モデル 9 2 3のガウス分布が存在する空間であると近似する。一方、繰り返し回数 Rが 2回目以上の場合には、式 5 4に示される標準モデルのガウス分布の近傍の式 5 5とは、式 5 4が示す出力分布とのマハラノビス距離、カルバック ■ ライブラー ( K L ) 距離などの分布間距離が最も近いもの 1 個（近傍指示パラメ一タ G = 1 ) の式 5 6に示される参照モデル 9 2 3のガウス分布が存在する空間であると近似する。

以上の第 3近似部 9 0 6 eによる近似式を考慮してまとめると、統計量推定部 9 0 6 dでの計算式は、次の通りになる。つまり、統計量推定部 9 0 6 dは、式 5 9、式 6 0及び式 6 1 に従って、それぞれ、混合重み係数、平均値及び分散値を算出し、それらのパラメータによって特定される標準モデルを最終的な標準モデル 9 2 2として生成する。ただし、第 3の実施の形態における第 2の方法である、混合重み係数の値をゼロにして、平均値をゼロ、分散値を 1 にする方法を用いる。また、繰り返し回数に対応して近傍指示パラメータ Gの値は異なる。なお、近傍指示パラメータ Gの値に依存して、上記の方法を、第 3の実施の形態における第 1 から第 3の方法のいずれかに決定してもよい。

統計量推定部 9 0 6 dは、このように推定した標準モデルの統計量を統計量記憶部 9 0 6 cに記憶する。そして、このような統計量の推定と統計量記憶部 9 0 6 cへの記憶を R (≥ 1 ) 回、繰リ返す。その結果得られた統計量を最終的に生成する標準モデル 9 2 2の統計量として出力する。

図 3 8に、第 3近似部 9 0 6 eを用いて作成した標準モデル 9 2 2を用いた認識実験の結果を示す。縦軸に成人（男性と女性）の認識率（％ )、横軸に繰り返し回数 Rを示す。繰り返し回数 R - 0とは、学習を行う前での初期標準モデル作成部 9 0 6 bが作成した初期モデルによリ認識した結果である。また、繰り返し回数 R = 1 のときは、近傍指示パラメ一タ G - 2とし、繰り返し回数 R = 2〜5のときは、近傍指示パラメータ G = 1 とした。

グラフ「データ」は、数日間かけて音声データより学習した場合の結果を表しており、グラフ「女性」、グラフ「男性」は、それぞれ、初期モデルを成人女性、成人男性としたときの結果を表している。参照モデルによる本発明による学習時間は数十秒のオーダ一であった。実験結果よリ、短時間に高い精度の標準モデルが作成できていることがわかる。ここで、参考のために、図 3 9に、第 3の実施の形態における第 2近似部 3 0 6 eにより作成された標準モデルによる認識率を示す。本実施の形態における第 3近似部 9 0 6 e と異なるのは、繰り返し回数 Rによらず近傍指示パラメータ G = 1 であるということである。実験結果より、初期モデルとして成人女性を選択すると良好な結果が得られることがわかる。また、初期モデルとして成人男性を選択すると、精度が少し劣化していることがわかる。図 3 8の結果とあわせると、第 3近似部 9 0 6 eによる標準モデルは初期モデルに依存せずに高い精度の標準モデルが作成できていることがわかる。

以上説明したように、本発明の第 8の実施の形態によれば、類似度情報に基づいて参照モデルを準備するため、利用情報及び仕様情報にふさわしい参照モデルを必要なタイミングで準備することができる。また、近傍指示パラメータ Gを繰り返し回数 Rによって変化させることで、初期モデルにかかわらず精度の高い標準モデルを提供することができる。なお、統計量推定部 9 0 6 dによる処理の繰り返し回数は、上記式 2 5に示された尤度の大きさがある一定のしきい値以上になるまでの回数としてもよい。

また、標準モデル 9 2 2は、音素ごとに H M Mを構成するに限らず、文脈依存の H M Mで構成してもよい。

また、標準モデル作成部 9 0 6は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。

また、標準モデル 9 2 2を構成する H M Mは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。

(第 9の実施の形態）

図 4 0は、本発明の第 9の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置力 P D A ( P e r s o n a l D i g i t a l A s s i s t a n t ) 1 0 0 1 に組み込まれた例が示されている。以下、本実施の形態では音声認識用の標準モデルを作成する場合を例にして説明する。

P D A 1 0 0 1 は、携帯情報端末であり、事象の集合と事象又は事象間の遷移の出力確率で表現された隠れマルコフモデルによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、参照モデル記憶部 1 0 0 3 と、標準モデル作成部 1 0 0 6 と、アプリ ' 仕様情報対応データベース 1 0 1 4 と、マイク 1 0 1 2 と、音声認識部 1 0 1 3 とを備える。標準モデル作成部 1 0 0 6は、標準モデル構造決定部 "I 0 0 6 a と、初期標準モデル作成部 1 0 0 6 b と、統計量記憶部 3 0 6 c と、統計量推定部 3 0 6 d とを備える。

標準モデル作成部 1 0 0 6は、送信されたアプリ起動情報 1 0 2 7 (ここでは、起動したアプリケーションの I D番号）に基づいて、アプリ ' 仕様情報対応データベース 1 0 1 4 を用いて、仕様情報 1 0 2 5 を取得する。図 4 1 は、仕様情報対応データベース 1 0 1 4のデータ例を示す。仕様情報対応データベース 1 0 1 4には、アプリケーション（ I D番号及び名前）に対応する仕様情報（ここでは、混合分布数）が登録されている。

標準モデル作成部 1 0 0 6は、取得した仕様情報 1 0 2 5に基づいて、參照モデル記憶部 1 0 0 3が記憶した 1 個の参照モデル 1 0 2 1 に対する確率又は尤度を最大化又は極大化するように標準モデル 1 0 2 2 を作成する処理部であリ、第 3の実施の形態における第 2近似部 3 0 6 eの機能を有する。

音声認識部 1 0 1 3は、標準モデル作成部 1 0 0 6で作成された標準モデル 1 0 2 2 を用いて、マイク 1 0 1 2から入力された利用者の音声を認識する。

次に、以上のように構成された P D A 1 0 0 1 の動作について説明する。

図 4 2は、 P D A 1 0 0 1 の動作手順を示すフローチャートである。ここで、参照モデル記憶部 1 0 0 3には、あらかじめ多くの混合分布数をもつ利用者用モデルが参照モデル 1 0 2 1 として 1 個、記憶されているとする。参照モデル 1 0 2 † は、音素ごとの H MMにより構成される。参照モデル 1 0 2 1 の一例を図 4 3 に示す。この参照モデルは、状態数 3個、各状態は分布数が 3 0 0個の混合ガウス分布によリ H M Mの出力分布が構成される。特徴量として、 1 2次元のメルケプストラム係数、 1 2次元のデルタメルケプストラム係数、デルタパワーの合計 2 5 次元（ J = 2 5 ) の特徴量が用いられる。

まず、利用者は、例えば「株取引」というアプリケーションを起動する（ステップ S 1 0 0 0 )。

これに対して、標準モデル作成部 1 0 0 6は、アプリ起動情報として起動されたアプリケーションの I D 「 3」を受信する（ステップ S 1 0 0 1 )。そして、アプリ ' 仕様情報対応データベース 1 0 1 4を用いて I D 「 3」に対応する仕様情報 1 0 2 5である「混合分布数 1 2 6」に基づいて、標準モデル 1 0 2 2 を作成する（ステップ S 1 0 0 2 )。具体的には、標準モデル 1 0 2 2 として、混合分布数 1 2 6 ( Mf= 1 2 6 ) で、 3状態の文脈依存型の H M Mにより構成する。

次に、標準モデル作成部 1 0 0 6は、仕様情報 1 0 2 5 を受信して（ステツプ S 1 0 0 1 )、仕様情報 1 0 2 5に基づいて標準モデルを作成する (ステップ S 1 0 0 2 )。

最後に、音声認識部 1 0 1 3は、標準モデル作成部 1 0 0 6によって作成された標準モデル 1 0 2 2に従って、マイク 1 0 1 2から入力された利用者の音声を認識する（ステップ S 1 0 0 3 )。

次に、図 4 2におけるス亍ップ S 1 0 0 2 (標準モデルの作成）の詳細な手順を説明する。手順の流れは、図 4に示されたフローチャートと同様である。ただし、採用する標準モデルの構造や具体的な近似計算等が異なる。

まず、標準モデル構造決定部 1 0 0 6 a は、アプリ起動情報 1 0 2 7 としてアプリケーション I D Γ 3」を受信した後に、アプリ ' 仕様情報対応データベース 1 0 1 4 を用いて I D 「 3」に対応した仕様情報 1 0 2 5 (「混合分布数 1 2 6 J) を参照することにより、標準モデルの構造を混合分布数 1 2 6 ( Mf= 1 2 6 ) で、 3状態の文脈依存型の H M Mと決定する（図 4のステップ S 1 0 2 a )。

そして、初期標準モデル作成部 1 0 0 6 b は、標準モデル構造決定部 1 0 0 6 aが決定した標準モデルの構造に基づいて、標準モデルを計算するための統計量の初期値を決定する（図 4のステップ S 1 0 2 b ) ここでは、 k-means法とマハラノビス汎距離を用いた方法により、後述するクラスタリングを行ったものを統計量の初期値として統計量記憶部 3 0 6 cに記憶する。

そして、統計量推定部 3 0 6 d は、参照モデル記憶部 1 0 0 3 に格納された参照モデル 1 0 2 1 を用いて、統計量記憶部 3 0 6 c に記憶された標準モデルの統計量を推定する（図 4のステップ S 1 0 2 c )。なお、この統計量推定部 3 0 6 d による推定処理は、第 3の実施の形態と同様である。

次に、初期標準モデル作成部 1 0 0 6 bによる初期値の決定方法、つまり、 k-means法とマハラノビス汎距離を用いた方法によるクラスタリングについて説明する。図 4 4にクラスタリングのフローチャートを示す。また、図 4 5〜図 4 8 にクラスタリングのイメージ図を示す。まず、図 4 4のステップ S 1 0 0 4において、標準モデルの混合分布数である 1 2 6個の代表点を準備する（図 4 5 )。ここでは、参照モデルの 3 0 0個の出力分布の中から 1 2 6個の出力分布を選択して、選択された分布の平均値を代表点とする。

次に、図 4 4のステップ S 1 0 0 5において、各代表点にマハラノビス汎距離が近い参照モデルの出力べクトルを決定する（図 4 6 )。そして、図 4 4のステップ S 1 0 0 6において、ステップ S 1 0 0 5で決定した近い分布を 1 つのガウス分布で表現して平均値を新しい代表点とする (図 4 7 )。

続いて、図 4 4のステップ S 1 0 0 7において、クラスタリング操作を停止するかどうかを決定する。ここでは、各代表点と参照ベクトルの分布とのマハラノビス汎距離の変化率（ 1 回前の代表点との距離との差分）がしきい値以下になった場合に停止とする。停止条件を満たさない場合、図 4 4のステップ S 1 0 0 5に戻り、近い分布を決定して同様の操作を繰り返す。

一方、停止条件を満たす場合には、図 4 4のステップ S 1 0 0 8に進み、統計量の初期値を決定して統計量記憶部 3 0 6 cに記憶する。このようにして、クラスタリングによる初期値の決定が行われる。

以上説明したように、本発明の第 9の実施の形態によれば、アプリケーシヨンに連動して自動的に仕様情報にふさわしい標準モデルを獲得することができる。

なお、標準モデル 1 0 2 2は、音素ごとに H M Mを構成してもよい。また、標準モデル作成部 1 0 0 6は、一部の音素の、一部の状態における事象の出力確率に対してモデル作成を行ってもよい。

また、標準モデル 1 0 2 2を構成する H M Mは、音素ごとに異なる状態数により構成してもよいし、状態ごとに異なる分布数の混合ガウス分布により構成してもよい。

(第 1 0の実施の形態）

図 4 9は、本発明の第 1 0の実施の形態における標準モデル作成装置の全体構成を示すブロック図である。ここでは、本発明に係る標準モデル作成装置がコンピュータシステムにおけるサーバ 8 0 1 に組み込まれた例が示されている。本実施の形態では音声認識用の標準モデル（適応モデル）を作成する場合を例にして説明する。

サーバ 8 0 1 は、通信システムにおけるコンピュータ装置等であり、事象の集合と事象又は事象間の遷移の出力確率とによって定義される音声認識用の標準モデルを作成する標準モデル作成装置として、読み込み部 7 1 1 と、参照モデル準備部 7 0 2 と、参照モデル記憶部 7 0 3 と、利用情報受信部 7 0 4 と、参照モデル選択部 7 0 5 と、標準モデル作成部 7 0 6 と、仕様情報受信部 7 0 7 と、標準モデル記憶部 7 0 8 と、標準モデル送信部 7 0 9 と、参照モデル受信部 8 1 0 とを備える。

参照モデル準備部 7 0 2は、読み込み部 7 1 1 が読み込んだ、 C D— R O Mなどのストレージデバイスに書き込まれた話者 ■ 雑音 ■ 声の調子別の音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信する。参照モデル記憶部 7 0 3は、送信された参照モデル 7 2 1 を記憶する。また、参照モデル準備部 7 0 2は、端末装置 7 1 2からの送信に対して参照モデル受信部 8 1 0が受信した音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信する。参照モデル記憶部 7 0 3は、送信された参照モデル 7 2 1 を記憶する。仕様情報受信部 7 0 7は、端末装置 7 1 2から仕様情報 7 2 5を受信する。利用情報受信部 7 0 4は、端末装置 7 1 2から利用情報 7 2 4である雑音下で発声した利用者の音声を受信する。参照モデル選択部 7 0 5は、利用情報受信部 7 0 4が受信した利用情報 7 2 4である利用者の音声に音響的に近い話者 ■ 雑音 ' 声調子の参照モデル 7 2 3を、参照モデル記憶部 7 0 3が記憶している参照モデル 7 2 1 から選択する。

標準モデル作成部 7 0 6は、仕様情報 7 2 5に基づいて、参照モデル選択部 7 0 5が選択した参照モデル 7 2 3に対する確率又は尤度を最大化又は極大化するように標準モデル 7 2 2を作成する処理部であり、第 2の実施の形態における標準モデル作成部 2 0 6と同一の機能を有する。標準モデル記憶部 7 0 8は、仕様情報 7 2 5に基づいた 1 もしくは複数の標準モデルを記憶する。標準モデル送信部 7 0 9は、利用者の端末装置 7 1 2から、仕様情報 7 2 5と標準モデルの要求信号とを受信すると、その端末装置 7 1 2 へ、仕様に適した標準モデルを送信する。

次に、以上のように構成されたサーバ 8 0 1 の動作について説明する。図 5 0は、サーバ 8 0 1 の動作手順を示すフローチャートである。なお、このサーバ 8 0 1 の動作手順を説明するための参照モデル及び標準モデルの一例は、第 7に実施の形態における図 3 1 と同様である。

まず、標準モデルの作成に先立ち、その基準となる参照モデルを準備する（図 5 0のステップ S 8 0 0 、 S 8 0 1 )。つまり、参照モデル準備部 7 0 2は、読み込み部 7 1 1 が読み込んだ、 C D _ R O Mなどのストレージデバイスに書き込まれた話者 ■ 雑音 ■ 声の調子別の音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信し、参照モデル記憶部 7 0 3 は、送信された参照モデル 7 2 1 を記憶する（図 5 0のステップ S 8 0 0 )。ここでは、参照モデル 7 2 1 は、話者 '雑音 ' 声の調子ごとに、音素ごとの H M Mにより構成される。また、参照モデル準備部 7 0 2は、端末装置 7 1 2が送信して参照モデル受信部 8 1 0が受信した、利用者と端末装置 7 1 2 に適した音声認識用参照モデルを参照モデル記憶部 7 0 3へ送信し、参照モデル記憶部 7 0 3は、送信された参照モデル 7 2 1 を記憶する（図 5 0のステップ S 8 0 1 )。ここでは、各参照モデルは、図 3 1 の参照モデル 7 2 1 に示されるように、状態数 3個、各状態は混合分布数が 1 2 8個の混合ガウス分布によリ H M Mの出力分布が構成される。特徴量として 2 5次元（ J = 2 5 ) のメルケプストラム係数が用し、られる。

以下、これらの参照モデル 7 2 1 を用いた標準モデル 7 2 2の作成及び端末装置 7 1 2への送信（図 5 0のス亍ップ S 8 0 2〜 S 8 0 9 )は、第 7の実施の形態における手順（図 3 0のステップ S 7 0 1 〜 S 7 0 8 ) と同様である。

このようにして、端末装置 7 1 2に記憶された自分用モデルをサーバにアップロードして標準モデル作成の材料にすることができるので、例えば、サーバ 8 0 1 において、アップロードされてきた参照モデルと既に保持している他の参照モデルとを統合して更に混合数の多い高精度の標準モデルを作成し、端末装置 7 1 2にダウンロードして利用することが可能となる。したがって、端末装置 7 1 2に簡易的な適応機能が付属され、簡易的に適応したモデルをアップロードして、さらに高精度な標準モデルを作成することもできる。

図 5 1 は、本実施の形態における標準モデル作成装置を具体的に適用したシステム例を示す図である。ここには、インタ一ネットや無線通信等を介して通信し合うサーバ 7 0 1 と端末装置 7 1 2 (携帯電話機 7 1 2 a 、力一ナビゲーシヨン装置 7 1 2 b ) とが示されている。

たとえば、携帯電話機 7 1 2 a は、利用者の音声を利用情報とし、携帯電話機での利用である旨（ C P Uの処理能力が低いこと）を仕様情報とし、予め記憶しているサンプルモデルを参照モデルとし、それら利用情報、仕様情報及び参照モデルをサーバ 7 0 1 に送信することで、標準モデルの作成を要求する。その要求に対してサーバ 7 0 1 で標準モデルが作成されると、携帯電話機 7 1 2 aは、その標準モデルをダウンロードし、その標準モデルを用いて利用者の音声を認識する。例えば、利用者の音声が、内部に保持するアドレス帳の名前と一致した場合には、その名前に対応する電話番号に自動発呼する。

また、カーナビゲーシヨン装置 7 1 2 bは、利用者の音声を利用情報とし、カーナビゲーシヨン装置での利用である旨（ C P Uの処理能力が通常であること）を仕様情報とし、予め記憶しているサンプルモデルを参照モデルとし、それら利用情報、仕様情報及び参照モデルをサーバ 7 0 1 に送信することで、標準モデルの作成を要求する。その要求に対してサーバ 7 0 1 で標準モデルが作成されると、カーナビゲ一シヨン装置 7 1 2 bは、その標準モデルをダウンロードし、その標準モデルを用いて利用者の音声を認識する。例えば、利用者の音声が、内部に保持する地名と一致した場合には、その地名を目標点とする現地点からの道順を示す地図を画面に自動表示する。

このようにして、携帯電話機 7 1 2 a及び力一ナビゲーシヨン装置 7 1 2 bは、自装置に適した標準モデルの作成をサーバ 7 0 1 に依頼することで、標準モデルの作成に必要な回路や処理プログラムを自装置内に実装する必要がなくなるとともに、様々な認識対象の標準モデルを必要なタイミングで獲得することができる。

以上説明したように、本発明の第 1 0の実施の形態によれば、参照モデル受信部 8 1 0が受信した参照モデルを利用して標準モデルを作成できるため、精度の高い標準モデルが提供される。つまり、端末装置 7 1 2からのアップロードにより参照モデルを追加することでサーバ 8 0 1 側で保持する参照モデルのバリェ一ションが増加し、他の人が利用したときにさらに高精度の標準モデルを提供することができる。

なお、參照モデル受信部 8 1 0は、端末装置 7 1 2とは異なる他の端末装置から参照モデルを受信してもよい。

また、図 5 1 に示された応用例は、本実施の形態に限られるものではなく、他の実施の形態にも適用することができる。つまり、第 1 〜第 9 の実施の形態で作成された標準モデルを各種記録媒体や通信を介して様々な電子機器に配信することで、それらの電子機器において、制度の高いな音声認識、画像認識、意図理解等を行うことが可能となる。さらに、上記実施の形態における標準モデル作成装置を各種電子機器に内蔵させることで、音声認識、画像認識、意図理解等の認識 · 認証機能を備えるスタンドアローンの電子機器を実現することもできる。

以上、本発明に係る標準モデル作成装置について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。

たとえば、第 1 〜第 1 0の実施の形態における標準モデルの統計量の近似計算については、各実施の形態における近似計算だけに限られず、第 1 〜第 4の実施の形態における合計 4種類の近似計算の少なくとも 1 つを用いてもよい。つまり、 4種類の近似計算のいずれであってもよいし、 2以上の種類の近似計算の組み合わせであってもよい。

また、第 2の実施の形態では、統計量推定部 2 0 6 dの一般近似部 2 0 6 eは、標準モデルの混合重み係数、平均値及び分散値を、それぞれ、式 4 5、式 4 6及び式 4 7に示される近似式に従って算出したが、これらの近似式に替えて、以下の式 6 3、式 6 4及び式 6 5に示される近似式を用いて算出してもよし、。

(式 6 3 )

(m=l,2,...,M_f)

(式 6 4 )

(m = \,2,...,M_f,j = ],2,:.,J)

(式 6 5 )

∑ L⁽ ) -^))²{∑ "_β(^/)^Η(,ν) ^^(,7₎₅σ¾,_ν))}^

び/ ( )〜 N_s

(=1 /=1

{m=\X...,M_f,j = \,2,..., J) このような近似式を用いて作成した標準モデルによれば、高い認識性能が得られることが発明者らによって確認されている。たとえば、参照モデルと標準モデルそれぞれの混合数を 1 6とした場合の認識結果は、適応前では 8 2 . 2 %であったものが、上記非特許文献 2に示された十分統計量による方法では、 8 5 . 0 %、上記近似式による方法では 8 5 . 5 %に改善された。つまり、十分統計量による方法と比べ、高い認識性能が獲得できていることがわかる。また、参照モデルの混合数を 6 4、標準モデルの混合数を 1 6とした場合についての認識結果は、上記近似式による方法では、 8 5 . 7 %と高い認識率が獲得できている。

また、初期標準モデル作成部による初期標準モデルの作成においては、図 5 2に示されるようなクラス I D ■ 初期標準モデル · 参照モデル対応表を予め準備しておき、この表に従って、初期標準モデルを決定してもよい。以下、このようなクラス I D ■ 初期標準モデル ' 参照モデル対応表を用いた初期標準モデルの決定方法について説明する。なお、クラス I Dとは、標準モデルを用いた認識対象の種別を識別する I Dであり、標準モデルの種類に対応する。

図 5 2に示されたクラス I D■初期標準モデル'参照モデル対応表は、一定の共通する性質を有する複数の參照モデルに対して、それらを識別する 1 つのクラス I Dを対応づけるとともに、それら参照モデルと共通する性質を持つ予め作成された初期標準モデルを対応づけた表である。この表では、参照モデル 8 A A〜 8 A Zに対して、クラス I D及び初期標準モデル 8 Aが対応づけられ、参照モデル 6 4 Z A〜 Z Zに対して、クラス I D及び初期標準モデル 6 4 Zが対応づけられている。標準モデル作成部は、使用する参照モデルの性質と共通する初期標準モデルを使用することによって、精度の高い標準モデルを生成することができる。

ここで、クラス I D、初期標準モデル及び参照モデルの添え字記号 8 A、 8 A Aにおける最初の記号「 8」等は、混合分布数を意味し、 2番目の記号「A J 等は大分類、例えば、騒音下における音声認識の場合であれば、騒音環境の種類（家庭内騒音下を A、電車内騒音下を Bなど）を意味し、 3番目の記号「A」等は小分類、例えば、音声認識の対象となる人の属性（低学年の小学生を A、高学年の小学生を Bなど）を意味する。したがって、図 5 2のクラス I D ' 初期標準モデル ■ 参照モデル対応表における参照モデル 8 A A〜 A Zは、図 5 3に示されるような混合分布数 8のモデルであり、参照モデル 6 4 Z A ~ Z Zは、図 5 4に示されるような混合分布数 6 4のモデルであリ、初期標準モデル 8 A〜 6 4 Zは、図 5 5に示されるような混合分布数 8〜 1 6のモデルである。次に、このようなクラス I D ■ 初期標準モデル ■ 参照モデル対応表の作成方法を説明する。図 5 6は、その手順を示すフローチヤ一トであり、図 5 7〜図 6 0は、各ステップでの具体例を示す図である。ここでは、騒音環境下での音声認識を例とし、表だけでなく、クラス I D、初期標準モデル及び参照モデルも含めて新規に作成する場合の手順を説明する。まず、音声データを音響的に近いグループに分類する（図 5 6のステップ S 1 1 0 0 )。たとえば、図 5 7に示されるように、音声データを利用情報である雑音環境で分類する。環境 A (家庭内騒音下での音声データ）には、家庭内騒音下で収録した小学生低学年の音声、小学生高学年の音声、成人女性の音声などが含まれ、環境 B (電車内での音声データ）には、電車内で収録した小学生低学年の音声、小学生高学年の音声、成人女性の音声などが含まれるように分類する。なお、利用情報である話者の性別、年齢層、笑い声 ■ 怒った声などの声の性質、読み上げ調 ' 会話調などの声の調子、英語 · 中国語などの言語などで分類してもよい。次に、仕様情報等に基づいて、準備する参照モデルの 1 以上のモデル構造を決定する（図 5 6のステップ S 1 1 0 1 )。たとえば、 8混合、 1 6混合、 3 2混合及び 6 4混合を対象とすることを決定する。なお、モデル構造の決定においては、混合分布数を決定するに限らず、 H M Mの状態数、モノフォン ' 卜ライフオンなどの H M Mの種類などを決定してもよい。

続いて、初期標準モデルを作成する（図 5 6のステップ S 1 1 0 2 )。つまり、上記音声データの分類（ステップ S 1 1 0 0 ) において決定した分類（環境 A、環境 B、 ■■· ) ごとに、ステップ S 1 1 0 1 において決定したモデル構造ごとの初期標準モデルを作成する。例えば、図 5 8に示されるように、初期標準モデル 8 Aであれば、 8混合の初期標準モデルを、家庭内騒音下（環境 A ) における音声データ（低学年の小学生、高学年の小学生、成人男、成人女等の音声データ）を用いて、バウムウェルチアルゴリズムなどにより学習して作成する。

次に、参照モデルを作成する（図 5 6のステップ S 1 1 0 3 )。つまり、上記ステツプ S 1 1 0 2において作成した初期標準モデルを用いて参照モデルを作成する。具体的には、参照モデルを学習する音声データの雑音環境と同じ雑音環境で学習した、同じ混合分布数をもつ初期標準モデルを用いて参照モデルを学習する。例えば、図 5 9に示されるように、参照モデル 8 A Aは、混合分布数 8の家庭内騒音下での小学生低学年の音声データで学習するモデルであり、学習を行う際の初期値として、同じ環境である家庭内騒音下での音声データ（小学生低学年、小学生高学年、成人女性、成人男性の音声を含む）で学習した初期標準モデルを用いる。学習方法として、バウム ■ ウエルチアルゴリズムを用いる。

最後に、クラス I Dを付与する（図 5 6のステップ S 1 1 0 4 )。たとえば、騒音環境下ごとに 1 つのクラス I Dを付与することによって、図 6 0に示されるクラス I D ■ 初期標準モデル ■ 参照モデル対応表、つまリ、 "クラス I D付き初期標準モデル"及び"クラス I D付き参照モデル" が作成される。

なお、このようなクラス I D■初期標準モデル'参照モデル対応表は、完成された表として予め端末（標準モデル作成装置）が保持している必要はない。端末（標準モデル作成装置）は、図 6 1 に示されるように、他の装置（サーバ）と通信することによって表を完成させてもよい。つまり、標準モデル作成装置（端末）は、通信網などを介して、 "クラス I D付き初期標準モデル"， "クラス I D付き参照モデル"を取得することが可能である。もっとも、端末は必ずしも"クラス I D付き初期標準モデル "、 "クラス I D付参照モデル"を取得する必要はなく事前に記憶させて出荷してもよい。

図 6 1 に示されるように、端末は、以下のような方法によって、 "クラス I D付き初期標準モデル"、 "クラス I D付き参照モデル"を取得することができる。第 1 の方法として、端末は、 "クラス I D付き初期標準モデル"（例えば規格化コンソーシアムなどで事前に定義されたクラス I Dのつけ方に遵守したもの）を記憶しているケースである。このとき、端末は、 1 以上のサーバから "クラス I D付き参照モデル" （例えば規格化コンソーシアムなどで事前に定義されたクラス I Dのつけ方に遵守したもの）をダウンロードする。なお、端末に、 "クラス I D付き参照モデル" を出荷時に記憶させておいてもよい。

また、第 2の方法として、端末は、 "クラス I D付き初期標準モデル" を記憶していないケースである。このとき、端末は、サーバ（図 6 1 のサーバ 1 ) から "クラス I D付き初期標準モデル"をダウンロードする。次に、端末は、 1 以上のサーバ（図 6 1 のサーバ 2 ) から"クラス I D付き参照モデル"をダウンロードする。必要に応じて逐次的にクラス I の定義の追加、変更が可能である。また、端末のメモリの節約にもなる。さらに、第 3の方法として、端末は、クラス 1 Dと初期標準モデル - 参照モデルの対応関係を明記した"クラス I D ■初期標準モデル '参照モデル対応表"を記憶しているケースである。このとき、端末は、 "対応表" 記憶していないサーバ（図 6 1 のサーバ 3 ) に"対応表"をアップロードする。サーバは、送信された"対応表"に基づき"クラス I D付き参照モデル"を準備する。端末は、準備された"クラス I D付き参照モデル"をダウンロードする。

次に、このようなクラス I D ■ 初期標準モデル · 参照モデル対応表を用いた初期標準モデル作成部による初期標準モデルの決定方法について説明する。図 6 2は、その手順を示すフローチャートである。図 6 3及び図 6 4は、各ステップでの具体例を示す図である。

まず、標準モデルの作成に用いる参照モデルからクラス I Dを抽出する（図 6 2のステップ S 1 1 0 5 )。たとえば、図 6 3に示される亍一ブルに従って、選択された参照モデルから、対応するクラス I Dを抽出する。ここでは、抽出したクラス I D として、 8 Aが 1 個、 1 6 Aが 3個、 1 6 B力 1 個、 6 4 B力《 1 個とする。

次に、抽出したクラス I Dを用いて標準モデル作成に用いる初期標準モデルを決定する（図 6 2のステップ S 1 1 0 6 )。具体的には、以下の手順に従つて初期標準モデルを決定する。

( 1 ) 作成する標準モデルの混合分布数（ 1 6混合）と同じクラス I D ( 1 6 * ) をもつ参照モデルから抽出したクラス I D ( 1 6 A、 1 6 B ) に着目し、その中から一番多く抽出されたクラス I Dに対応する初期標準モデルを最終的な初期標準モデルと決定する。たとえば、標準モデルの構造が 1 6混合の場合には、 1 6混合に関するクラス I D として、 1 6 Aが 3個、 1 6 Bが 1 個抽出されているので、クラス I Dが 1 6 Aの初期標準モデルを採用する。

( 2 ) 作成する標準モデルの混合分布数（ 8混合）と同じクラス I D ( 8 * ) をもつ参照モデルから抽出したクラス I D ( 8 A ) に着目し、同じクラス I Dをもつ初期標準モデルを最終的な初期標準モデルと決定する。たとえば、標準モデルの構造が 8混合の場合には、 8混合に関するクラス I D として、 8 Aが 1 個抽出されているので、クラス I Dが 8 Aの初期標準モデルを採用する。

( 3 ) 作成する標準モデルの混合分布数（ 3 2混合）と同じクラス I D ( 3 2 * ) をもつ参照モデルから抽出したクラス I Dに着目し、存在しない場合、仕様情報に着目してその中から一番多く抽出されたクラス I D ( * A ) をもつ初期標準モデル（ 8 A、 1 6 A ) を用いてクラスタリングにより 3 2混合にして最終的な初期標準モデルとする（図 4 4 を参照）。たとえば、標準モデルの構造が 3 2混合の場合には、 3 2混合に関するクラス I Dが抽出されていないので、一番多く抽出されたクラス I D ( 1 6 A ) を用いてクラスタリングにより 3 2混合にして初期標準モデルとする。

なお、はじめに作成する標準モデルの仕様情報（混合分布数など）に着目せず、利用情報（雑音の種類など）に着目して初期値を決定してもよい。

図 6 4に、第 3近似部を用いて作成した混合分布数が 6 4の標準モデルを用いた認識実験の結果を示す。縦軸に成人（男性と女性）の認識率 ( % )、横軸に繰り返し回数 Rを示す。繰り返し回数 R = 0 とは、学習を行う前での初期標準モデル作成部が作成した初期モデルにより認識した結果である。また、繰り返し回数 R = 1 〜 5 において、近傍指示パラメ —タ G = 1 とした。

グラフ「データ」は、数日間かけて音声データより学習した場合の結果を表しており、グラフ「女性」、グラフ「男性」は、それぞれ、初期モデルを成人女性、成人男性としたときの結果を表している。参照モデルによる本発明による学習時間は数分のオーダーであった。この実験結果より、成人女性の参照モデルを初期標準モデルと決定した場合には、音声データで学習した結果よりも高い精度の標準モデルが作成できていることが分かる。

このことは、音声データを分割し、分割した音声データをそれぞれの参照モデルとして厳密に学習したのちに統合したほうが、音声データによる学習の課題である局所解に陥るという問題を解決できる可能性を示している（音声データによる学習との認識精度での比較）。

また、音声データの収録が困難な子供の音声データに対しては、データ数に適切である混合分布数の少ない参照モデルで厳密に学習して、多くの音声データの収録が可能な成人の音声データに対しては、混合分布数の多い参照モデルで厳密に学習して、そのあとで本発明により統合して標準モデルを作成すれば、極めて精度の高い標準モデルが作成できることが期待できる。

なお、標準モデルの混合分布数が 1 6の場合における認識実験（図 3 9 ) では、本発明による方法は、音声データで学習した標準モデルの認識率を超えていない。このことは、音声データを 1 6混合の参照モデルの形にしたときに音声データの情報が欠如したためだと考えられる。参照モデルを 6 4混合で作成して音声データの特徴を十分保持しておけばより高い精度の標準モデルが作成,できる。このことより、第 9の実施の形態では、参照モデルの混合分布数を 3 0 0と大きめに設定している。また、図 3 9及び図 6 4に示れる認識実験より、初期標準モデルが認識精度に与える影響が示されており、初期標準モデルの決定方法の重要性を物語っている（図 6 4において、成人女性の參照モデルを初期標準モデルとして利用した場合、成人男性の参照モデルを利用する場合より高い精度の標準モデルが作成できることが示されている）。

以上のように、クラス I D ，初期標準モデル ■ 参照モデル対応表に従つて、参照モデルと共通する性質の初期標準モデルを用いることで、精度の高い標準モデルを作成することができる。なお、このようなクラス I D ■ 初期標準モデル ■ 参照モデル対応表を用いた初期標準モデルの決定は、上記実施の形態 1 〜 1 0のいずれにおいても採用することができる。

また、上記実施の形態では、標準モデルの統計量を推定する際に、参照モデルに対する標準モデルの尤度として式 2 5が用いられたが、本発明はこのような尤度関数に限られず、例えば、以下の式 6 6に示される尤度関数を用いてもよい。

(式 6 6 )

ここで、（i)は、統合する各参照モデル i に対応した重要度を示す重み付けである。たとえば、音声認識における話者適用であれば、重要度は、利用者の音声と統合モデルを作成した音声の近さにより決定される。つまり、参照モデルが利用者の音声に近い（重要度が大きい）場合に、（i)は大きな値に設定される（大きく重み付けされる）。統合モデルと利用者の音声との近さは、利用者の音声を統合モデルに入力したときの尤度の大きさにより決定すればよい。これによつて、複数の参照モデルを統合して標準モデルを作成する際に、利用者の音声に近い参照モデルほど大きな重み付けで標準モデルの統計量に影響を与えることとなり、より利用者の特性を反映した精度の高い標準モデルが作成される。

また、各実施の形態における標準モデル構造決定部は、利用情報や仕様情報などの各種要因に基づいて標準モデルの構造を決定したが、本発明は、これらの要因だけに限られず、例えば、音声認識の場合であれば、認識の対象となる人の年齢、性別、声質の話者性、感情又は健康状態に基づく声の調子、発話速度、発話の丁寧さ、方言、背景雑音の種類、背景雑音の大きさ、音声と背景雑音との SN比、マイク特性及び認識語彙の複雑さなどの各種属性に依存して標準モデルの構造を決定してもよし、。具体的には、図 6 5 ( a ) 〜（ j ) に示されるように、音声認識の対象となる人の年齢が高いほど標準モデルを構成するガウス分布の数（混合数）を大きくしたり（図 6 5 ( a ) )、音声認識の対象となる人が男性の場合には女性の場合よりも大きな混合数にしたり（図 6 5 ( b ) )、音声認識の対象となる人の音質が「通常」よりも「ハスキー」、さらに「しわがれ声」となるほど混合数を大きくしたり（図 6 5 ( c ) )、音声認識の対象となる声の感情による調子が「通常」よりも「怒り声」、さらに「泣き笑いながらの声」となるほど混合数を大きくしたり（図 6 5 ( d ) )、音声認識の対象となる人の発話速度が速く Z遅くなるほど混合数を大きくしたり（図 6 5 ( e ) )、音声認識の対象となる人の発話の丁寧さが「朗読調」よりも「講演調」、さらに「会話調」となるほど混合数を大きくしたり（図 6 5 ( f ) )、音声認識の対象となる人の方言が「標準語」よりも「大阪弁」、さらに「鹿児島弁」となるほど混合数を大きくしたり（図 6 5 ( g ) )、音声認識における背景雑音が大きくなるほど混合数を小さくしたり（図 6 5 ( h ) )、音声認識に使用するマイクの性能が高くなるほど混合数を大きくしたり（図 6 5 ( i ) )、音声認識の対象となる語彙が増加するほど混合数を大きくしたり（図 6 5 ( j ) ) すればよい。これらの例の多くは、認識対象の音声のばらつきが大きいほど、混合数を大きくして精度を確保するという観点から混合数が決定される。産業上の利用の可能性

本発明に係る標準モデル作成装置は、確率モデル等を用いた音声、文字、画像等の対象物を認識する装置等として利用することができ、例えば、音声によって各種処理を実行するテレビ受信装置 ■ カーナビゲーシヨン装置、音声を他の言語に翻訳する翻訳装置、音声で操作するゲーム装置、音声による検索キーワードで情報を検索する検索装置、人物検出 ' 指紋認証 ■ 顏認証 · 虹彩認証等を行う認証装置、株価予測、天気予測などの予測を行う情報処理装置等として利用することができる。

Claims

請求の範囲

1 . 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置であって、

一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照モデルを記憶する参照モデル記憶手段と、

前記参照モデル記憶手段に格納された 1 以上の参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成手段とを備え、

前記標準モデル作成手段は、

作成する標準モデルの構造を決定する標準モデル構造決定部と、構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成部と、

初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定部とを有する

ことを特徴とする標準モデル作成装置。

2 . 前記標準モデル作成装置はさらに、

音声認識の対象となる属性に関する情報である利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から 1 以上の参照モデルを選択する参照モデル選択手段を備え、

前記標準モデル作成手段は、前記参照モデル選択手段が選択した参照モデルの統計量を用いて標準モデルを作成する

ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。

3 . 前記標準モデル作成装置はさらに、

前記利用情報を作成する利用情報作成手段を備え、

前記参照モデル選択手段は、作成された利用情報に基づいて、前記参照モデル記憶手段に記憶されている参照モデルの中から 1 以上の参照モデルを選択する

ことを特徴とする請求の範囲 2記載の標準モデル作成装置。

4 . 前記標準モデル作成装置には通信路を介して端末装置が接続され、前記標準モデル作成装置はさらに

前記端末装置から前記利用情報を受信する利用情報受信手段を備 7L 前記参照モデル選択手段は、受信された利用情報に基づいて、前記照モデル記憶手段に記憶されている参照モデルの中から 1 以上の参照デルを選択する

ことを特徴とする請求の範囲 2記載の標準モデル作成装置

5 . 前記標準モデル構造決定部は、作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方に基づいて、前記標準モデルの構造を決定する

ことを特徴とする請求の範囲 1 記載の音声認識用の標準モデル作成装

6 . 前記仕様情報とは、標準モデルを使用するアプリケーションプログラムの種類、及び、標準モデルを使用する機器の仕様の少なくとも一方の仕様を示す

ことを特徴とする請求の範囲 5記載の音声認識用の標準モデル作成装置

7 . 前記属性とは、年齢、性別、声質の話者性、感情又は健康状態に基づく声の調子、発話速度、発話の丁寧さ、方言、背景雑音の種類、背景雑音の大きさ、音声と背景雑音との SN比、マイク特性及び認識語彙の複雑さの少なくとも 1 つに関する.情報を含む

ことを特徴とする請求の範囲 5記載の音声認識用の標準モデル作成装置。 8 . 前記標準モデル作成装置はさらに、

標準モデルを使用するアプリケーションプログラムと標準モデルの仕様との対応を示すアプリケーション仕様対応データベースを前記仕様情報として保持する仕様情報保持手段を備え、

前記標準モデル構造決定部は、前記仕様情報保持手段に保持されたァプリケーシヨン仕様対応データベースから、起動されるアプリケーションプログラムに対応する仕様を読み出し、読み出した仕様に基づいて、前記標準モデルの構造を決定する

ことを特徴とする請求の範囲 5記載の標準モデル作成装置。 9 . 前記標準モデル作成装置はさらに、

前記仕様情報を作成する仕様情報作成手段を備え、

前記標準モデル構造決定部は、作成された仕様情報に基づいて、前記標準モデルの構造を決定する

ことを特徴とする請求の範囲 5記載の標準モデル作成装置。

1 0 .前記標準モデル作成装置には通信路を介して端末装置が接続され、前記標準モデル作成装置はさらに、

前記端末装置から前記仕様情報を受信する仕様情報受信手段を備え、前記標準モデル構造決定部は、受.信された仕様情報に基づいて、前記標準モデルの構造を決定する ·

1 1 . 前記参照モデル及び前記標準モデルは、 1 以上のガウス分布を用いて表現され、

前記標準モデル構造決定部は、前記標準モデルの構造として、少なくともガウス分布の混合数を決定する

1 2 . 前記標準モデル作成装置には、通信路を介して端末装置が接続され、

前記標準モデル作成装置はさらに、

前記標準モデル作成手段が作成した標準モデルを前記端末装置に送信する標準モデル送信手段を備える

ことを特徴とする請求の範囲 1 記載の標準モデル作成装置。 1 3 . 前記参照モデル及び前記標準モデルは、 1 以上のガウス分布を用いて表現され、

前記参照モデル記憶手段は、少なくともガウス分布の混合数が異なる 1 対の参照モデルを記憶し、

前記統計量推定部は、前記 1 対の参照モデルに対する前記標準モデルの確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を計算することを特徴とする請求の範囲 1 記載の標準モデル作成装置。

1 4 . 前記標準モデル作成手段はさに、

外部から参照モデルを取得して前記参照モデル記憶手段に格納すること、及び、新たな参照モデルを作成して前記参照モデル記憶手段に格納することの少なくとも一方を行う参照モデル準備手段を備える

1 5 . 前記参照モデル準備手段は、さらに、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行う

ことを特徴とする請求の範囲 1 4記載の標準モデル作成装置。

1 6 . 前記参照モデル準備手段は、認識の対象に関する情報である利用情報、及び作成する標準モデルの仕様に関する情報である仕様情報の少なくとも一方に基づいて、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行う

ことを特徴とする請求の範囲 1 5記載の標準モデル作成装置。

1 7 . 前記標準モデル作成装置は、さらに、作成する標準モデルの仕様に関する情報である仕様情報、及び、音声認識の対象となる属性に関する情報である利用情報の少なくとも一方と、前記参照モデル記憶手段に記憶された参照モデルとに基づいて、前記利用情報及び前記仕様情報の少なくとも一方と前記参照モデルとの類似度を示す類似度情報を作成する類似度情報作成手段を備え、

前記参照モデル準備手段は、前記類似度情報作成手段が作成した類似度情報に基づいて、前記参照モデル記憶手段が記憶する参照モデルの更新及び追加の少なくとも一方を行うか否かを決定することを特徴とする請求の範囲 1 5記載の標準モデル作成装置。

1 8 . 前記初期標準モデル作成部は、前記統計量推定部が標準モデルの統計量を計算するために用いる、 1 以上の前記参照モデルを用いて前記標準モデルを特定する統計量の初期値を決定する

1 9 . 前記初期標準モデル作成部は、標準モデルの種類を識別するクラス I Dに基づいて、前記初期値を決定する

2 0 . 前記初期標準モデル作成部は、前記参照モデルから前記クラス I Dを特定し、特定したクラス I Dに対応づけられた初期値を前記初期値と決定する

ことを特徴とする請求の範囲 1 9記載の標準モデル作成装置。

2 1 . 前記初期標準モデル作成部は、前記クラス I Dと前記初期値と前記参照モデルとの対応を示す対応表を保持し、前記対応表に従って、前記初期値を決定する

ことを特徴とする請求の範囲 2 0記載の標準モデル作成装置。

2 2 . 前記初期標準モデル作成部は、前記クラス I Dが対応づけられた初期値であるクラス I D付き初期標準モデル、又は、前記クラス I りが対応づけられた参照モデルであるクラス I D付き参照モデルを作成又は外部から取得することによって、前記対応表を生成することを特徴とする請求の範囲 2 1 記載の標準モデル作成装置。

2 3 . 前記参照モデル記憶手段は、複数の参照モデルを記憶し、前記統計量推定部は、前記参照モデル記憶手段に記憶された複数の参照モデルに対して重み付けられた前記確率又は尤度を最大化又は極大化するように前記統計量を計算する

ことを特徴とする請求の範囲 1記載の標準モデル作成装置。

2 4 . 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する方法であって、

一定の属性を有する音声の特徴を示す確率モデルである 1 以上の参照モデルを記憶する参照モデル記憶手段から 1 以上の参照モデルを読み出す参照モデル読み出しステップと、

読み出された参照モデルの統計量を用いて前記標準モデルの統計量を計算することによって標準モデルを作成する標準モデル作成ステップとを含み、

前記標準モデル作成ステツプは、

作成する標準モデルの構造を決定する標準モデル構造決定サブステツプと、

構造が決定された標準モデルを特定する統計量の初期値を決定する初期標準モデル作成サブステップと、

初期値が決定された標準モデルの前記参照モデルに対する確率又は尤度を最大化又は極大化するように前記標準モデルの統計量を推定して計算する統計量推定サブステップとを有する

ことを特徴とする標準モデル作成方法。

2 5 . 音声の特徴を示す周波数のパラメータを出力確率で表現する確率モデルを用いて、特定の属性を有する音声の特徴を示す音声認識用の標準モデルを作成する装置のためのプログラムであって、

前記標準モデル作成ステツプは、

ことを特徴とするプログラム。