JPWO2007138875A1

JPWO2007138875A1 - 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム

Info

Publication number: JPWO2007138875A1
Application number: JP2008517834A
Authority: JP
Inventors: 三木　清一; 清一三木
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2006-05-31
Filing date: 2007-05-17
Publication date: 2009-10-01
Also published as: CN101454826A; US20090106023A1; WO2007138875A1

Abstract

学習テキストに出現しなかった単語を追加する際に、追加する単語に応じて単語クラス別単語生起モデル学習方法を選択して学習テキストに出現しなかった単語を認識できる単語辞書および言語モデルを作成できる音声認識用単語辞書・言語モデル作成システムを提供する。音声認識用単語辞書・言語モデル作成システム１００は、学習テキスト１０１に出現しない単語である追加単語の単語クラス毎に単語クラス別学習方法知識記憶部１０９から推定方法情報を選択し、選択した推定方法情報に従い追加単語の単語生起モデルである追加単語生起モデルをクラス毎に作成する言語モデル推定手段１１１と、追加単語を単語辞書１０５に、追加単語生起モデルを単語クラス別単語生起モデルデータベース１０７にそれぞれ追加するデータベース混合手段１１２とを備えている。

Description

本発明は音声認識用単語辞書・言語モデル作成システム、音声認識用単語辞書・言語モデル作成方法および音声認識用単語辞書・言語モデル作成用プログラムに関し、特に統計的言語モデルを用いる音声認識装置において、言語モデル学習テキストに出現しなかった単語を精度よく単語辞書及び言語モデルに追加することができる音声認識用単語辞書・言語モデル作成システム、音声認識用単語辞書・言語モデル作成方法および音声認識用単語辞書・言語モデル作成用プログラムに関する。

関連する言語モデル学習方法の一例が、特許文献１に記載されている。図９に示すように、この関連する言語モデル学習装置５００は、言語モデルを作成する部分に注目すると、単語辞書５１２と、クラス連鎖モデルメモリ５１３と、クラス内単語生起モデルメモリ５１４と、クラス化テキスト変換手段５２１と、クラス連鎖モデル推定手段５２２と、クラス化適用規則抽出手段５２３と、クラス別単語生起モデル推定手段５２４と、クラス連鎖モデル学習用テキストデータ５３０と、クラス内単語生起モデル学習用テキストデータ５３１と、クラス定義記述５３２と、クラス別学習方法知識５３３とから構成されている。

このような構成を有する前記言語モデル学習装置５００はつぎのように動作する。
すなわち、この関連する装置では、言語モデルはクラス連鎖モデルとクラス内単語生起モデルから構成され、それぞれ、言語モデル学習用テキストデータをもとに、別々に学習される。クラス連鎖モデルは単語を抽象化したクラスがどのように連鎖するかを示すモデルとなっている。クラス内単語生起モデルは、前記クラスからどのように単語が生起するかを示すモデルとなっている。

クラス連鎖モデルを得る際、クラス連鎖モデル学習用テキストデータ５３０に対し、クラス化テキスト変換手段５２１がクラス定義記述５３２を参照してクラス列に変換する。クラス連鎖モデル推定手段５２２は前記クラス列を用いてクラス連鎖モデルを推定し、クラス連鎖モデルメモリ５１３に格納する。

一方、クラス内単語生起モデルについて、クラス内単語生起モデル学習用テキストデータ５３１に対してクラス化規則抽出手段５２３がクラス定義記述５３２を参照してクラスと単語の対応付けを行う。クラス別単語生起モデル推定手段５２４は、クラス別学習方法知識５３３を参照して各クラス毎に学習方法を決定し、必要に応じてクラスと単語の対応付けを参照してクラス内単語生起モデルを推定し、クラス内単語生起モデルメモリ５１４に格納する。
クラスに応じてクラス別学習方法知識５３３に事前に用意した学習方法を使い分けることで、高精度な言語モデルを得ることができる。

特開２００３−２６３１８７号公報

第１の問題点は、関連する言語モデル学習方法では、学習テキストに出現しなかった単語を適切に単語辞書および言語モデルに反映できないということである。
その理由は、関連する言語モデル学習方法では学習テキストに出現しなかった単語を単語辞書や言語モデルに適切に反映できる手段を持たないためである。

第２の問題点は、関連する言語モデル学習方法では必ずしもクラス毎に最適なクラス別学習方法を用いることができないということである。
その理由は、関連する言語モデル学習方法ではクラス別学習方法を事前に決定しておく必要があり、実際にそれぞれのクラスについて観測されたデータに応じて学習方法を変更できないためである。

本発明の目的は、音声認識用単語辞書および言語モデルを作成する際に、学習テキストに出現しなかった単語を追加する際に、追加する単語に応じて単語クラス別単語生起モデル学習方法を選択して学習テキストに出現しなかった単語を認識できる単語辞書および言語モデルを作成できる音声認識用単語辞書・言語モデル作成システムを提供することにある。
本発明の他の目的は、各クラスに属する単語の学習テキストでの分布に応じて適切な単語クラス別単語生起モデル学習方法を自動的に選択して言語モデルを作成できる音声認識用単語辞書・言語モデル作成システムを提供することにある。

本発明の第１の音声認識用単語辞書・言語モデル作成システムは、学習テキストに出現しない単語である追加単語の単語クラス毎に単語クラス別学習方法知識記憶部から推定方法情報を選択し、選択した推定方法情報に従い追加単語の単語生起モデルである追加単語生起モデルをクラス毎に作成する言語モデル推定手段と、追加単語を単語辞書に、追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加するデータベース混合手段とを備えている。

上記音声認識用単語辞書・言語モデル作成システムによれば、言語モデル推定手段は、追加単語の単語クラス毎に適切な言語モデル推定方法を単語クラス別学習方法記憶部から選択し、それに基づいて追加単語の言語モデルを作成する。データベース混合手段は、追加単語と追加単語の言語モデルを単語辞書と単語クラス別単語生起モデルデータベースにそれぞれ追加する。
そのため、学習テキストに出現しない追加単語をその単語のクラスに応じた適切な学習方法により単語辞書と言語モデルに追加することができる。

本発明の第２の音声認識用単語辞書・言語モデル作成システムは、学習方法知識データベースに含まれる分布形情報の中から学習テキストに含まれる単語のクラスごとの分布形に最も合致する分布形情報を選択し、選択した分布形情報に従って、学習テキストに出現しない単語である追加単語の生起モデルである追加単語生起モデルをクラス毎に作成する言語モデル推定手段と、追加単語を単語辞書に、追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加するデータベース混合手段とを備えている。

上記第２の音声認識用単語辞書・言語モデル作成システムによれば、言語モデル推定手段は、学習テキストにおける単語の分布に基づいて、追加単語の言語モデルを推定するための分布形を選択する。
そのため、各クラスに属する単語の学習テキストでの分布に応じて適切な分布形を自動的に選択して言語モデルを作成することができる。

本発明の、音声認識用単語辞書・言語モデル作成方法は、単語生起モデルの推定方法を記述する推定方法情報を単語クラス毎に予め記憶した単語クラス別学習方法知識記憶部から、学習テキストに出現しない単語である追加単語の単語クラス毎に推定方法情報を選択し、選択した推定方法情報に従い追加単語の単語生起モデルである追加単語生起モデルをクラス毎に作成し、追加単語を単語辞書に、追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加することにより音声認識用単語辞書と言語モデルを作成する。

上記音声認識用単語辞書・言語モデル作成方法によれば、追加単語の単語クラス毎に適切な言語モデル推定方法を単語クラス別学習方法記憶部から選択し、それに基づいて追加単語の言語モデルを作成し、追加単語と追加単語の言語モデルを単語辞書と単語クラス別単語生起モデルデータベースにそれぞれ追加する。
そのため、学習テキストに出現しない追加単語をその単語のクラスに応じた適切な学習方法により単語辞書と言語モデルに追加することができる。

本発明の第２の音声認識用単語辞書・言語モデル作成方法は、単語の生起確率の分布形を示す分布形情報を予め複数格納した学習方法知識データベースから、学習テキストに含まれる単語のクラスごとの分布形に最も合致する分布形情報を選択し、選択した分布形情報に従って、学習テキストに出現しない単語である追加単語の生起モデルである追加単語生起モデルをクラス毎に作成し、追加単語を単語辞書に、追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加することにより音声認識用単語辞書と言語モデルを作成する。

上記第２の音声認識用単語辞書・言語モデル作成方法によれば、言語モデル推定手段は、学習テキストにおける単語の分布に基づいて、追加単語の言語モデルを推定するための分布形を選択する。
そのため、各クラスに属する単語の学習テキストでの分布に応じて適切な分布形を自動的に選択して言語モデルを作成することができる。

本発明の音声認識システムは、上記第１または第２の音声認識用単語辞書・言語モデル作成方法により作成された音声認識用単語辞書と単語クラス別単語生起モデルデータベース用いて音声認識を行う。

上記音声認識システムによれば、単語辞書と単語クラス別単語生起モデルデータベースには、クラスに応じた適切な学習方法により学習された追加単語とその生起モデルが含まれている。
そのため、学習テキストだけから生成した単語辞書と言語モデルを使用する場合に比べ、音声認識の精度を高めることができる。

本発明の、音声認識用単語辞書・言語モデル作成プログラムは、コンピュータに、単語生起モデルの推定方法を記述する推定方法情報を単語クラス毎に予め記憶した単語クラス別学習方法知識記憶部から、学習テキストに出現しない単語である追加単語の単語クラス毎に推定方法情報を選択する処理と、選択した推定方法情報に従い追加単語の単語生起モデルである追加単語生起モデルをクラス毎に作成する処理と、追加単語を単語辞書に、追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加する処理とを実行させる。

上記音声認識用単語辞書・言語モデル作成プログラムによれば、追加単語の単語クラス毎に適切な言語モデル推定方法を単語クラス別学習方法記憶部から選択し、それに基づいて追加単語の言語モデルを作成し、追加単語と追加単語の言語モデルを単語辞書と単語クラス別単語生起モデルデータベースにそれぞれ追加する。
そのため、学習テキストに出現しない追加単語をその単語のクラスに応じた適切な学習方法により単語辞書と言語モデルに追加することができる。

本発明の第２の音声認識用単語辞書・言語モデル作成プログラムは、コンピュータに、単語の生起確率の分布形を示す分布形情報を予め複数格納した学習方法知識データベースから、学習テキストに含まれる単語のクラスごとの分布形に最も合致する分布形情報を選択する処理と、選択した分布形情報に従って、学習テキストに出現しない単語である追加単語の生起モデルである追加単語生起モデルをクラス毎に作成する処理と、追加単語を単語辞書に、追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加する処理とを実行させる。

上記第２の音声認識用単語辞書・言語モデル作成プログラムによれば、言語モデル推定手段は、学習テキストにおける単語の分布に基づいて、追加単語の言語モデルを推定するための分布形を選択する。
そのため、各クラスに属する単語の学習テキストでの分布に応じて適切な分布形を自動的に選択して言語モデルを作成することができる。

本発明によれば、追加単語の単語クラス毎に適切な言語モデル推定方法を単語クラス別学習方法記憶部から選択し、それに基づいて追加単語の言語モデルを作成し、追加単語と追加単語の言語モデルを単語辞書と単語クラス別単語生起モデルデータベースにそれぞれ追加する。
そのため、学習テキストに出現しない追加単語をその単語のクラスに応じた適切な学習方法により単語辞書と言語モデルに追加することができる。

以下、図を参照しながら本発明の一実施形態である言語モデル作成システム１００の構成と動作について説明する。
図１を参照すると、言語モデル作成システム１００（音声認識用辞書・言語モデル作成システムの一例）は、例えばパーソナルコンピュータから成り、単語クラス連鎖モデル推定手段１０２と、単語クラス別単語生起モデル推定手段１０３と、追加単語クラス別単語生起モデル推定手段１１１（言語モデル推定手段の一例）と、追加単語クラス別単語生起モデルデータベース混合手段１１２（データベース混合手段の一例）を備えている。

言語モデル作成システム１００は、例えばハードディスク装置等の記憶装置を備え、この記憶装置には、学習テキスト１０１と、単語クラス定義記述１０４と、単語クラス連鎖モデルデータベース１０６と、単語クラス別単語生起モデルデータベース１０７と、単語辞書１０５と、追加単語リスト１０８と、単語クラス別学習方法知識１０９（単語クラス別学習方法知識記憶部の一例）と、追加単語クラス定義記述１１０とが記憶されている。単語クラス連鎖モデルデータベース１０６と単語クラス別単語生起モデルデータベース１０７とにより、言語モデル１１３が構成されている。

これらの手段はそれぞれ概略つぎのように動作する。
学習テキスト１０１は、事前に用意されるテキストデータである。
追加単語リスト１０８は、事前に用意される単語リストである。
単語辞書１０５は、学習テキスト１０１及び追加単語リスト１０８から得られる、音声認識対象となる単語のリストである。

単語クラス定義記述１０４は、事前に用意されるデータで、テキストに現れる単語についてその単語が属する単語クラスが記述される。例えば名詞や固有名詞、間投詞といった辞書（国語辞典等の一般的用途のもの）に記載されるような品詞を単語クラスとして用いることもできるし、形態素解析ツールを用いてテキストに自動的に付与された品詞を単語クラスとして用いることもできるし、単語の出現確率に基づくエントロピーを最小にする等の基準に基づく自動クラスタリング等の統計的手法を用いてデータから自動的に得られた単語クラスを用いてもよい。

追加単語クラス定義記述１１０は事前に用意されるデータで、追加単語クラス定義記述１１０には、追加単語リスト１０８に現れる単語についてその単語が属する単語クラスが記述される。前記単語クラスとしては、単語クラス定義記述１０４と同様に品詞や統計的手法に基づく単語クラスを用いることができる。
単語クラス連鎖モデル推定手段１０２は、学習テキスト１０１を単語クラス定義記述１０４に従いクラス列に変換し、単語クラスの連鎖確率を推定する。単語クラス連鎖モデルとしては例えばＮ−ｇｒａｍモデルを用いることができる。確率の推定方法としては例えば最尤推定を用いてもよい。その場合、次の数式１のように推定される（Ｎ−ｇｒａｍのＮ＝２の場合）。

ここで、ｃは単語クラス、Ｃｏｕｎｔは括弧内の事象が観測された回数を示す。

単語クラス連鎖モデルデータベース１０６は、単語クラス連鎖モデル推定手段１０２により得られた具体的な単語クラス連鎖モデルのデータベースを格納する。
単語クラス別単語生起モデル推定手段１０３は、学習テキストを単語クラスと、前記単語クラスに属する単語とに変換し、単語クラス別学習方法知識１０９に従って各クラスに応じた推定方法で単語クラス別単語生起モデルデータベースを推定する。例えば学習テキストを元に最尤推定する場合は、次の数式２を用いることができる。

追加単語クラス別単語生起モデル推定手段１１１は、追加単語リスト１０８に含まれる単語それぞれについて、追加単語クラス定義記述１１０に従い単語クラスを決定し、単語クラス別学習方法知識１０９に従って各クラスに応じた推定方法で追加単語の単語クラス別単語生起モデルデータベース（追加単語生起モデルの一例）を推定する。例えば追加単語リストに含まれる単語の分布が一様分布であれば、前記推定方法には、次の数式３を用いることができる。

追加単語クラス別単語生起モデルデータベース混合手段１１２は学習テキストに出現した単語に関する単語クラス別単語生起モデルデータベースと追加単語に関する単語クラス別単語生起モデルデータベースを混合して新たな単語クラス別単語生起モデルデータベースを生成し、単語クラス別単語生起モデルデータベース１０７に格納する。混合の仕方としては、例えば追加単語に一様分布１／Ｎを与え、学習テキストに出現した単語と混合する場合は、次の数式４を用いることで混合することができる。

ここで、右辺のＰ（ｗ｜ｃ）は追加単語wが学習テキストにも出現した場合の、学習テキストに出現した単語に関する単語クラス別単語生起モデルデータベースから得られる確率である。

追加単語に事前分布Ｃｗが与えられている場合には、例えば次の数式５を用いることで混合できる。

上記の各手段は、言語モデル作成システムのＣＰＵ(Central Processing Unit)がコンピュータプルグラムを実行し、言語モデル作成システム１００のハードウェアを制御することにより実現される。

次に、図２ないし図５のフローチャートを参照して言語モデル作成システム１００の全体の動作について詳細に説明する。
まず、学習テキスト１０１に基づく単語辞書１０５および言語モデル１１３の作成方法を図２ないし図４で説明する。
図２は、単語クラス連鎖モデルデータベース１０６の作成方法を説明するフローチャートである。
単語クラス連鎖モデル推定手段１０２は、まず、学習テキスト１０５を単語列に変換する（図２のステップＡ１）。次に、単語列を単語クラス定義記述１０４に従いクラス列に変換する（ステップＡ２）。さらに、クラス列から例えばＮ−ｇｒａｍの頻度を元に最尤推定を用いる等して学習辞書に含まれる単語について単語クラス連鎖モデルデータベースを推定する（ステップＡ３）。

図３は、単語辞書１０５の作成方法を説明するフローチャートである。
まず、学習テキスト１０１を単語列に変換する（図３のステップＢ１）。次に、単語列から異なり単語を抽出（同じ単語を抜き出さない）する（図３のステップＢ２）。さらに、異なり単語を列挙することで単語辞書１０５を構成する（図３のステップＢ３）。

図４は、学習テキスト１０１に出現する単語について単語クラス別単語生起モデルデータベースを作成する方法を説明するフローチャートである。
単語クラス別単語生起モデル推定手段１０３は、まず、学習テキスト１０１を単語列に変換する（図４のステップＣ１）。次に、単語列を単語クラス定義記述１１０に従いクラス列に変換する（図４のステップＣ２）。さらに、学習テキスト１０１に出現したクラスについてそれぞれ、単語クラス別学習方法知識１０９から単語クラス別単語生起モデル推定方法を選択する（図４のステップＣ３）。さらに、各単語について、選択された単語クラス別単語生起モデル推定方法に基づき単語クラス別単語生起モデルデータベースを推定する（図４のステップＣ４）。

次に、追加単語リストに基づく単語辞書１０５および言語モデル１１３の作成方法及び学習テキスト１０１に基づく言語モデルとの混合について図５、６で説明する。
図５は、追加単語を含む単語辞書１０５の作成方法を示すフローチャートである。
追加単語クラス別単語生起モデル推定手段１１１は、追加単語リスト１０６に含まれる追加単語のうち、学習テキスト１０１から得られた単語辞書１０５に含まれない単語を抽出する（図５のステップＤ１）。抽出された単語を単語辞書１０５に追加登録する（図５のステップＤ２）。

図６は、追加単語に関する言語モデルの作成方法を示すフローチャートである。
追加単語クラス別単語生起モデル推定手段１１１は、まず、追加単語リストを追加単語クラス定義記述１１０に従いクラスリストに変換する（図６のステップＥ１）。次に、単語クラス別学習方法知識１０９から各クラスに適した単語クラス別単語生起モデル推定方法を選択する（図６のステップＥ２）。さらに、各単語について、選択された単語クラス別単語生起モデル推定方法に基づき追加単語に関する単語クラス別単語生起モデルデータベース（追加単語生起モデル）を推定する（図６のステップＥ３）。
追加単語クラス別単語生起モデルデータベース混合手段１１２は、各単語について、学習テキストに出現した単語に関する単語クラス別単語生起モデルデータベースと追加単語に関する単語クラス別単語生起モデルを混合する（図６のステップＥ４）。

ここまで、追加単語リスト１０８が一つの場合について説明してきたが、追加単語リスト１０８が複数ある場合も同様である。ただし、追加単語リストが複数の場合、逐次的に追加する場合と一括して追加する場合の２種類の場合およびその組み合わせが考えられる。前者は例えば単語の追加が時間順で、一方は古く、他方は新しい場合等に生じると考えられる。後者は例えば複数の分野から単語を追加する場合等に生じると考えられる。これらは、既存の単語辞書および言語モデルとして一部の追加単語を含むとする（逐次的な追加）か含まないとする（一括して追加）かどちらかというだけの違いである。どちらの場合も本実施の形態で扱える。

前者の場合、以前の追加単語を含む言語モデルと、新たに追加された単語に関する言語モデルが混合されることとなる。この場合、新たな追加単語のうち、以前の追加単語にも含まれていた単語については他の追加単語に比べて強調されて追加されることとなり、同じ単語を繰り返し追加することによる強調の効果がある。しかしながら、逆にクラス毎の分布そのものの反映は弱められる。

後者の場合、学習テキストのみから学習された言語モデルに対し、以前の追加単語も含めて全ての追加単語が追加されることとなる。この場合は逐次的な追加と逆に、これまで追加された履歴を削除することにより、クラスの持つ性質をダイレクトに追加単語に反映できる。しかしながら単語追加の履歴が失われる。

次に、言語モデル作成システム１００の効果について説明する。
本実施の形態では、追加単語リスト１０８を持ち、それらについてクラス毎に適切な単語クラス別単語生起モデル推定方法を選択して単語クラス別単語生起モデルデータベースを推定し、学習テキスト１０１に出現した単語に関する単語クラス別単語生起モデルと混合し、また追加単語リスト１０８を単語辞書１０５に追加するというように構成されているため、学習テキスト１０１に出現しなかった単語について適切な言語モデル１１３を作成でき、追加単語を含む単語辞書１０５を作成することができる。

次に、本発明の第２の実施形態である言語モデル作成システム２００について図面を参照して詳細に説明する。言語モデル作成システム２００は、図１の言語モデル作成システム１００と多くの部分を共通とするので、共通する部分には図面に図１と同一の符号を付して説明を省略する。
図７を参照すると、図１の言語モデル作成システム１００と比べ単語クラス別学習方法知識１０９がなくなり、単語クラス別単語生起分布計算手段２０１と、単語クラス別学習方法知識選択手段２０２と、学習方法知識データベース２０３が追加されている。

これらの手段はそれぞれ概略つぎのように動作する。
単語クラス別単語生起分布計算手段２０１は、学習テキストをクラスと、それに属する単語に変換されたものから、所定の方法に従って単語クラス別単語生起分布を計算する。例えば、テキスト中の頻度に基づいて最尤推定で単語クラス別単語生起分布を計算する。
学習方法知識データベース２０３には、所定の分布形が格納されている。分布形としては例えば一様分布や指数分布、所定の事前分布などがある。
単語クラス別学習方法知識選択手段２０２は、学習テキストから得られた各クラスの単語クラス別単語生起分布と、学習方法知識データベース２０３に記憶された所定の分布形を比較し、各クラス毎に適切な分布形を選択する。例えば固有名詞のように一様分布に近い分布形が学習テキストから得られる場合には固有名詞クラスに対して自動的に一様分布が選ばれる。

第１の実施の形態と異なり、単語クラス別単語生起モデル推定手段１０３と追加単語クラス別単語生起モデル推定手段１１１は単語クラス別学習方法知識選択手段２０２が決定した分布形を単語クラス別単語生起モデル推定方法として用いる。

次に、言語モデル作成システム２００の効果について説明する。
言語モデル作成システム２００では、学習テキスト１０１から計算された各クラスの単語クラス別単語生起分布に基づいて、学習方法知識データベース２０３に記憶された所定の分布形の中から各クラスの単語クラス別単語生起モデル推定方法を選択し、また追加単語リスト１０８を単語辞書に追加するというように構成されているため、学習テキスト１０１中の出現に応じた適切な単語クラス別単語生起モデル推定方法を選択でき、それを追加単語にも適用した言語モデルを１１３作成でき、また追加単語を含む単語辞書１０５を作成することができる。

次に、本発明の第３の実施形態である、音声認識システム３００について説明する。
図８は、音声認識システム３００の機能ブロック図である。
音声認識システム３００は、例えばマイクロフォンから成り利用者が発生した音声を入力する入力部３０１と、入力部３０１から入力された音声を認識し文字列等の認識結果に変換する音声認識部３０２と、例えばディスプレイ装置からなり認識結果を出力する出力部３０３を備えている。
音声認識部３０２は、単語クラス別連鎖モデルデータベース１０６および単語クラス別単語生起モデルデータベース１０７から成る言語モデル１１３と単語辞書１０５を参照して音声認識を行う。
言語モデル１１３と単語辞書１０５は、図１の言語モデル作成システム１００または図７の言語モデル作成システム２００により作成されたものである。

次に、本発明の他の実施形態について逐次説明する。

上述した音声認識用単語辞書・言語モデル作成システムにおいて、推定方法は、単語の生起確率の分布を一様分布とした推定方法を含むようにしてもよい。
このようにすれば、地名や人名のように一様分布となることが知られている単語クラスに対して一様分布による推定方法を適用して精度のよい生起モデルを生成することができる。

上述した音声認識用単語辞書・言語モデル作成システムにおいて、推定方法は、単語の生起確率の分布を所定の事前分布とした推定方法を含むようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成システムにおいて、分布形情報は、一様分布を含むようにしてもよい。
このようにすれば、地名や人名のように一様分布となることが知られている単語クラスに対して一様分布による推定方法を適用して精度のよい生起モデルを生成することができる。

上述した音声認識用単語辞書・言語モデル作成システムにおいて、分布形情報は、所定の事前分布を含むようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成システムにおいて、単語クラスとして品詞を用いるようにしてもよい。
このようにすれば、単語を地名や人名といった内容情報、動詞や形容詞といった文法情報でクラス分けすることとなり、これらはそれぞれに固有の分布を持つと期待できる。また、一般の国語辞書等の既存リソースを用いてクラス分けを低コストに行うことができる。

上述した音声認識用単語辞書・言語モデル作成システムにおいて、単語クラスとして単語を形態素解析して得られる品詞を用いるようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成システムにおいて、単語クラスとして単語の自動クラスタリングにより得られるクラスを用いるようにしてもよい。
このようにすれば、品詞を用いる場合に比べて、実際のテキストでの出現状況に内在する単語の特徴をよく反映することができる。

上述した音声認識用単語辞書・言語モデル作成方法において、推定方法は、単語の生起確率の分布を一様分布とした推定方法を含むようにしてもよい。
このようにすれば、地名や人名のように一様分布となることが知られている単語クラスに対して一様分布による推定方法を適用して精度のよい生起モデルを生成することができる。

上述した音声認識用単語辞書・言語モデル作成方法において、推定方法は、単語の生起確率の分布を所定の事前分布とした推定方法を含むようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成方法において、分布形情報は、一様分布を含むようにしてもよい。
このようにすれば、地名や人名のように一様分布となることが知られている単語クラスに対して一様分布による推定方法を適用して精度のよい生起モデルを生成することができる。

上述した音声認識用単語辞書・言語モデル作成方法において、分布形情報は、所定の事前分布を含むようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成方法において、単語クラスとして品詞を用いるようにしてもよい。
このようにすれば、単語を地名や人名といった内容情報、動詞や形容詞といった文法情報でクラス分けすることとなり、これらはそれぞれに固有の分布を持つと期待できる。また、一般の国語辞書等の既存リソースを用いてクラス分けを低コストに行うことができる。

上述した音声認識用単語辞書・言語モデル作成方法において、単語クラスとして単語を形態素解析して得られる品詞を用いるようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成方法において、単語クラスとして単語の自動クラスタリングにより得られるクラスを用いるようにしてもよい。
このようにすれば、品詞を用いる場合に比べて、実際のテキストでの出現状況に内在する単語の特徴をよく反映することができる。

上述した音声認識用単語辞書・言語モデル作成プログラムにおいて、推定方法は、単語の生起確率の分布を一様分布とした推定方法を含むようにしてもよい。
このようにすれば、地名や人名のように一様分布となることが知られている単語クラスに対して一様分布による推定方法を適用して精度のよい生起モデルを生成することができる。

上述した音声認識用単語辞書・言語モデル作成プログラムにおいて、推定方法は、単語の生起確率の分布を所定の事前分布とした推定方法を含むようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成プログラムにおいて、分布形情報は、一様分布を含むようにしてもよい。
このようにすれば、地名や人名のように一様分布となることが知られている単語クラスに対して一様分布による推定方法を適用して精度のよい生起モデルを生成することができる。

上述した音声認識用単語辞書・言語モデル作成プログラムにおいて、分布形情報は、所定の事前分布を含むようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成プログラムにおいて、単語クラスとして品詞を用いるようにしてもよい。
このようにすれば、単語を地名や人名といった内容情報、動詞や形容詞といった文法情報でクラス分けすることとなり、これらはそれぞれに固有の分布を持つと期待できる。また、一般の国語辞書等の既存リソースを用いてクラス分けを低コストに行うことができる。

上述した音声認識用単語辞書・言語モデル作成プログラムにおいて、単語クラスとして単語を形態素解析して得られる品詞を用いるようにしてもよい。

上述した音声認識用単語辞書・言語モデル作成プログラムにおいて、単語クラスとして単語の自動クラスタリングにより得られるクラスを用いるようにしてもよい。
このようにすれば、品詞を用いる場合に比べて、実際のテキストでの出現状況に内在する単語の特徴をよく反映することができる。

本発明を実施形態に基づいて説明したが、本発明は上述した実施形態に限られるものではない。請求の範囲に記載された内容の趣旨に沿うものであれば、種々変更することはできるものである。

本発明の第１の実施形態である言語モデル作成システムのブロック図である。言語モデル作成システムの単語クラス連鎖モデルデータベースの作成動作を示すフローチャートである。言語モデル作成システムの単語辞書の作成動作を示すフローチャートである。言語モデル作成システムの単語クラス別単語生起モデルデータベースの作成動作を示すフローチャートである。言語モデル作成システムの追加単語を含む単語辞書の作成動作を示すフローチャートである。言語モデル作成システムの追加単語に関する言語モデルの作成動作を示すフローチャートである。本発明の第２の実施形態である言語モデル作成システムのブロック図である。本発明の第３の実施形態である音声認識システムのブロック図である。関連する言語モデル作成方法を説明する図である。

符号の説明

１００言語モデル作成システム
１０１学習テキスト
１０２単語クラス連鎖モデル推定手段
１０３単語クラス別単語生起モデル推定手段
１０４単語クラス定義記述
１０５単語辞書
１０６単語クラス連鎖モデルデータベース
１０７単語クラス別単語生起モデルデータベース
１０８追加単語リスト
１０９単語クラス別学習方法知識
１１０追加単語クラス定義記述
１１１追加単語クラス別単語生起モデル推定手段
１１２追加単語クラス別単語生起モデルデータベース混合手段
２００言語モデル作成システム
２０１単語クラス別単語生起分布計算手段
２０２単語クラス別学習方法知識選択手段
２０３学習方法知識データベース
３００音声認識システム

Claims

音声認識用の単語辞書と単語クラス別単語生起モデルデータベースと単語生起モデルの推定方法を記述する推定方法情報を単語クラス毎に予め記憶した単語クラス別学習方法知識記憶部とを備えた音声認識用単語辞書・言語モデル作成システムであって、
学習テキストに出現しない単語である追加単語の前記単語クラス毎に前記単語クラス別学習方法知識記憶部から前記推定方法情報を選択し、選択した推定方法情報に従い前記追加単語の単語生起モデルである追加単語生起モデルを前記クラス毎に作成する言語モデル推定手段と、
前記追加単語を前記単語辞書に、前記追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加するデータベース混合手段とを備えたことを特徴とする音声認識用単語辞書・言語モデル作成システム。
前記推定方法は、単語の生起確率の分布を一様分布とした推定方法を含むことを特徴とする請求項１に記載の音声認識用単語辞書・言語モデル作成システム。
前記推定方法は、単語の生起確率の分布を所定の事前分布とした推定方法を含むことを特徴とする請求項１または請求項２に記載の音声認識用単語辞書・言語モデル作成システム。
音声認識用の単語辞書と単語クラス別単語生起モデルデータベースと単語の生起確率の分布形を示す分布形情報を予め複数格納した学習方法知識データベースとを備えた音声認識用単語辞書・言語モデル作成システムであって、
前記学習方法知識データベースに含まれる前記分布形情報の中から学習テキストに含まれる単語の前記クラスごとの分布形に最も合致する前記分布形情報を選択し、選択した分布形情報に従って、学習テキストに出現しない単語である追加単語の生起モデルである追加単語生起モデルを前記クラス毎に作成する言語モデル推定手段と、
前記追加単語を前記単語辞書に、前記追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加するデータベース混合手段とを備えたことを特徴とする音声認識用単語辞書・言語モデル作成システム。
前記分布形情報は、一様分布を含むことを特徴とする請求項４に記載の音声認識用単語辞書・言語モデル作成システム。
前記分布形情報は、所定の事前分布を含むことを特徴とする請求項４または請求項５に記載の音声認識用単語辞書・言語モデル作成システム。
前記単語クラスとして品詞を用いることを特徴とする請求項１または請求項４に記載の音声認識用単語辞書・言語モデル作成システム。
前記単語クラスとして単語を形態素解析して得られる品詞を用いることを特徴とする請求項１または請求項４に記載の音声認識用単語辞書・言語モデル作成システム。
前記単語クラスとして単語の自動クラスタリングにより得られるクラスを用いることを特徴とする請求項１または請求項４に記載の音声認識用単語辞書・言語モデル作成システム。
単語生起モデルの推定方法を記述する推定方法情報を単語クラス毎に予め記憶した単語クラス別学習方法知識記憶部から、学習テキストに出現しない単語である追加単語の前記単語クラス毎に前記推定方法情報を選択し、
選択した推定方法情報に従い前記追加単語の単語生起モデルである追加単語生起モデルを前記クラス毎に作成し、
前記追加単語を前記単語辞書に、前記追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加することを特徴とする音声認識用単語辞書・言語モデル作成方法。
前記推定方法は、単語の生起確率の分布を一様分布とした推定方法を含むことを特徴とする請求項１０に記載の音声認識用単語辞書・言語モデル作成方法。
前記推定方法は、単語の生起確率の分布を所定の事前分布とした推定方法を含むことを特徴とする請求項１０または請求項１１に記載の音声認識用単語辞書・言語モデル作成方法。
単語の生起確率の分布形を示す分布形情報を予め複数格納した学習方法知識データベースから、学習テキストに含まれる単語の前記クラスごとの分布形に最も合致する前記分布形情報を選択し、
選択した分布形情報に従って、学習テキストに出現しない単語である追加単語の生起モデルである追加単語生起モデルを前記クラス毎に作成し、
前記追加単語を前記単語辞書に、前記追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加することを特徴とする音声認識用単語辞書・言語モデル作成方法。
前記分布形情報は、一様分布を含むことを特徴とする請求項１３に記載の音声認識用単語辞書・言語モデル作成方法。
前記分布形情報は、所定の事前分布を含むことを特徴とする請求項１３または請求項１４に記載の音声認識用単語辞書・言語モデル作成方法。
前記単語クラスとして品詞を用いることを特徴とする請求項１０または請求項１３に記載の音声認識用単語辞書・言語モデル作成方法。
前記単語クラスとして単語を形態素解析して得られる品詞を用いることを特徴とする請求項１０または請求項１３に記載の音声認識用単語辞書・言語モデル作成方法。
前記単語クラスとして単語の自動クラスタリングにより得られるクラスを用いることを特徴とする請求項１０または請求項１３に記載の音声認識用単語辞書・言語モデル作成方法。
前記請求項１０ないし前記請求項１８のいずれかひとつに記載の方法により作成された音声認識用単語辞書と単語クラス別単語生起モデルデータベース用いる音声認識システム。
コンピュータに、
単語生起モデルの推定方法を記述する推定方法情報を単語クラス毎に予め記憶した単語クラス別学習方法知識記憶部から、学習テキストに出現しない単語である追加単語の前記単語クラス毎に前記推定方法情報を選択する処理と、
選択した推定方法情報に従い前記追加単語の単語生起モデルである追加単語生起モデルを前記クラス毎に作成する処理と、
前記追加単語を前記単語辞書に、前記追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加する処理とを実行させることを特徴とする音声認識用単語辞書・言語モデル作成プログラム。
前記推定方法は、単語の生起確率の分布を一様分布とした推定方法を含むことを特徴とする請求項２０に記載の音声認識用単語辞書・言語モデル作成プログラム。
前記推定方法は、単語の生起確率の分布を所定の事前分布とした推定方法を含むことを特徴とする請求項２０または請求項２１に記載の音声認識用単語辞書・言語モデル作成プログラム。
コンピュータに、
単語の生起確率の分布形を示す分布形情報を予め複数格納した学習方法知識データベースから、学習テキストに含まれる単語の前記クラスごとの分布形に最も合致する前記分布形情報を選択する処理と、
選択した分布形情報に従って、学習テキストに出現しない単語である追加単語の生起モデルである追加単語生起モデルを前記クラス毎に作成する処理と、
前記追加単語を前記単語辞書に、前記追加単語生起モデルを単語クラス別単語生起モデルデータベースにそれぞれ追加する処理とを実行させることを特徴とする音声認識用単語辞書・言語モデル作成プログラム。
前記分布形情報は、一様分布を含むことを特徴とする請求項２３に記載の音声認識用単語辞書・言語モデル作成プログラム。
前記分布形情報は、所定の事前分布を含むことを特徴とする請求項２３または請求項２４に記載の音声認識用単語辞書・言語モデル作成プログラム。
前記単語クラスとして品詞を用いることを特徴とする請求項２０または請求項２３に記載の音声認識用単語辞書・言語モデル作成プログラム。
前記単語クラスとして単語を形態素解析して得られる品詞を用いることを特徴とする請求項２０または請求項２３に記載の音声認識用単語辞書・言語モデル作成プログラム。
前記単語クラスとして単語の自動クラスタリングにより得られるクラスを用いることを特徴とする請求項２０または請求項２３に記載の音声認識用単語辞書・言語モデル作成プログラム。