WO2020179193A1

WO2020179193A1 - 情報処理装置及び情報処理方法

Info

Publication number: WO2020179193A1
Application number: PCT/JP2019/049771
Authority: WO
Inventors: 大輔福永
Original assignee: ソニー株式会社
Priority date: 2019-03-04
Filing date: 2019-12-19
Publication date: 2020-09-10
Also published as: JPWO2020179193A1; US20220147570A1

Abstract

巨大なサイズのグラフ探索処理を実施する情報処理装置を提供する。　情報処理装置は、演算部と、第１の記憶装置と、第２の記憶装置を具備し、グラフ情報を第１のグラフ情報と第２のグラフ情報に２分割し、前記第１のグラフ情報を前記第１の記憶装置に配置し、前記第２のグラフ情報を前記第２の記憶装置に配置し、前記演算部が、前記第１の記憶装置に配置された前記第１のグラフ情報及び前記第２の記憶装置に配置された第２のグラフ情報を用いてグラフ探索処理を実施する。前記第１のグラフ情報は前記第２のグラフ情報よりも小サイズで、前記第１の記憶装置は前記第２の記憶装置よりも小容量である。

Description

情報処理装置及び情報処理方法

　本明細書で開示（以下、「本開示」とする）する技術は、グラフ探索処理を実施する情報処理装置及び情報処理方法に関する。

　音声認識では入力音声がどのようなテキスト文字列であったかを計算するために、ＷＦＳＴ（Ｗｅｉｇｈｔｅｄ　Ｆｉｎｉｔｅ　Ｓｔａｔｅ　Ｔｒａｎｓｄｕｃｅｒ：重み付き有限状態トランスデューサ）と呼ばれる有限オートマトンの一種が使われることがある。ＷＦＳＴのモデルは、学習用に集めたテキストデータやコーパス（テキストと発話を大規模に集めてデータベース化した言語資料）から作られる。入力音声に対して尤も確からしいテキスト文字列を探すために、ＷＦＳＴモデルの探索処理（以下、本明細書では「ＷＦＳＴ探索」とも呼ぶ）が実施される。

　ＷＦＳＴ探索は、一種のグラフ探索処理である。探索を高速に行うために、実行時にＷＦＳＴをすべて主記憶装置にロードするのが一般的である（ここで言う主記憶装置は、ＣＰＵのローカルメモリ（又は、メインメモリ）に相当し、以下では単に「メモリ」とも呼ぶ）。しかしながら、大語彙に対応したＷＦＳＴはサイズが数十ＧＢ～数百ＧＢ程度になり、メモリ容量の大きなシステムでないとＷＦＴＳ探索を動作させることができない。メモリの代わりにＨＤＤ（Ｈａｒｄ　Ｄｉｓｃ　Ｄｒｉｖｅ）やＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）といった補助記憶装置（以下では、単に「ディスク」とも呼ぶ）にＷＦＳＴを配置すると、メモリの使用量を削減することができる。しかしながら、ディスクはメモリに比べてアクセス速度やスループットの性能が低いため、ＷＦＴＳ探索に係る時間が大幅に長くなってしまう。

　また、ＷＦＳＴ探索を高速化するために、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）などの、多数のコアで構成されてタスクを並列実行することができるメニーコア演算器が使われるケースがある（例えば、特許文献１を参照のこと）。ところが、ＧＰＵなどのメニーコア演算器は、一般的に、メモリ容量が限られている。

特開２０１５－５２９３５０号公報特表２０１７－５２７８４４号公報

Ｍｏｈｒｉ，Ｍ．，Ｐｅｒｅｉｒａ，Ｆ．　ａｎｄ　Ｒｉｌｅｙ，Ｍ．：　Ｗｅｉｇｈｔｅｄ　Ｆｉｎｉｔｅ－Ｓｔａｔｅ　Ｔｒａｎｓｄｕｃｅｒｓ　ｉｎ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ，Ｃｏｍｐｕｔｅｒ　Ｓｐｅｅｃｈ　ａｎｄ　Ｌａｎｇｕａｇｅ，Ｖｏｌ．１６，Ｎｏ．１，ｐｐ．６９－８８（２００２）Ｈ．Ｊ．Ｇ．Ａ．Ｄｏｌｆｉｎｇ，Ｉ．Ｌ．Ｈｅｔｈｅｒｉｎｇｔｏｎ，"Ｉｎｃｒｅｍｅｎｔａｌ　ｌａｎｇｕａｇｅ　ｍｏｄｅｌｓ　ｆｏｒ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ｕｓｉｎｇ　ｆｉｎｉｔｅ－ｓｔａｔｅ　ｔｒａｎｓｄｕｃｅｒｓ，"　Ｐｒｏｃ．　ｏｆ　ＡＳＲＵ２００１Ｄ．Ｗｉｌｌｅｔｔ，Ｓ．Ｋａｔａｇｉｒｉ，"Ｒｅｃｅｎｔ　ａｄｖａｎｃｅｓ　ｉｎ　ｅｆｆｉｃｉｅｎｔ　ｄｅｃｏｄｉｎｇ　ｃｏｍｂｉｎｉｎｇ　ｏｎ－ｌｉｎｅ　ｔｒａｎｓｄｕｃｅｒ　ｃｏｍｐｏｓｉｔｉｏｎ　ａｎｄ　ｓｍｏｏｔｈｅｄ　ｌａｎｇｕａｇｅ　ｍｏｄｅｌ　ｉｎｃｏｒｐｏｒａｔｉｏｎ，"　Ｐｒｏｃ．　ｏｆ　ＩＣＡＳＳＰ２００２，Ｖｏｌ．Ｉ，　ｐｐ．７１３－７１６Ｄ．Ｗｉｌｌｅｔｔ，Ｅ．ＭｃＤｅｒｍｏｔｔ，Ｙ．Ｍｉｎａｍｉ，ａｎｄ　Ｓ．Ｋａｔａｇｉｒｉ，"Ｔｉｍｅ　ａｎｄ　Ｍｅｍｏｒｙ　Ｅｆｆｉｃｉｅｎｔ　Ｖｉｔｅｒｂｉ　Ｄｅｃｏｄｉｎｇ　ｆｏｒ　ＬＶＣＳＲ　Ｕｓｉｎｇ　ａ　Ｐｒｅｃｏｍｐｉｌｅｄ　Ｓｅａｒｃｈ　Ｎｅｔｗｏｒｋ，"　Ｐｒｏｃ．ｏｆ　ＥＵＲＯＳＰＥＥＣＨ　２００１－７ｔｈ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　ａｎｄ　ＴｅｃｈｎｏｌｏｇｙＰ．Ｒ．Ｄｉｘｏｎ，Ｄ．Ａ．Ｃａｓｅｉｒｏ，Ｔ．Ｏｏｎｉｓｈｉ，ａｎｄ　Ｓ．Ｆｕｒｕｉ，"Ｔｈｅ　Ｔｉｔｅｃｈ　Ｌａｒｇｅ　Ｖｏｃａｂｕｌａｒｙ　ＷＦＳＴ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　Ｓｙｓｔｅｍ，"　２００７　ＩＥＥＥ　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ａｕｔｏｍａｔｉｃ　Ｓｐｅｅｃｈ　Ｒｅｃｏｇｎｉｔｉｏｎ　＆　Ｕｎｄｅｒｓｔａｎｄｉｎｇ　（ＡＳＲＵ）

　本開示に係る技術の目的は、巨大なサイズのグラフ探索処理を実施する情報処理装置及び情報処理方法を提供することにある。

　本開示に係る技術の第１の側面は、
　演算部と、第１の記憶装置と、第２の記憶装置を具備し、
　グラフ情報を第１のグラフ情報と第２のグラフ情報に２分割し、
　前記第１のグラフ情報を前記第１の記憶装置に配置し、
　前記第２のグラフ情報を前記第２の記憶装置に配置し、
　前記演算部が、前記第１の記憶装置に配置された前記第１のグラフ情報及び前記第２の記憶装置に配置された第２のグラフ情報を用いてグラフ探索処理を実施する、情報処理装置である。

　前記グラフ情報は、具体的には、音声認識において音響モデル、発音辞書及び言語モデルを表現したＷＦＳＴモデルである。そして、言語モデルを大小２つに分割し、第１の個数以下の単語のつながりを考慮した小さい方の言語モデルを音響モデル及び発音辞書と合成した小さいＷＦＳＴモデルを前記第１のグラフ情報とし、前記第１の個数より多い任意の個数の単語のつながりを考慮した言語モデルからなる大きいＷＦＳＴモデルを前記第２のグラフ情報とする。

　前記演算部は、前記第１のグラフ情報を用いて探索処理を実行中に前記第２のグラフ情報の参照が必要になったときに、前記第２のグラフ情報のうち必要な部分を前記第２の記憶装置から前記第１の記憶装置へコピーして、前記探索処理を継続させる。

　前記演算部は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はその他のメニーコア演算器からなる第１の演算部と、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）からなる第２の演算部を含み、前記第１の記憶装置は前記ＧＰＵ内のメモリであり、前記第２の記憶装置は前記ＣＰＵのローカルメモリである。そして、前記第１の演算部は、小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルのトークンの状態遷移を行う必要が発生したときに、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーにコピーしながら、前記第１の演算部がすべての探索処理を行う。

　または、前記演算部は、ＣＰＵ又はＧＰＵからなり、前記第１の記憶装置は前記演算部のローカルメモリであり、前記第２の記憶装置は補助記憶装置である。そして、前記演算部は、小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルのトークンの状態遷移を行う必要が発生したときに、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーしながら、前記探索処理を行う。

　大きい方のＷＦＳＴモデルは、アークをソースの状態の状態ＩＤと入力ラベルでソートしたアーク配列からなり、前記第１の記憶装置は、前記アクセス用データとして、各状態のアークの前記アーク配列上の開始位置を格納するアークインデックスと、前記アーク配列上のアークに対応する入力ラベルを前記アーク配列と同じ配列で格納する入力ラベル配列を備えている。そして、前記演算部は、前記アークインデックスで目的のアークのソース状態の状態ＩＤのアーク配列上の開始位置を特定し、前記入力ラベル配列上の前記開始位置の要素から目的のアークの入力ラベルを検索することによって、前記アーク配列上の目的のアークが格納されている位置を特定して、前記第２の記憶装置の前記アーク配列から目的のアークのデータを取得する。

　また、本開示に係る技術の第２の側面は、演算部と、第１の記憶装置と、第２の記憶装置を具備する情報処理装置において、
　グラフ情報を分割した第１のグラフ情報を第１の記憶装置に配置するステップと、
　前記グラフ情報を分割した第２のグラフ情報を第２の記憶装置に配置するステップと、
　前記演算部が、前記第１の記憶装置に配置された前記第１のグラフ情報及び前記第２の記憶装置に配置された第２のグラフ情報を用いてグラフ探索処理を実行するステップと、
を有する情報処理方法である。

　本開示に係る技術によれば、巨大なサイズのグラフ情報を２分割して２つの記憶領域にそれぞれ配置して、グラフ探索を省メモリ且つ高速に実施する情報処理装置及び情報処理方法を提供することができる。

　なお、本明細書に記載された効果は、あくまでも例示であり、本開示に係る技術によりもたらされる効果はこれに限定されるものではない。また、本開示に係る技術が、上記の効果以外に、さらに付加的な効果を奏する場合もある。

　本開示に係る技術のさらに他の目的、特徴や利点は、後述する実施形態や添付する図面に基づくより詳細な説明によって明らかになるであろう。

図１は、音声認識システム１００の構成例を示した図である。図２は、ＷＦＳＴモデルを分割する例を示した図である。図３は、音声認識システム３００（第１の実施例）の概略的な構成例を示した図である。図４は、音声認識システム３００の具体的な構成例を示した図である。図５は、音声認識システム３００で実行される音声認識の全体的な処理手順を示したフローチャートである。図６は、グラフ探索処理の詳細な処理手順を示したフローチャートである。図７は、必要なアークの情報をＧＰＵ３２０からＣＰＵ３１０に送り、ＣＰＵ３１０側がデバイスメモリ３２１へのコピーを行う方法を説明するための図である。図８は、大グラフのアークをＧＰＵ３２０側のデバイスメモリ３２１上にキャッシュする仕組みを示した図である。図９は、大グラフのキャッシュを備えた音声認識システム３００の構成例を示した図である。図１０は、図９に示した音声認識システム３００で実行される音声認識の全体的な処理手順を示したフローチャートである。図１１は、グラフ探索処理の詳細な処理手順を示したフローチャートである。図１２は、エージェントシステム１２００の機能的構成例を示した図である。図１３は、状態からアークが伸びる様子を示した図である。図１４は、言語モデルＷＦＳＴの入出力の関係を示した図である。図１５は、音声認識システム１５００（第２の実施例）の概略的な構成例を示した図である。図１６は、アークを探索するためのデータをメモリに配置した音声認識システム１５００の構成例を示した図である。図１７は、ＷＦＳＴ（大）アクセス用データの構成例を示した図である。図１８は、ＷＦＳＴ（大）アクセス用データの他の構成例を示した図である。図１９は、音声認識システム１５００の具体的な機能的構成例を示した図である。図２０は、音声認識システム１５００で実行される音声認識の全体的な処理手順を示したフローチャートである。図２１は、ＷＦＳＴ探索処理の詳細な処理手順の一例を示したフローチャートである。図２２は、ＷＦＳＴ探索処理の詳細な処理手順の他の例を示したフローチャートである。図２３は、アーク配列上で目的のアークが配置されているページを特定するための処理手順を示したフローチャートである。図２４は、アークの事前読み込み機能を持つ音声認識システム１５００の具体的な機能的構成例を示した図である。図２５は、図２４に示した音声認識システム１５００におけるＷＦＳＴ探索処理の詳細な処理手順を示したフローチャートである。図２６は、図２４に示した音声認識システム１５００におけるＷＦＳＴ探索処理の詳細な処理手順を示したフローチャートである。図２７は、音声認識システム２７００の具体的な機能的構成例を示した図である。図２８は、音声認識システム２７００で実行される音声認識の全体的な処理手順を示したフローチャートを示した図である。

　以下、図面を参照しながら本開示に係る技術の実施形態について詳細に説明する。

Ａ．音声認識システム
　図１には、音声認識システム１００の概略的な機能構成例を示している。図示の音声認識システム１００は、特徴量抽出部１０１と、ＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）計算部１０２と、ＷＦＳＴ探索部１０３を備えている。なお、すべての音声認識システムが図１のように構成される訳ではなく、別の構成も存在し得るという点に留意されたい。

　特徴量抽出部１０１には、マイクロホン（図示しない）などの音声入力部から、例えば１０ミリ秒単位の音声データが入力される。特徴量抽出部１０１は、入力された音声データに対してフーリエ変換を適用したり、メルフィルタバンクなどを用いたりして、音声の特徴量を計算する。特徴量抽出部１０１の所要処理時間は、例えば１ミリ秒未満である。

　ＤＮＮ計算部１０２は、特徴量抽出部１０１で抽出された特徴量に対して事前学習済みのＤＮＮモデルを使って、ＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ：隠れマルコフモデル）の各状態に対応するスコア（尤度）を計算する。ＤＮＮ計算部１０２の所要処理時間は、例えば１ミリ秒程度である。

　ＷＦＳＴ探索部１０３は、ＤＮＮ計算部１０３で算出されたＨＭＭ状態スコアに対して事前学習済みのＷＦＳＴモデルを使って、尤も確からしい認識結果文字列を計算して、認識結果のテキストを出力する。ＷＦＳＴ探索部１０３所要処理時間は、例えば１～３０ミリ秒程度である。

Ｂ．音声認識におけるＷＦＳＴ
　ＷＦＳＴは、アークに入力シンボル、出力シンボル及び重み（遷移確率）の情報が付いている有限状態マシンである。一般に、音声認識システムは、音素と音響的特徴を表す音響モデルと、個々の単語の発音を表す発音辞書と、文法規則や単語の連鎖する確率を与える言語モデルで構成される。音響モデルとして用いられているＨＭＭの状態遷移や、発音辞書、及び言語モデルとして用いられるＮ－ｇｒａｍモデルを、それぞれＷＦＳＴモデルで表現することができる。さらに、これら音響モデル、発音辞書、及び言語モデルそれぞれのＷＦＳＴを数学的に定義された合成演算を用いて１つの巨大なＷＦＳＴにまとめて音声認識処理を行う（例えば、非特許文献１を参照のこと）。

　音響モデルのＷＦＳＴは入力シンボルがＨＭＭ状態、出力シンボルは音素となっており、発音辞書のＷＦＳＴは入力シンボルが音素、出力シンボルが単語となっており、言語モデルのＷＦＳＴは入力シンボル及び出力シンボルともに単語となっている。言語モデルは、単語同士の繋がりの遷移確率を表現するのに使用される。音響モデル、発音辞書、及び言語モデルの各ＷＦＳＴを合成した後のＷＦＳＴは、例えば、単語の中に音素列、音素の中にＨＭＭが埋め込まれたネットワークとして構成される。また、合成後のＷＦＳＴは、入力シンボルがＨＭＭ状態で、出力シンボルが単語ということになる。このようにして、音声認識処理はネットワーク探索問題に帰着される。

　基本的には、語彙数（＋考慮する単語の繋がり数）が大きくなるほど、ＷＦＳＴのサイズは大きくなる。特に言語モデルは、語彙数のべき乗でサイズが増大する。語彙数の百万語を超える大語彙では、ＷＦＳＴの状態（ノード）数並びにアーク（エッジ）数はそれぞれ数十億個まで増え、サイズは数十ＧＢになる（例えば、状態数１２億、アーク数４３億、ＷＦＳＴサイズ５０ＧＢ（圧縮して１２ＧＢ）である）。

　ＷＦＳＴ探索部１０３は、音響モデル、発音辞書、及び言語モデルの各ＷＦＳＴを合成したＷＦＳＴすなわちネットワーク内で、入力音声信号に最も適合する経路（最適状態遷移過程）を探索して、入力された音声信号に対して音響的及び言語的に適合する単語列にデコードすることになる。ＷＦＳＴ探索部１０３に、最適な単語列を高速に探し出すことが求められる。

Ｃ．ＷＦＳＴ探索の手順
　ＷＦＳＴ探索の手順は、例えば以下の通りである。

（手順１）状態遷移の履歴と重みの累積の情報を持ったトークン（Ｔｏｋｅｎ）と呼ばれるオブジェクト（認識結果の仮説に対応する）を、ＷＦＳＴの初期状態に置く。初期状態はＷＦＳＴによってあらかじめ決められている。

（手順２）入力データ（ＨＭＭ状態スコア）が入ってきたタイミングで、ＷＦＳＴ上のトークンを１つのアーク分だけ遷移させる。このとき、アークの入力ラベルに対応するＨＭＭ状態の尤度（スコア）とアークの重みとトークンが持つ重みの累積を掛け合わせて、新しい重みの累積とする。ＨＭＭ状態の尤度が入力音声に起因する確率で、アークの重みが事前学習したＷＦＳＴモデルに起因する確率となり、尤も確からしい仮説が選ばれていく。

（手順３）同じ状態に到達したトークンがあった場合、最も確率の高いトークンだけを残し、その他のトークンは破棄する。演算量を削減するためである。

（手順４）最も確率が高いトークンよりも確率がビーム幅（設定値）以上低いトークンは破棄する。演算量を削減するためである。

（手順５）入力データが無くなるまで（音声入力が終わるまで）、手順２～手順４を繰り返し実行する。

（手順６）最も確率の高いトークンの状態遷移の履歴を辿り、アークの出力シンボルを並べたものが認識結果の文字列となる。

Ｄ．ＷＦＳＴの分割とオンザフライ合成
　音声認識において、音響モデル、発音辞書、及び言語モデルそれぞれのＷＦＳＴをすべて合成して１つのＷＦＳＴを作成する場合（前述）、状態数とアーク数は乗算で増加する。このため、合成前のモデルが比較的大きいと、合成後のモデルは膨大なサイズになってしまう。特に言語モデルは、語彙数のべき乗でサイズが増大する（例えば、Ａ→Ｂ→Ｃの順で単語が出現した後に、Ｄという単語が出現する確率をモデル化した場合、言語モデルはこれら４個の単語のつながりを考慮していることになり、これを４－ｇｒａｍと呼ぶ）。語彙数の百万語を超える大語彙では、ＷＦＳＴの状態（ノード）数、アーク（エッジ）数は数十億個まで増え、サイズは数十ＧＢになる。

　ＷＦＳＴ探索処理では、高頻度でＷＦＳＴモデルの情報にアクセスするため、ＷＦＳＴモデルをメモリ上に展開しないと、計算速度が極端に遅くなる。しかしながら、語彙数の増加に伴いＷＦＳＴモデルのサイズが大きくなりすぎると、メモリ容量が足りなくなってしまう。

　ＷＦＳＴモデルのサイズが膨大であるという問題を解決するために、ＷＦＳＴモデルを大小２つに分割して、音声認識の実行時に合成するオンザフライ合成という探索方法が挙げられる（例えば、非特許文献２、３を参照のこと）。ＷＦＳＴモデルのサイズは、合成すると元の各ＷＦＳＴモデルのサイズの乗算で増える。したがって、オンザフライ合成を行うことで、合計のＷＦＳＴモデルのサイズを削減し、つまり、探索処理時のメモリ使用量を大きく削減することができる。

　特にサイズが大きな言語モデルを大小２つに分割することによって、ＷＦＳＴを２分割することがある。例えば、２つの単語のつながりを考慮した言語モデルを小さい方、４つの単語のつながりを考慮した言語モデルを大きい方にして、２つに分割する。そして、図２に示すように、音響モデルと発音辞書と小さい言語モデルを合成したものを小さいＷＦＳＴモデル、大きい言語モデルを大きいＷＦＳＴモデル（又は、言語モデルＷＦＳＴ）とする。例えば、小さいＷＦＳＴモデルは数ＧＢ程度、大きいＷＦＳＴモデルは数十ＧＢ程度となる。そして、必要に応じて大小２つのＷＦＳＴモデルを合成しながら、音声認識処理を実行することで、探索時に使用するメモリ容量を大幅に削減することができる。

　オンザフライ合成では、基本的には小さいＷＦＳＴモデルでトークンを遷移させていき、遷移したアークから単語が出力された場合のみ、大きいＷＦＳＴモデルのトークンの状態遷移を行う。大きいＷＦＳＴモデルは単語の繋がりを考慮する役割しかないため、単語が出力されたときのみ遷移する。大きいＷＦＳＴモデルの遷移確率をトークンに掛け合わせることで、小さいＷＦＳＴモデルには存在しない、長い単語の繋がりの確率を考慮することができる。

Ｅ．言語モデル
　音声認識では、言語モデルとしてＮ－ｇｒａｍが用いられることが多い。Ｎ－ｇｒａｍとは、単語同士が繋がる確率をＮ－１重のマルコフ過程で表したモデルである。語彙数がＶの場合、Ｎ個の単語の繋がりはＶ^N通り存在し、これをＷＦＳＴで表すにはＶ^N個のアークが必要になる。このようなＷＦＳＴを作るのは非現実的であるため、実際にはすべての繋がりをモデル化することはしない。言語モデルＷＦＳＴは大量の文章から学習するが、例えば出現頻度が一定数以下の単語の繋がりはモデルから除かれる。もし探索中にモデル化されていない単語への繋がりが出現した場合、トークンはバックオフと呼ばれる状態に遷移する。バックオフ状態への遷移は低次な繋がりを考慮することと等しい。例えばＡ／Ｂ／Ｃ／Ｄという４単語の繋がりが出現したがモデル化されていないとき、バックオフ状態へ遷移し、Ｂ／Ｃ／Ｄという３単語の繋がりを考慮する（それでもモデル化されていないときには、次のバックオフ状態へ遷移し、Ｃ／Ｄという２単語の繋がりを考える）。

　言語モデルＷＦＳＴのアークの入力ラベルは単語である。言語モデルＷＦＳＴ上のトークンが遷移するときは、現在の状態から入力された単語（オンザフライ合成の場合、小さいＷＦＳＴで出力された単語）を持つアークを辿る。入力された単語を持つアークが存在しない場合、トークはバックオフ状態へ遷移し、そこから同様に入力された単語を持つアークを探索する。つまり、バックオフ状態に遷移する場合は、単一の入力で複数のアークを遷移する。

　図１３には、状態「ｘ」から、入力ラベル毎のアークが伸びている様子を示している。図示の例では、状態「ｘ」から、入力ラベルとして単語「ａ」、「ｂ」、「ｃ」、「ｙ」にそれぞれ対応するアークが伸びている。例えば、状態「ｘ」で単語「ｙ」が入力されると、入力ラベル「ｙ」に対応したアークを探索することになる。

　図１４には、言語モデルＷＦＳＴの入出力の関係を示している。言語モデルＷＦＳＴの入力は、状態ＩＤとラベルであり、その出力はアークである。アークは、入力ラベルと出力ラベルと重みに、さらに遷移先の状態ＩＤを加えた情報からなる。

　本開示に係る技術は、巨大なサイズのＷＦＳＴを２分割して、各々を２箇所の記憶領域に配置して、ＷＦＴＳ探索を省メモリ且つ高速に実現するものである。以下では、ＧＰＵのようなメニーコア演算器を用いてオンザフライ合成を実現する第１の実施例と、２分割したＷＦＳＴデータをメモリ及びディスクに配置してオンザフライ合成を実現する第２の実施例について、それぞれ説明する。さらに、第３の実施例として、本開示に係る大規模グラフの探索技術を適用した具体例について説明する。

Ｆ．ハイブリッド環境における音声認識処理
　ＷＦＳＴモデルの探索処理を高速化するために、ＧＰＵなどのメニーコア演算器が使用されることがある（前述）。ところが、ＧＰＵなどのメニーコア演算器は、一般的に、メモリ容量が限られている。ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）からアクセスできるメインメモリは、数百ＧＢ（ギガバイト）まで、比較的容易に拡張することができる。他方、ＧＰＵに搭載されるメモリはせいぜい数ＧＢから十数ＧＢ程度である。デバイスメモリの枯渇のため、ＷＦＳＴモデルのサイズが数十ＧＢ以上になる大語彙音声認識の探索処理は、ＧＰＵなどのメニーコア演算器上で探索処理をすることが難しい。

　例えば、ＣＰＵとＧＰＵをともに使用するハイブリッド環境でオンザフライ合成（前述）によるＷＦＳＴ探索を行うデータ処理方法について提案がなされている（特許文献１を参照のこと）。このデータ処理方法では、大小２つに分割したＷＦＳＴモデルのうち、小さい方のＷＦＳＴモデルを使った演算をＧＰＵで、大きい方のＷＦＳＴモデルを使った演算をＣＰＵで行っている。このようにすることで、小さい方のＷＦＳＴモデルはＧＰＵのメモリ上に展開している一方で、大量のメモリを消費する大きいＷＦＳＴモデルをメインメモリに配置することによって、デバイスメモリが不足する問題を解決することができる。このデータ処理方法では、小さい方のＷＦＳＴモデルの状態遷移はＧＰＵ上で行われ、大きい方のＷＦＳＴモデルを使った尤度の補正はＣＰＵ上で行われる。

　ここで、後者の大きい方のＷＦＳＴモデルを使った尤度補正では、ある状態から伸びる特定のアークを取得する処理（モデルのルックアップ）を行う。以下の表１には、大きい方のＷＦＳＴモデルのデータ構造を例示している。大きい方のＷＦＳＴモデルを使った処理では、Ｓｔａｔｅ（状態ＩＤ）とＬａｂｅｌ（単語ＩＤ）が入力されたときに、それに対応するＡｒｃ（アーク）の位置を探し、参照する（図１３を参照のこと）。また、対応するアークが存在しない場合もあり、そのときはバックオフと呼ばれる状態へ遷移し、そのバックオフ状態から再び対応するアークを探す。アークの位置を探すために、例えば二分探索やハッシュマップが用いられる。

　しかしながら、大きい方のＷＦＳＴモデルを使った演算の計算量は多い。したがって、小さい方のＷＦＳＴモデルの状態遷移はＧＰＵ上で実行しつつ、大きい方のＷＦＳＴモデルを使った尤度補正をＣＰＵで実行すると、ＣＰＵ側の演算がボトルネックになり、せっかくＧＰＵを導入しても十分に性能（処理速度やスループット）が改善しないことが懸念される。

　大きい方のＷＦＳＴモデルを使った処理（二分探索やハッシュテーブルのルックアップなど）は、比較的演算量が大きい。このため、例えばＧＰＵに比べてＣＰＵの計算能力が極端に低いアーキテクチャでは、小さい方のＷＦＳＴモデルを使った演算を行うＧＰＵ側の計算リソースに余裕があっても、ＣＰＵ側の処理が追いつかず、音声認識処理の性能が頭打ちになってしまうことがある。

　ＣＰＵとＧＰＵをともに使用するハイブリッド環境で、性能を最大限に引き出すには、ＣＰＵとＧＰＵの各計算リソースをちょうど使い切られるようなシステムが用意する必要がある、と本出願人は思料する。このようなシステムを用意するには、特にＣＰＵ及びＧＰＵの構成が限定されているクラウド環境では難しい。

　そこで、第１の実施例として、ＣＰＵ側の演算量を極力削減して、どのようなシステムでもＧＰＵの計算リソースをより有効に活用しながら、ハイブリッド環境でオンザフライ合成によるＷＦＳＴ探索を行うための技術について、以下で提案する。

　第１の実施例では、ＣＰＵとＧＰＵを用いたハイブリッド環境下において、ＧＰＵで音声認識の大規模グラフの探索処理を実行することによって実現される。ここで言う大規模グラフは、具体的には、言語モデルを大小２つに分割した大きい方の言語モデル、すなわち言語モデルＷＦＳＴのことである。また、大規模とは、例えば数十ＧＢ以上の、デバイスメモリに展開できない程度のサイズを意味する。

　但し、本開示に係る技術の適用範囲は、ＧＰＵ及び音声認識のグラフ探索処理に限定されるものではない。ＧＰＵはメモリ容量の限られた（グラフサイズより小さいメモリ容量を持つ）メニーコア演算器に置き換え、音声認識のグラフ探索処理は一般的なグラフ探索処理に置き換えることができる、という点を十分理解されたい。

Ｆ－１．システム構成
　図３には、第１の実施例として提案する技術を適用した音声認識システム３００の構成例を概略的に示している。図示の音声認識システム３００は、ＣＰＵ３１０とＧＰＵ３２０を用いたハイブリッド環境を備えている。

　ＣＰＵ３１０は、ローカルメモリとして比較的大容量（例えば数十ＧＢ程度）のメインメモリ３１１を備えている。一方、ＧＰＵ３２０は、メニーコア演算器からなり、各コアの並列処理などによりＷＦＳＴなどのグラフ探索処理を高速で実行することができる。ＧＰＵ３２０もローカルメモリ（ここでは、「デバイスメモリ」と呼ぶことにする）３２１を備えているが、メインクメモリと比較して容量は例えば数ＧＢ程度と小さい。

　但し、ＧＰＵ３２０からも、メインメモリ３１１へアクセス可能である。メインメモリ３１１上のデータのデバイスメモリ３２１へのコピーは、ＣＰＵ３１０が実施する。あるいは、ＧＰＵ３２０が、ＤＭＡ（Ｄｉｒｅｃｔ　Ｍｅｍｏｒｙ　Ａｃｃｅｓｓ）機能を用いて、メインメモリ３１１へ高速アクセスするようにしてもよい。

　音声認識システム３００は、ＷＦＳＴモデルを大小２つに分割して、音声認識の実行時に合成するオンザフライ合成を行う。まず、サイズが大きな言語モデルを大小２つに分割する。そして、２つの単語のつながりを考慮した小さい方の言語モデルを、音響モデル及び発音辞書と合成して、小さい方のＷＦＳＴモデルを作る。小さい方のＷＦＳＴモデル（小グラフ）は、比較的容量が小さいデバイスメモリ３２１に配置される。また、４つの単語のつながりを考慮した言語モデルが大きい方のＷＦＳＴモデルとなる。大きい方のＷＦＳＴモデル（大グラフ）は数十ＧＢ程度であり、メインメモリ３１１に配置される。

　特許文献１に開示されたデータ処理方法では、小さい方のＷＦＳＴモデルの状態遷移はＧＰＵ上で行われ、大きい方のＷＦＳＴモデルを使った尤度の補正はＣＰＵ上で行われる（前述）。これに対し、本実施形態に係る音声認識システム３００では、ＷＦＳＴモデルの探索処理はＣＰＵ３１０上では行わず、基本的にはＧＰＵ３２０でのみ実行する。

　ＧＰＵ３２０は、基本的には小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルの状態遷移を行う必要が発生したときには、ＣＰＵ３１０で探索処理を行わず、大きいＷＦＳＴモデルのうち処理に必要なデータ（具体的にはアークの入力ラベル、出力ラベル、重み、アークの遷移先の状態のＩＤ）の部分だけをメインメモリ３１１からデバイスメモリ３２１にコピーしながら、ＧＰＵ３２０上ですべての探索処理を行う。このようにすると、ＣＰＵ３１０上で行う処理は基本的にＧＰＵ３２０へのデータ転送とＧＰＵ３２０の制御だけとなる。したがって、ＧＰＵ３２０の計算リソースを有効に活用することができるとともに、ＣＰＵ３１０側の負荷を大きく減らすことにもなる。

　ＷＦＳＴ探索処理をＧＰＵ３２０上で行うことにより得られる利点を挙げておく。

（利点１）より高速に処理できる：
　ＧＰＵのような大量のコアを持つ演算器を用いることで、複数の仮説（トークン）を並列して処理して、探索の処理時間を短縮化することができる。特に音声エージェントなどの音声認識サービスでは、ユーザへ素早くレスポンスするために速く処理することが重要である。

（利点２）より安価に多くの処理をできる：
　ＧＰＵを効率良く使うことができれば、ＣＰＵだけで処理を行うよりも安価に多くの処理をすることができる。（例えば、クラウドの仮想サーバでは、計算能力当たりの価格（＄／Ｆｌｏｐｓ（Ｆｌｏａｔｉｎｇ－ｐｏｉｎｔ　Ｏｐｅｒａｔｉｏｎｓ　Ｐｅｒ　Ｓｅｃｏｎｄ））は、ＧＰＵの方が安い。）より多くの処理ができるようになると、音声認識サービスを展開するときに、少ないサーバ台数（＝安いコスト）で多くのリクエストを同時に処理できるようになる。

（利点３）ＣＰＵとＧＰＵの処理バランスを調整できる：
　ＷＦＳＴ探索の前段のＤＮＮ計算では、処理を高速に行うために、ＧＰＵがよく使われる。ところが、ＷＦＳＴ探索をＣＰＵで行っていると、ＣＰＵがボトルネックになり、ＧＰＵの計算リソースを使い切れず、無駄が生じることがある。これに対し、本実施形態によれば、ＷＦＳＴ探索をＧＰＵで実行することにより、ＣＰＵとＧＰＵの処理量を調整することができるので、双方の計算リソースを使い切ることができる。また、１台の装置（サーバなど）でより多くの音声認識リクエストを処理することができるようになる。

　図４には、音声認識システム３００のより具体的な機能構成例を示している。図３を参照しながら既に説明したように、音声認識システム３００は、ＣＰＵ３１０とＧＰＵ３２０を用いたハイブリッド環境を備えている。ＣＰＵ３１０は、ローカルメモリとして比較的大容量（例えば数十ＧＢ程度）のメインメモリ３１１を備えている。一方、ＧＰＵ３２０は、小容量のデバイスメモリ３２１を備えている。

　ＣＰＵ３１０内には、信号処理部４０１と、特徴量抽出部４０２と、認識結果出力処理部４０５が配置される。一方、ＧＰＵ３２０には、ＨＭＭスコア計算部４０３と、グラフ探索部４０４が配置される。参照番号４０１～４０５で示されるこれらの機能モジュールは、実際には、ＣＰＵ３１０若しくはＧＰＵ３２０で実行されるソフトウェアプログラムであってもよい。

　音声入力部４４１は、マイクロホンなどからなり、音声信号を収音する。信号処理部４０１は、音声入力部４４１で受け付けた音声信号に対して所定のデジタル処理を施す。

　続いて、特徴量抽出部４０２は、例えばフーリエ変換やメルフィルタバンクなどの既知の技術を用いて、音声の特徴量を抽出する。図４に示すシステム構成例では、特徴量抽出部４０２はＣＰＵ３１０側に配置されているが、ＧＰＵ３２０で実行するようにしてもよい。

　ＨＭＭスコア計算部４０３は、音声の特徴量の情報を受け取り、音響モデル４３１を使って、各ＨＭＭ状態のスコアを計算する。ＨＭＭには、Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ（ＧＭＭ）や、ＤＮＮが使用される。

　ＨＭＭスコア計算部４０３をＧＰＵ３２０に配置して、ＧＰＵ３２０でＨＭＭスコア計算を行なう場合には、図４に示すように、音響モデル４３１はＧＰＵメモリ（デバイスメモリ）３２１内に配置される。但し、ＨＭＭスコア計算の処理はＣＰＵ３１０側で行うようにしてもよく、その場合は、音響モデル４３１はメインメモリ３２１上に配置されることになる。

　グラフ探索部４０４は、ＨＭＭ状態スコアを受け取り、ＧＰＵメモリ（デバイスメモリ）３２１上の小グラフ（小さい方のＷＦＳＴモデル）４３２と、メインメモリ３１１上の大グラフ（大きい方のＷＦＳＴモデル）４２１を使って、オンザフライ合成による探索処理を行う。

　グラフ探索部４０４が探索処理で生成した認識結果の仮説リストなどの途中記録は、デバイスメモリ３２１上の作業領域４３３に一時保存される。なお、図４では省略したが、上記の途中記録は、メインメモリ３１１上の作業領域に保存されてもよいし、デバイスメモリ３２１及びメインメモリ３１１の両方に保存されてもよい。

　グラフ探索部４０４は、音声認識結果の文字列を最終的に出力する。この認識結果の文字列は、デバイスメモリ３２１上の作業領域４３３から、ＣＰＵ３１０側の認識結果出力処理部４０５に送られる。認識結果出力処理部４０５は、ディスプレイやスピーカなどからなる出力部４４２から認識結果を表示又は出力するための処理を実施する。

　なお、音声認識システム３００は、音声入力部４４１又は出力部４４２の少なくとも一方を含めた装置として構成されてもよい。あるいは、ＣＰＵ３１０及びＧＰＵ３２０はクラウド上のサーバ内に搭載され、音声入力部４４１及び出力部４４２は音声エージェント装置として構成されてもよい（後述）。

Ｆ－２．システム動作
　図５には、図４に示した音声認識システム３００で実行される音声認識の全体的な処理手順をフローチャートの形式で示している。

　音声入力部４４１に対して音声の入力があると（ステップＳ５０１のＹｅｓ）、信号処理部４０１でデジタル処理後の音声データが、例えば１０ミリ秒毎に区切られて、特徴量抽出部４０２に入力される。

　特徴量抽出部４０２は、信号処理部４０１でデジタル処理した後の音声データに基づいて、例えばフーリエ変換やメルフィルタバンクなどの既知の技術を用いて、音声の特徴量を抽出する（ステップＳ５０２）。図４に示したようにＧＰＵ３２０上でＨＭＭスコア計算を行なう場合には、特徴量データをＧＰＵ３２０側のデバイスメモリ３２１にコピーして、ＨＭＭスコア計算部４０３に入力する（ステップＳ５０３）。

　続いて、ＨＭＭスコア計算部４０３は、音声の特徴量の情報を受け取り、音響モデル４３１を使って、各ＨＭＭ状態のスコアを計算する（ステップＳ５０４）。

　続いて、グラフ探索部４０４は、ＨＭＭ状態スコアを受け取り、ＧＰＵメモリ（デバイスメモリ）３２１上の小グラフ（小さい方のＷＦＳＴモデル）４３２と、メインメモリ３１１上の大グラフ（大きい方のＷＦＳＴモデル）４２１を使って、オンザフライ合成による探索処理を行う（ステップＳ５０５）。

　ステップＳ５０５では、グラフ探索部４０４は、まず小グラフでトークンを遷移させていく。その遷移で小グラフから単語が出力された場合には、大グラフのアークの情報をＧＰＵ３２０のデバイスメモリ３２１にコピーして、大グラフ上のトークンの遷移を行う。そして、グラフ探索部４０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行う。但し、この処理の詳細については後述（図６を参照のこと）に譲る。

　入力音声の終端に到達するまでは（ステップＳ５０１のＹｅｓ）、例えば１０ミリ秒毎に区切られた音声データに対して、上記ステップＳ５０２～Ｓ５０５の処理が繰り返し実行される。

　また、入力音声の終端に到達すると（ステップＳ５０１のＮｏ）、グラフ探索部４０４による音声認識結果の文字列が、デバイスメモリ３２１上の作業領域４３３から、ＣＰＵ３１０側のメインメモリ３１１にコピーされる（ステップＳ５０６）。

　そして、認識結果出力処理部４０５は、ディスプレイやスピーカなどからなる出力部４４２から認識結果を表示又は出力するための処理を実施する（ステップＳ５０７）。

　図６には、図５に示したフローチャート中のステップＳ５０５で実行される、グラフ探索処理の詳細な処理手順をフローチャートの形式で示している。

　グラフ探索部４０４は、デバイスメモリ３２１上の小グラフ４３２（小さい方のＷＦＳＴモデル）でトークンを遷移させていく（ステップＳ６０１）。

　ここで、遷移したアークから単語が出力された場合には（ステップＳ６０２のＹｅｓ）、大グラフ（大きいＷＦＳＴモデル）のトークンの状態遷移を行う。具体的には、グラフ探索部４０４は、必要となる大グラフのアークの情報を格納しているメインメモリ３２１上のアドレスを計算して、メインメモリ３２１上のそのアドレスから大グラフのアークの情報をＧＰＵ３２０側のデバイスメモリ３２１にコピーして（ステップＳ６０３）、デバイスメモリ３２１上で大グラフのトークンの遷移を行う（ステップＳ６０４）。そして、グラフ探索部４０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行って（ステップＳ６０５）、本処理を終了する。また、遷移したアークから単語が出力さない場合も（ステップＳ６０２のＮｏ）、グラフ探索部４０４は、全体で仮説の枝刈りを行って（ステップＳ６０５）、本処理を終了する。

Ｆ－３．グラフ間の連携
　図６に示したフローチャートからも分かるように、デバイスメモリ３２１上の小グラフを使ってＧＰＵ３２０上で（グラフ探索部４０４が）トークンの遷移を行っている際に、小グラフのアークから単語が出力されたときには、大グラフのアークの情報が必要になる。

　そこで、ＧＰＵ３２０が、大グラフのうち必要なアークが配置されているメインメモリ３１１上の位置（アドレス情報）をあらかじめ計算しておくようにしてもよい。このようにすれば、ＧＰＵ３２０が必要な大グラフのアークを要求してきたときに、ＣＰＵ３１０が、二分探索やハッシュテーブルのルックアップといった、演算量の大きい大グラフの探索処理を実施する必要がなくなり、ＣＰＩ３１０の負荷を削減することができる。

　大グラフのアークをメインメモリ３１１からデバイスメモリ３２０へコピーする方法として、ＣＰＵ３１０とＧＰＵ３２０で単一の仮想メモリ空間を使う方法と、必要なアークの情報をＧＰＵ３２０からＣＰＵ３１０に送り、ＣＰＵ３１０側でメインメモリ３１１からデバイスメモリ３２１にコピーを行う方法を挙げることができる。

　前者の単一の仮想メモリ空間を使う方法では、ＣＰＵ３１０とＧＰＵ３２０で共通のページテーブルを持ち、ＧＰＵ３２０側でデバイスメモリ３２１上にないページへのアクセスを参照した時点で、ページをメインメモリ３１１からデバイスメモリ３２１へ移動させる。例えば、米ＮＶＩＤＩＡ社が提供する汎用並列コンピューティングプラットフォームであるＣＵＤＡ（登録商標）（Ｃｏｍｐｕｔｅ　Ｕｎｉｆｉｅｄ　Ｄｅｖｉｃｅ　Ａｒｃｈｉｔｅｃｔｕｒｅ）Ｕｎｉｆｉｅｄ　Ｍｅｍｏｒｙ機能を使って、ＧＰＵ３２０のドライバによってメインメモリ３１１からデバイスメモリ３２１へのページの移動を行うことができる。

　また、後者の、必要なアークの情報をＧＰＵ３２０からＣＰＵ３１０に送り、ＣＰＵ３１０側がデバイスメモリ３２１へのコピーを行う方法では、ＧＰＵ３２０側であらかじめ計算しておいた必要なアークの情報をＧＰＵ３２０からＣＰＵ３１０に送る場合には、ＧＰＵ３２０側で計算した必要なアークの位置情報（例えば、メインメモリ３１１上のアークの配列のインデックスや、アークのアドレス）のリストを、ＣＰＵ３１０に送る。そして、ＣＰＵ３１０側では、受け取ったリストに基づいて、必要なアークをデバイスメモリ３２１にコピーする。

　図７には、後者の方法を図解している。まず、ＧＰＵ３２０は、必要なアークのリストをＣＰＵ３１０側に送る。図示の例では、ＧＰＵ３１０は、アークのリスト｛１，５，７，１１，１９｝とアークＩＤを、ＣＰＵ３１０に送信している。そして、ＣＰＵ３１０は、メインメモリ３１１に格納されている大グラフから、受信したリストに基づいて５つのアーク｛１，５，７，１１，１９｝を取り出して並べ、ＧＰＵ３２０側に返送して、デバイスメモリ３２１にコピーする。

Ｆ－４．変形例
Ｆ－４－１．ＧＰＵメモリに大グラフのアークのキャッシュを備える変形例
　一般に、ＣＰＵ３１０とＧＰＵ３２０間の通信は、通常のメモリアクセスよりもレイテンシが大きい。そこで、大グラフのアークをＧＰＵ３２０側のデバイスメモリ３２１上に保存（若しくは、キャッシュ）しておくことで、処理速度の改善を図る。音声認識におけるグラフ探索の性質上、大グラフ内で同じデータへの参照が続くことが多いので、この手法は有効であると本出願人は思料する。

　図８には、大グラフのアークをＧＰＵ３２０側のデバイスメモリ３２１上にキャッシュする仕組みを図解している。図示の例では、ソース状態（遷移する前の状態）のＩＤと入力ラベルを入力にとり、アークを返すようなデータ構造を、キャッシュとしてデバイスメモリ３２１上に持っておく。

　図９には、大グラフのキャッシュを備えた音声認識システム３００の構成例を示している。

　音声入力部４４１は、マイクロホンなどからなり、音声信号を収音する。信号処理部４０１は、音声入力部４４１で受け付けた音声信号に対して所定のデジタル処理を施す。特徴量抽出部４０２は、例えばフーリエ変換やメルフィルタバンクなどの既知の技術を用いて、音声の特徴量を抽出する。

　ＨＭＭスコア計算部４０３は、音声の特徴量の情報を受け取り、ＧＰＵメモリ（デバイスメモリ）３２１上の音響モデル４３１を使って、各ＨＭＭ状態のスコアを計算する。ＨＭＭには、ＧＭＭやＤＮＮが使用される。

　グラフ探索部４０４は、ＨＭＭ状態スコアを受け取り、ＧＰＵメモリ（デバイスメモリ）３２１上の小グラフ（小さい方のＷＦＳＴモデル）４３２と、大グラフキャッシュ９０１、並びにメインメモリ３１１上の大グラフ（大きい方のＷＦＳＴモデル）４２１を使って、オンザフライ合成による探索処理を行う。

　グラフ探索部４０４は、まず小グラフでトークンを遷移させていく。その遷移で小グラフから単語が出力された場合には、ソース状態（遷移する前の状態）のＩＤと入力ラベルを入力にとり、大グラフのアークの情報を大グラフキャッシュ９０１から取得して、大グラフのトークンの遷移を行う。また、大グラフキャッシュ９０１でキャッシュミスが発生したときには、グラフ探索部４０４は、大グラフのアークの情報をＧＰＵ３２０のデバイスメモリ３２１にコピーするとともに、その大グラフのアークの情報を大グラフキャッシュ９０１内にキャッシュして、大グラフのトークンの遷移を行う。

　グラフ探索部４０４が探索処理で生成した認識結果の仮説リストなどの途中記録は、デバイスメモリ３２１上の作業領域４３３に一時保存される。そして、グラフ探索部４０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行う。

　図１０には、図９に示した音声認識システム３００で実行される音声認識の全体的な処理手順をフローチャートの形式で示している。

　音声入力部４４１に対して音声の入力があると（ステップＳ１００１のＹｅｓ）、信号処理部４０１でデジタル処理後の音声データが、例えば１０ミリ秒毎に区切られて、特徴量抽出部４０２に入力される。

　特徴量抽出部４０２は、信号処理部４０１でデジタル処理した後の音声データに基づいて、例えばフーリエ変換やメルフィルタバンクなどの既知の技術を用いて、音声の特徴量を抽出する（ステップＳ１００２）。図９に示したようにＧＰＵ３２０上でＨＭＭスコア計算を行なう場合には、特徴量データをＧＰＵ３２０側のデバイスメモリ３２１にコピーして、ＨＭＭスコア計算部４０３に入力する（ステップＳ１００３）。

　続いて、ＨＭＭスコア計算部４０３は、音声の特徴量の情報を受け取り、音響モデル４３１を使って、各ＨＭＭ状態のスコアを計算する（ステップＳ１００４）。

　続いて、グラフ探索部４０４は、ＨＭＭ状態スコアを受け取り、ＧＰＵメモリ（デバイスメモリ）３２１上の小グラフ（小さい方のＷＦＳＴモデル）４３２と、大グラフキャッシュ９０１、並びにメインメモリ３１１上の大グラフ（大きい方のＷＦＳＴモデル）４２１を使って、オンザフライ合成による探索処理を行う（ステップＳ１００５）。

　ステップＳ１００５では、グラフ探索部４０４は、まず小グラフでトークンを遷移させていく。その遷移で小グラフから単語が出力された場合には、ソース状態（遷移する前の状態）のＩＤと入力ラベルを入力にとり、大グラフのアークの情報を大グラフキャッシュ９０１から取得して、大グラフのトークンの遷移を行う。また、大グラフキャッシュ９０１でキャッシュミスが発生したときには、グラフ探索部４０４は、メインメモリ３１１上の大グラフ（大きい方のＷＦＳＴモデル）４２１を探索して、目的のアークを取得する。そして、すべての仮説を遷移させたら、グラフ探索部４０４は、全体で仮説の枝刈りを行う。但し、グラフ探索処理の詳細については後述（図１１を参照のこと）に譲る。

　入力音声の終端に到達するまでは（ステップＳ１００１のＹｅｓ）、例えば１０ミリ秒毎に区切られた音声データに対して、上記ステップＳ１００２～Ｓ１００５の処理が繰り返し実行される。

　また、入力音声の終端に到達すると（ステップＳ１００１のＮｏ）、グラフ探索部４０４による音声認識結果の文字列が、デバイスメモリ３２１上の作業領域４３３から、ＣＰＵ３１０側のメインメモリ３１１にコピーされる（ステップＳ１００６）。

　そして、認識結果出力処理部４０５は、ディスプレイやスピーカなどからなる出力部４４２から認識結果を表示又は出力するための処理を実施する（ステップＳ１００７）。

　図１１には、図１０に示したフローチャート中のステップＳ１００５で実行される、グラフ探索処理の詳細な処理手順をフローチャートの形式で示している。

　グラフ探索部４０４は、デバイスメモリ３２１上の小グラフ４３２（小さい方のＷＦＳＴモデル）でトークンを遷移させていく（ステップＳ１１０１）。

　ここで、遷移したアークから単語が出力された場合には（ステップＳ１１０２のＹｅｓ）、ソース状態（遷移する前の状態）のＩＤと入力ラベルを入力にとり、所望する大グラフのアークの情報が大グラフキャッシュ９０１内にあるかどうかをチェックする（ステップＳ１１０３）。

　そして、所望する大グラフのアークの情報が大グラフキャッシュ９０１内にある場合、すなわちキャッシュヒットした場合には（ステップＳ１１０３のＹｅｓ）、大グラフのアークの情報を大グラフキャッシュ９０１から取得して、大グラフ（大きいＷＦＳＴモデル）のトークンの状態遷移を行う（ステップＳ１１０４）。

　また、大グラフキャッシュ９０１がキャッシュミスした場合には（ステップＳ１１０３のＮｏ）、グラフ探索部４０４は、必要となる大グラフのアークの情報を格納しているメインメモリ３２１上のアドレスを計算して、メインメモリ３２１上のそのアドレスから大グラフのアークの情報をＧＰＵ３２０側のデバイスメモリ３２１内の小グラフ４３２にコピーするとともに（ステップＳ１１０６）、その大グラフのアークの情報を大グラフキャッシュ９０１内にキャッシュして（ステップＳ１１０７）、デバイスメモリ３２１上で大グラフのトークンの遷移を行う（ステップＳ１１０４）。

　そして、グラフ探索部４０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行って（ステップＳ１１０５）、本処理を終了する。

Ｆ－４－２．メインメモリ以外に大グラフを展開する変形例
　大グラフをメインメモリ３１１以外に展開して、上記と同じようにグラフ探索処理を行う方法のも考えられる。例えば、ＳＳＤなどの外部記憶装置や、ネットワーク越しの別のシステムのメモリ、同一システム３００内の他のデバイスのメモリなどに、大グラフを展開するようにしてもよい。

Ｆ－５．まとめ
　第１の実施例に係る技術の効果について言及しておく。

　第１の実施例に係る技術を適用した音声認識システムによれば、大規模グラフの探索処理を、メモリ容量の限られたメニーコア演算器で高速に実行することができる。

　第１の実施例に係る技術を適用した音声認識システムは、ＣＰＵとＧＰＵ（若しくは、他のメニーコア演算器）を装備したハイブリッド環境下において、オンザフライ合成を用いた大規模グラフの探索処理を、ＣＰＵに過大な負荷をかけずに実行することができる。これによって、以下のメリットがもたらされる。

（ａ）より高速に処理することができる。
（ｂ）より安価に多くの処理をすることができる。
（ｃ）ＣＰＵとＧＰＵの処理のバランスを調整することができる。

　第１の実施例として説明した技術を、オンザフライ合成が可能なグラフの探索処理をハイブリッド環境に適用するさまざまなケースに対して適用することができる。

Ｇ．ＷＦＳＴデータをディスクに配置した音声認識処理
　大語彙に対応したＷＦＳＴはサイズが数十ＧＢ～数百ＧＢ程度になり、メモリ容量の大きなシステムでないとＷＦＴＳ探索を動作させることができない。このため、すべてのＷＦＳＴのデータをディスクに配置して探索処理を行う方法について提案がなされている（例えば、非特許文献４を参照のこと）。具体的には、ＷＦＳＴを各状態（ノード）から伸びるアークの位置を記述したノードファイル（ｎｏｄｅｓ－ｆｉｌｅ）、アークの情報を記述したアークファイル（ａｒｃｓ－ｆｉｌｅ）、出力シンボルに対応する単語を記述した単語列ファイル（ｓｔｒｉｎｇｓ－ｆｉｌｅ）の３つのファイルに分けて、ディスクに配置している。このような構成によれば、２回のディスクアクセスで任意のアークの情報を取得することができる。また、一度ディスクから読み込んだアークをしばらくメモリに保持する（すなわち、キャッシュする）ことで、ディスクへのアクセス回数を削減して、ディスクアクセスによる処理時間の増加を抑えることができる。

　また、すべてのＷＦＳＴのデータをディスクに配置するとともに、ＷＦＳＴデータのオフセットデータをメモリに配置することで、１回のディスクアクセスにより任意のアークを取得できるようにする方法についても提案されている（例えば、非特許文献５を参照のこと）。ＷＦＳＴデータのオフセットデータは、具体的には、上記の各ノードから伸びるアークの位置の情報である「ノードファイル」に相当する。この方法によれば、ディスクアクセス回数が低減することからより高速に処理することができるが、メモリ使用量が大きくなる。

　そこで、第２の実施例として、すべてのＷＦＳＴデータをディスクに配置することによる処理時間の増加を抑制しつつ、リアルタイム処理を実現する技術について、以下で提案する。なお、ここで言う「リアルタイム処理」とは、例えば、１秒の音声を１秒以内で処理することを意味する。音声エージェントなどの実際のサービスで音声認識を使用する場合、リアルタイムでユーザにレスポンスを返すことが重要である。

　処理時間が遅くなる原因は、ディスクのＩＯＰＳ（ディスクが１秒あたりに処理できるＩ／Ｏアクセスの数）がボトルネックになっていることである。メモリに置くデータ（例えばキャッシュなど）を増やすほど、ディスクへのアクセス回数が削減され、高速に処理できるようになるが、メモリ使用量の削減に反する。第２の実施例では、メモリに置くデータを工夫する（すなわち、有用なデータだけを厳選してメモリに配置する）ことで、メモリ使用量を抑制しながら、高速な音声認識処理を実現する。

Ｇ－１．システム構成
　図１５には、第２の実施例として提案する技術を適用した音声認識システム１５００の構成を概略的に示している。図示の音声認識システム１５００は、ＣＰＵ１５１０と、主記憶装置（以下、「メモリ」とする）１５２０と、補助記憶装置（以下、「ディスク」とする）１５３０を備えている。

　音声認識システム１５００は、ＷＦＳＴモデルを大小２つに分割して、音声認識の実行時に合成するオンザフライ合成を行う。まず、サイズが大きな言語モデルを大小２つに分割する。そして、２つの単語のつながりを考慮した小さい方の言語モデルを、音響モデル及び発音辞書と合成して、小さい方のＷＦＳＴモデルを作る。小さい方のＷＦＳＴモデル（小グラフ）は、比較的容量が小さいメモリ１５２０に配置される。また、４つの単語のつながりを考慮した言語モデルが大きい方のＷＦＳＴモデルとなる。大きい方のＷＦＳＴモデル（大グラフ）はディスク１５３０に配置される。

　ＣＰＵ１５１０は、メモリ１５２０上の小さい方のＷＦＳＴモデルの状態遷移を行うとともに、ディスク１５３０上の大きい方のＷＦＳＴモデルを使った尤度補正を行う。ＣＰＵ１５１０は、基本的にはメモリ１５２０に配置された小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルの状態遷移を行う必要が発生したときには、ディスク１５２０にアクセスして、大きいＷＦＳＴモデルのうち処理に必要なデータ（具体的にはアークの入力ラベル、出力ラベル、重み、アークの遷移先の状態のＩＤ）の部分だけをメモリ１５２０にコピーしながら、すべての探索処理を行う。

　音声認識で使用するＷＦＳＴのデータ（アーク）は、アクセス頻度に大きな偏りがある。オンザフライ合成におけるＷＦＳＴモデルの分割方法では、大きい方の言語モデルＷＦＳＴは、小さい方のＷＦＳＴで単語が出力されたときしかアクセスされず、アクセス頻度が低い。つまり、オンザフライ合成では、アクセス頻度が低い、ＷＦＳＴデータの大半を占める部分を大きい方の言語モデルＷＦＳＴに分離することができる。したがって、アクセス頻度が高い小さい方のＷＦＳＴモデルを高速処理が可能なメモリ１５２０に配置するとともに、アクセス頻度が低くサイズの大きい言語モデルＷＦＳＴをディスク１５３０に配置することで、ディスク１５３０へのアクセス回数が減るので、メモリ使用量を削減しつつ高速なＷＦＳＴ探索を実現することができる。

Ｇ－２．ディスクのアクセス回数の削減方法（１）
　ディスク１５３０に配置されている言語モデルＷＦＳＴへのアクセス回数を減らすためのデータ（以下、「ＷＦＳＴ（大）アクセス用データ」とも言う）をメモリ１５２０に配置することで、より高速に処理することができる。

　図１４にも示したように、言語モデルＷＦＳＴの探索は、ソース状態の状態ＩＤとラベル（入力ラベル）から、それに対応するアークを引き出す処理である。言語モデルＷＦＳＴのデータをすべてディスク１５３０に配置すると、対応するアークを探索するために、複数回のディスクアクセスが発生する。そこで、１回のディスクアクセスで対応するアークを取得できるように、アークを探索するための「ＷＦＳＴ（大）アクセス用データ」をメモリ１５２０に配置する（図１６を参照のこと）。

　ここでは、言語モデルの各アークのデータが配列としてディスク１５３０に配置されていることを想定している。アークのデータは、入力ラベル、出力ラベル、重み、及びアークの遷移先の状態ＩＤを含むものとする。以下、ディスク１５３０上に配置されたアークの配列のことを「アーク配列」とも言う。また、アークは、状態０のアーク、状態１のアーク、状態２のアーク、…のように、ソース状態の状態ＩＤの順に、ディスク１５３０上に配置されている。また、各状態から伸びるアークは複数あり、同じソース状態を持つアークはラベル（入力ラベル）でソートされている。例えば、ソース状態０＆ラベル０のアーク、ソース状態０＆ラベル３のアーク、ソース状態０＆ラベル５のアーク、ソース状態１＆ラベル０のアーク、…のように、ソース状態の状態ＩＤの順で、且つ同じソース状態を持つアークをラベル（入力ラベル）の順に、ディスク１５３０のアーク配列上に配置されている。同じ状態のアークを入力ラベルでソートしておくことで、二分探索が可能である。

　これに対し、メモリ１５２０には、ＷＦＳＴ（大）アクセス用データとして、各状態のアークのアーク配列上の開始位置（オフセット）を格納した「アークインデックス（Ａｒｃ　Ｉｎｄｉｃｅｓ）」を配置する。アークインデックスは、各状態のアークのアーク配列上の開始位置を、状態ＩＤの順にソートして配置している。例えば、状態５から伸びるアークがアーク配列上の１０番目から開始する場合には、アークインデックスの配列の５番目の要素は１０となる。

　さらに、メモリ１５２０上には、ＷＦＳＴ（大）アクセス用データとして、アーク配列上のアークに対応するラベル（入力ラベル）を、アーク配列と同じに配列した「入力ラベル配列（Ｉｎｐｕｔ　Ｌａｂｌｅｓ）」も配置する。アーク配列上では、ソース状態の状態ＩＤの順で、且つ同じソース状態を持つアークをラベル（入力ラベル）の順に、アークをソートして配列されている。したがって、入力ラベル配列上でも、アーク配列上に配置されたアークの順に従って、各アークの入力ラベルが配置されている。例えば、アーク配列上の１０番目のアークのラベルが３であった場合には、入力ラベル配列の１０番目の要素は３となる。

　したがって、ＣＰＵ１５１０がディスク１５３０上でＷＦＴＳ探索を行なう際には、メモリ１５２０に配置したアークインデックスと入力ラベル配列を使うことで、任意の状態ＩＤ及び入力ラベルに対応するアークのディスク１５３０上の位置を、ディスク１５３０にアクセスすることなく知ることができる。まず、アークインデックスで目的のアークのソース状態の状態ＩＤのアーク配列上の開始位置を特定し、続いて、入力ラベル配列上の同開始位置の要素から目的のアークの入力ラベルを検索することで、ディスク１５３０に配置されたアーク配列上の位置にたどり着くことができる。つまり、１回のディスクアクセスで、任意のアークを取得することができる。

　図１７には、ＷＦＳＴ（大）アクセス用データの具体例として、ディスク１５３０上のアーク配列と、メモリ１５２０に配置されたアークインデックス及び入力ラベル配列を示している。

　ディスク１５３０上のアーク配列１７０１は、ソース状態の状態ＩＤの順で、且つ同じソース状態を持つアークをラベル（入力ラベル）の順にソートして、各アークのデータを配置している。アークのデータは、入力ラベル、出力ラベル、重み、及びアークの遷移先の状態ＩＤを含むものとする。ここで、アーク配列１７０１中で「Ａ⁽ⁱ⁾ _j」と書かれた要素には、状態ＩＤが「ｉ」のソース状態でｊ番目の入力ラベルのアークのデータが格納されていることを表す。図１７に示す例では、先頭から４番目までの要素は、状態ＩＤが「０」のソース状態で、入力ラベルが０、１、３、４のアークのデータをそれぞれ格納している。また、５番目から７番目までの要素は、状態ＩＤが「１」のソース状態で、入力ラベルが０、２、７のアークのデータをそれぞれ格納している。同じ状態のアークを入力ラベルでソートしておくことで、二分探索が可能である。

　一方、メモリ１５２０に配置されたアークインデックス１７０２は、各状態のアークのアーク配列上の開始位置を格納している。アークインデックス１７０２は、状態ＩＤでソートした配列型のデータである。図１７に示す例では、状態ＩＤに基づいて０、４、７、１３、１６、２１、…の順で状態がソートされ、各要素には該当する状態ＩＤのアーク配列１７０１上の開始位置を格納している。例えば、アークインデックス１７０２の１番目の要素には状態０のアークのアーク配列１７０１上の開始位置を示す０が格納され、２番目の要素には状態４のアークのアーク配列１７０１上の開始位置を示す４が格納されている。

　また、メモリ１５２０に配置された入力ラベル配列１７０３は、アーク配列１７０１上のアークに対応するラベル（入力ラベル）を、アーク配列１７０１と同じに配列して格納している。したがって、入力ラベル配列１７０３の各要素には、アーク配列１７０１上の同じ位置の要素のアークが持つ入力ラベルが格納されている。図１７に示す例では、先頭から４番目までの要素は、状態ＩＤが「０」のソース状態から伸びる各アークが持つ入力ラベル０、１、３、４をそれぞれ格納している。また、５番目から７番目までの要素は、状態ＩＤが「１」のソース状態から伸びる各アークが持つ入力ラベル０、２、７をそれぞれ格納している。

　ＣＰＵ１５１０が、ディスク１５３０上でアーク配列１７０１の形式で配置された言語モデルＷＦＳＴの探索を行なう際には、まず、メモリ１５２０上のアークインデックス１７０２を参照して、目的のアークのソース状態の状態ＩＤのアーク配列上の開始位置を特定する。そして、入力ラベル配列１７０３の同開始位置の要素から目的のアークの入力ラベルを検索することで、ディスク１５３０に配置されたアーク配列１７０１上の該当する要素にたどり着くことができる。つまり、１回のディスクアクセスで、任意のアークを取得することができる。

Ｇ－３．ディスクのアクセス回数の削減方法（２）
　上記Ｇ－２項で説明した手法では、メモリ１５２０に配置するＷＦＳＴ（大）アクセス用データのサイズが大きいという問題がある。特に、入力ラベル配列は、アーク配列の各要素のアークに対応する入力ラベルのデータを格納するので、ディスク１５３０に配置するアーク配列の４分の１くらいのデータサイズになってしまい、メモリ１５２０の使用量削減という目的を十分に達成できなくなることが懸念される。

　例えば、状態数１億、アーク数１０億のＷＦＳＴを想定すると、ディスク１５３０に配置されるデータは１６ＧＢとなる。これに対し、メモリ１５３０に配置されるデータは４．４ＧＢとなる。具体的に言うと、アークは入力ラベル、出力ラベル、重み、及び遷移先の状態ＩＤの４つのデータからなり、各データのサイズが４バイトずつとすると、１つのアークのデータサイズは１６バイトとなる。したがって、アーク数１０億で、アーク配列のデータサイズは１６ＧＢとなる。このとき、メモリ１５２０に配置される入力ラベル配列のデータサイズは４ＧＢ、アークインデックスのデータサイズは０．４ＧＢであり、大部分は入力ラベル配列である。

　そこで、この項では、１回のディスクアクセスで任意のアークを取得可能としてＷＦＳＴ探索の高速化を実現しつつ、さらにＷＦＳＴ（大）アクセス用データによるメモリ使用量を削減する方法について提案する。

　一般的なオペレーティングシステム又はファイルシステムでは、ディスクのランダムアクセスはページサイズ単位で行われる。１ページは４ＫＢであるのに対し、アークのデータサイズは１６バイトである。このため、１つのアークの読み込みのためのレイテンシと、（１ページに相当する）２５６個のアークの読み込みのレイテンシはほぼ同等になる。

　この項で提案する方法では、目的のアークが配置されているページの位置を計算するためのデータを配置しておく。そして、目的のアークが配置されているページの位置のみを計算してディスクアクセスを実行して１ページすなわち４ＫＢのメモリへの読み込みを行う。その後、メモリに読み込んだ２５６個のアークの中から目的のアークを探索する。目的のアークが配置されているページを特定するだけであれば、１ページ（２５６個のアーク）の先頭の入力ラベルだけ分けっていればよい。このようにすることで、処理時間を増やさずに、入力ラベル配列を２５６分の１のデータ長に縮減することができる。上述と同様に状態数１億及びアーク数１０億のＷＦＳＴを想定すると、メモリに配置する入力ラベル配列のサイズは、４ＧＢから０．０１６ＧＢまで縮減することができる。

　図１８には、この項で提案する方法を実現するための、ＷＦＳＴ（大）アクセス用データの具体例を示している。ディスク１５３０上にアーク配列を配置する一方、メモリ１５２０にアークインデックス及び入力ラベル配列を配置する点は、図１７に示した例と同様である。

　ディスク１５３０上のアーク配列１８０１は、図１７に示した例と同様に、ソース状態の状態ＩＤの順で、且つ同じソース状態を持つアークをラベル（入力ラベル）の順にソートして、各アークのデータを配置している。ここでは、アーク配列１８０１についての詳細な説明は省略する。

　また、メモリ１５２０に配置されたアークインデックス１８０２は、各状態のアークのアーク配列上の開始位置をしている。アークインデックス１８０２は、図１７に示した例と同様に、状態ＩＤでソートした配列型のデータである。ここでは、アークインデックス１８０２についても詳細な説明を省略する。

　図１７に示した例では、入力ラベル配列１７０３は、アーク配列１７０１上のアークに対応するラベル（入力ラベル）を、アーク配列１７０１と同じ配列で格納している。これに対して、図１８に示す例では、入力ラベル配列１８０３は、目的のアークが配置されているページの位置を計算するためのデータを格納する。具体的には、アーク配列１８０１を２５６個毎（すなわち、ページ毎）に区切り、各２５６個のアーク配列１８０１の先頭の入力ラベルのみを入力ラベル配列１８０３に格納する。２５６個のアークは４ＫＢすなわち１ページに相当する。したがって、入力ラベル配列１８０３は、目的のアークが配置されているページの位置を計算するためのデータを格納しており、目的のアークを含むページを特定して、ディスク１５３０から１ページ分のアークのデータをメモリ１５２０へ読み込むことができる。

　ＣＰＵ１５１０が、ディスク１５３０上でアーク配列１８０１の形式で配置された言語モデルＷＦＳＴの探索を行なう際には、まず、メモリ１５２０上のアークインデックス１８０２を参照して、状態ＩＤに該当する要素からその状態のアークのアーク配列１８０１上の開始位置を特定して、目的のアークが存在し得るページ範囲を計算する。続いて、メモリ１５２０上の入力ラベル配列１８０３を参照して、目的のアークが存在し得る各ページ先頭のラベルと入力ラベルとを比較して、目的のアークが存在するページを特定する。そして、ディスク１５３０へのアクセスを実行して、１ページすなわち２５６個のアークのデータをメモリ１５２０に読み込んだ後、その２５６個のアークの中から目的のアークを探索する。

　この項で提案する方法によれば、Ｇ－２項で提案した方法と処理時間をほとんど変えることなく、メモリ１５２０に配置するＷＦＳＴ（大）アクセス用データのサイズを削減することができる。入力ラベル配列１８０３のデータ量は、図１７に示した入力ラベル配列１７０３の２５６分の１になる。

　また、１回のディスクアクセスで読み込む２５６個のアークの中に、有用なアークをできるだけ増やすようにアーク配列１８０１を並べ替えることで、さらにディスクアクセスの回数を削減することができる。有用なアークをできるだけ増やすということは、つまり、同時に使用される可能性の高いアークを同じページ（２５６個のアークのグループ）の中に入れるということである。上述したように、同じ状態（ノード）から伸びるアークをまとめ、且つラベル順にソートしてアーク配列に配置する必要があるので、同時に使用される可能性の高いアークをひとまとめにして並べ替える必要がある（つまり、状態ＩＤの付け直しが必要である）。

　アークの並べ替え方として、ＷＦＳＴの構造に基づいた方法が挙げられる。具体的には、ＷＦＳＴ上で繋がっている状態（ノード）から伸びるアークを可能な限り近くにまとめて配置する方法である。

　他には、言語モデルのアクセスパターンの統計に基づいて並べ替える方法が挙げられる。これは、実際にＷＦＳＴ探索を動作させ、その際の言語モデルのアクセスパターンの統計に基づいてアークを並べ替える方法である。この方法では、実際の音声に基づいて統計を取るので、特定のサービスに最適化することもできる。

　また、処理時間を短縮するため、言語モデルのアークの事前読み込みを行うようにしてもよい。この方法によれば、次にディスク１５３０から読み込まれそうなアークを予測して、あらかじめメモリ１５２０に読み込んでおき、ディスクアクセスのレイテンシ分の処理時間の削減を図ることができる。予測が外れた場合には、無駄なディスクアクセスが生じてしまうが、ディスク１５３０のＩＯＰＳがボトルネックにならなければ、処理時間の削減には有効である。言語モデルのアクセスパターンの予測器は、ＨＭＭやＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）などのシーケンスモデルを使って学習することができる。ＷＦＳＴ探索の実行時には、事前に学習済みのモデルを使用してもよいし、音声認識システム１５００の処理中にオンラインで学習するようにしてもよい。

Ｇ－４．機能的構成例
　図１９には、第２の実施例として提案する技術を適用した音声認識システム１５００の具体的な機能的構成例を示している。

　ＣＰＵ１９００内には、信号処理部１９０１と、特徴量抽出部１９０２と、ＨＭＭスコア計算部１９０３と、ＷＦＳＴ探索部１９０４と、認識結果出力部１９０５が配置される。参照番号１９０１～１９０５で示されるこれらの機能モジュールは、実際には、ＣＰＵ１９００で実行されるソフトウェアプログラムであってもよい。また、ＣＰＵの代わりにＧＰＵのようなメニーコア演算器を使い、あるいは、ＣＰＵとＧＰＵの組み合わせにより、参照番号１９０１～１９０５で示される機能モジュールを実現するようにしてもよい。

　音声入力部１９３１は、マイクロホンなどからなり、音声信号を収音する。信号処理部１９０１は、音声入力部１９３１で受け付けた音声信号に対して所定のデジタル処理を施す。特徴量抽出部１９０２は、例えばフーリエ変換やメルフィルタバンクなどの既知の技術を用いて、音声の特徴量を抽出する。ＨＭＭスコア計算部１９０３は、音声の特徴量の情報を受け取り、ＲＡＭ１９１０内の音響モデル１９１１を使って、各ＨＭＭ状態のスコアを計算する。ＨＭＭには、ＧＭＭやＤＮＮが使用される。

　ＷＦＳＴ探索部１９０４は、ＨＭＭ状態スコアを受け取り、上述したメモリとしてのＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１９１０上の小グラフ（小さい方のＷＦＳＴモデル）１９１２と、上述したディスクとしてのＳＳＤ１９２０上の大グラフ（大きい方のＷＦＳＴモデル）１９２１を使って、オンザフライ合成による探索処理を行う。

　ＳＳＤ１９２０上の大グラフ（大きい方のＷＦＳＴモデル）１９２１は、アーク配列である。アーク配列は、ソース状態の状態ＩＤの順で、且つ同じソース状態を持つアークをラベル（入力ラベル）の順にソートして、各アークのデータを配置している（前述）。ＷＦＳＴ探索部１９０４は、ＲＡＭ１９１０内にＷＦＳＴモデル（大）アクセス用データ１９１４として格納されているアークインデックス及び入力ラベル配列を活用して、ＳＳＤ１９２０内のアーク配列に高速アクセスすることができる。

　また、ＷＦＳＴ探索部１９０４がＷＦＳＴ探索処理を行なう際、ＲＡＭ１９１０上の言語モデルアークキャッシュ１９１３には、一度ＳＳＤ１９２０から読み出されたアークがページ単位で格納される。また、ＲＡＭ１９１０内の作業領域１９１５には、ＷＦＳＴ探索時のトークンなどのデータが一時格納される。

　ＣＰＵ１９００内では、音声入力部１９３１からの音声データの入力がなくなるまで（言い換えれば、発話の終端まで）、信号処理乃至ＷＦＳＴ探索の処理を繰り返す。そして、音声データの入力がなくなると、ＷＦＳＴ探索部１９０４は、尤も確からしい仮説から抽出した認識結果を、認識結果出力部１９０５に出力する。そして、認識結果出力部１９０５は、ディスプレイやスピーカなどからなる出力部１９３２から認識結果を表示又は出力するための処理を実施する。

　なお、音声認識システム１５００は、音声入力部１９３１又は出力部１９３２の少なくとも一方を含めた装置として構成されてもよい。あるいは、ＣＰＵ１９００及びＧＰＵ３２０はクラウド上のサーバ内に搭載され、音声入力部４４１及び出力部４４２は音声エージェント装置として構成されてもよい（後述）。

Ｇ－５．システム動作
　図２０には、図１９に示した音声認識システム１５００で実行される音声認識の全体的な処理手順をフローチャートの形式で示している。

　音声入力部１９３１に対して音声の入力があると（ステップＳ２００１のＹｅｓ）、信号処理部１９０１でデジタル処理後の音声データが、例えば１０ミリ秒毎に区切られて、特徴量抽出部１９０２に入力される。

　特徴量抽出部１９０２は、信号処理部１９０１でデジタル処理した後の音声データに基づいて、例えばフーリエ変換やメルフィルタバンクなどの既知の技術を用いて、音声の特徴量を抽出して（ステップＳ１９０２）、特徴量データをＨＭＭスコア計算部１９０３に入力する。

　続いて、ＨＭＭスコア計算部１９０３は、音声の特徴量の情報を受け取り、音響モデル１９２１を使って、各ＨＭＭ状態のスコアを計算する（ステップＳ２００３）。

　続いて、ＷＦＳＴ探索部１９０４は、ＨＭＭ状態スコアを受け取り、ＲＡＭ１９１１上の小グラフ（小さい方のＷＦＳＴモデル）１９１２と、ＳＳＤ１９２０上の大グラフ（大きい方のＷＦＳＴモデル）１９２１を使って、オンザフライ合成による探索処理を行う（ステップＳ２００４）。

　ステップＳ２００４では、ＷＦＳＴ探索部１９０４は、まずＲＡＭ１９１１上の小グラフ１９１２でトークンを遷移させていく。その遷移で小グラフから単語が出力された場合には、ＳＳＤ１９２０上の大グラフ１９２１での遷移を行う。その際、ＷＦＳＴ探索部１９０４は、ＲＡＭ１９１０内にＷＦＳＴモデル（大）アクセス用データ１９１４として格納されているアークインデックス及び入力ラベル配列を使って、必要なアークが配置されているページを特定する。ＷＦＳＴ探索部１９０４は、該当するアークを含むページが言語モデルアークキャッシュ１９１３に存在すれば、ＷＦＳＴ探索部１９０４は、そこから読み込み、存在しなければ、ＳＳＤ１９２０上の大グラフ１９２１から読み込む。そして、ＷＦＳＴ探索部１９０４は、読み込んだページから目的のアークを探索して、そのアークのデータを使って、大グラフ上のトークンの遷移を行う。

　入力音声の終端に到達するまでは（ステップＳ２００１のＹｅｓ）、例えば１０ミリ秒毎に区切られた音声データに対して、上記ステップＳ２００２～Ｓ２００４の処理が繰り返し実行される。

　また、入力音声の終端に到達すると（ステップＳ２００１のＮｏ）、ＷＦＳＴ探索部１９０４は、ＲＡＭ１９１０の作業領域１９１５のトークンの中から、尤も確からしい仮説を選択して、認識結果として出力する。そして、認識結果出力部１９０５は、ディスプレイやスピーカなどからなる出力部１９３２から認識結果を表示又は出力するための処理を実施する（ステップＳ２００５）。

　図２１には、図２０に示したフローチャート中のステップＳ２００４で実行される、ＷＦＳＴ探索処理の詳細な処理手順の一例をフローチャートの形式で示している。但し、図２１に示す処理手順は、上述したＧ－２項で説明したディスクアクセス方法（図１７を参照のこと）に従うものとする。

　ＷＦＳＴ探索部１９０４は、ＲＡＭ１９１０上の小グラフ１９１２（小さい方のＷＦＳＴモデル）でトークンを遷移させていく（ステップＳ２１０１）。

　ここで、遷移したアークから単語が出力されない場合には（ステップＳ２１０２のＮｏ）、ＷＦＳＴ探索部１９０４は、全体で仮説の枝刈りを行って（ステップＳ２１０７）、本処理を終了する。

　遷移したアークから単語が出力された場合には（ステップＳ２１０２のＹｅｓ）、ＷＦＳＴ探索部１９０４は、ＷＦＳＴ（大）アクセス用データ１９１４を使って、ＷＦＴＳモデル（大）１９２１上における目的のアークの位置を特定する（ステップＳ２１０３）。ＷＦＳＴ探索部１９０４は、まず、ＷＦＳＴ（大）アクセス用データ１９１４内のアークインデックスを参照して、目的のアークのソース状態の状態ＩＤのアーク配列上の開始位置を特定する。次いで、ＷＦＳＴ探索部１９０４は、ＷＦＳＴ（大）アクセス用データ１９１４内の入力ラベル配列の同開始位置の要素から目的のアークの入力ラベルを検索することで、アーク配列上の目的とするアークの位置を特定する。

　次いで、ＷＦＳＴ探索部１９０４は、該当するページ（すなわち、目的とするアークのデータを含むページ）が言語モデルアークキャッシュ１９１３内に存在するかどうかをチェックする（ステップＳ２１０４）。

　該当するページが言語モデルアークキャッシュ１９１３内に既に存在する場合には（ステップＳ２１０４のＹｅｓ）、ＷＦＳＴ探索部１９０４は、言語モデルアークキャッシュ１９１３から目的とするアークのデータを読み込んで（ステップＳ２１０５）、大グラフ上のトークンの遷移を行う（ステップＳ２１０６）。

　一方、該当するページが言語モデルアークキャッシュ１９１３内に存在しない場合には（ステップＳ２１０４のＮｏ）、ＷＦＳＴ探索部１９０４は、ＳＳＤ１９２０に配置されたＷＦＳＴモデル（大）１９２１すなわちアーク配列から、ステップＳ２１０３で特定された位置を含むページを読み込んで（ステップＳ２１０８）、言語モデルアークキャッシュ１９１３に書き込む（ステップＳ２１０９）。そして、ＷＦＳＴ探索部１９０４は、読み込んだページから目的のアークを探索して、そのアークのデータを使って、大グラフ上のトークンの遷移を行う（ステップＳ２１０６）。

　そして、ＷＦＳＴ探索部１９０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行って（ステップＳ２１０７）、本処理を終了する。

　また、図２２には、図２０に示したフローチャート中のステップＳ２００４で実行されるＷＦＳＴ探索処理の詳細な処理手順の他の例をフローチャートの形式で示している。但し、図２２に示す処理手順は、上述したＧ－３項で説明したディスクアクセス方法（図１８を参照のこと）に従うものとする。

　ＷＦＳＴ探索部１９０４は、ＲＡＭ１９１０上の小グラフ１９１２（小さい方のＷＦＳＴモデル）でトークンを遷移させていく（ステップＳ２２０１）。

　ここで、遷移したアークから単語が出力されない場合には（ステップＳ２２０２のＮｏ）、ＷＦＳＴ探索部１９０４は、全体で仮説の枝刈りを行って（ステップＳ２２０８）、本処理を終了する。

　遷移したアークから単語が出力された場合には（ステップＳ２２０２のＹｅｓ）、ＷＦＳＴ探索部１９０４は、ＷＦＳＴ（大）アクセス用データ１９１４を使って、ＷＦＴＳモデル（大）１９２１上における目的のアークが配置されているページを特定する（ステップＳ２２０３）。ＷＦＳＴ探索部１９０４は、まず、ＷＦＳＴ（大）アクセス用データ１９１４内のアークインデックスを参照して、状態ＩＤに該当する要素からその状態のアークのアーク配列上の開始位置を特定して、目的のアークが存在し得るページ範囲を計算する。続いて、ＷＦＳＴ（大）アクセス用データ１９１４内の入力ラベル配列を参照して、目的のアークが存在し得る各ページ先頭のラベルと入力ラベルとを比較して、目的のアークが存在するページを特定する。

　次いで、ＷＦＳＴ探索部１９０４は、該当するページが言語モデルアークキャッシュ１９１３内に存在するかどうかをチェックする（ステップＳ２２０４）。

　該当するページが言語モデルアークキャッシュ１９１３内に既に存在する場合には（ステップＳ２２０４のＹｅｓ）、ＷＦＳＴ探索部１９０４は、言語モデルアークキャッシュ１９１３から該当するページすなわち２５６個のアークのデータを読み込む（ステップＳ２２０５）、その２５６個のアークの中から目的のアークを探索する（ステップＳ２２０６）。

　一方、該当するページが言語モデルアークキャッシュ１９１３内に存在しない場合には（ステップＳ２２０４のＮｏ）、ＷＦＳＴ探索部１９０４は、ＳＳＤ１９２０に配置されたＷＦＳＴモデル（大）１９２１すなわちアーク配列から、ステップＳ２２０３で特定された位置を含むページを読み込んで（ステップＳ２２０９）、言語モデルアークキャッシュ１９１３に書き込む（ステップＳ２２１０）。

　そして、ＷＦＳＴ探索部１９０４は、読み込んだページから目的のアークを探索して（ステップＳ２２０６）、大グラフ上のトークンの遷移を行う（ステップＳ２２０７）。

　次いで、ＷＦＳＴ探索部１９０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行って（ステップＳ２２０８）、本処理を終了する。

　図２３には、図２２に示したフローチャート中のステップＳ２２０３で実行される、ＷＦＴＳモデル（大）１９２１（すなわち、アーク配列）上における目的のアークが配置されているページを特定するための詳細な処理手順をフローチャートの形式で示している。

　ＷＦＳＴ探索部１９０４は、まず、ＷＦＳＴ（大）アクセス用データ１９１４内のアークインデックス中の、目的のアークの状態ＩＤに該当する要素及びその次の要素を参照して、目的のアークが存在し得るページ範囲を計算する（ステップＳ２３０１）。

　例えば、図１８に示したアークインデックス１８０２において、目的のアークの状態ＩＤが「０」であれば、１番目の要素「０」と２番目（すなわち、状態ＩＤが「４」）の要素「４」を参照して、状態ＩＤが「０」のソース状態から伸びるアークが１～２５６番目の範囲内であることから、目的のアークがページ０に存在することを特定することができる。

　もちろん、アークインデックス中の目的のアークの状態ＩＤに該当する要素とその次の要素が２５６以上離間している場合には、目的のアークが存在し得るページ範囲は複数ページにまたがることになる。例えば、目的のアークの状態ＩＤのアーク配列上の開始位置がＮ番目の場合、そのソース状態から伸びる先頭のアークは、［Ｎ／２５６］ページ目に存在する（但し、［Ｘ］は実数Ｘに対してＸ以下の最大の整数とする）。具体的には、目的のアークのソース状態の状態ＩＤがアークインデックスの１０番目であり、１０番目の要素が３００で、続く１１番目の要素が９００であった場合、目的のアークは、［３００／２５６］＝１ページ目から［９００／２５６］＝３ページ目の中に存在することになる。

　続いて、ＷＦＳＴ探索部１９０４は、ＷＦＳＴ（大）アクセス用データ１９１４内の入力ラベル配列を参照して、先行ステップＳ２３０１で計算したページ範囲に対応する各ページの先頭のラベルを目的のアークの入力ラベルと比較して、目的のアークが存在するページを特定する（ステップＳ２３０２）。

　各状態から伸びるアークは複数あるが、同じソース状態を持つアークはラベル（入力ラベル）でソートされている（前述）。したがって、各ページの先頭ラベルと目的のアークの入力ラベルとを比較することで、ページを特定することができる。例えば、目的のアークの入力ラベルが１００で、目的のアークが存在し得るページ範囲が１ページ目から３ページ目の間であり、入力ラベル配列中の１ページ目、２ページ目、及び３ページ目の各々の先頭のラベルが３００、５０、１５０であったとする。１ページ目の先頭ラベルは目的のアークの入力ラベルの範囲外であり、前の状態の入力ラベルであることが分かる。したがって、目的のアークの入力ラベルは２ページ目の開始位置から３ページ目の開始位置までの間に存在することになるので、目的のアークは２ページ目に存在することを特定することができる。

　続いて、ＷＦＳＴ探索部１９０４は、特定したページを、ＳＳＤ１９２０上の大グラフ１９２１すなわちアーク配列から読み込む（ステップＳ２３０３）。

　次いで、ＷＦＳＴ探索部１９０４は、ＳＳＤ１９２０上のアーク配列から読み込んだページの２５６個のアークの中から、入力ラベルを使って、目的のアークを検索する（ステップＳ２３０４）。

　読み込んだ各アークは、入力ラベル情報を持っている（例えば、図１４を参照のこと）。ステップＳ２３０１でアークインデックスを参照した時点で、２５６個のアークのうち、目的のアークの状態ＩＤのソース状態から伸びるアークの範囲が分かる。すなわち、目的のアークの状態ＩＤに該当する要素及びその次の要素の差が、その状態から伸びるアークの数である。したがって、その範囲内で入力ラベルを比較すれば、目的のアークを１つに特定することができる（又は、目的のアークが存在しないことが分かる）。

　そして、ＷＦＳＴ探索部１９０４は、目的のアークが存在したかどうかをチェックする（ステップＳ２３０５）。ＳＳＤ１９２０から読み出したページに目的のアークが存在する場合には（ステップＳ２３０５のＹｅｓ）、ＷＦＳＴ探索部１９０４は、本処理を終了する。

　一方、読み出したページに目的のアークが存在しない場合には（ステップＳ２３０５のＮｏ）、ＷＦＳＴ探索部１９０４は、バックオフ状態へ遷移する。具体的には、入力ラベルに０をセットして（ステップＳ２３０６）、ステップＳ２３０１に戻り、上記と同様の処理を繰り返す。ラベル０は、バックオフ遷移するアークを示す。

Ｇ－６．アークの事前読み込み機能を持つシステム
　図２４には、アークの事前読み込み機能を持つ音声認識システム１５００の具体的な機能的構成例を示している。

　ＣＰＵ２４００内には、信号処理部２４０１と、特徴量抽出部２４０２と、ＨＭＭスコア計算部２４０３と、ＷＦＳＴ探索部２４０４と、認識結果出力部２４０５が配置される。参照番号２４０１～２４０５で示されるこれらの機能モジュールは、実際には、ＣＰＵ２４００で実行されるソフトウェアプログラムであってもよい。また、参照番号２４０１～２４０５で示される各機能モジュールは、基本的には、図１９に示した音声認識システム１５００内の同名の機能モジュールと同様の機能又は役割を果たすので、ここでは詳細な説明を省略する。

　また、ＲＡＭ２４１０は上述したメモリに相当し、ＳＳＤ２４２０は上述したディスクに相当する。ＲＡＭ２４１０には、ＨＭＭ状態のスコア計算に使用する音響モデル２４１１、小グラフ（小さい方のＷＦＳＴモデル）２５１２、一度ＳＳＤ２４２０から読み出されたアークがページ単位で格納される言語モデルアークキャッシュ２４１３、並びに、アークインデックス及びに宇力ラベル配列などからなるＷＦＳＴモデル（大）アクセス用データ２４１４が配置される。一方、ＳＳＤ２４２０には、大グラフ（大きい方のＷＦＳＴモデル）２４２１が配置される。

　図２４に示す音声認識システム１５００では、ＲＡＭ２４１０上に、言語モデルのアークの事前読み込みに使用する言語モデルアクセスパターンモデル２４１６がさらに配置されている。言語モデルのアークの事前読み込み機能について、以下で説明する。

　図２４に示した音声認識システム１５００では、ディスクすなわちＳＳＤ２４２０の読み込みのレイテンシを隠ぺいするために、実際に必要となる前にあらかじめアークをＳＳＤ２４２０からＲＡＭ２４１０内の言語モデルアークキャッシュ２４１３に読み込んでおく。ＷＦＳＴ探索部２４０４（又は、ＣＰＵ２４００で実行される他の（図示しない）機能モジュール）は、ＲＡＭ２４１０内に配置されている言語モデルアクセスパターンモデル２４１６を用いて、次に必要となりそうなアークを予測して、事前読み込みを実施する。

　言語モデルアクセスパターンモデル２４１６は、事前学習済みのＨＭＭやＬＳＴＭ（Ｌｏｎｇ－Ｓｈｏｒｔ　Ｔｅｒｍ　Ｍｅｍｏｒｙ）などのシーケンスモデルを使用したものでもよいし、音声認識システム１５００の処理を動作させながらオンラインに学習するようにしてもよい。言語モデルアクセスパターンモデル２４１６は、過去のアークへのアクセスパターン（１回前、又は複数回前）を入力にとり、次にアクセスされる可能性が高い（又は、上位からＮ個の）アーク（又は、ページ）を出力する。事前読み込みされたアークは、ＲＡＭ２４１０内の言語モデルアークキャッシュ２４１３に配置される。

　もし予測が当たっており、事前読み込みができていれば、次の処理でアクセスされるアークが既に言語モデルアークキャッシュ２４１３に存在するので、ＳＳＤ２３２０からの読み込みが不要となり、ディスクアクセスのレイテンシによる処理時間の増加を防ぐことができる。

　なお、事前読み込みはアーク単位でもよいし、ページ単位でもよい。言語モデルアークキャッシュ２４１３がアーク単位であればアーク単位で事前読み込みし、キャッシュがページ単位であればページ単位で事前読み込みする。

　図２５及び図２６には、図２４に示した音声認識システム１５００において、ＷＦＳＴ探索部２４０４が実行するＷＦＳＴ探索処理の詳細な処理手順をフローチャートの形式で示している。図示の処理手順では、ＷＦＳＴ探索処理と並行して、アークの事前読み込みが実施される。但し、図示の処理手順は、上述したＧ－３項で説明したディスクアクセス方法（図１８を参照のこと）に従うものとする。

　ＷＦＳＴ探索部２４０４は、ＲＡＭ１９１０上の小グラフ１９１２（小さい方のＷＦＳＴモデル）でトークンを遷移させていく（ステップＳ２５０１）。

　ここで、遷移したアークから単語が出力されない場合には（ステップＳ２５０２のＮｏ）、ＷＦＳＴ探索部２４０４は、全体で仮説の枝刈りを行って（ステップＳ２５０８）、本処理を終了する。

　遷移したアークから単語が出力された場合には（ステップＳ２５０２のＹｅｓ）、ＷＦＳＴ探索部２４０４は、ＷＦＳＴ（大）アクセス用データ２４１４を使って、ＷＦＴＳモデル（大）１９２１上における目的のアークが配置されているページを特定する（ステップＳ２５０３）。ステップＳ２５０３では、基本的には図２３に示した処理手順に従って実施される。

　次いで、ＷＦＳＴ探索部２４０４は、該当するページが言語モデルアークキャッシュ２４１３内に存在するかどうかをチェックする（ステップＳ２５０４）。該当するページが言語モデルアークキャッシュ２４１３内に既に存在する場合には（ステップＳ２５０４のＹｅｓ）、ＷＦＳＴ探索部２４０４は、言語モデルアークキャッシュ２４１３から該当するページを読み込んで（ステップＳ２５０５）、そのページの中から目的のアークを探索する（ステップＳ２５０６）。

　一方、該当するページが言語モデルアークキャッシュ２４１３内に存在しない場合には（ステップＳ２５０４のＮｏ）、ＷＦＳＴ探索部２４０４は、ＳＳＤ２４２０に配置されたＷＦＳＴモデル（大）２４２１すなわちアーク配列から、ステップＳ２５０３で特定された位置を含むページを読み込んで（ステップＳ２５０９）、言語モデルアークキャッシュ２４１３に書き込む（ステップＳ２５１０）。

　そして、ＷＦＳＴ探索部２４０４は、読み込んだページから目的のアークを探索して（ステップＳ２５０６）、大グラフ上のトークンの遷移を行う（ステップＳ２５０７）。次いで、ＷＦＳＴ探索部２４０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行って（ステップＳ２５０８）、本処理を終了する。

　また、ＷＦＳＴ探索部２４０４（又は、ＣＰＵ２４００が実行する事前読み込み用の機能モジュール）は、目的のアークが配置されているページを特定する処理（ステップＳ２５０３）と並行して、アークの事前読み込み処理を実施する。

　ＷＦＳＴ探索部２４０４は、ページのアクセスパターンを言語モデルアクセスパターンモデル２４１６に入力する（ステップＳ２５１１）。言語モデルアクセスパターンモデル２４１６は、過去のアークへのアクセスパターン（１回前、又は複数回前）を入力にとり、次にアクセスされる可能性が高いページを出力する。

　そして、ＷＦＳＴ探索部２４０４は、言語モデルアクセスパターンモデル２４１６から出力された、次にアクセスされる可能性が高いページが言語モデルアークキャッシュ２４１３内に存在するかどうかをチェックする（ステップＳ２５１２）。ここで、該当するページが言語モデルアークキャッシュ２４１３内に既に存在する場合には（ステップＳ２５０４のＹｅｓ）、事前読み込みの必要がないので、本処理を終了する。

　一方、該当するページが言語モデルアークキャッシュ２４１３内に存在しない場合には（ステップＳ２５１２のＮｏ）、ＷＦＳＴ探索部２４０４は、ステップＳ２５１１で言語モデルアクセスパターンモデル２４１６から出力されたページの事前読み込みを実施する。すなわち、ＳＳＤ２４２０に配置されたＷＦＳＴモデル（大）２４２１すなわちアーク配列から該当するページを読み込んで（ステップＳ２５１３）、言語モデルアークキャッシュ２４１３に書き込む（ステップＳ２５１４）。

Ｈ．ハイブリッド環境下でディスクを用いたオンザフライ合成
　上記Ｇ項では、２分割したＷＦＳＴデータをメモリ及びディスクに配置してオンザフライ合成をＣＰＵ（言い換えれば、単一のプロセッサ）で実現する技術について説明してきた。これに対し、この項では、ＣＰＵとＧＰＵからなるハイブリッド環境下でディスクを用いたオンザフライ合成を実現する技術について説明する。

　図２７には、ハイブリッド環境下でディスクを用いたオンザフライ合成を実現する音声認識システム２７００の機能的構成例を示している。

　音声認識システム２７００は、音声認識処理に関わる処理を実行するプロセッサとして、ＣＰＵ２７１０とＧＰＵ２７２０を備えている。ＣＰＵ２７１０内には、信号処理部２７０１と、特徴量抽出部２７０２と、認識結果処理部２７０５の各機能モジュールが配置される。また、ＧＰＵ２７２０内には、ＨＭＭスコア計算部２７０３と、ＷＦＳＴ探索部２７０４の各機能モジュールが配置される。参照番号２７０１～２７０５で示されるこれらの機能モジュールは、実際には、ＣＰＵ２７１０及びＧＰＵ２７２０でそれぞれ実行されるソフトウェアプログラムであってもよい。また、音声認識システム２７００では、ディスクとしてＳＳＤ２７４０が使用されるが、メモリとしてＧＰＵ２７２０の内蔵メモリ（以下、「ＧＰＵメモリ」とする）２７３０が使用される。

　音声入力部２７５１は、マイクロホンなどからなり、収音した音声信号をＣＰＵ２７１０に入力する。ＣＰＵ２７１０内では、信号処理部２７０１は、音声信号に対して所定のデジタル処理を施す。そして、特徴量抽出部２７０２は、音声の特徴量を抽出して、ＧＰＵ２７２０に出力する。

　ＧＰＵ２７２０内では、ＨＭＭスコア計算部２７０３は、音声の特徴量の情報を受け取り、ＧＰＵメモリ２７３０内の音響モデル２７３１を使って、各ＨＭＭ状態のスコアを計算する。そして、ＷＦＳＴ探索部２７０４は、ＨＭＭ状態スコアを受け取り、ＧＰＵメモリ２７３０内の小グラフ（小さい方のＷＦＳＴモデル）２７３２と、ＳＳＤ２７４０上の大グラフ（大きい方のＷＦＳＴモデル）２７４１を使って、オンザフライ合成による探索処理を行う。

　ＳＳＤ２７４０上の大グラフ（大きい方のＷＦＳＴモデル）２７４１は、アーク配列である。ＷＦＳＴ探索部２７０４は、ＧＰＵメモリ２７３０内にＷＦＳＴモデル（大）アクセス用データ２７３４として格納されているアークインデックス及び入力ラベル配列を活用して、ＳＳＤ２７４０内のアーク配列に高速アクセスすることができる（同上）。

　ＷＦＳＴ探索部２７０４がＷＦＳＴ探索処理を行なう際、ＧＰＵメモリ２７３０内の言語モデルアークキャッシュ２７３３には、一度ＳＳＤ２７４０から読み出されたアークがページ単位で格納される。また、ＧＰＵメモリ２７３０内の作業領域２７３５には、ＷＦＳＴ探索時のトークンなどのデータが一時格納される。

　また、ＷＦＳＴ探索部２７０４がＷＦＳＴ探索処理を行なう際、アークの事前読み込み処理を並行して実施する。ＷＦＳＴ探索部２７０４は、ＧＰＵメモリ２７３０内の言語モデルアクセスパターンモデル２７３６にページのアクセスパターンを入力する。そして、ＷＦＳＴ探索部２７０４は、言語モデルアクセスパターンモデル２７３６から出力される、次にアクセスされる可能性が高いページをＳＳＤ２７４０内のＷＦＳＴモデル（大）２７４１から読み込んで、ＧＰＵメモリ２７３０内の言語モデルアークキャッシュ２７３３に書き込む。

　ＣＰＵ２７１０及びＧＰＵ２７２０では、音声入力部２７５１からの音声データの入力がなくなるまで（言い換えれば、発話の終端まで）、信号処理乃至ＷＦＳＴ探索の処理を繰り返す。そして、音声データの入力がなくなると、ＧＰＵ２７２０内のＷＦＳＴ探索部２７０４は、尤も確からしい仮説から抽出した認識結果を、ＣＰＵ２７１０側の認識結果出力部２７０５に出力する。そして、認識結果出力部２７０５は、ディスプレイやスピーカなどからなる出力部２７５２から認識結果を表示又は出力するための処理を実施する。

　図２８には、図２７に示した音声認識システム２７００で実行される音声認識の全体的な処理手順をフローチャートの形式で示している。

　音声入力部２７５１に対して音声の入力があると（ステップＳ２８０１のＹｅｓ）、信号処理部２７０１でデジタル処理後の音声データが、例えば１０ミリ秒毎に区切られて、特徴量抽出部２７０２に入力される。

　特徴量抽出部２７０２は、信号処理部２７０１でデジタル処理した後の音声データに基づいて、例えばフーリエ変換やメルフィルタバンクなどの既知の技術を用いて、音声の特徴量を抽出する（ステップＳ２８０２）。図２７に示したようにＧＰＵ２７２０上でＨＭＭスコア計算を行なう場合には、特徴量データをＧＰＵメモリ２７３０の作業領域２７３５にコピーして、ＨＭＭスコア計算部２７０３に入力する（ステップＳ２８０３）。

　続いて、ＨＭＭスコア計算部２７３は、音声の特徴量の情報を受け取り、ＧＰＵメモリ２７３０内の音響モデル２７３１を使って、各ＨＭＭ状態のスコアを計算する（ステップＳ２８０４）。

　続いて、ＷＦＳＴ探索部２７０４は、ＨＭＭ状態スコアを受け取り、ＧＰＵメモリ２７３０上の小グラフ（小さい方のＷＦＳＴモデル）２７３２と、言語モデルアークキャッシュ２７３３、並びにＳＳＤ２７４０上の大グラフ（大きい方のＷＦＳＴモデル）２７４１を使って、オンザフライ合成による探索処理を行う（ステップＳ２８０５）。

　ステップＳ２８０５では、ＷＦＳＴ探索部２７０４は、まず小グラフでトークンを遷移させていく。その遷移で小グラフから単語が出力された場合には、ソース状態（遷移する前の状態）のＩＤと入力ラベルを入力にとり、大グラフのアークの情報を言語モデルアークキャッシュ２７３３から取得して、大グラフのトークンの遷移を行う。また、言語モデルアークキャッシュ２７３３でキャッシュミスが発生したときには、ＳＳＤ２７４０上の大グラフ（大きい方のＷＦＳＴモデル）２７４１を探索して目的のアークを読み込む。ＷＦＳＴ探索部２７０４は、は、例えば図２５及び図２６に示した処理手順に従って大グラフ（大きい方のＷＦＳＴモデル）２７４１の探索を行い、アークの事前読み込みを並行して行うようにしてもよい。そして、ＷＦＳＴ探索部２７０４は、すべての仮説を遷移させたら、全体で仮説の枝刈りを行う。

　入力音声の終端に到達するまでは（ステップＳ２８０１のＹｅｓ）、例えば１０ミリ秒毎に区切られた音声データに対して、上記ステップＳ２８０２～Ｓ２８０５の処理が繰り返し実行される。

　また、入力音声の終端に到達すると（ステップＳ２８０１のＮｏ）、ＷＦＳＴ探索部２７０４による音声認識結果の文字列が、ＧＰＵメモリ２７３０上の作業領域２７３５から、ＣＰＵ２７１０側のメインメモリにコピーされる（ステップＳ２８０６）。

　そして、ＣＰＵ２７１０側の認識結果出力処理部２７０５は、ディスプレイやスピーカなどからなる出力部２７５２から認識結果を表示又は出力するための処理を実施する（ステップＳ２８０７）。

Ｉ．まとめ
　第２の実施例に係る技術の効果について言及しておく。

　第２の実施例に係る技術を適用した音声認識システムによれば、２分割したＷＦＳＴデータをメモリ及びディスクに配置してオンザフライ合成を行うことにより、すべてのＷＦＳＴデータをディスクに配置することによる処理時間の増加を抑制しつつ、リアルタイム処理を実現することができる。これによって、以下のメリットがもたらされる。

（ａ）メモリ容量の限られたシステムで大規模グラフ探索を実行することができる。
（ｂ）ディスクにＷＦＳＴモデルを配置しても、高速にグラフ探索処理を実行することができる。
（ｃ）同じメモリ使用量で、さらに大きいＷＦＳＴモデルを使用することができる。

Ｊ．具体例
　ここでは、本開示に係る大規模グラフ探索技術を適用した音声認識システムを搭載する製品の具体例について説明する。

　最近、音声などを用いてユーザと対話を行いながら、用途や状況に応じて種々の情報をユーザに提示する「エージェント」、「アシスタント」、若しくは「スマートスピーカー」と呼ばれるサービスが普及し始めている。例えば、テレビのオンオフや選局並びに音量調整、冷蔵庫の温度設定の変更、照明やエアコンなどの家電機器のオンオフや調整操作を代行する音声エージェントが知られている。音声エージェントはさらに、天気予報や株・為替情報、ニュースについて聞かれると音声で回答したり、商品の注文を受け付けたり、購入した書籍の内容を読み上げたりすることもできる。

　エージェント機能は、例えば、家庭内などでユーザの周囲に設置されるエージェントデバイスと、クラウド上に構築されるエージェントサービスの連携により提供される（例えば、特許文献２を参照のこと）。エージェントデバイスは、ユーザが発話する音声を受け付ける音声入力、並びにユーザからの問い合せに対して音声で回答する音声出力といったユーザインターフェースを主に提供する。一方のエージェントサービス側では、エージェントデバイスで入力された音声の認識や意味解析を実行する。また、エージェントサービス側では、ユーザの問い合わせに応じた情報検索などの処理、処理結果に基づく音声合成など、負荷の高い処理も併せて実行するようにしてもよい。

Ｊ－１．音声による家電の操作
　図１２には、本開示に係る技術を適用した音声認識システムを搭載するエージェントシステム１２００の機能的構成例を示している。エージェントシステム１２００は、エージェントデバイス１２０１と、エージェントサービス１２０２で構成される。

　エージェントデバイス１２０１は、例えば家庭内などでユーザの周囲に設置される。エージェントデバイス１２０１は、イーサネット（登録商標）などの有線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）やＷｉ－Ｆｉ（登録商標）などの無線ＬＡＮを介して、テレビ１２１１や冷蔵庫１２１２、ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）照明１２１３といった、さまざまな家電機器と相互接続している。また、エージェントデバイス１２０１は、マイクロホンなどの音声入力部と、スピーカやディスプレイなどの出力部を備えている。

　エージェントサービス１２０２は、音声認識システム１２０４と、意味解析部１２０３を含んでいる。但し、音声認識システム１２０４は、例えば図４、図９、図１９、図２４、又は図２７のうちいずれかに示した機能的構成を想定しており、ここでは詳細な説明を省略する。

　エージェントサービス１２０２は、例えばクラウド上のサーバとして構成される。エージェントデバイス１２０１とエージェントサービス１２０２とは、例えばインターネットなどの広域ネットワークを介して相互接続されている。但し、エージェントサービス１２０２の機能がエージェントデバイス１２０１の中に組み込まれているというシステム構成も可能である。

　エージェントデバイス１２０１は、ユーザが発話した音声コマンドを収音した音声信号を、エージェントサービス１２０２に送信する。音声コマンドには、「テレビを付けて」、「冷蔵庫の中身を教えて」、「明かりを消して」といった家電機器に対する指示も含まれている。

　エージェントサービス１２０２側では、音声認識システム１２０４が受信した音声認識信号を、オンザフライ合成を利用した音声認識処理によって、認識結果のテキストを出力する。そして、意味解析部１２０３は、認識結果のテキストを意味解析して、意味解析結果をエージェントデバイス１２０１に返信する。

　ユーザの音声コマンドの意味解析結果は、テレビ１２１１のオンオフや選局並びに音量調整、冷蔵庫１２１２の温度設定の変更、ＬＥＤ照明１２１３のオンオフや光量調整といった、各家電機器に対する操作指令が含まれる。エージェントデバイス１２０１は、エージェントサービス１２０２から受信した意味解析結果に基づいて、テレビ１２１１に対するオンオフや選局並びに音量調整といった操作信号、冷蔵庫１２１２に対する温度設定の変更といった操作信号、ＬＥＤ照明１２１３に対するオンオフや光量調整といった操作信号を、家庭内のネットワークを介して送信する。

Ｊ－２．スマートフォンでの大語彙音声認識
　本開示に係る技術を適用した音声認識システムによれば、語彙数１００万以上の大語彙音声認識を、メモリ使用量３ＧＢ以下で動作させることができる。そのため、クラウドのサーバに比べてメモリ容量の小さいスマートフォンでも音声認識処理を動作させることができる。その結果、スマートフォン上で高性能な音声認識処理に基づく高度なエージェント機能を実現することができる。例えば、図１２に示したエージェントシステム１２００のうちエージェントサービス１２０２の部分を、クラウド上のサーバからスマートフォンに置き換えることができる。

　以上、特定の実施形態を参照しながら、本開示に係る技術について詳細に説明してきた。しかしながら、本開示に係る技術の要旨を逸脱しない範囲で当業者が該実施形態の修正や代用を成し得ることは自明である。

　本明細書では、グラフ探索の一例として音声認識のＷＦＳＴに適用した実施形態を中心に説明してきたが、本開示に係る技術の用途はこれに限定されるものではなく、同等の処理を行う他のグラフ探索処理に対しても同様に本開示に係る技術を適用することができる。オンザフライ合成が可能なグラフの探索処理をＣＰＵとＧＰＵのハイブリッド環境に適用するさまざまなケースにおいて、同様に第１の実施例として説明した技術を適用することができる。また、第２の実施例として説明した技術を、主記憶装置と補助記憶装置の組み合わせだけでなく、ＧＰＵメモリと補助記憶装置の組み合わせなど、異なるアクセス性能や容量を持つ任意の記憶装置の組み合わせに対して適用することができる。

　本開示に係る技術によれば、ＣＰＵとＧＰＵを用いたハイブリッド環境下において、ＧＰＵで音声認識の大規模グラフの探索処理を実現することができる。また、本開示に係る技術の適用対象は、ＧＰＵ及び音声認識のグラフ探索処理に限定されるものではなく、ＧＰＵはメモリ容量の限られた（グラフサイズより小さいメモリ容量を持つ）メニーコア演算器に置き換え、音声認識のグラフ探索処理は一般的なグラフ探索処理に置き換えることができる。

　また、本開示に係る技術を適用したＷＦＳＴによる音声認識システムは、パーソナルコンピュータ、スマートフォン、タブレット、音声エージェントなどのさまざまなタイプの情報処理装置若しくは情報端末に搭載することができる。

　要するに、例示という形態により本開示に係る技術について説明してきたのであり、本明細書の記載内容を限定的に解釈するべきではない。本開示に係る技術の要旨を判断するためには、特許請求の範囲を参酌すべきである。

　なお、本開示に係る技術は、以下のような構成をとることも可能である。

（１）演算部と、第１の記憶装置と、第２の記憶装置を具備し、
　グラフ情報を第１のグラフ情報と第２のグラフ情報に２分割し、
　前記第１のグラフ情報を前記第１の記憶装置に配置し、
　前記第２のグラフ情報を前記第２の記憶装置に配置し、
　前記演算部が、前記第１の記憶装置に配置された前記第１のグラフ情報及び前記第２の記憶装置に配置された第２のグラフ情報を用いてグラフ探索処理を実施する、
情報処理装置。

（２）前記第１のグラフ情報は前記第２のグラフ情報よりもサイズが小さく、
　前記第１の記憶装置は前記第２の記憶装置よりも容量が小さい、
上記（１）に記載の情報処理装置。

（３）前記グラフ情報は、音声認識において音響モデル、発音辞書及び言語モデルを表現したＷＦＳＴモデルであり、
　前記第１のグラフはＷＦＳＴモデルを大小２つの分割した小さい方のＷＦＳＴモデルであり、前記第２のグラフは大きい方のＷＦＳＴモデルである、
上記（２）に記載の情報処理装置。

（４）言語モデルを大小２つに分割し、第１の個数以下の単語のつながりを考慮した小さい方の言語モデルを音響モデル及び発音辞書と合成した小さいＷＦＳＴモデルを前記第１のグラフ情報とし、前記第１の個数より多い任意の個数の単語のつながりを考慮した言語モデルからなる大きいＷＦＳＴモデルを前記第２のグラフ情報とする、
上記（３）に記載の情報処理装置。

（５）前記演算部は、前記第１のグラフ情報を用いて探索処理を実行中に前記第２のグラフ情報の参照が必要になったときに、前記第２のグラフ情報のうち必要な部分を前記第２の記憶装置から前記第１の記憶装置へコピーして、前記探索処理を継続させる、
上記（１）乃至（４）のいずれかに記載の情報処理装置。

（６）前記演算部は、ＧＰＵ又はその他のメニーコア演算器からなる第１の演算部と、ＣＰＵからなる第２の演算部を含み、
　前記第１の記憶装置は前記ＧＰＵ内のメモリであり、前記第２の記憶装置は前記ＣＰＵのローカルメモリである、
上記（１）乃至（５）のいずれかに記載の情報処理装置。

（７）前記グラフ情報はＷＦＳＴモデルであり、
　前記第１の演算部は、小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルのトークンの状態遷移を行う必要が発生したときに、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーにコピーしながら、前記第１の演算部がすべての探索処理を行う、
上記（６）に記載の情報処理装置。

（８）前記第１の演算部は、前記第２のグラフのうち必要なアークが配置されている前記第２の記憶装置上の位置をあらかじめ計算しておく、
上記（６）に記載の情報処理装置。

（９）前記第１の演算部と前記第２の演算部で共通のページテーブルを持ち、前記第１の演算部が前記第１の記憶装置上にないページのアークを参照したことに応答して、該当するページを前記第２の記憶装置から前記第１の記憶装置へ移動させる、
上記（８）に記載の情報処理装置。

（１０）前記第１の演算部があらかじめ計算した前記必要なアークの位置情報のリストを前記第２の演算部に送信し、
　前記第２の演算部は、前記リストに基づいて、前記第１の演算部がグラフ探索中に必要となったアークを前記第２の記憶装置から前記第１の記憶装置へコピーする、
上記（８）に記載の情報処理装置。

（１１）前記第１の記憶装置は、前記第２のグラフ情報を保持するキャッシュを備える、
上記（１）に記載の情報処理装置。

（１２）前記キャッシュは、ソース状態の識別情報と入力ラベルを入力にとり、アークを返すデータ構造を有する、
上記（１１）に記載の情報処理装置。

（１３）音声認識処理に適用され、
　前記第２の演算部において、入力音声の特徴量を計算する特徴量抽出を実行し、
　前記第１の演算部において特徴量からＨＭＭ状態スコアを計算するＨＭＭスコア計算と、前記第１の記憶装置に配置された前記第１のグラフ情報と前記第２の記憶装置に配置された前記第２のグラフ情報を用いてオンザフライ合成による探索処理を実行する、
上記（５）に記載の情報処理装置。

（１４）前記第２の演算部において、前記第１の演算部が実行した探索処理により得られた音声認識結果を出力するための処理をさらに実行する、
上記（１３）に記載の情報処理装置。

（１５）前記第１の記憶装置は前記演算部のローカルメモリであり、前記第２の記憶装置は補助記憶装置であり、
　前記演算部は、小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルのトークンの状態遷移を行う必要が発生したときに、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーしながら、前記探索処理を行う、
上記（４）に記載の情報処理装置。

（１５－１）前記演算部は、ＣＰＵ又はＧＰＵからなる、
上記（１５）に記載の情報処理装置。

（１５－２）音声認識処理に適用され、
　前記演算部は、入力音声の特徴量を計算する特徴量抽出と、前記特徴量からＨＭＭ状態スコアを計算するＨＭＭスコア計算と、前記第１の記憶装置に配置された前記第１のグラフ情報と前記第２の記憶装置に配置された前記第２のグラフ情報を用いてオンザフライ合成による探索処理を実行する、
上記（１５）に記載の情報処理装置。

（１６）前記第１の記憶装置は、前記第２の記憶装置内の大きい方のＷＦＳＴモデルへのアクセス用データを保持し、
　前記演算部は、前記アクセス用データに基づいて、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーする、
上記（１５）に記載の情報処理装置。

（１７）大きい方のＷＦＳＴモデルは、アークをソースの状態の状態ＩＤと入力ラベルでソートしたアーク配列からなり、
　前記第１の記憶装置は、前記アクセス用データとして、各状態のアークの前記アーク配列上の開始位置を格納するアークインデックスと、前記アーク配列上のアークに対応する入力ラベルを前記アーク配列と同じ配列で格納する入力ラベル配列を備え、
　前記演算部は、前記アークインデックスで目的のアークのソース状態の状態ＩＤのアーク配列上の開始位置を特定し、前記入力ラベル配列上の前記開始位置の要素から目的のアークの入力ラベルを検索することによって、前記アーク配列上の目的のアークが格納されている位置を特定して、前記第２の記憶装置の前記アーク配列から目的のアークのデータを取得する、
上記（１６）に記載の情報処理装置。

（１８）大きい方のＷＦＳＴモデルは、アークをソースの状態の状態ＩＤと入力ラベルでソートしたアーク配列からなり、
　前記第１の記憶装置は、前記アクセス用データとして、各状態のアークの前記アーク配列上の開始位置を格納するアークインデックスと、前記アーク配列をページ毎の区切り、各ページの前記アーク配列の先頭の要素の入力ラベルを格納する入力ラベル配列を備え、
　前記演算部は、前記アークインデックスに基づいて目的のアークが存在するページ範囲を計算し、前記入力ラベル配列に基づいて、前記ページ範囲の中から目的のアークが存在するページを特定して、前記第２の記憶装置の前記アーク配列から前記特定したページを取得する、
上記（１６）に記載の情報処理装置。

（１９）過去のアークへのアクセス履歴に基づいて次にアクセスされる可能性が高いアーク又はページを予測するアクセスパターンモデルをさらに備え、
　前記演算部は、前記アクセスパターンモデルに基づいて予測されるアークまたはページの前記第２の記憶装置からの事前読み込みを行う、
上記（１７）又は（１８）のいずれかに記載の情報処理装置。

（２０）演算部と、第１の記憶装置と、第２の記憶装置を具備する情報処理装置において、
　グラフ情報を分割した第１のグラフ情報を第１の記憶装置に配置するステップと、
　前記グラフ情報を分割した第２のグラフ情報を第２の記憶装置に配置するステップと、
　前記演算部が、前記第１の記憶装置に配置された前記第１のグラフ情報及び前記第２の記憶装置に配置された第２のグラフ情報を用いてグラフ探索処理を実行するステップと、
を有する情報処理方法。

（１０１）グラフ情報を第１のグラフ情報と第２のグラフ情報に２分割し、
　前記第１のグラフ情報を第１の演算部の第１のメモリに配置し、
　前記第２のグラフ情報を第２の演算部の第２のメモリに配置し、
　前記第１の演算部が、前記第１のメモリに配置された前記第１のグラフ情報及び前記第２のメモリに配置された第２のグラフ情報を用いてグラフ探索処理を実施する、
情報処理装置。

（１０２）前記第１のグラフ情報は前記第２のグラフ情報よりもサイズが小さく、
　前記第１のメモリは前記第２のメモリよりも容量が小さい、
上記（１０１）に記載の情報処理装置。

（１０３）前記第１の演算部はＧＰＵ又はその他のメニーコア演算器からなり、前記第２の演算部はＣＰＵからなる、
上記（１０１）又は（１０２）のいずれかに記載の情報処理装置。

（１０４）前記グラフ情報は、音声認識において音響モデル、発音辞書及び言語モデルを表現したＷＦＳＴモデルであり、
　前記第１のグラフはＷＦＳＴモデルを大小２つの分割した小さい方のＷＦＳＴモデルであり、前記第２のグラフは大きい方のＷＦＳＴモデルである、
上記（１０３）に記載の情報処理装置。

（１０５）言語モデルを大小２つに分割し、第１の個数以下の単語のつながりを考慮した小さい方の言語モデルを音響モデル及び発音辞書と合成した小さい方のＷＦＳＴモデルを前記第１のグラフ情報とし、前記第１の個数より多い任意の個数の単語のつながりを考慮した言語モデルからなる大きい方のＷＦＳＴモデルを前記第２のグラフ情報とする、
上記（１０４）に記載の情報処理装置。

（１０６）前記第１の演算部が前記第１のグラフ情報を用いて探索処理を実行中に前記第２のグラフ情報の参照が必要になったときに、前記第２のグラフ情報のうち必要な部分を前記第２のメモリから前記第１のメモリへコピーして、前記第１の演算部による探索処理を継続させる、
上記（１０１）乃至（１０５）のいずれかに記載の情報処理装置。

（１０７）前記グラフ情報はＷＦＳＴモデルであり、
小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルのトークンの状態遷移を行う必要が発生したときに、処理に必要なデータを前記第２のメモリから前記第１のメモリへコピーにコピーしながら、前記第１の演算部がすべての探索処理を行う、
上記（１０６）に記載の情報処理装置。

（１０８）前記第１の演算部は、前記第２のグラフのうち必要なアークが配置されている前記第２のメモリ上の位置をあらかじめ計算しておく、
上記（１０１）乃至（１０７）のいずれかに記載の情報処理装置。

（１０９）前記第１の演算部と前記第２の演算部で共通のページテーブルを持ち、前記第１の演算部が前記第１のメモリ上にないページのアークを参照したことに応答して、該当するページを前記第２のメモリから前記第１のメモリへ移動させる、
上記（１０８）に記載の情報処理装置。

（１１０）前記第１の演算部があらかじめ計算した前記必要なアークの位置情報のリストを前記第２の演算部に送信し、
　前記第２の演算部は、前記リストに基づいて、前記第１の演算部がグラフ探索中に必要となったアークを前記第２のメモリから前記第１のメモリへコピーする、
上記（１０８）に記載の情報処理装置。

（１１１）前記第１のメモリは、前記第２のグラフ情報を保持するキャッシュを備える、
上記（１０１）乃至（１１０）のいずれかに記載の情報処理装置。

（１１２）前記キャッシュは、ソース状態の識別情報と入力ラベルを入力にとり、アークを返すデータ構造を有する、
上記（１１１）に記載の情報処理装置。

（１１３）音声認識処理に適用され、
　前記第２の演算部において、入力音声の特徴量を計算する特徴量抽出を実行し、
　前記第１の演算部において特徴量からＨＭＭ状態スコアを計算するＨＭＭスコア計算と、前記第１のメモリに配置された前記第１のグラフ情報と前記第２のメモリに配置された前記第２のグラフ情報を用いてオンザフライ合成による探索処理を実行する、
上記（１０１）乃至（１１２）のいずれかに記載の情報処理装置。

（１１４）前記第２の演算部において、前記第１の演算部が実行した探索処理により得られた音声認識結果を出力するための処理をさらに実行する、
上記（１１３）に記載の情報処理装置。

（１１５）音声を入力する音声入力部又は音声認識結果を出力する出力部のうち少なくとも一方をさらに備える、
上記（１１４）に記載の情報処理装置。

（１１６）グラフ情報を分割した第１のグラフ情報を第１の演算部の第１のメモリに配置するステップと、
　前記グラフ情報を分割した第２のグラフ情報を第２の演算部の第２のメモリに配置するステップと、
　前記第１の演算部が、前記第１のメモリに配置された前記第１のグラフ情報及び前記第２のメモリに配置された第２のグラフ情報を用いてグラフ探索処理を実行するステップと、
を有する情報処理方法。

　１００…音声認識システム、１０１…特徴量抽出部
　１０２…ＤＮＮ計算部、１０３…ＷＦＳＴ探索部
　３００…音声認識システム、３１０…ＣＰＵ
　３１１…メインメモリ、３２０…ＧＰＵ、３２１…デバイスメモリ
　４０１…信号処理部、４０２…特徴量抽出部
　４０３…ＨＭＭスコア計算部、４０４…グラフ探索部
　４０５…認識結果出力処理部
　４４１…音声入力部、４４２…出力部
　９０１…大グラフキャッシュ
　１２００…エージェントシステム、１２０１…エージェントデバイス
　１２０２…エージェントサービス、１２０３…意味解析部
　１２１１…テレビ、１２１２…冷蔵庫、１２１３…ＬＥＤ照明
　１５００…音声認識システム、１５１０…ＣＰＵ、１５２０…メモリ
　１５３０…ディスク
　１７０１…アーク配列、１７０２…アークインデックス
　１７０３…入力ラベル配列
　１８０１…アーク配列、１８０２…アークインデックス
　１８０３…入力ラベル配列
　１９００…ＣＰＵ、１９０１…信号処理部、１９０２…特徴量抽出部
　１９０３…ＨＭＭスコア計算部、１９０４…ＷＦＳＴ探索部
　１９０５…認識結果出力部、１９１０…ＲＡＭ
　１９１１…音響モデル、１９１２…ＷＦＳＴモデル（小）
　１９１３…言語モデルアークキャッシュ
　１９１４…ＷＦＳＴモデル（大）アクセス用データ
　１９１５…作業領域、１９２０…ＳＳＤ
　１９２１…ＷＦＳＴモデル（大）、１９３１…音声入力部
　１９３２…出力部
　２４００…ＣＰＵ、２４０１…信号処理部、２４０２…特徴量抽出部
　２４０３…ＨＭＭスコア計算部、２４０４…ＷＦＳＴ探索部
　２４０５…認識結果出力部、２４１０…ＲＡＭ
　２４１１…音響モデル、２４１２…ＷＦＳＴモデル（小）
　２４１３…言語モデルアークキャッシュ
　２４１４…ＷＦＳＴモデル（大）アクセス用データ
　２４１５…作業領域、２４１６…言語モデルアクセスパターンモデル
　２４２０…ＳＳＤ、２４２１…ＷＦＳＴモデル（大）
　２４３１…音声入力部、２４３２…出力部
　２７００…音声認識システム、２７０１…信号処理部
　２７０２…特徴量抽出部、２７０３…ＨＭＭスコア計算部
　２７０４…ＷＦＳＴ探索部、２７０５…認識結果出力部
　２７１０…ＣＰＵ、２７２０…ＧＰＵ、２７３０…ＧＰＵメモリ
　２７３１…音響モデル、２７３２…ＷＦＳＴモデル（小）
　２７３３…言語モデルアークキャッシュ
　２７３４…ＷＦＳＴモデル（大）アクセス用データ
　２７３５…作業領域、２７３６…言語モデルアクセスパターンモデル
　２７４０…ＳＳＤ、２７４１…ＷＦＳＴモデル（大）
　２７５１…音声入力部、２７５２…出力部

Claims

　演算部と、第１の記憶装置と、第２の記憶装置を具備し、
　グラフ情報を第１のグラフ情報と第２のグラフ情報に２分割し、
　前記第１のグラフ情報を前記第１の記憶装置に配置し、
　前記第２のグラフ情報を前記第２の記憶装置に配置し、
　前記演算部が、前記第１の記憶装置に配置された前記第１のグラフ情報及び前記第２の記憶装置に配置された第２のグラフ情報を用いてグラフ探索処理を実施する、情報処理装置。
　前記第１のグラフ情報は前記第２のグラフ情報よりもサイズが小さく、
　前記第１の記憶装置は前記第２の記憶装置よりも容量が小さい、
請求項１に記載の情報処理装置。
　前記グラフ情報は、音声認識において音響モデル、発音辞書及び言語モデルを表現したＷＦＳＴ（Ｗｅｉｇｈｔｅｄ　Ｆｉｎｉｔｅ　Ｓｔａｔｅ　Ｔｒａｎｓｄｕｃｅｒ）モデルであり、
　前記第１のグラフはＷＦＳＴモデルを大小２つの分割した小さい方のＷＦＳＴモデルであり、前記第２のグラフは大きい方のＷＦＳＴモデルである、
請求項２に記載の情報処理装置。
　言語モデルを大小２つに分割し、第１の個数以下の単語のつながりを考慮した小さい方の言語モデルを音響モデル及び発音辞書と合成した小さいＷＦＳＴモデルを前記第１のグラフ情報とし、前記第１の個数より多い任意の個数の単語のつながりを考慮した言語モデルからなる大きいＷＦＳＴモデルを前記第２のグラフ情報とする、
請求項３に記載の情報処理装置。
　前記演算部は、前記第１のグラフ情報を用いて探索処理を実行中に前記第２のグラフ情報の参照が必要になったときに、前記第２のグラフ情報のうち必要な部分を前記第２の記憶装置から前記第１の記憶装置へコピーして、前記探索処理を継続させる、
請求項１に記載の情報処理装置。
　前記演算部は、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）又はその他のメニーコア演算器からなる第１の演算部と、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）からなる第２の演算部を含み、
　前記第１の記憶装置は前記ＧＰＵ内のメモリであり、前記第２の記憶装置は前記ＣＰＵのローカルメモリである、
請求項１に記載の情報処理装置。
　前記グラフ情報はＷＦＳＴモデルであり、
　前記第１の演算部は、小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルのトークンの状態遷移を行う必要が発生したときに、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーにコピーしながら、前記第１の演算部がすべての探索処理を行う、
請求項６に記載の情報処理装置。
　前記第１の演算部は、前記第２のグラフのうち必要なアークが配置されている前記第２の記憶装置上の位置をあらかじめ計算しておく、
請求項６に記載の情報処理装置。
　前記第１の演算部と前記第２の演算部で共通のページテーブルを持ち、前記第１の演算部が前記第１の記憶装置上にないページのアークを参照したことに応答して、該当するページを前記第２の記憶装置から前記第１の記憶装置へ移動させる、
請求項８に記載の情報処理装置。
　前記第１の演算部があらかじめ計算した前記必要なアークの位置情報のリストを前記第２の演算部に送信し、
　前記第２の演算部は、前記リストに基づいて、前記第１の演算部がグラフ探索中に必要となったアークを前記第２の記憶装置から前記第１の記憶装置へコピーする、
請求項８に記載の情報処理装置。
　前記第１の記憶装置は、前記第２のグラフ情報を保持するキャッシュを備える、
請求項１に記載の情報処理装置。
　前記キャッシュは、ソース状態の識別情報と入力ラベルを入力にとり、アークを返すデータ構造を有する、
請求項１１に記載の情報処理装置。
　音声認識処理に適用され、
　前記第２の演算部において、入力音声の特徴量を計算する特徴量抽出を実行し、
　前記第１の演算部において特徴量からＨＭＭ（Ｈｉｄｄｅｎ　Ｍａｒｋｏｖ　Ｍｏｄｅｌ）状態スコアを計算するＨＭＭスコア計算と、前記第１の記憶装置に配置された前記第１のグラフ情報と前記第２の記憶装置に配置された前記第２のグラフ情報を用いてオンザフライ合成による探索処理を実行する、
請求項５に記載の情報処理装置。
　前記第２の演算部において、前記第１の演算部が実行した探索処理により得られた音声認識結果を出力するための処理をさらに実行する、
請求項１３に記載の情報処理装置。
　前記第１の記憶装置は前記演算部のローカルメモリであり、前記第２の記憶装置は補助記憶装置であり、
　前記演算部は、小さいＷＦＳＴモデルでトークンを遷移させていくが、遷移したアークから単語が出力され、大きいＷＦＳＴモデルのトークンの状態遷移を行う必要が発生したときに、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーしながら、前記探索処理を行う、
請求項４に記載の情報処理装置。
　前記第１の記憶装置は、前記第２の記憶装置内の大きい方のＷＦＳＴモデルへのアクセス用データを保持し、
　前記演算部は、前記アクセス用データに基づいて、処理に必要なデータを前記第２の記憶装置から前記第１の記憶装置へコピーする、
請求項１５に記載の情報処理装置。
　大きい方のＷＦＳＴモデルは、アークをソースの状態の状態ＩＤと入力ラベルでソートしたアーク配列からなり、
　前記第１の記憶装置は、前記アクセス用データとして、各状態のアークの前記アーク配列上の開始位置を格納するアークインデックスと、前記アーク配列上のアークに対応する入力ラベルを前記アーク配列と同じ配列で格納する入力ラベル配列を備え、
　前記演算部は、前記アークインデックスで目的のアークのソース状態の状態ＩＤのアーク配列上の開始位置を特定し、前記入力ラベル配列上の前記開始位置の要素から目的のアークの入力ラベルを検索することによって、前記アーク配列上の目的のアークが格納されている位置を特定して、前記第２の記憶装置の前記アーク配列から目的のアークのデータを取得する、
請求項１６に記載の情報処理装置。
　大きい方のＷＦＳＴモデルは、アークをソースの状態の状態ＩＤと入力ラベルでソートしたアーク配列からなり、
　前記第１の記憶装置は、前記アクセス用データとして、各状態のアークの前記アーク配列上の開始位置を格納するアークインデックスと、前記アーク配列をページ毎の区切り、各ページの前記アーク配列の先頭の要素の入力ラベルを格納する入力ラベル配列を備え、
　前記演算部は、前記アークインデックスに基づいて目的のアークが存在するページ範囲を計算し、前記入力ラベル配列に基づいて、前記ページ範囲の中から目的のアークが存在するページを特定して、前記第２の記憶装置の前記アーク配列から前記特定したページを取得する、
請求項１６に記載の情報処理装置。
　過去のアークへのアクセス履歴に基づいて次にアクセスされる可能性が高いアーク又はページを予測するアクセスパターンモデルをさらに備え、
　前記演算部は、前記アクセスパターンモデルに基づいて予測されるアークまたはページの前記第２の記憶装置からの事前読み込みを行う、
請求項１７に記載の情報処理装置。
　演算部と、第１の記憶装置と、第２の記憶装置を具備する情報処理装置において、
　グラフ情報を分割した第１のグラフ情報を第１の記憶装置に配置するステップと、
　前記グラフ情報を分割した第２のグラフ情報を第２の記憶装置に配置するステップと、
　前記演算部が、前記第１の記憶装置に配置された前記第１のグラフ情報及び前記第２の記憶装置に配置された第２のグラフ情報を用いてグラフ探索処理を実行するステップと、
を有する情報処理方法。