WO2023073886A1

WO2023073886A1 - 情報処理システム、情報処理装置、情報処理方法、及び記録媒体

Info

Publication number: WO2023073886A1
Application number: PCT/JP2021/039899
Authority: WO
Inventors: 仁山本
Original assignee: 日本電気株式会社
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2023-05-04
Also published as: JPWO2023073886A1

Abstract

情報処理システム（１０）は、第１のテキストデータを取得する第１テキストデータ取得手段（１１０）と、第１のテキストデータに対応する第１の音声データを生成する音声データ生成手段（１２０）と、第１のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段（１３０）と、文脈記号を第１のテキストデータに挿入して、第２のテキストデータを生成するテキストデータ生成手段（１４０）と、第１の音声データ及び第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段（１５０）と、を備える。

Description

情報処理システム、情報処理装置、情報処理方法、及び記録媒体

　この開示は、情報処理システム、情報処理装置、情報処理方法、及び記録媒体の技術分野に関する。

　この種のシステムとして、音声認識器に関する学習を行うものが知られている。例えば特許文献１では、音声パターンを初期学習済のニューラルネットワークに順次入力して音声認識結果を取得し、その際に誤認識が発生したものを追加学習用の入力パターンとして選択する技術が開示されている。また特許文献２では、音声信号と、音声信号に対応するテキスト及び属性情報と、からなるトレーニングデータセットを用いて学習を行うことが開示されている。

　その他の関連する技術として、特許文献３では、題目や概要などのテキストの属性を示す属性記号に基づいて、音声波形を生成することが開示されている。

特開平０８－１４６９９６号公報特開２０２０－１５４０７６号公報特開平０６－０４４２４７号広報

　この開示は、先行技術文献に開示された技術を改善することを目的とする。

　この開示の情報処理システムの一の態様は、第１のテキストデータを取得する第１テキストデータ取得手段と、前記第１のテキストデータに対応する第１の音声データを生成する音声データ生成手段と、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成するテキストデータ生成手段と、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える。

　この開示の情報処理装置の一の態様は、第１のテキストデータを取得する第１テキストデータ取得手段と、前記第１のテキストデータに対応する第１の音声データを生成する音声データ生成手段と、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成するテキストデータ生成手段と、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える。

　この開示の情報処理方法の一の態様は、少なくとも１つのコンピュータが実行する情報処理方法であって、第１のテキストデータを取得し、前記第１のテキストデータに対応する第１の音声データを生成し、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成し、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う。

　この開示の記録媒体の一の態様は、少なくとも１つのコンピュータに、第１のテキストデータを取得し、前記第１のテキストデータに対応する第１の音声データを生成し、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成し、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法を実行させるコンピュータプログラムが記録されている。

第１実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。第１実施形態に係る情報処理システムの機能的構成を示すブロック図である。第１のテキストデータ、文脈記号、及び第２のテキストデータの一例を示す表である。第１実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。第２実施形態に係る情報処理システムの機能的構成を示すブロック図である。辞書データベースに記憶される単語及び文脈記号の一例を示す表である。第３実施形態に係る情報処理システムの機能的構成を示すブロック図である。第３実施形態に係る情報処理システムによる更新動作の流れを示すフローチャートである。第４実施形態に係る情報処理システムの機能的構成を示すブロック図である。第４実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。第５実施形態に係る情報処理システムの機能的構成を示すブロック図である。第５実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。第６実施形態に係る情報処理システムの機能的構成を示すブロック図である。辞書データベースに記憶される単語、文脈記号及び文脈例の一例を示す表である。第６実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。第７実施形態に係る情報処理システムの機能的構成を示すブロック図である。第７実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。

　以下、図面を参照しながら、情報処理システム、情報処理装置、情報処理方法、及び記録媒体の実施形態について説明する。

　＜第１実施形態＞
　第１実施形態に係る情報処理システムについて、図１から図５を参照して説明する。

　（ハードウェア構成）
　まず、図１を参照しながら、第１実施形態に係る情報処理システムのハードウェア構成について説明する。図１は、第１実施形態に係る情報処理システムのハードウェア構成を示すブロック図である。

　図１に示すように、第１実施形態に係る情報処理システム１０は、プロセッサ１１と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）１２と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）１３と、記憶装置１４とを備えている。情報処理システム１０は更に、入力装置１５と、出力装置１６と、を備えていてもよい。上述したプロセッサ１１と、ＲＡＭ１２と、ＲＯＭ１３と、記憶装置１４と、入力装置１５と、出力装置１６とは、データバス１７を介して接続されている。

　プロセッサ１１は、コンピュータプログラムを読み込む。例えば、プロセッサ１１は、ＲＡＭ１２、ＲＯＭ１３及び記憶装置１４のうちの少なくとも一つが記憶しているコンピュータプログラムを読み込むように構成されている。或いは、プロセッサ１１は、コンピュータで読み取り可能な記録媒体が記憶しているコンピュータプログラムを、図示しない記録媒体読み取り装置を用いて読み込んでもよい。プロセッサ１１は、ネットワークインタフェースを介して、情報処理システム１０の外部に配置される不図示の装置からコンピュータプログラムを取得してもよい（つまり、読み込んでもよい）。プロセッサ１１は、読み込んだコンピュータプログラムを実行することで、ＲＡＭ１２、記憶装置１４、入力装置１５及び出力装置１６を制御する。本実施形態では特に、プロセッサ１１が読み込んだコンピュータプログラムを実行すると、プロセッサ１１内には、音声認識器の学習を実行する機能ブロックが実現される。即ち、プロセッサ１１は、情報処理システム１０の各制御を実行するコントローラとして機能してよい。

　プロセッサ１１は、例えばＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅ　ｇａｔｅ　ａｒｒａｙ）、ＤＳＰ（Ｄｅｍａｎｄ－Ｓｉｄｅ　Ｐｌａｔｆｏｒｍ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）として構成されてよい。プロセッサ１１は、これらのうち一つで構成されてもよいし、複数を並列で用いるように構成されてもよい。

　ＲＡＭ１２は、プロセッサ１１が実行するコンピュータプログラムを一時的に記憶する。ＲＡＭ１２は、プロセッサ１１がコンピュータプログラムを実行している際にプロセッサ１１が一時的に使用するデータを一時的に記憶する。ＲＡＭ１２は、例えば、Ｄ－ＲＡＭ（Ｄｙｎａｍｉｃ　ＲＡＭ）であってもよい。

　ＲＯＭ１３は、プロセッサ１１が実行するコンピュータプログラムを記憶する。ＲＯＭ１３は、その他に固定的なデータを記憶していてもよい。ＲＯＭ１３は、例えば、Ｐ－ＲＯＭ（Ｐｒｏｇｒａｍｍａｂｌｅ　ＲＯＭ）であってもよい。

　記憶装置１４は、情報処理システム１０が長期的に保存するデータを記憶する。記憶装置１４は、プロセッサ１１の一時記憶装置として動作してもよい。記憶装置１４は、例えば、ハードディスク装置、光磁気ディスク装置、ＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）及びディスクアレイ装置のうちの少なくとも一つを含んでいてもよい。

　入力装置１５は、情報処理システム１０のユーザからの入力指示を受け取る装置である。入力装置１５は、例えば、キーボード、マウス及びタッチパネルのうちの少なくとも一つを含んでいてもよい。入力装置１５は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。

　出力装置１６は、情報処理システム１０に関する情報を外部に対して出力する装置である。例えば、出力装置１６は、情報処理システム１０に関する情報を表示可能な表示装置（例えば、ディスプレイ）であってもよい。また、出力装置１６は、情報処理システム１０に関する情報を音声出力可能なスピーカ等であってもよい。出力装置１６は、スマートフォンやタブレット等の携帯端末として構成されていてもよい。

　なお、図１では、複数の装置を含んで構成される情報処理システム１０の例を挙げたが、これらの全部又は一部の機能を、１つの装置（情報処理装置）で実現してもよい。この情報処理装置は、例えば、上述したプロセッサ１１、ＲＡＭ１２、ＲＯＭ１３のみを備えて構成され、その他の構成要素（即ち、記憶装置１４、入力装置１５、出力装置１６）については、例えば情報処理装置に接続される外部の装置が備えるようにしてもよい。また、情報処理装置は、一部の演算機能を外部の装置（例えば、外部サーバやクラウド等）によって実現するものであってもよい。

　（機能的構成）
　次に、図２を参照しながら、第１実施形態に係る情報処理システム１０の機能的構成について説明する。図２は、第１実施形態に係る情報処理システムの機能的構成を示すブロック図である。

　図２に示すように、第１実施形態に係る情報処理システム１０は、音声認識器５０の学習を実行するものとして構成されている。音声認識器５０は、音声データからテキストデータを生成する装置である。音声認識器５０の学習は、例えばより高い精度でテキストデータを生成するために実行される。音声認識器５０の学習は、音声認識器５０が用いる変換モデル（即ち、音声データをテキストデータに変換するモデル）を学習するものであってもよい。なお、第１実施形態に係る情報処理システム１０は、音声認識器５０自体を構成要素として含むものではないが、音声認識器５０を含むシステムとして構成されてもよい。

　第１実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、第１テキストデータ取得部１１０と、音声データ生成部１２０と、文脈記号取得部１３０と、テキストデータ生成部１４０と、学習部１５０と、を備えて構成されている。第１テキストデータ取得部１１０、音声データ生成部１２０、文脈記号取得部１３０、テキストデータ生成部１４０、及び学習部１５０の各々は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　第１テキストデータ取得部１１０は、第１のテキストデータを取得可能に構成されている。第１のテキストデータは、音声認識器の学習用に取得されるテキストデータである。第１のテキストデータは、例えば単語のみからなるデータであってもよいし、文章形式のテキストデータであってもよい。第１テキストデータ取得部１１０は、第１のテキストデータを複数取得してもよい。なお、第１テキストデータ取得部１１０は、音声入力によって第１のテキストデータを取得してもよい。即ち、音声データをテキストデータに変換して、第１のテキストデータとして取得してもよい。

　音声データ生成部１２０は、第１テキストデータ取得部１１０で取得された第１のテキストデータから第１の音声データを生成可能に構成されている。即ち、音声データ生成部１２０は、テキストデータを音声データに変換する機能を有している。なお、テキストデータを音声データに変換する手法については、既存の技術を適宜採用することができるため、ここでの詳細な説明は省略するものとする。

　文脈記号取得部１３０は、第１テキストデータ取得部１１０で取得された第１のテキストデータに含まれる単語に対応する文脈記号を取得可能に構成されている。文脈記号は、その単語が文脈上でどのように用いられるかを示す情報である。文脈記号は、例えば、「人名」、「地名」、「組織名」、「商品名」等のように単語のカテゴリを示すものであってもよいし、「名詞」、「動詞」等のように単語の品詞を示すものであってもよい。文脈記号取得部１３０は、第１のテキストデータが複数の単語を含んでいる場合、複数の単語の各々について文脈記号を取得してもよい。この場合、文脈記号取得部１３０は、第１のテキストデータに含まれるすべての単語について文脈記号を取得してもよいし、一部の単語についてのみ文脈記号を取得してもよい。文脈記号の取得方法については、後述する他の実施形態で詳しく説明する。

　テキストデータ生成部１４０は、第２のテキストデータを生成可能に構成されている。具体的には、テキストデータ生成部１４０は、第１テキストデータで取得された第１のテキストデータに、文脈記号取得部１３０で取得された文脈記号を挿入することで、第２のテキストデータを生成する。即ち、第２のテキストデータは、第１のテキストデータと文脈記号とからなるデータである。第２のテキストデータの生成方法については、後に詳しく説明する。

　学習部１５０は、音声データ生成部１２０で生成された第１の音声データと、テキストデータ生成部１４０で生成された第２のテキストデータと、を用いて音声認識器５０の学習を実行可能に構成されている。即ち、学習部１５０は、互いに対応する第１の音声データ及び第２のテキストデータの組を用いて学習を実行するように構成されている。ここで特に、第２テキストデータは文脈記号が挿入されているため、学習部１５０による学習の際には、テキストだけでなく文脈記号も考慮されることになる。

　（第２テキストデータの生成例）
　次に、図３を参照しながら、第２テキストデータの生成例について具体例を挙げて説明する。図３は、第１のテキストデータ、文脈記号、及び第２のテキストデータの一例を示す表である。

　図３に示すように、第１テキストデータ取得部１１０が「〇〇太郎」という第１のテキストデータを取得したとする。この場合、文脈記号取得部１３０は、「人名」という文脈記号を取得する。そして、テキストデータ生成部１４０は、「〇〇太郎」というテキストデータに「人名」という文脈記号を挿入することで、第２テキストデータを生成する。具体的には、テキストデータ生成部１４０は「＜人名＞〇〇太郎＜／人名＞」という第２テキストデータを生成する。

　次に、第１テキストデータ取得部１１０が「〇〇タワー」という第１のテキストデータを取得したとする。この場合、文脈記号取得部１３０は、「地名」という文脈記号を取得する。そして、テキストデータ生成部１４０は、「〇〇タワー」というテキストデータに「地名」という文脈記号を挿入することで、第２テキストデータを生成する。具体的には、テキストデータ生成部１４０は「＜地名＞〇〇タワー＜／地名＞」という第２テキストデータを生成する。

　上述した例では、単語の前後に文脈記号を挿入する例を挙げたが、文脈記号の挿入位置は特に限定されるものではない。例えば、文脈記号は、単語の前だけに挿入されてもよい。具体的には、「＜人名＞〇〇太郎」や「＜地名＞〇〇タワー」のような第２テキストデータが生成されてよい。また、文脈記号は、単語の後ろだけに挿入されてもよい。具体的には、「〇〇太郎＜／人名＞」や「〇〇タワー＜／地名＞」のような第２テキストデータが生成されてよい。

　なお、第１のテキストデータが文章形式である場合は、各単語の位置に文脈記号が挿入されればよい。例えば、「今日はＤ様と会議を設定します。」という第１テキストデータが取得された場合、テキストデータ生成部１４０は、「＜時間＞今日＜／時間＞は＜人名＞Ｄ様＜／人名＞と会議を設定します。」という第２テキストデータを設定してよい。

　（動作の流れ）
　次に、図４を参照しながら、第１実施形態に係る情報処理システム１０による動作（即ち、音声認識器５０を学習する際の動作）の流れについて説明する。図４は、第１実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。

　図４に示すように、第１実施形態に係る情報処理システム１０が動作する際には、まず第１テキストデータ取得部１１０が第１のテキストデータを取得する（ステップＳ１０１）。第１テキストデータ取得部１１０で取得された第１のテキストデータは、音声データ生成部１２０、文脈記号取得部１３０、及びテキストデータ生成部１４０の各々に出力される。

　続いて、音声データ生成部１２０が、第１のテキストデータから第１の音声データを生成する（ステップＳ１０２）。音声データ生成部１２０で生成された第１の音声データは、学習部１５０に出力される。

　他方、文脈記号取得部１３０は、第１のテキストデータに含まれる単語に対応する文脈記号を取得する（ステップＳ１０３）。文脈記号取得部１３０で取得された文脈記号は、テキストデータ生成部１４０に出力される。テキストデータ生成部１４０は、第１テキストデータ取得部１１０で取得された第１のテキストデータに、文脈記号取得部１３０で取得された文脈記号を挿入することで、第２のテキストデータを生成する（ステップＳ１０４）。テキストデータ生成部１４０で生成された第２のテキストデータは、学習部１５０に出力される。

　続いて、学習部１５０が、音声データ生成部１２０で生成された第１音声データと、テキストデータ生成部１４０で生成された第２のテキストデータと、を用いて音声認識器５０の学習を実行する（ステップＳ１０６）。なお、上述した一連の処理は、第１のテキストデータが取得される度に繰り返し実行されてよい。

　（技術的効果）
　次に、第１実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１から図４で説明したように、第１実施形態に係る情報処理システム１０では、文脈記号を含む第２のテキストデータを用いて音声認識器５０の学習が実行される。このようにすれば、音声認識器５０の学習の際に文脈記号が考慮されることになる。その結果、第１のテキストデータに含まれる単語が、文脈上でどのように用いられるのかを考慮して学習を行える。よって、音声認識器をより適切に学習することが可能となる。

　＜第２実施形態＞
　第２実施形態に係る情報処理システム１０について、図５及び図６を参照して説明する。なお、第２実施形態は、上述した第１実施形態と比べて一部の構成及び動作が異なるのみで、その他の部分については第１実施形態と同一であってよい。このため、以下では、すでに説明した第１実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図５を参照しながら、第２実施形態に係る情報処理システム１０の機能的構成について説明する。図５は、第２実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図５では、図２で示した構成要素と同様の要素に同一の符号を付している。

　図５に示すように、第２実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、第１テキストデータ取得部１１０と、音声データ生成部１２０と、文脈記号取得部１３０と、テキストデータ生成部１４０と、学習部１５０と、辞書データベース（ＤＢ）２００と、を備えて構成されている。即ち、第２実施形態に係る情報処理システム１０は、すでに説明した第１実施形態の構成（図２参照）に加えて、辞書データベース２００を更に備えている。辞書データベース２００は、例えば上述した記憶装置１４（図１参照）によって実現されるものであってよい。

　辞書データベース２００は、単語と文脈とを紐付けて記憶可能に構成されている。辞書データベース２００は、例えば１つの単語と１つの文脈とを組にして、複数の組を記憶してよい。辞書データベース２００に記憶された単語及び文脈に関する情報（以下、適宜「辞書データ」と称する）は、文脈記号取得部１３０によって適宜読み出し可能に構成されている。辞書データは、予めユーザ等によって入力されたものであってよい。また、辞書データは、手動で又は自動的に更新（例えば、変更、追加、削除等）可能に構成されてもよい。辞書データの更新については、後述する他の実施形態において詳しく説明する。

　第２実施形態に係る文脈記号取得部１３０は、上述した辞書データベース２００を用いて文脈記号を取得可能に構成される。文脈記号取得部１３０は、第１のテキストデータに含まれている単語が辞書データベース２００に登録されているか否かを確認し、登録されている場合には、その単語に紐付いて記憶されている文脈記号を取得する。なお、辞書データベース２００に登録されていない単語については、文脈記号を取得しないようにしてもよいし、辞書データベース２００以外の手段を用いて文脈記号を取得するようにしてもよい。

　（辞書データの具体例）
　次に、図６を参照しながら、辞書データベース２００が記憶する辞書データについて具体的に説明する。図６は、辞書データベースに記憶される単語及び文脈記号の一例を示す表である。

　図６に示すように、辞書データベース２００には、複数の単語及び文脈記号が互いに紐付いた状態で記憶されている。図に示す例では、「〇〇太郎」という単語と、「人名」という文脈記号が紐付いて記憶されている。「〇〇花子」という単語と、「人名」という文脈記号が紐付いて記憶されている。「〇〇タワー」という単語と、「地名」という文脈記号が紐付いて記憶されている。「ＦＴ－〇〇」という単語と、「商品名」という文脈記号が紐付いて記憶されている。「〇〇部」という単語と、「組織」という文脈記号が紐付いて記憶されている。

　なお、ここでは、１つの単語と１つの文脈記号とを組にして記憶する例を挙げているが、辞書データベース２００は、１つの単語に対して複数の文脈記号を紐付けて記憶してもよい。例えば、辞書データベース２００は、「〇〇太郎」という単語に対して、「人名」という文脈記号と、「名詞」という文脈記号とを紐付けて記憶してもよい。

　（技術的効果）
　次に、第２実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図５及び図６で説明したように、第２実施形態に係る情報処理システム１０では、辞書データベース２００を用いて文脈記号が取得される。このようにすれば、より容易に適切な文脈記号を取得することが可能である。

　＜第３実施形態＞
　第３実施形態に係る情報処理システム１０について、図７及び図８を参照して説明する。なお、第３実施形態は、上述した第２実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第１及び第２実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図７を参照しながら、第３実施形態に係る情報処理システム１０の機能的構成について説明する。図７は、第３実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図７では、図５で示した構成要素と同様の要素に同一の符号を付している。

　図７に示すように、第３実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、第１テキストデータ取得部１１０と、音声データ生成部１２０と、文脈記号取得部１３０と、テキストデータ生成部１４０と、学習部１５０と、辞書データベース２００と、辞書データ提示部２１０と、辞書データ更新部２２０と、を備えて構成されている。即ち、第３実施形態に係る情報処理システム１０は、すでに説明した第２実施形態の構成（図５参照）に加えて、辞書データ提示部２１０と、辞書データ更新部２２０と、を更に備えている。辞書データ提示部２１０は、例えば上述した出力装置１６（図１参照）を用いて実現されてよい。辞書データ更新部２２０は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　辞書データ提示部２１０は、辞書データベース２００に記憶されている辞書データを、ユーザに対して提示可能に構成されている。辞書データ提示部２１０による辞書データの提示方法は特に限定されるものではない。例えば、辞書データ提示部２１０は、ディスプレイを介して辞書データをユーザに対して表示してよい。或いは、辞書データ提示部２１０は、スピーカを介して辞書データを音声出力してよい。

　辞書データ更新部２２０は、辞書データの提示を受けたユーザの操作に応じて、辞書データベース２００の辞書データを更新可能に構成されている。例えば、ユーザが新たな単語及び文脈記号を入力する操作を行った場合、辞書データ更新部２２０は、それらの単語及び文脈記号を辞書データベース２００に新たに追加する処理を行ってよい。また、ユーザがすでに登録されている単語に紐付いた文脈記号を変更（修正）する操作を行った場合、辞書データ更新部２２０は、辞書データベース２００を変更後のものに書き換える処理を行ってよい。また、ユーザがすでに登録されている単語及び文脈記号を削除する操作を行った場合、辞書データ更新部２２０は、それらの単語及び文脈記号を辞書データベース２００から削除する処理を行ってよい。

　（更新動作）
　次に、図８を参照しながら、第３実施形態に係る情報処理システム１０における辞書データベース２００を更新する動作（以下、適宜「更新動作」と称する）の流れについて説明する。図８は、第３実施形態に係る情報処理システムによる更新動作の流れを示すフローチャートである。

　図８に示すように、第３実施形態に係る情報処理システム１０の更新動作が開始されると、まず辞書データ提示部２１０が、辞書データベース２００に記憶されている辞書データをユーザに提示する（ステップＳ３０１）。辞書データ提示部２１０は、記憶されている辞書データを全て提示する（例えば、一覧形式で表示する）ようにしてもよいし、一部のみを提示するようにしてもよい。

　続いて、辞書データ更新部２２０は、辞書データの提示を受けたユーザによる入力を受け付ける（ステップＳ３０２）。そして、辞書データ更新部２２０は、ユーザの入力に応じて、辞書データベース２００に記憶されている辞書データを更新する（ステップＳ３０３）。なお、上述した辞書データの更新動作は、第１実施形態で説明した音声認識器５０を学習する動作（図４参照）とは別に（例えば、学習する動作を開始する前に）実行されてよい。ただし、辞書データの更新動作は、音声認識器５０を学習する動作と並行して同時に実行されてもよい。

　（技術的効果）
　次に、第３実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図７及び図８で説明したように、第３実施形態に係る情報処理システム１０では、ユーザの入力に応じて辞書データが更新される。このようにすれば、新たな辞書データを追加したり、不適切な辞書データを修正・削除したりすることができる。その結果、文脈記号取得部１３０が、より適切な文脈記号を取得することが可能となる。

　＜第４実施形態＞
　第４実施形態に係る情報処理システム１０について、図９及び図１０を参照して説明する。なお、第４実施形態は、上述した第２及び第３実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第１から第３実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図９を参照しながら、第４実施形態に係る情報処理システム１０の機能的構成について説明する。図９は、第４実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図９では、図５で示した構成要素と同様の要素に同一の符号を付している。

　図９に示すように、第４実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、第１テキストデータ取得部１１０と、音声データ生成部１２０と、文脈記号取得部１３０と、テキストデータ生成部１４０と、学習部１５０と、辞書データベース２００と、第２テキストデータ取得部２３０と、単語追加部２４０と、を備えて構成されている。即ち、第４実施形態に係る情報処理システム１０は、すでに説明した第２実施形態の構成（図５参照）に加えて、第２テキストデータ取得部２３０と、単語追加部２４０と、を更に備えている。第２テキストデータ取得部２３０、及び単語追加部２４０の各々は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　第２テキストデータ取得部２３０は、辞書データベース２００を学習する（即ち、新たな辞書データを追加する）ための学習用テキストデータを取得可能に構成されている。学習用テキストデータは、文脈記号を含まないテキストデータ（例えば、単語や文章のみからなるテキストデータ）であってもよいし、文脈記号を含むテキストデータ（例えば、第２テキストデータと同様の形式のテキストデータ）であってもよい。第２テキストデータ取得部２３０は、学習用テキストデータを複数取得してもよい。なお、第２テキストデータ取得部２３０は、音声入力によって学習用テキストデータを取得してもよい。即ち、音声データをテキストデータに変換して、学習用テキストデータとして取得してもよい。

　単語追加部２４０は、学習用テキストデータに含まれる単語を、辞書データベース２００に追加可能に構成されている。単語追加部２４０は、学習用テキストデータを解析し、含まれる単語を抽出する機能を有していてもよい。単語追加部２４０は、第２テキストデータに複数の単語が含まれる場合、その全てを辞書データベース２００に追加してもよいし、一部のみを追加してもよい。単語追加部２４０は、辞書データベース２００に追加する単語を、自動的に選択してもよいし、ユーザ等の入力に応じて選択してもよい。単語追加部２４０による具体的な単語の追加方法については、後述する他の実施形態で詳しく説明する。

　（単語追加動作）
　次に、図１０を参照しながら、第４実施形態に係る情報処理システム１０における辞書データベース２００に新たな単語を追加する動作（以下、適宜「単語追加動作」と称する）の流れについて説明する。図１０は、第４実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。

　図１０に示すように、第４実施形態に係る情報処理システム１０の単語追加動作が開始されると、まず第２テキストデータ取得部２３０が学習用テキストデータを取得する（ステップＳ４０１）。第２テキストデータ取得部２３０で取得された学習用テキストデータは、単語追加部２４０に出力される。

　続いて、単語追加部２４０が、学習用テキストデータを解析する（ステップＳ４０２）。例えば、単語追加部２４０は、学習用テキストデータを解析して、それに含まれる単語を抽出する。その後、単語追加部２４０は、学習用テキストデータに含まれる単語を辞書データベース２００に追加する（ステップＳ４０３）。

　（技術的効果）
　次に、第４実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図９及び図１０で説明したように、第４実施形態に係る情報処理システム１０では、学習用テキストデータを用いて辞書データベース２００に新たな単語が追加される。このようにすれば、辞書データベース２００に登録されている単語を容易に増加させることができる。その結果、文脈記号取得部１３０が、より適切な文脈記号を取得することが可能となる。

　＜第５実施形態＞
　第５実施形態に係る情報処理システム１０について、図１１及び図１２を参照して説明する。なお、第５実施形態は、上述した第４実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第１から第４実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１１を参照しながら、第５実施形態に係る情報処理システム１０の機能的構成について説明する。図１１は、第５実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図１１では、図９で示した構成要素と同様の要素に同一の符号を付している。

　図１１に示すように、第５実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、第１テキストデータ取得部１１０と、音声データ生成部１２０と、文脈記号取得部１３０と、テキストデータ生成部１４０と、学習部１５０と、辞書データベース２００と、第２テキストデータ取得部２３０と、単語追加部２４０と、単語抽出部２５０と、抽出単語提示部２６０と、を備えて構成されている。即ち、第５実施形態に係る情報処理システム１０は、すでに説明した第４実施形態の構成（図９参照）に加えて、単語抽出部２５０と、抽出単語提示部２６０と、を更に備えている。単語抽出部２５０は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。抽出単語提示部２６０は、例えば上述した出力装置１６（図１参照）を用いて実現されてよい。

　単語抽出部２５０は、第２テキストデータ取得部で取得された学習用テキストデータから、単語を抽出可能に構成されている。単語抽出部２５０は、学習用テキストデータに含まれる単語をすべて抽出してもよいし、一部のみを抽出してもよい。単語抽出部２５０は、例えば学習用テキストデータに含まれる単語のうち、辞書データベース２００に登録されていない単語のみを抽出するようにしてもよい。

　抽出単語提示部２６０は、単語抽出部２５０で抽出された単語を、ユーザに対して提示可能に構成されている。抽出単語提示部２６０による抽出された単語の提示方法は特に限定されるものではない。例えば、抽出単語提示部２６０は、ディスプレイを介して抽出された単語をユーザに対して表示してよい。或いは、抽出単語提示部２６０は、スピーカを介して抽出された単語を音声出力してよい。

　本実施形態に係る単語追加部２４０は、抽出された単語の提示を受けたユーザの操作に応じて、辞書データベース２００の辞書データに単語を追加可能に構成されている。例えば、ユーザが抽出された単語のうち少なくとも１つの単語を選択した場合、単語追加部２４０は、ユーザが選択した単語を辞書データベース２００に新たに追加する処理を行ってよい。また、抽出された単語に対してユーザが文脈記号を紐付ける操作（例えば、その単語に紐づく文脈記号を入力する操作）を行った場合、単語追加部２４０は、それらの単語及び文脈記号を辞書データベース２００に新たに追加する処理を行ってよい。

　（単語追加動作）
　次に、図１２を参照しながら、第５実施形態に係る情報処理システム１０における単語追加動作の流れについて説明する。図１２は、第５実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。

　図１２に示すように、第５実施形態に係る情報処理システム１０の単語追加動作が開始されると、まず第２テキストデータ取得部２３０が学習用テキストデータを取得する（ステップＳ５０１）。第２テキストデータ取得部２３０で取得された学習用テキストデータは、単語抽出部２５０に出力される。

　続いて、単語抽出部２５０が、学習用テキストデータから単語を抽出する（ステップＳ５０２）。単語抽出部２５０で抽出された単語に関する情報は、抽出単語提示部２６０に出力される。そして、抽出単語提示部２６０が、単語抽出部２５０で抽出された単語をユーザに提示する（ステップＳ５０３）。

　続いて、単語追加部２４０は、抽出された単語の提示を受けたユーザによる入力を受け付ける（ステップＳ５０４）。そして、単語追加部２４０は、ユーザの入力に応じて、単語抽出部２５０で抽出された単語を辞書データベース２００に追加する（ステップＳ５０５）。

　（技術的効果）
　次に、第５実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１１及び図１２で説明したように、第５実施形態に係る情報処理システム１０では、ユーザの入力に辞書データベース２００に新たな単語が追加される。このようにすれば、辞書データベース２００に登録されている単語を増加させることができる。また、ユーザの入力によって、単語により適切な文脈記号が紐付けられる。その結果、文脈記号取得部１３０が、より適切な文脈記号を取得することが可能となる。

　＜第６実施形態＞
　第６実施形態に係る情報処理システム１０について、図１３から図１５を参照して説明する。なお、第６実施形態は、上述した第４及び第５実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第１から第５実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１３を参照しながら、第６実施形態に係る情報処理システム１０の機能的構成について説明する。図１３は、第６実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図１３では、図９で示した構成要素と同様の要素に同一の符号を付している。

　図１３に示すように、第６実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、第１テキストデータ取得部１１０と、音声データ生成部１２０と、文脈記号取得部１３０と、テキストデータ生成部１４０と、学習部１５０と、辞書データベース２００と、第２テキストデータ取得部２３０と、単語追加部２４０と、を備えて構成されている。そして、第６実施形態に係る単語追加部２４０は特に、文脈類似判定部２４５を備えている。

　なお、第６実施形態に係る辞書データベース２００は、単語及び文脈記号に加えて、文脈例を記憶可能に構成されている。辞書データベース２００は、例えば、単語と、文脈記号と、文脈例との組を辞書データとして記憶する。辞書データベース２００は、１つの単語や１つの文脈記号に対して、複数の文脈例を記憶するように構成されてもよい。文脈例は、例えば予めユーザによって入力されたものであってもよいし、辞書データベース２００を更新する際に取得したもの（例えば、以前の学習用テキストデータに含まれていたもの）であってもよい。

　文脈類似判定部２４５は、第２テキストデータ取得部２３０によって取得された学習用テキストデータに含まれる第１文脈が、辞書データベース２００に記憶されている文脈例と類似しているか否かを判定する。文脈類似判定部２４５は、例えば学習用テキストデータに含まれる第１文脈と、辞書データベース２００に記憶されている文脈例との一致度を算出し、その一致度が所定値以上となった場合に、第１文脈と文脈例とが類似していると判定してよい。

　本実施形態に係る単語追加部２４０は、文脈類似判定部２４５の判定結果に応じて、辞書データベース２００に新たな単語を追加可能に構成されている。文脈類似判定部２４５の判定結果に応じた単語の追加方法については、後に詳しく説明する。なお、単語追加部２４０は、文脈類似判定部２４５の判定結果に応じて単語を追加するだけでなく、それ以外の方法で単語を追加可能に構成されてもよい。例えば、単語追加部２４０は、第５実施形態（図１１及び図１２参照）で説明したように、ユーザの入力に応じて単語を追加可能に構成されてもよい。

　（辞書データの具体例）
　次に、図１４を参照しながら、第６実施形態に係る辞書データベース２００が記憶する辞書データについて具体的に説明する。図１４は、辞書データベースに記憶される単語、文脈記号、及び文脈例の一例を示す表である。

　図１４に示すように、辞書データベース２００は、単語と、文脈記号と、文脈例とを紐付けて記憶している。文脈例は主に文脈記号に紐付けて記憶されてよい。図に示す例では、「人名」という文脈記号に、「お名前は○○様ですね」という文脈例が紐付いて記憶されている。「地名」という文脈記号に、「〇〇に行ってきました」という文脈例が紐付いて記憶されている。「商品名」という文脈記号に、「〇〇を開発中です」という文脈例が紐付いて記憶されている。「組織名」という文脈記号に、「〇〇に所属している方は、…」という文脈例が紐付いて記憶されている。

　なお、文脈例は、１つの文脈例に対して複数紐付いて記憶されていてもよい。また、文脈例は、単語ごとに紐付いて記憶されていてもよい。例えば、文脈記号が共通する単語であっても、別々の文脈例が紐付いて記憶されていてもよい。

　（単語追加動作）
　次に、図１５を参照しながら、第６実施形態に係る情報処理システム１０における単語追加動作の流れについて説明する。図１５は、第６実施形態に係る情報処理システムによる単語追加動作の流れを示すフローチャートである。

　図１５に示すように、第６実施形態に係る情報処理システム１０の単語追加動作が開始されると、まず第２テキストデータ取得部２３０が学習用テキストデータを取得する（ステップＳ６０１）。第２テキストデータ取得部２３０で取得された学習用テキストデータは、単語追加部２４０の文脈類似判定部２４５に出力される。

　続いて、文脈類似判定部２４５が、第２テキストデータ取得部２３０によって取得された学習用テキストデータに含まれる第１文脈が、辞書データベース２００に記憶されている文脈例と類似しているか否かを判定する（ステップＳ６０２）。

　第１文脈が文脈例と類似していると判定されると（ステップＳ６０２：ＹＥＳ）、単語追加部２４０は、第１文脈に含まれている単語を、類似すると判定された文脈例に紐付いて記憶された文脈記号に紐付くものとして、辞書データベース２００に記憶する（ステップＳ６０３）。例えば、「人名」という文脈記号が「お名前は○○様ですね」という文脈例と紐付いて記憶されており、学習用テキストデータに、「お名前はＡ様ですね」、「お名前はＢ様ですね」及び「お名前はＣ様ですね」という文脈が含まれている場合、「Ａ様」、「Ｂ様」、及び「Ｃ様」という単語は、いずれも「人名」という文脈記号に紐付くものとして記憶される。

　他方、第１文脈が文脈例と類似していないと判定されると（ステップＳ６０２：ＮＯ）、単語追加部２４０は、文脈例を用いない方法で単語を追加する（ステップＳ６０４）。例えば、単語追加部２４０は、第５実施形態で説明したように、ユーザの入力に応じて単語を追加してもよい。或いは、単語追加部２４０は、単語を追加しないようにしてもよい。

　（技術的効果）
　次に、第６実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１３から図１５で説明したように、第６実施形態に係る情報処理システム１０では、文脈が類似しているか否かを判定して辞書データベース２００に新たな語が追加される。このようにすれば、辞書データベース２００に登録されている単語を容易に増加させることができる。また、文脈例を利用することにより、単語により適切な文脈記号が紐付けられる。その結果、文脈記号取得部１３０が、より適切な文脈記号を取得することが可能となる。

　＜第７実施形態＞
　第７実施形態に係る情報処理システム１０について、図１６及び図１７を参照して説明する。なお、第７実施形態は、上述した第２から第６実施形態と比べて一部の構成及び動作が異なるのみであり、その他の部分については第１から第６実施形態と同一であってよい。このため、以下では、すでに説明した各実施形態と異なる部分について詳細に説明し、その他の重複する部分については適宜説明を省略するものとする。

　（機能的構成）
　まず、図１６を参照しながら、第７実施形態に係る情報処理システム１０の機能的構成について説明する。図１６は、第７実施形態に係る情報処理システムの機能的構成を示すブロック図である。なお、図１６では、図５で示した構成要素と同様の要素に同一の符号を付している。

　図１６に示すように、第７実施形態に係る情報処理システム１０は、その機能を実現するための構成要素として、第１テキストデータ取得部１１０と、音声データ生成部１２０と、文脈記号取得部１３０と、テキストデータ生成部１４０と、学習部１５０と、辞書データベース２００と、未登録単語追加部２７０と、を備えて構成されている。即ち、第７実施形態に係る情報処理システム１０は、すでに説明した第２実施形態の構成（図５参照）に加えて、未登録単語追加部２７０を更に備えている。未登録単語追加部２７０は、例えば上述したプロセッサ１１（図１参照）によって実現される処理ブロックであってよい。

　未登録単語追加部２７０は、文脈記号取得部１３０が、辞書データベース２００に記憶されていない単語である未登録単語に対応する文脈記号を取得した場合に、その未登録単語と、未登録単語に対して取得された文脈記号と、を辞書データベース２００に記憶させることが可能に構成されている。未登録単語追加部２７０は、例えば、文脈記号取得部１３０が、辞書データベース２００とは異なる経路から（即ち、辞書データを用いずに）文脈記号を取得した場合に、未登録単語に対応する文脈記号が取得されたと判定してよい。なお、文脈記号取得部１３０は、例えば固有表現抽出を用いて、辞書データベース２００とは異なる経路から文脈記号を取得してよい。

　なお、第７実施形態に係る文脈記号取得部１３０は、例えば、辞書データベース２００とは異なる他のデータベースから文脈記号を取得可能に構成されてよい。或いは、文脈記号取得部１３０は、ユーザの入力に応じて文脈記号を取得可能に構成されてよい。或いは、文脈記号取得部１３０は、単語に適した文脈記号を自動的に判定して取得するように構成されてもよい。

　（動作の流れ）
　次に、図１７を参照しながら、第７実施形態に係る情報処理システム１０による動作の流れについて説明する。図１７は、第７実施形態に係る情報処理システムによる動作の流れを示すフローチャートである。なお、図１７では、図４で示した処理と同様の処理に同一の符号を付している。

　図１７に示すように、第７実施形態に係る情報処理システム１０が動作する際には、まず第１テキストデータ取得部１１０が第１のテキストデータを取得する（ステップＳ１０１）。第１テキストデータ取得部１１０で取得された第１のテキストデータは、音声データ生成部１２０、文脈記号取得部１３０、及びテキストデータ生成部１４０の各々に出力される。

　他方、文脈記号取得部１３０は、第１のテキストデータに含まれる単語に対応する文脈記号を取得する（ステップＳ１０３）。文脈記号取得部１３０で取得された文脈記号は、テキストデータ生成部１４０、及び未登録単語追加部２７０に出力される。

　ここで第７実施形態では特に、未登録単語追加部２７０が、文脈記号取得部１３０が未登録単語について文脈記号を取得したか否かを判定する（ステップＳ７０１）。そして、未登録単語について文脈記号が取得されている場合（ステップＳ７０１：ＹＥＳ）、未登録単語追加部２７０は、未登録単語と、未登録単語について取得された文脈記号と、を辞書データベース２００に新たに追加する（ステップＳ７０２）。なお、未登録単語について文脈記号が取得されていない場合（ステップＳ７０１：ＮＯ）、未登録単語追加部２７０は、上述したステップＳ７０２の処理を省略する。

　続いて、テキストデータ生成部１４０は、第１テキストデータ取得部１１０で取得された第１のテキストデータに、文脈記号取得部１３０で取得された文脈記号を挿入することで、第２のテキストデータを生成する（ステップＳ１０４）。テキストデータ生成部１４０で生成された第２のテキストデータは、学習部１５０に出力される。

　続いて、学習部１５０が、音声データ生成部１２０で生成された第１音声データと、テキストデータ生成部１４０で生成された第２のテキストデータと、を用いて音声認識器５０の学習を実行する（ステップＳ１０６）。

　なお、上述した例では、文脈記号を取得した直後（即ち、ステップＳ１０３の直後）に、未登録単語追加部２７０が新たな単語及び文脈記号を追加する処理を行っているが、未登録単語追加部２７０は別のタイミングで新たな単語及び文脈記号を追加してもよい。例えば、未登録単語追加部２７０は、音声認識器５０の学習が終わった後に（即ち、ステップＳ１０６の後に）、新たな単語及び文脈記号を追加する処理を行ってもよい。

　（技術的効果）
　次に、第７実施形態に係る情報処理システム１０によって得られる技術的効果について説明する。

　図１６及び図１７で説明したように、第７実施形態に係る情報処理システム１０では、未登録単語について文脈記号が取得された場合に、辞書データベース２００に新たな単語が追加される。このようにすれば、システムを運用しつつ（即ち、音声認識器５０を学習する処理を実行しつつ）、辞書データを増やしていくことができる。

　上述した各実施形態の機能を実現するように該実施形態の構成を動作させるプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体はもちろん、そのプログラム自体も各実施形態に含まれる。

　記録媒体としては例えばフロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、磁気テープ、不揮発性メモリカード、ＲＯＭを用いることができる。また該記録媒体に記録されたプログラム単体で処理を実行しているものに限らず、他のソフトウェア、拡張ボードの機能と共同して、ＯＳ上で動作して処理を実行するものも各実施形態の範疇に含まれる。更に、プログラム自体がサーバに記憶され、ユーザ端末にサーバからプログラムの一部または全てをダウンロード可能なようにしてもよい。

　＜付記＞
　以上説明した実施形態に関して、更に以下の付記のようにも記載されうるが、以下には限られない。

　（付記１）
　付記１に記載の情報処理システムは、第１のテキストデータを取得する第１テキストデータ取得手段と、前記第１のテキストデータに対応する第１の音声データを生成する音声データ生成手段と、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成するテキストデータ生成手段と、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える情報処理システムである。
である。

　（付記２）
　付記２に記載の情報処理システムは、前記単語と前記文脈記号とを紐付けて記憶する記憶手段を更に備え、前記文脈記号取得手段は、前記記憶手段を用いて前記第１のテキストデータに含まれる単語に対応する前記文脈記号を取得する、付記１に記載の情報処理システムである。

　（付記３）
　付記３に記載の情報処理システムは、前記記憶手段に記憶されている前記単語及び前記文脈記号をユーザに提示する第１提示手段と、前記第１提示手段による提示を受けた前記ユーザの操作に応じて、前記記憶手段に記憶されている前記単語及び前記文脈記号の少なくとも一方を更新する更新手段と、を更に備える付記２に記載の情報処理システムである。

　（付記４）
　付記４に記載の情報処理システムは、第３のテキストデータを取得する第２テキストデータ取得手段と、第３のテキストデータに含まれる前記単語を、前記記憶手段に新たに記憶させる単語追加手段と、を更に備える付記２又は３に記載の情報処理システムである。

　（付記５）
　付記５に記載の情報処理システムは、前記第３のテキストデータに含まれる前記単語を抽出する抽出手段と、前記抽出手段で抽出された前記単語をユーザに提示する第２提示手段と、を更に備え、前記単語追加手段は、前記第２提示手段による提示を受けた前記ユーザの操作に応じて、前記抽出手段で抽出された前記単語を前記記憶手段に記憶させる、付記４に記載の情報処理システムである。

　（付記６）
　付記６に記載の情報処理システムは、前記記憶手段は、前記単語及び前記文脈記号に加えて、前記単語及び前記文脈記号に対応する文脈例を記憶しており、前記単語追加手段は、前記第３のテキストデータに含まれる第１文脈が、前記記憶手段に記憶されている前記文脈例と類似する場合に、前記類似する文脈例に対応する前記文脈記号に紐づくものとして、前記第１文脈に含まれる単語を前記記憶手段に記憶させる、付記４又は５に記載の情報処理システムである。

　（付記７）
　付記７に記載の情報処理システムは、前記文脈記号取得手段は、前記記憶手段とは異なる経路からでも前記文脈記号を取得可能に構成されており、前記文脈記号取得手段が前記記憶手段に記憶されていない前記単語である未登録単語に対応する前記文脈記号を取得した場合に、前記未登録単語及び前記未登録単語に対応する前記文脈記号を前記記憶手段に記憶させる未登録単語追加手段を更に備える、付記２から６のいずれか一項に記載の情報処理システムである。

　（付記８）
　付記８に記載の情報処理装置は、第１のテキストデータを取得する第１テキストデータ取得手段と、前記第１のテキストデータに対応する第１の音声データを生成する音声データ生成手段と、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成するテキストデータ生成手段と、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、を備える情報処理装置である。

　（付記９）
　付記９に記載の情報処理方法は、少なくとも１つのコンピュータが実行する情報処理方法であって、第１のテキストデータを取得し、前記第１のテキストデータに対応する第１の音声データを生成し、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成し、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法である。

　（付記１０）
　付記１０に記載の記録媒体は、少なくとも１つのコンピュータに、第１のテキストデータを取得し、前記第１のテキストデータに対応する第１の音声データを生成し、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成し、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法を実行させるコンピュータプログラムが記録された記録媒体である。

　（付記１１）
　付記１１に記載のコンピュータプログラムは、少なくとも１つのコンピュータに、第１のテキストデータを取得し、前記第１のテキストデータに対応する第１の音声データを生成し、前記第１のテキストデータに含まれる単語に対応する文脈記号を取得し、前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成し、前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、情報処理方法を実行させるコンピュータプログラムである。

　この開示は、請求の範囲及び明細書全体から読み取ることのできる発明の要旨又は思想に反しない範囲で適宜変更可能であり、そのような変更を伴う情報処理システム、情報処理装置、情報処理方法、及び記録媒体もまたこの開示の技術思想に含まれる。

　１０　情報処理システム
　１１　プロセッサ
　１４　記憶装置
　５０　音声認識器
　１１０　第１テキストデータ取得部
　１２０　音声データ生成部
　１３０　文脈記号取得部
　１４０　テキストデータ生成部
　１５０　学習部
　２００　辞書データベース
　２１０　辞書データ提示部
　２２０　辞書データ更新部
　２３０　第２テキストデータ取得部
　２４０　単語追加部
　２４５　文脈類似判定部
　２５０　単語抽出部
　２６０　抽出単語提示部
　２７０　未登録単語追加部

Claims

　第１のテキストデータを取得する第１テキストデータ取得手段と、
　前記第１のテキストデータに対応する第１の音声データを生成する音声データ生成手段と、
　前記第１のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、
　前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成するテキストデータ生成手段と、
　前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、
　を備える情報処理システム。
　前記単語と前記文脈記号とを紐付けて記憶する記憶手段を更に備え、
　前記文脈記号取得手段は、前記記憶手段を用いて前記第１のテキストデータに含まれる単語に対応する前記文脈記号を取得する、
　請求項１に記載の情報処理システム。
　前記記憶手段に記憶されている前記単語及び前記文脈記号をユーザに提示する第１提示手段と、
　前記第１提示手段による提示を受けた前記ユーザの操作に応じて、前記記憶手段に記憶されている前記単語及び前記文脈記号の少なくとも一方を更新する更新手段と、
　を更に備える請求項２に記載の情報処理システム。
　第３のテキストデータを取得する第２テキストデータ取得手段と、
　第３のテキストデータに含まれる前記単語を、前記記憶手段に新たに記憶させる単語追加手段と、
　を更に備える請求項２又は３に記載の情報処理システム。
　前記第３のテキストデータに含まれる前記単語を抽出する抽出手段と、
　前記抽出手段で抽出された前記単語をユーザに提示する第２提示手段と、
　を更に備え、
　前記単語追加手段は、前記第２提示手段による提示を受けた前記ユーザの操作に応じて、前記抽出手段で抽出された前記単語を前記記憶手段に記憶させる、
　請求項４に記載の情報処理システム。
　前記記憶手段は、前記単語及び前記文脈記号に加えて、前記単語及び前記文脈記号に対応する文脈例を記憶しており、
　前記単語追加手段は、前記第３のテキストデータに含まれる第１文脈が、前記記憶手段に記憶されている前記文脈例と類似する場合に、前記類似する文脈例に対応する前記文脈記号に紐づくものとして、前記第１文脈に含まれる単語を前記記憶手段に記憶させる、
　請求項４又は５に記載の情報処理システム。
　前記文脈記号取得手段は、前記記憶手段とは異なる経路からでも前記文脈記号を取得可能に構成されており、
　前記文脈記号取得手段が前記記憶手段に記憶されていない前記単語である未登録単語に対応する前記文脈記号を取得した場合に、前記未登録単語及び前記未登録単語に対応する前記文脈記号を前記記憶手段に記憶させる未登録単語追加手段を更に備える、
　請求項２から６のいずれか一項に記載の情報処理システム。
　第１のテキストデータを取得する第１テキストデータ取得手段と、
　前記第１のテキストデータに対応する第１の音声データを生成する音声データ生成手段と、
　前記第１のテキストデータに含まれる単語に対応する文脈記号を取得する文脈記号取得手段と、
　前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成するテキストデータ生成手段と、
　前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う学習手段と、
　を備える情報処理装置。
　少なくとも１つのコンピュータが実行する情報処理方法であって、
　第１のテキストデータを取得し、
　前記第１のテキストデータに対応する第１の音声データを生成し、
　前記第１のテキストデータに含まれる単語に対応する文脈記号を取得し、
　前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成し、
　前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、
　情報処理方法。
　少なくとも１つのコンピュータに、
　第１のテキストデータを取得し、
　前記第１のテキストデータに対応する第１の音声データを生成し、
　前記第１のテキストデータに含まれる単語に対応する文脈記号を取得し、
　前記文脈記号を前記第１のテキストデータに挿入して、第２のテキストデータを生成し、
　前記第１の音声データ及び前記第２のテキストデータを入力として、音声データから該音声データに対応するテキストデータを生成する音声認識手段の学習を行う、
　情報処理方法を実行させるコンピュータプログラムが記録された記録媒体。