WO2022259564A1

WO2022259564A1 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: WO2022259564A1
Application number: PCT/JP2021/030174
Authority: WO
Inventors: 佳昭東海林; 志朗小笠原
Original assignee: 日本電信電話株式会社
Priority date: 2021-06-07
Filing date: 2021-08-18
Publication date: 2022-12-15
Also published as: JPWO2022259564A1; WO2022259304A1

Abstract

情報処理装置（１００）は、複数の音声内単語を含む音声から複数の音声内単語の各々に関して互いに異なる順位に関連づけられた複数の音声内候補単語を認識する音声認識部（２３）、複数の画像内単語を含む画像から複数の画像内単語の各々に関して互いに異なる順位に関連づけられた複数の画像内候補単語を認識する画像認識部（２４）、複数の組合せの各々について複数の音声内候補単語と複数の画像内候補単語とに共通して含まれる共通候補単語を検出する検出部（２６）、複数の組合せの各々について複数の音声内候補単語において共通候補単語に関連づけられた音声内順位及び複数の画像内候補単語において共通候補単語に関連づけられた画像内順位に基づき評価値を算出する算出部（２６）、並びに複数の組合せ毎の評価値に基づき複数の組合せから音声内単語及び画像内単語が共に共通候補単語と一致する組合せを判定する判定部（２７）を備える。

Description

情報処理装置、情報処理方法、及びプログラム

　実施形態は、情報処理装置、情報処理方法、及びプログラムに関する。

　端末の操作によって蓄積されたログを活用する技術が知られている。例えば、ペアリング技術は、蓄積されたログに基づいて、相談者に対する最適な被相談者をペアリングする。

　ログを蓄積する技術として、音声認識技術及び画像認識技術が知られている。音声認識技術は、音声に含まれる単語をログとして抽出する。画像認識技術は、画像に含まれる単語をログとして抽出する。音声認識技術及び画像認識技術により、異なる形式の情報から抽出された単語を、共通の形式で取り扱うことができる。

　例えば、同時入力される音声及びペン入力を処理することにより、単語の認識精度を向上させる手法が提案されている。

渡邉　康司、外４名、「音声とペン入力の同時入力に対する認識方式の検討」、電子情報通信学会技術研究報告、音声、2006年6月16日、vol.106、no.123、p.49-54

　しかしながら、オンライン会議等のネットワーク通信では、共通の単語を含む音声及び画像が同時に入力されない場合が多い。そして、同時入力されない音声及び画像を組み合わせることによって単語の認識精度を向上させるための手法は、少ない。

　本発明は、上記事情に着目してなされたもので、その目的とするところは、音声及び画像からの単語の認識精度を向上させる手段を提供することにある。

　一態様の情報処理装置は、音声認識部と、画像認識部と、選択部と、検出部と、算出部と、判定部と、を備える。音声認識部は、複数の期間にそれぞれ対応づけられた複数の音声内単語を含む音声から、上記複数の音声内単語の各々に関して、互いに異なる順位に関連づけられた複数の音声内候補単語を認識する。上記画像認識部は、複数の領域にそれぞれ対応づけられた複数の画像内単語を含む画像から、上記複数の画像内単語の各々に関して、互いに異なる順位に関連づけられた複数の画像内候補単語を認識する。上記選択部は、複数の組合せを選択する。上記複数の組合せの各々は、上記複数の期間のうちの１つの期間及び上記複数の領域のうちの１つの領域の組を少なくとも１つ含む。上記検出部は、上記複数の組合せの各々について、上記複数の音声内候補単語と上記複数の画像内候補単語とに共通して含まれる共通候補単語を検出する。上記算出部は、上記複数の組合せの各々について、上記複数の音声内候補単語において上記共通候補単語に関連づけられた音声内順位、及び上記複数の画像内候補単語において上記共通候補単語に関連づけられた画像内順位に基づき、評価値を算出する。上記判定部は、上記複数の組合せ毎の上記評価値に基づき、上記複数の組合せから、上記音声内単語及び上記画像内単語が共に上記共通候補単語と一致する組合せを判定する。

　実施形態によれば、音声及び画像からの単語の認識精度を向上させる手段を提供することができる。

図１は、実施形態に係る情報処理システムの構成の一例を示すブロック図である。図２は、実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。図３は、実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。図４は、実施形態に係る音声情報及び音声認識候補、並びに画像情報及び画像認識候補の一例を示す図である。図５は、実施形態に係る情報処理装置における共通単語抽出動作の概要を示すフローチャートである。図６は、実施形態に係る情報処理装置における共通単語抽出動作の第１手法を示すフローチャートである。図７は、実施形態に係る情報処理装置における共通単語抽出動作の第１手法での音声認識候補及び画像認識候補の組合せ方を示す図である。図８は、実施形態に係る情報処理装置における共通単語抽出動作の第１手法での評価値の算出の仕方を示す図である。図９は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法を示すフローチャートである。図１０は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法での音声認識候補及び画像認識候補を示す図である。図１１は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法での評価値の算出の仕方を示す図である。図１２は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法での評価値の算出の仕方を示す図である。図１３は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法での評価値の算出の仕方を示す図である。

　以下、図面を参照して実施形態について説明する。なお、以下の説明において、同一の機能及び構成を有する構成要素については、共通する参照符号を付す。

　１．　実施形態の構成
　１．１　情報処理システム
　まず、実施形態に係る情報処理システムの構成について説明する。図１は、実施形態に係る情報処理システムの構成の一例を示すブロック図である。

　図１に示すように、情報処理システム１は、ネットワークＮＷを介して接続されたコンピュータネットワークである。ネットワークＮＷは、ＷＡＮ（Wide Area Network）、ＬＡＮ（Local Area Network）、又はインターネットである。情報処理システム１は、情報処理装置１００、並びに端末２００及び３００を含む。

　情報処理装置１００は、例えば、データサーバである。情報処理装置１００は、ネットワークＮＷを介して、端末２００と端末３００との間で共有されるメディア情報を保存する。メディア情報は、例えば、音声情報及び画像情報を含む。

　端末２００及び３００は、例えば、パーソナルコンピュータ又はスマートフォンである。端末２００及び３００は、ネットワークＮＷを介して情報を共有する。

　１．２　情報処理装置
　次に、実施形態に係る情報処理装置の内部構成について説明する。

　１．２．１　ハードウェア構成
　図２は、実施形態に係る情報処理装置のハードウェア構成の一例を示すブロック図である。図２に示すように、情報処理装置１００は、制御回路１１、ストレージ１２、通信モジュール１３、及びドライブ１４を含む。

　制御回路１１は、情報処理装置１００の各構成要素を全体的に制御する回路である。制御回路１１は、ＣＰＵ（Central Processing Unit）、ＲＡＭ（Random Access Memory）、及びＲＯＭ（Read Only Memory）等を含む。

　ストレージ１２は、情報処理装置１０の補助記憶装置である。ストレージ１２は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又はメモリカード等である。ストレージ１２は、端末２００及び３００から受信したメディア情報を記憶する。また、ストレージ１２は、プログラムを記憶してもよい。

　通信モジュール１３は、ネットワークＮＷを介したメディア情報の送受信に使用される回路である。通信モジュール１３は、端末２００及び３００から受信したメディア情報をストレージ１２に転送する。

　ドライブ１４は、記憶媒体１５に記憶されたソフトウェアを読み込むための機器である。ドライブ１４は、例えば、ＣＤ（Compact Disk）ドライブ、及びＤＶＤ（Digital Versatile Disk）ドライブ等を含む。

　記憶媒体１５は、ソフトウェアを、電気的、磁気的、光学的、機械的又は化学的作用によって記憶する媒体である。記憶媒体１５は、プログラムを記憶してもよい。

　１．２．２　機能構成
　図３は、実施形態に係る情報処理装置の機能構成の一例を示すブロック図である。

　制御回路１１のＣＰＵは、ストレージ１２又は記憶媒体１５に記憶されたプログラムをＲＡＭに展開する。そして、制御回路１１のＣＰＵは、ＲＡＭに展開されたプログラムを解釈及び実行する。これにより、情報処理装置１００は、音声受信部２１、画像受信部２２、音声認識部２３、画像認識部２４、共通候補単語検出部２５、評価値算出部２６、及び判定部２７を備えるコンピュータとして機能する。

　音声受信部２１は、ネットワークＮＷを介して音声情報Ｖａを受信する。音声受信部２１は、音声情報Ｖａを音声認識部２３に送信する。

　音声情報Ｖａは、音声を含むメディア情報である。音声情報Ｖａ内の音声は、複数の単語に対応する。音声情報Ｖａ内の音声のうち、１つの単語に対応する部分は、或る期間内に発声される。１つの単語に対応する期間の長さは、単語毎に任意の長さとなり得る。なお、音声情報Ｖａには、音声に対応する複数の単語を識別する情報は含まれない。

　画像受信部２２は、ネットワークＮＷを介して画像情報Ｉａを受信する。画像受信部２２は、画像情報Ｉａを画像認識部２４に送信する。

　画像情報Ｉａは、画像を含むメディア情報である。画像情報Ｉａ内の画像は、複数の単語に対応する。画像情報Ｉａ内の画像のうち、１つの単語に対応する部分は、或る領域内に表示される。１つの単語に対応する領域の広さは、単語毎に任意の広さとなり得る。なお、画像情報Ｉａには、画像に対応する複数の単語を識別する情報は含まれない。

　音声認識部２３は、音声情報Ｖａに基づき、音声認識候補ＷＶを生成する。具体的には、音声認識部２３は、音声認識処理により、音声情報Ｖａ内の音声を文字列に変換する。音声認識処理には、例えば、音響分析や音響モデル等、種々の手法が適用され得る。また、音声認識部２３は、形態素解析により、文字列を複数の単語に分類する。音声の文字列への変換、及び文字列の単語への分類に際して、音声認識部２３は、複数の単語を最終的に決定する前に、複数の単語の各々について、少なくとも１つの候補単語（候補単語群）を生成する。音声認識部２３は、複数の単語の各々について生成された候補単語群を、音声認識候補ＷＶとして共通候補単語検出部２５に送信する。すなわち、音声認識候補ＷＶは、音声情報Ｖａに対する音声認識処理における中間生成物である。

　画像認識部２４は、画像情報Ｉａに基づき、画像認識候補ＷＩを生成する。具体的には、画像認識部２４は、画像認識処理により、画像情報Ｉａ内の画像を文字列に変換する。画像認識処理には、例えば、光学文字認識（ＯＣＲ：Optical Character Recognition）等、種々の手法が適用され得る。また、画像認識部２４は、形態素解析により、文字列を複数の単語に分類する。画像の文字列への変換、及び文字列の単語への分類に際して、画像認識部２４は、複数の単語を最終的に決定する前に、複数の単語の各々について、少なくとも１つの候補単語（候補単語群）を生成する。画像認識部２４は、複数の単語の各々について生成された候補単語群を、画像認識候補ＷＩとして共通候補単語検出部２５に送信する。すなわち、画像認識候補ＷＩは、画像情報Ｉａに対する画像認識処理における中間生成物である。

　図４は、実施形態に係る音声情報及び音声認識候補、並びに画像情報及び画像認識候補の一例を示す図である。図４では、音声情報Ｖａが１２個の期間“あ”、“い”、“う”、…によって構成され、かつ画像情報Ｉａが２０個の領域“Ａ”、“Ｂ”、“Ｃ”、…によって構成される場合が示される。

　図４に示すように、音声認識候補ＷＶのうち、或る単語に関する候補単語群は、当該或る単語が発声された期間に関連づけられる。また、音声認識候補ＷＶのうち、或る単語に関する候補単語群は、例えば、音声認識精度によって互いに順位づけられる。すなわち、音声認識候補ＷＶ内の或る候補単語群において、音声認識精度が高い候補単語は、音声認識精度が低い候補単語よりも、高い順位が割り当てられる。具体的には、図４の例では、或る期間において、音声認識部２３は、４個の候補単語を含む候補単語群（相談、濃淡、登壇、砲弾）を生成する。４個の候補単語のうち、最も音声認識精度が高い候補単語“相談”に最も高い順位（１）が割り当てられる。続いて、音声認識精度が高い順に、候補単語“濃淡”、“登壇”、及び“砲弾”にそれぞれ順位（２）、（３）、及び（４）が割り当てられる。

　同様に、画像認識候補ＷＩのうち、或る単語に関する候補単語群は、当該或る単語が表示された領域に関連づけられる。また、画像認識候補ＷＩのうち、或る単語に関する候補単語群は、例えば、画像認識精度によって互いに順位づけられる。すなわち、画像認識候補ＷＩ内の或る候補単語群において、画像認識精度が高い候補単語は、画像認識精度が低い候補単語よりも、高い順位が割り当てられる。具体的には、図４の例では、或る領域において、画像認識部２４は、４個の候補単語を含む候補単語群（相談、木目談、相言炎、木目言炎）を生成する。４個の候補単語のうち、最も画像認識精度が高い候補単語“相談”に最も高い順位（１）が割り当てられる。続いて、画像認識精度が高い順に、候補単語“木目談”、“相言炎”、及び“木目言炎”にそれぞれ順位（２）、（３）、及び（４）が割り当てられる。

　再び図３に戻って、情報処理装置１００の機能構成について説明する。

　共通候補単語検出部２５は、音声認識候補ＷＶ及び画像認識候補ＷＩに基づき、共通候補単語ＷＣを生成する。具体的には、共通候補単語検出部２５は、音声認識候補ＷＶ及び画像認識候補ＷＩのいずれにも含まれる少なくとも１つの候補単語を、共通候補単語ＷＣとして検出する。共通候補単語検出部２５は、共通候補単語ＷＣを評価値算出部２６に送信する。

　なお、音声認識候補ＷＶ及び画像認識候補ＷＩは、時間に関して独立した情報である。このため、共通候補単語検出部２５における共通候補単語ＷＣの検出処理は、音声認識候補ＷＶ及び画像認識候補ＷＩが同時に入力されることを要しない。

　評価値算出部２６は、共通候補単語ＷＣについて、音声認識候補ＷＶとして関連づけられた順位及び画像認識候補ＷＩとして関連づけられた順位に基づき、評価値ＥＶを算出する。評価値算出部２６は、評価値ＥＶを判定部２７に送信する。

　判定部２７は、評価値ＥＶに基づいて、共通候補単語ＷＣが音声情報Ｖａ及び画像情報Ｉａのいずれにも含まれるか否かを判定する。判定部２７は、判定の結果、音声情報Ｖａ及び画像情報Ｉａのいずれにも含まれると判定された共通候補単語ＷＣを、共通単語Ｗとしてストレージ１２に記憶させる。

　以上のように構成することにより、情報処理装置１００は、音声情報Ｖａから認識された候補単語及び画像情報Ｉａから認識された候補単語から、音声情報Ｖａ及び画像情報Ｉａのいずれにも含まれる可能性が高い共通単語Ｗを抽出することができる。

　２．　実施形態の動作
　次に、実施形態に係る情報処理装置の動作について説明する。

　２．１　共通単語抽出動作の概要
　まず、実施形態に係る情報処理装置における共通単語抽出動作の概要について説明する。図５は、実施形態に係る情報処理装置における共通単語抽出動作の概要を示すフローチャートである。図５の例では、音声情報Ｖａ及び画像情報Ｉａは、共通の議題に関して端末２００及び３００の間で共有されたメディア情報である場合を想定する。

　図５に示すように、音声情報Ｖａ及び画像情報Ｉａを受信すると（開始）、音声認識部２３は、音声情報Ｖａから、期間ごとに順位付けされた音声認識候補ＷＶを生成する（Ｓ１０）。

　画像認識部２４は、画像情報Ｉａから、領域ごとに順位付けされた画像認識候補ＷＩを生成する（Ｓ２０）。

　共通候補単語検出部２５は、Ｓ１０の処理で生成された音声認識候補ＷＶ及びＳ２０の処理で生成された画像認識候補ＷＩから、少なくとも１つの期間及び少なくとも１つの領域に共通して関連づけられた候補単語を、共通候補単語ＷＣとして検出する（Ｓ３０）。

　評価値算出部２６は、Ｓ３０の処理で検出された共通候補単語ＷＣについて、対応する期間及び領域の各々における順位に基づいて、評価値ＥＶを算出する（Ｓ４０）。すなわち、評価値算出部２６は、共通候補単語ＷＣについて、音声認識候補ＷＶとして関連づけられた順位及び画像認識候補ＷＩとして関連づけられた順位に基づいて、評価値ＥＶを算出する。

　判定部２７は、Ｓ４０の処理で算出された評価値ＥＶに基づいて、共通候補単語ＷＣが共通単語Ｗであるか否かを判定する（Ｓ５０）。Ｓ５０の処理の結果、共通候補単語ＷＣから共通単語Ｗが抽出され、ストレージ１２に記憶される。

　Ｓ５０の処理が終了すると、共通単語抽出動作は終了となる（終了）。

　なお、図５の例では、Ｓ１０の処理の後にＳ２０の処理が実行される場合について説明したが、これに限られない。例えば、Ｓ２０の処理は、Ｓ１０の処理の前に実行されてもよい。

　２．２　共通単語抽出動作の詳細
　次に、実施形態に係る情報処理装置における共通単語抽出動作の詳細について説明する。共通単語抽出動作のうち、特に図５におけるＳ３０、Ｓ４０、及びＳ５０処理は、種々の手法が適用可能である。

　２．２．１　第１手法
　共通単語抽出動作の第１手法について説明する。第１手法は、網羅的な探索によって高精度に共通単語Ｗを抽出する手法である。

　（フローチャート）
　まず、第１手法のフローチャートについて説明する。

　図６は、実施形態に係る情報処理装置における共通単語抽出動作の第１手法を示すフローチャートである。図６では、図５に示される各種処理のうち、Ｓ３０、Ｓ４０、及びＳ５０の処理の詳細が示される。より具体的には、図６に示されるＳ３１Ａ及びＳ３２Ａの処理は、図５に示されるＳ３０の処理に対応する。図６に示されるＳ４０Ａの処理は、図５に示されるＳ４０の処理に対応する。図６に示されるＳ５１Ａ及びＳ５２Ａの処理は、図５に示されるＳ５０の処理に対応する。

　図６に示すように、音声認識候補ＷＶ及び画像認識候補ＷＩが生成されると（開始）、共通候補単語検出部２５は、少なくとも１つの期間及び少なくとも１つの領域の組合せ（以下、第１手法において、単に「組合せ」とも呼ぶ）を選択する（Ｓ３１Ａ）。すなわち、共通候補単語検出部２５は、音声認識候補ＷＶから少なくとも１つの候補単語群を選択し、かつ画像認識候補ＷＩから少なくとも１つの候補単語群を選択する。

　共通候補単語検出部２５は、Ｓ３１Ａの処理で選択された組合せにおいて、少なくとも１つの期間と少なくとも１つの領域とで共通する候補単語を、共通候補単語ＷＣとして検出する（Ｓ３２Ａ）。

　評価値算出部２６は、Ｓ３２Ａの処理で検出された共通候補単語ＷＣについて、対応する期間及び領域の各々における順位に基づいて、評価値δを算出する（Ｓ４０Ａ）。評価値δは、例えば、０以上の整数である。評価値δは、値が大きいほど、共通候補単語ＷＣが共通単語Ｗである可能性が高いことを示す。具体的には、例えば、評価値δには、共通候補単語ＷＣの音声認識候補ＷＶにおける順位が高いほど、大きな値が加算される。同様に、評価値δには、共通候補単語ＷＣの画像認識候補ＷＩにおける順位が高いほど、大きな値が加算される。より具体的には、順位（１）に対応づけられる場合、評価値δには“２”が加算され、順位（２）に対応づけられる場合、評価値δには“１”が加算される。順位（３）以降に対応づけられる場合、評価値δは加算されない。また、評価値δには、組合せ内において共通候補単語が存在する期間及び領域の総数に応じて、大きな値が加算される。より具体的には、１つの期間及び１つの領域について共通候補単語が存在するたびに、評価値δには“２”が加算される。

　判定部２７は、音声認識候補ＷＶ及び画像認識候補ＷＩについて、全ての組合せが選択されたか否かを判定する（Ｓ５１Ａ）。全ての組合せを選択済みでない場合（Ｓ５１Ａ；ｎｏ）、判定部２７は、選択されていない組合せについて、共通候補単語ＷＣの検出及び評価値δの算出をすると判定する。つまり、共通候補単語検出部２５及び評価値算出部２６は、Ｓ５１Ａの処理において全ての組合せが選択済みと判定されるまで、Ｓ３１Ａ、Ｓ３２Ａ、及びＳ４０Ａの処理を繰り返す。

　全ての組合せを選択済みの場合（Ｓ５１Ａ；ｙｅｓ）、判定部２７は、評価値δが最大となる組合せについて検出された共通候補単語ＷＣが、共通単語Ｗであると判定する（Ｓ５２Ａ）。

　Ｓ５２Ａの処理が終了すると、共通単語抽出動作の第１手法は終了となる（終了）。

　（具体例）
　次に、第１手法の具体例について説明する。

　図７は、実施形態に係る情報処理装置における共通単語抽出動作の第１手法での音声認識候補及び画像認識候補の組合せ方を示す図である。

　図７の例では、音声情報Ｖａは、２つの期間“あ”及び“い”を有する。期間“あ”及び“い”にそれぞれ対応して、音声認識候補ＷＶ－１及びＷＶ－２が生成される。音声認識候補ＷＶ－１は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“相談”及び“濃淡”を候補単語群として含む。音声認識候補ＷＶ－２は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“濃淡”及び“相談”を候補単語群として含む。

　画像情報Ｉａは、２つの領域“Ａ”及び“Ｂ”を有する。領域“Ａ”及び“Ｂ”にそれぞれ対応して、画像認識候補ＷＩ－１及びＷＩ－２が生成される。画像認識候補ＷＩ－１は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“相談”及び“木目談”を候補単語群として含む。画像認識候補ＷＩ－２は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“濃淡”及び“シ農シ炎”を候補単語群として含む。

　図７に示すように、音声認識候補ＷＶ及び画像認識候補ＷＩの全ての組合せは、領域数を行数Ｍ（＝２）とし、かつ期間数を列数Ｎ（＝２）とする行列Ｐとして表される。行列Ｐの要素Ｐ_ｉｊは、１つの期間と１つの領域との組合せを選択するか否かに対応する（１≦ｉ≦Ｍ、１≦ｊ≦Ｎ）。すなわち、行列Ｐの要素Ｐ_ｉｊが“１”の場合、画像認識候補ＷＩ－ｉ及び音声認識候補ＷＶ－ｊの組は、選択される。行列Ｐの要素Ｐ_ｉｊが“０”の場合、画像認識候補ＷＩ－ｉ及び音声認識候補ＷＶ－ｊの組は、選択されない。

　以上のような行列Ｐを定義することにより、少なくとも１つの期間及び少なくとも１つの領域を選択する任意の場合を、一意に指定することができる。

　図８は、実施形態に係る情報処理装置における共通単語抽出動作の第１手法での評価値の算出の仕方を示す図である。

　図８に示すように、図７に示した２×２の行列Ｐの場合、組合せは、１５通り考えられる。ここで、共通候補単語ＷＣの検出に際して、共通候補単語検出部２５は、以下の制約条件を設け得る。
・１つの期間及び複数の領域の組から検出される共通候補単語ＷＣは、互いに同一でなければならない。
・１つの領域及び複数の期間の組から検出される共通候補単語ＷＣは、互いに同一でなければならない。

　これにより、１つの期間に対応する候補単語群から、複数の共通候補単語ＷＣを検出することが禁止される。また、１つの領域に対応する候補単語群から、複数の共通候補単語ＷＣを検出することが禁止される。

　上述の制約条件に照らすと、行列Ｐに関する１５通りの組合せのうち、｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛１，１，１，０｝、｛１，１，０，１｝、｛１，０，１，１｝、｛０，１，１，１｝、｛１，０，１，０｝、｛０，１，０，１｝、及び｛１，１，１，１｝の７通りは、制約条件を満たさない。特に、｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛１，１，１，０｝、｛１，１，０，１｝、｛１，０，１，１｝、及び｛０，１，１，１｝の４通りは、各領域及び各期間に対して作成される候補単語に関わらず、起こり得ない対応付けである。このため、上述した７通りについては、評価値δの算出動作は実行されない。そして、残りの８通りについて、評価値δの算出動作が実行される。

　具体的には、｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛１，０，０，０｝の場合、領域“Ａ”及び期間“あ”についてそれぞれ順位（１）及び（１）に対応づけられた候補単語“相談”が共通候補単語ＷＣとして検出される。この場合、評価値δは、２＋２＋２＝６となる。

　｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛０，１，０，０｝の場合、領域“Ａ”及び期間“い”についてそれぞれ順位（１）及び（２）に対応づけられた候補単語“相談”が共通候補単語ＷＣとして検出される。この場合、評価値δは、２＋２＋１＝５となる。

　｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛０，０，１，０｝の場合、領域“Ｂ”及び期間“あ”についてそれぞれ順位（１）及び（２）に対応づけられた候補単語“濃淡”が共通候補単語ＷＣとして検出される。この場合、評価値δは、２＋２＋１＝５となる。

　｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛０，０，０，１｝の場合、領域“Ｂ”及び期間“い”についてそれぞれ順位（１）及び（１）に対応づけられた候補単語“濃淡”が共通候補単語ＷＣとして検出される。この場合、評価値δは、２＋２＋２＝６となる。

　｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛１，１，０，０｝の場合、領域“Ａ”並びに期間“あ”及び“い”についてそれぞれ順位（１）並びに（１）及び（２）に対応づけられた候補単語“相談”が共通候補単語ＷＣとして検出される。この場合、評価値δは、（２＋２＋２）＋（２＋２＋１）＝１１となる。

　｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛０，０，１，１｝の場合、領域“Ｂ”並びに期間“あ”及び“い”についてそれぞれ順位（１）並びに（２）及び（１）に対応づけられた候補単語“濃淡”が共通候補単語ＷＣとして検出される。この場合、評価値δは、（２＋２＋１）＋（２＋２＋２）＝１１となる。

　｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛１，０，０，１｝の場合、領域“Ａ”及び期間“あ”についてそれぞれ順位（１）及び（１）に対応づけられた候補単語“相談”が共通候補単語ＷＣとして検出される。加えて、領域“Ｂ”及び期間“い”についてそれぞれ順位（１）及び（１）に対応づけられた候補単語“濃淡”が共通候補単語ＷＣとして更に検出される。この場合、評価値δは、（２＋２＋２）＋（２＋２＋２）＝１２となる。

　｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛０，１，１，０｝の場合、領域“Ａ”及び期間“い”についてそれぞれ順位（１）及び（２）に対応づけられた候補単語“相談”が共通候補単語ＷＣとして検出される。加えて、領域“Ｂ”及び期間“あ”についてそれぞれ順位（１）及び（２）に対応づけられた候補単語“濃淡”が共通候補単語ＷＣとして更に検出される。この場合、評価値δは、（２＋２＋１）＋（２＋２＋１）＝１０となる。

　判定部２７は、評価値δの値が最大（＝１２）となる｛Ｐ_１１，Ｐ_１２，Ｐ_２１，Ｐ_２２｝＝｛１，０，０，１｝の組合せにおいて検出された共通候補単語ＷＣが共通単語Ｗであると判定する。

　以上のような動作により、共通候補単語“相談”及び“濃淡”が、共通単語Ｗとして抽出される。

　なお、判定部２７は、共通単語Ｗを抽出可能な評価値δの値に閾値を設けてもよい。例えば、判定部２７は、評価値δの最大値が５以上の場合に、共通単語Ｗを抽出するように構成される。これにより、認識精度が極端に低い共通候補単語ＷＣを共通単語Ｗとして抽出することを抑制できる。

　２．２．２　第２手法
　共通単語抽出動作の第２手法について説明する。第２手法は、探索の手順を限定することによって抽出の負荷を抑制しつつ、共通単語Ｗを抽出する手法である。

　（フローチャート）
　まず、第２手法のフローチャートについて説明する。

　図９は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法を示すフローチャートである。図９では、図５に示される各種処理のうち、Ｓ３０、Ｓ４０、及びＳ５０の処理の詳細が示される。より具体的には、図９に示されるＳ３１Ｂ、Ｓ３２Ｂ、Ｓ３３Ｂ、及びＳ３４Ｂの処理は、図５に示されるＳ３０の処理に対応する。図９に示されるＳ４０Ｂの処理は、図５に示されるＳ４０の処理に対応する。図９に示されるＳ５１Ｂ、Ｓ５２Ｂ、Ｓ５３Ｂ、及びＳ５４Ｂの処理は、図５に示されるＳ５０の処理に対応する。

　図９に示すように、音声認識候補ＷＶ及び画像認識候補ＷＩが生成されると（開始）、共通候補単語検出部２５は、１つの領域を選択する（Ｓ３１Ｂ）。すなわち、共通候補単語検出部２５は、画像認識候補ＷＩから１つの候補単語群を選択する。

　共通候補単語検出部２５は、Ｓ３１Ｂの処理で選択された領域の候補単語と共通する候補単語を有する少なくとも１つの期間を更に選択する（Ｓ３２Ｂ）。これにより、１つの期間及び少なくとも１つの領域の組合せ（以下、第２手法において、単に「組合せ」とも呼ぶ）が選択される。

　共通候補単語検出部２５は、Ｓ３１Ｂ及びＳ３２Ｂの処理で選択された組合せに共通する候補単語を、共通候補単語ＷＣとして検出する（Ｓ３３Ｂ）。

　共通候補単語検出部２５は、Ｓ３１Ｂ及びＳ３２Ｂの処理で選択された組合せにおいて、Ｓ３３Ｂの処理で検出された共通候補単語ＷＣ以外の候補単語を削除する（Ｓ３４Ｂ）。

　評価値算出部２６は、Ｓ３３Ｂの処理で検出された共通候補単語ＷＣについて、対応する期間及び領域の各々における順位に基づいて、評価値εを算出する（Ｓ４０Ｂ）。評価値εは、例えば、０以上の実数である。評価値εは、値が小さいほど、共通候補単語ＷＣが共通単語Ｗである可能性が高いことを示す。具体的には、例えば、評価値εは、以下の式で算出される。

　ε＝（共通候補単語ＷＣに対応する期間及び領域の各々における順位の総和）／（共通候補単語ＷＣに対応する期間の数）
　判定部２７は、画像認識候補ＷＩについて、全ての領域が選択されたか否かを判定する（Ｓ５１Ｂ）。全ての領域を選択済みでない場合（Ｓ５１Ｂ；ｎｏ）、判定部２７は、選択されていない領域について、共通候補単語ＷＣの検出及び評価値εの算出をすると判定する。つまり、共通候補単語検出部２５及び評価値算出部２６は、Ｓ５１Ｂの処理において全ての領域が選択済みと判定されるまで、Ｓ３１Ｂ、Ｓ３２Ｂ、Ｓ３３Ｂ、Ｓ３４Ｂ、及びＳ４０Ｂの処理を繰り返す。

　全ての領域を選択済みの場合（Ｓ５１Ｂ；ｙｅｓ）、判定部２７は、同一の共通候補単語ＷＣが複数回検出されたか否かを判定する（Ｓ５２Ｂ）。

　同一の共通候補単語ＷＣが複数回検出されていた場合（Ｓ５２Ｂ；ｙｅｓ）、判定部２７は、同一の共通候補単語ＷＣのうち、評価値εが最小の場合を除く全ての共通候補単語ＷＣを削除する（Ｓ５３Ｂ）。

　同一の共通候補単語ＷＣが複数回検出されていなかった場合（Ｓ５２Ｂ；ｙｅｓ）、又はＳ５３Ｂの処理が終了すると、判定部２７は、検出された共通候補単語ＷＣが共通単語Ｗであると判定する（Ｓ５４Ｂ）。

　Ｓ５４Ｂの処理が終了すると、共通単語抽出動作の第２手法は終了となる（終了）。

　（具体例）
　次に、第２手法の具体例について説明する。

　図１０は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法での音声認識候補及び画像認識候補を示す図である。図１０の左部（Ａ）には、画像認識候補ＷＩが示される。図１０の右部（Ｂ）には、音声認識候補ＷＶが示される。

　図１０の例では、音声情報Ｖａは、６つの領域を有する。当該６つの領域にそれぞれ対応して、画像認識候補ＷＩ－１、ＷＩ－２、ＷＩ－３、ＷＩ－４、ＷＩ－５、及びＷＩ－６が生成される。画像認識候補ＷＩ－１は、順位（１）、（２）、及び（３）にそれぞれ対応づけられた候補単語“相談”、“木目談”、及び“木目言炎”を候補単語群として含む。画像認識候補ＷＩ－２は、順位（１）に対応づけられた候補単語“ペアリング”を候補単語群として含む。画像認識候補ＷＩ－３は、順位（１）に対応づけられた候補単語“技術”を候補単語群として含む。画像認識候補ＷＩ－４は、順位（１）、（２）、及び（３）にそれぞれ対応づけられた候補単語“矢口識”、“知識”、及び“矢口言音戈”を候補単語群として含む。画像認識候補ＷＩ－５は、順位（１）、（２）、及び（３）にそれぞれ対応づけられた候補単語“木目談”、“相談”、及び“木目言炎”を候補単語群として含む。画像認識候補ＷＩ－６は、順位（１）、（２）、及び（３）にそれぞれ対応づけられた候補単語“知識”、“矢暗戈”、及び“矢口識”を候補単語群として含む。

　音声情報Ｖａは、７つの期間を有する。当該７つの期間にそれぞれ対応して、音声認識候補ＷＶ－１、ＷＶ－２、ＷＶ－３、ＷＶ－４、ＷＶ－５、ＷＶ－６、及びＷＶ－７が生成される。音声認識候補ＷＶ－１は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“相談”及び“横断”を候補単語群として含む。音声認識候補ＷＶ－２は、順位（１）に対応づけられた候補単語“する際の”を候補単語群として含む。音声認識候補ＷＶ－３は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“ペアリング”及び“ベアリング”を候補単語群として含む。音声認識候補ＷＶ－４は、順位（１）、（２）、及び（３）にそれぞれ対応づけられた候補単語“技術”、“奇術”、及び“既出”を候補単語群として含む。音声認識候補ＷＶ－５は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“に関して”及び“に関する”を候補単語群として含む。音声認識候補ＷＶ－６は、順位（１）及び（２）にそれぞれ対応づけられた候補単語“意識”及び“知識”を候補単語群として含む。音声認識候補ＷＶ－７は、順位（１）、（２）、（３）、及び（４）にそれぞれ対応づけられた候補単語“相談”、“登壇”、“濃淡”、及び“砲弾”を候補単語群として含む。

　図１１、図１２、及び図１３は、実施形態に係る情報処理装置における共通単語抽出動作の第２手法での評価値の算出の仕方を示す図である。

　図１１は、１つ目の領域について評価値εが算出されるまでのＳ３１Ｂ、Ｓ３２Ｂ、Ｓ３３Ｂ、Ｓ３４Ｂ、及びＳ４０Ｂの処理に対応する。図１２は、Ｓ５１Ｂの処理において全ての領域が選択されたと判定されるまでの処理に対応する。図１３は、Ｓ５４Ｂの処理において共通単語Ｗが判定されるまでの処理に対応する。図１１、図１２、及び図１３の左上部（Ａ）には、画像認識候補ＷＩが示される。図１１、図１２、及び図１３の右上部（Ｂ）には、音声認識候補ＷＶが示される。図１１、図１２、及び図１３の下部（Ｃ）には、評価値ε及び評価値εの算出に関わるパラメタが示される。

　まず、１つ目の領域に関する動作について、図１１を用いて説明する。

　図１１に示すように、共通候補単語検出部２５は、１つ目の領域に対応する画像認識候補ＷＩ－１を選択する。共通候補単語検出部２５は、音声認識候補ＷＶ内を探索することにより、画像認識候補ＷＩ－１内の候補単語“相談”と同一の候補単語を含む音声認識候補ＷＶ－１及びＷＶ－７を更に選択する。共通候補単語検出部２５は、画像認識候補ＷＩ－１を選択した場合の共通候補単語ＷＣとして、候補単語“相談”を検出する。また、共通候補単語検出部２５は、画像認識候補ＷＩ－１並びに音声認識候補ＷＶ－１及びＷＶ－７から、共通候補単語“相談”以外の候補単語を削除する。候補単語“相談”は、画像認識候補ＷＩ－１並びに音声認識候補ＷＶ－１及びＷＶ－７においてそれぞれ順位（１）並びに（１）及び（１）に対応づけられる。このため、評価値算出部２６は、評価値ε＝（１＋１＋１）／２＝１．５を算出する。

　続いて、２つ目以降の領域に関する動作について、図１２を用いて説明する。

　図１２に示すように、２つ目以降の領域についても、１つ目の領域の場合と同様の動作が実行される。具体的には、共通候補単語検出部２５は、２つ目の領域に対応する画像認識候補ＷＩ－２を選択する。共通候補単語検出部２５は、音声認識候補ＷＶ内を探索することにより、画像認識候補ＷＩ－２内の候補単語“ペアリング”と同一の候補単語を含む音声認識候補ＷＶ－３を更に選択し、共通候補単語ＷＣとして候補単語“ペアリング”を検出する。また、共通候補単語検出部２５は、画像認識候補ＷＩ－２及び音声認識候補ＷＶ－３から、共通候補単語“ペアリング”以外の候補単語を削除する。候補単語“ペアリング”は、画像認識候補ＷＩ－２及び音声認識候補ＷＶ－３においてそれぞれ順位（１）及び（１）に対応づけられる。このため、評価値算出部２６は、評価値ε＝（１＋１）／１＝２を算出する。

　共通候補単語検出部２５は、３つ目の領域に対応する画像認識候補ＷＩ－３を選択する。共通候補単語検出部２５は、音声認識候補ＷＶ内を探索することにより、画像認識候補ＷＩ－３内の候補単語“技術”と同一の候補単語を含む音声認識候補ＷＶ－４を更に選択し、共通候補単語ＷＣとして候補単語“技術”を検出する。また、共通候補単語検出部２５は、画像認識候補ＷＩ－３及び音声認識候補ＷＶ－４から、共通候補単語“技術”以外の候補単語を削除する。候補単語“技術”は、画像認識候補ＷＩ－３及び音声認識候補ＷＶ－４においてそれぞれ順位（１）及び（１）に対応づけられる。このため、評価値算出部２６は、評価値ε＝（１＋１）／１＝２を算出する。

　共通候補単語検出部２５は、４つ目の領域に対応する画像認識候補ＷＩ－４を選択する。共通候補単語検出部２５は、音声認識候補ＷＶ内を探索することにより、画像認識候補ＷＩ－４内の候補単語“知識”と同一の候補単語を含む音声認識候補ＷＶ－６を更に選択し、共通候補単語ＷＣとして候補単語“知識”を検出する。また、共通候補単語検出部２５は、画像認識候補ＷＩ－４及び音声認識候補ＷＶ－６から、共通候補単語“知識”以外の候補単語を削除する。候補単語“知識”は、画像認識候補ＷＩ－４及び音声認識候補ＷＶ－６においてそれぞれ順位（２）及び（２）に対応づけられる。このため、評価値算出部２６は、評価値ε＝（２＋２）／１＝４を算出する。

　共通候補単語検出部２５は、５つ目の領域に対応する画像認識候補ＷＩ－５を選択する。共通候補単語検出部２５は、音声認識候補ＷＶ内を探索することにより、画像認識候補ＷＩ－５内の候補単語“相談”と同一の候補単語を含む音声認識候補ＷＶ－１及びＷＶ－７を更に選択し、共通候補単語ＷＣとして候補単語“相談”を検出する。また、共通候補単語検出部２５は、画像認識候補ＷＩ－５並びに音声認識候補ＷＶ－１及びＷＶ－７から、共通候補単語“相談”以外の候補単語を削除する。候補単語“相談”は、画像認識候補ＷＩ－５並びに音声認識候補ＷＶ－１及びＷＶ－７においてそれぞれ順位（２）並びに（１）及び（１）に対応づけられる。このため、評価値算出部２６は、評価値ε＝（２＋１＋１）／２＝２を算出する。

　共通候補単語検出部２５は、６つ目の領域に対応する画像認識候補ＷＩ－６を選択する。共通候補単語検出部２５は、音声認識候補ＷＶ内を探索することにより、画像認識候補ＷＩ－６内の候補単語“知識”と同一の候補単語を含む音声認識候補ＷＶ－６を更に選択し、共通候補単語ＷＣとして候補単語“知識”を検出する。また、共通候補単語検出部２５は、画像認識候補ＷＩ－６及び音声認識候補ＷＶ－６から、共通候補単語“知識”以外の候補単語を削除する。候補単語“知識”は、画像認識候補ＷＩ－６及び音声認識候補ＷＶ－６においてそれぞれ順位（１）及び（２）に対応づけられる。このため、評価値算出部２６は、評価値ε＝（１＋２）／１＝３を算出する。

　なお、全ての領域が選択された状態で、音声認識候補ＷＶ内に１度も選択されなかった候補単語群がある場合、共通候補単語検出部２５は、当該候補単語群を削除してもよい。図１２の例では、音声認識候補ＷＶ－２及びＷＶ－５が削除される。

　続いて、共通単語Ｗを判定する動作について、図１３を用いて説明する。

　図１３に示すように、判定部２７は、一連の検出動作によって、共通候補単語“相談”及び“知識”が複数回検出されたと判定する。そして、判定部２７は、画像認識候補ＷＩ－１及びＷＩ－５を比較することによって、評価値εが最小ではない画像認識候補ＷＩ－５における共通候補単語“相談”を削除する。同様に、判定部２７は、画像認識候補ＷＩ－４及びＷＩ－６を比較することによって、評価値εが最小ではない画像認識候補ＷＩ－４における共通候補単語“知識”を削除する。

　判定部２７は、画像認識候補ＷＩ－１、ＷＩ－２、ＷＩ－３、及びＷＩ－６を選択することによってそれぞれ検出された共通候補単語ＷＣが共通単語Ｗであると判定する。

　以上のような動作により、共通候補単語“相談”、“ペアリング”、“技術”、及び“知識”が、共通単語Ｗとして抽出される。

　なお、判定部２７は、共通単語Ｗを抽出可能な評価値εの値に閾値を設けてもよい。例えば、判定部２７は、評価値εの最小値が３以下の場合に、共通単語Ｗを抽出するように構成される。これにより、認識精度が極端に低い共通候補単語ＷＣを共通単語Ｗとして抽出することを抑制できる。

　３．　実施形態に係る効果
　実施形態によれば、音声認識部２３は、第１単語を含む音声情報Ｖａから、第１単語に関して互いに異なる順位に関連づけられた音声認識候補ＷＶ－１を認識する。画像認識部２４は、第２単語を含む画像情報Ｉａから、第２単語に関して互いに異なる順位に関連づけられた画像認識候補ＷＩ－１を認識する。共通候補単語検出部２５は、音声認識候補ＷＶ－１及び画像認識候補ＷＩ－１の組を選択した場合、音声認識候補ＷＶ－１及び画像認識候補ＷＩ－１に共通して含まれる共通候補単語ＷＣ－１を検出する。評価値算出部２６は、音声認識候補ＷＶ－１において共通候補単語ＷＣ－１に関連づけられた第１順位、及び画像認識候補ＷＩ－１において共通候補単語ＷＣ－１に関連づけられた第２順位に基づき、第１評価値を算出する。判定部２７は、第１評価値に基づき、第１単語及び第２単語が共に共通候補単語ＷＣ－１と一致するか否かを判定する。これにより、共通単語Ｗの抽出に際して、音声認識処理の認識精度と、画像認識処理の認識精度と、のいずれをも考慮することができる。このため、共通単語Ｗを高い認識精度で抽出することができる。

　また、音声情報Ｖａは、第１単語とは異なる期間において第３単語を含む。音声認識部２３は、第３単語に関して、互いに異なる順位に関連づけられた音声認識候補ＷＶ－２を認識する。共通候補単語検出部２５は、音声認識候補ＷＶ－１及びＷＶ－２、並びに画像認識候補ＷＩ－１の組を選択した場合、音声認識候補ＷＶ－１及びＷＶ－２、並びに画像認識候補ＷＩ－１に共通して含まれる共通候補単語ＷＣ－２を検出する。評価値算出部２６は、音声認識候補ＷＶ－１及びＷＶ－２において共通候補単語ＷＣ－２にそれぞれ関連づけられた第３順位及び第４順位、並びに画像認識候補ＷＩ－１において共通候補単語ＷＣ－２に関連づけられた第５順位に基づき、第２評価値を算出する。判定部２７は、第１評価値及び第２評価値に基づき、第１単語、第２単語、及び第３単語が共通候補単語ＷＣ－２と一致するか否かを判定する。これにより、１つの領域と複数の期間との組合せの場合を考慮することができる。このため、共通単語Ｗを高い認識精度で抽出することができる。

　また、画像情報Ｉａは、第２単語とは異なる領域において第４単語を含む。画像認識部２４は、第４単語に関して、互いに異なる順位に関連づけられた画像認識候補ＷＩ－２を認識する。共通候補単語検出部２５は、音声認識候補ＷＶ－１、並びに画像認識候補ＷＩ－１及びＷＩ－２の組を選択した場合、音声認識候補ＷＶ－１、並びに画像認識候補ＷＩ－１及びＷＩ－２に共通して含まれる共通候補単語ＷＣ－３を検出する。評価値算出部２６は、音声認識候補ＷＶ－１において共通候補単語ＷＣ－３に関連づけられた第６順位、画像認識候補ＷＩ－１において共通候補単語ＷＣ－３に関連づけられた第７順位、及び画像認識候補ＷＩ－２において共通候補単語ＷＣ－３に関連づけられた第８順位に基づき、第３評価値を算出する。判定部２７は、第１評価値及び第３評価値に基づき、第１単語、第２単語、及び第４単語が共通候補単語ＷＣ－３と一致するか否かを判定する。これにより、１つの期間と複数の領域との組合せの場合を考慮することができる。このため、共通単語Ｗを高い認識精度で抽出することができる。

　また、共通候補単語検出部２５は、音声認識候補ＷＶ－１及び画像認識候補ＷＩ－１の組、及び音声認識候補ＷＶ－２及び画像認識候補ＷＩ－２の組を選択した場合、音声認識候補ＷＶ－１及び画像認識候補ＷＩ－１に共通して含まれる共通候補単語ＷＣ－４及び音声認識候補ＷＶ－２及び画像認識候補ＷＩ－２に共通して含まれる共通候補単語ＷＣ－５を検出する。評価値算出部２６は、音声認識候補ＷＶ－１において共通候補単語ＷＣ－４に関連づけられた第９順位、及び画像認識候補ＷＩ－１において共通候補単語ＷＣ－４に関連づけられた第１０順位に基づき、第４評価値を算出する。評価値算出部２６は、音声認識候補ＷＶ－２において共通候補単語ＷＣ－５に関連づけられた第１１順位、及び画像認識候補ＷＩ－２において共通候補単語ＷＣ－５に関連づけられた第１２順位に基づき、第５評価値を算出する。評価値算出部２６は、第４評価値及び第５評価値に基づき、第６評価値を算出する。判定部２７は、第６評価値に基づき、第１単語及び第２単語が共通候補単語ＷＣ－４と一致し、かつ第３単語及び第４単語が共通候補単語ＷＣ－５と一致するか否かを判定する。これにより、互いに異なる複数の組を含む組合せの場合を考慮することができる。このため、共通単語Ｗを高い認識精度で抽出することができる。

　また、判定部２７は、上述の第１乃至第５評価値が閾値に達するか否かに基づいて、各種判定動作を実行する。これにより、認識精度が極端に低い共通候補単語ＷＣを共通単語Ｗとして抽出することを抑制できる。

　また、評価値算出部２６は、上述の第１乃至第５評価値として、評価値δ又はεを適用することができる。これにより、音声情報Ｖａ及び画像情報Ｉａに含まれる単語の数や、要求される認識精度等の諸条件に応じて、適当な評価値を選択することができる。

　また、情報処理装置１００は、音声認識候補ＷＶ及び画像認識候補ＷＩを、時間に関して独立に使用する。これにより、音声情報Ｖａ及び画像情報Ｉａの同時入力を要することなく、単語の認識精度を向上させることができる。

　４．　その他
　なお、上述した実施形態には、種々の変形が適用可能である。

　上述した実施形態の第２手法では、共通候補単語検出部２５が、選択した１つの領域に対して、共通候補単語ＷＣを含む少なくとも１つの期間を選択する場合について説明したが、これに限られない。例えば、共通候補単語検出部２５は、選択した１つの期間に対して、共通候補単語ＷＣを含む少なくとも１つの領域を選択してもよい。

　また、上述した実施形態では、補正動作を実行するプログラムが、情報処理システム１内の情報処理装置１００で実行される場合について説明したが、これに限られない。例えば、補正動作を実行するプログラムは、クラウド上の計算リソースで実行されてもよい。

　なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。

　１…情報処理システム
　１１…制御回路
　１２…ストレージ
　１３…通信モジュール
　１４…ドライブ
　１５…記憶媒体
　２１…音声受信部
　２２…画像受信部
　２３…音声認識部
　２４…画像認識部
　２５…共通候補単語検出部
　２６…評価値算出部
　２７…判定部
　１００…情報処理装置
　２００，３００…端末

Claims

　複数の期間にそれぞれ対応づけられた複数の音声内単語を含む音声から、前記複数の音声内単語の各々に関して、互いに異なる順位に関連づけられた複数の音声内候補単語を認識する音声認識部と、
　複数の領域にそれぞれ対応づけられた複数の画像内単語を含む画像から、前記複数の画像内単語の各々に関して、互いに異なる順位に関連づけられた複数の画像内候補単語を認識する画像認識部と、
　複数の組合せを選択する選択部と、ここで、前記複数の組合せの各々は、前記複数の期間のうちの１つの期間及び前記複数の領域のうちの１つの領域の組を少なくとも１つ含む、
　前記複数の組合せの各々について、前記複数の音声内候補単語と前記複数の画像内候補単語とに共通して含まれる共通候補単語を検出する検出部と、
　前記複数の組合せの各々について、前記複数の音声内候補単語において前記共通候補単語に関連づけられた音声内順位、及び前記複数の画像内候補単語において前記共通候補単語に関連づけられた画像内順位に基づき、評価値を算出する算出部と、
　前記複数の組合せ毎の前記評価値に基づき、前記複数の組合せから、前記音声内単語及び前記画像内単語が共に前記共通候補単語と一致する組合せを判定する判定部と、
　を備えた、
　情報処理装置。
　前記複数の組合せのうちの第１組合せが、第１期間及び第１領域の組を含む場合、前記第１組合せについて、
　前記検出部は、前記第１期間に対応する第１音声内単語に関する複数の第１音声内候補単語と、前記第１領域に対応する第１画像内単語に関する複数の第１画像内候補単語と、に共通して含まれる第１共通候補単語を検出し、
　前記算出部は、前記複数の第１音声内候補単語において前記第１共通候補単語に関連づけられた第１音声内順位、及び前記複数の第１画像内候補単語において前記第１共通候補単語に関連づけられた第１画像内順位に基づき、前記第１組合せに対応する第１評価値を算出する、
　請求項１記載の情報処理装置。
　前記複数の組合せのうちの第２組合せが、第２期間及び第２領域の組、並びに第３期間及び前記第２領域の組を含む場合、前記第２組合せについて、
　前記検出部は、前記第２期間に対応する第２音声内単語に関する複数の第２音声内候補単語と、前記第３期間に対応する第３音声内単語に関する複数の第３音声内候補単語と、前記第２領域に対応する第２画像内単語に関する複数の第２画像内候補単語と、に共通して含まれる第２共通候補単語を検出し、
　前記算出部は、前記複数の第２音声内候補単語において前記第２共通候補単語に関連づけられた第２音声内順位、前記複数の第３音声内候補単語において前記第２共通候補単語に関連づけられた第３音声内順位、及び前記複数の第２画像内候補単語において前記第２共通候補単語に関連づけられた第２画像内順位に基づき、前記第２組合せに対応する第２評価値を算出する、
　請求項１記載の情報処理装置。
　前記複数の組合せのうちの第３組合せが、第４期間及び第３領域の組、並びに前記第４期間及び第４領域の組を含む場合、前記第３組合せについて、
　前記検出部は、前記第４期間に対応する第４音声内単語に関する複数の第４音声内候補単語と、前記第３領域に対応する第３画像内単語に関する複数の第３画像内候補単語と、前記第４領域に対応する第４画像内単語に関する複数の第４画像内候補単語と、に共通して含まれる第３共通候補単語を検出し、
　前記算出部は、前記複数の第４音声内候補単語において前記第３共通候補単語に関連づけられた第４音声内順位、前記複数の第３画像内候補単語において前記第３共通候補単語に関連づけられた第３画像内順位、及び前記複数の第４画像内候補単語において前記第３共通候補単語に関連づけられた第４画像内順位に基づき、前記第３組合せに対応する第３評価値を算出する、
　請求項１記載の情報処理装置。
　前記複数の組合せのうちの第４組合せが、第５期間及び第５領域の組、並びに第６期間及び第６領域の組を含む場合、前記第４組合せについて、
　前記検出部は、
　　前記第５期間に対応する第５音声内単語に関する複数の第５音声内候補単語と、前記第５領域に対応する第５画像内単語に関する複数の第５画像内候補単語と、に共通して含まれる第４共通候補単語を検出し、
　　前記第６期間に対応する第６音声内単語に関する複数の第６音声内候補単語と、前記第６領域に対応する第６画像内単語に関する複数の第６画像内候補単語と、に共通して含まれる第５共通候補単語を検出し、
　前記算出部は、
　　前記複数の第５音声内候補単語において前記第４共通候補単語に関連づけられた第５音声内順位、及び前記複数の第５画像内候補単語において前記第４共通候補単語に関連づけられた第５画像内順位に基づき、第４評価値を算出し、
　　前記複数の第６音声内候補単語において前記第５共通候補単語に関連づけられた第６音声内順位、及び前記複数の第６画像内候補単語において前記第５共通候補単語に関連づけられた第６画像内順位に基づき、第５評価値を算出し、
　　前記第４評価値及び前記第５評価値に基づいて前記第４組合せに対応する第６評価値を算出する、
　請求項１記載の情報処理装置。
　前記判定部は、前記評価値が閾値に達するか否かに基づいて、前記組合せを判定する、
　請求項１記載の情報処理装置。
　情報処理装置によって実行される情報処理方法であって、
　複数の期間にそれぞれ対応づけられた複数の音声内単語を含む音声から、前記複数の音声内単語の各々に関して、互いに異なる順位に関連づけられた複数の音声内候補単語を認識することと、
　複数の領域にそれぞれ対応づけられた複数の画像内単語を含む画像から、前記複数の画像内単語の各々に関して、互いに異なる順位に関連づけられた複数の画像内候補単語を認識することと、
　複数の組合せを選択することと、ここで、前記複数の組合せの各々は、前記複数の期間のうちの１つの期間及び前記複数の領域のうちの１つの領域の組を少なくとも１つ含む、
　前記複数の組合せの各々について、前記複数の音声内候補単語と前記複数の画像内候補単語とに共通して含まれる共通候補単語を検出することと、
　前記複数の組合せの各々について、前記複数の音声内候補単語において前記共通候補単語に関連づけられた音声内順位、及び前記複数の画像内候補単語において前記共通候補単語に関連づけられた画像内順位に基づき、評価値を算出することと、
　前記複数の組合せ毎の前記評価値に基づき、前記複数の組合せから、前記音声内単語及び前記画像内単語が共に前記共通候補単語と一致する組合せを判定することと、
　を備えた、
　情報処理方法。
　コンピュータを、請求項１乃至請求項６のいずれか１項に記載の情報処理装置が備える各部として機能させるためのプログラム。