WO2022168247A1

WO2022168247A1 - 文書検索装置、文書検索方法、及び、文書検索プログラム

Info

Publication number: WO2022168247A1
Application number: PCT/JP2021/004202
Authority: WO
Inventors: 恭平西出; 恒次阪田; 宏樹 ▲黒▼須; 雅玉井
Original assignee: 三菱電機株式会社
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2022-08-11
Also published as: JPWO2022168247A1; TW202232363A

Abstract

文書検索装置（１００）は、用語間重み算出部（１３０）と、重み付け部（１４０）とを備える。用語間重み算出部（１３０）は、複数の検索文書（２１０）の少なくともいずれかが含む用語から成るベクトル用語が含む各２つの用語について、一方の用語が他方の用語の下位に当たる場合に、一方の用語と他方の用語との組み合わせにおける一方の用語に対する重みであって、意味的距離に応じて定まる重みである用語間重みを算出する。重み付け部（１４０）は、ベクトル用語が含む各用語について、各用語の上位に当たる他の用語をベクトル用語が含む場合に、検索文に対応する検索文特徴量と用語間重みとを用いて各用語に対応する重みを求める。

Description

文書検索装置、文書検索方法、及び、文書検索プログラム

　本開示は、文書検索装置、文書検索方法、及び、文書検索プログラムに関する。

　検索システムにおいて、表記の揺れ等によりテキスト間の類似性を正当に評価することができない場合に対応する必要がある。
　特許文献１は、番組が有する概要欄に基づいて類似した概要欄を有する番組を検索する際に、類似関係と、上位下位関係等の言語表現間の関係とを利用して文章を拡張することにより前述の場合に対応する技術を開示している。なお、概要欄は文章である。

特許第５９８２１７４号公報

　特許文献１が開示する技術によれば、上位概念又は兄弟概念に当たる単語を用いて文書の単語を拡張する。そのため、具体例として「エレベータの照明」の詳細について検索したい場合に、利用者は検索文として入力した内容よりも具体的な内容を求めたいと考えるが、「エレベータの照明」の上位概念である「カゴ」等、検索文が含む単語よりも抽象的な単語によって検索対象を拡張することにより利用者が意図していない単語が含まれる文書が検索されるという課題がある。
　特に、ある単語が複数の上位概念に当たる単語を持つ場合に、検索に用いる単語との関連性が低い単語を含む文書が検索されやすくなる。

　本開示は、文書を検索する文書検索装置において、上位概念及び兄弟概念に当たる単語を用いずに文書の単語を拡張することを目的とする。

　本開示に係る文書検索装置は、
　複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語を含む検索文に対応する検索文書を検索する文書検索装置であって、
　前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶する記憶部と、
　前記ベクトル用語が含む各２つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出する用語間重み算出部と、
　前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める重み付け部と
を備える。

　本開示によれば、用語間重み算出部が、ベクトル用語が含む各２つの用語について、一方の用語が他方の用語の下位に当たる場合に他方の用語に基づいて定まる一方の用語に対する用語間重みを求める。その後、重み付け部が用語間重みを用いてベクトル用語が含む各用語に対応する重みを求める。文書検索装置は、重み付け部が求めた重みを用いて検索文書を検索する。
　従って、本開示によれば、文書を検索する文書検索装置において、上位概念及び兄弟概念に当たる単語を用いずに文書の単語を拡張することができる。

実施の形態１に係る文書検索装置１００の構成例を示す図。実施の形態１に係る文書検索装置１００のハードウェア構成例を示す図。実施の形態１に係る文書検索装置１００の動作を示すフローチャート。実施の形態１に係る用語間重み算出部１３０の動作を示すフローチャート。実施の形態１に係る用語間重み算出部１３０の処理を説明する図。実施の形態１に係る用語間重み算出部１３０の処理を説明する図。実施の形態１に係る用語間重み算出部１３０の処理を説明する図。実施の形態１に係るベクトル化処理部１２０の動作を示すフローチャート。実施の形態１に係るベクトル化処理部１２０の処理を説明する図。実施の形態１に係る文書検索装置１００の動作を示すフローチャート。実施の形態１に係るベクトル化処理部１２０の処理を説明する図。実施の形態１に係る重み付け部１４０の処理を説明する図。実施の形態１に係る重み付け部１４０の処理を説明する図。実施の形態１に係る類似度算出部１５０の処理を説明する図。実施の形態１の変形例に係る文書検索装置１００のハードウェア構成例を示す図。実施の形態２に係る文書検索装置１００の構成例を示す図。実施の形態２に係る文書検索装置１００の動作を示すフローチャート。実施の形態２に係る結果編集部１６０の処理を説明する図。

　実施の形態の説明及び図面において、同じ要素及び対応する要素には同じ符号を付している。同じ符号が付された要素の説明は、適宜に省略又は簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。また、「部」を、「回路」、「工程」、「手順」、「処理」又は「サーキットリー」に適宜読み替えてもよい。

　実施の形態１．
　以下、本実施の形態について、図面を参照しながら詳細に説明する。

＊＊＊構成の説明＊＊＊
　図１は、本実施の形態に係る文書検索装置１００の構成例を示している。文書検索装置１００は、本図に示すように、検索文受付部１１０と、ベクトル化処理部１２０と、用語間重み算出部１３０と、重み付け部１４０と、類似度算出部１５０と、結果編集部１６０とを備える。文書検索装置１００は、端末５００と通信し、また、複数の検索文書２１０と、複数の検索文書ベクトル２２０と、同義語辞書２３０と、上位下位関係辞書２４０とを記憶する。文書検索装置１００は、複数の検索文書２１０から検索文５１０に対応する文書を検索する検索サーバでもある。なお、文書検索装置１００の代わりにクラウドサーバ等の外部装置が複数の検索文書２１０と、同義語辞書２３０と、上位下位関係辞書２４０とを記憶しており、文書検索装置１００が、複数の検索文書２１０と、同義語辞書２３０と、上位下位関係辞書２４０とが有する情報を当該外部装置から適宜取得する構成であってもよい。

　端末５００は、ユーザが複数の検索文書２１０を検索する際に用いる機器であり、文書検索装置１００と通信する。
　ユーザは検索用テキスト５０９を端末５００に入力し、端末５００はユーザが入力した検索用テキスト５０９を文書検索装置１００に送信する。検索用テキスト５０９は複数の検索文書２１０を検索するためのテキストである。端末５００は、文書検索装置１００に送信した検索用テキスト５０９に対応する検索結果を受け取り、受け取った検索結果をユーザに提示する。
　検索文５１０は、検索用テキスト５０９が含む用語のうち、ベクトル用語３００が含む用語の集合である。検索文５１０は典型的には名詞の集合である。検索文５１０は、まず検索用テキスト５０９を単語に区切り、次に検索用テキスト５０９に含まれる単語のうち名詞のみを抽出し、次に抽出した名詞のうちベクトル用語３００に含まれる名詞を抽出することにより得られる。
　ベクトル用語３００は、複数の検索文書２１０の少なくともいずれかが含む用語から成る。各検索文書２１０はベクトル用語３００が含む用語を含むこともある。なお、各検索文書２１０及び検索文５１０は、ベクトル用語３００が含む用語の全てを含むとは限らない。ベクトル用語３００は、典型的には複数の検索文書２１０の少なくともいずれかに含まれる名詞の集合である。ベクトル用語３００は、まず各検索文書２１０のテキストを単語に区切り、次に各検索文書２１０に含まれる単語のうち名詞のみを抽出することによって得られる。

　各検索文書２１０は、文書検索装置１００が検索対象とする文書であり、複数の文書の集合であってもよい。

　各検索文書ベクトル２２０は、ベクトル化した各検索文書２１０であり、各検索文書２１０に含まれる各用語の重みを示す。各検索文書ベクトル２２０は各検索文書２１０に１対１で対応する。

　同義語辞書２３０は、同義である複数の用語のまとまりを示す情報を含む辞書である。

　上位下位関係辞書２４０は、ベクトル用語３００が含む複数の用語間の上位下位関係を示す上位下位関係情報を含む辞書であり、また、オントロジーであってもよい。

　検索文受付部１１０は、端末５００から検索用テキスト５０９を受け付け、受け付けた検索用テキスト５０９をベクトル化処理部１２０に渡す。

　ベクトル化処理部１２０は、検索用テキスト５０９と複数の検索文書２１０とを受け付け、受け付けた検索用テキスト５０９を用いて検索文５１０を生成し、生成した検索文５１０を用いて検索文ベクトル５１２を生成し、受け付けた複数の検索文書２１０を用いてと複数の検索文書ベクトル２２０を生成する。検索文ベクトル５１２は、検索文５１０に対応するベクトルであり、検索文特徴量の具体例である。各検索文書ベクトル２２０は各検索文書２１０の特徴を抽出した検索文書特徴量である。検索文特徴量と検索文書特徴量とは、それぞれ、ベクトル用語３００が含む用語それぞれに対応する要素から成り、検索文５１０と複数の検索文書２１０とを用いて求められる。ベクトル化処理部１２０は、複数の検索文書２１０に１対１で対応する複数の検索文書特徴量を求める。
　ベクトル化処理部１２０は、検索文５１０と各検索文書２１０とをベクトル化する際に同義語辞書２３０を用いてもよい。ベクトル化処理部１２０が同義語辞書２３０を用いるとき、具体例として、「作る」という用語と「作成」という用語とが同義であると同義語辞書２３０が示している場合を考える。この場合において、ベクトル化処理部１２０は、「作る」という用語に対応する要素と「作成」という用語に対応する要素とを１つの要素にまとめる。

　用語間重み算出部１３０は、上位下位関係辞書２４０を用いて、用語間の意味的距離及び用語間の上位下位関係に基づいて用語間重みを算出する。用語間重みは、ベクトル用語が含む一方の用語と他方の用語との上位下位関係に基づいて定まる重みであり、他方の用語に基づいて定まる一方の用語に対する重みであり、一方の用語と他方の用語との間の意味的距離に応じて定まる重みである。意味的距離は、一方の用語の意味と他方の用語の意味との間の距離を示す。用語間重み算出部１３０は、ベクトル用語３００が含む各２つの用語について、一方の用語が他方の用語の下位に当たると上位下位関係情報が示す場合に用語間重みを算出する。用語間重み算出部１３０は、一方の用語が他方の用語の下位に当たると上位下位関係情報が示していない場合に、一方の用語と他方の用語との組み合わせにおける一方の用語に対する用語間重みを０としてもよい。
　用語間重み算出部１３０は、具体例として、上位下位関係辞書２４０を用いて用語の階層構造１３１を構築し、構築した階層構造１３１に基づいて用語間重み行列１３３を求める。用語間重み行列１３３の各要素は用語間重みである。階層構造１３１は、最上位の用語として仮想的な用語を有するものであってもよい。

　重み付け部１４０は、用語間重み算出部１３０が求めた用語間重みに基づいて検索文ベクトル５１２に重みを付与することによって重み付けベクトル５１３を生成する。
　重み付け部１４０は、ベクトル用語が含む各用語について、上位下位関係情報を参照して、ベクトル用語が含む各用語以外の用語の中に各用語の上位に当たる各他の用語が存在する場合に、検索文特徴量と用語間重みとを用いて各用語に対応する重みを求める。各用語に対応する他の用語の総数が２以上であることもある。
　重み付け部１４０は、ベクトル用語が含む各用語について、各用語に対応する前述の各他の用語が存在する場合に、各他の用語に対応する検索文特徴量の要素の値を、各用語と各他の用語との双方に対応する用語間重みに乗じ、乗じた結果と、各用語に対応する検索文特徴量の要素の値とを足し合わせて各用語に対応する重みを求めてもよい。

　類似度算出部１５０は、重み付けベクトル５１３と各検索文書ベクトル２２０とを用いて、検索文５１０と各検索文書２１０との類似度１５１を算出する。類似度算出部１５０は、具体例として、類似度１５１として、検索文特徴量と検索文書特徴量とのそれぞれのコサイン類似度又はベクトル間の距離を算出する。類似度算出部１５０がベクトル間の距離を算出する場合、類似度算出部１５０は各検索文書ベクトル２２０と重み付けベクトル５１３とを正規化する。

　結果編集部１６０は、類似度１５１に基づいて複数の検索文書２１０の検索結果を編集し、編集した検索結果を端末５００に出力する。

　複数の検索文書２１０と、複数の検索文書ベクトル２２０と、同義語辞書２３０と、上位下位関係辞書２４０とのそれぞれは、記憶部が記憶する。

　図２は、本実施の形態に係る文書検索装置１００のハードウェア構成例を示している。文書検索装置１００は、コンピュータから成る。文書検索装置１００は、複数のコンピュータから成ってもよい。

　コンピュータは、本図に示すように、プロセッサ１１と、主記憶装置１２と、補助記憶装置１３と、入力ＩＦ（Ｉｎｔｅｒｆａｃｅ）１４と、出力ＩＦと、通信ＩＦ１６と等のハードウェアを備えるコンピュータである。これらのハードウェアは、信号線１９を介して互いに接続されている。

　プロセッサ１１は、演算処理を行うＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）であり、かつ、コンピュータが備えるハードウェアを制御する。プロセッサ１１は、具体例として、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、又はＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）である。
　文書検索装置１００は、プロセッサ１１を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ１１の役割を分担する。

　主記憶装置１２は、典型的には、揮発性の記憶装置である。主記憶装置１２は、主記憶装置又はメインメモリとも呼ばれる。主記憶装置１２は、具体例として、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。主記憶装置１２に記憶されたデータは、必要に応じて補助記憶装置１３に保存される。

　補助記憶装置１３は、典型的には、不揮発性の記憶装置である。補助記憶装置１３は、具体例として、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はフラッシュメモリである。補助記憶装置１３に記憶されたデータは、必要に応じて主記憶装置１２にロードされる。
　主記憶装置１２及び補助記憶装置１３は一体的に構成されていてもよい。

　入力ＩＦ１４は、入力装置及び出力装置が接続されるポートである。入力ＩＦ１４は、具体例として、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）端子である。入力装置は、具体例として、キーボード及びマウスである。

　出力ＩＦ１５は、出力装置が接続されるポートである。出力ＩＦ１５は、具体例として、ＵＳＢ端子又はＨＤＭＩ（Ｈｉｇｈ－Ｄｅｆｉｎｉｔｉｏｎ　Ｍｕｌｔｉｍｅｄｉａ　Ｉｎｔｅｒｆａｃｅ、登録商標）端子である。出力装置は、具体例として、ディスプレイである。

　通信ＩＦ１６は、レシーバ及びトランスミッタである。通信ＩＦ１６は、具体例として、通信チップ又はＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）である。

　文書検索装置１００の各部は、他の装置等と通信する際に、通信ＩＦ１６を適宜用いてもよい。文書検索装置１００の各部は、入力ＩＦ１４を介してデータを受け付けてもよく、また、通信ＩＦ１６を介してデータを受け付けてもよい。

　補助記憶装置１３は、複数の検索文書２１０と複数の検索文書ベクトル２２０と同義語辞書２３０と上位下位関係辞書２４０と文書検索プログラムとを記憶している。文書検索プログラムは、文書検索装置１００が備える各部の機能をコンピュータに実現させるプログラムである。文書検索プログラムは、複数のファイルから成ってもよい。文書検索プログラムは、主記憶装置１２にロードされて、プロセッサ１１によって実行される。文書検索装置１００が備える各部の機能は、ソフトウェアにより実現される。

　文書検索プログラムを実行する際に用いられるデータと、文書検索プログラムを実行することによって得られるデータと等は、記憶装置に適宜記憶される。文書検索装置１００の各部は、適宜記憶装置を利用する。記憶装置は、具体例として、主記憶装置１２と、補助記憶装置１３と、プロセッサ１１内のレジスタと、プロセッサ１１内のキャッシュメモリとの少なくとも１つから成る。なお、データと、情報とは、同等の意味を有することもある。記憶装置は、コンピュータと独立したものであってもよい。記憶部は記憶装置から成る。
　主記憶装置１２及び補助記憶装置１３の機能は、他の記憶装置によって実現されてもよい。

　文書検索プログラムは、コンピュータが読み取り可能な不揮発性の記録媒体に記録されていてもよい。不揮発性の記録媒体は、具体例として、光ディスク又はフラッシュメモリである。文書検索プログラムは、プログラムプロダクトとして提供されてもよい。

＊＊＊動作の説明＊＊＊
　文書検索装置１００の動作手順は、文書検索方法に相当する。また、文書検索装置１００の動作を実現するプログラムは、文書検索プログラムに相当する。

　図３は、文書検索装置１００が複数の検索文書２１０を検索することができるようにするための動作の一例を示すフローチャートである。本図を用いて文書検索装置１００の動作を説明する。

（ステップＳ１０１：起動処理）
　文書検索装置１００は起動される。

（ステップＳ１０２：事前準備処理）
　ベクトル化処理部１２０は複数の検索文書２１０を用いてベクトル用語３００を準備する。その後、ベクトル化処理部１２０は複数のベクトル化文書２１１を準備し、用語間重み算出部１３０は用語間重み行列１３３を準備する。複数のベクトル化文書２１１と用語間重み行列１３３とのそれぞれを準備する処理の詳細は後述する。

（ステップＳ１０３：入力待機処理）
　文書検索装置１００は、検索文受付部１１０に検索用テキスト５０９が入力されるまで待機する。

　図４は、用語間重み算出部１３０の動作の一例を示すフローチャートである。本図を用いて用語間重み算出部１３０の動作を説明する。

（ステップＳ１２１：階層構造構築処理）
　用語間重み算出部１３０は、上位下位関係辞書２４０とベクトル用語３００とを用いてベクトル用語３００に含まれる用語についての階層構造１３１を構築する。

　図５は、用語間重み算出部１３０が、上位下位関係辞書２４０を用いて用語の階層構造１３１を構築する処理を、具体例を用いて説明する図である。本例において、上位下位関係辞書２４０はエレベータに関する用語の上位下位関係を定義している。用語間重み算出部１３０は、分野ごとに階層構造１３１を構築してもよい。階層構造１３１は上位下位関係情報でもあり、ベクトル用語３００が含む用語それぞれをノードとするグラフに対応する情報でもある。意味的距離は、一方の用語に対応するノードから他方の用語に対応するノードまでの距離に応じて定まってもよい。
　本図の上部の表は上位下位関係辞書２４０の具体例を示している。本表に示されるように、上位下位関係辞書２４０は、具体例として、各上位語と、各上位語に対応する各下位語と、各上位語及び各下位語の関係性とを定義している。
　本図の下部には、用語間重み算出部１３０が構築する階層構造１３１の具体例が示されている。各用語は四角形で囲われて示されている。また、２つの用語を線で適宜接続することと、各用語の上下方向における位置を適宜ずらすことにより用語間の上位下位関係を示している。具体例として、「三方枠」は「乗場」と線で接続しており、「三方枠」の方が「乗場」よりも下に位置しているため、「三方枠」は「乗場」の下位の用語である。また、「乗場」と「カゴ」とは線で接続していないため、「乗場」と「カゴ」との間に上位下位関係はない。なお、「省エネ」は省エネルギーの略である。

（ステップＳ１２２：行列作成処理）
　用語間重み算出部１３０は、行を参照元用語とし、列を参照先用語とした修正前重み行列１３２を格納する領域を作成する。参照元用語は参照関係の起点の用語である。参照先用語は参照関係の終点の用語である。

（ステップＳ１２３：修正前重み算出処理）
　用語間重み算出部１３０は、階層構造１３１に基づいて修正前重み行列１３２の各要素の値を算出する。

　図６は、用語間重み算出部１３０が修正前重み行列１３２を算出する処理を、具体例を用いて説明する図である。
　本図の上部には階層構造１３１が示されている。
　本図の下部には修正前重み行列１３２が示されている。修正前重み行列１３２の各要素は、修正前重みであり、用語間重みでもある。用語間重みは、具体例として、一方の用語が所属する階層と、他方の用語が所属する階層との差の累積値に応じて定まる。本例において、階層の差の累積値が１つ増えるごとに用語間重みはβ（０＜β＜１）倍される。そのため、階層の差の累積値が増えるほど重みは小さくなる。具体例として、「三方枠」と「回生コンバータ」との階層の差の累積値は７である。そのため、「三方枠」と「回生コンバータ」とに対応する用語間重みとしてβ^７が示されている。βの指数は、階層構造１３１において参照元用語から参照先用語までに経由した用語の数に１を足した値である。

（ステップＳ１２４：用語間重み修正処理）
　用語間重み算出部１３０は、参照元用語の下位語に参照先用語が含まれていない場合に修正前重み行列１３２の対応する重みの値を０にすることにより、用語間重み行列１３３を作成する。

　図７は、用語間重み算出部１３０が用語間重み行列１３３を算出する処理を、具体例を用いて説明する図である。
　本図の上部には階層構造１３１が示されている。
　本図の下部には用語間重み行列１３３が示されている。用語間重み算出部１３０は、参照先用語が参照元用語の下位である場合を除いて用語間重みを０にする。具体例として、「ＬＥＤ（Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）」は「昇降機」の下位に当たる。そのため、参照元用語が「昇降機」であり、参照先用語が「ＬＥＤ」である場合における用語間重みは０ではない。また、「三方枠」と「回生コンバータ」とには上位下位関係がない。そのため、「三方枠」が参照元用語であり「回生コンバータ」が参照先用語である場合における用語間重みと、「回生コンバータ」が参照元用語であり「三方枠」が参照先用語である場合における用語間重みとは共に０である。

（ステップＳ１２５：用語間重み記憶処理）
　用語間重み算出部１３０は、作成した用語間重み行列１３３を記憶装置に保存する。

　図８は、ベクトル化処理部１２０が複数の検索文書２１０をベクトル化する処理におけるベクトル化処理部１２０の動作の一例を示すフローチャートである。本図を用いてベクトル化処理部１２０の動作を説明する。

（ステップＳ１４１：未処理判定処理）
　文書検索装置１００は、まだ処理していない検索文書２１０が存在する場合、ステップＳ１４２に進む。それ以外の場合、文書検索装置１００はステップＳ１４４に進む。

（ステップＳ１４２：ベクトル化処理）
　ベクトル化処理部１２０は、まだベクトル化処理部１２０が処理していない検索文書２１０を１つ選択し、選択した検索文書２１０をベクトルに変換してベクトル化文書２１１を生成する。ベクトル化処理部１２０は、具体例として、各検索文書２１０に対して形態素解析を実施することにより、各単語を要素とし、各単語の出現回数を各要素の値とする各ベクトル化文書２１１を生成する。

（ステップＳ１４３：同義語集約処理）
　ベクトル化処理部１２０は、各ベクトル化文書２１１の要素について、同義語である複数の単語に対応する複数の要素ごと、複数の要素を１つの要素に集約する。以下、本フローチャートの説明において、各ベクトル化文書２１１は同義語を集約した各ベクトル化文書２１１を指す。本ステップの処理の終了後、文書検索装置１００はステップＳ１４１に戻る。
　なお、文書検索装置１００が同義語辞書２３０を用いない場合、文書検索装置１００は本ステップの処理を実施しない。

　図９は、ステップＳ１４２及びステップＳ１４３の処理の具体例を示している。なお、本図は後述の検索文５１０をベクトル化する処理の説明も含んでいる。本図に示す用語はベクトル用語３００が含む用語である。本例において、ベクトル化処理部１２０は、ＢｏＷ（Ｂａｇ－ｏｆ－Ｗｏｒｄｓ）を用いて検索文５１０及び複数の検索文書２１０をベクトル化してベクトル化検索文５１１及び複数のベクトル化文書２１１それぞれを生成するものとする。検索文５１０が「カゴ」と「消費電力」と「三方枠」とを含み、検索文書２１０－１と、検索文書２１０－２とは本図に示す通りであるものとする。なお、“－１”及び“－２”は複数の検索文書２１０を区別するための表記である。このとき、ベクトル化処理部１２０がＢｏＷの要素として検索文５１０及び複数の検索文書２１０に含まれる名詞を検索文５１０及び複数の検索文書２１０から抽出すると、本図の上部に示される表のようになる。

（ステップＳ１４４：出力処理）
　ベクトル化処理部１２０は、生成した各ベクトル化文書２１１を出力する。

　図１０は、文書検索装置１００が複数の検索文書２１０を検索する動作の一例を示すフローチャートである。本図を用いて文書検索装置１００が複数の検索文書２１０を検索する動作を説明する。

（ステップＳ１６１：検索文受付処理）
　検索文受付部１１０は、端末５００から検索用テキスト５０９を受け付け、受け付けた検索用テキスト５０９をベクトル化処理部１２０に渡す。

（ステップＳ１６２：ベクトル化処理）
　ベクトル化処理部１２０は、検索用テキスト５０９を検索文受付部１１０から受け取り、受け取った検索用テキスト５０９とベクトル用語３００とを用いて検索文５１０を生成し、生成した検索文５１０をベクトル化してベクトル化検索文５１１を生成する。

（ステップＳ１６３：同義語集約処理）
　本処理はステップＳ１４３と同様の処理である。ベクトル化処理部１２０は、各ベクトル化文書２１１の代わりにベクトル化検索文５１１を用いる。以下、本フローチャートの説明においてベクトル化検索文５１１は同義語を集約したベクトル化検索文５１１を指す。

（ステップＳ１６４：重みベクトル算出処理）
　ベクトル化処理部１２０は、ベクトル化処理部１２０が生成した各ベクトル化文書２１１と、ベクトル化検索文５１１とを用いて、各ベクトル化文書２１１に対応する各検索文書ベクトル２２０と、検索文ベクトル５１２とを生成する。検索文ベクトル５１２と各検索文書ベクトル２２０とのそれぞれは、具体例として、ＴＦ－ＩＤＦ（Ｔｅｒｍ　Ｆｒｅｑｕｅｎｃｙ－Ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙ）により求まるベクトルである。

　図１１は、ベクトル化処理部１２０が検索文書２００－１についてのＴＦ－ＩＤＦを求める具体例を示している。本例は図９に対応する。変数ｘ_ｉｊは、文書ｄ_ｉと単語ｔ_ｊとについてのＴＦ－ＩＤＦの値を示している。文書ｄ_ｉは、各検索文書２１０であってもよく、検索文５１０であってもよい。ベクトル化処理部１２０は、検索文書２００－１についてのＴＦと、検索文書２１０－１と検索文書２１０－２と検索文５１０とについてのＩＤＦとを用いて検索文書２００－１についてのＴＦ－ＩＤＦの値を求める。ＴＦ－ＩＤＦにより求まるベクトルの各要素は、ベクトル用語３００が含む用語それぞれの特徴を示している。また、当該ベクトルは、当該ベクトルを求める際に用いた複数の検索文書２１０と検索文５１０とに対する特徴を示す。検索文書２１０－１に対するＴＦ－ＩＤＦを求めた結果は、検索文書２１０－１に対応する検索文書ベクトル２２０である。

（ステップＳ１６５：重み付けベクトル算出処理）
　重み付け部１４０は、用語間重み行列１３３を用いて、検索文ベクトル５１２を加工し、重み付けベクトル５１３を生成する。

　図１２は、重み付け部１４０が検索文ベクトル５１２に用語間重みを付与する処理を、具体例を用いて説明する図である。「ＬＥＤ」は「カゴ」の下位に当たるため、「ＬＥＤ」に対応する検索文ベクトル５１２の要素に対して、検索文ベクトル５１２の「カゴ」に対応する値と、「ＬＥＤ」と「カゴ」とに対応する用語間重みとを掛け合わせた値を重みとして付加する。重み付け部１４０は、「三方枠」及び「戸」それぞれに対応する検索文ベクトル５１２の要素に対しても同様に重みを付加する。なお、ある用語の上位に当たる用語が複数存在する場合、重み付け部１４０は、当該ある用語に対応する検索文ベクトル５１２の要素に対して、当該ある用語の上位に当たる用語それぞれに対応する検索文ベクトル５１２の要素の値と、当該ある用語の上位に当たる用語それぞれに対応する用語間重みとを乗じた結果全てを足し合わせた値を重みとして付加する。
　用語間重み行列１３３において、参照先用語は一方の用語に当たり、参照元用語は他方の用語に当たる。具体例として、一方の用語を「ＬＥＤ」とし、他方の用語を「カゴ」とした場合において、一方の用語は他方の用語の下位に当たると上位下位関係情報が示す。そのため、一方の用語と他方の用語との組み合わせにおける一方の用語に対する用語間重みとしてβ^２が求められている。また、ベクトル用語３００が含む用語である「ＬＥＤ」について考えると、ベクトル用語３００は「ＬＥＤ」の上位に当たる他の用語である「カゴ」を含む。重み付け部１４０は、当該他の用語である「カゴ」に対応する検索文特徴量の要素の値である０．３３を、「ＬＥＤ」と「カゴ」との双方に対応する用語間重みであるβ^２に乗じ、乗じた結果を「ＬＥＤ」に対応する検索文特徴量の要素の値である０．００に足し合わせて「ＬＥＤ」に対応する重みを求める。なお、各用語の上位に当たる用語が複数存在する場合に、各用語に対応する検索文特徴量の要素の値に対して足し合わせる要素である乗じた結果は複数存在する。

（ステップＳ１６６：正規化処理）
　類似度算出部１５０は、各検索文書ベクトル２２０と重み付けベクトル５１３とのそれぞれの長さが１になるよう各検索文書ベクトル２２０と重み付けベクトル５１３とを正規化する。以下、本フローチャートの説明において、各検索文書ベクトル２２０は正規化した各検索文書ベクトル２２０を指し、重み付けベクトル５１３は正規化した重み付けベクトル５１３を指す。

　図１３は、類似度算出部１５０が重み付けベクトル５１３を正規化する処理を、具体例を用いて説明する図である。本図は図１２におけるβを０．５とした場合に対応する。重み付けベクトル５１３をａとしたとき、重み付け部１４０はまずａの長さを求める。次に、重み付け部１４０はａの長さでａの各要素を割る。

（ステップＳ１６７：類似度算出処理）
　類似度算出部１５０は、重み付けベクトル５１３と各検索文書ベクトル２２０とを用いて、検索文５１０と各検索文書２１０との類似度１５１を算出する。

　図１４は、類似度算出部１５０が類似度１５１としてコサイン類似度を求める処理を、具体例を用いて説明する図である。本図において重み付けベクトル５１３と各検索文書ベクトル２２０とは２次元であるが、これらベクトルの次元数は２に限られない。θ_１は重み付けベクトル５１３と検索文書ベクトル２２０－１との類似度１５１を示しており、θ_２は重み付けベクトル５１３と検索文書ベクトル２２０－２との類似度１５１を示している。

（ステップＳ１６８：出力処理）
　結果編集部１６０は、類似度１５１に従って検索結果を生成し、生成した検索結果を出力する。結果編集部１６０は、具体例として、上位Ｎ件の類似度１５１に対応する各検索文書２１０又はＭ以上である類似度１５１に対応する各検索文書２１０を抽出して利用者に提示する。ここで、Ｎは任意の自然数であり、Ｍは正の数である。

＊＊＊実施の形態１の効果の説明＊＊＊
　以上のように、本実施の形態によれば、文書検索装置１００は、参照元用語の下位語に参照先用語が含まれているか否かに基づいて用語間重みを作成し、用語間重みを考慮して複数の検索文書２１０を検索する。そのため、本実施の形態によれば、検索文５１０が含むある用語に複数の上位語が存在する場合であっても、利用者が意図しない検索結果であって、当該複数の上位語それぞれに関連する検索結果を提示することを防ぐことができる。
　また、本実施の形態によれば、複数の分野において共通である上位語が検索結果に与える影響を排除することができ、分野ごとに辞書を作り分けなくてもよいため、辞書の管理が容易になる。

＊＊＊他の構成＊＊＊
＜変形例１＞
　用語間重み算出部１３０は、修正前重み行列１３２を求めずに用語間重み行列１３３を算出してもよい。

＜変形例２＞
　図１５は、本変形例に係る文書検索装置１００のハードウェア構成例を示している。
　文書検索装置１００は、本図に示すように、プロセッサ１１と主記憶装置１２と補助記憶装置１３との少なくとも１つに代えて、処理回路１８を備える。
　処理回路１８は、文書検索装置１００が備える各部の少なくとも一部を実現するハードウェアである。
　処理回路１８は、専用のハードウェアであってもよく、また、主記憶装置１２に格納されるプログラムを実行するプロセッサであってもよい。

　処理回路１８が専用のハードウェアである場合、処理回路１８は、具体例として、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡＳＩＣはＡｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）又はこれらの組み合わせである。
　文書検索装置１００は、処理回路１８を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路１８の役割を分担する。

　文書検索装置１００において、一部の機能が専用のハードウェアによって実現されて、残りの機能がソフトウェア又はファームウェアによって実現されてもよい。

　処理回路１８は、具体例として、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現される。
　プロセッサ１１と主記憶装置１２と補助記憶装置１３と処理回路１８とを、総称して「プロセッシングサーキットリー」という。つまり、文書検索装置１００の各機能構成要素の機能は、プロセッシングサーキットリーにより実現される。
　他の実施の形態に係る文書検索装置１００についても、本変形例と同様の構成であってもよい。

　実施の形態２．
　以下、主に前述した実施の形態と異なる点について、図面を参照しながら説明する。

＊＊＊構成の説明＊＊＊
　図１６は、本実施の形態に係る文書検索装置１００の構成例を示している。文書検索装置１００は、本図に示すように、実施の形態１に係る文書検索装置１００が備える構成要素に加えて、文書検索部１７０を備える。

　文書検索部１７０は、既存の検索手法を用いて検索用テキスト５０９に対応する各検索文書２１０を検索する。文書検索部１７０は、類似度１５１を用いない手法により検索用テキスト５０９に対応する文書を複数の検索文書２１０から検索し、検索した結果を文書検索結果として求める。文書検索部１７０は、複数の検索文書２１０を検索する際に、検索用テキスト５０９を用いてもよく、検索文５１０を用いてもよい。文書検索部１７０は、具体例として、全文一致検索を用いる。

　結果編集部１６０は、類似度１５１を参照して文書検索結果を編集する。

＊＊＊動作の説明＊＊＊
　図１７は、文書検索装置１００の動作の一例を示すフローチャートである。本図を用いて文書検索部１７０の動作を説明する。なお、文書検索装置１００は、ステップＳ１６８の処理を実施しなくてもよい。

（ステップＳ２０１：受付処理）
　文書検索部１７０は、ベクトル化処理部１２０から検索用テキスト５０９又は検索文５１０を受け付ける。

（ステップＳ２０２：検索処理）
　文書検索部１７０は、受け付けた検索用テキスト５０９又は検索文５１０を用いて複数の検索文書２１０を検索し、検索した結果を出力する。

（ステップＳ２０３：結果編集処理）
　結果編集部１６０は、類似度１５１と、文書検索部１７０が求めた検索結果とを統合して検索結果を生成し、生成した検索結果を出力する。結果編集部１６０は、具体例として、類似度１５１が高い検索結果を上位に提示する。

　図１８は、結果編集部１６０の処理を、具体例を用いて説明する図である。本図を用いて結果編集部１６０の処理を説明する。「類似度算出手法」は実施の形態１に示す類似度１５１を求める手法である。「全文一致検索手法」は文書検索部１７０が採用する手法である。
　本図に示すように、文書検索部１７０は全文一致検索手法を用いて複数の検索文書２１０から「ＡＡＡ．ｄｏｃ」と「ＣＣＣ．ｐｄｆ」とを検索し、文書検索装置１００は「類似度算出手法」により各検索文書２１０の類似度１５１を算出した。「検索結果の種別」において、１は各検索文書２１０が文書検索部１７０によって検索されたことを示しており、２は各検索文書２１０が文書検索部１７０によって検索されていないことを示している。
　ここで、結果編集部１６０が各検索文書２１０を提示する順序の具体例について説明する。まず、結果編集部１６０は、文書検索部１７０によって検索された各検索文書２１０の表示順を、文書検索部１７０によって検索されなかった各検索文書２１０の表示順よりも上位とする。次に、結果編集部１６０は、文書検索部１７０によって検索された各検索文書２１０を類似度１５１が高い順に並べ替え、文書検索部１７０によって検索されなかった各検索文書２１０を類似度１５１が高い順に並べ替える。

＊＊＊実施の形態２の効果の説明＊＊＊
　以上のように、本実施の形態によれば、実施の形態１に示す手法を既存の検索手法と組み合わせることにより、より精度の高い検索結果を求めることができる。
　また、本実施の形態によれば、文書検索部１７０が全文一致検索手法を併用した場合において、検索文５１０が含む用語全てを含む各検索文書２１０に対応する類似度１５１が低い場合であっても、検索文５１０が含む用語全てを含む各検索文書２１０を上位に提示することができる。

＊＊＊他の実施の形態＊＊＊
　前述した各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

　また、実施の形態は、実施の形態１から２で示したものに限定されるものではなく、必要に応じて種々の変更が可能である。フローチャート等を用いて説明した手順は、適宜変更されてもよい。

　１１　プロセッサ、１２　主記憶装置、１３　補助記憶装置、１４　入力ＩＦ、１５　出力ＩＦ、１６　通信ＩＦ、１８　処理回路、１９　信号線、１００　文書検索装置、１１０　検索文受付部、１２０　ベクトル化処理部、１３０　用語間重み算出部、１３１　階層構造、１３２　修正前重み行列、１３３　用語間重み行列、１４０　重み付け部、１５０　類似度算出部、１５１　類似度、１６０　結果編集部、１７０　文書検索部、２１０　検索文書、２１１　ベクトル化文書、２２０　検索文書ベクトル、２３０　同義語辞書、２４０　上位下位関係辞書、３００　ベクトル用語、５００　端末、５０９　検索用テキスト、５１０　検索文、５１１　ベクトル化検索文、５１２　検索文ベクトル、５１３　重み付けベクトル。

Claims

　複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語を含む検索文に対応する検索文書を検索する文書検索装置であって、
　前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶する記憶部と、
　前記ベクトル用語が含む各２つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出する用語間重み算出部と、
　前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める重み付け部と
を備える文書検索装置。
　前記重み付け部は、前記各用語について、前記各他の用語が存在する場合に、前記各他の用語に対応する検索文特徴量の要素の値を、前記各用語と前記各他の用語との双方に対応する用語間重みに乗じ、乗じた結果と、前記各用語に対応する検索文特徴量の要素の値とを足し合わせて前記各用語に対応する重みを求める請求項１に記載の文書検索装置。
　前記重み算出部は、前記一方の用語が前記他方の用語の下位に当たると前記上位下位関係情報が示していない場合に、前記他方の用語に基づいて定まる前記一方の用語に対する用語間重みを０とする請求項１又は２に記載の文書検索装置。
　前記上位下位関係情報は、前記ベクトル用語が含む用語それぞれをノードとするグラフに対応する情報であり、
　前記意味的距離は、前記一方の用語に対応するノードから前記他方の用語に対応するノードまでの距離に応じて定まる請求項１から３のいずれか１項に記載の文書検索装置。
　前記文書検索装置は、さらに、
　前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた複数の検索文書特徴量それぞれと、前記検索文特徴量との類似度を算出する類似度算出部を備え、
　前記複数の検索文書と前記複数の検索文書特徴量とは１対１で対応する請求項１から４のいずれか１項に記載の文書検索装置。
　前記文書検索装置は、さらに、
　前記類似度を用いない手法により前記検索文に対応する文書を前記検索文書から検索し、検索した結果を文書検索結果として求める文書検索部と、
　前記類似度を参照して前記文書検索結果を編集する結果編集部と
を備える請求項５に記載の文書検索装置。
　前記類似度算出部は、前記類似度として、前記検索文特徴量と、前記検索文書特徴量それぞれとのコサイン類似度を用いる請求項５又は６に記載の文書検索装置。
　前記文書検索装置は、さらに、
　前記検索文特徴量と前記検索文書特徴量とのそれぞれを、ティーエフ－アイディーエフを用いて求めるベクトル化処理部を備える請求項５から７のいずれか１項に記載の文書検索装置。
　複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語を含む検索文に対応する検索文書を検索する文書検索方法であって、
　記憶部が、前記ベクトル用語が含む用語それぞれに対応する要素から成り、前記検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶し、
　用語間重み算出部が、前記ベクトル用語が含む各２つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出し、
　重み付け部が、前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める文書検索方法。
　複数の検索文書の少なくともいずれかが含む用語から成るベクトル用語が含む用語それぞれに対応する要素から成り、前記ベクトル用語が含む用語を含む検索文と前記複数の検索文書とを用いて求められた前記検索文に対応する検索文特徴量と、前記ベクトル用語が含む用語間の上位下位関係を示す上位下位関係情報とを記憶するコンピュータである文書検索装置に、前記複数の検索文書から、前記検索文に対応する検索文書を検索させる文書検索プログラムであって、
　前記ベクトル用語が含む各２つの用語について、一方の用語が他方の用語の下位に当たると前記上位下位関係情報が示す場合に、前記他方の用語に基づいて定まる前記一方の用語に対する重みであって、前記一方の用語の意味と前記他方の用語の意味との間の距離を示す意味的距離に応じて定まる重みである用語間重みを算出する用語間重み算出処理と、
　前記ベクトル用語が含む各用語について、前記上位下位関係情報を参照して、前記ベクトル用語が含む前記各用語以外の用語の中に前記各用語の上位に当たる各他の用語が存在する場合に、前記検索文特徴量と前記用語間重みとを用いて前記各用語に対応する重みを求める重み付け処理と
を前記文書検索装置に実行させる文書検索プログラム。