WO2023281691A1

WO2023281691A1 - 情報処理装置、情報処理方法、及び情報処理プログラム

Info

Publication number: WO2023281691A1
Application number: PCT/JP2021/025765
Authority: WO
Inventors: 浩太郎乙村
Original assignee: 三菱電機株式会社
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-01-12
Also published as: US20240134870A1; DE112021007611T5; CN117581222A; JP7333891B2; JPWO2023281691A1

Abstract

情報処理装置（１００）は、数値である入力値と、入力値と関係のある単語である特徴語とを取得し、特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、特徴語に対応する複数の数値である複数の対象数値を取得する取得制御部（１２０）と、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する算出部（１３０）と、を有する。

Description

情報処理装置、情報処理方法、及び情報処理プログラム

　本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。

　入力されたキーワードを含む情報、又は当該キーワードに類似する情報をデータベースから検索する技術が知られている。当該技術は、有用である。そのため、例えば、当該技術は、インターネットの検索で用いられている。当該技術では、主に自然言語に基づく検索が行われる。当該検索で、数値がキーワードとして入力された場合、当該数値に基づいて検索が行われるため、当該数値を含む情報が検索される。

　当該数値と類似する数値を含む情報を取得したい場合がある。類似する数値を含む情報を取得する場合、当該数値を含む数値範囲を用いる方法が考えられる。ここで、数値範囲に関する技術が提案されている（特許文献１を参照）。

特開２０２０－８００８７号公報

　ところで、数値を含む文字列に関連する関連情報を取得したい場合がある。例えば、当該数値を含む数値範囲を用いて、関連情報を取得する方法が考えられる。しかし、当該方法で取得された情報の中で、どれが本当に当該文字列に関連する関連情報なのか分からないという問題がある。

　本開示の目的は、関連情報を特定することである。

　本開示の一態様に係る情報処理装置が提供される。情報処理装置は、数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得する取得制御部と、前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する算出部と、を有する。

　本開示によれば、関連情報を特定することができる。

実施の形態１の情報処理装置が有するハードウェアを示す図である。実施の形態１の情報処理装置の機能を示すブロック図である。実施の形態１の入力値と特徴語との抽出処理の具体例を示す図である。実施の形態１の確率分布テーブルの例を示す図である。実施の形態１の確率分布情報の取得処理の例を示す図である。（Ａ），（Ｂ）は、実施の形態１の数値テーブルの例を示す図である。実施の形態１の情報処理装置１００で実行される処理の具体例を示す図である。実施の形態１の情報処理装置が実行する処理の例を示すフローチャートである。実施の形態１の確率分布情報の取得処理の例を示すフローチャートである。実施の形態１の類似度の算出処理の例を示すフローチャートである。実施の形態２の情報処理装置の機能を示すブロック図である。実施の形態２の文章テーブルの例を示す図である。実施の形態２の取得処理の例を示す図である。実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。実施の形態２の文章テーブルを用いた処理の例を示すフローチャートである。

　以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
　まず、以下で使用される特徴語を説明する。特徴語は、文章に含まれている数値が何の数値であるかを示す情報である。また、特徴語は、当該数値の特性又は属性を示す情報である。さらに、特徴語は、当該数値の単位又は尺度を示す情報である。このように、特徴語は、当該数値と関係のある単語である。具体的には、“人物Ｚの身長１７５ｃｍ”という文章に対応する特徴語は、“人物Ｚ”、“身長”、及び“ｃｍ”である。なお、特徴語の“人物Ｚ”は、“人物”でもよい。また、数値（例えば、“１７５”）は、入力値とも言う。

実施の形態１．
　図１は、実施の形態１の情報処理装置が有するハードウェアを示す図である。情報処理装置１００は、情報処理方法を実行する装置である。例えば、情報処理装置１００は、ユーザが使用するクライアント装置、又はクラウドサーバである。
　情報処理装置１００は、プロセッサ１０１、揮発性記憶装置１０２、及び不揮発性記憶装置１０３を有する。

　プロセッサ１０１は、情報処理装置１００全体を制御する。例えば、プロセッサ１０１は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）などである。プロセッサ１０１は、マルチプロセッサでもよい。また、情報処理装置１００は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。

　揮発性記憶装置１０２は、情報処理装置１００の主記憶装置である。例えば、揮発性記憶装置１０２は、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。不揮発性記憶装置１０３は、情報処理装置１００の補助記憶装置である。例えば、不揮発性記憶装置１０３は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）である。

　次に、情報処理装置１００が有する機能を説明する。
　図２は、実施の形態１の情報処理装置の機能を示すブロック図である。情報処理装置１００は、記憶部１１０、取得制御部１２０、算出部１３０、及び出力部１４０を有する。

　記憶部１１０は、揮発性記憶装置１０２又は不揮発性記憶装置１０３に確保した記憶領域として実現してもよい。
　取得制御部１２０、算出部１３０、及び出力部１４０の一部又は全部は、処理回路によって実現してもよい。また、取得制御部１２０、算出部１３０、及び出力部１４０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ１０１が実行するプログラムは、情報処理プログラムとも言う。例えば、情報処理プログラムは、記録媒体に記録されている。

　記憶部１１０は、確率分布テーブル１１１と数値テーブル１１２とを記憶してもよい。確率分布テーブル１１１と数値テーブル１１２とについては、後で説明する。

　取得制御部１２０は、入力データを取得する。例えば、入力データは、数値と特徴語とを含む文章である。
　取得制御部１２０は、入力データが文章である場合、当該数値である入力値と特徴語とを文章から抽出する。例えば、取得制御部１２０は、テキストマイニングを用いて、文章から入力値と特徴語とを抽出する。ここで、入力値と特徴語との抽出処理を例示する。

　図３は、実施の形態１の入力値と特徴語との抽出処理の具体例を示す図である。入力データは、“人物Ｚの身長１７５ｃｍ”である。取得制御部１２０は、入力データから入力値と特徴語とを抽出する。これにより、入力値“１７５”と、特徴語である“人物”、“身長”、及び“ｃｍ”とが抽出される。入力値と特徴語とは、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔ（登録商標）　Ｏｂｊｅｃｔ　Ｎｏｔａｔｉｏｎ）で表されてもよい。

　また、取得制御部１２０は、入力値と特徴語とを取得してもよい。例えば、取得制御部１２０は、ＪＳＯＮであらわされた入力値と特徴語とを取得してもよい。入力値と特徴語とを取得した場合、取得制御部１２０は、上記の抽出処理を行わない。

　取得制御部１２０は、特徴語に対応する確率分布情報を取得する。例えば、取得制御部１２０は、特徴語に対応する確率分布情報を外部装置（例えば、クラウドサーバ）から取得する。詳細には、取得制御部１２０は、特徴語に対応する確率分布情報の送信指示を外部装置に送信することで、当該確率分布情報を外部装置から取得できる。また、例えば、取得制御部１２０は、特徴語に対応する確率分布情報を確率分布テーブル１１１から取得する。確率分布情報が確率分布テーブル１１１から取得される場合を説明する。まず、確率分布テーブル１１１を例示する。

　図４は、実施の形態１の確率分布テーブルの例を示す図である。確率分布テーブル１１１は、記憶部１１０に格納されてもよい。確率分布テーブル１１１は、ＩＤ（ｉｄｅｎｔｉｆｉｅｒ）、事物、特性、単位、及び確率分布情報の項目を有する。確率分布情報の項目は、パラメータの項目と呼んでもよい。

　確率分布情報とは、確率分布に関する情報である。例えば、確率分布情報は、数値テーブル１１２に基づいて、最尤推定などの統計的手法を用いて作成されてもよい。また、例えば、確率分布情報は、数値テーブル１１２に格納されていない情報に基づいて作成されてもよい。また、例えば、確率分布情報は、数理モデルに基づいて作成されてもよい。

　取得制御部１２０は、特徴語に対応する確率分布情報を確率分布テーブル１１１から取得する。確率分布情報の取得処理を例示する。

　図５は、実施の形態１の確率分布情報の取得処理の例を示す図である。図５には、入力値と特徴語とを示す例が、３つ示されている。３つの例を用いて、確率分布情報が取得される場合を説明する。

　取得制御部１２０は、例１の特徴語が取得された場合、次の処理を行う。取得制御部１２０は、例１の特徴語である“人物”、“身長”、及び“ｃｍ”に対応するレコードを、確率分布テーブル１１１の中から特定する。特定されたレコードは、ＩＤ“２”である。取得制御部１２０は、ＩＤ“２”のレコードの確率分布情報を取得する。このように、取得制御部１２０は、特徴語と完全一致するレコードを特定し、特定されたレコードから確率分布情報を取得する。ここで、ＩＤ“２”のレコードの確率分布情報を説明する。確率分布情報が示す“ｎｏｒｍａｌ”は、正規分布を示す。また、確率分布情報が示す“μ＝１６０，σ＝４０”は、平均値が１６０であり、標準偏差が４０である正規分布を示す。このように、確率分布情報は、確率分布に関する情報を示している。

　取得制御部１２０は、例２の特徴語が取得された場合、次の処理を行う。取得制御部１２０は、例２の特徴語は、“ゾウ”、“体重”、及び“ｔ”である。取得制御部１２０は、例２の特徴語と完全一致するレコードがないことを検出する。取得制御部１２０は、例２の特徴語と同一と見做せるレコードを検索する。取得制御部１２０は、特性が一致し、“ｔ”に類似する“ｋｇ”のレコードである、ＩＤ“３”のレコードを特定する。取得制御部１２０は、特定されたレコードから確率分布情報を取得する。このように、特徴語と完全一致するレコードがない場合、特徴語と同一と見做せるレコードが、検索される。また、特徴語と完全一致するレコードがない場合、取得制御部１２０は、特徴語の各単語とレコードに含まれる各単語との類似度を算出してもよい。例えば、類似度の算出では、ｎ－ｇｒａｍ、又は単語の分散表現が、用いられる。取得制御部１２０は、閾値以上の類似度に対応する単語を含むレコードを特定してもよい。また、取得制御部１２０は、類義語を用いて、特徴語に対応するレコードを特定してもよい。さらに、取得制御部１２０は、上位概念及び下位概念を示すオントロジーを用いて、特徴語に対応するレコードを特定してもよい。

　取得制御部１２０は、例３の特徴語が取得された場合、次の処理を行う。取得制御部１２０は、例３の特徴語は、“売上”、及び“円”である。取得制御部１２０は、例３の特徴語と完全一致するレコードがないことを検出する。また、取得制御部１２０は、特徴語と同一と見做せるレコードがないことを検出する。特徴語と同一と見做せるレコードがない場合（すなわち、特徴語に対応する確率分布情報を取得できない場合）、取得制御部１２０は、確率分布テーブル１１１の中から、ＩＤ“０”のレコードを特定する。ＩＤ“０”のレコードは、デフォルトで設定されているレコードである。ここで、ＩＤ“０”のレコードの確率分布情報を説明する。確率分布情報が示す“ｎｏｒｍａｌ”は、正規分布を示す。また、確率分布情報が示す“μ＝ｑ”は、平均値として入力値“４００，０００，０００”が用いられることを示している。なお、ＩＤ“０”のレコードの確率分布情報は、デフォルト確率分布情報とも言う。デフォルト確率分布情報は、予め設定された情報であり、かつ確率分布に関する情報である。

　また、取得制御部１２０は、特徴語に対応する確率分布情報の送信指示を外部装置に送信し、特徴語に対応する確率分布情報がないことを示す情報を外部装置から受信すること場合がある。すなわち、当該場合とは、取得制御部１２０が特徴語に対応する確率分布情報を取得できない場合である。当該場合、取得制御部１２０は、確率分布テーブル１１１の中から、ＩＤ“０”のレコードの確率分布情報を取得してもよい。

　このように、取得制御部１２０は、特徴語に対応する確率分布情報を取得できない場合、ＩＤ“０”のレコードの確率分布情報を取得する。これにより、情報処理装置１００は、後述するように、特徴語に対応する確率分布情報を取得できない場合でも、類似度を算出することができる。

　ここで、ＩＤ“３”のレコードの確率分布情報を説明する。確率分布情報が示す“ｇａｍｍａ”は、ガンマ分布を示す。“ｋ＝２，θ＝２”は、ガンマ分布の特徴を示すパラメータである。
　このように、取得制御部１２０は、特徴語に対応する確率分布情報を確率分布テーブル１１１から取得する。

　取得制御部１２０は、特徴語に対応する複数の数値（以下、複数の対象数値）を取得する。例えば、取得制御部１２０は、特徴語に対応する複数の対象数値を外部装置から取得する。また、例えば、取得制御部１２０は、特徴語に対応する複数の対象数値を数値テーブル１１２から取得する。複数の対象数値が数値テーブル１１２から取得される場合を説明する。まず、数値テーブル１１２を例示する。

　図６（Ａ），（Ｂ）は、実施の形態１の数値テーブルの例を示す図である。図６（Ａ），（Ｂ）は、数値テーブル１１２の例を示している。
　図６（Ａ），（Ｂ）の数値テーブル１１２は、IＤと特徴語との項目を有する。図６（Ａ）の数値テーブル１１２では、当該特徴語の項目として、身長及び体重の項目が示されている。図６（Ｂ）の数値テーブル１１２では、当該特徴語の項目として、売上及び営業利益の項目が示されている。

　例えば、特徴語に“身長”が含まれている場合、取得制御部１２０は、図６（Ａ）の数値テーブル１１２の“身長”の列に存在する複数の数値を複数の対象数値として取得する。また、取得制御部１２０は、複数の対象数値に対応する単位を取得する。例えば、取得制御部１２０は、単位“ｃｍ”を取得する。取得制御部１２０は、複数の対象数値に対応する単位と、確率分布情報に含まれている単位とが異なる場合、複数の対象数値に対応する単位を確率分布情報に含まれている単位に合わせるために、複数の対象数値を換算する。なお、取得制御部１２０は、換算を行う場合、単位換算テーブルを用いて、換算を行ってもよい。なお、単位換算テーブルの図示は、省略されている。

　また、取得制御部１２０は、特徴語に含まれている単位と確率分布情報に含まれている単位とが異なる場合、特徴語に含まれている単位を確率分布情報に含まれている単位に合わせるために、入力値を換算する。
　このように、情報処理装置１００は、換算を行うことで、単位が異なる状態を防止できる。

　ここで、入力値又は対象数値が範囲を示している場合がある。入力値又は対象数値が範囲を示している場合、以下の処理が実行されてもよい。例えば、入力値は、“１６５～１７５”であるとする。また、確率分布情報は、“ｎｏｒｍａｌ，μ＝１７０，σ＝１０，単位＝ｃｍ”であるとする。“ｎｏｒｍａｌ”である確率分布Ｐ（ｘ）は、式（１）で表される。

　当該範囲の代表点Ｍは、式（２）で表される。

　このように、代表点Ｍが算出された場合、代表点Ｍが、入力値又は対象数値とされる。上記の例の場合、“１６５～１７５”の代表点Ｍである１７０が、入力値とされる。すなわち、情報処理装置１００における処理では、入力値“１６５～１７５”が入力値“１７０”であるものとして扱われる。また、代表点Ｍは、上記の決め方に限らない。例えば、代表点Ｍは、当該範囲の最小値又は最大値でもよい。

　図２に戻って、算出部１３０を説明する。
　算出部１３０は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。詳細には、算出部１３０は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値を基準として、当該複数の類似度を算出する。詳細に、当該複数の類似度の算出方法を説明する。

　まず、実数値である確率変数Ｘが“Ｘ＝ｘ”となるような確率の確率分布関数があったとする。なお、確率分布関数は、確率密度関数又は確率質量関数とも言う。確率分布を用いた類似度の算出では、確率分布関数Ｐ（Ｘ＝ｘ）が用いられる。また、類似度では、実数ｑと実数ｔとの類似の度合いが算出される。

　確率分布関数Ｐ（Ｘ＝ｘ）に対する累積分布関数Ｆ（ｙ）を用いて、実数ｑと実数ｔとの間の面積Ａ（ｑ，ｔ）が、式（３）で表現される。

　面積Ａ（ｑ，ｔ）は、実数ｑと実数ｔとの間の距離を確率で重み付けし、算出された値であると考えてもよい。そして、算出された値は、類似の度合いを表していると考えてもよい。
　面積Ａ（ｑ，ｔ）が小さいほど、実数ｑと実数ｔとは、類似していると言える。そこで、面積Ａ（ｑ，ｔ）を用いて、実数ｑと実数ｔとの類似の度合いである類似度Ｓ（ｑ，ｔ）が、式（４）で表現される。

　具体的に、類似度の算出を説明する。
　算出部１３０は、確率分布情報に基づいて、Ｆ（ｑ）とＦ（ｔ）を決定する。例えば、確率分布情報は、“ｎｏｒｍａｌ，μ＝１６０，σ＝４０，単位＝ｃｍ”であるとする。“ｎｏｒｍａｌ”である確率分布Ｐ（ｘ）は、式（５）で表される。

　算出部１３０は、式（５）に表された確率分布Ｐ（ｘ）と累積分布関数Ｆ（ｙ）に基づいて、Ｆ（ｑ）とＦ（ｔ）を決定する。そして、算出部１３０は、式（３）及び式（４）を用いて、入力値と対象数値との類似の度合いである類似度を算出する。なお、類似度を算出する場合、実数ｑには、入力値が設定される。実数ｔには、対象数値が設定される。
　算出部１３０は、上記の処理を対象数値ごとに、類似度を算出する。例えば、図７の場合では、算出部１３０は、式（３）及び式（４）を用いて、入力値“１７５”と対象数値“１６８”との類似の度合いである類似度を算出する。次に、算出部１３０は、式（３）及び式（４）を用いて、入力値“１７５”と対象数値“１７５”との類似の度合いである類似度を算出する。このように、算出部１３０は、上記の処理を対象数値ごとに、類似度を算出する。これにより、複数の類似度が、算出される。

　ここで、式（３）の代わりに、式（６）が用いられてもよい。なお、式（６）のｔには、対象数値が設定される。なお、式（６）のｑには、入力値が設定される。

　また、式（６）が用いられた場合、式（４）の代わりに、式（７）が用いられてもよい。

　このように、算出部１３０は、式（６）及び式（７）を用いて、複数の類似度を算出してもよい。
　算出部１３０は、複数の類似度を降順にソートする。

　出力部１４０は、特徴語と複数の対象数値と複数の類似度との対応関係を示す情報を出力する。例えば、出力部１４０は、当該情報をディスプレイに出力する。また、例えば、出力部１４０は、当該情報を他の装置に出力する。ここで、当該情報は、類似度一覧と呼ぶ。

　次に、情報処理装置１００で実行される処理の具体例を示す。
　図７は、実施の形態１の情報処理装置１００で実行される処理の具体例を示す図である。
　取得制御部１２０は、入力値“１７５”と、特徴語“人物”、“身長”、“ｃｍ”とを取得する。取得制御部１２０は、特徴語に対応する確率分布情報を確率分布テーブル１１１から取得する。取得された確率分布情報は、“ｎｏｒｍａｌ，μ＝１６０，σ＝４０，単位＝ｃｍ”である。

　取得制御部１２０は、特徴語“身長”に対応する複数の対象数値を数値テーブル１１２から取得する。すなわち、取得制御部１２０は、数値テーブル１１２の“身長”の列に存在する複数の数値を複数の対象数値として、取得する。

　なお、複数の対象数値の単位“ｃｍ”と、確率分布情報に含まれている単位“ｃｍ”とが同じであるため、換算は、行われない。また、特徴語に含まれている単位“ｃｍ”と、確率分布情報に含まれている単位“ｃｍ”とが同じであるため、換算は、行われない。

　算出部１３０は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。算出部１３０は、複数の類似度を降順にソートする。これにより、類似度一覧２００が作成される。類似度一覧２００は、特徴語“身長”と複数の対象数値と複数の類似度との対応関係を示す。出力部１４０は、類似度一覧２００を出力する。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて説明する。
　図８は、実施の形態１の情報処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ１１）取得制御部１２０は、入力値と、特徴語とを取得する。
　（ステップＳ１２）取得制御部１２０は、確率分布情報の取得処理を実行する。
　（ステップＳ１３）算出部１３０は、類似度の算出処理を実行する。
　（ステップＳ１４）算出部１３０は、複数の類似度をソートする。
　（ステップＳ１５）出力部１４０は、類似度一覧２００を出力する。

　図９は、実施の形態１の確率分布情報の取得処理の例を示すフローチャートである。図９の処理は、ステップＳ１２に対応する。
　（ステップＳ２１）取得制御部１２０は、確率分布テーブル１１１の中に、特徴語と同一と見做せるレコードが存在するか否かを判定する。特徴語と同一と見做せるレコードが存在する場合、処理は、ステップＳ２２に進む。特徴語と同一と見做せるレコードが存在しない場合、処理は、ステップＳ２３に進む。

　（ステップＳ２２）取得制御部１２０は、特徴語と同一と見做せるレコードの中から、確率分布情報を取得する。
　（ステップＳ２３）取得制御部１２０は、ＩＤ“０”のレコードの中から、確率分布情報を取得する。そして、デフォルトの確率分布情報が取得された場合、類似度の算出では、デフォルトの確率分布情報が用いられる。

　図１０は、実施の形態１の類似度の算出処理の例を示すフローチャートである。図１０の処理は、ステップＳ１３に対応する。
　（ステップＳ３１）取得制御部１２０は、特徴語に含まれている単位と確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ３２に進む。単位が同じである場合、処理は、ステップ３３に進む。
　（ステップＳ３２）取得制御部１２０は、特徴語に含まれている単位を確率分布情報に含まれている単位に合わせるために、入力値を換算する。

　（ステップＳ３３）取得制御部１２０は、特徴語に対応する複数の対象数値を取得する。また、取得制御部１２０は、複数の対象数値に対応する単位を取得する。
　（ステップＳ３４）取得制御部１２０は、ステップＳ３３で取得された単位と、確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ３５に進む。単位が同じである場合、処理は、ステップ３６に進む。

　（ステップＳ３５）取得制御部１２０は、ステップＳ３３で取得された単位を確率分布情報に含まれている単位に合わせるために、複数の対象数値を換算する。
　（ステップＳ３６）算出部１３０は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。
　なお、ステップＳ３１，３２とステップＳ３３～３５とは、並行に実行されてもよい。

　ここで、数値を含む文字列（例えば、文章）に関連する関連情報を取得したい場合がある。例えば、当該数値を含む数値範囲を用いて、関連情報を取得する方法が考えられる。しかし、当該方法で取得された情報の中で、どれが本当に当該文字列に関連する関連情報なのか分からないという問題がある。

　実施の形態１によれば、情報処理装置１００は、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。情報処理装置１００は、複数の類似度に基づいて、入力値と特徴語とに関連する関連情報を特定することができる。例えば、図７のように、類似度一覧２００が作成された場合、情報処理装置１００は、複数の類似度の中から、予め設定された閾値（例えば、０．９）以上の類似度に対応する情報を関連情報として、特定する。これにより、情報処理装置１００は、入力値“１７５”と特徴語“身長”とに関連する関連情報（例えば、ＩＤ：Ａ１～Ａ３のレコード）を特定することができる。

　また、例えば、情報処理装置１００は、類似度一覧２００をディスプレイに出力する。これにより、ユーザは、ディスプレイを視認することで、入力値と特徴語とに関連する関連情報を特定することができる。

　なお、特徴語は、“事物”、“特性”、及び“単位”であると説明した。しかし、特徴語は、これらの単語に限らない。例えば、特徴語から“事物”、“特性”、及び“単位”のいずれかが、削除されてもよい。また、例えば、特徴語の中に新しい単語が、追加されてもよい。

　図４では、確率分布情報が確率分布テーブル１１１に含まれている場合を説明した。しかし、確率分布情報は、プログラムの処理が実行されているときに、呼び出されてもよい。確率分布情報が示す確率分布の式が、プログラム上に記載されていてもよい。また、確率分布テーブル１１１に含まれている確率分布情報は、重回帰分析などでフィッティングされた情報でもよい。

　また、確率分布テーブル１１１には、デフォルトで設定されているレコードが含まれていることを説明した。当該レコードに含まれている確率分布情報は、ユーザによって、変更されてもよい。

実施の形態２．
　次に、実施の形態２を説明する。実施の形態２では、実施の形態１と相違する事項を主に説明する。そして、実施の形態２では、実施の形態１と共通する事項の説明を省略する。

　図１１は、実施の形態２の情報処理装置の機能を示すブロック図である。図２に示される構成と同じ図１１の構成は、図２に示される符号と同じ符号を付している。情報処理装置１００は、さらに、解析部１５０を有する。

　解析部１５０の一部又は全部は、処理回路によって実現してもよい。また、解析部１５０の一部又は全部は、プロセッサ１０１が実行するプログラムのモジュールとして実現してもよい。解析部１５０の機能は、後で説明する。
　記憶部１１０は、文章テーブル１１３を記憶する。文章テーブル１１３を例示する。

　図１２は、実施の形態２の文章テーブルの例を示す図である。文章テーブル１１３は、文章情報とも言う。文章テーブル１１３は、ＩＤ、文章、及び数値情報の項目を有する。文章の項目は、文章を示す。数値情報の項目は、文章に含まれている数値と特徴語とを示す。ここで、文章の項目に登録されている複数の文章は、複数の対象文章と呼ぶ。
　このように、文章テーブル１１３は、複数の対象文章と、複数の数値との対応関係を示す。

　取得制御部１２０は、数値（すなわち、入力値）と特徴語とを含む文章（すなわち、入力データ）と、当該文章に対応する数値情報とを取得する。取得処理を例示する。

　図１３は、実施の形態２の取得処理の例を示す図である。取得制御部１２０は、入力データである文章“身長１７５ｃｍの男性”と数値情報とを取得する。解析部１５０は、文章に対して形態素解析を行う。これにより、“身長，１７５，ｃｍ，の，男性”が、得られる。

　また、取得制御部１２０が、入力データのみを取得する場合がある。当該場合、解析部１５０は、入力データである文章に対して形態素解析を行う。解析部１５０は、形態素解析によって得られた情報に基づいて、数値情報を抽出する。

　取得制御部１２０は、特徴語に対応する確率分布情報を取得する。例えば、取得制御部１２０は、特徴語に対応する確率分布情報を確率分布テーブル１１１から取得する。

　算出部１３０は、入力データである文章と、文章テーブル１１３に含まれている複数の対象文章のそれぞれとの類似の度合いである複数の類似度を算出する。算出部１３０は、公知技術を用いて、複数の類似度を算出することができる。例えば、算出部１３０は、形態素解析によって得られた情報を用いて、複数の類似度を算出することができる。また、算出部１３０は、単語の分散表現に基づく単語間の類似度を用いて、複数の類似度を算出することができる。
　これにより、複数の対象文章に対応する複数の類似度が算出される。当該複数の類似度は、複数の第１の類似度とも言う。

　算出部１３０は、文章テーブル１１３の数値情報の中で、“不明”の箇所に、取得制御部１２０が取得した数値情報を補完する。例えば、IＤ“Ｃ１”のレコードでは、“事物”と“特性”が“不明”になっている。算出部１３０は、“事物”に“男性”を補完する。算出部１３０は、“特性”に“身長”を補完する。これにより、文章テーブル１１３の数値情報の中に“不明”が、なくなる。

　算出部１３０は、取得された確率分布情報、入力値、及び文章テーブル１１３に含まれている複数の数値（すなわち、数値情報の列に存在する複数の数値）に基づいて、入力値と、当該複数の数値のそれぞれとの類似の度合いである複数の類似度を算出する。例えば、算出部１３０は、式（３）及び式（４）を用いて、複数の類似度を算出する。
　これにより、複数の数値情報（詳細には、複数の数値情報の中の複数の数値）に対応する複数の類似度が算出される。なお、当該複数の類似度は、複数の第２の類似度とも言う。

　算出部１３０は、複数の第１の類似度と複数の第２の類似度とに基づいて、文章テーブル１１３に含まれている対象文章と数値情報との組合せ毎に、類似度を合算する。言い換えれば、算出部１３０は、レコード毎に類似度を合算する。例えば、算出部１３０は、IＤ“Ｃ１”の文章（詳細には、対象文章）に対応する類似度と、IＤ“Ｃ１”の数値情報（詳細には、数値）に対応する類似度とを合算する。同様に、算出部１３０は、レコード毎に類似度を合算する。

　出力部１４０は、対象文章と数値情報との組合せと、合算値との対応関係を示す情報を出力する。出力部１４０は、対象文章と数値との組合せと、合算値との対応関係を示す情報を出力してもよい。

　次に、情報処理装置１００が実行する処理を、フローチャートを用いて説明する。
　図１４は、実施の形態２の情報処理装置が実行する処理の例を示すフローチャートである。
　（ステップＳ４１）取得制御部１２０は、数値と特徴語とを含む文章（すなわち、入力データ）と、当該文章に対応する数値情報とを取得する。
　（ステップＳ４２）解析部１５０は、文章に対して形態素解析を行う。
　（ステップＳ４３）算出部１３０は、入力データである文章と、文章テーブル１１３に登録されている複数の対象文章のそれぞれとの類似の度合いである複数の第１の類似度を算出する。

　（ステップＳ４４）取得制御部１２０は、特徴語に対応する確率分布情報を確率分布テーブル１１１から取得する。
　（ステップＳ４５）算出部１３０は、文章テーブル１１３を用いた処理を実行する。
　（ステップＳ４６）算出部１３０は、レコード毎に類似度を合算する。
　（ステップＳ４７）算出部１３０は、合算値を降順にソートする。
　（ステップＳ４８）出力部１４０は、レコード毎の合算値を出力する。
　なお、ステップＳ４３とステップ４４，４５とは、並行に実行されてもよい。

　図１５は、実施の形態２の文章テーブルを用いた処理の例を示すフローチャートである。図１５の処理は、ステップＳ４５に対応する。
　（ステップＳ５１）取得制御部１２０は、特徴語に含まれている単位と確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ５２に進む。単位が同じである場合、処理は、ステップ５３に進む。
　（ステップＳ５２）取得制御部１２０は、特徴語に含まれている単位を確率分布情報に含まれている単位に合わせるために、入力値を換算する。

　（ステップＳ５３）算出部１３０は、文章テーブル１１３の数値情報の中で、“不明”の箇所に、取得制御部１２０が取得した数値情報を補完する。
　（ステップＳ５４）算出部１３０は、数値情報に含まれている単位と確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ５５に進む。単位が同じである場合、処理は、ステップ５６に進む。

　（ステップＳ５５）算出部１３０は、数値情報に含まれている単位を確率分布情報に含まれている単位に合わせるために、数値情報に含まれている数値を換算する。
　なお、数値情報に含まれている単位の種類と、確率分布情報に含まれている単位の種類とが異なる場合、算出部１３０は、換算を行わない。例えば、数値情報に含まれている単位が重さの単位（例えば、“ｔ”）であり、確率分布情報に含まれている単位が長さの単位（例えば、“ｃｍ”）である場合、算出部１３０は、換算を行わない。

　（ステップＳ５６）算出部１３０は、取得された確率分布情報、入力値、数値情報の列に存在する複数の数値に基づいて、入力値と、当該複数の数値のそれぞれとの類似の度合いである複数の第２の類似度を算出する。

　実施の形態２によれば、情報処理装置１００は、複数の第１の類似度を算出する。さらに、情報処理装置１００は、複数の第２の類似度を算出する。情報処理装置１００は、複数の第１の類似度と複数の第２の類似度とに基づいて、類似度の合算を行う。これにより、情報処理装置１００は、複数の合算値に基づいて、入力値と特徴語とを含む文章に関連する関連情報を特定することができる。

　以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。

　１００　情報処理装置、　１０１　プロセッサ、　１０２　揮発性記憶装置、　１０３　不揮発性記憶装置、　１１０　記憶部、　１１１　確率分布テーブル、　１１２　数値テーブル、　１１３　文章テーブル、　１２０　取得制御部、　１３０　算出部、　１４０　出力部、　１５０　解析部、　２００　類似度一覧。

Claims

　数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得する取得制御部と、
　前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する算出部と、
　を有する情報処理装置。
　前記特徴語と前記複数の対象数値と前記複数の類似度との対応関係を示す情報を出力する出力部をさらに有する、
　請求項１に記載の情報処理装置。
　前記取得制御部は、前記特徴語に含まれている単位と前記確率分布情報に含まれている単位とが異なる場合、前記特徴語に含まれている単位を前記確率分布情報に含まれている単位に合わせるために、前記入力値を換算し、前記複数の対象数値に対応する単位を取得し、前記複数の対象数値に対応する単位と、前記確率分布情報に含まれている単位とが異なる場合、前記複数の対象数値に対応する単位を前記確率分布情報に含まれている単位に合わせるために、前記複数の対象数値を換算する、
　請求項１又は２に記載の情報処理装置。
　予め設定された情報であり、かつ確率分布に関する情報であるデフォルト確率分布情報を記憶する記憶部をさらに有し、
　前記取得制御部は、前記特徴語に対応する前記確率分布情報を取得できない場合、前記デフォルト確率分布情報を取得し、
　前記算出部は、前記入力値と前記デフォルト確率分布情報と前記複数の対象数値とに基づいて、前記複数の類似度を算出する、
　請求項１又は２に記載の情報処理装置。
　複数の文章である複数の対象文章と、複数の数値との対応関係を示す文章情報を記憶する記憶部をさらに有し、
　前記取得制御部は、
　前記入力値と前記特徴語とを含む文章である入力データを取得し、
　前記算出部は、
　前記入力データである前記文章と、前記複数の対象文章のそれぞれとの類似の度合いである複数の第１の類似度を算出し、前記確率分布情報、前記入力値、及び前記文章情報に含まれている前記複数の数値に基づいて、前記入力値と、前記文章情報に含まれている前記複数の数値のそれぞれとの類似の度合いである複数の第２の類似度を算出し、
　前記複数の第１の類似度と前記複数の第２の類似度とに基づいて、前記文章情報に含まれている対象文章と数値との組合せ毎に、類似度を合算する、
　請求項１に記載の情報処理装置。
　対象文章と数値との前記組合せと、前記合算により得られた合算値との対応関係を示す情報を出力する出力部をさらに有する、
　請求項５に記載の情報処理装置。
　情報処理装置が、
　数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、
　前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得し、
　前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する、
　情報処理方法。
　情報処理装置に、
　数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、
　前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得し、
　前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する、
　処理を実行させる情報処理プログラム。