WO2023281691A1 - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
WO2023281691A1
WO2023281691A1 PCT/JP2021/025765 JP2021025765W WO2023281691A1 WO 2023281691 A1 WO2023281691 A1 WO 2023281691A1 JP 2021025765 W JP2021025765 W JP 2021025765W WO 2023281691 A1 WO2023281691 A1 WO 2023281691A1
Authority
WO
WIPO (PCT)
Prior art keywords
probability distribution
information
numerical values
input value
similarity
Prior art date
Application number
PCT/JP2021/025765
Other languages
English (en)
French (fr)
Inventor
浩太郎 乙村
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to JP2023530500A priority Critical patent/JP7333891B2/ja
Priority to DE112021007611.6T priority patent/DE112021007611T5/de
Priority to CN202180100176.2A priority patent/CN117581222A/zh
Priority to PCT/JP2021/025765 priority patent/WO2023281691A1/ja
Publication of WO2023281691A1 publication Critical patent/WO2023281691A1/ja
Priority to US18/395,860 priority patent/US20240134870A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Definitions

  • the technology is useful.
  • the technology is used in searching the Internet.
  • searches are mainly performed based on natural language.
  • the search is performed based on the numerical value, and information including the numerical value is retrieved.
  • the acquisition control unit 120 acquires the probability distribution information corresponding to the feature word from the probability distribution table 111. A process for obtaining probability distribution information is illustrated.
  • FIG. 5 is a diagram showing an example of probability distribution information acquisition processing according to the first embodiment.
  • FIG. 5 shows three examples of input values and feature words. A case where probability distribution information is acquired will be described using three examples.
  • the acquisition control unit 120 performs the following processing when the characteristic word of Example 1 is acquired.
  • the acquisition control unit 120 identifies records corresponding to the feature words “person”, “height”, and “cm” in Example 1 from the probability distribution table 111 .
  • the identified record is ID "2".
  • the acquisition control unit 120 acquires the probability distribution information of the record with ID "2". In this way, the acquisition control unit 120 identifies records that completely match the feature word, and obtains probability distribution information from the identified records.
  • the probability distribution information of the record with ID "2" will be explained.
  • "normal” indicated by the probability distribution information indicates a normal distribution.
  • the probability distribution information indicates information about probability distribution.
  • the acquisition control unit 120 performs the following processing when the characteristic word of Example 2 is acquired.
  • the acquisition control unit 120 determines that the feature words in Example 2 are "elephant", "weight”, and "t".
  • the acquisition control unit 120 detects that there is no record that completely matches the feature word of Example 2.
  • the acquisition control unit 120 searches for a record that can be regarded as the same as the feature word in Example 2.
  • the acquisition control unit 120 identifies the record of ID "3", which is the record of "kg” whose characteristics match and is similar to "t”.
  • the acquisition control unit 120 acquires probability distribution information from the specified record. In this way, when there is no record that completely matches the feature word, records that can be regarded as being identical to the feature word are retrieved.
  • the acquisition control unit 120 may calculate the degree of similarity between each word of the feature word and each word included in the record. For example, similarity calculation uses n-grams or distributed representations of words.
  • the acquisition control unit 120 may identify records containing words corresponding to similarities equal to or greater than a threshold.
  • the acquisition control unit 120 may use synonyms to identify records corresponding to feature words.
  • the acquisition control unit 120 may specify a record corresponding to a feature word using an ontology indicating a higher-level concept and a lower-level concept.
  • the acquisition control unit 120 When the characteristic word of Example 3 is acquired, the acquisition control unit 120 performs the following processing.
  • the acquisition control unit 120 determines that the feature words in Example 3 are "sales" and "yen".
  • the acquisition control unit 120 detects that there is no record that completely matches the feature word of Example 3. Also, the acquisition control unit 120 detects that there is no record that can be regarded as the same as the feature word. If there is no record that can be regarded as identical to the feature word (that is, if the probability distribution information corresponding to the feature word cannot be acquired), the acquisition control unit 120 selects the record with the ID "0" from the probability distribution table 111. Identify.
  • a record with ID "0" is a default record. Here, the probability distribution information of the record with ID "0" will be explained.
  • the probability distribution information of the record with ID "0" is also called default probability distribution information.
  • the default probability distribution information is preset information and information about probability distribution.
  • the acquisition control unit 120 may transmit an instruction to transmit probability distribution information corresponding to the feature word to the external device, and may receive information indicating that there is no probability distribution information corresponding to the feature word from the external device. . That is, this case is a case where the acquisition control unit 120 cannot acquire the probability distribution information corresponding to the feature word. In this case, the acquisition control unit 120 may acquire the probability distribution information of the record with ID “0” from the probability distribution table 111 .
  • the acquisition control unit 120 when the acquisition control unit 120 cannot acquire the probability distribution information corresponding to the feature word, it acquires the probability distribution information of the record with ID "0". Thereby, the information processing apparatus 100 can calculate the degree of similarity even when the probability distribution information corresponding to the feature word cannot be obtained, as will be described later.
  • the acquisition control unit 120 acquires probability distribution information corresponding to feature words from the probability distribution table 111 .
  • the representative point M is used as the input value or the target numerical value.
  • the input value is 170, which is the representative point M of "165 to 175". That is, in the processing in the information processing apparatus 100, the input value "165 to 175" is treated as the input value "170".
  • the representative point M is not limited to the above method of determination.
  • the representative point M may be the minimum or maximum value of the range.
  • the calculation unit 130 Based on the input value, the probability distribution information, and the plurality of target numerical values, the calculation unit 130 calculates a plurality of degrees of similarity, which are degrees of similarity between the input value and each of the plurality of target numerical values. Specifically, the calculation unit 130 calculates the plurality of similarities based on the input value, the probability distribution information, and the plurality of target numerical values, using the input value as a reference. A method for calculating the plurality of degrees of similarity will be described in detail.
  • Calculation unit 130 determines F(q) and F(t) based on probability distribution P(x) and cumulative distribution function F(y) expressed in Equation (5). Then, the calculation unit 130 calculates the degree of similarity, which is the degree of similarity between the input value and the target numerical value, using Equations (3) and (4).
  • the degree of similarity is the degree of similarity between the input value and the target numerical value, using Equations (3) and (4).
  • an input value is set for the real number q.
  • a target numerical value is set in the real number t.
  • the calculation unit 130 calculates the degree of similarity for each target numerical value through the above process. For example, in the case of FIG. 7, the calculator 130 calculates the degree of similarity between the input value “175” and the target numerical value “168” using equations (3) and (4).
  • the calculation unit 130 calculates the degree of similarity between the input value “175” and the target numerical value “175” using equations (3) and (4). In this way, the calculation unit 130 calculates the degree of similarity for each target numerical value through the above process. Thereby, a plurality of degrees of similarity are calculated.
  • formula (3) instead of formula (3), formula (6) may be used. Note that a target numerical value is set for t in Expression (6). An input value is set for q in Equation (6).
  • formula (7) may be used instead of formula (4).
  • the acquisition control unit 120 acquires a plurality of target numerical values corresponding to the characteristic word "height" from the numerical table 112. That is, the acquisition control unit 120 acquires a plurality of numerical values existing in the "height" column of the numerical value table 112 as a plurality of target numerical values.
  • the calculation unit 130 calculates a plurality of degrees of similarity, which are degrees of similarity between the input value and each of the plurality of target numerical values, based on the input value, the probability distribution information, and the plurality of target numerical values. Calculation unit 130 sorts the plurality of degrees of similarity in descending order. As a result, a similarity list 200 is created.
  • the similarity list 200 shows correspondence relationships between the feature word “height”, multiple target numerical values, and multiple similarities.
  • the output unit 140 outputs a similarity list 200. FIG.
  • FIG. 9 is a flowchart illustrating an example of processing for obtaining probability distribution information according to Embodiment 1.
  • FIG. 9 corresponds to step S12.
  • the acquisition control unit 120 determines whether or not there is a record in the probability distribution table 111 that can be regarded as being the same as the feature word. If there is a record that can be regarded as identical to the feature word, the process proceeds to step S22. If there is no record that can be regarded as identical to the feature word, the process proceeds to step S23.
  • Step S22 The acquisition control unit 120 acquires probability distribution information from records that can be regarded as identical to the feature word.
  • Step S23 The acquisition control unit 120 acquires probability distribution information from the record with ID "0". When the default probability distribution information is acquired, the default probability distribution information is used in calculating the degree of similarity.
  • FIG. 10 is a flowchart illustrating an example of similarity calculation processing according to the first embodiment.
  • the process of FIG. 10 corresponds to step S13.
  • Step S31 The acquisition control unit 120 determines whether or not the unit included in the feature word and the unit included in the probability distribution information are the same. If the units are different, the process proceeds to step 32 . If the units are the same, the process proceeds to step 33; (Step S32) The acquisition control unit 120 converts the input value in order to match the unit included in the feature word with the unit included in the probability distribution information.
  • Step S35 The acquisition control unit 120 converts a plurality of target numerical values in order to match the unit acquired in step S33 with the unit included in the probability distribution information.
  • Step S36 Based on the input value, the probability distribution information, and the plurality of target numerical values, the calculation unit 130 calculates a plurality of degrees of similarity, which are degrees of similarity between the input value and each of the plurality of target numerical values. Note that steps S31 and S32 and steps S33 to S35 may be executed in parallel.
  • the probability distribution table 111 includes default records.
  • the probability distribution information contained in the record may be changed by the user.
  • Embodiment 2 Next, Embodiment 2 will be described. In Embodiment 2, mainly matters different from Embodiment 1 will be described. In the second embodiment, descriptions of items common to the first embodiment are omitted.
  • FIG. 11 is a block diagram showing functions of the information processing apparatus according to the second embodiment. 11 that are the same as those shown in FIG. 2 are given the same reference numerals as those shown in FIG.
  • the information processing device 100 further has an analysis unit 150 .
  • a part or all of the analysis unit 150 may be implemented by a processing circuit. Also, part or all of the analysis unit 150 may be implemented as a program module executed by the processor 101 . Functions of the analysis unit 150 will be described later.
  • Storage unit 110 stores sentence table 113 . A text table 113 is illustrated.
  • the acquisition control unit 120 acquires sentences (ie, input data) containing numerical values (ie, input values) and feature words, and numerical information corresponding to the sentences. An example of acquisition processing is illustrated.
  • the acquisition control unit 120 may acquire only input data.
  • the analysis unit 150 performs morphological analysis on the text that is the input data.
  • the analysis unit 150 extracts numerical information based on the information obtained by the morphological analysis.
  • the calculation unit 130 calculates a plurality of degrees of similarity, which are the degrees of similarity between the sentence, which is input data, and each of the plurality of target sentences included in the sentence table 113 .
  • the calculation unit 130 can calculate a plurality of degrees of similarity using a known technique. For example, the calculator 130 can calculate a plurality of degrees of similarity using information obtained by morphological analysis. Further, the calculation unit 130 can calculate a plurality of degrees of similarity using similarities between words based on the distributed representation of words. Thereby, a plurality of similarities corresponding to a plurality of target sentences are calculated.
  • the plurality of degrees of similarity are also referred to as a plurality of first degrees of similarity.
  • the calculation unit 130 complements the numerical information acquired by the acquisition control unit 120 to the "unknown" portion of the numerical information in the text table 113 .
  • the calculation unit 130 complements “thing” with “man”.
  • the calculation unit 130 complements the “characteristic” with the “height”. As a result, "unknown” disappears from the numerical information in the text table 113.
  • the calculation unit 130 sums the degrees of similarity for each combination of the target sentence and the numerical information included in the sentence table 113 based on the plurality of first degrees of similarity and the plurality of second degrees of similarity. In other words, the calculator 130 sums the similarities for each record. For example, the calculation unit 130 sums the similarity corresponding to the sentence with the ID “C1” (specifically, the target sentence) and the similarity corresponding to the numerical information (specifically, the numerical value) with the ID “C1”. do. Similarly, the calculator 130 sums the similarities for each record.
  • the output unit 140 outputs information indicating the correspondence relationship between the combination of the target sentence and the numerical information and the total value.
  • the output unit 140 may output information indicating the correspondence relationship between the combination of the target sentence and the numerical value and the total value.
  • Step S ⁇ b>44 The acquisition control unit 120 acquires the probability distribution information corresponding to the feature word from the probability distribution table 111 .
  • Step S ⁇ b>45 The calculation unit 130 executes processing using the text table 113 .
  • Step S46 The calculation unit 130 sums the similarities for each record.
  • Step S47 The calculation unit 130 sorts the total values in descending order.
  • Step S48 The output unit 140 outputs the total value for each record. Note that step S43 and steps 44 and 45 may be executed in parallel.
  • FIG. 15 is a flow chart showing an example of processing using the sentence table according to the second embodiment.
  • the process of FIG. 15 corresponds to step S45.
  • Step S51 The acquisition control unit 120 determines whether or not the unit included in the characteristic word and the unit included in the probability distribution information are the same. If the units are different, processing proceeds to step 52 . If the units are the same, the process proceeds to step 53 .
  • Step S52 The acquisition control unit 120 converts the input value in order to match the unit included in the feature word with the unit included in the probability distribution information.
  • Step S56 The calculation unit 130 calculates the degree of similarity between the input value and each of the plurality of numerical values based on the obtained probability distribution information, the input value, and the plurality of numerical values existing in the column of the numerical information. A plurality of second degrees of similarity are calculated.
  • the information processing apparatus 100 calculates a plurality of first similarities. Furthermore, the information processing apparatus 100 calculates a plurality of second similarities. The information processing apparatus 100 sums the degrees of similarity based on the plurality of first degrees of similarity and the plurality of second degrees of similarity. Thereby, the information processing apparatus 100 can specify the related information related to the sentence including the input value and the feature word based on the multiple total values.

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報処理装置(100)は、数値である入力値と、入力値と関係のある単語である特徴語とを取得し、特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、特徴語に対応する複数の数値である複数の対象数値を取得する取得制御部(120)と、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する算出部(130)と、を有する。

Description

情報処理装置、情報処理方法、及び情報処理プログラム
 本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
 入力されたキーワードを含む情報、又は当該キーワードに類似する情報をデータベースから検索する技術が知られている。当該技術は、有用である。そのため、例えば、当該技術は、インターネットの検索で用いられている。当該技術では、主に自然言語に基づく検索が行われる。当該検索で、数値がキーワードとして入力された場合、当該数値に基づいて検索が行われるため、当該数値を含む情報が検索される。
 当該数値と類似する数値を含む情報を取得したい場合がある。類似する数値を含む情報を取得する場合、当該数値を含む数値範囲を用いる方法が考えられる。ここで、数値範囲に関する技術が提案されている(特許文献1を参照)。
特開2020-80087号公報
 ところで、数値を含む文字列に関連する関連情報を取得したい場合がある。例えば、当該数値を含む数値範囲を用いて、関連情報を取得する方法が考えられる。しかし、当該方法で取得された情報の中で、どれが本当に当該文字列に関連する関連情報なのか分からないという問題がある。
 本開示の目的は、関連情報を特定することである。
 本開示の一態様に係る情報処理装置が提供される。情報処理装置は、数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得する取得制御部と、前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する算出部と、を有する。
 本開示によれば、関連情報を特定することができる。
実施の形態1の情報処理装置が有するハードウェアを示す図である。 実施の形態1の情報処理装置の機能を示すブロック図である。 実施の形態1の入力値と特徴語との抽出処理の具体例を示す図である。 実施の形態1の確率分布テーブルの例を示す図である。 実施の形態1の確率分布情報の取得処理の例を示す図である。 (A),(B)は、実施の形態1の数値テーブルの例を示す図である。 実施の形態1の情報処理装置100で実行される処理の具体例を示す図である。 実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態1の確率分布情報の取得処理の例を示すフローチャートである。 実施の形態1の類似度の算出処理の例を示すフローチャートである。 実施の形態2の情報処理装置の機能を示すブロック図である。 実施の形態2の文章テーブルの例を示す図である。 実施の形態2の取得処理の例を示す図である。 実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。 実施の形態2の文章テーブルを用いた処理の例を示すフローチャートである。
 以下、図面を参照しながら実施の形態を説明する。以下の実施の形態は、例にすぎず、本開示の範囲内で種々の変更が可能である。
 まず、以下で使用される特徴語を説明する。特徴語は、文章に含まれている数値が何の数値であるかを示す情報である。また、特徴語は、当該数値の特性又は属性を示す情報である。さらに、特徴語は、当該数値の単位又は尺度を示す情報である。このように、特徴語は、当該数値と関係のある単語である。具体的には、“人物Zの身長175cm”という文章に対応する特徴語は、“人物Z”、“身長”、及び“cm”である。なお、特徴語の“人物Z”は、“人物”でもよい。また、数値(例えば、“175”)は、入力値とも言う。
実施の形態1.
 図1は、実施の形態1の情報処理装置が有するハードウェアを示す図である。情報処理装置100は、情報処理方法を実行する装置である。例えば、情報処理装置100は、ユーザが使用するクライアント装置、又はクラウドサーバである。
 情報処理装置100は、プロセッサ101、揮発性記憶装置102、及び不揮発性記憶装置103を有する。
 プロセッサ101は、情報処理装置100全体を制御する。例えば、プロセッサ101は、CPU(Central Processing Unit)、FPGA(Field Programmable Gate Array)などである。プロセッサ101は、マルチプロセッサでもよい。また、情報処理装置100は、処理回路を有してもよい。処理回路は、単一回路又は複合回路でもよい。
 揮発性記憶装置102は、情報処理装置100の主記憶装置である。例えば、揮発性記憶装置102は、RAM(Random Access Memory)である。不揮発性記憶装置103は、情報処理装置100の補助記憶装置である。例えば、不揮発性記憶装置103は、HDD(Hard Disk Drive)、又はSSD(Solid State Drive)である。
 次に、情報処理装置100が有する機能を説明する。
 図2は、実施の形態1の情報処理装置の機能を示すブロック図である。情報処理装置100は、記憶部110、取得制御部120、算出部130、及び出力部140を有する。
 記憶部110は、揮発性記憶装置102又は不揮発性記憶装置103に確保した記憶領域として実現してもよい。
 取得制御部120、算出部130、及び出力部140の一部又は全部は、処理回路によって実現してもよい。また、取得制御部120、算出部130、及び出力部140の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。例えば、プロセッサ101が実行するプログラムは、情報処理プログラムとも言う。例えば、情報処理プログラムは、記録媒体に記録されている。
 記憶部110は、確率分布テーブル111と数値テーブル112とを記憶してもよい。確率分布テーブル111と数値テーブル112とについては、後で説明する。
 取得制御部120は、入力データを取得する。例えば、入力データは、数値と特徴語とを含む文章である。
 取得制御部120は、入力データが文章である場合、当該数値である入力値と特徴語とを文章から抽出する。例えば、取得制御部120は、テキストマイニングを用いて、文章から入力値と特徴語とを抽出する。ここで、入力値と特徴語との抽出処理を例示する。
 図3は、実施の形態1の入力値と特徴語との抽出処理の具体例を示す図である。入力データは、“人物Zの身長175cm”である。取得制御部120は、入力データから入力値と特徴語とを抽出する。これにより、入力値“175”と、特徴語である“人物”、“身長”、及び“cm”とが抽出される。入力値と特徴語とは、JSON(JavaScript(登録商標) Object Notation)で表されてもよい。
 また、取得制御部120は、入力値と特徴語とを取得してもよい。例えば、取得制御部120は、JSONであらわされた入力値と特徴語とを取得してもよい。入力値と特徴語とを取得した場合、取得制御部120は、上記の抽出処理を行わない。
 取得制御部120は、特徴語に対応する確率分布情報を取得する。例えば、取得制御部120は、特徴語に対応する確率分布情報を外部装置(例えば、クラウドサーバ)から取得する。詳細には、取得制御部120は、特徴語に対応する確率分布情報の送信指示を外部装置に送信することで、当該確率分布情報を外部装置から取得できる。また、例えば、取得制御部120は、特徴語に対応する確率分布情報を確率分布テーブル111から取得する。確率分布情報が確率分布テーブル111から取得される場合を説明する。まず、確率分布テーブル111を例示する。
 図4は、実施の形態1の確率分布テーブルの例を示す図である。確率分布テーブル111は、記憶部110に格納されてもよい。確率分布テーブル111は、ID(identifier)、事物、特性、単位、及び確率分布情報の項目を有する。確率分布情報の項目は、パラメータの項目と呼んでもよい。
 確率分布情報とは、確率分布に関する情報である。例えば、確率分布情報は、数値テーブル112に基づいて、最尤推定などの統計的手法を用いて作成されてもよい。また、例えば、確率分布情報は、数値テーブル112に格納されていない情報に基づいて作成されてもよい。また、例えば、確率分布情報は、数理モデルに基づいて作成されてもよい。
 取得制御部120は、特徴語に対応する確率分布情報を確率分布テーブル111から取得する。確率分布情報の取得処理を例示する。
 図5は、実施の形態1の確率分布情報の取得処理の例を示す図である。図5には、入力値と特徴語とを示す例が、3つ示されている。3つの例を用いて、確率分布情報が取得される場合を説明する。
 取得制御部120は、例1の特徴語が取得された場合、次の処理を行う。取得制御部120は、例1の特徴語である“人物”、“身長”、及び“cm”に対応するレコードを、確率分布テーブル111の中から特定する。特定されたレコードは、ID“2”である。取得制御部120は、ID“2”のレコードの確率分布情報を取得する。このように、取得制御部120は、特徴語と完全一致するレコードを特定し、特定されたレコードから確率分布情報を取得する。ここで、ID“2”のレコードの確率分布情報を説明する。確率分布情報が示す“normal”は、正規分布を示す。また、確率分布情報が示す“μ=160,σ=40”は、平均値が160であり、標準偏差が40である正規分布を示す。このように、確率分布情報は、確率分布に関する情報を示している。
 取得制御部120は、例2の特徴語が取得された場合、次の処理を行う。取得制御部120は、例2の特徴語は、“ゾウ”、“体重”、及び“t”である。取得制御部120は、例2の特徴語と完全一致するレコードがないことを検出する。取得制御部120は、例2の特徴語と同一と見做せるレコードを検索する。取得制御部120は、特性が一致し、“t”に類似する“kg”のレコードである、ID“3”のレコードを特定する。取得制御部120は、特定されたレコードから確率分布情報を取得する。このように、特徴語と完全一致するレコードがない場合、特徴語と同一と見做せるレコードが、検索される。また、特徴語と完全一致するレコードがない場合、取得制御部120は、特徴語の各単語とレコードに含まれる各単語との類似度を算出してもよい。例えば、類似度の算出では、n-gram、又は単語の分散表現が、用いられる。取得制御部120は、閾値以上の類似度に対応する単語を含むレコードを特定してもよい。また、取得制御部120は、類義語を用いて、特徴語に対応するレコードを特定してもよい。さらに、取得制御部120は、上位概念及び下位概念を示すオントロジーを用いて、特徴語に対応するレコードを特定してもよい。
 取得制御部120は、例3の特徴語が取得された場合、次の処理を行う。取得制御部120は、例3の特徴語は、“売上”、及び“円”である。取得制御部120は、例3の特徴語と完全一致するレコードがないことを検出する。また、取得制御部120は、特徴語と同一と見做せるレコードがないことを検出する。特徴語と同一と見做せるレコードがない場合(すなわち、特徴語に対応する確率分布情報を取得できない場合)、取得制御部120は、確率分布テーブル111の中から、ID“0”のレコードを特定する。ID“0”のレコードは、デフォルトで設定されているレコードである。ここで、ID“0”のレコードの確率分布情報を説明する。確率分布情報が示す“normal”は、正規分布を示す。また、確率分布情報が示す“μ=q”は、平均値として入力値“400,000,000”が用いられることを示している。なお、ID“0”のレコードの確率分布情報は、デフォルト確率分布情報とも言う。デフォルト確率分布情報は、予め設定された情報であり、かつ確率分布に関する情報である。
 また、取得制御部120は、特徴語に対応する確率分布情報の送信指示を外部装置に送信し、特徴語に対応する確率分布情報がないことを示す情報を外部装置から受信すること場合がある。すなわち、当該場合とは、取得制御部120が特徴語に対応する確率分布情報を取得できない場合である。当該場合、取得制御部120は、確率分布テーブル111の中から、ID“0”のレコードの確率分布情報を取得してもよい。
 このように、取得制御部120は、特徴語に対応する確率分布情報を取得できない場合、ID“0”のレコードの確率分布情報を取得する。これにより、情報処理装置100は、後述するように、特徴語に対応する確率分布情報を取得できない場合でも、類似度を算出することができる。
 ここで、ID“3”のレコードの確率分布情報を説明する。確率分布情報が示す“gamma”は、ガンマ分布を示す。“k=2,θ=2”は、ガンマ分布の特徴を示すパラメータである。
 このように、取得制御部120は、特徴語に対応する確率分布情報を確率分布テーブル111から取得する。
 取得制御部120は、特徴語に対応する複数の数値(以下、複数の対象数値)を取得する。例えば、取得制御部120は、特徴語に対応する複数の対象数値を外部装置から取得する。また、例えば、取得制御部120は、特徴語に対応する複数の対象数値を数値テーブル112から取得する。複数の対象数値が数値テーブル112から取得される場合を説明する。まず、数値テーブル112を例示する。
 図6(A),(B)は、実施の形態1の数値テーブルの例を示す図である。図6(A),(B)は、数値テーブル112の例を示している。
 図6(A),(B)の数値テーブル112は、IDと特徴語との項目を有する。図6(A)の数値テーブル112では、当該特徴語の項目として、身長及び体重の項目が示されている。図6(B)の数値テーブル112では、当該特徴語の項目として、売上及び営業利益の項目が示されている。
 例えば、特徴語に“身長”が含まれている場合、取得制御部120は、図6(A)の数値テーブル112の“身長”の列に存在する複数の数値を複数の対象数値として取得する。また、取得制御部120は、複数の対象数値に対応する単位を取得する。例えば、取得制御部120は、単位“cm”を取得する。取得制御部120は、複数の対象数値に対応する単位と、確率分布情報に含まれている単位とが異なる場合、複数の対象数値に対応する単位を確率分布情報に含まれている単位に合わせるために、複数の対象数値を換算する。なお、取得制御部120は、換算を行う場合、単位換算テーブルを用いて、換算を行ってもよい。なお、単位換算テーブルの図示は、省略されている。
 また、取得制御部120は、特徴語に含まれている単位と確率分布情報に含まれている単位とが異なる場合、特徴語に含まれている単位を確率分布情報に含まれている単位に合わせるために、入力値を換算する。
 このように、情報処理装置100は、換算を行うことで、単位が異なる状態を防止できる。
 ここで、入力値又は対象数値が範囲を示している場合がある。入力値又は対象数値が範囲を示している場合、以下の処理が実行されてもよい。例えば、入力値は、“165~175”であるとする。また、確率分布情報は、“normal,μ=170,σ=10,単位=cm”であるとする。“normal”である確率分布P(x)は、式(1)で表される。
Figure JPOXMLDOC01-appb-M000001
 当該範囲の代表点Mは、式(2)で表される。
Figure JPOXMLDOC01-appb-M000002
 このように、代表点Mが算出された場合、代表点Mが、入力値又は対象数値とされる。上記の例の場合、“165~175”の代表点Mである170が、入力値とされる。すなわち、情報処理装置100における処理では、入力値“165~175”が入力値“170”であるものとして扱われる。また、代表点Mは、上記の決め方に限らない。例えば、代表点Mは、当該範囲の最小値又は最大値でもよい。
 図2に戻って、算出部130を説明する。
 算出部130は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。詳細には、算出部130は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値を基準として、当該複数の類似度を算出する。詳細に、当該複数の類似度の算出方法を説明する。
 まず、実数値である確率変数Xが“X=x”となるような確率の確率分布関数があったとする。なお、確率分布関数は、確率密度関数又は確率質量関数とも言う。確率分布を用いた類似度の算出では、確率分布関数P(X=x)が用いられる。また、類似度では、実数qと実数tとの類似の度合いが算出される。
 確率分布関数P(X=x)に対する累積分布関数F(y)を用いて、実数qと実数tとの間の面積A(q,t)が、式(3)で表現される。
Figure JPOXMLDOC01-appb-M000003
 面積A(q,t)は、実数qと実数tとの間の距離を確率で重み付けし、算出された値であると考えてもよい。そして、算出された値は、類似の度合いを表していると考えてもよい。
 面積A(q,t)が小さいほど、実数qと実数tとは、類似していると言える。そこで、面積A(q,t)を用いて、実数qと実数tとの類似の度合いである類似度S(q,t)が、式(4)で表現される。
Figure JPOXMLDOC01-appb-M000004
 具体的に、類似度の算出を説明する。
 算出部130は、確率分布情報に基づいて、F(q)とF(t)を決定する。例えば、確率分布情報は、“normal,μ=160,σ=40,単位=cm”であるとする。“normal”である確率分布P(x)は、式(5)で表される。
Figure JPOXMLDOC01-appb-M000005
 算出部130は、式(5)に表された確率分布P(x)と累積分布関数F(y)に基づいて、F(q)とF(t)を決定する。そして、算出部130は、式(3)及び式(4)を用いて、入力値と対象数値との類似の度合いである類似度を算出する。なお、類似度を算出する場合、実数qには、入力値が設定される。実数tには、対象数値が設定される。
 算出部130は、上記の処理を対象数値ごとに、類似度を算出する。例えば、図7の場合では、算出部130は、式(3)及び式(4)を用いて、入力値“175”と対象数値“168”との類似の度合いである類似度を算出する。次に、算出部130は、式(3)及び式(4)を用いて、入力値“175”と対象数値“175”との類似の度合いである類似度を算出する。このように、算出部130は、上記の処理を対象数値ごとに、類似度を算出する。これにより、複数の類似度が、算出される。
 ここで、式(3)の代わりに、式(6)が用いられてもよい。なお、式(6)のtには、対象数値が設定される。なお、式(6)のqには、入力値が設定される。
Figure JPOXMLDOC01-appb-M000006
 また、式(6)が用いられた場合、式(4)の代わりに、式(7)が用いられてもよい。
Figure JPOXMLDOC01-appb-M000007
 このように、算出部130は、式(6)及び式(7)を用いて、複数の類似度を算出してもよい。
 算出部130は、複数の類似度を降順にソートする。
 出力部140は、特徴語と複数の対象数値と複数の類似度との対応関係を示す情報を出力する。例えば、出力部140は、当該情報をディスプレイに出力する。また、例えば、出力部140は、当該情報を他の装置に出力する。ここで、当該情報は、類似度一覧と呼ぶ。
 次に、情報処理装置100で実行される処理の具体例を示す。
 図7は、実施の形態1の情報処理装置100で実行される処理の具体例を示す図である。
 取得制御部120は、入力値“175”と、特徴語“人物”、“身長”、“cm”とを取得する。取得制御部120は、特徴語に対応する確率分布情報を確率分布テーブル111から取得する。取得された確率分布情報は、“normal,μ=160,σ=40,単位=cm”である。
 取得制御部120は、特徴語“身長”に対応する複数の対象数値を数値テーブル112から取得する。すなわち、取得制御部120は、数値テーブル112の“身長”の列に存在する複数の数値を複数の対象数値として、取得する。
 なお、複数の対象数値の単位“cm”と、確率分布情報に含まれている単位“cm”とが同じであるため、換算は、行われない。また、特徴語に含まれている単位“cm”と、確率分布情報に含まれている単位“cm”とが同じであるため、換算は、行われない。
 算出部130は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。算出部130は、複数の類似度を降順にソートする。これにより、類似度一覧200が作成される。類似度一覧200は、特徴語“身長”と複数の対象数値と複数の類似度との対応関係を示す。出力部140は、類似度一覧200を出力する。
 次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
 図8は、実施の形態1の情報処理装置が実行する処理の例を示すフローチャートである。
 (ステップS11)取得制御部120は、入力値と、特徴語とを取得する。
 (ステップS12)取得制御部120は、確率分布情報の取得処理を実行する。
 (ステップS13)算出部130は、類似度の算出処理を実行する。
 (ステップS14)算出部130は、複数の類似度をソートする。
 (ステップS15)出力部140は、類似度一覧200を出力する。
 図9は、実施の形態1の確率分布情報の取得処理の例を示すフローチャートである。図9の処理は、ステップS12に対応する。
 (ステップS21)取得制御部120は、確率分布テーブル111の中に、特徴語と同一と見做せるレコードが存在するか否かを判定する。特徴語と同一と見做せるレコードが存在する場合、処理は、ステップS22に進む。特徴語と同一と見做せるレコードが存在しない場合、処理は、ステップS23に進む。
 (ステップS22)取得制御部120は、特徴語と同一と見做せるレコードの中から、確率分布情報を取得する。
 (ステップS23)取得制御部120は、ID“0”のレコードの中から、確率分布情報を取得する。そして、デフォルトの確率分布情報が取得された場合、類似度の算出では、デフォルトの確率分布情報が用いられる。
 図10は、実施の形態1の類似度の算出処理の例を示すフローチャートである。図10の処理は、ステップS13に対応する。
 (ステップS31)取得制御部120は、特徴語に含まれている単位と確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ32に進む。単位が同じである場合、処理は、ステップ33に進む。
 (ステップS32)取得制御部120は、特徴語に含まれている単位を確率分布情報に含まれている単位に合わせるために、入力値を換算する。
 (ステップS33)取得制御部120は、特徴語に対応する複数の対象数値を取得する。また、取得制御部120は、複数の対象数値に対応する単位を取得する。
 (ステップS34)取得制御部120は、ステップS33で取得された単位と、確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ35に進む。単位が同じである場合、処理は、ステップ36に進む。
 (ステップS35)取得制御部120は、ステップS33で取得された単位を確率分布情報に含まれている単位に合わせるために、複数の対象数値を換算する。
 (ステップS36)算出部130は、入力値と確率分布情報と複数の対象数値とに基づいて、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。
 なお、ステップS31,32とステップS33~35とは、並行に実行されてもよい。
 ここで、数値を含む文字列(例えば、文章)に関連する関連情報を取得したい場合がある。例えば、当該数値を含む数値範囲を用いて、関連情報を取得する方法が考えられる。しかし、当該方法で取得された情報の中で、どれが本当に当該文字列に関連する関連情報なのか分からないという問題がある。
 実施の形態1によれば、情報処理装置100は、入力値と複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する。情報処理装置100は、複数の類似度に基づいて、入力値と特徴語とに関連する関連情報を特定することができる。例えば、図7のように、類似度一覧200が作成された場合、情報処理装置100は、複数の類似度の中から、予め設定された閾値(例えば、0.9)以上の類似度に対応する情報を関連情報として、特定する。これにより、情報処理装置100は、入力値“175”と特徴語“身長”とに関連する関連情報(例えば、ID:A1~A3のレコード)を特定することができる。
 また、例えば、情報処理装置100は、類似度一覧200をディスプレイに出力する。これにより、ユーザは、ディスプレイを視認することで、入力値と特徴語とに関連する関連情報を特定することができる。
 なお、特徴語は、“事物”、“特性”、及び“単位”であると説明した。しかし、特徴語は、これらの単語に限らない。例えば、特徴語から“事物”、“特性”、及び“単位”のいずれかが、削除されてもよい。また、例えば、特徴語の中に新しい単語が、追加されてもよい。
 図4では、確率分布情報が確率分布テーブル111に含まれている場合を説明した。しかし、確率分布情報は、プログラムの処理が実行されているときに、呼び出されてもよい。確率分布情報が示す確率分布の式が、プログラム上に記載されていてもよい。また、確率分布テーブル111に含まれている確率分布情報は、重回帰分析などでフィッティングされた情報でもよい。
 また、確率分布テーブル111には、デフォルトで設定されているレコードが含まれていることを説明した。当該レコードに含まれている確率分布情報は、ユーザによって、変更されてもよい。
実施の形態2.
 次に、実施の形態2を説明する。実施の形態2では、実施の形態1と相違する事項を主に説明する。そして、実施の形態2では、実施の形態1と共通する事項の説明を省略する。
 図11は、実施の形態2の情報処理装置の機能を示すブロック図である。図2に示される構成と同じ図11の構成は、図2に示される符号と同じ符号を付している。情報処理装置100は、さらに、解析部150を有する。
 解析部150の一部又は全部は、処理回路によって実現してもよい。また、解析部150の一部又は全部は、プロセッサ101が実行するプログラムのモジュールとして実現してもよい。解析部150の機能は、後で説明する。
 記憶部110は、文章テーブル113を記憶する。文章テーブル113を例示する。
 図12は、実施の形態2の文章テーブルの例を示す図である。文章テーブル113は、文章情報とも言う。文章テーブル113は、ID、文章、及び数値情報の項目を有する。文章の項目は、文章を示す。数値情報の項目は、文章に含まれている数値と特徴語とを示す。ここで、文章の項目に登録されている複数の文章は、複数の対象文章と呼ぶ。
 このように、文章テーブル113は、複数の対象文章と、複数の数値との対応関係を示す。
 取得制御部120は、数値(すなわち、入力値)と特徴語とを含む文章(すなわち、入力データ)と、当該文章に対応する数値情報とを取得する。取得処理を例示する。
 図13は、実施の形態2の取得処理の例を示す図である。取得制御部120は、入力データである文章“身長175cmの男性”と数値情報とを取得する。解析部150は、文章に対して形態素解析を行う。これにより、“身長,175,cm,の,男性”が、得られる。
 また、取得制御部120が、入力データのみを取得する場合がある。当該場合、解析部150は、入力データである文章に対して形態素解析を行う。解析部150は、形態素解析によって得られた情報に基づいて、数値情報を抽出する。
 取得制御部120は、特徴語に対応する確率分布情報を取得する。例えば、取得制御部120は、特徴語に対応する確率分布情報を確率分布テーブル111から取得する。
 算出部130は、入力データである文章と、文章テーブル113に含まれている複数の対象文章のそれぞれとの類似の度合いである複数の類似度を算出する。算出部130は、公知技術を用いて、複数の類似度を算出することができる。例えば、算出部130は、形態素解析によって得られた情報を用いて、複数の類似度を算出することができる。また、算出部130は、単語の分散表現に基づく単語間の類似度を用いて、複数の類似度を算出することができる。
 これにより、複数の対象文章に対応する複数の類似度が算出される。当該複数の類似度は、複数の第1の類似度とも言う。
 算出部130は、文章テーブル113の数値情報の中で、“不明”の箇所に、取得制御部120が取得した数値情報を補完する。例えば、ID“C1”のレコードでは、“事物”と“特性”が“不明”になっている。算出部130は、“事物”に“男性”を補完する。算出部130は、“特性”に“身長”を補完する。これにより、文章テーブル113の数値情報の中に“不明”が、なくなる。
 算出部130は、取得された確率分布情報、入力値、及び文章テーブル113に含まれている複数の数値(すなわち、数値情報の列に存在する複数の数値)に基づいて、入力値と、当該複数の数値のそれぞれとの類似の度合いである複数の類似度を算出する。例えば、算出部130は、式(3)及び式(4)を用いて、複数の類似度を算出する。
 これにより、複数の数値情報(詳細には、複数の数値情報の中の複数の数値)に対応する複数の類似度が算出される。なお、当該複数の類似度は、複数の第2の類似度とも言う。
 算出部130は、複数の第1の類似度と複数の第2の類似度とに基づいて、文章テーブル113に含まれている対象文章と数値情報との組合せ毎に、類似度を合算する。言い換えれば、算出部130は、レコード毎に類似度を合算する。例えば、算出部130は、ID“C1”の文章(詳細には、対象文章)に対応する類似度と、ID“C1”の数値情報(詳細には、数値)に対応する類似度とを合算する。同様に、算出部130は、レコード毎に類似度を合算する。
 出力部140は、対象文章と数値情報との組合せと、合算値との対応関係を示す情報を出力する。出力部140は、対象文章と数値との組合せと、合算値との対応関係を示す情報を出力してもよい。
 次に、情報処理装置100が実行する処理を、フローチャートを用いて説明する。
 図14は、実施の形態2の情報処理装置が実行する処理の例を示すフローチャートである。
 (ステップS41)取得制御部120は、数値と特徴語とを含む文章(すなわち、入力データ)と、当該文章に対応する数値情報とを取得する。
 (ステップS42)解析部150は、文章に対して形態素解析を行う。
 (ステップS43)算出部130は、入力データである文章と、文章テーブル113に登録されている複数の対象文章のそれぞれとの類似の度合いである複数の第1の類似度を算出する。
 (ステップS44)取得制御部120は、特徴語に対応する確率分布情報を確率分布テーブル111から取得する。
 (ステップS45)算出部130は、文章テーブル113を用いた処理を実行する。
 (ステップS46)算出部130は、レコード毎に類似度を合算する。
 (ステップS47)算出部130は、合算値を降順にソートする。
 (ステップS48)出力部140は、レコード毎の合算値を出力する。
 なお、ステップS43とステップ44,45とは、並行に実行されてもよい。
 図15は、実施の形態2の文章テーブルを用いた処理の例を示すフローチャートである。図15の処理は、ステップS45に対応する。
 (ステップS51)取得制御部120は、特徴語に含まれている単位と確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ52に進む。単位が同じである場合、処理は、ステップ53に進む。
 (ステップS52)取得制御部120は、特徴語に含まれている単位を確率分布情報に含まれている単位に合わせるために、入力値を換算する。
 (ステップS53)算出部130は、文章テーブル113の数値情報の中で、“不明”の箇所に、取得制御部120が取得した数値情報を補完する。
 (ステップS54)算出部130は、数値情報に含まれている単位と確率分布情報に含まれている単位とが同じであるか否かを判定する。単位が異なる場合、処理は、ステップ55に進む。単位が同じである場合、処理は、ステップ56に進む。
 (ステップS55)算出部130は、数値情報に含まれている単位を確率分布情報に含まれている単位に合わせるために、数値情報に含まれている数値を換算する。
 なお、数値情報に含まれている単位の種類と、確率分布情報に含まれている単位の種類とが異なる場合、算出部130は、換算を行わない。例えば、数値情報に含まれている単位が重さの単位(例えば、“t”)であり、確率分布情報に含まれている単位が長さの単位(例えば、“cm”)である場合、算出部130は、換算を行わない。
 (ステップS56)算出部130は、取得された確率分布情報、入力値、数値情報の列に存在する複数の数値に基づいて、入力値と、当該複数の数値のそれぞれとの類似の度合いである複数の第2の類似度を算出する。
 実施の形態2によれば、情報処理装置100は、複数の第1の類似度を算出する。さらに、情報処理装置100は、複数の第2の類似度を算出する。情報処理装置100は、複数の第1の類似度と複数の第2の類似度とに基づいて、類似度の合算を行う。これにより、情報処理装置100は、複数の合算値に基づいて、入力値と特徴語とを含む文章に関連する関連情報を特定することができる。
 以上に説明した各実施の形態における特徴は、互いに適宜組み合わせることができる。
 100 情報処理装置、 101 プロセッサ、 102 揮発性記憶装置、 103 不揮発性記憶装置、 110 記憶部、 111 確率分布テーブル、 112 数値テーブル、 113 文章テーブル、 120 取得制御部、 130 算出部、 140 出力部、 150 解析部、 200 類似度一覧。

Claims (8)

  1.  数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得する取得制御部と、
     前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する算出部と、
     を有する情報処理装置。
  2.  前記特徴語と前記複数の対象数値と前記複数の類似度との対応関係を示す情報を出力する出力部をさらに有する、
     請求項1に記載の情報処理装置。
  3.  前記取得制御部は、前記特徴語に含まれている単位と前記確率分布情報に含まれている単位とが異なる場合、前記特徴語に含まれている単位を前記確率分布情報に含まれている単位に合わせるために、前記入力値を換算し、前記複数の対象数値に対応する単位を取得し、前記複数の対象数値に対応する単位と、前記確率分布情報に含まれている単位とが異なる場合、前記複数の対象数値に対応する単位を前記確率分布情報に含まれている単位に合わせるために、前記複数の対象数値を換算する、
     請求項1又は2に記載の情報処理装置。
  4.  予め設定された情報であり、かつ確率分布に関する情報であるデフォルト確率分布情報を記憶する記憶部をさらに有し、
     前記取得制御部は、前記特徴語に対応する前記確率分布情報を取得できない場合、前記デフォルト確率分布情報を取得し、
     前記算出部は、前記入力値と前記デフォルト確率分布情報と前記複数の対象数値とに基づいて、前記複数の類似度を算出する、
     請求項1又は2に記載の情報処理装置。
  5.  複数の文章である複数の対象文章と、複数の数値との対応関係を示す文章情報を記憶する記憶部をさらに有し、
     前記取得制御部は、
     前記入力値と前記特徴語とを含む文章である入力データを取得し、
     前記算出部は、
     前記入力データである前記文章と、前記複数の対象文章のそれぞれとの類似の度合いである複数の第1の類似度を算出し、前記確率分布情報、前記入力値、及び前記文章情報に含まれている前記複数の数値に基づいて、前記入力値と、前記文章情報に含まれている前記複数の数値のそれぞれとの類似の度合いである複数の第2の類似度を算出し、
     前記複数の第1の類似度と前記複数の第2の類似度とに基づいて、前記文章情報に含まれている対象文章と数値との組合せ毎に、類似度を合算する、
     請求項1に記載の情報処理装置。
  6.  対象文章と数値との前記組合せと、前記合算により得られた合算値との対応関係を示す情報を出力する出力部をさらに有する、
     請求項5に記載の情報処理装置。
  7.  情報処理装置が、
     数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、
     前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得し、
     前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する、
     情報処理方法。
  8.  情報処理装置に、
     数値である入力値と、前記入力値と関係のある単語である特徴語とを取得し、
     前記特徴語に対応する、確率分布に関する情報である確率分布情報を取得し、前記特徴語に対応する複数の数値である複数の対象数値を取得し、
     前記入力値と前記確率分布情報と前記複数の対象数値とに基づいて、前記入力値と前記複数の対象数値のそれぞれとの類似の度合いである複数の類似度を算出する、
     処理を実行させる情報処理プログラム。
PCT/JP2021/025765 2021-07-08 2021-07-08 情報処理装置、情報処理方法、及び情報処理プログラム WO2023281691A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2023530500A JP7333891B2 (ja) 2021-07-08 2021-07-08 情報処理装置、情報処理方法、及び情報処理プログラム
DE112021007611.6T DE112021007611T5 (de) 2021-07-08 2021-07-08 Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und informationsverarbeitungsprogramm
CN202180100176.2A CN117581222A (zh) 2021-07-08 2021-07-08 信息处理装置、信息处理方法及信息处理程序
PCT/JP2021/025765 WO2023281691A1 (ja) 2021-07-08 2021-07-08 情報処理装置、情報処理方法、及び情報処理プログラム
US18/395,860 US20240134870A1 (en) 2021-07-08 2023-12-26 Information processing device, and information processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/025765 WO2023281691A1 (ja) 2021-07-08 2021-07-08 情報処理装置、情報処理方法、及び情報処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/395,860 Continuation US20240134870A1 (en) 2021-07-08 2023-12-26 Information processing device, and information processing method

Publications (1)

Publication Number Publication Date
WO2023281691A1 true WO2023281691A1 (ja) 2023-01-12

Family

ID=84801605

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/025765 WO2023281691A1 (ja) 2021-07-08 2021-07-08 情報処理装置、情報処理方法、及び情報処理プログラム

Country Status (5)

Country Link
US (1) US20240134870A1 (ja)
JP (1) JP7333891B2 (ja)
CN (1) CN117581222A (ja)
DE (1) DE112021007611T5 (ja)
WO (1) WO2023281691A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323785A (ja) * 2005-05-20 2006-11-30 Fujitsu Ltd 集合間関連性判定プログラム
JP2006323575A (ja) * 2005-05-18 2006-11-30 Oki Electric Ind Co Ltd 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体
JP2021068376A (ja) * 2019-10-28 2021-04-30 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7092001B2 (ja) 2018-11-14 2022-06-28 株式会社村田製作所 数値検索装置、数値検索方法および、数値検索プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323575A (ja) * 2005-05-18 2006-11-30 Oki Electric Ind Co Ltd 文書検索システム、文書検索方法、文書検索プログラム及び記録媒体
JP2006323785A (ja) * 2005-05-20 2006-11-30 Fujitsu Ltd 集合間関連性判定プログラム
JP2021068376A (ja) * 2019-10-28 2021-04-30 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置

Also Published As

Publication number Publication date
US20240134870A1 (en) 2024-04-25
DE112021007611T5 (de) 2024-02-29
CN117581222A (zh) 2024-02-20
JP7333891B2 (ja) 2023-08-25
JPWO2023281691A1 (ja) 2023-01-12

Similar Documents

Publication Publication Date Title
US11036791B2 (en) Computerized system and method for determining non-redundant tags from a user's network activity
KR102371167B1 (ko) 데이터 아이템을 성긴 분포 표현으로 매핑하는 방법 및 시스템
US20200081899A1 (en) Automated database schema matching
JP5346279B2 (ja) 検索による注釈付与
US10963646B2 (en) Scenario passage pair recognizer, scenario classifier, and computer program therefor
JP7257585B2 (ja) 深層cca及び能動ペアワイズクエリを用いるマルチモーダル検索及びクラスタリングのための方法
JP2015230570A (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
US20130204835A1 (en) Method of extracting named entity
JP2016018286A (ja) 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム
JP6346367B1 (ja) 類似性指標値算出装置、類似検索装置および類似性指標値算出用プログラム
JP7389330B2 (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP5362807B2 (ja) ドキュメントランク付け方法および装置
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
WO2023281691A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
US20170293863A1 (en) Data analysis system, and control method, program, and recording medium therefor
JP5533272B2 (ja) データ出力装置、データ出力方法およびデータ出力プログラム
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP6509391B1 (ja) 計算機システム
CN107622129B (zh) 一种知识库的组织方法及装置、计算机存储介质
García-Mondeja et al. Discovering Author Groups using a β-compact graph-based clustering.
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP2008282328A (ja) テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体
JP4314271B2 (ja) 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体
RU2775358C1 (ru) Способ и система получения векторного представления электронного текстового документа для классификации по категориям конфиденциальной информации
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21949324

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023530500

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 112021007611

Country of ref document: DE

WWE Wipo information: entry into national phase

Ref document number: 202180100176.2

Country of ref document: CN