WO2019171992A1 - 情報処理装置、情報処理方法、プログラム - Google Patents
情報処理装置、情報処理方法、プログラム Download PDFInfo
- Publication number
- WO2019171992A1 WO2019171992A1 PCT/JP2019/006957 JP2019006957W WO2019171992A1 WO 2019171992 A1 WO2019171992 A1 WO 2019171992A1 JP 2019006957 W JP2019006957 W JP 2019006957W WO 2019171992 A1 WO2019171992 A1 WO 2019171992A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- value
- attribute
- information processing
- rules
- specific attribute
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Definitions
- the present invention relates to an information processing apparatus, an information processing method, and a program that complement data loss.
- the method of complementing a deficiency described in Patent Document 1 learns samples having common explanatory variables not missing for each deficient pattern and complements the deficiency.
- the defect pattern is not necessarily similar to other samples. As a result, there arises a problem that data loss cannot be complemented with a more appropriate value.
- an object of the present invention is to provide an information processing apparatus, an information processing method, and a program that can solve the above-described problem that data loss cannot be complemented with a more appropriate value. There is.
- An information processing apparatus Generating means for generating a plurality of rules for complementing the deficiency based on a value of a specific attribute including a deficiency among data consisting of a plurality of attributes and a value of another attribute different from the specific attribute; , Complementing means for identifying a value that complements the deficiency based on a plurality of the rules;
- An information processing method includes: Based on the value of a specific attribute including a deficiency among data consisting of a plurality of attributes and the value of another attribute different from the specific attribute, a plurality of rules for complementing the deficiency are generated, Identifying a value that complements the deficiency based on a plurality of the rules;
- the configuration is as follows.
- a program which is one embodiment of the present invention is In the information processing device, Generating means for generating a plurality of rules for complementing the deficiency based on a value of a specific attribute including a deficiency among data consisting of a plurality of attributes and a value of another attribute different from the specific attribute; , Complementing means for identifying a value that complements the deficiency based on a plurality of the rules; To realize, The configuration is as follows.
- the present invention is configured as described above, so that it is possible to improve the accuracy of the complementary value for data loss including a plurality of attributes.
- FIG. 1 It is a block diagram which shows the structure of the information processing apparatus in Embodiment 1 of this invention. It is a figure which shows an example of the data containing a defect
- 3 is a flowchart illustrating an operation of the information processing apparatus disclosed in FIG. 1. It is a figure for demonstrating the mode of the complementation process with respect to the defect
- FIG. 1 is a block diagram illustrating a configuration of the information processing apparatus.
- FIG. 2 is a diagram illustrating an example of data including a defect.
- FIG. 3 is a flowchart showing the operation of the information processing apparatus.
- 4 to 7 are diagrams for explaining a complementing process for data loss.
- FIG. 8 is a diagram showing a state when data loss is complemented.
- the information processing apparatus 1 is configured by one or a plurality of information processing apparatuses including an arithmetic device and a storage device. As shown in FIG. 1, the information processing apparatus 1 includes a rule generation unit 11, a complementary value candidate generation unit 12, and a complementary value determination unit 13 that are constructed by an arithmetic device executing a program. . In addition, the information processing apparatus 1 includes a data storage unit 15 formed in the storage device. Hereinafter, a detailed configuration and operation of the information processing apparatus 1 will be described.
- the data storage unit 15 stores data to be analyzed as shown in FIG.
- This data is data composed of a plurality of attributes such as month, weather, temperature, and humidity. Specifically, the attribute “month” has February, August, etc., the attribute “weather” has discrete values such as clear, cloudy, and rain, and the attribute “temperature” and the attribute “humidity” have continuous values. . In addition, the value of each attribute located on the same line is data observed at the same time.
- the information processing apparatus 1 performs processing for complementing these defects.
- the data stored in the data storage unit 15 is not limited to that shown in FIG.
- the rule generation unit 11 (generation unit) first reads out data having a deficiency from the data storage unit 15 (step S1 in FIG. 3), and generates a rule for complementing the deficiency described above (step S2 in FIG. 3). At this time, the rule generation unit 11 generates a plurality of rules for complementing one defect (predetermined defect). A specific rule generation method will be described later.
- the complementary value candidate generation unit 12 (complementing means) generates a complementary value candidate that complements the deficiency from each of the plurality of rules generated by the rule generation unit 11 (step S3 in FIG. 3). That is, the complementary value candidate generation unit 12 generates a plurality of complementary value candidates from a plurality of rules.
- the complementary value determining unit 13 calculates a complementary value from a plurality of candidate complementary values generated by the complementary value candidate generating unit 12, and identifies one complementary value (step S4 in FIG. 3). . Then, the complementary value determination unit 13 complements the complementary value specified as data loss and stores it in the data storage unit 15 (step S5 in FIG. 3).
- the rule generation unit 11 sets a combination of a missing attribute “weather” (specific attribute) and another attribute.
- a missing attribute “weather” specific attribute
- another attribute three combinations of the attribute “weather” and the attribute “month”, the attribute “weather” and the attribute “temperature”, and the attribute “weather” and the attribute “humidity” are set.
- a rule that complements the deficiency is generated.
- the rule generation unit 11 determines that the attribute “weather” is “sunny” 70% when the value of the attribute “month” is “February” from the combination of the attribute “weather” and the attribute “month”. A rule having a probability distribution of “cloudy” 20% and “rain” 40% ”is generated. As described above, when both the combined attributes are discrete values, the rule generation unit 11 generates a rule based on the appearance frequency of the value of the complementary attribute with respect to the value of the other attribute corresponding to the deficiency. .
- the other attribute “temperature” is summarized with a class width of 5 ° C., and the attribute “weather” to be complemented for the range of “5 ° C. or more and less than 10 ° C.” including the above “6 ° C.” Check the frequency of occurrence.
- the rule generation unit 11 determines that the attribute “weather” is “clear” when the value of the attribute “temperature” is “5 ° C. or more and less than 10 ° C.” from the combination of the attribute “weather” and the attribute “temperature”.
- a rule having a probability distribution of “20%”, “cloudy” 40%, and “rain” 40% ” is generated.
- the appearance frequency of the value of the attribute “weather” to be complemented for the value in the predetermined range is checked. Specifically, the other attribute “humidity” is collected with a class width of 10%, and the attribute “weather” to be complemented for the range where the attribute “humidity” is “40% or more and less than 50%” including the above “43%”. Check the frequency of occurrence.
- the rule generation unit 11 determines that the attribute “weather” is “clear” when the value of “attribute“ humidity ”is“ 40% or more and less than 50% ”from the combination of the attribute“ weather ”and the attribute“ humidity ”.
- the rule generation unit 11 generates the following three rules as rules for complementing the missing attribute “weather” shown in the second line of FIG. (A1) When the attribute “month” is “February”, the attribute “weather” is “sunny” 70%, “cloudy” 20%, “rain” 40% (A2) When the attribute “temperature” is “5 ° C. or higher and lower than 10 ° C.”, the attribute “weather” is “sunny” 20%, “cloudy” 40%, “rain” 40% (A3) When the attribute “humidity” is “40% or more and less than 50%”, the attribute “weather” is “sunny” 60%, “cloudy” 35%, “rain” 5%
- the complementary value candidate generation unit 12 generates a complementary value candidate for the attribute “weather” from each of the three rules described above. For example, in each of the above three rules, assuming that the weather value having the highest probability is a candidate for the complementary value, the candidate for the complementary value “sunny” from the rule (a1), and the candidate for the complementary value “cloudy” from the rule (a2). From the rule (a3), three complementary value candidates such as a complementary value candidate “clear” are generated.
- the complementary value determination unit 13 integrates the three complementary value candidates generated from the above three rules, and identifies the final complementary value that complements the missing attribute “weather”.
- the complementary value is specified based on the number of candidates for the complementary value.
- the complementary value since the candidate for the complementary value “sunny” is generated from two of the three rules, the complementary value is specified as “sunny” by majority vote.
- the complementary value may be specified by other methods. For example, it may be an average value of candidates for complementary values, or weights set for each attribute may be applied to candidates for complementary values, and then a majority decision may be made.
- the candidate for the complementary value “cloudy” generated from the rule (a2) is used. Is specified as a complementary value by majority vote.
- the rule generation unit 11 sets a combination of a missing attribute “temperature” (specific attribute) and another attribute.
- a missing attribute “temperature” specific attribute
- another attribute three combinations of the attribute “temperature” and the attribute “month”, the attribute “temperature” and the attribute “weather”, and the attribute “temperature” and the attribute “humidity” are set.
- a rule that complements the deficiency is generated.
- the appearance frequency of the attribute “temperature” in the range of 5 ° C. with respect to the value “February” of the attribute “month” is represented by the histogram shown in the upper part of FIG. From this, the rule generation unit 11 determines that the frequency of the attribute “temperature” in FIG. 6 when the value of the attribute “month” is “February” from the combination of the attribute “temperature” and the attribute “month”. The rule “represented by the frequency distribution shown in the upper part” is generated.
- the attribute “temperature” to be complemented among the combined attributes is a continuous value, a value in a predetermined range of the attribute “temperature” is set, and the value of the attribute “weather” is “cloudy” ”Is examined for the appearance frequency of the value in the predetermined range of the attribute“ temperature ”.
- the attribute “temperature” to be complemented is summarized with a class width of 5 ° C., and the appearance frequency of the temperature of the 5 ° C. width is examined.
- the appearance frequency of the attribute “temperature” with respect to the attribute “weather” value “cloudy” in the 5 ° C. width is represented by the histogram shown in the middle of FIG. From this, the rule generation unit 11 determines that the frequency of the attribute “temperature” is the middle of FIG. 6 when the value of the attribute “weather” is “cloudy” from the combination of the attribute “temperature” and the attribute “weather”. Is expressed by the frequency distribution shown in FIG.
- a scatter diagram of the value of the attribute “temperature” and the value of the attribute “humidity” is expressed as shown in the lower part of FIG. From this, the rule generation unit 11 determines the relationship between the value of the attribute “temperature” and the value of the attribute “humidity” from the combination of the attribute “temperature” and the attribute “humidity” shown in the lower part of FIG. A rule “represented in the figure” is generated.
- the rule generation unit 11 uses three graphs each represented by three graphs such as the frequency distribution and the scatter diagram in FIG. 6 as a rule for complementing the lack of the attribute “temperature” shown in the fourth line of FIG. Generate rules.
- the complementary value candidate generation unit 12 generates a complementary value candidate for the attribute “temperature”, respectively, from the three rules described above. For example, from the frequency distribution in the upper part of FIG. 6, as indicated by the diagonal lines in the upper part of FIG. 7, a range of “5 ° C. or more and less than 10 ° C.” having the highest frequency of the attribute “temperature” is selected. “9 ° C.” is generated as a candidate for a complementary value from the numerical value in the list. Here, “9 ° C.” is randomly selected from the range of “5 ° C. or more and less than 10 ° C.” as a candidate for the complementary value, but the candidate for the complementary value may be generated by any method. Similarly, from the frequency distribution in the middle part of FIG.
- the range of “10 ° C. or more and less than 15 ° C.” having the highest frequency of the attribute “temperature” is selected as shown by the hatched line in the middle part of FIG. From the numerical value within the range, “16 ° C.” is generated as a complementary value candidate.
- an approximate straight line is calculated as shown in the lower part of FIG. Then, the value “15 ° C.” of the attribute “temperature” corresponding to the value “80 ° C.” of the attribute “humidity” on the same line as the lack of the attribute “temperature” is selected from the approximate line. Further, for the attribute “temperature”, a normal distribution with an average of “15 ° C.” is generated, and “14 ° C.” is generated as a candidate for a complementary value based on the normal distribution.
- the method for generating the candidate for the complementary value from the scatter diagram described above is not limited to the method described above, and any method may be used.
- the complementary value determination unit 13 integrates the three complementary value candidates generated from the above three rules, and identifies the final complementary value that complements the missing value of the attribute “temperature”.
- the complementary value is specified by calculating the average of the complementary value candidates. In this case, taking the average of the candidates for the complementary values generated in the three rules, “13 ° C.” is obtained, and this value is specified as the complementary value.
- the complementary value may be specified by other methods. For example, weighting set for each attribute may be performed on the candidate for the complementary value, and then the average value may be used. For example, when the weight of the attribute “month” is “2” and the weight of the attributes “humidity” and “weather” is “1”, the complementary value is “12 ° C.” from the candidate values for the complementary value. Identified as
- the identified complement value is complemented by the missing value portion of the data as shown in FIG.
- data in which the deficit is complemented can be used for data analysis.
- the information processing apparatus 1 generates a plurality of rules for complementing data loss, and generates a complement value from the plurality of rules. For this reason, data loss can be predicted from all the relevances between a plurality of attributes, and a more appropriate complementary value can be generated.
- a plurality of rules may be generated as a whole by generating at least one rule that complements each deficiency, and a plurality of deficiencies may be complemented from the plurality of rules.
- FIG. 9 is a block diagram illustrating a configuration of the information processing apparatus according to the second embodiment.
- an outline of the configuration of the information processing apparatus described in the first embodiment is shown.
- the information processing apparatus 100 in the present embodiment Generating means 110 for generating a plurality of rules for complementing the deficiency based on a value of a specific attribute including a deficiency among data consisting of a plurality of attributes and a value of another attribute different from the specific attribute
- Complementing means 120 for identifying a value that complements the deficiency based on a plurality of the rules It has.
- the generating unit 110 and the complementing unit 120 are realized by the information processing apparatus executing a program.
- the information processing apparatus 100 configured as described above Based on the value of a specific attribute including a deficiency among data consisting of a plurality of attributes and the value of another attribute different from the specific attribute, generate a plurality of rules for complementing the deficiency, Identify a value that complements the deficiency based on a plurality of the rules, It operates to execute the process.
- a plurality of rules for complementing data loss are generated from a plurality of attribute values, and a complementary value is generated from the plurality of rules. For this reason, data loss can be predicted from a plurality of rules representing the relationship between attributes, and a more appropriate complementary value can be generated.
- Appendix 1 Generating means for generating a plurality of rules for complementing the deficiency based on a value of a specific attribute including a deficiency among data consisting of a plurality of attributes and a value of another attribute different from the specific attribute; , Complementing means for identifying a value that complements the deficiency based on a plurality of the rules;
- An information processing apparatus comprising:
- (Appendix 2) An information processing apparatus according to attachment 1, wherein The generation means generates a plurality of the rules that complement the predetermined missing of the specific attribute, The complement means identifies a value that complements the predetermined defect of the specific attribute based on a plurality of the rules. Information processing device.
- Appendix 3 An information processing apparatus according to appendix 2, wherein The generating means, when forming a combination of the value of the specific attribute and the value of the other attribute, changes the other attribute to be combined with the value of the specific attribute to a plurality of different attributes. Generating a plurality of the rules by forming a combination and generating the rule that complements the predetermined deficiency based on each of the plurality of combinations; Information processing device.
- the generating means includes A first rule that complements the predetermined deficiency based on a value of the specific attribute and a value of a first attribute that is the other attribute;
- the second rule that complements the predetermined deficiency based on the value of the specific attribute and the value of the second attribute that is the other attribute different from the specific attribute and the first attribute
- Generating at least two or more of the rules including: Information processing device.
- Appendix 5 An information processing apparatus according to any one of appendices 2 to 4, The generating means generates the rule based on the appearance frequency of the value of the specific attribute with respect to the value of the other attribute corresponding to the predetermined defect of the specific attribute. Information processing device.
- Appendix 6 An information processing apparatus according to appendix 5, When the value of the other attribute is a continuous value, the generation means is configured to output the specific attribute with respect to a value in a predetermined range including the value of the other attribute corresponding to the predetermined defect of the specific attribute. Generating the rule based on the frequency of occurrence of the value; Information processing device.
- appendix 6.1 The information processing apparatus according to appendix 5 or 6, The generation means, when the value of the specific attribute is a continuous value, appearance of a value in a predetermined range of the specific attribute with respect to the value of the other attribute corresponding to the predetermined defect of the specific attribute Generating said rules based on frequency, Information processing device.
- Appendix 7 An information processing apparatus according to any one of appendices 5 to 6.1, When the value of the specific attribute and the value of the other attribute are continuous values, the generation means, the value excluding the predetermined defect of the specific attribute, and the predetermined attribute of the specific attribute Generating the rule based on a scatter diagram of the values of the other attributes corresponding to the values excluding the deficiency; Information processing device.
- the complement means generates candidate values for complementing the predetermined defect of the specific attribute based on each of the plurality of rules, and the predetermined defect of the specific attribute based on the plurality of candidates. Identify the value that complements Information processing device.
- Generating means for generating a plurality of rules for complementing the deficiency based on a value of a specific attribute including a deficiency among data consisting of a plurality of attributes and a value of another attribute different from the specific attribute;
- Complementing means for identifying a value that complements the deficiency based on a plurality of the rules;
- Non-transitory computer readable media include various types of tangible storage media (tangible storage medium).
- Examples of non-transitory computer-readable media include magnetic recording media (eg flexible disks, magnetic tapes, hard disk drives), magneto-optical recording media (eg magneto-optical discs), CD-ROMs (Read Only Memory), CD-Rs, CD-R / W, semiconductor memory (for example, mask ROM, PROM (Programmable ROM), EPROM (Erasable ROM), flash ROM, RAM (Random Access Memory)) are included.
- the program may also be supplied to the computer by various types of temporary computer-readable media. Examples of transitory computer readable media include electrical signals, optical signals, and electromagnetic waves.
- the temporary computer-readable medium can supply the program to the computer via a wired communication path such as an electric wire and an optical fiber, or a wireless communication path.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Complex Calculations (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本発明の情報処理装置100は、複数の属性からなるデータのうち、欠損を含む特定の属性の値と、特定の属性とは異なる他の属性の値と、に基づいて、欠損を補完するルールを複数生成する生成手段110と、複数の上記ルールに基づいて上記欠損を補完する値を特定する補完手段120と、を備える。
Description
本発明は、データの欠損を補完する情報処理装置、情報処理方法、プログラムに関する。
様々な場面で、入手可能なデータを分析し、モデルを作成して将来を予測することが行われている。ところが、データ分析を行う場合に、分析対象となるデータに欠損があると、精度の高い予測を行うことが困難である。このため、データ欠損を最もらしい値で補完する必要がある。
ここで、特許文献1に記載されている欠損を補完する方法は、欠損パターン毎に、欠損していない説明変数が共通しているサンプルをまとめて学習し、欠損を補完している。ところが、特許文献1に記載の欠損の補完方法では、欠損パターンが必ずしも他のサンプルと類似するとは限らない。その結果、データの欠損をより適切な値で補完することができない、という問題が生じる。
このため、本発明の目的は、上述した課題である、データの欠損をより適切な値で補完することができない、という問題を解決することができる情報処理装置、情報処理方法、プログラムを提供することにある。
本発明の一形態である情報処理装置は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた、
という構成をとる。
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた、
という構成をとる。
また、本発明の一形態である情報処理方法は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
複数の前記ルールに基づいて前記欠損を補完する値を特定する、
という構成をとる。
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
複数の前記ルールに基づいて前記欠損を補完する値を特定する、
という構成をとる。
また、本発明の一形態であるプログラムは、
情報処理装置に、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させる、
という構成をとる。
情報処理装置に、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させる、
という構成をとる。
本発明は、以上のように構成されることにより、複数の属性からなるデータの欠損に対する補完値の精度の向上を図ることができる。
<実施形態1>
本発明の第1の実施形態を、図1乃至図8を参照して説明する。図1は、情報処理装置の構成を示すブロック図である。図2は、欠損を含むデータの一例を示す図である。図3は、情報処理装置の動作を示すフローチャートである。図4乃至図7は、データの欠損に対する補完処理を説明するための図である。図8は、データの欠損を補完したときの様子を示す図である。
本発明の第1の実施形態を、図1乃至図8を参照して説明する。図1は、情報処理装置の構成を示すブロック図である。図2は、欠損を含むデータの一例を示す図である。図3は、情報処理装置の動作を示すフローチャートである。図4乃至図7は、データの欠損に対する補完処理を説明するための図である。図8は、データの欠損を補完したときの様子を示す図である。
本実施形態における情報処理装置1は、演算装置や記憶装置を備えた、1台又は複数台の情報処理装置にて構成されている。そして、情報処理装置1は、図1に示すように、演算装置がプログラムを実行することで構築された、ルール生成部11、補完値候補生成部12、補完値決定部13、を備えている。また、情報処理装置1は、記憶装置に形成されたデータ記憶部15を備えている。以下、情報処理装置1の詳細な構成と動作について説明する。
上記データ記憶部15は、図2に示すような分析対象となるデータを記憶している。このデータは、月、天気、気温、湿度、などの複数の属性からなるデータである。具体的に、属性「月」は、2月、8月など、属性「天気」は、晴れ、曇り、雨、などの離散値をとり、属性「気温」と属性「湿度」は連続値をとる。なお、同一行に位置する各属性の値は、同時に観測されたデータである。
また、データの一部には値が欠損している箇所が存在している。例えば、図2の例では、属性「天気」の2行目の値と、属性「天気」の4行目の値が欠損している。本発明の情報処理装置1は、後述するように、これら欠損を補完する処理を行う。なお、データ記憶部15に記憶されているデータは、図2に示すものに限定されない。
上記ルール生成部11(生成手段)は、まずデータ記憶部15から欠損を有するデータを読出し(図3のステップS1)、上述した欠損を補完するルールを生成する(図3のステップS2)。このとき、ルール生成部11は、1つの欠損(所定の欠損)を補完するためのルールを複数生成する。なお、ルールの具体的な生成方法については後述する。
続いて、上記補完値候補生成部12(補完手段)は、ルール生成部11で生成した複数のルールのそれぞれから、欠損を補完する補完値の候補を生成する(図3のステップS3)。つまり、補完値候補生成部12は、複数のルールから、それぞれ複数の補完値の候補を生成する。
その後、補完値決定部13(補完手段)は、補完値候補生成部12で生成した複数の補完値の候補から補完値を算出して、1つの補完値を特定する(図3のステップS4)。そして、補完値決定部13は、データの欠損に特定した補完値を補完して、データ記憶部15に記憶する(図3のステップS5)。
ここで、上述した情報処理装置1による欠損を補完する処理の具体例を説明する。まず、図4の点線丸印で示す属性「天気」の2行目の欠損を補完する具体例を説明する。
はじめに、ルール生成部11は、欠損を有する属性「天気」(特定の属性)と、他の属性と、の組み合わせを設定する。ここでは、属性「天気」と属性「月」、属性「天気」と属性「気温」、属性「天気」と属性「湿度」、の3つの組み合わせを設定する。そして、組み合わせ毎に、それぞれ欠損を補完するルールを生成する。
上記属性「天気」と属性「月」との組み合わせでは、まず、属性「天気」の欠損箇所に対応する属性「月」の値を調べると、図4の点線四角形で囲ったように「2月」が対応する。このため、この属性「月」の値「2月」に対する、属性「天気」の欠損以外の値を調べる。すると、本実施形態のデータでは、属性「月」が「2月」で、かつ、属性「天気」が欠損していないデータが100件あり、属性「天気」の値が、「晴れ」は70件、「曇り」は60件、「雨」は60件、であったとする。
このことから、ルール生成部11は、属性「天気」と属性「月」との組み合わせから、「属性「月」の値が「2月」の場合、属性「天気」は「晴れ」70%、「曇り」20%、「雨」40%」、という確率分布からなるルールを生成する。このように、ルール生成部11は、組み合わせた属性が共に離散値である場合には、欠損に対応する他の属性の値に対する、補完する属性の値の出現頻度に基づいて、ルールを生成する。
また、上記属性「天気」と属性「気温」との組み合わせでは、まず、属性「天気」の欠損に対応する属性「気温」の値を調べると、図4の点線四角形で囲ったように「6℃」が対応する。このため、この属性「気温」の値「6℃」に対する、属性「天気」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象ではない他の属性「気温」の値が連続値であるため、上記欠損に対応する値「6℃」を含む所定範囲の値を設定して、当該所定範囲の値に対する、補完対象となる属性「天気」の値の出現頻度を調べる。具体的には、他の属性「気温」を階級幅5℃でまとめ、属性「気温」が上記「6℃」を含む「5℃以上10℃未満」の範囲に対する、補完対象の属性「天気」の出現頻度を調べる。
すると、本実施形態のデータでは、属性「気温」が「5℃以上10℃未満」の範囲で、かつ、属性「天気」が欠損していないデータが150件あり、属性「天気」の値が、「晴れ」は30件、「曇り」は60件、「雨」は60件、であったとする。このことから、ルール生成部11は、属性「天気」と属性「気温」との組み合わせから、「属性「気温」の値が「5℃以上10℃未満」の場合、属性「天気」は「晴れ」20%、「曇り」40%、「雨」40%」、という確率分布からなるルールを生成する。
また、上記属性「天気」と属性「湿度」との組み合わせでは、まず、属性「天気」の欠損値に対応する属性「湿度」の値を調べると、図4の点線四角形で囲ったように「43%」が対応する。このため、この属性「湿度」の値「43%」に対する、属性「天気」の欠損値以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象ではない他の属性「湿度」の値が連続値であるため、上記欠損値に対応する値「43%」を含む所定範囲の値を設定して、当該所定範囲の値に対する、補完対象となる属性「天気」の値の出現頻度を調べる。具体的には、他の属性「湿度」を階級幅10%でまとめ、属性「湿度」が上記「43%」を含む「40%以上50%未満」の範囲に対する、補完対象の属性「天気」の出現頻度を調べる。
すると、本実施形態のデータでは、属性「湿度」が「40%以上50%未満」の範囲で、かつ、属性「天気」が欠損していないデータが200件あり、属性「天気」の値が、「晴れ」は120件、「曇り」は75件、「雨」は5件、であったとする。このことから、ルール生成部11は、属性「天気」と属性「湿度」との組み合わせから、「属性「湿度」の値が「40%以上50%未満」の場合、属性「天気」は「晴れ」60%、「曇り」35%、「雨」5%」、という確率分布からなるルールを生成する。
以上のように、ルール生成部11は、図4の2行目に示す属性「天気」の欠損を補完するルールとして、以下の3つのルールを生成する。
(a1)属性「月」が「2月」の場合、属性「天気」は「晴れ」70%、「曇り」20%、「雨」40%
(a2)属性「気温」が「5℃以上10℃未満」の場合、属性「天気」は「晴れ」20%、「曇り」40%、「雨」40%
(a3)属性「湿度」が「40%以上50%未満」の場合、属性「天気」は「晴れ」60%、「曇り」35%、「雨」5%
(a1)属性「月」が「2月」の場合、属性「天気」は「晴れ」70%、「曇り」20%、「雨」40%
(a2)属性「気温」が「5℃以上10℃未満」の場合、属性「天気」は「晴れ」20%、「曇り」40%、「雨」40%
(a3)属性「湿度」が「40%以上50%未満」の場合、属性「天気」は「晴れ」60%、「曇り」35%、「雨」5%
そして、補完値候補生成部12は、上述した3つのルールから、それぞれ属性「天気」の補完値の候補を生成する。例えば、上記3つのルールそれぞれにおいて、確率が最も高い天気の値を補完値の候補とすると、ルール(a1)からは補完値の候補「晴れ」、ルール(a2)からは補完値の候補「曇り」、ルール(a3)からは補完値の候補「晴れ」、といった3つの補完値の候補が生成される。
その後、補完値決定部13は、上記3つのルールから生成された3つの補完値の候補を統合して、属性「天気」の欠損を補完する最終的な補完値を特定する。例えば、補完値の特定は、補完値の候補の数に基づいて行う。この場合、3つのルールのうち、2つから補完値の候補「晴れ」が生成されたため、多数決で補完値を「晴れ」と特定する。但し、補完値の特定は他の方法で行われてもよい。例えば、補完値の候補の平均値としてもよく、補完値の候補に対して属性毎に設定された重み付けを行い、その上で多数決としてもよい。例えば、属性「月」と「湿度」の重みを「1」とし、属性「気温」の重みを「3」とした場合には、上記ルール(a2)から生成された補完値の候補「曇り」が多数決で補完値として特定される。
次に、上述した情報処理装置1による欠損値を補完する処理の具体例として、図5の点線丸印で示す属性「気温」の4行目の欠損を補完する場合を説明する。
はじめに、ルール生成部11は、欠損を有する属性「気温」(特定の属性)と、他の属性と、の組み合わせを設定する。ここでは、属性「気温」と属性「月」、属性「気温」と属性「天気」、属性「気温」と属性「湿度」、の3つの組み合わせを設定する。そして、組み合わせ毎に、それぞれ欠損を補完するルールを生成する。
上記属性「気温」と属性「月」との組み合わせでは、まず、属性「気温」の欠損に対応する属性「月」の値を調べると、図5の点線四角形で囲ったように「2月」が対応する。このため、この属性「月」の値「2月」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象となる属性「気温」の値が連続値であるため、当該属性「気温」の所定範囲の値を設定して、属性「月」の値「2月」に対する、属性「気温」の所定範囲の値の出現頻度を調べる。具体的には、補完対象となる属性「気温」を階級幅5℃でまとめ、当該5℃幅の気温の出現頻度を調べる。
すると、属性「月」の値「2月」に対する、属性「気温」の5℃幅の出現頻度は、図6の上段に示すヒストグラムにて表される。このことから、ルール生成部11は、属性「気温」と属性「月」との組み合わせから、「属性「月」の値が「2月」の場合、属性「気温」の頻度は、図6の上段に示す頻度分布にて表される」というルールを生成する。
また、上記属性「気温」と属性「天気」との組み合わせでは、まず、属性「気温」の欠損値に対応する属性「天気」の値を調べると、図5の点線四角形で囲ったように「曇り」が対応する。このため、この属性「天気」の値「曇り」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性のうち補完対象となる属性「気温」の値が連続値であるため、当該属性「気温」の所定範囲の値を設定して、属性「天気」の値「曇り」に対する、属性「気温」の所定範囲の値の出現頻度を調べる。具体的には、補完対象となる属性「気温」を階級幅5℃でまとめ、当該5℃幅の気温の出現頻度を調べる。
すると、属性「天気」の値「曇り」に対する、属性「気温」の5℃幅の出現頻度は、図6の中段に示すヒストグラムにて表される。このことから、ルール生成部11は、属性「気温」と属性「天気」との組み合わせから、「属性「天気」の値が「曇り」の場合、属性「気温」の頻度は、図6の中段に示す頻度分布にて表される」というルールを生成する。
また、上記属性「気温」と属性「湿度」との組み合わせでは、まず、属性「気温」の欠損値に対応する属性「湿度」の値を調べると、図5の点線四角形で囲ったように「80%」が対応する。このため、この属性「湿度」の値「80%」に対する、属性「気温」の欠損以外の値を調べる。但し、このとき、組み合わせた属性が両方とも連続値であるため、これらの値の散布図を生成する。つまり、組み合わせた2つの属性の値にて形成される平面上に、同一行に位置する両属性の値からなる点をプロットする。このとき、もちろん属性「気温」が欠損のデータは除かれる。
すると、属性「気温」の値と属性「湿度」の値との散布図は、図6の下段に示すように表される。このことから、ルール生成部11は、属性「気温」と属性「湿度」との組み合わせから、「属性「気温」の値と属性「湿度」の値との関係は、図6の下段に示す散布図にて表される」というルールを生成する。
以上のように、ルール生成部11は、図5の4行目に示す属性「気温」の欠損を補完するルールとして、図6の頻度分布や散布図といった3つのグラフでそれぞれ表される3つのルールを生成する。
そして、補完値候補生成部12は、上述した3つのルールから、それぞれ属性「気温」の補完値の候補を生成する。例えば、図6の上段の頻度分布からは、図7の上段の斜線で示すように、属性「気温」の値が最も多い頻度の「5℃以上10℃未満」の範囲を選択し、かかる範囲内の数値から「9℃」を補完値の候補として生成する。なお、ここでは、「5℃以上10℃未満」の範囲から「9℃」をランダムに補完値の候補として選択したが、いかなる方法で補完値の候補を生成してもよい。同様に、図6の中段の頻度分布からは、図7の中段の斜線で示すように、属性「気温」の値が最も多い頻度の「10℃以上15℃未満」の範囲を選択し、かかる範囲内の数値から「16℃」を補完値の候補として生成する。
また、図6の下段の散布図からは、まず、図7の下段に示すように近似直線を算出する。そして、かかる近似直線から、属性「気温」の欠損と同一行の属性「湿度」の値「80℃」に対応する属性「気温」の値「15℃」を選択する。さらに、属性「気温」について、「15℃」を平均とした正規分布を生成し、かかる正規分布に基づいて「14℃」を補完値の候補として生成する。なお、上述した散布図から補完値の候補を生成する方法は、上述した方法に限定されず、いかなる方法であってもよい。
その後、補完値決定部13は、上記3つのルールから生成された3つの補完値の候補を統合して、属性「気温」の欠損値を補完する最終的な補完値を特定する。例えば、補完値の特定は、補完値の候補の平均を算出して行う。この場合、3つのルールにおいて生成された補完値の候補の平均を取ると、「13℃」となり、かかる値を補完値として特定する。但し、補完値の特定は他の方法で行われてもよい。例えば、補完値の候補に対して属性毎に設定された重み付けを行い、その上で平均値としてもよい。例えば、属性「月」の重みを「2」とし、属性「湿度」、「天気」の重みを「1」とした場合には、上記補完値の候補の値から、補完値は「12℃」として特定される。
そして、特定された補完値は、補完値決定部13により図8に示すようにデータの欠損箇所に補完され、データ記憶部15に記憶される。これにより、欠損が補完されたデータを、データ分析に用いることができる。
以上のように、本発明における情報処理装置1は、データの欠損を補完するルールを複数生成し、かかる複数のルールから補完値を生成している。このため、データの欠損を複数の属性間のあらゆる関連性から予測することができ、より適切な補完値を生成することができる。
なお、上記では、1つの欠損を複数のルールから補完する場合を例示したが、複数の欠損をまとめて複数のルールから補完してもよい。例えば、複数の欠損がある場合に、各欠損をそれぞれ補完する少なくとも1つのルールを生成することで全体として複数のルールを生成し、これら複数のルールから複数の欠損を補完してもよい。
<実施形態2>
次に、本発明の第2の実施形態を、図9を参照して説明する。図9は、実施形態2における情報処理装置の構成を示すブロック図である。なお、本実施形態では、実施形態1で説明した情報処理装置の構成の概略を示している。
次に、本発明の第2の実施形態を、図9を参照して説明する。図9は、実施形態2における情報処理装置の構成を示すブロック図である。なお、本実施形態では、実施形態1で説明した情報処理装置の構成の概略を示している。
図9に示すように、本実施形態における情報処理装置100は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成する生成手段110と、
複数の上記ルールに基づいて上記欠損を補完する値を特定する補完手段120と、
を備えている。
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成する生成手段110と、
複数の上記ルールに基づいて上記欠損を補完する値を特定する補完手段120と、
を備えている。
なお、上記生成手段110と補完手段120とは、情報処理装置がプログラムを実行することで実現されるものである。
そして、上記構成の情報処理装置100は、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成し、
複数の上記ルールに基づいて上記欠損を補完する値を特定する、
という処理を実行するよう作動する。
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、当該特定の属性とは異なる他の属性の値と、に基づいて、上記欠損を補完するルールを複数生成し、
複数の上記ルールに基づいて上記欠損を補完する値を特定する、
という処理を実行するよう作動する。
上記発明によると、データの欠損を補完するルールを複数の属性の値から複数生成し、かかる複数のルールから補完値を生成している。このため、データの欠損を属性間の関連性を表す複数のルールから予測することができ、より適切な補完値を生成することができる。
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明における情報処理装置、情報処理方法、プログラムの構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた情報処理装置。
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた情報処理装置。
(付記2)
付記1に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
付記1に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
(付記3)
付記2に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理装置。
付記2に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理装置。
(付記4)
付記2又は3に記載の情報処理装置であって、
前記生成手段は、
前記特定の属性の値と、前記他の属性である第1の属性の値と、に基づく、前記所定の欠損を補完する第1の前記ルールと、
前記特定の属性の値と、前記特定の属性及び前記第1の属性とは異なる前記他の属性である第2の属性の値と、に基づく、前記所定の欠損を補完する第2の前記ルールと、
を含む少なくとも2以上の前記ルールを生成する、
情報処理装置。
付記2又は3に記載の情報処理装置であって、
前記生成手段は、
前記特定の属性の値と、前記他の属性である第1の属性の値と、に基づく、前記所定の欠損を補完する第1の前記ルールと、
前記特定の属性の値と、前記特定の属性及び前記第1の属性とは異なる前記他の属性である第2の属性の値と、に基づく、前記所定の欠損を補完する第2の前記ルールと、
を含む少なくとも2以上の前記ルールを生成する、
情報処理装置。
(付記5)
付記2乃至4のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
付記2乃至4のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
(付記6)
付記5に記載の情報処理装置であって、
前記生成手段は、前記他の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値を含む所定範囲の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
付記5に記載の情報処理装置であって、
前記生成手段は、前記他の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値を含む所定範囲の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
(付記6.1)
付記5又は6に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の所定範囲の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
付記5又は6に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の所定範囲の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。
(付記7)
付記5乃至6.1のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と前記他の属性の値とが連続値である場合に、前記特定の属性の前記所定の欠損を除いた値と、前記特定の属性の前記所定の欠損を除いた値に対応する前記他の属性の値と、の散布図に基づいて、前記ルールを生成する、
情報処理装置。
付記5乃至6.1のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と前記他の属性の値とが連続値である場合に、前記特定の属性の前記所定の欠損を除いた値と、前記特定の属性の前記所定の欠損を除いた値に対応する前記他の属性の値と、の散布図に基づいて、前記ルールを生成する、
情報処理装置。
(付記8)
付記2乃至7のいずれかに記載の情報処理装置であって、
前記補完手段は、複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
付記2乃至7のいずれかに記載の情報処理装置であって、
前記補完手段は、複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。
(付記9)
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
複数の前記ルールに基づいて前記欠損を補完する値を特定する、
情報処理方法。
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
複数の前記ルールに基づいて前記欠損を補完する値を特定する、
情報処理方法。
(付記9.1)
付記9に記載の情報処理方法であって、
前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
付記9に記載の情報処理方法であって、
前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
(付記9.2)
付記9.1に記載の情報処理方法であって、
前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理方法。
付記9.1に記載の情報処理方法であって、
前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理方法。
(付記9.3)
付記9.1又は9.2に記載の情報処理方法であって、
複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
付記9.1又は9.2に記載の情報処理方法であって、
複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。
(付記10)
情報処理装置に、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させるためのプログラム。
情報処理装置に、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させるためのプログラム。
なお、上述したプログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
なお、本発明は、日本国にて2018年3月7日に特許出願された特願2018-040991の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
10 情報処理装置
11 ルール生成部
12 補完値候補生成部
13 補完値決定部
15 データ記憶部
100 情報処理装置
110 生成手段
120 補完手段
11 ルール生成部
12 補完値候補生成部
13 補完値決定部
15 データ記憶部
100 情報処理装置
110 生成手段
120 補完手段
Claims (14)
- 複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を備えた情報処理装置。 - 請求項1に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
前記補完手段は、複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。 - 請求項2に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理装置。 - 請求項2又は3に記載の情報処理装置であって、
前記生成手段は、
前記特定の属性の値と、前記他の属性である第1の属性の値と、に基づく、前記所定の欠損を補完する第1の前記ルールと、
前記特定の属性の値と、前記特定の属性及び前記第1の属性とは異なる前記他の属性である第2の属性の値と、に基づく、前記所定の欠損を補完する第2の前記ルールと、
を含む少なくとも2以上の前記ルールを生成する、
情報処理装置。 - 請求項2乃至4のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。 - 請求項5に記載の情報処理装置であって、
前記生成手段は、前記他の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値を含む所定範囲の値に対する、前記特定の属性の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。 - 請求項5又は6に記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値が連続値である場合に、前記特定の属性の前記所定の欠損に対応する前記他の属性の値に対する、前記特定の属性の所定範囲の値の出現頻度に基づいて、前記ルールを生成する、
情報処理装置。 - 請求項5乃至7のいずれかに記載の情報処理装置であって、
前記生成手段は、前記特定の属性の値と前記他の属性の値とが連続値である場合に、前記特定の属性の前記所定の欠損を除いた値と、前記特定の属性の前記所定の欠損を除いた値に対応する前記他の属性の値と、の散布図に基づいて、前記ルールを生成する、
情報処理装置。 - 請求項2乃至8のいずれかに記載の情報処理装置であって、
前記補完手段は、複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理装置。 - 複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成し、
複数の前記ルールに基づいて前記欠損を補完する値を特定する、
情報処理方法。 - 請求項10に記載の情報処理方法であって、
前記特定の属性の所定の前記欠損を補完する複数の前記ルールを生成し、
複数の前記ルールに基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。 - 請求項11に記載の情報処理方法であって、
前記特定の属性の値と、前記他の属性の値と、の組み合わせを形成する際に、前記特定の属性の値と組み合わせる前記他の属性をそれぞれ異なる属性に変えて複数の組み合わせを形成し、当該複数の組み合わせのそれぞれに基づいて前記所定の欠損を補完する前記ルールを生成することで、複数の前記ルールを生成する、
情報処理方法。 - 請求項11又は12に記載の情報処理方法であって、
複数の前記ルールのそれぞれに基づいて前記特定の属性の前記所定の欠損を補完する値の候補をそれぞれ生成し、当該複数の候補に基づいて前記特定の属性の前記所定の欠損を補完する値を特定する、
情報処理方法。 - 情報処理装置に、
複数の属性からなるデータのうち、欠損を含む特定の属性の値と、前記特定の属性とは異なる他の属性の値と、に基づいて、前記欠損を補完するルールを複数生成する生成手段と、
複数の前記ルールに基づいて前記欠損を補完する値を特定する補完手段と、
を実現させるためのプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/977,891 US20210042636A1 (en) | 2018-03-07 | 2019-02-25 | Information processing apparatus, information processing method, and program |
JP2020504927A JP7010363B2 (ja) | 2018-03-07 | 2019-02-25 | 情報処理装置、情報処理方法、プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-040991 | 2018-03-07 | ||
JP2018040991 | 2018-03-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2019171992A1 true WO2019171992A1 (ja) | 2019-09-12 |
Family
ID=67846266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/006957 WO2019171992A1 (ja) | 2018-03-07 | 2019-02-25 | 情報処理装置、情報処理方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210042636A1 (ja) |
JP (1) | JP7010363B2 (ja) |
WO (1) | WO2019171992A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021144294A (ja) * | 2020-03-10 | 2021-09-24 | 株式会社日立製作所 | データ補完システム、およびデータ補完方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816400A (ja) * | 1994-06-29 | 1996-01-19 | Toshiba Corp | 事例推論支援装置 |
US6047287A (en) * | 1998-05-05 | 2000-04-04 | Justsystem Pittsburgh Research Center | Iterated K-nearest neighbor method and article of manufacture for filling in missing values |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8140421B1 (en) * | 2008-01-09 | 2012-03-20 | Zillow, Inc. | Automatically determining a current value for a home |
CN104516879B (zh) * | 2013-09-26 | 2019-09-13 | Sap欧洲公司 | 用于管理含有具有缺失值的记录的数据库的方法和系统 |
US10394631B2 (en) * | 2017-09-18 | 2019-08-27 | Callidus Software, Inc. | Anomaly detection and automated analysis using weighted directed graphs |
-
2019
- 2019-02-25 JP JP2020504927A patent/JP7010363B2/ja active Active
- 2019-02-25 US US16/977,891 patent/US20210042636A1/en active Pending
- 2019-02-25 WO PCT/JP2019/006957 patent/WO2019171992A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0816400A (ja) * | 1994-06-29 | 1996-01-19 | Toshiba Corp | 事例推論支援装置 |
US6047287A (en) * | 1998-05-05 | 2000-04-04 | Justsystem Pittsburgh Research Center | Iterated K-nearest neighbor method and article of manufacture for filling in missing values |
Non-Patent Citations (1)
Title |
---|
KIKUCHI, YUUI ET AL.: "An Estimating Method for Missing Data by Using Multiple Self- Organizing Maps", TRANSACTIONS OF THE JAPAN SOCIETY OF MECHANICAL ENGINEERS. C, vol. 79, no. 806, 2013, pages 3465 - 3473, XP055636358, ISSN: 1884-8354 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021144294A (ja) * | 2020-03-10 | 2021-09-24 | 株式会社日立製作所 | データ補完システム、およびデータ補完方法 |
JP7384713B2 (ja) | 2020-03-10 | 2023-11-21 | 株式会社日立製作所 | データ補完システム、およびデータ補完方法 |
Also Published As
Publication number | Publication date |
---|---|
JP7010363B2 (ja) | 2022-01-26 |
US20210042636A1 (en) | 2021-02-11 |
JPWO2019171992A1 (ja) | 2021-02-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109242135B (zh) | 一种模型运营方法、装置、及业务服务器 | |
CN108573355B (zh) | 模型更新后替换运行的方法、装置、及业务服务器 | |
KR102258942B1 (ko) | 인라인 수율 모니터링을 위한 임계 파라메트릭 전기 테스트 파라미터의 자동 결정을 위한 시스템 및 방법 | |
CN113657465A (zh) | 预训练模型的生成方法、装置、电子设备和存储介质 | |
CN108733508A (zh) | 用于控制数据备份的方法和系统 | |
CN108171379A (zh) | 一种用电负荷预测方法 | |
US20230194624A1 (en) | Battery management system for classifying a battery module | |
US20200111174A1 (en) | Probabilistic Load Forecasting via Point Forecast Feature Integration | |
JP2017010436A (ja) | 誤差幅推定装置、誤差幅推定システム、誤差幅推定方法及びプログラム | |
CN111222994A (zh) | 客户风险评估方法、装置、介质和电子设备 | |
CN110969200A (zh) | 基于一致性负样本的图像目标检测模型训练方法及装置 | |
CN112565422B (zh) | 一种对电力物联网故障数据的识别方法、系统和存储介质 | |
KR20200103193A (ko) | 심층 구조를 이용한 전력 수요 예측 방법 및 장치 | |
US20210012247A1 (en) | Information processing apparatus, information processing method, and program | |
CN114219306A (zh) | 用于建立焊接质量检测模型的方法、设备、介质及程序产品 | |
CN113763364A (zh) | 一种基于卷积神经网络的图像缺陷检测方法 | |
WO2019171992A1 (ja) | 情報処理装置、情報処理方法、プログラム | |
Kothapalli et al. | Predicting Buy and Sell Signals for Stocks using Bollinger Bands and MACD with the Help of Machine Learning | |
CN113012088A (zh) | 一种电路板故障检测及孪生网络的训练方法、装置和设备 | |
JP7052877B2 (ja) | 情報処理装置、情報処理方法、プログラム | |
CN113988558A (zh) | 基于盲区识别和电气坐标系扩展的电网动态安全评估方法 | |
CN114281932A (zh) | 工单质检模型的训练方法、装置、设备及存储介质 | |
CN117541841A (zh) | 一种曲线形态识别的通用基础模型构建方法 | |
US20220129764A1 (en) | Anomaly detection apparatus, anomaly detection method, and computer-readable medium | |
CN114372689B (zh) | 一种基于动态规划的路网运行特征变点识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19763155 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2020504927 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19763155 Country of ref document: EP Kind code of ref document: A1 |