WO2022190384A1 - 特徴量選択プログラム、装置、及び方法 - Google Patents

特徴量選択プログラム、装置、及び方法 Download PDF

Info

Publication number
WO2022190384A1
WO2022190384A1 PCT/JP2021/010196 JP2021010196W WO2022190384A1 WO 2022190384 A1 WO2022190384 A1 WO 2022190384A1 JP 2021010196 W JP2021010196 W JP 2021010196W WO 2022190384 A1 WO2022190384 A1 WO 2022190384A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature amount
feature
concept
hypotheses
selection
Prior art date
Application number
PCT/JP2021/010196
Other languages
English (en)
French (fr)
Inventor
貴三郎 福田
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to EP21930234.6A priority Critical patent/EP4307184A4/en
Priority to PCT/JP2021/010196 priority patent/WO2022190384A1/ja
Priority to JP2023505066A priority patent/JPWO2022190384A1/ja
Priority to CN202180095326.5A priority patent/CN117321611A/zh
Publication of WO2022190384A1 publication Critical patent/WO2022190384A1/ja
Priority to US18/461,265 priority patent/US20230409377A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/045Explanation of inference; Explainable artificial intelligence [XAI]; Interpretable artificial intelligence

Definitions

  • the disclosed technology relates to a feature quantity selection program, a feature quantity selection device, and a feature quantity selection method.
  • explainable AI Artificial Intelligence
  • feature quantities explanatory variables
  • a technology has been proposed that selects feature values to be used in the model from among many feature values. .
  • the selected feature amount is not necessarily a feature amount that improves the interpretability of the model output. There is a problem.
  • the disclosed technology aims to select feature quantities that improve the interpretability of model output.
  • the technology disclosed identifies feature amounts of a higher concept, which is a lower concept of the feature amounts included in the feature amount set.
  • the disclosed technique is a hypothesis expressed by a combination of at least one or more feature amounts including the feature amount of the subordinate concept, and a plurality of hypotheses each having different feature amounts of the subordinate concept, for the objective variable It is determined whether success or failure satisfies a predetermined condition.
  • the technology disclosed herein selects the feature amount of the broader concept as the feature amount to be added to the feature amount set when a predetermined condition is satisfied.
  • it has the effect of being able to select feature quantities that improve the interpretability of the model's output.
  • FIG. 10 is a diagram for explaining a range for cutting out a feature amount from a knowledge graph;
  • FIG. FIG. 4 is a diagram showing a set of triples included in the knowledge graph; It is a figure which shows an example of learning data.
  • It is a functional block diagram of a feature selection device. It is an example of learning data to which a feature amount of a higher concept is added. It is a figure which shows an example of upper-lower-order correspondence TB.
  • FIG. 10 is a diagram for explaining selection of a feature amount of a higher concept; It is a figure which shows an example of a rule set.
  • 2 is a block diagram showing a schematic configuration of a computer functioning as a feature selection device;
  • FIG. 6 is a flowchart showing an example of feature amount selection processing
  • FIG. 11 is a diagram for explaining another example of conditions for selecting a feature amount of a broader concept
  • FIG. 11 is a diagram for explaining another example of conditions for selecting a feature amount of a broader concept
  • FIG. 10 is a diagram showing an example of a knowledge graph for explaining another example of construction of learning data
  • FIG. 10 is a diagram showing another example of learning data
  • graph format data such as a knowledge graph composed of nodes corresponding to feature values and edges connecting the nodes with attributes indicating the relationship between the features (hereafter simply referred to as "
  • a feature amount is selected from a graph.
  • FIG. 1 shows an example of a graph representing part of the data related to the above question "whether or not a certain professional baseball player wins the title".
  • elliptical circles represent nodes
  • values (character strings) within nodes represent feature values
  • arrows connecting nodes represent edges
  • values (character strings) written together with edges represent attributes.
  • a graph is a set of triples represented by three elements: an edge and a node on the starting point side and a node on the ending point side connected by the edge.
  • FIG. 1 shows an example of triples represented by three elements: an edge and a node on the starting point side and a node on the ending point side connected by the edge.
  • the first column is the value of the feature amount corresponding to the node on the starting point side of the edge (first node)
  • the second column is the attribute of the edge
  • the third column is the node on the ending point side of the edge (second node). node).
  • the feature amount of the first node is represented by the attribute of the edge and the value of the feature amount of the second node.
  • the graph can extend in many layers in the depth direction and in many columns in the width direction, so it is possible that the graph contains a huge amount of features. Therefore, it is not realistic to select all feature values included in the graph. Therefore, it is necessary to cut the graph in an arbitrary range as the range for selecting the feature amount.
  • a simple method for cutting a graph in an arbitrary range as shown in the dashed line in Fig. 1, a node corresponding to a specific feature value and a feature value range corresponding to a node directly connected by an edge can be cut off. That is, a set of triples whose elements are nodes corresponding to specific feature values is specified.
  • the value of the specific feature amount is the value of the feature amount of player names such as "professional baseball player A” and "professional baseball player B".
  • learning data as shown in FIG. 3 is constructed from the clipped range of the graph.
  • "joined team” and “hometown” are explanatory variables
  • "title” is an objective variable.
  • an explanation such as “If you are from Hiroshima, Okayama, Tottori, Shimane, or Yamaguchi, and you join team X, it is easier to win the title” is obtained as the output of the model. Such explanations are redundant and the interpretability of the model output is not good. Note that the data for the home prefectures of Tottori, Shimane, and Yamaguchi are not shown in FIG.
  • Attributes associated with edges included in the graph also include attributes indicating higher-level and lower-level conceptual relationships between features. Utilizing this, as indicated by the dashed-dotted line in FIG. 1, the feature quantity of the higher concept of the previously selected feature quantity is specified.
  • the attributes including "part of” included in FIG. 1 are an example of attributes indicating the conceptual relationship between higher and lower levels. For example, the triple node “Hiroshima Prefecture” – edge “part of” – node “Chugoku region” is “Hiroshima prefecture is a part of Chugoku region”, that is, Hiroshima prefecture is a lower concept and Chugoku region is a higher concept.
  • AIC is an index represented by the sum of a logarithmic likelihood term indicating the likelihood of a model generated from the selected feature amount and a term indicating the number of selected feature amounts.
  • the log-likelihood term of AIC may be smaller when each feature value of the subordinate concept is selected. have a nature.
  • the AIC itself may also be smaller than in the case of selecting the feature amount of the higher concept. In such a case, the decision to select the feature amount of the higher concept is not made. However, even in the latter case, we would like to leave the possibility of selecting the feature quantity of the higher concept.
  • the feature quantity selection device 10 functionally includes a learning data construction unit 12, a specification unit 14, a selection unit 16, and a generation unit 18. Also, in a predetermined storage area of the feature selection device 10, a knowledge graph 20 and a TB (table) 22 corresponding to upper and lower levels are stored.
  • the knowledge graph 20 is, as shown in FIG. 4 is a graph showing data to be inferred by.
  • the learning data constructing unit 12 acquires feature amounts included in a specific range cut from the knowledge graph 20 as a feature amount set.
  • the learning data constructing unit 12 constructs learning data using the feature amounts included in the feature amount set.
  • the learning data constructing unit 12 includes, in the knowledge graph 20, nodes corresponding to specific feature value values and edges directly connected to the nodes, as indicated by broken lines in FIG. Cut a range that includes and contains nodes.
  • the value of the specific feature amount is the value of the feature amount "player name" such as "professional baseball player A" and "professional baseball player B".
  • the learning data constructing unit 12 collects a set of triples included in the cut range graph (for example, FIG. 2) for each triple containing a specific feature value as an element, and generates learning data as shown in FIG. to build.
  • the learning data constructing unit 12 extracts triples containing “professional baseball player A” as an element for professional baseball player A, and extracts attributes associated with edges included in the extracted triples as feature values. be the item name of Also, the learning data constructing unit 12 sets the value of the feature amount corresponding to the other node included in the extracted triple as the value corresponding to the item name of the feature amount. Note that a combination of the item name of the feature amount and the value of the feature amount is an example of the feature amount of the technology disclosed herein.
  • the learning data construction unit 12 stores the item and value of the feature amount of the added superordinate concept in the learning data.
  • Add FIG. 5 shows an example of the learning data shown in FIG. 3 to which the feature amount of the higher concept is added. In FIG. 5, the portion indicated by the dashed line is the feature amount of the higher concept added.
  • the identifying unit 14 identifies the feature amount of the superordinate concept, which is the subordinate concept of the feature amount included in the feature amount set acquired by the learning data constructing unit 12 . Specifically, for each feature amount included in the feature amount set, the specifying unit 14 connects a node corresponding to the value of the feature amount with an edge associated with an attribute indicating a higher-level and lower-level conceptual relationship. Determine whether the node exists. If the corresponding node exists, the identifying unit 14 identifies the feature quantity corresponding to that node as the feature quantity of the higher concept.
  • the attribute containing "part of” is an example of an attribute that indicates the conceptual relationship of higher and lower levels. Therefore, from the relationship between the nodes connected by the edges associated with the attribute "part of", the identifying unit 14 determines that the feature value "hometown-Hiroshima prefecture" is the lower-level concept, the feature of the higher-level concept Specify the quantity "Region - Chugoku Region”. Similarly, the specifying unit 14 specifies the feature quantity “region-Chugoku region” of the superordinate concept, which is the subordinate concept of the feature quantity “hometown-Okayama prefecture”. The identifying unit 14 stores the identified feature amount of the higher concept in association with the feature amount of the lower concept in, for example, a higher/lower level correspondence TB 22 as shown in FIG.
  • the selection unit 16 selects a plurality of hypotheses expressed by a combination of at least one or more feature amounts including the feature amounts of the lower-level concepts, each having different feature amounts of the lower-level concepts, with a predetermined success or failure with respect to the objective variable. Determine whether the conditions are met. When the success or failure of the hypothesis satisfies a predetermined condition, the selection unit 16 selects the feature amount of the higher concept as the feature amount to be added to the feature amount set.
  • the selection unit 16 selects the feature quantity of the superordinate concept. determine whether or not For example, the selection unit 16 extracts the feature quantity of the lower concept associated with the feature quantity of the higher concept for each feature quantity of the higher concept stored in the higher-lower correspondence TB 22 .
  • the feature amount of the superordinate concept is x super
  • the feature amount of the subordinate concept is x sub
  • the feature amount other than the subordinate concept included in the feature amount set is x nonsub .
  • the value of the feature quantity x * is v, it is expressed as x * -v.
  • the feature amount of the subordinate concept of x super -i is x sub -j 1 , x sub -j 2 , . number).
  • the selection unit 16 determines that the hypothesis holds that the condition x super ⁇ i and x nonsub ⁇ a affects the objective variable y, and selects x super .
  • x super is “region”, i is “Chugoku region”, x sub is “home prefecture”, j 1 is “Hiroshima prefecture”, j n is “Okayama prefecture”, x nonsub is the "joining team” and a is the "team X”.
  • the hypotheses that include the feature values of the subordinate concepts are hypotheses that a professional baseball player whose home prefecture is Hiroshima Prefecture and whose joining team is Team X is likely to win a title, . . .
  • it is hypothesized that a professional baseball player who joins team X will easily win a title.
  • the selection unit 16 determines that the hypothesis holds that a professional baseball player from the Chugoku region who joins team X is likely to win a title. . Then, the selection unit 16 selects the feature amount “region-Chugoku region” of the superordinate concept as the feature amount to be added to the feature amount set.
  • x super is “region”, i is “Tohoku region”, x sub is “home prefecture”, j 1 is “Aomori prefecture”, ..., j n is “Fukushima prefecture”, x " nonsub " is “joining team”, and "a” is "team Y”.
  • a professional baseball player whose home prefecture is Aomori Prefecture and whose joining team is Team Y, which is a hypothesis including the feature value of the subordinate concept, is likely to win the title.
  • the selection unit 16 determines that the hypothesis that a professional baseball player who is from the Tohoku region and joins team Y is likely to win a title is not valid, and the superordinate concept feature value "region - Tohoku region". are not selected as features to be added to the feature set.
  • the selection unit 16 calculates the effect of each hypothesis on the objective variable in order to test each of the above hypotheses. For example, if the target variable is a binary classification problem, the ratio of the number of learning data that are positive examples to the target variable (hereinafter referred to as the "number of positive examples") to the number of learning data, and the number of all positive examples
  • the impact may be calculated, such as by a t-test based on the proportion of positive cases for each hypothesis. Influence may also be calculated using explainable AI techniques such as, for example, WideLearning (see references 1 and 2).
  • Reference 1 JP-A-2020-46888
  • Reference 2 Hiroaki Iwashita, Takuya Takagi, Hirofumi Suzuki, Keisuke Goto, Kotaro Ohori, Hiroki Arimura, "Efficient Constrained Pattern Mining Using Dynamic Item Ordering for Explainable Classification", arXiv:2004.08015 , https://arxiv.org/abs/2004.08015
  • the importance is a value that increases as the number of positive examples increases.
  • the selection unit 16 determines that the hypothesis that the condition affects the objective variable holds true.
  • the generation unit 18 associates a condition expressed by a combination of at least one feature quantity included in the feature quantity set to which the selected superordinate concept feature quantity is added, and an objective variable that holds under the condition. Generate the attached rule. For example, the generation unit 18 can use WideLearning described in the selection unit 16 to generate rules. Specifically, as described above, the generation unit 18 calculates the degree of importance for each condition represented by an exhaustive combination of feature amounts, Generate a set of rules using each of the conditions.
  • the generation unit 18 assigns to each rule included in the rule set an index according to the number of positive examples of the learning data corresponding to the conditions included in the rule, and outputs the rule set.
  • FIG. 8 shows an example of an output rule set.
  • the example of FIG. 8 shows an example in which the number of positive examples is given as an index for each condition under which a certain objective variable is established.
  • the index is not limited to the number of positive cases that meet the conditions, but may be the ratio of the number of positive cases that meet the conditions to the total number of positive cases.
  • the selection unit 16 uses WideLearning to generate and test hypotheses
  • the generation unit 18 uses the hypotheses generated by the selection unit 16 and the calculated importance of each condition. may be used to generate a rule set and an index for each rule.
  • the rule set is used in explainable AI, and the correctness of the inference target data with respect to the objective variable is output as an inference result according to the degree of compatibility between the inference target data and the rule set.
  • the rule to which the data to be inferred matches is the explanation that indicates the basis of the inference result.
  • the feature quantity of the higher concept is added without replacing the feature quantity of the lower concept included in the original set of feature quantities. For this reason, an increase in the amount of information may result in redundant explanations and a decrease in the interpretability of the output of the model. Therefore, as described above, the generation unit assigns an index corresponding to the number of positive examples to each rule, so that rules with higher importance can be checked with priority by sorting in order of index.
  • a rule including a feature amount of a higher concept includes a rule including a feature amount of a lower concept for the feature amount of a higher concept, so the number of positive examples is larger than that of a rule including a feature amount of a lower concept. Therefore, by sorting in order of index, it is possible to preferentially confirm rules that include feature amounts of higher concepts.
  • the feature quantity selection device 10 can be realized, for example, by a computer 40 shown in FIG.
  • the computer 40 includes a CPU (Central Processing Unit) 41 , a memory 42 as a temporary storage area, and a non-volatile storage section 43 .
  • the computer 40 also includes an input/output device 44 such as an input unit and a display unit, and an R/W (Read/Write) unit 45 that controls reading and writing of data to and from a storage medium 49 .
  • the computer 40 also has a communication I/F (Interface) 46 connected to a network such as the Internet.
  • the CPU 41 , memory 42 , storage unit 43 , input/output device 44 , R/W unit 45 and communication I/F 46 are connected to each other via bus 47 .
  • the storage unit 43 can be implemented by a HDD (Hard Disk Drive), SSD (Solid State Drive), flash memory, or the like.
  • a feature amount selection program 50 for causing the computer 40 to function as the feature amount selection device 10 is stored in the storage unit 43 as a storage medium.
  • the feature quantity selection program 50 has a learning data construction process 52 , a specification process 54 , a selection process 56 and a generation process 58 .
  • the storage unit 43 also has an information storage area 60 in which information forming each of the knowledge graph 20 and the upper/lower correspondence TB 22 is stored.
  • the CPU 41 reads the feature amount selection program 50 from the storage unit 43, develops it in the memory 42, and sequentially executes the processes of the feature amount selection program 50.
  • the CPU 41 operates as the learning data construction unit 12 shown in FIG. 4 by executing the learning data construction process 52 . Further, the CPU 41 operates as the specifying unit 14 shown in FIG. 4 by executing the specifying process 54 . Further, the CPU 41 operates as the selection unit 16 shown in FIG. 4 by executing the selection process 56 . Further, the CPU 41 operates as the generation unit 18 shown in FIG. 4 by executing the generation process 58 . Further, the CPU 41 reads information from the information storage area 60 and develops each of the knowledge graph 20 and the upper/lower correspondence TB 22 in the memory 42 . As a result, the computer 40 executing the feature quantity selection program 50 functions as the feature quantity selection device 10 . Note that the CPU 41 that executes the program is hardware.
  • the function realized by the feature quantity selection program 50 can also be realized by, for example, a semiconductor integrated circuit, more specifically an ASIC (Application Specific Integrated Circuit) or the like.
  • the feature quantity selection device 10 executes the feature quantity selection process shown in FIG. Note that the feature amount selection process is an example of the feature amount selection method of the technology disclosed herein.
  • step S12 the learning data constructing unit 12 cuts out from the knowledge graph 20 a range that includes the node corresponding to the value of the specific feature amount and the nodes that are directly connected to the node by an edge. Then, the learning data constructing unit 12 acquires a set of feature amounts included in the cut range, and builds learning data from the acquired set of feature amounts.
  • step S14 for each feature amount included in the feature amount set acquired in step S12, the specifying unit 14 determines that the node corresponding to the value of the feature amount has an attribute indicating a higher-order and lower-order conceptual relationship. Determine whether there is a node connected by the associated edge. If the corresponding node exists, the identifying unit 14 identifies the feature quantity corresponding to the node as the feature quantity of the higher concept. Then, the specifying unit 14 associates the feature quantity of the specified superordinate concept with the feature quantity of the subordinate concept, and stores them in the superordinate/lower order correspondence TB 22 .
  • step S16 the selection unit 16 extracts the feature amount of the lower concept associated with the feature amount of the higher concept for each feature amount of the higher concept stored in the upper/lower correspondence TB 22 . Then, if the hypothesis that the condition including the feature amount of the lower-level concept affects the objective variable holds for all the conditions including the feature amount of the lower-level concept, the selection unit 16 selects the feature amount of the lower-level concept. Select the feature value of the superordinate concept and add it to the feature value set. In addition, the learning data constructing unit 12 adds the items and values of the feature amount of the added broader concept to the learning data constructed in step S12.
  • step S18 the generation unit 18 generates a condition represented by a combination of at least one feature amount included in the feature amount set to which the selected broader concept feature amount is added, and under the condition, A rule is generated in association with objective variables that are established.
  • step S20 the generation unit 18 assigns to each rule included in the rule set an index according to the number of positive examples of learning data corresponding to the conditions included in the rule, and outputs the rule set. , the feature quantity selection process ends.
  • the feature amount selection device identifies feature amounts of a higher-level concept with the feature amounts included in the feature amount set as lower-level concepts. Then, the feature amount selection device selects a plurality of hypotheses expressed by a combination of at least one feature amount including the feature amount of the subordinate concept, wherein each hypothesis has different feature amounts of the subordinate concept. satisfies a predetermined condition. When a predetermined condition is satisfied, the feature amount selection device selects the feature amount of the higher concept as the feature amount to be added to the feature amount set. Thereby, the feature quantity selection device can select a feature quantity that improves the interpretability of the output of the model.
  • the feature values of the higher concept corresponding to the feature values of the lower concept are selected.
  • a predetermined ratio for example, 0.8
  • the corresponding feature of the higher concept is selected. You may do so.
  • FIG. 11 since four hypotheses out of five hypotheses including the feature amount of the lower concept are established, it is determined that the hypothesis in which the feature amount of the lower concept is replaced with the feature amount of the higher concept also holds.
  • the feature amount of the higher concept thereof may be selected. This takes into consideration the bias in the number of learning data that correspond to each hypothesis. For example, it is determined that the hypothesis holds when the percentage of positive cases under each condition is equal to or greater than a predetermined value (for example, 0.8). As shown in FIG.
  • the number of cases in parentheses written together with each hypothesis is "the number of positive examples of the condition/the number of learning data corresponding to the condition".
  • the present invention is not limited to this. Presence or absence of a specific attribute and the number of specific attributes may be used as the feature quantity. Also, data cleaning processing or the like may be performed on learning data constructed from these feature amounts.
  • FIG. 13 shows a portion of the knowledge graph relating to professional baseball player C.
  • the learning data construction unit sets a value (for example, 1) indicating TRUE as a feature indicating the presence or absence of the specific attribute. Extract as quantity.
  • the learning data construction unit sets a value indicating FALSE (for example, 0) to indicate the presence or absence of the specific attribute.
  • the learning data constructing unit extracts the number of triples having a specific attribute as an element, which is included in the set of triples forming the knowledge graph, as a feature amount indicating the number of specific attributes.
  • the upper diagram of FIG. 14 shows an example of learning data constructed from the knowledge graph shown in FIG. In the example of FIG. 14, the specific attribute is inside the " " of the item name of the feature amount.
  • the lower diagram of FIG. 14 shows learning data after data cleaning processing, deletion of feature amounts not used for hypotheses, and addition of superordinate concept feature amounts.
  • the presence or absence of "prefecture of origin”, the number of "prefecture of origin”, the presence or absence of "height”, the number of "height”, and the presence or absence of "biography” are deleted by cleaning the data, and "height"
  • the value of indicates an example deleted as a feature quantity that is not used in the hypothesis.
  • the lower diagram of FIG. 14 shows an example in which "local area” is added as a feature amount of the superordinate concept of "home prefecture".
  • the present invention is not limited to this.
  • the program according to the technology disclosed herein can also be provided in a form stored in a storage medium such as a CD-ROM, DVD-ROM, USB memory, or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

特徴量選択装置は、ナレッジグラフから取得した特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定する。また、特徴量選択装置は、下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される条件が目的変数に影響するという仮説であって、下位概念の特徴量が各々異なる複数の仮説が全て成立する場合、下位概念の特徴量を上位概念の特徴量に置き換えた仮説も成立するとみなし、特定した上位概念の特徴量を特徴量集合に追加する特徴量として選択する。下位概念の特徴量を含む仮説に不成立の仮説が存在する場合には、下位概念の特徴量を上位概念の特徴量に置き換えた仮説は不成立とみなし、特定した上位概念の特徴量は選択しない。

Description

特徴量選択プログラム、装置、及び方法
 開示の技術は、特徴量選択プログラム、特徴量選択装置、及び特徴量選択方法に関する。
 機械学習により生成されたモデルの出力に対する根拠も提示可能な、いわゆる説明可能なAI(Artificial Intelligence)という技術が存在する。説明可能なAIでは、例えば、モデルの出力への寄与度の高い特徴量(説明変数)が特定される。また、モデルによる推論精度の向上や、上記の説明可能なAIにおける根拠の確度の向上等のために、多くの特徴量の中から、モデルで使用する特徴量を選択する技術も提案されている。
 例えば、赤池情報量規準(AIC:Akaike's Information Criterion)等の統計モデルを評価するための指標を用いて、モデルで使用する特徴量を選択する技術が提案されている。
H. Akaike, "Information theory and an extension of the maximum likelihood principle", 2nd International Symposium on Information Theory, 267-281, 1973. R. Miyashiro, Y. Takano, "Mixed Integer Second‐Order Cone Programming Formulations for Variable Selection in Linear Regression", European Journal of Operational Research, Volume 247, Issue 3, pp. 721‐731, 2015.
 しかしながら、上記のAICのような指標が示す評価が高くなるように特徴量を選択したとしても、選択された特徴量が必ずしもモデルの出力の解釈性を向上させる特徴量であるとは限らない、という問題がある。
 一つの側面として、開示の技術は、モデルの出力の解釈性を向上させる特徴量を選択することを目的とする。
 一つの態様として、開示の技術は、特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定する。また、開示の技術は、前記下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される仮説であって、前記下位概念の特徴量が各々異なる複数の仮説の、目的変数に対する成否が所定の条件を満たすか否かを判定する。開示の技術は、所定の条件を満たす場合に、前記上位概念の特徴量を前記特徴量集合に追加する特徴量として選択する。
 一つの側面として、モデルの出力の解釈性を向上させる特徴量を選択することができる、という効果を有する。
ナレッジグラフから特徴量を切り取る範囲を説明するための図である。 ナレッジグラフに含まれるトリプルの集合を示す図である。 学習データの一例を示す図である。 特徴量選択装置の機能ブロック図である。 上位概念の特徴量が追加された学習データの一例である。 上位下位対応TBの一例を示す図である。 上位概念の特徴量の選択を説明するための図である。 ルール集合の一例を示す図である。 特徴量選択装置として機能するコンピュータの概略構成を示すブロック図である。 特徴量選択処理の一例を示すフローチャートである。 上位概念の特徴量を選択するための条件の他の例を説明するための図である。 上位概念の特徴量を選択するための条件の他の例を説明するための図である。 学習データの構築の他の例を説明するためのナレッジグラフの一例を示す図である。 学習データの他の例を示す図である。
 以下、図面を参照して、開示の技術に係る実施形態の一例を説明する。
 まず、実施形態の詳細を説明する前に、説明可能AIにおけるモデルの出力の解釈性について説明する。
 例えば、あるプロ野球選手がタイトルを獲得するか否かを推論するモデルを用いた説明可能AIを考える。この場合、例えば、ドラフト1位の選手はタイトルを獲得し易い、入団チームが球団X、右投げ、かつ広島県出身の選手はタイトルを獲得し易い等の解釈が可能な説明が得られることが望ましい。上記の説明では、「ドラフト1位」、「入団チームが球団X」、「右投げ」、及び「広島県出身」が特徴量である。このような、「タイトルを獲得するか否か」という目的変数に影響する特徴量がモデルに使用される。
 また、特徴量の値に対応するノードと、特徴量間の関係を示す属性が対応付けられた、ノード間を接続するエッジとで構成されたナレッジグラフ等のグラフ形式のデータ(以下、単に「グラフ」ともいう)から特徴量を選択する場合を考える。図1に、上記の「あるプロ野球選手がタイトルを獲得するか否か」という問題に関連するデータの一部を表すグラフの一例を示す。図1では、楕円の丸がノード、ノード内の値(文字列)が特徴量の値、ノード間を接続する矢印がエッジ、エッジに併記された値(文字列)が属性を表している。また、グラフは、エッジと、そのエッジで接続された始点側のノード及び終点側のノードの3つの要素で表されるトリプルの集合である。図2に、図1のグラフに含まれるトリプルの集合を示す。図2の例では、1列目がエッジの始点側のノード(第1ノード)に対応する特徴量の値、2列目がエッジの属性、3列目がエッジの終点側のノード(第2ノード)に対応する特徴量の値である。このトリプルでは、第1ノードについての特徴量が、エッジの属性及び第2ノードの特徴量の値で表されている。
 グラフは、ノードとエッジとの繋がりに応じて、深さ方向に何層も、幅方向に何列も広がり得るため、グラフ内に膨大な特徴量を含む可能性がある。そのため、グラフに含まれる特徴量の全てを選択することは現実的ではない。そこで、特徴量を選択する範囲として、グラフを任意の範囲で切り取る必要がある。グラフを任意の範囲で切り取るシンプルな手法としては、図1の破線部に示すように、特定の特徴量の値に対応するノードと、直接エッジで接続されているノードに対応する特徴量の範囲を切り取ることが考えられる。すなわち、特定の特徴量の値に対応するノードを要素とするトリプルの集合を特定する。ここでは、特定の特徴量の値は、「プロ野球選手A」、「プロ野球選手B」等の選手名の特徴量の値である。この場合、切り取ったグラフの範囲から、図3に示すような学習データが構築される。図3において、「入団チーム」及び「出身県」が説明変数、「タイトル」が目的変数である。この場合、「出身県が広島県、岡山県、鳥取県、島根県、又は山口県、かつ入団チームが球団Xの場合にタイトルを獲得し易い」のような説明がモデルの出力として得られる。このような説明は冗長的で、モデルの出力の解釈性が良いとはいえない。なお、出身県が鳥取県、島根県、又は山口県のデータは、図1において図示を省略している。
 そこで、上位下位概念を考慮して特徴量を選択することを考える。グラフに含まれるエッジに対応付けられた属性には、特徴量間の上位下位の概念関係を示す属性も含まれる。これを利用して、図1の一点鎖線部に示すように、先に選択されている特徴量の上位概念の特徴量を特定する。なお、図1に含まれる「part of」を含む属性は、上位下位の概念関係を示す属性の一例である。例えば、ノード「広島県」-エッジ「地方(part of)」-ノード「中国地方」のトリプルは、「広島県 is a part of 中国地方」、すなわち、広島県が下位概念、中国地方が上位概念の関係であることを表す。この上位概念の特徴量を、モデルに使用する特徴量として選択した場合、「中国地方出身、かつ入団チームが球団Xの場合にタイトルを獲得し易い」のような説明をモデルから出力可能である。この場合、図1の破線部の特徴量のみを使用した場合の説明に比べ、説明の冗長性が抑制され、モデルの出力の解釈性が向上する。
 上記のような上位概念の特徴量を、モデルに使用する特徴量として選択するか否かの基準として、上述したAICを用いることが考えられる。AICは、選択された特徴量により生成されたモデルの尤もらしさを示す対数尤度の項と、選択された特徴量の数を示す項との和で表される指標である。具体的には、下位概念の特徴量をそれぞれ選択した場合よりも、上位概念の特徴量を選択した場合の方が、AICが低い場合に、その上位概念の特徴量を選択するような手法が考えられる。
 ここで、下位概念の特徴量のそれぞれについての、目的変数に対する正例割合のばらつきが小さい場合には、上位概念の特徴量を選択した場合と、下位概念の特徴量をそれぞれ選択した場合とで、AICの対数尤度の項に大きな差はない。したがって、下位概念の特徴量をそれぞれ選択した場合よりも、上位概念の特徴量を選択した場合の方が、特徴量の数が少ないため、AICが低くなる。これにより、上位概念の特徴量を選択するという判定を行うことができる。一方、下位概念の特徴量のそれぞれについての、目的変数に対する正例割合のばらつきが大きい場合には、下位概念の特徴量をそれぞれ選択した場合の方がAICの対数尤度の項が小さくなる可能性がある。この場合、AIC自体も上位概念の特徴量を選択する場合よりも小さくなる可能性がある。このような場合には、上位概念の特徴量を選択するという判定はなされない。しかし、後者のような場合でも、上位概念の特徴量を選択する可能性を残したい。
 そこで、本実施形態では、上記とは異なる手法により、上位概念の特徴量を、モデルで使用する特徴量として選択するか否かを判定する。以下、本実施形態について詳述する。
 図4に示すように、特徴量選択装置10は、機能的には、学習データ構築部12と、特定部14と、選択部16と、生成部18とを含む。また、特徴量選択装置10の所定の記憶領域には、ナレッジグラフ20と、上位下位対応TB(table)22とが記憶される。
 ナレッジグラフ20は、図1に示すように、特徴量の値に対応するノードと、上位下位の関係を含むノード間の関係を示す属性が対応付けられたエッジとを含むグラフであって、モデルによる推論対象のデータを表すグラフである。
 学習データ構築部12は、ナレッジグラフ20から切り取った特定の範囲に含まれる特徴量を特徴量集合として取得する。学習データ構築部12は、特徴量集合に含まれる特徴量を用いて、学習データを構築する。例えば、学習データ構築部12は、上述したように、ナレッジグラフ20において、図1の破線部に示すように、特定の特徴量の値に対応するノードと、そのノードにエッジで直接接続されているノードとを含む範囲を切り取る。図1の例では、特定の特徴量の値は、「プロ野球選手A」、「プロ野球選手B」等の特徴量「選手名」の値である。学習データ構築部12は、切り取った範囲のグラフに含まれるトリプルの集合(例えば、図2)を、特定の特徴量の値を要素に含むトリプル毎にまとめて、図3に示すような学習データを構築する。
 より具体的には、学習データ構築部12は、プロ野球選手Aについて、「プロ野球選手A」を要素に含むトリプルを抽出し、抽出したトリプルに含まれるエッジに対応付けられた属性を特徴量の項目名とする。また、学習データ構築部12は、抽出したトリプルに含まれるもう一方のノードに対応する特徴量の値を、上記の特徴量の項目名に対応する値とする。なお、特徴量の項目名と特徴量の値との組み合わせが、開示の技術の特徴量の一例である。
 また、学習データ構築部12は、後述する選択部16により、上位概念の特徴量が選択され、特徴量集合に追加された場合、学習データに、追加された上位概念の特徴量の項目及び値を追加する。図3に示す学習データに、上位概念の特徴量が追加された例を図5に示す。図5において、破線で示す部分が追加された上位概念の特徴量である。
 特定部14は、学習データ構築部12により取得された特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定する。具体的には、特定部14は、特徴量集合に含まれる各特徴量について、その特徴量の値に対応するノードに、上位下位の概念関係を示す属性が対応付けられたエッジで接続されるノードが存在するか否かを判定する。該当のノードが存在する場合、特定部14は、そのノードに対応する特徴量を、上位概念の特徴量として特定する。
 例えば、図1の例では、「part of」を含む属性は、上位下位の概念関係を示す属性の一例である。したがって、特定部14は、属性「地方(part of)」が対応付けられたエッジで接続されたノード間の関係から、特徴量「出身県-広島県」を下位概念とする、上位概念の特徴量「地方-中国地方」を特定する。同様に、特定部14は、特徴量「出身県-岡山県」を下位概念する、上位概念の特徴量「地方-中国地方」を特定する。特定部14は、特定した上位概念の特徴量を、例えば図6に示すような上位下位対応TB22に、下位概念の特徴量と対応付けて記憶する。
 選択部16は、下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される仮説であって、下位概念の特徴量が各々異なる複数の仮説の、目的変数に対する成否が所定の条件を満たすか否かを判定する。選択部16は、仮説の成否が所定の条件を満たす場合に、上位概念の特徴量を特徴量集合に加える特徴量として選択する。
 具体的には、「ある上位概念を構成する下位概念全てにおいて同一条件で成立する仮説は上位概念でも同一条件で成立する」という考えに基づき、選択部16は、上位概念の特徴量を選択するか否か決定する。例えば、選択部16は、上位下位対応TB22に記憶された上位概念の特徴量毎に、その上位概念の特徴量に対応付けられた下位概念の特徴量を抽出する。以下、上位概念の特徴量をxsuper、下位概念の特徴量をxsub、特徴量集合に含まれる下位概念以外の特徴量をxnonsubとする。また、特徴量xの値がvの場合、x-vと表記する。
 例えば、xsuper-iの下位概念の特徴量が、xsub-j、xsub-j、・・・、xsub-j(nはxsuper-iについての下位概念の特徴量の個数)であるとする。xsub-jかつ任意のxnonsub-aという条件が、目的変数yに影響するという仮説が全てのk(k=1,2,・・・,n)において成立するとする。この場合、選択部16は、xsuper-iかつxnonsub-aという条件が、目的変数yに影響するという仮説が成立すると判定し、xsuperを選択する。
 図7を参照して、具体例で説明する。図7上図では、xsuperが「地方」、iが「中国地方」、xsubが「出身県」、jが「広島県」、・・・、jが「岡山県」、xnonsubが「入団チーム」、aが「球団X」である。この場合において、下位概念の特徴量を含む仮説は、出身県が広島県、かつ入団チームが球団Xのプロ野球選手は、タイトルを獲得し易いという仮説、・・・、出身県が岡山県、かつ入団チームが球団Xのプロ野球選手は、タイトルを獲得し易いという仮説である。これらの下位概念の特徴量を含む仮説の全てが成立する場合、選択部16は、中国地方出身、かつ入団チームが球団Xのプロ野球選手は、タイトルを獲得し易いという仮説が成立すると判定する。そして、選択部16は、上位概念の特徴量「地方-中国地方」を特徴量集合に追加する特徴量として選択する。
 また、図7下図では、xsuperが「地方」、iが「東北地方」、xsubが「出身県」、jが「青森県」、・・・、jが「福島県」、xnonsubが「入団チーム」、aが「球団Y」である。この場合において、下位概念の特徴量を含む仮説である、出身県が青森県、かつ入団チームが球団Yのプロ野球選手は、タイトルを獲得し易いという仮説は成立するものとする。一方、出身県が福島県、かつ入団チームが球団Yのプロ野球選手は、タイトルを獲得し易いという仮説は不成立であるとする。この場合、選択部16は、東北地方出身、かつ入団チームが球団Yのプロ野球選手は、タイトルを獲得し易いという仮説は不成立であると判定し、上位概念の特徴量「地方-東北地方」は、特徴量集合に追加する特徴量として選択しない。
 選択部16は、上記の各仮説を検定するために、仮説毎に目的変数に対する影響を計算する。例えば、目的変数が2値分類問題であれば、学習データ数に対する、目的変数に対して正例となる学習データの数(以下、「正例数」という)の割合と、全正例数に対する各仮説の正例数の割合とに基づくt検定等により、影響を計算してよい。また、例えば、WideLearning(参考文献1及び2参照)等の説明可能AIの手法を使用して影響を計算してもよい。
参考文献1:特開2020-46888号公報
参考文献2:Hiroaki Iwashita, Takuya Takagi, Hirofumi Suzuki, Keisuke Goto, Kotaro Ohori, Hiroki Arimura, "Efficient Constrained Pattern Mining Using Dynamic Item Ordering for Explainable Classification", arXiv:2004.08015, https://arxiv.org/abs/2004.08015
 WideLearningを使用する場合、選択部16は、特徴量集合に含まれる特徴量の網羅的な組み合わせで表現される条件を生成する。また、選択部16は、上位下位対応TB22に同一の上位概念の特徴量に対応付けて記憶されている、各々異なる下位概念の特徴量のそれぞれを含む条件であって、条件同士で他の特徴量が同一の条件の集合を、生成した条件から抽出する。すなわち、抽出される下位概念の特徴量を含む条件の集合は、上記のxsub-j(k=1,2,・・・,n)かつxnonsub-aである。そして、選択部16は、各条件の下での正例数に基づく重要度を条件毎に計算する。重要度は、正例数が多いほど高くなる値である。選択部16は、各条件に該当する学習データの数に対する、条件毎の正例数の割合が所定値以上の場合に、その条件が目的変数に影響するという仮説が成立すると判定する。
 生成部18は、選択された上位概念の特徴量が追加された特徴量集合に含まれる少なくとも1以上の特徴量の組み合わせで表現される条件と、その条件の下で成立する目的変数とを対応付けたルールを生成する。例えば、生成部18は、選択部16で説明したWideLearningを使用して、ルールを生成することができる。具体的には、上述したように、生成部18は、特徴量の網羅的な組み合わせで表現される条件毎に重要度を計算し、重要度が所定値以上の条件、又は重要度が上位所定個の条件の各々を用いてルール集合を生成する。
 また、生成部18は、ルール集合に含まれるルールの各々に、ルールに含まれる条件に該当する学習データの正例数に応じた指標を付与して、ルール集合を出力する。図8に、出力されるルール集合の一例を示す。図8の例では、ある目的変数が成立する条件毎に、指標として正例数を付与した例を示している。なお、指標は、その条件に該当する正例数自体に限らず、全正例数のうち、その条件に該当する正例数の割合等であってもよい。また、選択部16において、WideLearningを使用して仮説の生成及び検定を行っている場合は、生成部18は、選択部16で生成された仮説、及び計算された条件毎の重要度を流用して、ルール集合及び各ルールの指標を生成してもよい。
 ここで、ルール集合は、説明可能AIにおいて使用されるものであり、推論対象のデータとルール集合との適合度に応じて、推論対象のデータの目的変数に対する正否が推論結果として出力される。この際、推論対象のデータが適合したルールが、推論結果の根拠を示す説明となる。本実施形態では、当初の特徴量集合に含まれる下位概念の特徴量を置き換えることなく、上位概念の特徴量を追加している。このため、情報量が増加することにより、説明が冗長となり、モデルの出力の解釈性が低下する可能性がある。そこで、上述のように、生成部が正例数に応じた指標をルール毎に付与することで、指標順にソートするなどして、より重要度の高いルールを優先的に確認することができる。上位概念の特徴量を含むルールは、その上位概念の特徴量に対する下位概念の特徴量を含むルールを包含するものであるため、下位概念の特徴量を含むルールよりも正例数は多くなる。したがって、指標順にソートすることで、上位概念の特徴量を含むルールを優先的に確認することができる。
 特徴量選択装置10は、例えば図9に示すコンピュータ40で実現することができる。コンピュータ40は、CPU(Central Processing Unit)41と、一時記憶領域としてのメモリ42と、不揮発性の記憶部43とを備える。また、コンピュータ40は、入力部、表示部等の入出力装置44と、記憶媒体49に対するデータの読み込み及び書き込みを制御するR/W(Read/Write)部45とを備える。また、コンピュータ40は、インターネット等のネットワークに接続される通信I/F(Interface)46を備える。CPU41、メモリ42、記憶部43、入出力装置44、R/W部45、及び通信I/F46は、バス47を介して互いに接続される。
 記憶部43は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等によって実現できる。記憶媒体としての記憶部43には、コンピュータ40を、特徴量選択装置10として機能させるための特徴量選択プログラム50が記憶される。特徴量選択プログラム50は、学習データ構築プロセス52と、特定プロセス54と、選択プロセス56と、生成プロセス58とを有する。また、記憶部43は、ナレッジグラフ20及び上位下位対応TB22の各々を構成する情報が記憶される情報記憶領域60を有する。
 CPU41は、特徴量選択プログラム50を記憶部43から読み出してメモリ42に展開し、特徴量選択プログラム50が有するプロセスを順次実行する。CPU41は、学習データ構築プロセス52を実行することで、図4に示す学習データ構築部12として動作する。また、CPU41は、特定プロセス54を実行することで、図4に示す特定部14として動作する。また、CPU41は、選択プロセス56を実行することで、図4に示す選択部16として動作する。また、CPU41は、生成プロセス58を実行することで、図4に示す生成部18として動作する。また、CPU41は、情報記憶領域60から情報を読み出して、ナレッジグラフ20及び上位下位対応TB22の各々をメモリ42に展開する。これにより、特徴量選択プログラム50を実行したコンピュータ40が、特徴量選択装置10として機能することになる。なお、プログラムを実行するCPU41はハードウェアである。
 なお、特徴量選択プログラム50により実現される機能は、例えば半導体集積回路、より詳しくはASIC(Application Specific Integrated Circuit)等で実現することも可能である。
 次に、本実施形態に係る特徴量選択装置10の作用について説明する。特徴量選択装置10では、図10に示す特徴量選択処理が実行される。なお、特徴量選択処理は、開示の技術の特徴量選択方法の一例である。
 ステップS12で、学習データ構築部12が、ナレッジグラフ20から、特定の特徴量の値に対応するノードと、そのノードにエッジで直接接続されているノードとを含む範囲を切り取る。そして、学習データ構築部12が、切り取った範囲に含まれる特徴量集合を取得し、取得した特徴量集合から学習データを構築する。
 次に、ステップS14で、特定部14が、上記ステップS12で取得された特徴量集合に含まれる各特徴量について、その特徴量の値に対応するノードに、上位下位の概念関係を示す属性が対応付けられたエッジで接続されるノードが存在するか否かを判定する。特定部14は、該当のノードが存在する場合、そのノードに対応する特徴量を、上位概念の特徴量として特定する。そして、特定部14が、特定した上位概念の特徴量を下位概念の特徴量と対応付けて、上位下位対応TB22に記憶する。
 次に、ステップS16で、選択部16が、上位下位対応TB22に記憶された上位概念の特徴量毎に、その上位概念の特徴量に対応付けられた下位概念の特徴量を抽出する。そして、選択部16が、下位概念の特徴量を含む条件が目的変数に影響するという仮説が、下位概念の特徴量を含む条件の全てにおいて成立する場合に、その下位概念の特徴量に対応する上位概念の特徴量を選択し、特徴量集合に追加する。また、学習データ構築部12が、上記ステップS12で構築した学習データに、追加された上位概念の特徴量の項目及び値を追加する。
 次に、ステップS18で、生成部18が、選択された上位概念の特徴量が追加された特徴量集合に含まれる少なくとも1以上の特徴量の組み合わせで表現される条件と、その条件の下で成立する目的変数とを対応付けたルールを生成する。
 次に、ステップS20で、生成部18は、ルール集合に含まれるルールの各々に、ルールに含まれる条件に該当する学習データの正例数に応じた指標を付与して、ルール集合を出力し、特徴量選択処理は終了する。
 以上説明したように、本実施形態に係る特徴量選択装置は、特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定する。そして、特徴量選択装置は、下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される仮説であって、下位概念の特徴量が各々異なる複数の仮説の、目的変数に対する成否が所定の条件を満たすか否かを判定する。所定の条件を満たす場合には、特徴量選択装置は、上位概念の特徴量を特徴量集合に追加する特徴量として選択する。これにより、特徴量選択装置は、モデルの出力の解釈性を向上させる特徴量を選択することができる。
 なお、上記実施形態では、下位概念の特徴量をそれぞれ含む条件の全てが目的変数に影響するとの仮定が成立する場合に、その下位概念の特徴量に対応する上位概念の特徴量を選択する場合について説明したが、これに限定されない。例えば、図11に示すように、下位概念の特徴量を含む複数の仮説のうち、所定割合(例えば、0.8)以上の仮説が成立する場合に、対応する上位概念の特徴量を選択するようにしてもよい。図11の例では、下位概念の特徴量を含む5つの仮説のうち、4つの仮説が成立しているため、下位概念の特徴量を上位概念の特徴量に置き換えた仮説も成立すると判定している。
 また、下位概念の特徴量を含む仮説のうち、所定割合(例えば、0.8)以上の仮説が成立すると共に、下位概念の特徴量を上位概念の特徴量に置き換えた仮説も成立する場合に、その上位概念の特徴量を選択するようにしてもよい。これは、各仮説に該当する学習データの数の偏りを考慮したものである。例えば、各条件における正例割合が所定値(例えば、0.8)以上の場合に仮説が成立すると判定するものとする。図12に示すように、下位概念の特徴量を含む5つの仮説のうち、4つの仮説が成立しているとしても、不成立の仮説の条件に該当する学習データの数が多い場合には、下位概念の特徴量を上位概念の特徴量に置き換えた仮説は不成立となる。このような場合には、上位概念の特徴量は選択しないようにしてもよい。なお、図12において、各仮説に併記したかっこ書きの件数は、「その条件の正例数/条件に該当する学習データの数」である。
 また、上記実施形態では、元のデータであるナレッジグラフに含まれる特定の属性の値を特徴量とする場合について説明したが、これに限定されない。特徴量として、特定の属性の有無、及び特定の属性の個数を用いてもよい。また、これらの特徴量から構築した学習データに対して、データのクリーニング処理等を行ってもよい。
 図13のナレッジグラフを用いて、具体的に説明する。図13は、ナレッジグラフにおける、プロ野球選手Cに関する部分である。学習データ構築部は、ナレッジグラフを構成するトリプルの集合に、特定の属性を要素とするトリプルが含まれる場合には、TRUEを示す値(例えば、1)を、特定の属性の有無を示す特徴量として抽出する。また、学習データ構築部は、ナレッジグラフを構成するトリプルの集合に、特定の属性を要素とするトリプルが含まれる場合には、FALSEを示す値(例えば、0)を、特定の属性の有無を示す特徴量として抽出する。また、学習データ構築部は、ナレッジグラフを構成するトリプルの集合に含まれる、特定の属性を要素とするトリプルの数を、特定の属性の個数を示す特徴量として抽出する。図14上図に、図13に示すナレッジグラフから構築される学習データの一例を示す。図14の例では、特徴量の項目名の「 」内が、特定の属性である。
 また、図14上図に示すような学習データに対するデータのクリーニング処理として、全学習データで同一の値となる特徴量を削除してもよい。また、選択部による仮説の生成及び検定において、仮説に利用されない特徴量も削除してよい。図14下図に、データのクリーニング処理、仮説に利用されない特徴量の削除、及び上位概念の特徴量の追加後の学習データを示す。図14下図では、「出身県」の有無、「出身県」の個数、「身長」の有無、「身長」の個数、及び「経歴」の有無は、データのクリーニング処理により削除され、「身長」の値は、仮説に利用されない特徴量として削除された例を示している。さらに、図14下図では、「出身県」の上位概念の特徴量として、「地方」が追加された例を示している。
 また、上記実施形態では、特徴量選択プログラムが記憶部に予め記憶(インストール)されている態様を説明したが、これに限定されない。開示の技術に係るプログラムは、CD-ROM、DVD-ROM、USBメモリ等の記憶媒体に記憶された形態で提供することも可能である。
10   特徴量選択装置
12   学習データ構築部
14   特定部
16   選択部
18   生成部
20   ナレッジグラフ
22   上位下位対応TB
40   コンピュータ
41   CPU
42   メモリ
43   記憶部
49   記憶媒体
50   特徴量選択プログラム

Claims (20)

  1.  特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定し、
     前記下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される仮説であって、前記下位概念の特徴量が各々異なる複数の仮説の、目的変数に対する成否が所定の条件を満たす場合に、前記上位概念の特徴量を前記特徴量集合に追加する特徴量として選択する
     ことを含む処理をコンピュータに実行させるための特徴量選択プログラム。
  2.  前記所定の条件は、前記複数の仮説のうち、所定割合以上の仮説が成立する場合である請求項1に記載の特徴量選択プログラム。
  3.  前記所定の条件は、前記複数の仮説のうち、所定割合以上の仮説が成立すると共に、前記下位概念の特徴量を前記上位概念の特徴量に置き換えた仮説が成立する場合である請求項1に記載の特徴量選択プログラム。
  4.  前記上位概念の特徴量を特定する処理は、特徴量の値に対応するノードと、上位下位の関係を含むノード間の関係を示す属性が対応付けられたエッジとを含むグラフにおいて、前記特徴量集合に含まれる特徴量の値に対応するノードに、前記上位下位の関係を示す属性が対応付けられたエッジで接続されるノードに対応する特徴量を特定することを含む請求項1~請求項3のいずれか1項に記載の特徴量選択プログラム。
  5.  前記特徴量集合は、前記グラフにおいて、特定の特徴量の値に対応するノードと前記エッジで直接接続されるノードに対応する特徴量である請求項4に記載の特徴量選択プログラム。
  6.  選択された前記上位概念の特徴量が追加された前記特徴量集合に含まれる少なくとも1以上の特徴量の組み合わせで表現される条件と、前記条件の下で成立する目的変数とを対応付けたルールの集合を生成することをさらに含む処理を前記コンピュータに実行させるための請求項1~請求項5のいずれか1項に記載の特徴量選択プログラム。
  7.  前記ルールの集合に含まれるルールの各々に、前記ルールに含まれる条件に該当するデータであって、前記目的変数に対する正例となるデータの数に応じた指標を付与して出力することをさらに含む処理を前記コンピュータに実行させるための請求項6に記載の特徴量選択プログラム。
  8.  特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定する特定部と、
     前記下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される仮説であって、前記下位概念の特徴量が各々異なる複数の仮説の、目的変数に対する成否が所定の条件を満たす場合に、前記上位概念の特徴量を前記特徴量集合に追加する特徴量として選択する選択部と、
     を含む特徴量選択装置。
  9.  前記所定の条件は、前記複数の仮説のうち、所定割合以上の仮説が成立する場合である請求項8に記載の特徴量選択装置。
  10.  前記所定の条件は、前記複数の仮説のうち、所定割合以上の仮説が成立すると共に、前記下位概念の特徴量を前記上位概念の特徴量に置き換えた仮説が成立する場合である請求項8に記載の特徴量選択装置。
  11.  前記特定部は、特徴量の値に対応するノードと、上位下位の関係を含むノード間の関係を示す属性が対応付けられたエッジとを含むグラフにおいて、前記特徴量集合に含まれる特徴量の値に対応するノードに、前記上位下位の関係を示す属性が対応付けられたエッジで接続されるノードに対応する特徴量を特定することを含む請求項8~請求項10のいずれか1項に記載の特徴量選択装置。
  12.  前記特徴量集合は、前記グラフにおいて、特定の特徴量の値に対応するノードと前記エッジで直接接続されるノードに対応する特徴量である請求項11に記載の特徴量選択装置。
  13.  選択された前記上位概念の特徴量が追加された前記特徴量集合に含まれる少なくとも1以上の特徴量の組み合わせで表現される条件と、前記条件の下で成立する目的変数とを対応付けたルールの集合を生成する生成部をさらに含む請求項8~請求項12のいずれか1項に記載の特徴量選択装置。
  14.  前記生成部は、前記ルールの集合に含まれるルールの各々に、前記ルールに含まれる条件に該当するデータであって、前記目的変数に対する正例となるデータの数に応じた指標を付与して出力する請求項13に記載の特徴量選択装置。
  15.  特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定し、
     前記下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される仮説であって、前記下位概念の特徴量が各々異なる複数の仮説の、目的変数に対する成否が所定の条件を満たす場合に、前記上位概念の特徴量を前記特徴量集合に追加する特徴量として選択する
     ことを含む処理をコンピュータが実行するための特徴量選択方法。
  16.  前記所定の条件は、前記複数の仮説のうち、所定割合以上の仮説が成立する場合である請求項15に記載の特徴量選択方法。
  17.  前記所定の条件は、前記複数の仮説のうち、所定割合以上の仮説が成立すると共に、前記下位概念の特徴量を前記上位概念の特徴量に置き換えた仮説が成立する場合である請求項15に記載の特徴量選択方法。
  18.  前記上位概念の特徴量を特定する処理は、特徴量の値に対応するノードと、上位下位の関係を含むノード間の関係を示す属性が対応付けられたエッジとを含むグラフにおいて、前記特徴量集合に含まれる特徴量の値に対応するノードに、前記上位下位の関係を示す属性が対応付けられたエッジで接続されるノードに対応する特徴量を特定することを含む請求項15~請求項17のいずれか1項に記載の特徴量選択方法。
  19.  前記特徴量集合は、前記グラフにおいて、特定の特徴量の値に対応するノードと前記エッジで直接接続されるノードに対応する特徴量である請求項18に記載の特徴量選択方法。
  20.  特徴量集合に含まれる特徴量を下位概念とする上位概念の特徴量を特定し、
     前記下位概念の特徴量を含む、少なくとも1以上の特徴量の組み合わせで表現される仮説であって、前記下位概念の特徴量が各々異なる複数の仮説の、目的変数に対する成否が所定の条件を満たす場合に、前記上位概念の特徴量を前記特徴量集合に追加する特徴量として選択する
     ことを含む処理をコンピュータに実行させるための特徴量選択プログラムを記憶した記憶媒体。
PCT/JP2021/010196 2021-03-12 2021-03-12 特徴量選択プログラム、装置、及び方法 WO2022190384A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP21930234.6A EP4307184A4 (en) 2021-03-12 2021-03-12 PROGRAM, DEVICE AND METHOD FOR FEATURE SELECTION
PCT/JP2021/010196 WO2022190384A1 (ja) 2021-03-12 2021-03-12 特徴量選択プログラム、装置、及び方法
JP2023505066A JPWO2022190384A1 (ja) 2021-03-12 2021-03-12
CN202180095326.5A CN117321611A (zh) 2021-03-12 2021-03-12 特征量选择程序、装置以及方法
US18/461,265 US20230409377A1 (en) 2021-03-12 2023-09-05 Feature selection program, feature selection device, and feature selection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/010196 WO2022190384A1 (ja) 2021-03-12 2021-03-12 特徴量選択プログラム、装置、及び方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/461,265 Continuation US20230409377A1 (en) 2021-03-12 2023-09-05 Feature selection program, feature selection device, and feature selection method

Publications (1)

Publication Number Publication Date
WO2022190384A1 true WO2022190384A1 (ja) 2022-09-15

Family

ID=83227672

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/010196 WO2022190384A1 (ja) 2021-03-12 2021-03-12 特徴量選択プログラム、装置、及び方法

Country Status (5)

Country Link
US (1) US20230409377A1 (ja)
EP (1) EP4307184A4 (ja)
JP (1) JPWO2022190384A1 (ja)
CN (1) CN117321611A (ja)
WO (1) WO2022190384A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170105867A1 (en) * 2015-10-16 2017-04-20 Hung-Nan Hsieh Remotely Operated Snore-Stopping Pillow
JP2017146869A (ja) * 2016-02-19 2017-08-24 富士ゼロックス株式会社 情報検索プログラム及び情報検索装置
JP2017174022A (ja) * 2016-03-22 2017-09-28 株式会社日立製作所 目的変数に対応する説明変数群を決定するシステム及び方法
US20190138806A1 (en) * 2017-11-03 2019-05-09 Tata Consultancy Services Limited Signal analysis systems and methods for features extraction and interpretation thereof
WO2020053934A1 (ja) * 2018-09-10 2020-03-19 三菱電機株式会社 モデルパラメタ推定装置、状態推定システムおよびモデルパラメタ推定方法
JP2020046888A (ja) 2018-09-18 2020-03-26 富士通株式会社 学習プログラム、予測プログラム、学習方法、予測方法、学習装置および予測装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170105867A1 (en) * 2015-10-16 2017-04-20 Hung-Nan Hsieh Remotely Operated Snore-Stopping Pillow
JP2017146869A (ja) * 2016-02-19 2017-08-24 富士ゼロックス株式会社 情報検索プログラム及び情報検索装置
JP2017174022A (ja) * 2016-03-22 2017-09-28 株式会社日立製作所 目的変数に対応する説明変数群を決定するシステム及び方法
US20190138806A1 (en) * 2017-11-03 2019-05-09 Tata Consultancy Services Limited Signal analysis systems and methods for features extraction and interpretation thereof
WO2020053934A1 (ja) * 2018-09-10 2020-03-19 三菱電機株式会社 モデルパラメタ推定装置、状態推定システムおよびモデルパラメタ推定方法
JP2020046888A (ja) 2018-09-18 2020-03-26 富士通株式会社 学習プログラム、予測プログラム、学習方法、予測方法、学習装置および予測装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
H. AKAIKE: "Information theory and an extension of the maximum likelihood principle", 2ND INTERNATIONAL SYMPOSIUM ON INFORMATION THEORY, 1973, pages 267 - 281
HIROAKI IWASHITATAKUYA TAKAGIHIROFUMI SUZUKIKEISUKE GOTOKOTARO OHORIHIROKI ARIMURA: "Efficient Constrained Pattern Mining Using Dynamic Item Ordering for Explainable Classification", ARXIV:2004.08015, Retrieved from the Internet <URL:https://arxiv.org/abs/2004.08015>
R. MIYASHIROY. TAKANO: "Mixed Integer Second-Order Cone Programming Formulations for Variable Selection in Linear Regression", EUROPEAN JOURNAL OF OPERATIONAL RESEARCH, vol. 247, 2015, pages 721 - 731
See also references of EP4307184A4
SUZUMURA, SHINYA ET AL.: "Modified Bonferroni method for Selective Inference", IEICE TECHNICAL REPORT, vol. 116 (PRMU2016-59), no. 209 (IBISML2016-14), 13 October 2016 (2016-10-13), pages 39 - 45, XP009549313, ISSN: 0913-5685 *

Also Published As

Publication number Publication date
CN117321611A (zh) 2023-12-29
JPWO2022190384A1 (ja) 2022-09-15
EP4307184A4 (en) 2024-05-01
EP4307184A1 (en) 2024-01-17
US20230409377A1 (en) 2023-12-21

Similar Documents

Publication Publication Date Title
JP4863778B2 (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP5159713B2 (ja) システムの構成要素の設計アーキテクチャを自動設計する自動設計装置、自動設計方法及び自動設計プログラム
US8943084B2 (en) Method, program, and system for converting part of graph data to data structure as an image of homomorphism
JP2022502744A (ja) コード分類のためのハイブリッド機械学習モデル
JP4479908B2 (ja) データソート処理プログラム、データソート処理方法およびデータソート処理装置
JPWO2017090114A1 (ja) データ処理システム及びデータ処理方法
JP2010128583A (ja) テスト容易化設計装置ならびにその方法およびプログラム
WO2022190384A1 (ja) 特徴量選択プログラム、装置、及び方法
JP7199203B2 (ja) ゲームプログラムを検査するためのシステム、方法、プログラム、機械学習支援装置、及びデータ構造
Capra et al. Towards evolving petri nets: a symmetric nets-based framework
CN116663491B (zh) 基于bdd求解功能覆盖组条件约束语句的方法、设备和介质
Sayed Ahmed On notions of representability for cylindric‐polyadic algebras, and a solution to the finitizability problem for quantifier logics with equality
Čermák et al. Combining incremental strategy generation and branch and bound search for computing maxmin strategies in imperfect recall games
Bartlett et al. New progressive variable ordering for binary decision diagram analysis of fault trees
JP6511793B2 (ja) テストケース生成プログラム、テストケース生成方法及びテストケース生成装置
JP2022188894A (ja) 相関ルール生成プログラム、装置、及び方法
Chevrette G-LINK: a probabilistic record linkage system
KR102007126B1 (ko) 결손된 운영 데이터의 복원 방법 및 복원 장치
JP4073303B2 (ja) プログラム分割方法とそれを実施するプログラム
Richerby et al. Graph searching in a crime wave
EP2856396A2 (en) Buildable part pairs in an unconfigured product structure
CN106294127A (zh) 基于聚类的面向对象软件测试用例生成方法
Locodi et al. Introducing a graph topology for robust cooperation
Fatemi et al. Rating and generating Sudoku puzzles based on constraint satisfaction problems
CN110782006A (zh) 一种基于交叉生成复杂神经网络的方法及系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21930234

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023505066

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 202180095326.5

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2021930234

Country of ref document: EP

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021930234

Country of ref document: EP

Effective date: 20231012