WO2015186278A1 - 属性列挙システム、属性列挙方法および属性列挙プログラム - Google Patents

属性列挙システム、属性列挙方法および属性列挙プログラム Download PDF

Info

Publication number
WO2015186278A1
WO2015186278A1 PCT/JP2015/000682 JP2015000682W WO2015186278A1 WO 2015186278 A1 WO2015186278 A1 WO 2015186278A1 JP 2015000682 W JP2015000682 W JP 2015000682W WO 2015186278 A1 WO2015186278 A1 WO 2015186278A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute
enumeration
logical expression
generated
plan
Prior art date
Application number
PCT/JP2015/000682
Other languages
English (en)
French (fr)
Inventor
幸貴 楠村
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US15/316,075 priority Critical patent/US10740677B2/en
Priority to JP2016525668A priority patent/JP6500896B2/ja
Publication of WO2015186278A1 publication Critical patent/WO2015186278A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Definitions

  • the present invention relates to an attribute enumeration system, an attribute enumeration method, and an attribute enumeration program for enumerating new attributes obtained by combining attributes of learning data.
  • Data mining is a technology for finding useful knowledge that has been unknown so far from a large amount of information.
  • a process of processing an attribute (feature) used for data mining and generating a new attribute is performed.
  • each attribute is represented by a binary attribute, and a logical expression obtained by connecting the binary attributes with an AND / OR operator is generated as a new attribute.
  • the day of the week can be represented using seven types of binary attributes (IS_Sunday, IS_Monday, IS_Tuesday, IS_Wednesday, IS_Thursday, IS_Friday, IS_Saturday). Further, when one day is expressed in the morning or in the afternoon, one day can be expressed using two types of binary attributes (IS_AM, IS_PM).
  • a new attribute “weekend afternoon” can be generated.
  • a logical expression “(IS_Saturday AND IS_PM) OR (IS_Sunday AND IS_PM)” obtained by connecting these binary attributes with an AND / OR operator represents an attribute of weekend afternoon.
  • Non-Patent Document 1 and Non-Patent Document 2 describe methods for enumerating attributes.
  • an attribute additive standard form: DNF (Disjunctive normal form)
  • DNF Disjunctive normal form
  • Non-Patent Document 3 describes a method for extracting a frequently used DNF pattern.
  • Non-Patent Document 4 describes an example of a method for evaluating attributes.
  • Non-Patent Document 1 and Non-Patent Document 2 when enumerating DNF, only the attributes concatenated with the AND operator are enumerated first, and then these are connected one by one with the OR operator. Enumeration is used. However, this has a problem that a large amount of memory space is required. For example, using the method described in Non-Patent Document 1, it is assumed that attributes obtained by connecting five attributes among 100 original attributes with an AND / OR operator are listed. In this case, there are 100 4 combinations of four attributes connected by the AND / OR operator, but all these attributes must be retained in the memory, requiring a large amount of memory space. End up.
  • Non-Patent Document 3 In order to suppress consuming a large amount of memory and a large amount of calculation time, it is conceivable to randomly sample attributes using the method described in Non-Patent Document 3. However, since combinations extracted by the method described in Non-Patent Document 3 are not exhaustive, it is difficult to generate better attributes.
  • an object of the present invention is to provide an attribute enumeration system, an attribute enumeration method, and an attribute enumeration program that can enumerate new attributes at high speed while suppressing the consumption of memory while ensuring completeness of attributes. To do.
  • the attribute enumeration system generates a set of logical expression structures that express how to combine logical expressions expressing combinations of attributes from the attributes of learning data and the maximum number of combinations of the attributes,
  • An enumeration plan generation unit that generates a partial logical expression structure obtained by dividing the logical expression included in the expression structure into two parts and generates an enumeration plan corresponding to the logical expression structure of the division source, and according to the generated partial logical expression structure
  • An attribute generation unit that generates new attributes by combining the attributes, and the enumeration plan generation unit makes the number of attributes included in the two partial logical expression structures generated from each logical expression structure equal. Further, the logical expression structure is divided into two.
  • Another attribute enumeration system generates a set of logical expression structures that express how to combine logical expressions that represent combinations of attributes from learning data attributes and the maximum number of combinations of the attributes.
  • An enumeration plan generator that generates an enumeration plan that expresses the relationship with the partial formula structure that represents a part of the formula structure in a graph structure, and a new attribute that combines each attribute according to the partial formula structure
  • the enumeration plan generation unit can express a part of the logical structure more while reducing the space size necessary for storing new attributes generated by the attribute generation unit.
  • a partial logical structure is selected from an enumeration plan.
  • the attribute enumeration method generates a set of logical expression structures that express how to combine logical expressions representing combinations of attributes from the attributes of learning data and the maximum number of combinations of the attributes, Generate a partial logical expression structure that divides the logical expression expression included in the expression structure into two parts, generate an enumeration plan that is associated with the original logical structure, and combine each attribute according to the generated partial logical expression structure
  • the logical expression structure is divided into two so that the number of attributes included in the two partial logical expression structures generated from each logical expression structure is equal. It is characterized by.
  • Another attribute enumeration method generates a set of logical expression structures that express how to combine logical expressions representing attribute combinations from the attributes of learning data and the maximum number of combinations of the attributes.
  • the attribute enumeration program according to the present invention is generated by generating a set of logical expression structures expressing how to combine logical expression expressing the combination of attributes from the learning data attribute and the maximum number of combinations of the attributes on the computer.
  • An attribute generation process for generating a new attribute that combines each attribute according to the expression structure is executed, and in the enumeration plan generation process, the number of attributes included in the two partial logical expression structures generated from each logical expression structure is The logical structure is divided into two parts so as to be even.
  • Another attribute enumeration program generates, on a computer, a set of logical expression structures expressing how to combine logical expression representing an attribute combination from the attribute of learning data and the maximum number of combinations of the attribute, Enumeration plan generation processing that generates an enumeration plan that expresses the relationship with the partial logical expression structure that represents a part of the generated logical expression structure in a graph structure, and a new combination that combines each attribute according to the partial logical expression structure Attribute generation processing to generate new attributes, and enumeration plan generation processing reduces part of the formula structure while reducing the space size required to store new attributes generated by attribute generation processing.
  • a partial logical expression structure that can be expressed more is selected from an enumeration plan.
  • the present invention it is possible to enumerate new attributes at high speed while ensuring the completeness of attributes and suppressing memory consumption. That is, the technical problem described in the “problem to be solved by the invention” is described in the “effect of the invention” by using the technical means shown in the “means for solving the problem”. Technology effects can be obtained.
  • FIG. 1 is a block diagram showing an embodiment of an attribute enumeration system according to the present invention.
  • the DNF enumeration problem will be described.
  • the present invention can also be applied to a CNF (Conjunctive normal form) enumeration problem expressed by an expression obtained by connecting terms consisting of only logical sums with logical products. .
  • FIG. 2 is an explanatory diagram illustrating examples of attributes indicated by the learning data.
  • the table (matrix) illustrated in FIG. 2 expresses, with 1/0, whether or not the sample data s 1 to s 5 that are learning data have the attributes f 1 to f 5 .
  • the attribute enumeration system of this embodiment illustrated in FIG. 1 includes an enumeration plan generation unit 11, a DNF search unit 12, an intermediate data storage unit 13, a sequential attribute evaluation unit 14, and an output data storage unit 15. ing.
  • the binary matrix X indicating whether or not the learning data has the specified attribute and the maximum number MaxLen of attributes to be combined are input.
  • the enumeration plan generation unit 11 When the binary matrix X and MaxLen are input, the enumeration plan generation unit 11 generates a logical expression representing a combination of attributes having a length within MaxLen from the learning data attributes and MaxLen. Further, in the present embodiment, the enumeration plan generation unit 11 generates a set of logical expression structures that express how to combine the generated logical expressions. In this embodiment, since the logical expression is expressed in DNF, this logical expression structure is referred to as a DNF label.
  • the DNF label expresses a logical expression with a comma indicating the number of attributes included in the AND term and an OR operator.
  • the DNF label expressed as [3] expresses “A and B and C”.
  • a DNF label expressed as [1,1] expresses “A or B”.
  • a DNF label expressed as [1,3] expresses “A or (B and C and D)”.
  • A, B, C, and D indicate attributes.
  • the enumeration plan generation unit 11 divides the logical expression expression included in the generated logical expression structure into two partial logical expression structures.
  • the enumeration plan generation unit 11 expresses a relationship with a partial logical expression structure that represents a part of the generated logical expression structure in a graph structure.
  • Each node in the graph structure is a logical expression structure or a partial logical expression structure.
  • the graph structure expressed in this way is hereinafter referred to as an enumeration plan.
  • the logical expression structure of the division source is associated with the partial logical expression structure divided into two.
  • the graph structure is expressed by, for example, a DAG (directed acyclic graph).
  • FIG. 3 is a flowchart illustrating an example of processing performed by the enumeration plan generation unit 11.
  • the enumeration plan generation unit 11 generates all combinations of DNF labels up to the length MaxLen (step S11 in FIG. 3).
  • the generated DNF labels are [4], [3, 1], [3], [2, 2], [2, 1, 1], [2, 1], [ 2], [1, 1, 1, 1], [1, 1, 1], [1, 1], [1].
  • the set of DNF labels generated here can be said to be a set of logical formula structures expressing how to combine logical formulas representing combinations of attributes.
  • the enumeration plan generation unit 11 performs structure division (step S12 in FIG. 3). Specifically, the enumeration plan generation unit 11 identifies the parent node by dividing the generated DNF label, and generates an edge connecting the nodes.
  • Enumeration plan generation unit 11 specifies a parent node based on the following procedure, for example.
  • the enumeration plan generation unit 11 sets the number of AND terms to N, a partial DNF label having a length of ceiling (N / 2), and a length of N-ceiling. Divide into (N / 2) partial DNF labels.
  • the ceiling () function is a function that rounds up decimal places.
  • the enumeration plan generation unit 11 divides the comma-delimited sequence into two partial DNF labels. At this time, the enumeration plan generation unit 11 divides the DNF label so that the difference in the number of attributes included in the two partial DNF labels is minimized. That is, the enumeration plan generation unit 11 divides the DNF label into two so that the number of attributes included in the two partial DNF labels generated from each DNF label is equal.
  • the enumeration plan generation unit 11 sorts the DNF labels in descending order.
  • sorted_list [4, 3, 2, 1, 1].
  • the enumeration plan generation unit 11 calculates the sum of the numbers included in S1 and S2, and sets the first number of sorted_list in the smaller set. Then, the set number and the subsequent comma are deleted from the sorted_list.
  • the DNF label is divided into two partial DNF labels [4, 1, 1] and [3, 2]. Therefore, the enumeration plan generation unit 11 generates an edge from the parent node to the child node using the two partial DNF labels as the parent node and the division source DNF label as the child node.
  • FIG. 4 is an explanatory diagram showing an example of the graph structure.
  • the enumeration plan generation unit 11 orders each node (DNF label) (step S13 in FIG. 3).
  • the enumeration plan generation unit 11 orders the nodes by topological sorting.
  • DAG is known to be topologically sortable, and can be ordered while maintaining the parent-child relationship (the context of the arrows) by topological sort.
  • FIG. 5 and 6 are explanatory diagrams showing an example of topological sort operation.
  • the enumeration plan generation unit 11 sorts the set S of DNF labels in descending order. As a result, the DNF label [4] is the first element. Therefore, the enumeration plan generation unit 11 checks the node with the DNF label [4] as a visited node (FIG. 5A).
  • the enumeration plan generation unit 11 traces the output side of the node with the DNF label [4], and checks the node with the DNF label [2] ahead as the visited node (FIG. 5B). Similarly, the enumeration plan generation unit 11 traces the output side of the node with the DNF label [2], and checks the node with the DNF label [1] ahead as the visited node. Since the node with the DNF label [1] has no parent node, the enumeration plan generation unit 11 sets the node with the DNF label [1] to the first (FIG. 5C).
  • the enumeration plan generation unit 11 sets the node of the DNF label [2] to the second. Similarly, since the order of all the nodes of the DNF label [4] is set as the parent node, the enumeration plan generating unit 11 sets the node of the DNF label [4] to No. 3 (FIG. 5 (d)).
  • the enumeration plan generation unit 11 selects the DNF label [3, 1], which is the second element from the top of the DNF label set S, and sets the node of the DNF label [3, 1] as the visited node. This is checked (FIG. 6 (e)).
  • the enumeration plan generation unit 11 traces the output side of the node with the DNF label [3, 1], and checks the node with the DNF label [3] ahead as the visited node.
  • the enumeration plan generation unit 11 Since the order of all the nodes of the DNF label [3] is set as the parent node, the enumeration plan generation unit 11 sets the node of the DNF label [3] to No. 4. Similarly, since the order of all the nodes of the DNF label [3, 1] is set to the parent node, the enumeration plan generation unit 11 sets the node of the DNF label [3, 1] to No. 5 (FIG. 6 ( f)). Thereafter, the enumeration plan generation unit 11 repeats the same operation, whereby the order is set for all the nodes (FIG. 6G).
  • FIG. 7 is an explanatory diagram illustrating an example of an enumeration plan expressed in a table format.
  • the enumeration plan associates a DNF label with two DNF labels that are parents of the DNF label.
  • the enumeration plan may include a flag (cacheFlagF) indicating whether or not to cache.
  • the enumeration plan generation unit 11 specifies a cache target (step S14 in FIG. 3). Specifically, the enumeration plan generation unit 11 specifies the target attribute to be stored in the intermediate data storage unit 13. At this time, the enumeration plan generation unit 11 reduces the space size necessary for storing in the intermediate data storage unit 13 new attributes generated based on the logical expression structure (logical expression) specified by the DNF label. On the other hand, a partial logical structure that can express a part of the logical structure is selected from the enumeration plan. The expression of a part of the logical formula structure more means that the reusability of the partial logical formula structure is high. The new attribute is generated by the DNF search unit 12 described later.
  • the enumeration plan generation unit 11 specifies a cache target based on the calculation cost and the memory cost.
  • the calculation cost is the number of references on the enumeration plan. Specifically, the calculation cost indicates the number of times referred to as a parent node.
  • the memory cost is the size of the memory space necessary for storing the attribute, and is simply expressed as the sum of the numbers included in the DNF label.
  • FIG. 8 is an explanatory diagram illustrating an example in which the calculation cost and the memory cost are calculated based on the enumeration plan illustrated in FIG.
  • the calculation cost indicates the number of references on the enumeration plan
  • the memory cost indicates the total number included in the DNF label.
  • FIG. 8A when the cache target is not specified, the cacheFlag column is in a blank state.
  • the enumeration plan generation unit 11 sorts the nodes that are referred to as parent nodes one or more times (that is, the calculation cost is one or more) in descending order, and identifies the top K nodes as cache targets. Note that the number of nodes to be selected is the number within which the memory size M of the generated attribute falls within the specified cache size.
  • the cache size of the node set S is calculated by Equation 1 shown below.
  • the DNF indicated by the DNF label [1] is on the order of p. That is, the cache size is p ⁇ 10 ⁇ 4 bytes in length. Meanwhile, DNF represented by DNF label [2] is a p 2 amino order. That is, the cache size is p 2 pieces ⁇ length 10 ⁇ 4 bytes. Incidentally, DNF represented by DNF label [1,1] also, because it is p 2 amino order, the cache size is the same as the DNF represented by DNF label [2].
  • the enumeration plan generation unit 11 sets “TRUE” in the cacheFlag column for the DNF label that is the cache target, and the DNF label that is not the cache target. For example, “FALSE” is set in the cacheFlag column.
  • FIG. 9 is an explanatory diagram showing an example of an enumeration plan.
  • the table illustrated in FIG. 9 and the DAG correspond to each other, the DNF label in which “TRUE” is set in the cacheFlag column of the table, and the DAG black node are identified as the cache target.
  • the enumeration plan generation unit 11 causes the logical expression so that the difference in the number of attributes included in two partial logical expression structures generated from each logical expression structure is minimized. Divide the structure in two. In other words, the enumeration plan generation unit 11 equally divides each logical expression structure (DNF structure) when creating a parent-child relationship of nodes. Therefore, the memory cost can be reduced.
  • DNF structure logical expression structure
  • the enumeration plan generation unit 11 does not divide into a DNF with a length of 3 and a DNF with a length of 1, but divides into two DNFs with a length of 2.
  • the size of the DNF having the length 3 held in the memory is on the order of the cube.
  • the size of the DNF having the length 2 held in the memory can be in the order of a square.
  • the DNF search unit 12 generates new attributes by combining the attributes according to the DNF labels in the order of the DNF labels specified by the enumeration plan generation unit 11.
  • the DNF search unit 12 registers the generated attribute in the intermediate data storage unit 13.
  • the DNF search unit 12 first registers the first node (that is, the original node) in the intermediate data storage unit 13.
  • the DNF search unit 12 if the attribute generated for the parent DNF label is cached in the intermediate data storage unit 13, the DNF search unit 12 generates a new attribute using the attribute.
  • the enumeration plan generation unit 11 selects a logical expression structure (DNF label) with high reusability as a cache target. As a result, the amount of calculation can be reduced.
  • the DNF search unit 12 Each time the DNF search unit 12 generates a new attribute corresponding to each DNF label, the DNF search unit 12 notifies the generated attribute to the sequential attribute evaluation unit 14.
  • the intermediate data storage unit 13 stores a new attribute generated by the DNF search unit 12. Specifically, the intermediate data storage unit 13 stores a DNF list and a vector in association with each other for each logical expression structure (DNF label).
  • the intermediate data storage unit 13 is realized by, for example, a magnetic disk.
  • FIG. 10 is an explanatory diagram illustrating an example of data stored in the intermediate data storage unit 13.
  • Each number in the DNF column illustrated in FIG. 10 indicates an attribute type (attribute ID number), and a structure label indicates a logical expression structure.
  • attribute ID number attribute ID number
  • structure label indicates a logical expression structure.
  • the information shown in the DNF sequence is information for holding a permutation of attribute ID numbers, and can be arbitrarily encoded.
  • the DNF search unit 12 may store a vector subjected to arbitrary compression such as replacing the same vector with another symbol in the intermediate data storage unit 13.
  • the sequential attribute evaluation unit 14 evaluates the attribute generated by the DNF search unit 12.
  • the sequential attribute evaluation unit 14 may evaluate attributes using, for example, the method described in Non-Patent Document 4.
  • the method for evaluating the attribute is not limited to the method described in Non-Patent Document 4, and the sequential attribute evaluation unit 14 may evaluate the attribute using an arbitrary method.
  • the sequential attribute evaluation unit 14 of this embodiment sequentially receives new attributes to be notified each time the DNF search unit 12 generates and evaluates the received attributes. In this way, by performing the sequential evaluation, it is possible to reduce the cost for holding a newly generated attribute.
  • the sequential attribute evaluation unit 14 stores the evaluation result in the output data storage unit 15.
  • the output data storage unit 15 is a storage device that stores evaluation results.
  • the sequential attribute evaluation unit 14 selects, for example, a higher-order attribute (for example, 100) based on an arbitrary score calculated using HSIC (Hilbert-Schmidt Independence Criterion) or Pearson correlation.
  • the attribute may be stored in the output data storage unit 15.
  • the sequential attribute evaluation unit 14 sends the evaluation result to another device (not shown) via a communication line. May be sent.
  • the enumeration plan generation unit 11, the DNF search unit 12, and the sequential attribute evaluation unit 14 are realized by a CPU of a computer that operates according to a program (attribute enumeration program).
  • the program is stored in a storage unit (not shown) in the attribute enumeration system, and the CPU reads the program, and as the enumeration plan generation unit 11, the DNF search unit 12, and the sequential attribute evaluation unit 14 according to the program. It may work.
  • each of the enumeration plan generation unit 11, the DNF search unit 12, and the sequential attribute evaluation unit 14 may be realized by dedicated hardware.
  • the attribute enumeration system of this embodiment may be realized by connecting two or more physically separated devices by wire or wireless, or may be realized by one device. Good.
  • the enumeration plan generation unit 11 generates a set of DNF labels that expresses how to combine logical expressions representing combinations of attributes from the learning data attributes and MaxLen.
  • the enumeration plan generation unit 11 generates a partial DNF label obtained by dividing the logical expression included in each generated DNF label into two, and generates an enumeration plan associated with the original DNF label.
  • the DNF search part 12 produces
  • the enumeration plan generation unit 11 divides the DNF label into two so that the number of attributes included in the two partial DNF labels generated from each DNF label becomes equal.
  • the enumeration plan generation unit 11 generates an enumeration plan in which a relationship with a partial DNF label that represents a part of the generated DNF label is expressed in a graph structure. At this time, the enumeration plan generation unit 11 can express a part of the DNF label more while reducing the space size necessary for storing the new attribute generated by the DNF search unit 12 (that is, re-encoding). Select a partial DNF label (highly available) from the enumeration plan.
  • a relationship (parent-child relationship) that is a component at the time of generation is specified for each DNF label by a graph structure, and a subset of nodes is selected from the viewpoints of memory cost for caching and calculation cost for reuse. Therefore, new attributes can be enumerated comprehensively while enumerating attributes at high speed by reducing calculation cost and suppressing consumption of memory for storing attributes.
  • the enumeration plan generation unit 11 first automatically determines a combination method of DNF below MaxLen, and generates an enumeration plan that balances from the viewpoint of the memory amount and the calculation amount. Therefore, it is possible to enumerate new attributes at high speed while suppressing the memory consumption while ensuring the completeness of attributes.
  • a new attribute corresponding to the DNF labels [1], [2], [1, 1], that is, a square order attribute may be cached.
  • the attribute corresponding to the DNF label [2] can be used instead of the attribute corresponding to the DNF label [3], [1].
  • New attributes can be enumerated at a high speed while reducing the consumption of.
  • the efficiency of the cache can be improved. For example, in the case of the enumeration plan illustrated in FIG. 9, when evaluating the attributes of the DNF labels [1, 1, 1, 1], [1, 1, 1], [2, 1, 1], a new DNF label There is no need to generate an attribute corresponding to [1,1].
  • FIG. 11 is an explanatory diagram illustrating a specific example of processing in which the DNF search unit 12 creates an attribute and stores the cache target attribute in the intermediate data storage unit 13.
  • FIG. 11A shows an example of processing for generating an attribute for each DNF label.
  • the DNF search unit 12 generates attributes in order from the top row of the table illustrated in FIG. 9 and outputs the generated attributes to the sequential attribute evaluation unit 14 each time an attribute is generated. To do.
  • the DNF search unit 12 stores the generated attribute in the intermediate data storage unit 13.
  • FIG. 11B shows an example of processing for outputting a combination of attributes.
  • the DNF search unit 12 when the attribute corresponding to the DNF label is stored (cached) in the intermediate data storage unit 13, the DNF search unit 12 outputs the attribute.
  • the DNF search unit 12 if the attribute corresponding to the DNF label is not stored in the intermediate data storage unit 13 (not cached), a combination of attributes is generated. In this case, the DNF search unit 12 also generates a parent DNF.
  • the DNF search unit 12 when the label is only an AND term, the DNF search unit 12 generates a combination of ANDs. When the label is not only the AND term, the DNF search unit 12 Generate a combination.
  • FIG. 12 is a block diagram showing an outline of the attribute enumeration system according to the present invention.
  • the attribute enumeration system according to the present invention is a logical expression (for example, DNF, CNF) that represents a combination of attributes from the attributes of the learning data (for example, binary matrix X) and the maximum number of combinations of the attributes (for example, MaxLen).
  • a set of logical expression structures for example, DNF labels
  • a partial logical expression structure for example, partial DNF labels
  • An enumeration plan generation unit 81 for example, the enumeration plan generation unit 11
  • an enumeration plan for example, an enumeration plan in a table format or a graph structure illustrated in FIG. 9
  • an attribute generation unit 82 for example, the DNF search unit 12
  • the enumeration plan generation unit 81 converts the logical expression structure to 2 so that the number of attributes included in the two partial logical expression structures generated from each logical expression structure is equal (for example, the difference is minimized). To divide.
  • the enumeration plan generation unit 81 generates an enumeration plan in which a relationship with a partial logical expression structure that represents a part of the generated logical expression structure is expressed in a graph structure (for example, DAG).
  • a graph structure for example, DAG.
  • the structure may be selected from an enumeration plan.
  • the attribute generation unit 82 stores a new attribute generated according to the partial logical expression structure selected by the enumeration plan generation unit 81 in the storage device (for example, the intermediate data storage unit 13) and stores the new attribute in the storage device.
  • a new attribute corresponding to another logical expression structure may be generated based on the attribute.
  • the new attribute stored in the storage device in this way is generated based on the logical expression structure that is appropriately divided into two parts, and the space size can be further reduced. Can be suppressed. Further, since the logical expression structure selected in this way is more reusable, new attributes can be listed at high speed.
  • the attribute enumeration system may include an attribute evaluation unit (for example, the sequential attribute evaluation unit 14) that evaluates the attribute generated by the attribute generation unit 82.
  • the attribute generation unit 82 may transmit the generated attribute to the attribute evaluation unit every time a new attribute is generated according to each partial logical expression structure.
  • the memory space for holding the new attribute to be evaluated can be made smaller, so that the memory efficiency can be increased.
  • the enumeration plan generation unit 81 may use an additive standard form (DNF) or a conjunction standard form (CNF) for a logical expression representing a combination of attributes.
  • DNF additive standard form
  • CNF conjunction standard form
  • the additive standard form or the conjunction standard form can guarantee the completeness because any logical expression can be equivalently converted.
  • FIG. 13 is a block diagram showing another outline of the attribute listing system according to the present invention.
  • the attribute enumeration system according to the present invention is a logical expression (for example, DNF, CNF) that represents a combination of attributes from the attributes of the learning data (for example, binary matrix X) and the maximum number of combinations of the attributes (for example, MaxLen). ) Is generated as a set of logical expression structures (for example, DNF labels), and the relationship with the partial logical expression structure (for example, partial DNF label) that represents a part of the generated logical expression structure is graphed.
  • DNF logical expression
  • Enumeration plan generation unit 91 e.g., enumeration plan generation unit 11
  • a structure e.g., DAG
  • attribute generation that generates a new attribute that combines each attribute according to the partial logical expression structure Part 92 (for example, DNF search part 12).
  • the enumeration plan generation unit 91 can express a part of the logical expression structure more while reducing the space size (for example, memory cost) necessary for storing the new attribute generated by the attribute generation unit 92.
  • a partial formula structure (for example, highly reusable) is selected from the enumeration plan.
  • the attribute generation unit 92 stores a new attribute generated according to the partial logical expression structure selected by the enumeration plan generation unit 91 in the storage device (for example, the intermediate data storage unit 13) and stores the new attribute in the storage device.
  • a new attribute corresponding to another logical expression structure may be generated based on the attribute.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 列挙プラン生成部81は、学習データの属性と、その属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造を生成して分割元の論理式構造に対応付けた列挙プランを生成する。属性生成部82は、生成された部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する。また、列挙プラン生成部81は、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように、論理式構造を2分割する。

Description

属性列挙システム、属性列挙方法および属性列挙プログラム
 本発明は、学習データの属性を組み合わせた新たな属性を列挙する属性列挙システム、属性列挙方法および属性列挙プログラムに関する。
 データマイニングは、大量の情報の中から、これまで未知であった有用な知見を見つける技術である。データマイニングを効率的に実施するため、データマイニングに利用される属性(feature )を加工し、新たな属性を生成する処理が行われる。
 新たな属性を生成する方法の一つとして、各属性を2値属性で表し、その2値属性をAND/OR演算子で繋いだ論理式を新たな属性として生成する方法が知られている。
 例えば、各曜日を表す場合、7種類の2値属性(IS_日曜日、IS_月曜日、IS_火曜日、IS_水曜日、IS_木曜日、IS_金曜日、IS_土曜日)を用いて曜日を表すことができる。また、1日を午前または午後で表す場合、2種類の2値属性(IS_午前、IS_午後)を用いて1日を表すことができる。
 これらの2値属性に基づいて、例えば、「週末の午後」という新たな属性を生成できる。具体的には、これらの2値属性をAND/OR演算子で繋いだ論理式「(IS_土曜日 AND IS_午後)OR(IS_日曜日 AND IS_午後)」は、週末の午後という属性を表す。
 実問題を解く上では、このように属性を適切に組合せた新しい属性を作ることが必要になることが多い。しかし、属性の適切な組合せ方を発見するのはそう簡単ではない。例えば、元データが100個の属性を持ち、このうち5つの属性をAND/ORで組み合わせることを考える場合、100×2のオーダ(すなわち、1600億)の組合せによる論理式が存在するため、2値属性を単純に組み合わせた場合、大量のメモリや多大な計算時間を消費してしまうことになる。
 非特許文献1や非特許文献2には、属性を列挙する方法が記載されている。非特許文献1および非特許文献2に記載された方法では、まず各属性をAND演算子で繋いだ属性(加法標準形:DNF(Disjunctive normal form ))を列挙し、列挙したこれらの属性をOR演算子で繋いで新たな属性を生成する。
 また、非特許文献3には、頻繁に用いられるDNFのパターンを抽出する方法が記載されている。なお、非特許文献4には、属性を評価する方法の一例が記載されている。
Lizhuang Zhao, Mohammed J. Zaki, Naren Ramakrishnan, "BLOSOM: A Framework for Mining Arbitrary Boolean Expressions", KDD '06 Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, p.827-832, 2006 Vimieiro Renato, Moscato Pablo, "Mining disjunctive minimal generators with TitanicOR", Expert Systems with Applications Vol.39, Issue 9, p.8228-8238, 2012 Geng Li, Mohammed J. Zaki, "Sampling Minimal Frequent Boolean (DNF) Patterns", KDD '12 Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, p.87-95, 2012 S. Perkins, J. Theiler, "Online Feature Selection using Grafting", In ICML, 2003
 しかし、非特許文献1や非特許文献2に記載された方法では、DNFを列挙する際、最初にAND演算子で連結した属性のみを列挙したのち、これらを一つずつOR演算子で接続していく、という列挙方式が用いられている。しかし、これでは大量のメモリ空間が必要になってしまうという問題がある。例えば、非特許文献1に記載された方法を用いて、100個のオリジナル属性の中から5つの属性をAND/OR演算子で繋いだ属性を列挙するとする。この場合、4つの属性をAND/OR演算子で繋いだ属性は、100通りの組合せになるが、このすべての属性をメモリに保持しなければならず、大量のメモリ空間が必要になってしまう。
 一方、大量のメモリ空間が必要になることを抑制するため、新たに作成される属性をメモリにキャッシュせず、その都度計算することも考えられる。しかし、この方法では、全ての組合せを、一から再生成する必要があるため、多大な計算時間を消費してしまい、高速に属性を列挙することができない問題がある。
 また、大量のメモリや多大な計算時間を消費することを抑制するため、非特許文献3に記載された方法を用いて、ランダムに属性をサンプリングすることも考えられる。しかし、非特許文献3に記載された方法で抽出される組合せには網羅性が無いため、より良い属性を生成することは困難である。
 そこで、本発明は、属性の網羅性を担保しつつ、メモリの消費を抑えて高速に新たな属性を列挙することができる属性列挙システム、属性列挙方法および属性列挙プログラムを提供することを目的とする。
 本発明による属性列挙システムは、学習データの属性とその属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造を生成して分割元の論理式構造に対応付けた列挙プランを生成する列挙プラン生成部と、生成された部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成部とを備え、列挙プラン生成部が、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように、論理式構造を2分割することを特徴とする。
 本発明による他の属性列挙システムは、学習データの属性とその属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成する列挙プラン生成部と、部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成部とを備え、列挙プラン生成部は、属性生成部によって生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、論理式構造の一部をより多く表現可能な部分論理式構造を列挙プランの中から選択することを特徴とする。
 本発明による属性列挙方法は、学習データの属性とその属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造を生成して分割元の論理式構造に対応付けた列挙プランを生成し、生成された部分論理式構造に応じて各属性を組み合わせた新たな属性を生成し、列挙プランを生成する際、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように、論理式構造を2分割することを特徴とする。
 本発明による他の属性列挙方法は、学習データの属性とその属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成し、部分論理式構造に応じて生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、論理式構造の一部をより多く表現可能な部分論理式構造を列挙プランの中から選択し、選択された部分論理式構造に応じて各属性を組み合わせた新たな属性を生成することを特徴とする。
 本発明による属性列挙プログラムは、コンピュータに、学習データの属性とその属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造を生成して分割元の論理式構造に対応付けた列挙プランを生成する列挙プラン生成処理、および、生成された部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成処理を実行させ、列挙プラン生成処理で、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように、論理式構造を2分割させることを特徴とする。
 本発明による他の属性列挙プログラムは、コンピュータに、学習データの属性とその属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成する列挙プラン生成処理、および、部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成処理とを実行させ、列挙プラン生成処理で、属性生成処理で生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、論理式構造の一部をより多く表現可能な部分論理式構造を列挙プランの中から選択させることを特徴とする。
 本発明によれば、属性の網羅性を担保しつつ、メモリの消費を抑えて高速に新たな属性を列挙することができる。すなわち、上記の「発明が解決しようとする課題」に記載された技術課題を、上記の「課題を解決するための手段」に示される技術手段を用いることで、本「発明の効果」に記載される技術効果を得ることができる。
本発明による属性列挙システムの一実施形態を示すブロック図である。 学習データが示す属性の例を示す説明図である。 列挙プラン生成部11が行う処理の例を示すフローチャートである。 グラフ構造の例を示す説明図である。 トポロジカルソートの動作例を示す説明図である。 トポロジカルソートの動作例を示す説明図である。 表形式で表現された列挙プランの例を示す説明図である。 計算コストおよびメモリコストの例を示す説明図である。 列挙プランの例を示す説明図である。 中間データ記憶部13が記憶するデータの例を示す説明図である。 DNF探索部12による処理の具体例を示す説明図である。 本発明による属性列挙システムの概要を示すブロック図である。 本発明による属性列挙システムの他の概要を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。図1は、本発明による属性列挙システムの一実施形態を示すブロック図である。以下の説明では、2値属性の組合せを表す論理式をDNFで表現するものとする。DNFは、Z=∨∧で表現される論理式であり、論理積のみからなる項を論理和で繋いだ式で表現される。任意の論理式は、DNFに等価変換可能である。
 なお、本実施形態では、DNFの列挙問題について説明するが、論理和のみからなる項を論理積で繋いだ式で表現されるCNF(Conjunctive normal form )の列挙問題についても同様に適用可能である。
 また、以下の説明では、論理式に含まれている属性の数を、論理式の長さと定義する。図2は、学習データが示す属性の例を示す説明図である。図2に例示する表(行列)は、学習データであるサンプルデータs~sに対して、属性f~fを有するか否かを1/0で表現したものである。
 例えば、長さ2の論理式f∨fをそれぞれの学習データについて計算すると、f∨f=[1,1,1,1,0]と算出される。また、例えば、長さ2の論理式f∧fをそれぞれの学習データについて計算すると、f∧f=[0,0,1,0,0]と算出される。さらに、例えば、長さ3の論理式(f∧f)∨fをそれぞれの学習データについて計算すると、(f∧f)∨f=[0,0,1,1,1]と算出される。
 図1に例示する本実施形態の属性列挙システムは、列挙プラン生成部11と、DNF探索部12と、中間データ記憶部13と、逐次的属性評価部14と、出力データ記憶部15とを備えている。
 本実施形態の属性列挙システムには、指定された属性を学習データが有するか否かを示す2値行列Xと、組み合わせる属性の最大数MaxLenが入力される。例えば、2値行列Xとして、図2に例示する行列が入力される。また、MaxLenは、例えば、ユーザ等により指定される。
 列挙プラン生成部11は、2値行列XおよびMaxLenが入力されると、学習データの属性とMaxLenとから、長さがMaxLen以内の属性の組合せを表す論理式を生成する。さらに、本実施形態では、列挙プラン生成部11は、生成した論理式の組み合わせ方を表現した論理式構造の集合を生成する。本実施形態では、論理式をDNFで表現しているため、この論理式構造のことをDNFラベルと記す。
 DNFラベルは、AND項に含まれる属性数とOR演算子を示すカンマで論理式を表現する。例えば、[3]と表現されるDNFラベルは、“A and B and C”を表現する。また、例えば、[1,1]と表現されるDNFラベルは、“A or B”を表現する。また、例えば、[1,3]と表現されるDNFラベルは、“A or (B and C and D)”を表現する。ここで、A、B、CおよびDは、属性を示す。
 次に、列挙プラン生成部11は、生成した論理式構造に含まれる論理式表現を2つの部分論理式構造に分割する。本実施形態では、列挙プラン生成部11は、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現する。グラフ構造における各ノードは、論理式構造または部分論理式構造である。このように表現されたグラフ構造を、以下、列挙プランと記す。このようなグラフ構造を生成することにより、分割元の論理式構造と、2分割された部分論理式構造とが対応付けられることになる。グラフ構造は、例えば、DAG(有向非循環グラフ:directed acyclic graph)で表現される。
 以下、列挙プラン生成部11がグラフ構造を生成する処理を具体的に説明する。図3は、列挙プラン生成部11が行う処理の例を示すフローチャートである。まず、列挙プラン生成部11が、長さMaxLenまでのDNFラベルの全組合せを生成する(図3におけるステップS11)。例えば、MaxLen=4の場合、生成されるDNFラベルは、[4],[3,1],[3],[2,2],[2,1,1],[2,1],[2],[1,1,1,1],[1,1,1],[1,1],[1]である。なお、ここで生成されるDNFラベルの集合は、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合と言える。
 次に、列挙プラン生成部11は、構造分割を行う(図3におけるステップS12)。具体的には、列挙プラン生成部11は、生成したDNFラベルを分割して親ノードを特定し、ノード間を結ぶエッジを生成する。
 列挙プラン生成部11は、例えば、以下の手順に基づいて親ノードを特定する。対象とするDNFラベルがAND項のみの場合、列挙プラン生成部11は、AND項の数をNとしたとき、長さがceiling(N/2)の部分DNFラベルと、長さがN-ceiling(N/2)の部分DNFラベルに分割する。ここで、ceiling()関数は、小数点以下を切り上げる関数である。
 一方、対象とするDNFラベルがOR項(すなわち、カンマ)を含む場合、列挙プラン生成部11は、カンマ区切りの数列を、2つの部分DNFラベルに分割する。このとき、列挙プラン生成部11は、2つの部分DNFラベルに含まれる属性の数の差が最小になるようにDNFラベルを分割する。すなわち、列挙プラン生成部11は、各DNFラベルから生成される2つの部分DNFラベルに含まれる属性の数が均等になるように、DNFラベルを2分割する。
 以下、DNFラベルが[1,1,2,3,4]と表現される場合の例を用いて、DNFラベルをセットS1とセットS2に分割するアルゴリズムを説明する。なお、S1およびS2は、初期状態では空の状態に初期化される。
 まず、列挙プラン生成部11は、DNFラベルを降順にソートする。ソートされた結果をsorted_listに格納すると、sorted_list=[4,3,2,1,1]になる。列挙プラン生成部11は、S1とS2に含まれる数字の総和を算出し、小さいほうのセットに、sorted_listの先頭の数字を設定する。そして、設定された数字およびその後のカンマをsorted_listから削除する。
 上記例の場合、初期状態では、S1もS2も数字の総和は0で等しいため、列挙プラン生成部11は、まず先頭の数字「4」を、S1に設定してsorted_listから削除する。よって、sorted_list=[3,2,1,1]、S1=[4]、S2=[]になる。
 このとき、S1の数字の総和は4であり、S2の数字の総和は0である。そこで、列挙プラン生成部11は、先頭の数字「3」を、S2に設定してsorted_listから削除する。よって、sorted_list=[2,1,1]、S1=[4]、S2=[3]になる。すると、S1の数字の総和は4であり、S2の数字の総和は3である。そこで、列挙プラン生成部11は、先頭の数字「2」を、S2に設定してsorted_listから削除する。よって、sorted_list=[1,1]、S1=[4]、S2=[3,2]になる。
 以下、同様に、S1の数字の総和が4であり、S2の数字の総和は5であるため、列挙プラン生成部11は、先頭の数字「2」を、S1に設定してsorted_listから削除する。よって、sorted_list=[1]、S1=[4,1]、S2=[3,2]になる。最後に、S1の数字の総和が5であり、S2の数字の総和も5であるため、列挙プラン生成部11は、先頭の数字「1」を、S1に設定してsorted_listから削除する。sorted_list=[]、S1=[4,1,1]、S2=[3,2]になる。
 その結果、DNFラベルは、2つの部分DNFラベル[4,1,1]と[3,2]に分割される。そこで、列挙プラン生成部11は、この2つの部分DNFラベルを親ノードとし、分割元のDNFラベルを子ノードとして、親ノードから子ノードへのエッジを生成する。
 図4はグラフ構造の例を示す説明図である。図4に例示するグラフは、MaxLen=4の場合におけるDAGの例を示す。
 次に、列挙プラン生成部11は、各ノード(DNFラベル)に順序付けを行う(図3におけるステップS13)。本実施形態では、列挙プラン生成部11は、トポロジカルソートにより、各ノードに順序付けを行う。なお、DAGは、トポロジカルソート可能なことが知られており、トポロジカルソートにより親子関係(矢印の前後関係)を保った順序付けが可能である。
 以下、図4に例示するDAGに対して、トポロジカルソートにより各ノードに順序付けする動作を説明する。図5および図6は、トポロジカルソートの動作例を示す説明図である。まず、列挙プラン生成部11は、DNFラベルの集合Sを降順にソートする。その結果、DNFラベル[4]が先頭の要素になる。そこで、列挙プラン生成部11は、DNFラベル[4]のノードを訪問済みのノードとしてチェックする(図5(a))。
 次に、列挙プラン生成部11は、DNFラベル[4]のノードの出力辺を辿り、その先のDNFラベル[2]のノードを訪問済みのノードとしてチェックする(図5(b))。同様に、列挙プラン生成部11は、DNFラベル[2]のノードの出力辺を辿り、その先のDNFラベル[1]のノードを訪問済みのノードとしてチェックする。DNFラベル[1]のノードは、親ノードが存在しないため、列挙プラン生成部11は、DNFラベル[1]のノードを1番に設定する(図5(c))。
 このとき、DNFラベル[2]のノードは、親ノードにすべて順番が設定されたため、列挙プラン生成部11は、DNFラベル[2]のノードを2番に設定する。同様に、DNFラベル[4]のノードは、親ノードにすべて順番が設定されたため、列挙プラン生成部11は、DNFラベル[4]のノードを3番に設定する(図5(d))。
 次に、列挙プラン生成部11は、DNFラベルの集合Sの先頭から2つめの要素であるDNFラベル[3,1]を選択し、DNFラベル[3,1]のノードを訪問済みのノードとしてチェックする(図6(e))。列挙プラン生成部11は、DNFラベル[3,1]のノードの出力辺を辿り、その先のDNFラベル[3]のノードを訪問済みのノードとしてチェックする。
 DNFラベル[3]のノードは、親ノードにすべて順番が設定されたため、列挙プラン生成部11は、DNFラベル[3]のノードを4番に設定する。同様に、DNFラベル[3,1]のノードは、親ノードにすべて順番が設定されたため、列挙プラン生成部11は、DNFラベル[3,1]のノードを5番に設定する(図6(f))。以下、列挙プラン生成部11が同様の動作を繰り返すことにより、全てのノードに順番が設定される(図6(g))。
 なお、グラフ構造で表現される列挙プランは、表形式でも表現することが可能である。図7は、表形式で表現された列挙プランの例を示す説明図である。図7に示す例では、列挙プランは、DNFラベルと、そのDNFラベルの親になる2つのDNFラベルとを対応付けている。また、列挙プランは、キャッシュするか否かを示すフラグ(cacheFlag )を含んでいてもよい。
 次に、列挙プラン生成部11は、キャッシュ対象を特定する(図3におけるステップS14)。具体的には、列挙プラン生成部11は、中間データ記憶部13に記憶させる対象の属性を特定する。このとき、列挙プラン生成部11は、DNFラベルで特定される論理式構造(論理式)に基づいて生成される新たな属性を中間データ記憶部13に記憶させるために必要な空間サイズを小さくしつつ、論理式構造の一部をより多く表現可能な部分論理式構造を列挙プランから選択する。なお、論理式構造の一部をより多く表現可能とは、部分論理式構造の再利用性が高いことを意味する。なお、新たな属性は、後述するDNF探索部12によって生成される。
 本実施形態では、列挙プラン生成部11は、計算コストとメモリコストに基づいて、キャッシュ対象を特定する。ここでは、計算コストを、列挙プラン上の参照回数とする。具体的には、計算コストは、親ノードとして参照される回数を示す。また、メモリコストとは、属性を記憶するため必要なメモリ空間の大きさであり、単純には、DNFラベルに含まれる数の総和で表される。
 図8は、図4に例示する列挙プランに基づいて計算コストおよびメモリコストを算出した例を示す説明図である。図8に示す例では、計算コストは、列挙プラン上の参照回数、メモリコストは、DNFラベルに含まれる数の総和を示す。なお、図8(a)に例示するように、キャッシュ対象が特定されていない場合、cacheFlag列はブランクの状態である。
 列挙プラン生成部11は、親ノードとして参照される回数が1回以上(すなわち、計算コストが1以上)のノードを降順で並べ替え、上位K個のノードをキャッシュ対象として特定する。なお、選択するノードの個数は、生成される属性のメモリサイズMが指定されるキャッシュサイズ以内に収まる個数である。
 元属性数をpとし、ベクトル長をnとするとき、ノードセットSのキャッシュサイズは、以下に示す式1で算出される。
Figure JPOXMLDOC01-appb-M000001
 
 式1において、sum(dnf.label)は、DNFラベルに含まれる数の総和を示す。また、式1において、1変数あたり4バイト必要であると想定し、4が乗じられている。例えば、ベクトル長n=10、元属性数p=10とすると、DNFラベル[1]とDNFラベル[2]のキャッシュは、以下に示す式2のように算出される。
 Cashesize([1],[2])=4*10*10+4*10*10^2=4400byte (式2)
 上記の式2に示すように、DNFラベル[1]で示されるDNFは、p個のオーダである。すなわち、キャッシュサイズは、p個×長さ10×4バイトである。一方、DNFラベル[2]で示されるDNFは、p個のオーダである。すなわち、キャッシュサイズは、p個×長さ10×4バイトである。なお、DNFラベル[1,1]で示されるDNFも、p個のオーダであるため、キャッシュサイズは、DNFラベル[2]で示されるDNFと同様である。
 本実施形態では、DNFラベル[1],[2],[1,1]がキャッシュ対象として特定されたものとする。この場合、列挙プラン生成部11は、図8(b)に例示するように、キャッシュ対象になったDNFラベルに対しては、cacheFlag列に“TRUE”を設定し、キャッシュ対象でないDNFラベルに対しては、cacheFlag列に“FALSE”を設定する。
 図9は、列挙プランの例を示す説明図である。図9に例示する表とDAGがそれぞれ対応し、表のcacheFlag列に“TRUE”が設定されたDNFラベル、および、DAGの黒塗りのノードがキャッシュ対象として特定されたことを示す。
 なお、上述するように、本実施形態では、列挙プラン生成部11が、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数の差が最小になるように、論理式構造を2分割する。言い換えると、列挙プラン生成部11が、ノードの親子関係を作る際に、各論理式構造(DNF構造)を均等に分割する。そのため、メモリコストを下げることが可能になる。
 例えば、長さ4のDNFが存在する場合、列挙プラン生成部11は、長さ3のDNFと長さ1のDNFに分割するのではなく、長さ2の2つのDNFに分割する。長さ3のDNFと長さ1のDNFに分割すると、長さ3のDNFをメモリに保持するサイズは、3乗のオーダになってしまう。一方、長さ2のDNFをメモリに保持するサイズは、2乗のオーダで済むことになる。
 DNF探索部12は、列挙プラン生成部11により特定されたDNFラベルの順序で、そのDNFラベルに応じて各属性を組み合わせた新たな属性を生成する。また、属性を生成する対象のDNFラベルが、列挙プラン生成部11により特定されたキャッシュ対象である場合、DNF探索部12は、生成した属性を中間データ記憶部13に登録する。なお、DNF探索部12は、1番のノード(すなわち、オリジナルのノード)を最初に中間データ記憶部13に登録する。
 具体的には、DNF探索部12は、親のDNFラベルについて生成された属性が中間データ記憶部13にキャッシュされている場合には、その属性を利用して、新たな属性を生成する。本実施形態では、列挙プラン生成部11がキャッシュ対象として、再利用性が高い論理式構造(DNFラベル)を選択する。そのため、計算量を削減することが可能になる。
 DNF探索部12は、各DNFラベルに対応する新たな属性を生成するたびに、生成した属性を逐次的属性評価部14に通知する。
 中間データ記憶部13は、DNF探索部12により生成される新たな属性を記憶する。具体的には、中間データ記憶部13は、論理式構造(DNFラベル)ごとに、DNFのリストとベクトルとを対応付けて記憶する。中間データ記憶部13は、例えば、磁気ディスク等により実現される。
 図10は、中間データ記憶部13が記憶するデータの例を示す説明図である。図10に例示するDNF列内の各数字は、属性の種類(属性のID番号)を示し、構造ラベルは論理式構造を示す。なお、DNF列に示す情報は、属性ID番号の順列を保持するための情報であるため、任意の符号化を行うことが可能である。また、DNF探索部12は、同じベクトルを別の記号に置換するなど、任意の圧縮を行ったベクトルを中間データ記憶部13に記憶してもよい。
 逐次的属性評価部14は、DNF探索部12により生成される属性について評価を行う。逐次的属性評価部14は、例えば、非特許文献4に記載された方法を用いて、属性を評価してもよい。ただし、属性を評価する方法は、非特許文献4に記載された方法に限定されず、逐次的属性評価部14は、任意の方法を用いて属性を評価すればよい。
 本実施形態の逐次的属性評価部14は、DNF探索部12が生成するたびに通知する新たな属性を逐次受け取り、受け取った属性の評価を行う。このように、逐次評価を行うことで、新たに生成される属性を保持するためのコストを削減できる。
 そして、逐次的属性評価部14は、評価結果を出力データ記憶部15に記憶させる。出力データ記憶部15は、評価結果を記憶する記憶装置である。逐次的属性評価部14は、例えば、HSIC(Hilbert-Schmidt Independence Criterion)や、ピアソン相関を用いて算出される任意のスコアをもとに、上位(例えば、100個)の属性を選択し、選択した属性を出力データ記憶部15に記憶させてもよい。
 なお、本実施形態では、評価結果を出力データ記憶部15に記憶させる場合を例示しているが、逐次的属性評価部14は、通信回線を介して他の装置(図示せず)に評価結果を送信してもよい。
 列挙プラン生成部11と、DNF探索部12と、逐次的属性評価部14とは、プログラム(属性列挙プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、属性列挙システム内の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、列挙プラン生成部11、DNF探索部12および逐次的属性評価部14として動作してもよい。
 また、列挙プラン生成部11と、DNF探索部12と、逐次的属性評価部14とは、それぞれが専用のハードウェアで実現されていてもよい。具体的には、本実施形態の属性列挙システムは、2つ以上の物理的に分離した装置が有線または無線で接続されることにより実現されていてもよく、1つの装置で実現されていてもよい。
 以上のように、本実施形態では、列挙プラン生成部11が、学習データの属性とMaxLenとから、属性の組合せを表す論理式表現の組み合わせ方を表現したDNFラベルの集合を生成する。また、列挙プラン生成部11が、生成された各DNFラベルに含まれる論理式表現を2分割した部分DNFラベルを生成して分割元のDNFラベルに対応付けた列挙プランを生成する。そして、DNF探索部12が、生成された部分DNFラベルに応じて各属性を組み合わせた新たな属性を生成する。このとき、列挙プラン生成部11は、各DNFラベルから生成される2つの部分DNFラベルに含まれる属性の数が均等になるように、DNFラベルを2分割する。
 このようにして分割されたDNFラベルを用いることで、属性の網羅性を担保できるとともに、分割されたDNFラベルに応じて作成される属性のサイズを小さくしながら、高速に新たな属性を列挙することができる。
 また、一方で、本実施形態では、列挙プラン生成部11が、生成されたDNFラベルの一部を表現する部分DNFラベルとの関係をグラフ構造で表現した列挙プランを生成する。このとき、列挙プラン生成部11は、DNF探索部12によって生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、DNFラベルの一部をより多く表現可能な(すなわち、再利用性が高い)部分DNFラベルを列挙プランの中から選択する。
 すなわち、DNFラベルごとに生成時の部品となる関係(親子関係)をグラフ構造で特定し、キャッシュするためのメモリコストと、再利用するための計算コストの観点でノードの部分集合を選択する。そのため、計算コストを低減させて属性を高速に列挙しつつ、属性を記憶するためのメモリの消費を抑えながら、新たな属性を網羅的に列挙できる。
 言い換えると、本実施形態では、列挙プラン生成部11が、最初にMaxLen以下のDNFの組合せ方法を自動決定し、メモリ量と計算量の観点でバランスを取った列挙プランを生成する。そのため、属性の網羅性を担保しつつ、メモリの消費を抑えて高速に新たな属性を列挙することができる。
 例えば、図9に例示する列挙プランが特定された場合、DNFラベル[1],[2],[1,1]に対応する新たな属性、すなわち、2乗オーダの属性をキャッシュすればよい。特に、DNFラベル[4]の属性を生成する際、本実施形態では、DNFラベル[3],[1]に対応する属性ではなく、DNFラベル[2]に対応する属性を利用できるため、メモリの消費を抑えて高速に新たな属性を列挙することができる。
 さらに、本実施形態では、再利用性の高いDNFをキャッシュするため、キャッシュの効率を高めることができる。例えば、図9に例示する列挙プランの場合、DNFラベル[1,1,1,1],[1,1,1],[2,1,1]の属性を評価する際、新たにDNFラベル[1,1]に対応する属性を生成する必要がない。
 以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。図11は、DNF探索部12が属性を作成し、キャッシュ対象の属性を中間データ記憶部13に記憶させる処理の具体例を示す説明図である。
 図11(a)は、DNFラベルごとに属性を生成する処理の例を示す。図11(a)示す例では、DNF探索部12が図9に例示する表の上の行から順に属性を生成し、属性を生成するたびに、生成した属性を逐次的属性評価部14に出力する。また、生成した属性がキャッシュ対象の場合、DNF探索部12は、生成した属性を中間データ記憶部13に記憶させる。
 図11(b)は、属性の組合せを出力する処理の例を示す。図11(b)に示す例では、DNFラベルに対応する属性が中間データ記憶部13に記憶されている(キャッシュされている)場合、DNF探索部12は、その属性を出力する。一方、DNFラベルに対応する属性が中間データ記憶部13に記憶されていない(キャッシュされていない)場合、属性の組合せを生成する。この場合、DNF探索部12は、親のDNFも生成する。
 さらに、図11(b)に例示する処理において、ラベルがAND項のみの場合、DNF探索部12は、ANDの組合せを生成し、ラベルがAND項のみでない場合、DNF探索部12は、ORの組合せを生成する。
 次に、本発明の概要を説明する。図12は、本発明による属性列挙システムの概要を示すブロック図である。本発明による属性列挙システムは、学習データ(例えば、2値行列X)の属性と、その属性の組合せ最大数(例えば、MaxLen)とから、属性の組合せを表す論理式表現(例えば、DNF、CNF)の組み合わせ方を表現した論理式構造(例えば、DNFラベル)の集合を生成し、生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造(例えば、部分DNFラベル)を生成して分割元の論理式構造に対応付けた列挙プラン(例えば、図9に例示する表形式またはグラフ構造による列挙プラン)を生成する列挙プラン生成部81(例えば、列挙プラン生成部11)と、生成された部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成部82(例えば、DNF探索部12)とを備えている。
 列挙プラン生成部81は、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように(例えば、差が最小になるように)、論理式構造を2分割する。
 そのような構成により、属性の網羅性を担保しつつ、メモリの消費を抑えて高速に新たな属性を列挙することができる。
 また、列挙プラン生成部81は、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造(例えば、DAG)で表現した列挙プランを生成し、属性生成部82によって生成される新たな属性を記憶するために必要な空間サイズ(例えば、メモリコスト)を小さくしつつ、論理式構造の一部をより多く表現可能な(例えば、再利用性が高い)部分論理式構造を列挙プランの中から選択してもよい。
 また、属性生成部82は、列挙プラン生成部81によって選択された部分論理式構造に応じて生成される新たな属性を記憶装置(例えば、中間データ記憶部13)に記憶させ、記憶装置に記憶された属性をもとに、他の論理式構造に応じた新たな属性を生成してもよい。
 このようにして記憶装置に記憶される新たな属性は、適切に2分割された論理式構造に基づいて生成されるものであり、空間サイズをより小さくすることが可能なため、メモリの消費を抑えることができる。また、このようにして選択された論理式構造は、より再利用性が高いものであるため、高速に新たな属性を列挙することができる。
 また、属性列挙システムは、属性生成部82により生成される属性の評価を行う属性評価部(例えば、逐次的属性評価部14)を備えていてもよい。このとき、属性生成部82は、各部分論理式構造に応じて新たな属性を生成するごとに、生成した属性を属性評価部に送信してもよい。
 このようにすることで、評価対象となる新たな属性を保持するメモリ空間をより小さくすることが可能なため、メモリ効率を高くすることが可能になる。
 また、列挙プラン生成部81は、属性の組合せを表す論理式表現に加法標準形(DNF)または連言標準形(CNF)を用いてもよい。加法標準形または連言標準形は、任意の論理式を等価変換可能なため、網羅性を担保できる。
 図13は、本発明による属性列挙システムの他の概要を示すブロック図である。本発明による属性列挙システムは、学習データ(例えば、2値行列X)の属性と、その属性の組合せ最大数(例えば、MaxLen)とから、属性の組合せを表す論理式表現(例えば、DNF、CNF)の組み合わせ方を表現した論理式構造(例えば、DNFラベル)の集合を生成し、生成された論理式構造の一部を表現する部分論理式構造(例えば、部分DNFラベル)との関係をグラフ構造(例えば、DAG)で表現した列挙プランを生成する列挙プラン生成部91(例えば、列挙プラン生成部11)と、部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成部92(例えば、DNF探索部12)とを備えている。
 列挙プラン生成部91は、属性生成部92によって生成される新たな属性を記憶するために必要な空間サイズ(例えば、メモリコスト)を小さくしつつ、論理式構造の一部をより多く表現可能な(例えば、再利用性が高い)部分論理式構造を列挙プランの中から選択する。
 そのような構成によっても、属性の網羅性を担保しつつ、メモリの消費を抑えて高速に新たな属性を列挙することができる。
 また、属性生成部92は、列挙プラン生成部91により選択された部分論理式構造に応じて生成される新たな属性を記憶装置(例えば、中間データ記憶部13)に記憶させ、記憶装置に記憶された属性をもとに、他の論理式構造に応じた新たな属性を生成してもよい。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2014年6月3日に出願された日本特許出願2014-114923を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 11 列挙プラン生成部
 12 DNF探索部
 13 中間データ記憶部
 14 逐次的属性評価部
 15 出力データ記憶部

Claims (15)

  1.  学習データの属性と当該属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造を生成して分割元の論理式構造に対応付けた列挙プランを生成する列挙プラン生成部と、
     生成された前記部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成部とを備え、
     前記列挙プラン生成部は、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように、論理式構造を2分割する
     ことを特徴とする属性列挙システム。
  2.  列挙プラン生成部は、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成し、属性生成部によって生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、論理式構造の一部をより多く表現可能な部分論理式構造を前記列挙プランの中から選択する
     請求項1記載の属性列挙システム。
  3.  属性生成部は、列挙プラン生成部によって選択された部分論理式構造に応じて生成される新たな属性を記憶装置に記憶させ、前記記憶装置に記憶された属性をもとに、他の論理式構造に応じた新たな属性を生成する
     請求項2記載の属性列挙システム。
  4.  属性生成部により生成される属性の評価を行う属性評価部を備え、
     属性生成部は、各部分論理式構造に応じて新たな属性を生成するごとに、生成した属性を前記属性評価部に送信する
     請求項1から請求項3のうちのいずれか1項に記載の属性列挙システム。
  5.  列挙プラン生成部は、属性の組合せを表す論理式表現に加法標準形または連言標準形を用いる
     請求項1から請求項4のうちのいずれか1項に記載の属性列挙システム。
  6.  学習データの属性と当該属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成する列挙プラン生成部と、
     前記部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成部とを備え、
     前記列挙プラン生成部は、前記属性生成部によって生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、前記論理式構造の一部をより多く表現可能な部分論理式構造を前記列挙プランの中から選択する
     ことを特徴とする属性列挙システム。
  7.  属性生成部は、列挙プラン生成部により選択された部分論理式構造に応じて生成される新たな属性を記憶装置に記憶させ、前記記憶装置に記憶された属性をもとに、他の論理式構造に応じた新たな属性を生成する
     請求項6記載の属性列挙システム。
  8.  学習データの属性と当該属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、
     生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造を生成して分割元の論理式構造に対応付けた列挙プランを生成し、
     生成された前記部分論理式構造に応じて各属性を組み合わせた新たな属性を生成し、
     列挙プランを生成する際、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように、論理式構造を2分割する
     ことを特徴とする属性列挙方法。
  9.  生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成し、
     生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、論理式構造の一部をより多く表現可能な部分論理式構造を前記列挙プランの中から選択する
     請求項8記載の属性列挙方法。
  10.  学習データの属性と当該属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、
     生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成し、
     部分論理式構造に応じて生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、前記論理式構造の一部をより多く表現可能な部分論理式構造を前記列挙プランの中から選択し、
     選択された部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する
     ことを特徴とする属性列挙方法。
  11.  選択された部分論理式構造に応じて生成される新たな属性を記憶装置に記憶させ、前記記憶装置に記憶された属性をもとに、他の論理式構造に応じた新たな属性を生成する
     請求項10記載の属性列挙方法。
  12.  コンピュータに、
     学習データの属性と当該属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された各論理式構造に含まれる論理式表現を2分割した部分論理式構造を生成して分割元の論理式構造に対応付けた列挙プランを生成する列挙プラン生成処理、および、
     生成された前記部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成処理を実行させ、
     前記列挙プラン生成処理で、各論理式構造から生成される2つの部分論理式構造に含まれる属性の数が均等になるように、論理式構造を2分割させる
     ための属性列挙プログラム。
  13.  コンピュータに、
     列挙プラン生成処理で、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成させ、属性生成処理で生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、論理式構造の一部をより多く表現可能な部分論理式構造を前記列挙プランの中から選択させる
     請求項12記載の属性列挙プログラム。
  14.  コンピュータに、
     学習データの属性と当該属性の組合せ最大数とから、属性の組合せを表す論理式表現の組み合わせ方を表現した論理式構造の集合を生成し、生成された論理式構造の一部を表現する部分論理式構造との関係をグラフ構造で表現した列挙プランを生成する列挙プラン生成処理、および、
     前記部分論理式構造に応じて各属性を組み合わせた新たな属性を生成する属性生成処理とを実行させ、
     前記列挙プラン生成処理で、前記属性生成処理で生成される新たな属性を記憶するために必要な空間サイズを小さくしつつ、前記論理式構造の一部をより多く表現可能な部分論理式構造を前記列挙プランの中から選択させる
     ための属性列挙プログラム。
  15.  コンピュータに、
     属性生成処理で、列挙プラン生成処理で選択された部分論理式構造に応じて生成される新たな属性を記憶装置に記憶させ、前記記憶装置に記憶された属性をもとに、他の論理式構造に応じた新たな属性を生成させる
     請求項14記載の属性列挙プログラム。
PCT/JP2015/000682 2014-06-03 2015-02-13 属性列挙システム、属性列挙方法および属性列挙プログラム WO2015186278A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US15/316,075 US10740677B2 (en) 2014-06-03 2015-02-13 Feature enumeration system, feature enumeration method and feature enumeration program
JP2016525668A JP6500896B2 (ja) 2014-06-03 2015-02-13 属性列挙システム、属性列挙方法および属性列挙プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2014-114923 2014-06-03
JP2014114923 2014-06-03

Publications (1)

Publication Number Publication Date
WO2015186278A1 true WO2015186278A1 (ja) 2015-12-10

Family

ID=54766365

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2015/000682 WO2015186278A1 (ja) 2014-06-03 2015-02-13 属性列挙システム、属性列挙方法および属性列挙プログラム

Country Status (3)

Country Link
US (1) US10740677B2 (ja)
JP (1) JP6500896B2 (ja)
WO (1) WO2015186278A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018180970A1 (ja) 2017-03-30 2018-10-04 日本電気株式会社 情報処理システム、特徴量説明方法および特徴量説明プログラム
WO2018180971A1 (ja) 2017-03-30 2018-10-04 日本電気株式会社 情報処理システム、特徴量説明方法および特徴量説明プログラム
JP2019049975A (ja) * 2017-09-07 2019-03-28 富士通株式会社 ディープラーニング分類モデルの訓練装置及び方法
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
US11514062B2 (en) 2017-10-05 2022-11-29 Dotdata, Inc. Feature value generation device, feature value generation method, and feature value generation program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6438741B1 (en) * 1998-09-28 2002-08-20 Compaq Computer Corporation System and method for eliminating compile time explosion in a top down rule based system using selective sampling
US7188091B2 (en) * 2001-03-21 2007-03-06 Resolutionebs, Inc. Rule processing system
US8909584B2 (en) * 2011-09-29 2014-12-09 International Business Machines Corporation Minimizing rule sets in a rule management system

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KAZUHISA MAKINO: "Logical Analysis of Data and Boolean Functions", PROCEEDINGS OF THE 1998 IEICE GENERAL CONFERENCE, vol. 1, no. TD-1-3, 6 March 1998 (1998-03-06), pages 476 - 477, XP003016182 *
KEN SADOHARA: "Feature selection using Boolean kernels for the learning of Boolean functions", IPSJ SIG NOTES, vol. 2004, no. 29, 17 March 2004 (2004-03-17), pages 187 - 192 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885011B2 (en) 2015-11-25 2021-01-05 Dotdata, Inc. Information processing system, descriptor creation method, and descriptor creation program
WO2018180970A1 (ja) 2017-03-30 2018-10-04 日本電気株式会社 情報処理システム、特徴量説明方法および特徴量説明プログラム
WO2018180971A1 (ja) 2017-03-30 2018-10-04 日本電気株式会社 情報処理システム、特徴量説明方法および特徴量説明プログラム
US11727203B2 (en) 2017-03-30 2023-08-15 Dotdata, Inc. Information processing system, feature description method and feature description program
JP2019049975A (ja) * 2017-09-07 2019-03-28 富士通株式会社 ディープラーニング分類モデルの訓練装置及び方法
JP7225614B2 (ja) 2017-09-07 2023-02-21 富士通株式会社 ディープラーニング分類モデルの訓練装置及び方法
US11514062B2 (en) 2017-10-05 2022-11-29 Dotdata, Inc. Feature value generation device, feature value generation method, and feature value generation program

Also Published As

Publication number Publication date
US20170109629A1 (en) 2017-04-20
US10740677B2 (en) 2020-08-11
JP6500896B2 (ja) 2019-04-17
JPWO2015186278A1 (ja) 2017-04-20

Similar Documents

Publication Publication Date Title
WO2015186278A1 (ja) 属性列挙システム、属性列挙方法および属性列挙プログラム
US11481440B2 (en) System and method for processing metadata to determine an object sequence
US20120066667A1 (en) Simulation environment for distributed programs
CN114282076B (zh) 一种基于秘密分享的排序方法和系统
CN103500185B (zh) 一种基于多平台数据生成数据表的方法和系统
Gupta Process mining a comparative study
Gavrilets Dynamics of clade diversification on the morphological hypercube
US10540360B2 (en) Identifying relationship instances between entities
Zhang et al. A multi-level self-adaptation approach for microservice systems
Seol et al. Design process modularization: concept and algorithm
Gupta Process mining algorithms
CN112306452A (zh) 归并排序算法处理业务数据的方法、装置及系统
JPWO2012115007A1 (ja) 故障の木解析システム、故障の木解析方法及びプログラム
Dasari et al. Maximal clique enumeration for large graphs on hadoop framework
CN105787013B (zh) 一种异构数据的类型名称分配方法及系统
Rusinaite et al. A systematic literature review on dynamic business processes
CN112070487A (zh) 基于ai的rpa流程的生成方法、装置、设备及介质
Varley Information theory for complex systems scientists
Steffen et al. Generating hard benchmark problems for weak bisimulation
WO2015045091A1 (ja) ベイジアンネットワークの構造学習におけるスーパーストラクチャ抽出のための方法及びプログラム
Weigert et al. Simulation-based scheduling of assembly operations
Lai et al. Exploiting and evaluating MapReduce for large-scale graph mining
Eloe et al. Efficient determination of spatial relations using composition tables and decision trees
Alomari et al. Anti-synchronisation of non-identical fractional order hyperchaotic systems
Ningombam et al. A knowledge interchange format (KIF) for robots in cloud

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15802679

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2016525668

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15316075

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15802679

Country of ref document: EP

Kind code of ref document: A1