WO2012169137A1 - パターン抽出装置及び方法 - Google Patents

パターン抽出装置及び方法 Download PDF

Info

Publication number
WO2012169137A1
WO2012169137A1 PCT/JP2012/003433 JP2012003433W WO2012169137A1 WO 2012169137 A1 WO2012169137 A1 WO 2012169137A1 JP 2012003433 W JP2012003433 W JP 2012003433W WO 2012169137 A1 WO2012169137 A1 WO 2012169137A1
Authority
WO
WIPO (PCT)
Prior art keywords
pattern
candidate
items
extraction
evaluation value
Prior art date
Application number
PCT/JP2012/003433
Other languages
English (en)
French (fr)
Inventor
櫻井 茂明
ルミ 早川
誠二 江川
Original Assignee
株式会社東芝
東芝ソリューション株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社東芝, 東芝ソリューション株式会社 filed Critical 株式会社東芝
Priority to EP12797476.4A priority Critical patent/EP2720154A4/en
Priority to US14/124,100 priority patent/US9569835B2/en
Priority to CN201280027950.2A priority patent/CN103597485B/zh
Publication of WO2012169137A1 publication Critical patent/WO2012169137A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach

Definitions

  • Embodiment of this invention is related with the control which extracts the combination pattern of an item from the target information containing a some item.
  • a pattern extraction apparatus is a pattern extraction apparatus that extracts a pattern of a combination of two or more different items existing in target information including a plurality of items, and stores a plurality of target information.
  • a candidate pattern generation unit that generates a candidate pattern composed of two or more different items based on each item included in each of the plurality of pieces of target information, and each of the generated candidate patterns includes a plurality of pieces of target information.
  • a candidate evaluation value calculation unit that calculates an extraction evaluation value of a candidate pattern based on the appearance frequency that appears, and a candidate pattern for which the calculated extraction evaluation value satisfies a predetermined threshold value are determined, and a candidate pattern that satisfies the threshold value is extracted
  • a second storage unit that stores the degree of association between items.
  • the candidate evaluation value calculation unit identifies the degree of association between each item included in the candidate pattern, and calculates the extracted evaluation value based on the weighted value and the appearance frequency based on the identified degree of association.
  • FIG. 1 shows the structural example of the pattern extraction apparatus of 1st Embodiment, and is a block diagram which shows the relationship between each part which comprises this apparatus.
  • the pattern extraction apparatus uses the relationship existing between the items, and features the items from the plurality of pieces of target information The control which extracts a typical combination (pattern) is performed.
  • pattern usually means a combination of two or more items, but in the following description, the term “pattern” may be used for a single item.
  • pattern means a pattern having the above “characteristic combination of items” in a narrow sense.
  • a pattern that is a candidate for extracting such a narrowly-defined pattern is referred to as a “pattern candidate” or a “candidate pattern”.
  • This device is used to discover characteristic combinations of purchased products in the sale of daily necessities such as supermarkets, discover characteristic causal relationships between store characteristics and types of administrative errors in banking operations, programs, etc. It can be used in fields such as discovery of viewer preference between viewer characteristics and viewing history in recommendation. However, these are merely examples, and the present invention is not limited to these.
  • FIG. 1 is a block configuration diagram of a pattern extraction apparatus 100 according to the present embodiment, and arrows connecting the blocks in the drawing indicate the direction in which data flows.
  • the apparatus includes a data storage unit 10 serving as a first storage unit that stores a set of transactions as a plurality of pieces of target information, and an inter-item information storage unit 20 serving as a second storage unit that stores information related to the relationship between items.
  • An item extraction unit 30 that extracts items from a set of transactions, a candidate pattern generation unit 40 that generates a pattern candidate (candidate pattern) by a combination of two or more different items using the extracted items, A candidate frequency calculation unit 50 that calculates the frequency at which a candidate pattern appears in a transaction, and a candidate evaluation value calculation unit 60 that calculates an extraction evaluation value for the candidate pattern using information on the frequency of the candidate pattern and the relationship between the items. And a candidate pattern whose calculated extraction evaluation value satisfies the reference value is extracted as a pattern. Including a candidate evaluating unit 70 and the pattern storing unit 80 that performs management, the.
  • This apparatus can be realized by storing data of a program for executing each process described later in an external storage medium such as a hard disk device (not shown) and reading the program into a personal computer (PC).
  • a storage device such as a hard disk device or a RAM of the computer functions as the data storage unit 10, the inter-item information storage unit 20, and the pattern storage unit 80, and a control device such as a CPU functions as the item extraction unit 30 and candidate pattern generation.
  • the data storage unit 10 functions as a transaction storage unit that stores data of a set of transactions (hereinafter, also referred to as “transaction group”) as target information, and also includes a minimum support described later. Data relating to the degree and data indicating the priority of the item arrangement are stored.
  • FIG. A transaction consists of a plurality of items (in this example, 6 items of “chicken”, “pork”, “beef”, “ ⁇ ”, “ ⁇ ”, “beer” which are actually purchased items).
  • FIG. 2 five transactions A01, A02, A03, A04, and A05 are stored (stored) in a predetermined storage area of the data storage unit 10 as a transaction group. The case where it was done is illustrated.
  • the data storage unit 10 includes transaction data in a form in which only product name information is used as an item, and a plurality of purchases do not exist even if there are a plurality of purchases. Will be stored.
  • the purchase list is associated with the purchase list.
  • Each transaction A01 to A05 is composed of one or more types of items shown in the purchase list. That is, the transaction A01 is composed of four items (in other words, four types of products, and so on), the transaction A02 is composed of three items, the transaction A03 is composed of four items, the transaction A04 is composed of two items, and the transaction A05 is composed of three items.
  • each item is identified by being separated by a predetermined symbol such as a comma.
  • a predetermined symbol such as a comma
  • the data relating to the minimum support level stored in the data storage unit 10 is numerical data set in advance by an analyst or the like, and in this embodiment, the numerical value is a reference value for extracting a frequent item described later. (Threshold) and also used as a reference value (threshold) for extracting a characteristic pattern from a candidate pattern composed of a plurality of items.
  • the numerical data of such minimum support is arbitrarily set according to the number of transactions constituting the transaction group to be used, the configuration of items, etc., by operating an operation input unit such as a mouse or a keyboard (not shown). Can be changed.
  • the minimum support value is 40%, but is not limited to this value.
  • the numerical value of the minimum support level is set to 40% in advance. However, different numerical values are set in advance for each pattern order or length (that is, the number of items constituting the pattern). You can also.
  • the data indicating the priority of the arrangement of items stored in the data storage unit 10 is referred to when generating a candidate pattern to be described later.
  • “chicken” from the higher priority “Pork”, “Beef”, “Salmon”, “Salmon”, “Beer”.
  • This data can be arbitrarily set and changed by operating an operation input unit such as a mouse or a keyboard (not shown).
  • the priority of the present embodiment is information that defines the arrangement order of a plurality of items constituting a pattern. For example, the priority is determined according to a certain rule such as an item category order, an item order within a category, a dictionary, or “Aiueo” order. It is for aligning a plurality of items based on it. By using the priority, for example, the candidate pattern generation process can be performed smoothly and quickly.
  • the inter-item information storage unit 20 stores data related to the relevance between items (hereinafter, also referred to as “inter-item knowledge”) constituting a transaction group to be used prior to a series of processes described later.
  • the inter-item knowledge data is data on the degree of association between the items (including the same item), more specifically, numerical data indicating the level of the degree of association. The higher the degree, the larger the value.
  • inter-item knowledge stored in the inter-item information storage unit 20 is shown in FIG.
  • a data table in which items existing in a transaction group are arranged in a matrix format is used as inter-item knowledge.
  • the inter-item knowledge indicates the degree of relationship between items by a numerical value in the range from 0 to 1, and in the following, the numerical value is referred to as “relevance”. Called.
  • the degree of association is defined such that the value increases as the relationship between items is strong (the degree of association is high), and the value decreases as the relationship is weak (the degree of association is low).
  • the maximum value 1 is given to the relevance level for the same item.
  • the specific numerical value of such relevance is determined by the number of categories or the structure of the category that is a superordinate concept of transaction items to be processed prior to processing by operating an operation input unit such as a mouse or a keyboard (not shown). Accordingly, analysts can arbitrarily set, change, etc.
  • n items existing in the transaction group are aligned in the row (i) direction and the column (j) direction.
  • a relevance matrix table that registers values of relevance between items in a matrix format (hereinafter, this matrix is also referred to as “relevance matrix”) that expresses the relationship between items in numerical values is used.
  • this relevance matrix table 1 is set as the maximum value, and a larger value is registered as the relevance between items increases.
  • the maximum value of 1 is registered between the same items (such as “chicken” and “chicken”, “pork” and “pork”), and different items (“chicken” and “pork” In “chicken” and “beer”, etc., a value corresponding to the strength of the relationship between items is registered.
  • the category to which the item belongs is the same, that is, between the meats (“chicken” and “pork”, “chicken” and “beef”, “pork” and “beef”), ”And“ ⁇ ”), a value of 0.5 is registered as an intermediate degree of relevance.
  • the category to which the item belongs is different, that is, an item belonging to the above-mentioned meat, an item belonging to fish, and a beer that is an item belonging to the beverage category are registered with a value of 0. Is done.
  • “inter-item knowledge” can be paraphrased as a value of relevance between items that is not desired to be extracted as a pattern (combination). That is, combinations of the same items (such as “chicken” and “chicken”, “pork” and “pork”) are set to the maximum value (1 in this example) so that they are not extracted as patterns during analysis, and the categories are the same.
  • the combination of items (for example, “chicken” and “pork”) is set to a value (0.5 in this example) that is somewhat difficult to extract as a pattern at the time of analysis. For “chicken” and “beer”), values (0 in this example) are set so that they are more easily extracted as patterns during analysis.
  • the item extraction unit 30 reads the data of the transaction group stored in the data storage unit 10 and performs a process of extracting frequently appearing items from the read data. Specifically, the item extraction unit 30 extracts items constituting each transaction from the data storage unit 10, and for each extracted item, the appearance frequency, that is, the number of transactions in which the item appears (hereinafter “item frequency”). Is also calculated). Information about the calculated item frequency is passed from the item extraction unit 30 to the candidate pattern generation unit 40. Furthermore, the item extraction unit 30 calculates a support level for the item based on the calculated item frequency, and the calculated value is a minimum support level (40 in this example) preset in the data storage unit 10 described above. %) Or more items are stored in the pattern storage unit 80 as frequent items.
  • the candidate pattern generation unit 40 generates a pattern candidate composed of a set of items while referring to the transaction group.
  • a pattern candidate (candidate pattern) of length m + 1 that satisfies a predetermined condition is generated from the frequent items or patterns while referring to the transaction group in the data storage unit 10.
  • the candidate pattern created by the candidate pattern generation unit 40 includes a secondary pattern (see FIG. 10) in which two frequent items are arranged, and a pattern having a length of 2 or more (see FIG. 11).
  • the higher-order pattern stored in the pattern storage unit 80 has a characteristic combination of items among patterns of two or more (secondary or higher) appearing in a plurality of transactions in the transaction group. The details of the extraction and storage processing will be described later.
  • the candidate frequency calculation unit 50 calculates the appearance frequency (number of transactions) appearing in the transaction group of the candidate pattern generated by the candidate pattern generation unit 40 for each candidate pattern, and the calculated frequency for each candidate pattern Is passed to the candidate evaluation value calculation unit 60.
  • the candidate evaluation value calculation unit 60 uses the value of the appearance frequency for each candidate pattern from the candidate frequency calculation unit 50 and the above-described knowledge between items (relevance matrix table) as an evaluation value for the candidate pattern.
  • An evaluation value (extraction evaluation value) reflecting the relationship between items is calculated so as to monotonously decrease with respect to an increase in the number of items constituting the item.
  • levance support level Such an evaluation value is referred to as “relevance support level”.
  • the candidate evaluation value calculation unit 60 calculates the relevance support level for each candidate pattern, and passes the calculated relevance support value to the candidate evaluation unit 70.
  • the candidate evaluation unit 70 determines, for each candidate pattern, whether or not the relevance support value from the candidate evaluation value calculation unit 60 satisfies a predetermined reference value, and the candidate pattern determined to satisfy the reference value is determined. Data is stored in the pattern storage unit 80.
  • the candidate evaluation unit 70 refers to the minimum support level set in the data storage unit 10 and the value of the relevance support level of the candidate pattern is equal to or higher than the minimum support level (40% in this example). It is determined whether or not there is, and a process of storing candidate pattern data of a minimum support level or more in the pattern storage unit 80 is performed. Through this process, “patterns” of candidate patterns, that is, those having a characteristic combination of items are extracted and stored in the storage area of the pattern storage unit 80.
  • the pattern storage unit 80 When the item extraction unit 30 or the candidate evaluation unit 70 stores frequent item or pattern data, the pattern storage unit 80 notifies the candidate pattern generation unit 40 that the data has been stored, and the pattern storage unit 80 The data is provided to the candidate pattern generation unit 40.
  • the frequent item or pattern data stored in the pattern storage unit 80 is displayed on a display unit such as an LCD (not shown) as needed automatically or automatically by the operation of the user's operation input unit. It can be printed out with a printer.
  • the pattern extraction apparatus 100 of this embodiment starts processing from step S1 of the flowchart of FIG.
  • step S ⁇ b> 1 the item extraction unit 30 reads a transaction group stored in the data storage unit 10.
  • the item data constituting the above-described transaction is read into the CPU work area (RAM) for each transaction number.
  • the data of “chicken”, “ ⁇ ”, “ ⁇ ”, “beer” are the items of transaction A01
  • the data of “chicken”, “pork”, “beer” are the items of transaction A02.
  • Data of “chicken”, “pork”, “ ⁇ ”, “beer” as items of transaction A03, data of “beef”, “ ⁇ ” as items of transaction A04, “chicken”, “ The data “ ⁇ ” and “ ⁇ ” are read respectively.
  • step S2 the candidate evaluation value calculation unit 60 reads the inter-item knowledge stored in the inter-item information storage unit 20.
  • numerical data between items registered in the relevance matrix table described above with reference to FIG. 3 is read into the work area (RAM) of the CPU. The read numerical data is used in the extraction evaluation value calculation process described later.
  • the item extraction unit 30 performs processing for extracting and storing items having a high appearance frequency (frequent items) according to the subroutine of FIG.
  • the item extraction unit 30 searches the set of transactions read in step S2 to extract all types of items that make up the transaction (step S31). For example, in the case of the transaction set in FIG. 2, the item extraction unit 30 extracts six types of items “chicken”, “pork”, “beef”, “ ⁇ ”, “ ⁇ ”, and “beer”.
  • the extracted item is treated as a candidate item, in other words, a primary (length 1) candidate pattern that can be a candidate for a characteristic pattern (see FIG. 6).
  • the item extraction unit 30 performs the following steps S32 to S35 for each item that has been taken out.
  • the item extraction unit 30 refers to the transaction group read in step S2 for one item among the extracted items, and calculates the number of transactions in which the item appears as an item frequency (step) S32). For example, in the case of the transaction group in FIG. 2, the item “chicken” is included in transactions A01, A02, A03, and A05, so “4” is calculated as the frequency of “chicken”.
  • step S35 the item extraction unit 30 frequently displays the item in step S35.
  • the item is stored in the pattern storage unit 80, and the process proceeds to step S36.
  • step S36 the item extraction unit 30 determines whether or not the processing for all items extracted in step S31 has been completed. If the processing has not yet been completed, the process returns to step S32 and the steps described above. The processes from S32 to S35 are repeated. On the other hand, when the processes for all items are completed, the process proceeds to step S37.
  • step S34 in the case of the above-mentioned item “chicken” whose support level is calculated to be 80%, since it is equal to or higher than the minimum support level (40%) (YES in step S34), it is stored in the pattern storage unit 80 as a frequent item.
  • the frequency of “2”, “1”, “3”, “3”, “3”, “3” “3” and “3” are calculated (step S32), and the support levels are calculated as “40%”, “20%”, “60%”, “60%”, and “60%”, respectively (step S33).
  • the frequency and support level of each item are calculated as a candidate pattern of length 1.
  • the frequent items stored in the pattern storage unit 80 are set so that the item extraction unit 30 sets the priority of item alignment in the data storage unit 10 described above.
  • the data is arranged according to a predetermined order.
  • the patterns are arranged in the priority order of “chicken”, “pork”, “mochi”, “mochi”, and “beer”.
  • an item that does not satisfy the minimum support level in this example, “beef” is excluded from the pattern candidates, and higher-order candidates are selected.
  • the frequent items are regarded as “patterns” (that is, characteristic combinations) in which the number of items constituting the pattern (pattern length) is 1.
  • step S37 the item extraction unit 30 refers to the pattern storage unit 80 to determine whether or not a frequent item is present. If it is determined that the frequent item is present, it is determined that the frequent item has been successfully extracted in step S4. On the other hand, if it is determined that the item does not exist, the process of the present apparatus is terminated because the extraction of the frequent items has failed. That is, when no frequent items are extracted in the process of step S3, the process in the present apparatus ends.
  • step S4 the candidate pattern generation unit 40 performs a process of generating pattern candidates according to the subroutine of FIG.
  • the candidate pattern generation unit 40 selects the pattern of the length m set in the previous step from the patterns stored in the pattern storage unit 80 (the frequent item of length 1 or the pattern of length 2 or more). It is determined whether there are two or more (step S42), and if NO, that is, it is determined that there are only one or one, the process is terminated as a candidate pattern cannot be generated, and YES, that is, two or more are determined. If so, all the corresponding patterns are extracted (step S43), and the process proceeds to step S44. In step S44, the candidate pattern generation unit 40 determines whether there are two patterns that match the candidate pattern generation conditions among all the extracted patterns. If it is determined that there is no pattern, the candidate pattern generation unit 40 generates a candidate pattern. If it is determined that it is not possible, the process is terminated.
  • m-1 patterns from the beginning are the same item and the last one item is different” is set.
  • the items need to be arranged according to a predetermined order.
  • priorities are assigned in the order of “chicken”, “pork”, “beef”, “mochi”, “mochi”, “beer”. Are aligned.
  • the candidate pattern generation unit 40 extracts two patterns that satisfy the candidate pattern generation condition in step S44 (step S45), aligns different items, and is a pattern candidate that is longer by 1 than the pattern length m set in step S41.
  • a process of generating (candidate pattern) is performed (step S46).
  • step S46 the candidate pattern generation unit 40 keeps the last two items different from each other for the m ⁇ 1 items common to the two extracted patterns so as to keep the order of the items.
  • the candidate pattern generation unit 40 provides the generated candidate pattern to the candidate frequency calculation unit 50 (step S47).
  • the candidate pattern generation unit 40 repeats the processing from step S45 to step S48 until all candidate patterns of length m + 1 are generated.
  • the processing of step S4 ends. That is, by repeatedly performing such pattern extraction and pattern candidate generation, all the items having the length of m + 1 from all the frequent items or patterns of length m stored in the pattern storage unit 80. Pattern candidates are generated.
  • the pattern length m is set to 1 in step S41, and the pattern having the length 1 shown in FIG. 7 (that is, a frequent item) is stored in the pattern storage unit 80.
  • the pattern storage unit 80 The frequent items stored in are arranged in the order of “chicken”, “pork”, “ ⁇ ”, “ ⁇ ”, and “beer” except for “beef”.
  • step S44 when the pattern length m is 1, there is no common item (that is, 0). 7 is the same item, and “the last one item is different”, and the combination of any two patterns in FIG. 7 satisfies the condition. For this reason, the candidate pattern generation unit 40 performs “chicken, pork”, “chicken, salmon”, “chicken, salmon”, “chicken, beer”, “pork, salmon”, “pork” according to the priorities of the items described above.
  • step S45 Pattern candidates (secondary candidate patterns) are generated in step S46 (see FIG. 10).
  • the information on the generated ten candidate patterns is provided to the candidate frequency calculation unit 50, and the processes in steps S5 to S9 described later are repeatedly executed for each candidate pattern.
  • the process returns from step S9 to step S5.
  • step S5 the candidate frequency calculation unit 50 determines whether there is any candidate pattern provided from the candidate pattern generation unit 40 for which the frequency calculation processing has not been completed, and the processing has not yet been completed. If there is, one candidate pattern is extracted and the process proceeds to step S6. If the frequency calculation process for all candidate patterns has been completed, the process of this apparatus returns to step S4 related to candidate pattern generation.
  • step S6 the candidate frequency calculation unit 50 refers to the set of transactions read in step S1 to determine the appearance frequency of the candidate, that is, the candidate pattern, for one extracted pattern candidate. Calculate the number of transactions included.
  • the transaction set shown in FIG. 2 is read in step S1
  • the pattern length m set in step S4 is 2, and “chicken, pork” is extracted as a pattern candidate in step S6. Since the candidate pattern is included in the transactions A02 and A03, 2 is calculated as the appearance frequency (see FIG. 10).
  • the other candidate patterns are “chicken, rice”, “chicken, rice”, “chicken, beer”, “pork, rice”, “pork, rice”, “pork, beer”, “wood, rice” , “Rice, Beer”, “Rice, Beer” are calculated as 3, 2, 3, 1, 0, 2, 2, 2, 1, respectively.
  • step S7 the candidate evaluation value calculation unit 60 uses the appearance frequency of the candidate pattern calculated in step S6 and the inter-item knowledge (relevance matrix table) read in step S2. By evaluating the relevance between them, an extraction evaluation value (hereinafter referred to as “relevance support”) that is smaller as the frequency is lower and smaller as the pattern is configured by highly related items is calculated. To do.
  • the candidate evaluation value calculation unit 60 calculates the support level of the candidate pattern from the appearance frequency calculated in Step 6 (Step S71).
  • the calculation of the support degree of the candidate pattern is the same as that of the above-described Equation 1, and “the number of transactions including the item” in the equation may be read as “the number of transactions including the pattern”.
  • the candidate evaluation value calculation unit 60 extracts all combinations of two items included in the candidate pattern.
  • the candidate evaluation value calculation unit 60 refers to (identifies) the inter-item knowledge read from the inter-item information storage unit 20 in step S2, and extracts all relevances corresponding to the extracted combinations.
  • the candidate evaluation value calculation unit 60 calculates a weight value based on the extracted relevance degree (step S74), and applies the calculated weight value to the support degree calculated in step S71, so that the candidate A pattern extraction evaluation value (relevance support level f (p)) is calculated (step S75).
  • the relevance support degree f (p) is f (p1) when the relationship of p1 ⁇ p2 (p1 is a subset of p2) holds for two patterns or pattern candidates p1 and p2.
  • ⁇ f (p2) must be defined so as to be established.
  • the candidate evaluation value calculation unit 60 needs to calculate a weight value so that a trade-off relationship is established with respect to the pattern length m.
  • weight value calculated by the candidate evaluation value calculation unit 60 a value obtained by subtracting the extracted degree of association from a predetermined value (for example, 1) can be used as the weight value.
  • a predetermined value for example, 1
  • the total value and the extracted relation are retained while the total value of the extracted degree of association and the weight value is held constant (for example, 1).
  • a difference value from the degree can be set as a weighted value.
  • the relevance support f (p) is defined as the weighted value and relevance support calculated by the candidate evaluation value calculation unit 60 as shown in Equation 2 below.
  • s (it i , it j ) represents the degree of association between the item it i and the item it j .
  • max ⁇ s (it i , it j ) ⁇ is the maximum value among the degrees of association between all items (it i , it j ) constituting the pattern.
  • the first term that is a weighted value uses the maximum value (max) of relevance between arbitrary items constituting the pattern, and subtracts the maximum value of relevance from constant 1. For this reason, the first term, which is the weight value, increases monotonically when the pattern length m increases, and decreases monotonically by subtracting the maximum value from constant 1 Value to be obtained.
  • the value of the denominator (total number of transactions) is a fixed value, while the value of the numerator monotonously decreases as the pattern length m increases. Therefore, it can be said that the relevance support f (p) obtained by multiplying the first term by the second term and multiplying by a constant decreases monotonously as the pattern length m increases.
  • “chicken, strawberry”, “chicken, beer”, “pork, strawberry”, “pork, strawberry”, “pork, beer”, “ ⁇ , strawberry”, “ ⁇ , beer”, “strawberry, beer” As shown in the column of relevance support in FIG. 10, 40%, 60%, 20%, 0%, 40%, 20%, 40%, and 20% are calculated, respectively. .
  • step S8 the candidate evaluation unit 70 compares the value of the minimum support level stored in the data storage unit 10 with the calculated value of the relevance support level f (p) of the candidate pattern. It is determined whether or not the value of the sex support f (p) satisfies the minimum support value that is a threshold value. At this time, when the candidate relevance support level f (p) is equal to or higher than the minimum support level (40% in this example), the candidate evaluation unit 70 selects the candidate pattern as a “pattern”, that is, a characteristic combination of items. In order to register as having, the process proceeds to step S9. On the other hand, when the relevance support level is less than the minimum support level, the process returns to step S5 without registering the candidate in the pattern storage unit 80, and the process for the next candidate pattern is performed.
  • step S9 the pattern candidate determined to be registered by the candidate evaluation unit 70 is stored in the pattern storage unit 80 as a pattern having a characteristic combination of items.
  • the minimum support level stored in the data storage unit 10 is 40%. Therefore, among the ten candidate patterns shown in FIG. 10, for the candidate patterns of “chicken, rice cake”, “chicken meat, rice cake”, “chicken meat, beer”, “pork meat, beer”, and “rice cake, beer”
  • step S8 it is determined that the reference value is satisfied, and the five patterns are registered as patterns in the pattern storage unit 80 as shown in FIG.
  • step S8 it is determined in step S8 that the standard value is not satisfied.
  • the candidate pattern data is discarded without being stored in the pattern storage unit 80.
  • the candidate patterns of “chicken, pork”, “pork, salmon”, “pork, salmon”, “salmon, salmon”, and “salmon, beer” are excluded from candidates for generating a candidate pattern of length 3. .
  • step S6 to step S9 when the processing of step S6 to step S9 is completed for all ten secondary candidate patterns shown in FIG. 10, the processing returns to step S4 through step S5, and the third candidate of length 3 Pattern generation is started.
  • a pattern of length 2 (secondary pattern) is displayed according to the priority of the item described above, “chicken, It is stored in the order of "salmon”, “chicken, salmon”, “chicken, beer”, “pork, beer”, “salmon, beer”. From this state, in step S41, the candidate pattern generation unit 40 sets the pattern length m to 2.
  • the candidate pattern generation unit 40 extracts all the patterns of FIG. 11 having a length m of 2 through step S42 (step S43), and generates candidate patterns to combine two patterns of length 2. The suitability of the condition is determined (step S44).
  • the candidate pattern generation condition in step S44 when the length m is 2, the maximum number of common items is 1, so that “chicken, salmon” and “chicken, salmon” “One pattern”, in other words, “chicken” which is the “first item” is common, and the last one item is different from each other, so that the candidate pattern generation condition is satisfied.
  • “chicken, salmon” and “pork, beer” do not match the “m-1 pattern in front”, that is, the “first item”, and therefore satisfy the candidate pattern generation conditions. Absent.
  • the candidate pattern generation unit 40 determines whether or not the candidate pattern generation conditions are appropriate in step S44, and “chicken, rice cake”, “chicken meat, rice cake”, “chicken meat, rice cake”, “chicken meat, beer”, “chicken meat” , ⁇ ”and“ chicken, beer ”are determined to satisfy the candidate pattern generation condition, and the three sets are taken out in step S45. Further, in step S46, candidate pattern generation unit 40 generates “chicken, salmon, salmon” from “chicken, salmon” and “chicken, salmon” as the third candidate pattern having a length of 3, respectively.
  • Step S5 to S9 described above are repeatedly executed. When the processes for all three candidate patterns are completed, the process returns from step S9 to step S5.
  • the candidate frequency calculation unit 50 extracts one unprocessed candidate pattern “chicken, salmon, salmon” from the candidate patterns provided from the candidate pattern generation unit 40, and performs the frequency calculation processing in step S6. I do.
  • the frequency “2” is calculated by the candidate frequency calculation unit 50 (step S6), and the support score 40 is calculated by the candidate evaluation value calculation unit 60. (%) Is calculated (step S71).
  • step S5 the candidate frequency calculation unit 50 extracts one unprocessed candidate pattern “chicken, salmon, beer” from the candidate patterns of length 3 provided from the candidate pattern generation unit 40.
  • the frequency calculation process of step S6 is performed.
  • the frequency “2” is calculated by the candidate frequency calculation unit 50 (step S6), and the support score 40 is calculated by the candidate evaluation value calculation unit 60. (%) Is calculated (step S71).
  • step S9 the data is stored in the pattern storage unit 80 (see FIG. 13).
  • step S5 the candidate frequency calculation unit 50 extracts one unprocessed candidate pattern “chicken, rice cake, beer” from the candidate patterns provided from the candidate pattern generation unit 40, and calculates the frequency in step S6. Process. In this case, since “chicken, straw, beer” is included only in the transaction A01, the frequency “1” is calculated by the candidate frequency calculation unit 50 (step S6), and the support level 20 ( %) Is calculated (step S71).
  • step S6 to step S9 when the processing of step S6 to step S9 is completed for all three tertiary candidate patterns shown in FIG. 12, the process returns to step S4 via step S5.
  • the pattern length m is set to 3 (step S41), but only one pattern with a length m of 3 is stored in the pattern storage unit 80 as shown in FIG. Therefore, it is impossible to generate a candidate pattern having a length of 4 by extracting a combination of patterns that satisfy the candidate pattern generation condition (NO in step S42). Accordingly, in this case, it is assumed that the candidate pattern cannot be generated in step S45 by the candidate pattern generation unit 40, and the processing in this apparatus is terminated.
  • the relevance support f (p) of the candidate patterns “chicken, strawberry”, “chicken, beer”, and “strawberry, beer” of length 2 is 40%, 60% and 20% (see FIG. 10), and the relevance support f (p) of the candidate pattern “chicken, rice cake, beer” of length 3 including these three candidate patterns is 20% (see FIG. 12). ). Therefore, according to the calculation result of the candidate evaluation value calculation unit 60 using Equation 2, it can be confirmed that the relevance support degree that is the extracted evaluation value monotonously decreases as the pattern length increases. it can.
  • the pattern extraction apparatus 100 considers the relevance between items when calculating the extraction evaluation value for the candidate pattern, and relatively calculates the weight value of the candidate pattern including the highly related item.
  • candidate patterns containing highly related items are relatively difficult to extract, and patterns that are composed of highly related items that seem obvious to analysts Can be prevented, and a pattern composed of items that are considered to be of interest to the analyst and that are not highly related to each other can be efficiently extracted.
  • a candidate pattern with an appearance frequency of 2 from the transaction in FIG. “Chicken, pork” and “fish, salmon” between fishes are also extracted as patterns.
  • Such a pattern composed of highly related items has a strong impression that it is obvious (obviously) to the analyst, and is not an interesting pattern.
  • the candidate pattern since the candidate pattern includes an item having a certain appearance frequency and low relevance, the above-described “chicken, It is possible to avoid the extraction of “pork” and “salmon, salmon” as patterns.
  • the transaction as the target information described in the present embodiment has been illustrated with a very small structure for the sake of simplicity of explanation, but in actuality, it deals with more types of items and a large amount of items. Transactions can be targeted. For this reason, if patterns are extracted based on the minimum support level without considering the relationship between items, a large number of patterns composed of items that are highly related to each other may be extracted. There is a risk that patterns made up of products (items) of different categories such as “pork, rice cake” will be buried in patterns of many similar products. Therefore, when a pattern is extracted based on the minimum support level without considering the relationship between items, it is considered extremely difficult to efficiently find a pattern that attracts the analyst's interest.
  • the relevance between items included in the candidate pattern is extracted from the inter-item information storage unit 20 in consideration of the relevance between items, and extracted.
  • the configured pattern can be extracted efficiently. Therefore, according to the pattern extraction apparatus 100 of the present embodiment, it is possible to efficiently find an important pattern that attracts the analyst's interest.
  • Equation 2 is adopted as a method of calculating the relevance support level that is the extracted evaluation value, but the definition formula of relevance support that satisfies monotonicity is as shown in Equation 3 and Equation 4 below. The definition can also be given.
  • Equation 3 when Expression 3 is used, the degree of association between items is added in the first term that is a weighted value, and when the added value becomes 1 or more, the first term and thus the degree of association support f (p ) Value is 0. Therefore, it can be seen that Equation 3 also has a definition that monotonously decreases with respect to the pattern length (increase in the number of item components).
  • Equation 4 the first term as a weighted value is multiplied by the relevance of items, so if the values of the relevance matrix of the embodiment are used as they are, for example, “chicken” and “beer” ", The value of the first term and thus the relevance support f (p) is zero. Therefore, in this case, as another embodiment of inter-item knowledge, the degree of association between the same items may be set to 0, and the degree of association between items having the lowest relevance may be set to 1.
  • step S37 when the frequent item does not exist in the pattern storage unit 80 in the determination of step S37 by the item extraction unit 30, the processing of this apparatus is terminated.
  • the item extraction unit 30 performs a process of subtracting a predetermined value (for example, 20%) from the minimum support value (40% in the above example).
  • the frequent item extraction process (step S3) may be performed again so that an item with a support level equal to or higher than the later minimum support level is extracted as a frequent item.
  • it is preferable to inform the analyst by appropriately displaying on the display unit that the value of the minimum support is calculated by decreasing the value of the minimum support and the value of the minimum support used for the calculation.
  • the frequent items extracted and stored in the pattern storage unit 80 are very large, for example, when the frequent items to be extracted are a predetermined number or more, or step S31.
  • the item extraction unit 30 sets the minimum support value to a predetermined value (for example, 20%) when items of a predetermined ratio (%) or more set in advance are stored as frequent items. It is also possible to perform the process of step S3 again so as to extract the items with the support level equal to or higher than the minimum support level after the change as frequent items by performing the increase process. In this case as well, it is preferable to inform the analyst by appropriately displaying on the display unit that the calculation is performed by increasing the value of the minimum support and the value of the minimum support used for the calculation.
  • FIG. 14 is a flowchart for explaining the operation of the pattern extraction device according to another embodiment.
  • the pattern storage unit 80 stores the pattern in step S51. The presence / absence is determined, and if there is a pattern, the process returns to step S4. On the other hand, if there is no pattern, a predetermined value (for example, 20%) is subtracted from the minimum support value (40% in the above example) in step S52. And the determination process of step S8 is performed again for each candidate pattern with the minimum support after the change.
  • a predetermined value for example, 20%
  • the minimum support value is decreased. It is good also as performing the process to increase or the process to increase the value of minimum support, and to perform the determination process of step S8 again for every candidate pattern.
  • the degree of association is defined for the relationship between two items as the knowledge between items stored in the item-to-item information storage unit 20, but the present invention is not limited to this. Relevance can also be defined for more than two items by giving it monotonicity with respect to item growth.
  • the pattern extraction apparatus 100 is used for finding a characteristic combination of purchased products in the sale of daily necessities.
  • one transaction is used for each viewer, and the viewer The viewed program can be used as an item.
  • Each process described above can be realized as a computer-executable program, and the computer in which the program is installed can operate as an information processing apparatus that performs each process according to the embodiment.
  • the program is stored in an auxiliary storage device (not shown), and a control unit such as a CPU reads the program stored in the auxiliary storage device to the main storage device, and the control unit reads the program read to the main storage device. It is possible to execute and cause the computer to operate each process according to the embodiment.
  • the program can be applied to a computer in a state where the program is recorded on a computer-readable recording medium, and can also be downloaded to a computer through a network such as the Internet.
  • Computer-readable recording media include optical disks such as CD-ROM, phase-change optical disks such as DVD-ROM, magneto-optical disks such as MO (Magnet Optical) and MD (Mini Disk), floppy (registered trademark) disks, Examples include magnetic disks such as removable hard disks, memory cards such as compact flash (registered trademark), smart media, SD memory cards, and memory sticks.
  • a hardware device such as an integrated circuit (IC chip or the like) specially designed and configured is also included as a recording medium.
  • each unit illustrated in FIG. 1 is configured by one computer.
  • the present invention is not limited to this, and each unit illustrated in FIG. It can also be configured as a computer system connected via a line.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

複数のアイテムを含む対象情報から、アイテム間の関連性を反映させたパターン抽出の制御を行うために、実施形態のパターン抽出装置は、複数の対象情報を記憶する第1記憶部と、複数の対象情報それぞれに含まれる各アイテムに基づいて、相互に異なる2以上のアイテムで構成される候補パターンを生成する候補パターン生成部と、生成された候補パターンが複数の対象情報それぞれに出現する出現頻度に基づいて、候補パターンの抽出評価値を算出する候補評価値算出部と、算出された抽出評価値が所定の閾値を満たす候補パターンを判別して抽出するパターン抽出部と、アイテム間の関連度を記憶する第2記憶部とを含み、候補評価値算出部は、候補パターンに含まれる各アイテム間の関連度を識別し、識別された関連度に基づく加重値及び出現頻度に基づいて、抽出評価値を算出する。

Description

パターン抽出装置及び方法
 本発明の実施形態は、複数のアイテムを含む対象情報からアイテムの組合せパターンを抽出する制御に関する。
 従来から各種の活動や事象などを分析するために、複数のアイテムで構成された対象情報から、分析目的等に応じた特定のパターンすなわちアイテムの組合せを、効率良く抽出するための装置や方法が研究されている。
特開2003-76937号公報
 アイテムを含む複数の対象情報から、アイテム間の関連性を反映させて、特定のパターンを抽出させるパターン抽出装置及び方法を提供する。
 実施形態のパターン抽出装置は、複数のアイテムを含む対象情報内に存在する相互に異なる2以上のアイテムの組合せのパターンを抽出するパターン抽出装置であって、複数の対象情報を記憶する第1記憶部と、複数の対象情報それぞれに含まれる各アイテムに基づいて、相互に異なる2以上のアイテムで構成される候補パターンを生成する候補パターン生成部と、生成された候補パターンが複数の対象情報それぞれに出現する出現頻度に基づいて、候補パターンの抽出評価値を算出する候補評価値算出部と、算出された抽出評価値が所定の閾値を満たす候補パターンを判別し、閾値を満たす候補パターンを抽出するパターン抽出部と、を含むとともに、アイテム間の関連度を記憶する第2記憶部をさらに含む。候補評価値算出部は、候補パターンに含まれる各アイテム間の関連度を識別し、識別された関連度に基づく加重値及び出現頻度に基づいて、抽出評価値を算出する。
第1実施形態のパターン抽出装置の構成例を示す図であり、本装置を構成する各部間の関係を示すブロック図である。 データ格納部に格納される対象情報としてのトランザクション群の一例を示す図である。 アイテム間情報記憶部に記憶される関連度行列テーブルの一例を示す図である。 パターン抽出装置の動作を説明するためのフローチャートである。 アイテム抽出部が行う処理を説明するためのサブルーチンである。 長さが1となる候補パターンの頻度と支持度の一例を示す図である。 パターン格納部に格納される長さ1のパターンの一例を示す図である。 候補パターン生成部が行う処理を説明するためのサブルーチンである。 候補評価値算出部が行う処理を説明するためのサブルーチンである。 長さが2となる候補パターンの頻度と関連性支持度の一例を示す図である。 パターン格納部に格納される長さ2のパターンの一例を示す図である。 長さが3となる候補パターンの頻度と関連性支持度の一例を示す図である。 パターン格納部に格納される長さ3のパターンの一例を示す図である。 パターン抽出装置の他の実施形態の動作を説明するためのフローチャートである。
 以下、実施形態につき、図面を参照して説明する。
 実施形態に係るパターン抽出装置は、複数のアイテム(情報要素)を含む対象情報が複数与えられた場合に、アイテム間に存在する関係を利用して、当該複数の対象情報の中からアイテムの特徴的な組合せ(パターン)を抽出する制御を遂行するものである。
 なお、「パターン」の用語は、通常は2以上のアイテムの組合せを意味するが、以下の説明では、単一のアイテムに対しても「パターン」の用語が用いられる場合がある。一方、「パターン」の用語は、狭義には、上記「アイテムの特徴的な組合せ」を有するパターンを意味する。そして、かかる狭義のパターンを抽出するための候補となるパターンを「パターンの候補」または「候補パターン」と称する。
 本装置は、例えば、スーパーマーケットなどの日用品の販売における、購入商品の特徴的な組合せの発見、銀行業務における、店舗の特性と事務ミスの種類との間にある特徴的な因果関係の発見、番組推薦における、視聴者特性と視聴履歴との間にある視聴者の嗜好の発見などの分野に利用することができる。但し、これらは例示であって、これに限定されるものではない。
 以下の説明では、スーパーマーケットなどの日用品(食品)の販売業における商品をアイテムとして本装置で扱う場合について説明する。具体的には、あるスーパーマーケットでの食品を販売するフロアにおいて、購入者が購入した商品(食品)の特徴的な組合せ(すなわち「パターン」)を抽出、発見するために、商品購入者の一枚のレシートを1個の対象情報(トランザクション)とし、レシートに記載された商品(食品名等の品名)をアイテムとして扱う場合について説明する。
 図1から図13は、第1実施形態を示す図である。図1は、本実施形態のパターン抽出装置100のブロック構成図であり、図中の各ブロックを結線する矢印は、データの流れる方向を示している。本装置は、複数の対象情報としてトランザクションの集合を記憶する第1記憶部としてのデータ格納部10と、アイテム間の関連性に関する情報を記憶する第2記憶部としてのアイテム間情報格納部20と、トランザクションの集合からアイテムを抽出するアイテム抽出部30と、抽出されたアイテムを用いて、相互に異なる2以上のアイテムの組合せによるパターンの候補(候補パターン)を生成する候補パターン生成部40と、候補パターンがトランザクションに出現する頻度を算出する候補頻度算出部50と、候補パターンの頻度及び前記アイテム間の関連性に関する情報を用いて、候補パターンに対する抽出評価値を算出する候補評価値算出部60と、算出された抽出評価値が基準値を満たす候補パターンをパターンとして抽出する処理を行う候補評価部70およびパターン格納部80と、を含む。
 本装置は、後述する各処理を実行するプログラムのデータを図示しないハードディスク装置などの外部記憶媒体に格納し、かかるプログラムをパーソナルコンピュータ(PC)に読み込ませることで実現することができる。この場合、例えば当該コンピュータのハードディスク装置やRAMなどの記憶デバイスがデータ格納部10、アイテム間情報格納部20、パターン格納部80として機能し、CPUなどの制御デバイスがアイテム抽出部30、候補パターン生成部40、候補頻度算出部50、候補評価値算出部60、及び候補評価部70として機能することができる。
 データ格納部10は、後述する一連の処理に先立って、対象情報であるトランザクションの集合(以下、「トランザクション群」ともいう。)のデータを記憶するトランザクション記憶部として機能するとともに、後述する最小支持度に関するデータ、及び、アイテムの整列の優先度を示すデータを格納する。
 データ格納部10に記憶される対象情報としてのトランザクション群の一例を図2に示す。トランザクションは、複数のアイテム(この例では実際に購入された商品である「鶏肉」、「豚肉」、「牛肉」、「鮪」、「鯵」、「ビール」の6個すなわち6種のアイテム)の内の1種以上のアイテムで構成されたものであり、図2ではA01、A02、A03、A04、A05の5個のトランザクションがトランザクション群としてデータ格納部10の所定記憶領域に記憶(格納)された場合を例示している。
 スーパーマーケットなどの日用品の販売業を対象とした場合、購入商品の一覧が記載された1枚のレシートが1つのトランザクション(例えばA01)に相当する。ただし、この例では、レシートに記載されている商品の金額や購入個数には着目しておらず、商品が購入されたかどうかに関する情報のみに着目している。このため、データ格納部10には、図2に例示したように、商品名の情報のみをアイテムとし、購入個数が複数であっても1つの商品名が複数個存在しない形態のトランザクションのデータが格納されることになる。
 本実施形態では、データ格納部10に格納されるトランザクション群のデータ構造として、各トランザクションを識別するためのトランザクション番号(A01~A05)と、当該トランザクションを構成するアイテムの一覧を示すアイテムリスト(この例では購入リスト)と、が対応付けられた構造となっている。A01乃至A05の各トランザクションは、購入リストに示す1又は複数種類のアイテムから構成される。すなわち、トランザクションA01では4つのアイテム(換言すると4種類の商品、以下同様)、トランザクションA02では3つのアイテム、トランザクションA03では4つのアイテム、トランザクションA04では2つのアイテム、トランザクションA05では3つのアイテムで構成されていることが分かる。各トランザクションにおいて、各々のアイテムは、カンマ等の所定の記号で区切られることにより識別される。ここでは簡明のため、トランザクション群を構成する全てのトランザクションが複数のアイテムからなる場合を説明するが、1つ以上のアイテムがあればトランザクションとして成立し得る。
 また、データ格納部10に格納される最小支持度に関するデータは、分析者等により予め設定される数値データであり、本実施形態では、かかる数値は、後述する頻出アイテムを抽出するための基準値(閾値)であるとともに、複数のアイテムで構成された候補パターンから特徴的なパターンを抽出するための基準値(閾値)としても使用される。かかる最小支持度の数値データは、図示しないマウスやキーボードなどの操作入力部の操作により、処理に先立って、使用されるトランザクション群を構成するトランザクションの数やアイテムの構成等に応じて任意に設定、変更等することができる。
 以下は最小支持度の数値を40%とした場合について説明するが、この値に限定されるものではない。また、以下は最小支持度の数値を予め一律40%に設定した場合について説明するが、パターンの次数ないし長さ(すなわち当該パターンが構成されるアイテムの個数)毎に異なる数値を予め設定することもできる。
 さらに、データ格納部10に格納されるアイテムの整列の優先度を示すデータは、後述する候補パターン生成の際に参照されるものであり、本例では、優先度の高い方から「鶏肉」、「豚肉」、「牛肉」、「鮪」、「鯵」、「ビール」の順となっている。このデータも、処理に先立って、図示しないマウスやキーボードなどの操作入力部の操作により、任意に設定、変更等することができる。本実施形態の優先度は、パターンを構成する複数のアイテムの整列順を規定する情報であり、例えば、品目のカテゴリ順、カテゴリ内の品目順、辞書や「あいうえお」順等の一定のルールに基づいて複数のアイテムを整列させるためのものである。当該優先度を用いることで、例えば、候補パターンの生成処理を円滑かつ迅速に行うことができる。
 アイテム間情報格納部20は、後述する一連の処理に先立って、使用されるトランザクション群を構成する各アイテム間の関連性に関する情報(以下「アイテム間知識」ともいう。)のデータを記憶する。アイテム間知識のデータは、各アイテム相互間(同一アイテム間をも含む)の関連度のデータ、より詳細には、関連度の高低を示す数値データであり、本実施形態では、アイテム間の関連度が高いほど大きな数値となる。
 アイテム間情報格納部20に記憶されるアイテム間知識の一例を図3に示す。本例では、アイテム間知識として、トランザクション群中に存在する各アイテムを行列形式で配置したデータテーブルを使用している。ここで、アイテム間知識は、アイテムとアイテムとの間にどの程度の関係があるかを、0から1までの範囲の数値によって示したものであり、以下は、当該数値を「関連度」と称する。ここで、関連度は、アイテム間の関係が強い(関連度が高い)程その値が大きくなり、関係が弱い(関連度が低い)程その値が小さくなるように定義される。また、同一のアイテムに対する関連度は、最大値の1が与えられる。かかる関連度の具体的な数値は、図示しないマウスやキーボードなどの操作入力部の操作により、処理に先立って、処理対象となるトランザクションのアイテムの上位概念となるカテゴリの数やカテゴリの構造などに応じて、分析者らが任意に設定、変更等することができる。
 図3の例では、アイテム間情報格納部20に記憶されるアイテム間知識として、トランザクション群中に存在するn個の各アイテムを行(i)方向及び列(j)方向に整列し、2つのアイテム間の関係を数値で表した行列(以下、この行列を「関連度行列」とも称する。)形式により各アイテム同士の関連度の値を登録する関連度行列テーブルが用いられる。この関連度行列テーブルでは、1を最大値として、アイテム同士の関連度が高くなるほど大きな値が登録される。具体的には、同一のアイテム間(「鶏肉」と「鶏肉」、「豚肉」と「豚肉」など)には最大値である1が登録され、異なるアイテム同士(「鶏肉」と「豚肉」、「鶏肉」と「ビール」など)には、アイテム間の関係の強さに応じた値が登録される。この例では、アイテムの属するカテゴリが同じである場合、すなわち肉類同士(「鶏肉」と「豚肉」、「鶏肉」と「牛肉」、「豚肉」と「牛肉」)の場合、魚類同士(「鮪」と「鯵」)の場合には中程度の関連度として0.5の値が登録される。一方、アイテムの属するカテゴリが異なる場合、すなわち上記肉類に属するアイテムと、魚類に属するアイテムと、飲料品のカテゴリに属するアイテムであるビールと、の間には関連がないものとして0の値が登録される。
 なお、本実施形態において、「アイテム間知識」は、パターン(組合せ)として抽出したくないアイテム間の関連性の値と言い換えることもできる。すなわち、同じアイテム同士の組合せ(「鶏肉」と「鶏肉」、「豚肉」と「豚肉」など)は、分析時にパターンとして抽出しないように最大値(本例では1)が設定され、カテゴリが同じアイテムの組合せ(例えば「鶏肉」と「豚肉」)は、分析時にパターンとしてやや抽出しにくいような値(本例では0.5)が設定され、さらに、カテゴリが大きく異なるアイテムの組合せ(例えば「鶏肉」と「ビール」)は、分析時にパターンとしてより抽出されやすいような値(本例では0)が設定されることになる。
 アイテム抽出部30は、データ格納部10に格納されたトランザクション群のデータを読み出し、読み出されたデータから頻出するアイテムを抽出する処理を行う。具体的には、アイテム抽出部30は、データ格納部10から各トランザクション毎に構成するアイテムを抽出し、抽出されたアイテム毎に、その出現頻度すなわちアイテムが出現するトランザクションの個数(以下「アイテム頻度」ともいう)を算出する。算出されたアイテム頻度の情報は、アイテム抽出部30から候補パターン生成部40に渡される。さらに、アイテム抽出部30は、算出されたアイテム頻度に基づいて、当該アイテムに対する支持度を算出し、該算出値が上述したデータ格納部10に予め設定されている最小支持度(この例では40%)以上となるアイテムのみを、頻出アイテムとしてパターン格納部80に格納する。
 ここで、任意の1つのアイテム(it)に対する支持度の具体的な算出方法は、下記の数式1に従う。
Figure JPOXMLDOC01-appb-M000001
 候補パターン生成部40は、トランザクション群を参照しつつ、アイテムの集合で構成されたパターンの候補を生成する。具体的には、候補パターン生成部40は、後述するパターン格納部80に格納された長さmのパターン(m=1の上述した頻出アイテム又は後述する高次(mは2以上)のパターン)を読み込み、データ格納部10内のトランザクション群を参照しながら、頻出アイテムまたはパターンから、所定条件を満たす長さm+1のパターンの候補(候補パターン)を生成する。候補パターン生成部40が作成する候補パターンには、頻出アイテムを2個ずつ並べた2次パターン(図10参照)、長さが2以上のパターン(図11参照)に対して当該パターンに含まれるアイテムのうち所定条件を満たすアイテムを加えた3次以上のパターン(図12参照)があり、かかる所定条件及び候補パターン生成部40が行う処理の詳細については後述する。
 また、パターン格納部80に格納された高次のパターンは、トランザクション群中の複数のトランザクションに出現する長さが2以上(2次以上)のパターンの内、アイテムの特徴的な組合せを有するものとして抽出、格納されたものであり、かかる抽出、格納の処理の詳細については後述する。
 候補頻度算出部50は、候補パターン生成部40により生成された候補パターンのトランザクション群中に出現する出現頻度(トランザクションの数)を、候補パターン毎に算出し、該算出された候補パターン毎の頻度の値を候補評価値算出部60に渡す。
 候補評価値算出部60は、候補頻度算出部50からの候補パターン毎の出現頻度の値と、上述したアイテム間知識(関連度行列テーブル)とを用いて、候補パターンに対する評価値として、当該パターンを構成するアイテム数の増大に対して単調に減少するように、アイテム間の関連性を反映させた評価値(抽出評価値)を算出する。以下、かかる評価値を「関連性支持度」と称する。候補評価値算出部60は、候補パターン毎に関連性支持度を算出し、該算出された関連性支持度の値を候補評価部70に渡す。
 候補評価部70は、候補評価値算出部60からの関連性支持度の値が所定の基準値を満たすか否かを候補パターン毎に判定し、かかる基準値を満たすと判定された候補パターンのデータをパターン格納部80に格納する。本実施形態では、候補評価部70は、データ格納部10に設定された最小支持度を参照して、当該候補パターンの関連性支持度の値が最小支持度(本例では40%)以上であるか否かを判定し、最小支持度以上の候補パターンのデータをパターン格納部80に格納する処理を行う。かかる処理により、候補パターンの内の「パターン」すなわちアイテムの特徴的な組合せを有するものが抽出され、パターン格納部80の記憶領域に保存される。
 パターン格納部80は、アイテム抽出部30または候補評価部70により頻出アイテムまたはパターンのデータが格納されると、当該データが格納された旨を候補パターン生成部40に通知し、格納されたパターンのデータを候補パターン生成部40に提供する。また、パターン格納部80に格納された頻出アイテムまたはパターンのデータは、格納に伴って自動で或いはユーザの操作入力部の操作により、適宜、図示しないLCDなどの表示部に表示したり不図示のプリンタなどで印字出力することができる。
 以下、フローチャートを参照して、パターン抽出装置100の詳細な処理内容について説明する。
 本実施形態のパターン抽出装置100は、図4のフローチャートのステップS1から処理を開始する。ステップS1では、アイテム抽出部30が、データ格納部10に格納されているトランザクション群の読み込みを行なう。かかる処理により、上述のトランザクションを構成するアイテムのデータが、各トランザクション番号毎にCPUの作業領域(RAM)に読み込まれる。図2の例では、トランザクションA01のアイテムとして「鶏肉」、「鮪」、「鯵」、「ビール」のデータが、トランザクションA02のアイテムとして「鶏肉」、「豚肉」、「ビール」のデータが、トランザクションA03のアイテムとして「鶏肉」、「豚肉」、「鮪」、「ビール」のデータが、トランザクションA04のアイテムとして「牛肉」、「鯵」のデータが、トランザクションA05のアイテムとして「鶏肉」、「鮪」、「鯵」のデータが、それぞれ読み込まれる。
 ステップS2では、候補評価値算出部60が、アイテム間情報格納部20に格納されているアイテム間知識の読み込みを行なう。かかる処理によって、図3で上述した関連度行列テーブルに登録された各アイテム間の数値データがCPUの作業領域(RAM)に読み込まれる。読み込まれた数値データは、後述する抽出評価値算出の処理で使用されることになる。
 続くステップS3では、アイテム抽出部30が図5のサブルーチンに従って、出現頻度の高いアイテム(頻出アイテム)の抽出及び格納の処理を行う。まず、アイテム抽出部30は、ステップS2で読み込まれたトランザクションの集合をサーチすることにより、トランザクションを構成するアイテムの種類をすべて抽出する(ステップS31)。例えば、図2のトランザクションの集合の場合、アイテム抽出部30は、「鶏肉」、「豚肉」、「牛肉」、「鮪」、「鯵」、「ビール」の6種類のアイテムを抽出する。本実施形態では、抽出されたアイテムは、候補アイテムとして扱われ、換言すると、特徴的なパターンの候補となり得る1次(長さ1)の候補パターンとして扱われる(図6参照)。
 次に、アイテム抽出部30は、取り出された各アイテムに対して、アイテムごとに、以下のステップS32乃至ステップS35の処理を行う。まず、アイテム抽出部30は、取り出された各アイテムの内、1つのアイテムについて、ステップS2で読み込まれたトランザクション群を参照して、当該アイテムが出現するトランザクションの個数をアイテム頻度として算出する(ステップS32)。例えば、図2のトランザクション群の場合、アイテム「鶏肉」は、トランザクションA01、A02、A03、A05に含まれているため、「鶏肉」の頻度として「4」が算出される。
 次に、アイテム抽出部30は、算出された当該アイテムの頻度に基づいて、上述した数式1によりアイテムに対する支持度を算出し(ステップS33)、その値がデータ格納部10に予め設定されている最小支持度以上となるか否かを判定する(ステップS34)。例えば、頻度が4と算出された上述のアイテム「鶏肉」の場合、トランザクションの総数が5であるため、その支持度は(4/5×100=)80%となる。
 このとき、アイテム抽出部30は、算出されたアイテムの支持度がデータ格納部10に格納されている最小支持度(本例では40%)以上となる場合には、ステップS35で当該アイテムを頻出アイテムとしてパターン格納部80に格納してステップS36に移行する。一方、アイテム抽出部30は、算出されたアイテムの支持度が最小支持度(40%)に満たない場合には、当該アイテムをパターン格納部80に格納せずに、パターンの対象から除外(当該アイテムのデータを廃棄)してステップS36に移行する。ステップS36で、アイテム抽出部30は、ステップS31で抽出された全てのアイテムについての処理が完了したか否かを判定し、未だ処理が完了していない場合にはステップS32に戻って上述したステップS32乃至ステップS35の処理を繰り返し、一方、全てのアイテムについての処理が完了した場合にはステップS37に移行する。
 従って、支持度が80%と算出された上述のアイテム「鶏肉」の場合、最小支持度(40%)以上であるため(ステップS34でYES)、頻出アイテムとしてパターン格納部80に格納される。同様にして、他のアイテム「豚肉」、「牛肉」、「鮪」、「鯵」、「ビール」についても、アイテム抽出部30によって、頻度が各々「2」、「1」、「3」、「3」、「3」と算出され(ステップS32)、支持度は各々「40%」、「20%」、「60%」、「60%」、「60%」と算出され(ステップS33)、図6に示すように、長さ1の候補パターンとして各アイテムの頻度と支持度が算出される。そして、本例では最小支持度が40%に設定されているので、最小支持度に満たないアイテム「牛肉」だけがパターンの対象から除外され(ステップS34でNO)、図7に示すように、「牛肉」を除く、「鶏肉」、「豚肉」、「鮪」、「鯵」、「ビール」が、頻出アイテムとしてパターン格納部80に格納されることになる。
 ここで、後述する長さ2以上の候補パターン生成の処理のために、パターン格納部80に格納される頻出アイテムは、アイテム抽出部30がデータ格納部10の上述したアイテムの整列の優先度を示すデータを参照することにより、予め定められた順序に従って整列される。本実施形態では、図6に示すように、「鶏肉」、「豚肉」、「鮪」、「鯵」、「ビール」の優先順で各パターンが整列される。以上のように、ステップS3(ステップS31乃至ステップS36)の一連の処理を行うことにより、最小支持度に満たないアイテム(本例では「牛肉」)がパターンの候補から除外され、高次の候補パターンの要素とならなくなるので、コンピュータの処理負担が大幅に減少し、高次のパターン抽出までの時間が短縮化される。なお、本実施形態では、頻出アイテムは、パターンを構成するアイテムの数(パターンの長さ)が1となる「パターン」(すなわち特徴的な組合せ)とみなされる。
 ステップS37で、アイテム抽出部30は、パターン格納部80を参照して、頻出アイテムが存在するか否かについて判定し、存在すると判定された場合には頻出アイテムの抽出に成功したものとしてステップS4に移行し、一方、存在しないと判定された場合には頻出アイテムの抽出に失敗したものとして本装置の処理を終了する。すなわち、ステップS3の処理で頻出アイテムが1つも抽出されない場合には、本装置における処理が終了する。
 ステップS4では、候補パターン生成部40が図8のサブルーチンに従って、パターンの候補を生成する処理を行う。まず、候補パターン生成部40は、ステップS41で、パターン格納部80から取り出すパターンの長さ(mの値)を設定する。具体的には、候補パターン生成部40は、初めてステップS41を実行する場合には、パターンの長さmの値を1に設定し(m=1)、2度目以降はパターンの長さmの値に1を加算する(m=m+1)。
 次に、候補パターン生成部40は、パターン格納部80に格納されているパターン(長さ1の頻出アイテムまたは長さ2以上のパターン)の内、前ステップで設定された長さmのパターンが2個以上あるかを判定し(ステップS42)、NOすなわち0個又は1個しかないと判定された場合には、候補パターンを生成できないものとして処理を終了し、YESすなわち2個以上あると判定された場合には、該当するパターンを全て取り出し(ステップS43)、ステップS44に移行する。候補パターン生成部40は、ステップS44で、取り出された全てのパターンの内、候補パターン生成条件に合致する2つのパターンがあるかを判定し、無いと判定された場合には、候補パターンを生成できないものとして処理を終了し、あると判定された場合にはステップS45に移行する。
 本実施形態では、ステップS44の候補パターン生成条件として、「先頭からm-1個までのパターンが同一のアイテムであり、最後の1つのアイテムが異なっていること」が設定されている。ただし、この前提として、各パターンにおいては、アイテムは予め定められた順序に従って整列される必要がある。本例は、上述したように、「鶏肉」、「豚肉」、「牛肉」、「鮪」、「鯵」、「ビール」の順で優先度が付けられているため、この優先度に従って各パターンが整列される。
 候補パターン生成部40は、ステップS44の候補パターン生成条件を満たすパターンを2個取り出し(ステップS45)、異なるアイテムを整列させて、ステップS41で設定されたパターン長mよりも1だけ長いパターンの候補(候補パターン)を生成する処理を行う(ステップS46)。
 すなわち、ステップS46で候補パターン生成部40は、取り出された2個のパターンに共通するm-1個のアイテムに対して、相互に異なる最後の2つのアイテムを、アイテムの順序を守るようにして並べた、(m-1+2=)m+1のパターンの長さを持つ候補パターンを1個生成する。続いて、候補パターン生成部40は、生成された候補パターンを候補頻度算出部50に提供する(ステップS47)。さらに、候補パターン生成部40は、長さm+1の候補パターンを全て生成するまでステップS45乃至ステップS48の処理を繰り返し、全て生成したと判定されるとステップS4の処理を終了する。すなわち、このようなパターンの抽出とパターンの候補の生成を繰り返し実施することにより、パターン格納部80に格納されている長さmの頻出アイテムまたはパターンから、m+1のパターンの長さを持つすべてのパターンの候補が生成される。
 以下、候補パターンの生成処理について具体例を挙げて詳述する。
 例えば、ステップS41でパターンの長さmが1に設定され、パターン格納部80には、図7に示す長さが1であるパターン(すなわち頻出アイテム)が格納されているものとする。ここで各アイテムは、上述のように「鶏肉」、「豚肉」、「牛肉」、「鮪」、「鯵」、「ビール」の順で優先度が与えられていることから、パターン格納部80に格納される頻出アイテムは、「牛肉」を除いて「鶏肉」、「豚肉」、「鮪」、「鯵」、「ビール」の順で並べられている。
 このとき、図7の各パターンは、いずれも長さmが1であることから、ステップS42を経てステップS43で全て取り出される。一方、ステップS44の候補パターン生成条件については、パターンの長さmが1の場合には、共通するアイテムの個数は1個もない(すなわち0個である)ため、「前からm-1個までのパターンが同一のアイテム」であること及び「最後の1つのアイテムが異なっている」こととなり、図7の任意の2個のパターンの組合せが条件を満たすことになる。このため、候補パターン生成部40は、上述したアイテムの優先度に従って、「鶏肉、豚肉」、「鶏肉、鮪」、「鶏肉、鯵」、「鶏肉、ビール」、「豚肉、鮪」、「豚肉、鯵」、「豚肉、ビール」、「鮪、鯵」、「鮪、ビール」、「鯵、ビール」の順で2個のパターンを取り出し(ステップS45)、長さが2となる10種類のパターンの候補(2次の候補パターン)をステップS46で生成する(図10参照)。当該生成された10個の候補パターンの情報は、候補頻度算出部50に提供され、各候補パターン毎に後述するステップS5乃至ステップS9の処理が繰り返し実行される。そして、かかる10個全ての候補パターンについての処理が終了すると、ステップS9からステップS5に処理が戻される。
 ステップS5では、候補頻度算出部50が、候補パターン生成部40から提供された候補パターンの中で頻度算出の処理が完了していないものがあるかについて判定し、未だ処理が完了していないものがある場合には1つの候補パターンを取り出してステップS6に進み、全ての候補パターンの頻度算出処理が完了している場合には、本装置の処理を候補パターン生成に関するステップS4へと戻す。
 以下のステップS6からステップS10までは、取り出された1つの候補パターンに対する処理である。まず、ステップS6では、候補頻度算出部50が、ステップS1で読み込まれているトランザクションの集合を参照することにより、取り出した1つのパターンの候補に対して、当該候補の出現頻度すなわち当該候補パターンを含むトランザクションの個数を算出する。
 例えば、図2に示すトランザクションの集合がステップS1で読み込まれ、ステップS4で設定されたパターンの長さmが2であり、ステップS6でパターンの候補として「鶏肉、豚肉」が取り出されている場合、当該パターンの候補はA02及びA03のトランザクションに含まれているため、その出現頻度として2が算出される(図10参照)。同様に、他の候補パターンである「鶏肉、鮪」、「鶏肉、鯵」、「鶏肉、ビール」、「豚肉、鮪」、「豚肉、鯵」、「豚肉、ビール」、「鮪、鯵」、「鮪、ビール」、「鯵、ビール」に関しては、それぞれの出現頻度が、3、2、3、1、0、2、2、2、1と算出される。
 ステップS7では、候補評価値算出部60が、ステップS6で算出された候補パターンの出現頻度と、ステップS2で読み込まれたアイテム間知識(関連度行列テーブル)を用いて、当該パターンを構成するアイテム間の関連性を評価することにより、その頻度が低い程小さく、関連性の高いアイテムによってパターンが構成されている程小さくなる抽出評価値(以下、「関連性支持度」と称する。)を算出する。
 詳細には、図9のフローチャートに示すように、候補評価値算出部60は、ステップ6で算出された出現頻度から当該候補パターンの支持度を算出する(ステップS71)。ここで、候補パターンの支持度の算出は、上述した数式1と同様であり、かかる数式の「アイテムを含むトランザクションの個数」を「パターンを含むトランザクションの個数」と読み替えればよい。ステップS72で、候補評価値算出部60は、当該候補パターンに含まれる2個のアイテムの組合せを全て抽出する。ステップS73で、候補評価値算出部60は、ステップS2でアイテム間情報記憶部20から読み込まれたアイテム間知識を参照(識別)して、抽出された組合せに対応する関連度を全て抽出する。続いて、候補評価値算出部60は、抽出された関連度に基づく加重値を算出し(ステップS74)、算出された加重値をステップS71で算出された支持度に適用することで、当該候補パターンの抽出評価値(関連性支持度f(p))を算出する(ステップS75)。
 ここで、上述した加重値および関連性支持度f(p)は、パターンの長さmの増大に対して、単調に減少するように定義する必要がある。より詳細には、関連性支持度f(p)は、2つのパターンあるいはパターンの候補p1及びp2に対して、p1⊆p2(p1はp2の部分集合)の関係が成立する場合、f(p1)≧f(p2)といった関係が成立するように定義する必要がある。言い換えると、候補評価値算出部60は、パターンの長さmに対してトレードオフの関係が成り立つように加重値を算出する必要がある。
 このような加重値および関連性支持度の定義や算出式には多様なものが考えられる。例えば、候補評価値算出部60が算出する加重値の定義として、抽出された関連度を所定値(例えば1)から減じて得られる値を加重値とすることができる。あるいは、候補評価値算出部60が算出する加重値の定義の例として、抽出された関連度と加重値との合計値を一定(例えば1)に保持したまま、当該合計値と抽出された関連度との差分値を、加重値とすることができる。
 本実施形態では、候補評価値算出部60が算出する加重値及び関連度支持度として、下記数式2に示すように関連性支持度f(p)を定義する。
Figure JPOXMLDOC01-appb-M000002
 ただし、数式2の第1項において、s(it,it)は、アイテムitとアイテムitとの関連度を表す。また、max{s(it,it)}は、パターンを構成する全てのアイテム(it,it)間の関連度の内の最大値である。
 数式2において、加重値である第1項は、パターンを構成する任意のアイテム間の関連度の最大値(max)を用いており、かかる関連度の最大値を定数1から減算している。このため、加重値である第1項は、パターンの長さmが増大すると、アイテム間の関連度の最大値が単調に増加し、定数1からかかる最大値を減算することで、単調に減少する値が得られることになる。また、数式2の第2項は、分母(トランザクションの総数)の値が固定値である一方、分子の値がパターンの長さmの増大に伴って単調に減少する。このため、第1項に第2項を掛けて定数倍した関連性支持度f(p)は、パターンの長さmの増大に対して、単調に減少するといえる。
 例えば、パターンの長さmが2である「鶏肉、豚肉」の場合、「鶏肉」と「豚肉」の関連度は図3に示すように0.5と設定されている。このため、加重値である数式2の第1項の値は(1-0.5=)0.5が算出される。また、上述のように、「鶏肉、豚肉」の頻度は2と算出される。このため、「鶏肉、豚肉」の関連性支持度f(p)は、(0.5×2/5×100=)20%と算出される。一方、同じくパターンの長さmが2である「鶏肉、鮪」の場合、「鶏肉」と「鮪」の関連度は0と設定されているので、数式2の第1項の値は(1-0=)1が算出される。このため、ステップS7で、候補評価値算出部60は、「鶏肉、鮪」の関連性支持度f(p)として、(1×3/5×100=)60%を算出する(ステップS75)。同様に、「鶏肉、鯵」、「鶏肉、ビール」、「豚肉、鮪」、「豚肉、鯵」、「豚肉、ビール」、「鮪、鯵」、「鮪、ビール」、「鯵、ビール」の関連性支持度は、図10の関連性支持度の欄に示すように、各々、40%、60%、20%、0%、40%、20%、40%、20%が算出される。
 ステップS8では、候補評価部70が、データ格納部10に格納されている最小支持度の値と、算出された候補パターンの関連性支持度f(p)の値とを比較して、当該関連性支持度f(p)の値が閾値である最小支持度の値を満たすか否かを判定する。このとき、候補評価部70は、当該候補の関連性支持度f(p)が最小支持度(本例では40%)以上の場合に、当該候補パターンを「パターン」すなわちアイテムの特徴的な組合せを有するものとして登録するために、ステップS9に処理を移行する。一方、関連性支持度が最小支持度未満の場合には、当該候補をパターン格納部80に登録することなくステップS5に処理を戻し、次の候補パターンについての処理を行なう。
 ステップS9では、候補評価部70が登録すると判定したパターンの候補を、アイテムの特徴的な組合せを有するパターンとして、パターン格納部80に格納する。例えば、図10に示すように、パターンの長さが2となる候補パターンに対して関連性支持度が算出された場合、本例ではデータ格納部10に格納されている最小支持度が40%であるため、図10に示す10個の候補パターンの内、「鶏肉、鮪」、「鶏肉、鯵」、「鶏肉、ビール」、「豚肉、ビール」、「鮪、ビール」の候補パターンに対しては、ステップS8で基準値を満たすと判定され、当該5つのパターンが、パターンとして図11に示すようにパターン格納部80に登録される。一方、「鶏肉、豚肉」、「豚肉、鮪」、「豚肉、鯵」、「鮪、鯵」、「鯵、ビール」の候補パターンに対しては、ステップS8で基準値を満たさないと判定され、パターン格納部80に格納されず、当該候補パターンのデータが廃棄される。このため、「鶏肉、豚肉」、「豚肉、鮪」、「豚肉、鯵」、「鮪、鯵」、「鯵、ビール」の候補パターンは、長さ3の候補パターン生成の対象から除外される。
 そして、本例では、図10に示す10個の2次候補パターンの全てについてステップS6乃至ステップS9の処理が完了すると、ステップS5を経てステップS4に処理が戻され、長さ3の3次候補パターンの生成が開始される。
 すなわち、パターン格納部80には、図7に示す頻出アイテムの他に、図11に示すように、長さ2のパターン(2次のパターン)が、上述したアイテムの優先度に従って、「鶏肉、鮪」、「鶏肉、鯵」、「鶏肉、ビール」、「豚肉、ビール」、「鮪、ビール」の順序で格納されている。この状態から、ステップS41で、候補パターン生成部40は、パターンの長さmを2に設定する。
 続いて候補パターン生成部40は、ステップS42を経て、長さmが2である図11の各パターンを全て取り出し(ステップS43)、長さ2のパターンを2つ組合せるために、候補パターン生成条件の適否を判定する(ステップS44)。
 ステップS44の候補パターン生成条件について、長さmが2の場合には、共通するアイテムの個数が最大で1となるため、「鶏肉、鮪」と「鶏肉、鯵」は、「前方のm-1個のパターン」換言すると「最初のアイテム」である「鶏肉」が共通しており、かつ最後の1個のアイテムが相互に異なるため、候補パターン生成条件を満たしている。これに対して、「鶏肉、鮪」と「豚肉、ビール」は、「前方のm-1個のパターン」すなわち「最初のアイテム」が一致しておらず、このため候補パターン生成条件を満たしていない。
 候補パターン生成部40は、このようにしてステップS44で候補パターン生成条件の適否を判定し、「鶏肉、鮪」と「鶏肉、鯵」、「鶏肉、鮪」と「鶏肉、ビール」、「鶏肉、鯵」と「鶏肉、ビール」の3組を、候補パターン生成条件を満たすものと判定し、かかる3組をステップS45で取り出す。さらに、候補パターン生成部40は、ステップS46で、長さが3となる3次の候補パターンとして、それぞれ、「鶏肉、鮪」と「鶏肉、鯵」から「鶏肉、鮪、鯵」を生成し、「鶏肉、鮪」と「鶏肉、ビール」から「鶏肉、鮪、ビール」を生成し、「鶏肉、鯵」と「鶏肉、ビール」から「鶏肉、鯵、ビール」を生成する(図12参照)。当該生成された「鶏肉、鮪、鯵」、「鶏肉、鮪、ビール」、「鶏肉、鯵、ビール」の3個の候補パターンの情報は、候補頻度算出部50に提供され、各候補パターン毎に上述したステップS5乃至ステップS9の処理が繰り返し実行される。そして、これら3個全ての候補パターンについての処理が終了すると、ステップS9からステップS5に処理が戻される。
 詳細には、ステップS5で、候補頻度算出部50は、候補パターン生成部40から提供された候補パターンから未処理の1つの候補パターン「鶏肉、鮪、鯵」を取り出してステップS6の頻度算出処理を行う。この場合、「鶏肉、鮪、鯵」はトランザクションA01及びA05に含まれているため、候補頻度算出部50によって頻度「2」が算出され(ステップS6)、候補評価値算出部60によって支持度40(%)が算出される(ステップS71)。
 続いて、候補評価値算出部60は、候補パターン「鶏肉、鮪、鯵」から2個のアイテムの全ての組合わせとして、「鶏肉、鮪」、「鶏肉、鯵」、「鮪、鯵」を抽出し(ステップS72)、かかる組合わせに対応する関連度として、0、0、0.5を抽出し(ステップS73)、抽出された関連度から、上述した数式2の第1項の加重値として、(1-max{0, 0, 0.5})すなわち(1-0.5=)0.5を算出する(ステップS74)。また、「鶏肉、鮪、鯵」の支持度として「40」が算出されているので、候補評価値算出部60は、ステップS75で、「鶏肉、鯵、鮪」の関連性支持度f(p)として、(0.5×40=)20%を算出する(図12参照)。この場合、関連性支持度が最小支持度(40%)未満であり(ステップS8でNO)、パターンとして登録することなくステップS5に処理が戻される。
 続いて、ステップS5で、候補頻度算出部50は、候補パターン生成部40から提供された長さ3の候補パターンからの中で未処理の1つの候補パターン「鶏肉、鮪、ビール」を取り出してステップS6の頻度算出処理を行う。この場合、「鶏肉、鮪、ビール」はトランザクションA01及びA03に含まれているため、候補頻度算出部50によって頻度「2」が算出され(ステップS6)、候補評価値算出部60によって支持度40(%)が算出される(ステップS71)。
 続いて、候補評価値算出部60は、候補パターン「鶏肉、鮪、ビール」から2個のアイテムの全ての組合わせとして、「鶏肉、鮪」、「鶏肉、ビール」、「鮪、ビール」を抽出し(ステップS72)、かかる組合わせに対応する関連度として、0、0、0を抽出し(ステップS73)、抽出された関連度から、上述した数式2の第1項の加重値として、(1-max{0, 0, 0})すなわち(1-0=)1を算出する(ステップS74)。また、「鶏肉、鮪、ビール」の支持度として「40」が算出されているので、候補評価値算出部60は、ステップS75で、「鶏肉、鮪、ビール」の関連性支持度f(p)として、(1×40=)40%を算出する(図12参照)。この場合、関連性支持度が閾値の最小支持度(40%)以上であるため、「鶏肉、鮪、ビール」の候補パターンは、「パターン」すなわち「アイテムの特徴的な組合せを有するもの」として、ステップS9でパターン格納部80に格納される(図13参照)。
 さらに、ステップS5で、候補頻度算出部50は、候補パターン生成部40から提供された候補パターンからの中で未処理の1つの候補パターン「鶏肉、鯵、ビール」を取り出してステップS6の頻度算出処理を行う。この場合、「鶏肉、鯵、ビール」はトランザクションA01のみに含まれているため、候補頻度算出部50によって頻度「1」が算出され(ステップS6)、候補評価値算出部60によって支持度20(%)が算出される(ステップS71)。
 続いて、候補評価値算出部60は、候補パターン「鶏肉、鯵、ビール」から2個のアイテムの全ての組合わせとして、「鶏肉、鯵」、「鶏肉、ビール」、「鯵、ビール」を抽出し(ステップS72)、かかる組合わせに対応する関連度として、0、0、0を抽出し(ステップS73)、抽出された関連度から、上述した数式2の第1項の加重値として、(1-max{0, 0, 0})すなわち(1-0=)1を算出する(ステップS74)。また、「鶏肉、鯵、ビール」の支持度として「20」が算出されているので、候補評価値算出部60は、ステップS75で、「鶏肉、鯵、ビール」の関連性支持度f(p)として、(1×20=)20%を算出する(図12参照)。この場合、関連性支持度が最小支持度(40%)未満であり(ステップS8でNO)、パターンとして登録することなくステップS5に処理が戻される。
 そして、本例では、図12に示す3個の3次候補パターンの全てについてステップS6乃至ステップS9の処理が完了すると、ステップS5を経てステップS4に処理が戻される。この場合、パターンの長さmが3に設定されるが(ステップS41)、パターン格納部80には、図13に示すように長さmが3のパターンが1個しか格納されていないために、候補パターン生成条件を満たすパターンの組合せを取り出して長さ4の候補パターンを生成することができない(ステップS42でNO)。したがって、この場合は、候補パターン生成部40によるステップS45での候補パターンの生成が出来ないものとして、本装置における処理を終了する。
 以上のように、パターンの長さが3の場合においては、図13に示すように、3つの候補パターンの内の「鶏肉、鮪、ビール」のみがパターンとして抽出され、パターン格納部80に登録されることになる。すなわち、頻度が同じ「2」であっても関連度の高いアイテムが含まれている「鶏肉、鯵、鮪」については、加重値ひいては抽出評価値(関連性支持度)が相対的に低く算出され、抽出対象とならない。また、関連度の低いアイテムのみで構成された「鶏肉、鯵、ビール」についても、頻度が低いために関連性支持度が低く算出され、やはり抽出対象とならない。
 また、上述した例で示したように、長さ2の候補パターン「鶏肉、鯵」、「鶏肉、ビール」、「鯵、ビール」の関連性支持度f(p)は、それぞれ、40%、60%、20%となり(図10参照)、かかる3つの候補パターンを含む長さ3の候補パターン「鶏肉、鯵、ビール」の関連性支持度f(p)は20%となる(図12参照)。従って、数式2を用いた候補評価値算出部60の演算結果によれば、パターンの長さの増大に伴って、抽出評価値である関連性支持度が単調に減少することを確認することができる。
 上述のように、本実施形態のパターン抽出装置100は、候補パターンに対する抽出評価値を算出する際にアイテム間の関連性を考慮し、関連性が高いアイテムを含む候補パターンの加重値を相対的に小さい値となるように算出することにより、関連性が高いアイテムを含む候補パターンが相対的に抽出されにくくなり、分析者にとって自明と思われる、相互に関連性の高いアイテムで構成されたパターンが抽出されることを防止することができ、分析者の興味を惹くと考えられる、相互に関連性の低いアイテムで構成されたパターンを効率良く抽出することができる。
 より具体的には、アイテム間の関連性を考慮せずに、単に最小支持度に基づいてパターンを抽出した場合には、図2のトランザクションから、出現頻度が2である候補パターン、すなわち肉類同士である「鶏肉、豚肉」や魚類同士である「鯵、鮪」もパターンとして抽出されることになる。このような相互に関連性の高いアイテムで構成されたパターンは、分析者にとって、自明(当たり前)との印象が強いものであり、興味を惹くパターンとならない。これに対して、本実施形態のパターン抽出装置100の抽出制御では、候補パターン中、ある程度出現頻度があり且つ関連性の低いアイテムで構成されたものが抽出対象となるので、上述の「鶏肉、豚肉」や「鯵、鮪」がパターンとして抽出されることを回避することができる。
 さらに、本実施形態で説明した対象情報としてのトランザクションは、説明の簡明化のため、極めて小規模な構造のものを例示したが、実際には、より多くのアイテムの種類を扱うとともに、大量のトランザクションが対象とされ得る。このため、アイテム間の関連性を考慮せずに、単に最小支持度に基づいてパターンを抽出した場合には、相互に関連性の高いアイテムで構成されたパターンが多数抽出される可能性があり、「豚肉、鯵」といったようなカテゴリの異なる商品(アイテム)で構成されたパターンが、多くの同種の商品のパターンの中に埋もれてしまう虞がある。したがって、アイテム間の関連性を考慮せずに、最小支持度に基づいてパターンを抽出した場合には、分析者の興味を惹くパターンを効率的に発見することが著しく困難であると考えられる。
 これに対し、本実施形態のパターン抽出制御では、上述のように、アイテム間の関連性を考慮し、候補パターンに含まれる各アイテム間の関連度をアイテム間情報記憶部20から抽出し、抽出された関連度に基づいて加重値を算出し、かかる加重値を当該候補パターンのトランザクション中の出現頻度に基づく支持度に適用して抽出評価値を算出するために、関連性の高くないアイテムで構成されたパターンを効率良く抽出することが可能となる。従って、本実施形態のパターン抽出装置100によれば、分析者の興味を惹く重要なパターンを、効率的に発見することが可能になる。
 なお、パターン抽出装置の構成は、上述した実施形態に限定されるものではない。例えば、抽出評価値である関連性支持度の算出方法として、数式2を採用したが、単調性を満たすような関連性支持度の定義式としては、下記の数式3、数式4に示すように、その定義を与えることもできる。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 ここで、数式3を用いた場合には、加重値となる第1項でアイテム同士の関連度を加算し、該加算値が1以上になると、第1項ひいては当該関連性支持度f(p)の値が0になる。したがって、数式3も、パターンの長さ(アイテム構成数の増大)に対して単調に減少する定義であることがわかる。
 一方、数式4を用いた場合には、加重値となる第1項はアイテム同士の関連度のかけ算をするので、実施形態の関連度行列の値をそのまま使うと、例えば「鶏肉」と「ビール」の場合に第1項ひいては当該関連性支持度f(p)の値が0になる。したがって、この場合には、アイテム間知識の他の実施形態として、同じアイテム同士の関連度を0とし、関連性が最も低いアイテム同士の関連度を1に設定すればよい。
 また、上述した実施形態では、アイテム抽出部30によるステップS37の判定で、パターン格納部80に頻出アイテムが存在しない場合には本装置の処理を終了することとしたが、これに限定されず、ステップS37で頻出アイテムが存在しないと判定された場合に、アイテム抽出部30が最小支持度の値(上記例では40%)から所定の値(例えば20%)だけ減算する処理を行い、該減算後の最小支持度以上の支持度のアイテムを頻出アイテムとして抽出するように、頻出アイテム抽出(ステップS3)の処理を再度やり直すこととしてもよい。この場合には、最小支持度の値を減少させて算出した旨及び算出に用いた最小支持度の値を表示部に適宜表示して分析者に知らせるようにすることが好ましい。
 さらに、上述とは逆に、抽出されパターン格納部80に格納された頻出アイテムが非常に多い場合、例えば、抽出対象となった頻出アイテムが、予め設定された所定数以上の場合、或いはステップS31で抽出されたアイテムの内の予め設定された所定割合(%)以上のアイテムが頻出アイテムとして格納された場合に、アイテム抽出部30が最小支持度の値を所定の値(例えば20%)だけ増加させる処理を行って、該変更後の最小支持度以上の支持度のアイテムを頻出アイテムとして抽出するように、再度ステップS3の処理をやり直すこととしてもよい。この場合にも、最小支持度の値を増加させて算出した旨及び算出に用いた最小支持度の値を表示部に適宜表示して分析者に知らせるようにすることが好ましい。
 さらにまた、長さ2以上の候補パターンに関する最小支持度についても同様の処理を行うことができる。図14は、パターン抽出装置の他の実施形態の動作を説明するためのフローチャートであり、ステップS5で未処理の候補が無いと判定された場合に、ステップS51でパターン格納部80内のパターンの有無を判別し、パターンがある場合にはステップS4に戻り、一方、無い場合にはステップS52で最小支持度の値(上記例では40%)から所定の値(例えば20%)だけ減算する処理を行い、該変更後の最小支持度でステップS8の判定処理を候補パターン毎に再度行う。
 さらに、パターン格納部80に格納されたパターンの個数が、予め定められた数未満(過少)の場合、または、予め定められた数を超える(過大の)場合に、最小支持度の値を減少させる処理、または、最小支持度の値を増加させる処理を行って、ステップS8の判定処理を候補パターン毎に再度行うこととしてもよい。
 また、上述の実施形態ではアイテム間情報格納部20に記憶するアイテム間知識として、2つのアイテム間の関係に対して関連度を定義していたが、これに限定されず、アイテム間知識は、アイテムの増大に対して単調性を保持するように与えることにより、3つ以上のアイテムに対して関連度を定義することもできる。
 また、上述の実施形態では、日用品の販売における、購入商品の特徴的な組合せの発見のためにパターン抽出装置100を使用する場合について例示して説明したが、これに限定されず、他の多様な業務に使用することができる。例えば、銀行業務における、店舗の特性と事務ミスの種類との間にある特徴的な因果関係の発見に使用する場合の一例として、店舗毎に1個のトランザクションを使用し、当該店舗で発生したミスの種類をアイテムとして使用することができる。また、番組推薦における、視聴者特性と視聴履歴との間にある視聴者の嗜好の発見などの分野に利用する場合の一例として、視聴者毎に1個のトランザクションを使用し、当該視聴者が視聴した番組をアイテムとして使用することができる。
 上述した各処理は、コンピュータで実行可能なプログラムとして実現することが可能であり、当該プログラムがインストールされたコンピュータは、実施形態に係る各処理を遂行する情報処理装置として動作することが可能である。例えば、不図示の補助記憶装置に当該プログラムが格納され、CPU等の制御部が補助記憶装置に格納されたプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行し、コンピュータに実施形態に係る各処理を動作させることができる。
 また、上記プログラムは、コンピュータ読取可能な記録媒体に記録された状態で、コンピュータに適用することも可能であり、インターネット等のネットワークを通じてコンピュータにダウンロードすることも可能である。コンピュータ読取可能な記録媒体としては、CD-ROM等の光ディスク、DVD-ROM等の相変化型光ディスク、MO(Magnet Optical)やMD(Mini Disk)などの光磁気ディスク、フロッピー(登録商標)ディスクやリムーバブルハードディスクなどの磁気ディスク、コンパクトフラッシュ(登録商標)、スマートメディア、SDメモリカード、メモリスティック等のメモリカードが挙げられる。また、特別に設計されて構成された集積回路(ICチップ等)等のハードウェア装置も記録媒体として含まれる。
 また、上述の実施形態では、図1に示した各部を1台のコンピュータで構成したが、これに限定されず、図1に示した各部を適宜異なるサーバ装置等で実現し、ネットワーク等の通信回線を介して接続したコンピュータシステムとして構成することもできる。
 なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
 100 パターン抽出装置
 10 データ格納部
 20 アイテム間情報記憶部
 30 アイテム抽出部
 40 候補パターン生成部
 50 候補頻度算出部
 60 候補評価値算出部
 70 候補評価部
 80 パターン格納部

Claims (5)

  1.  複数のアイテムを含む対象情報内に存在する相互に異なる2以上のアイテムの組合せのパターンを抽出するパターン抽出装置であって、
     複数の前記対象情報を記憶する第1記憶部と、
     前記複数の対象情報それぞれに含まれる各アイテムに基づいて、相互に異なる2以上のアイテムで構成される候補パターンを生成する候補パターン生成部と、
     前記生成された候補パターンが前記複数の対象情報それぞれに出現する出現頻度に基づいて、前記候補パターンの抽出評価値を算出する候補評価値算出部と、
     前記算出された抽出評価値が所定の閾値を満たす候補パターンを判別し、前記閾値を満たす候補パターンを抽出するパターン抽出部と、を含むとともに、
     前記アイテム間の関連度を記憶する第2記憶部をさらに含み、
     前記候補評価値算出部は、前記候補パターンに含まれる各アイテム間の関連度を識別し、識別された関連度に基づく加重値及び前記出現頻度に基づいて、前記抽出評価値を算出することを特徴とするパターン抽出装置。
  2.  前記候補評価値算出部は、任意のふたつの候補パターンp1、p2において、候補パターンp1が候補パターンp2の部分集合である場合に、候補パターンp2の抽出評価値が候補パターンp1の抽出評価値以下になるような単調性が成立する定義に基づいて、前記抽出評価値を算出することを特徴とする請求項1記載のパターン抽出装置。
  3.  前記候補評価値算出部は、前記候補パターンに含まれるアイテム間の関連度を前記第2記憶部から抽出し、前記抽出された関連度を所定値から減じて得られる値を前記加重値として算出することを特徴とする請求項1又は2に記載のパターン抽出装置。
  4.  複数のアイテムを含む対象情報内に存在する相互に異なる2以上のアイテムの組合せのパターンを抽出するパターン抽出方法であって、
     複数の前記対象情報を記憶領域に記憶するステップと、
     前記複数の対象情報それぞれに含まれる各アイテムに基づいて、相互に異なる2以上のアイテムで構成される候補パターンを生成するステップと、
     前記アイテム間の関連度を記憶領域に記憶するステップと、
     前記生成された候補パターンが前記複数の対象情報それぞれに出現する出現頻度に基づいて、前記候補パターンの抽出評価値を算出するステップと、
     前記算出された抽出評価値が所定の閾値を満たす候補パターンを判別し、前記閾値を満たす候補パターンを抽出するステップと、
    を含み、
     前記候補パターンの抽出評価値を算出するステップは、前記候補パターンに含まれる各アイテム間の関連度を識別し、識別された関連度に基づく加重値及び前記出現頻度に基づいて、前記抽出評価値を算出することを特徴とするパターン抽出方法。
  5.  複数のアイテムを含む対象情報及び前記アイテム間の関連度を所定の記憶領域に記憶し、前記対象情報内に存在する相互に異なる2以上のアイテムの組合せのパターンを抽出するパターン抽出処理を遂行するコンピュータに、
     複数の前記対象情報それぞれに含まれる各アイテムに基づいて、相互に異なる2以上のアイテムで構成される候補パターンを生成する機能と、
     前記生成された候補パターンが複数の前記対象情報それぞれに出現する出現頻度に基づいて、前記候補パターンの抽出評価値を算出する機能と、
     前記算出された抽出評価値が所定の閾値を満たす候補パターンを判別し、前記閾値を満たす候補パターンを抽出する機能と、を実現させ、
     前記候補パターンの抽出評価値を算出する機能は、前記候補パターンに含まれる各アイテム間の関連度を識別し、識別された関連度に基づく加重値及び前記出現頻度に基づいて、前記抽出評価値を算出することを特徴とするプログラム。
PCT/JP2012/003433 2011-06-08 2012-05-25 パターン抽出装置及び方法 WO2012169137A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP12797476.4A EP2720154A4 (en) 2011-06-08 2012-05-25 PATTERN EXTRACTION DEVICE AND METHOD
US14/124,100 US9569835B2 (en) 2011-06-08 2012-05-25 Pattern extracting apparatus and method
CN201280027950.2A CN103597485B (zh) 2011-06-08 2012-05-25 模式提取装置及其方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-128596 2011-06-08
JP2011128596A JP5455978B2 (ja) 2011-06-08 2011-06-08 パターン抽出装置及び方法

Publications (1)

Publication Number Publication Date
WO2012169137A1 true WO2012169137A1 (ja) 2012-12-13

Family

ID=47295729

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/003433 WO2012169137A1 (ja) 2011-06-08 2012-05-25 パターン抽出装置及び方法

Country Status (5)

Country Link
US (1) US9569835B2 (ja)
EP (1) EP2720154A4 (ja)
JP (1) JP5455978B2 (ja)
CN (1) CN103597485B (ja)
WO (1) WO2012169137A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778245B (zh) * 2014-02-13 2017-04-05 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
JP6223889B2 (ja) 2014-03-31 2017-11-01 株式会社東芝 パターン発見装置、およびプログラム
CN105488144A (zh) * 2015-11-25 2016-04-13 四川诚品电子商务有限公司 商品评论信息中重复信息处理方法
JP6842111B2 (ja) * 2017-04-06 2021-03-17 テンソル・コンサルティング株式会社 モデル変数候補生成装置および方法
JP7168095B2 (ja) * 2019-08-29 2022-11-09 富士通株式会社 パターン抽出プログラム、装置、及び方法
US20230004902A1 (en) * 2019-12-06 2023-01-05 Nippon Telegraph And Telephone Corporation Value element evaluation apparatus, value element evaluation method and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003076937A (ja) 2001-09-06 2003-03-14 Shinichi Morishita 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173280B1 (en) * 1998-04-24 2001-01-09 Hitachi America, Ltd. Method and apparatus for generating weighted association rules
US7269516B2 (en) * 2001-05-15 2007-09-11 Psychogenics, Inc. Systems and methods for monitoring behavior informatics
JP3851786B2 (ja) * 2001-05-31 2006-11-29 株式会社東芝 品質機能展開表のチェック方法及びプログラム
JP3701633B2 (ja) 2002-06-21 2005-10-05 株式会社日立製作所 複数データベースにまたがる項目パターン抽出方法、ネットワークシステム及び処理装置
JP4621716B2 (ja) * 2007-08-13 2011-01-26 東芝テック株式会社 人物行動分析装置,方法及びプログラム
JP2009199446A (ja) 2008-02-22 2009-09-03 Toshiba Corp 時系列パターン発見装置及び方法
US20100306029A1 (en) 2009-06-01 2010-12-02 Ryan Jolley Cardholder Clusters
WO2010140504A1 (ja) 2009-06-02 2010-12-09 日本電気株式会社 推薦情報提供システム、装置、方法及びプログラム
CN101853282A (zh) * 2010-05-20 2010-10-06 清华大学 用户跨网站购物模式信息的抽取系统和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003076937A (ja) 2001-09-06 2003-03-14 Shinichi Morishita 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
FENG TAO ET AL.: "Weighted Association Rule Mining using Weighted Support and Significance Framework", KDD '03 PROCEEDINGS OF THE NINTH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING, 2003, pages 661 - 666, XP055137616 *
JOYCE, SHU YUE ET AL.: "Mining Fzzy Association Rules with Weighted Items, Systems, Man, and Cybernetics", IEEE INTERNATIONAL CONFERENCE ON, vol. 3, 2000, pages 1906 - 1911, XP010524943 *
JUNGJA KIM ET AL.: "Weighted Association Rule Mining for Item Groups with Different Properties and Risk Assessment for Networked Systems", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. E92-D, no. 1, 1 January 2009 (2009-01-01), pages 10 - 15, XP008171834 *
See also references of EP2720154A4
TAKASHI YAMAMOTO ET AL.: "Heuristic Rule Weight Specification for Fuzzy Rule-Based Classification Systems", JOURNAL OF JAPAN SOCIETY FOR FUZZY THEORY AND INTELLIGENT INFORMATICS, vol. 16, no. 5, 15 October 2004 (2004-10-15), pages 441 - 451, XP008171849 *
UNIL YUN: "On Identifying Useful Patterns to Analyze Products in Retail Transaction Databases", IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS, vol. E92-D, no. 12, 1 December 2009 (2009-12-01), pages 2430 - 2438, XP008171829 *

Also Published As

Publication number Publication date
EP2720154A4 (en) 2015-04-08
JP2012256185A (ja) 2012-12-27
CN103597485A (zh) 2014-02-19
JP5455978B2 (ja) 2014-03-26
US9569835B2 (en) 2017-02-14
US20140112549A1 (en) 2014-04-24
CN103597485B (zh) 2017-11-03
EP2720154A1 (en) 2014-04-16

Similar Documents

Publication Publication Date Title
JP5455978B2 (ja) パターン抽出装置及び方法
JP5766290B2 (ja) 商品推薦の生成
JP5963709B2 (ja) 計算機、予測方法、及び、予測プログラム
US20220207542A1 (en) Machine learning for marketing of branded consumer products
US20160012511A1 (en) Methods and systems for generating recommendation list with diversity
US10755335B2 (en) Recording medium, product recommendation system, and product recommendation method
JP5670787B2 (ja) 情報処理装置、帳票種別推定方法および帳票種別推定用プログラム
JP6425297B2 (ja) 購買情報活用システム及び購買情報活用方法、及びプログラム
KR20080026948A (ko) 연관 키워드 그룹 추출 방법
EP3249598A1 (en) Program, product recommendation system, and product recommendation method
US20180253711A1 (en) Inventory management system and method
JPWO2017203672A1 (ja) アイテム推奨方法、アイテム推奨プログラムおよびアイテム推奨装置
JP2019145043A (ja) データ管理装置およびデータ管理システム
KR102028356B1 (ko) 코멘트 기반의 광고 추천 장치 및 방법
US20110276387A1 (en) Valuation of an advertisement in a printed advertising circular
JP2021039735A (ja) 情報処理装置、及びプログラム
JP2018067215A (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP6071408B2 (ja) プロモーション管理システムおよびプロモーション管理用プログラム
JP6809148B2 (ja) プログラムおよび組み合わせ抽出システム
CN111626776A (zh) 训练策略模型的方法、确定广告投放策略的方法和装置
JP2005092721A (ja) マーケット情報分析装置、マーケット情報分析システム、マーケット情報分析方法及びプログラム
KR20100091680A (ko) 검색 광고 경쟁 패턴 추출 장치 및 방법
JP5458058B2 (ja) 商品名同一性判定装置および商品名同一性判定プログラム
US20230289845A1 (en) Estimation system, estimation method, and program recording medium
US20240127282A1 (en) Listed product information check system and storage medium

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12797476

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14124100

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE