WO2012169432A1 - 注目評価対象抽出装置及びプログラム - Google Patents

注目評価対象抽出装置及びプログラム Download PDF

Info

Publication number
WO2012169432A1
WO2012169432A1 PCT/JP2012/064189 JP2012064189W WO2012169432A1 WO 2012169432 A1 WO2012169432 A1 WO 2012169432A1 JP 2012064189 W JP2012064189 W JP 2012064189W WO 2012169432 A1 WO2012169432 A1 WO 2012169432A1
Authority
WO
WIPO (PCT)
Prior art keywords
item
evaluation
pattern
evaluation target
expression
Prior art date
Application number
PCT/JP2012/064189
Other languages
English (en)
French (fr)
Inventor
櫻井 茂明
恭子 牧野
鈴木 裕之
Original Assignee
株式会社 東芝
東芝ソリューション株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 東芝, 東芝ソリューション株式会社 filed Critical 株式会社 東芝
Priority to CN201280013764.3A priority Critical patent/CN103460206B/zh
Priority to EP12796503.6A priority patent/EP2720153A4/en
Publication of WO2012169432A1 publication Critical patent/WO2012169432A1/ja
Priority to US14/098,076 priority patent/US10769534B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Definitions

  • Embodiments of the present invention relate to an attention evaluation target extraction device and a program.
  • numerical time-series data for a specific target can be collected and textual time-series data for a specific target can be obtained.
  • textual time-series data for a specific target can be obtained.
  • an evaluation target is characterized in advance by an attribute value that is explicitly given, time-series data is generated based on the frequency of events related to the occurrence of the evaluation target, and the importance or evaluation target of the evaluation target is generated.
  • This is a method for extracting an important evaluation object in a specific problem area by calculating the importance of the attribute value.
  • the evaluation object is associated with the change in the number of appearances of the specific word over time, and is displayed to the user so that the relationship between the evaluation object and the specific word can be visually grasped. is there.
  • the first method has an inconvenience that an evaluation object that cannot be characterized in advance cannot be handled because the evaluation object is characterized in advance by an explicit attribute value.
  • the first method has a disadvantage that the time-series data related to the evaluation target is limited to the time-series data of the event related to the occurrence of the evaluation target.
  • time series data is not limited to those related to the generation of evaluation objects, and patterns can be found automatically It is to provide an attention evaluation target extraction device and program.
  • the attention evaluation object extraction device of the embodiment can find the pattern before extracting the evaluation object to be noted based on the pattern from the plurality of text information related to the plurality of evaluation objects given along the time series. Device.
  • the attention evaluation target extraction device includes text collection means, numerical value collection means, target expression storage means, item assignment means, class determination means, transaction generation means, pattern discovery means, and pattern storage means.
  • the text collecting means collects the plurality of text information.
  • the numerical value collecting means collects numerical information related to each evaluation object individually.
  • the object expression storage means stores an evaluation object expression that individually represents each evaluation object and a related expression that represents an object individually associated with each evaluation object.
  • the item allocation means extracts a plurality of items for each collected text information, and when there is an item that matches the evaluation target expression or the related expression among the items, the evaluation target expression or An evaluation target expression associated with the related expression in the target expression storage means is assigned to the text information as an evaluation target item.
  • the class discriminating unit discriminates a class related to the change of the numerical information based on the numerical information related to the evaluation target represented by the evaluation target expression as the evaluation target item, and the evaluation target item Assign to assigned text information.
  • the transaction generation means generates a transaction with a class including the allocated evaluation target item, the extracted items, and the allocated class for each of the collected text information.
  • the pattern finding means finds the pattern indicating a combination of characteristic items from the set of transactions.
  • the pattern storage means stores the found pattern.
  • FIG. 1 is a block diagram schematically illustrating the configuration of the attention evaluation target extraction device according to the first embodiment.
  • FIG. 2 is a flowchart for explaining the operation in the embodiment.
  • FIG. 3 is a schematic diagram showing an example of numerical time-series data in the embodiment.
  • FIG. 4 is a schematic diagram showing an example of text time-series data in the embodiment.
  • FIG. 5 is a schematic diagram illustrating an example of an item set in the embodiment.
  • FIG. 6 is a schematic diagram illustrating an example of evaluation target knowledge in the embodiment.
  • FIG. 7 is a schematic diagram showing an example of numerical time-series data in the embodiment.
  • FIG. 8 is a schematic diagram showing an example of numerical time-series data in the embodiment.
  • FIG. 1 is a block diagram schematically illustrating the configuration of the attention evaluation target extraction device according to the first embodiment.
  • FIG. 2 is a flowchart for explaining the operation in the embodiment.
  • FIG. 3 is a schematic diagram showing an example of numerical time-series data
  • FIG. 9 is a schematic diagram illustrating an example of a class assignment result in the embodiment.
  • FIG. 10 is a schematic diagram illustrating an example of a transaction with a class in the embodiment.
  • FIG. 11 is a schematic diagram illustrating an example of a pattern in the embodiment.
  • FIG. 12 is a schematic diagram illustrating an example of a pattern in the embodiment.
  • FIG. 13 is a block diagram schematically illustrating the configuration of the attention evaluation target extraction device according to the second embodiment.
  • FIG. 14 is a flowchart for explaining the operation in the embodiment.
  • FIG. 15 is a schematic diagram showing an example of text time-series data in the embodiment.
  • FIG. 16 is a schematic diagram illustrating an example of an item set in the embodiment.
  • FIG. 17 is a schematic diagram illustrating an example of an evaluation result of text time-series data in the embodiment.
  • the following attention evaluation target extraction device can be implemented with either a hardware configuration or a combination configuration of hardware resources and software.
  • the software of the combination configuration as shown in FIG. 1 and FIG. 13, it is installed in a computer from a network or a non-transitory computer-readable storage medium M in advance, and the processor of the computer As a result, a program for causing the computer to realize the function of the attention evaluation target extraction device is used.
  • FIG. 1 is a block diagram schematically showing the configuration of the attention evaluation object extraction device according to the first embodiment.
  • This attention evaluation object extraction apparatus is an apparatus capable of finding a pattern before extracting an evaluation object to be noted based on a pattern from a plurality of text information related to the plurality of evaluation objects given along a time series. is there.
  • the attention evaluation target extraction device includes a text time series collection unit B1, an item extraction unit B2, an evaluation target knowledge storage unit B3, a numerical time series collection unit B4, a class determination unit B5, a transaction generation unit B6, and a pattern discovery unit.
  • B7, a pattern storage unit B8, and an evaluation object extraction unit B9 are provided. That is, the attention evaluation object extraction device can find the pattern by each of the parts B1 to B8 before extracting the evaluation object to be noticed by the evaluation object extraction part B9.
  • the text time series collecting unit (text collecting means) B1 has a function of collecting a plurality of text information related to a plurality of evaluation objects given along the time series.
  • text information may be called “text time-series data”.
  • the item extraction unit (item allocation unit) B2 extracts a plurality of items for each piece of text information collected by the text time series collection unit B1, and among the items, the evaluation target in the evaluation target knowledge storage unit B3 When there is an item that matches the expression or the related expression, the evaluation target expression associated with the evaluation target expression or the related expression in the evaluation target knowledge storage unit B3 is assigned to the text information as an evaluation target item.
  • the evaluation object knowledge storage unit (object expression storage means) B3 is a storage device that can be read / written from each of the units B1, B2, B4 to B7, B9, and each of the evaluation object expressions individually representing each evaluation object A related expression representing an object individually associated with the evaluation object is stored in association with it.
  • evaluation target knowledge storage unit B3 evaluation target knowledge in which evaluation target expressions and related expressions are described in association with each other is written in advance by a control unit (not shown).
  • the evaluation target knowledge storage unit B3 may have a form in which the evaluation target knowledge described in advance in a part of the program of the attention evaluation target extraction device is written from the control unit at the time of activation, and the evaluation target knowledge described by the user's operation. May be written.
  • the numerical time series collection unit (numerical value collecting means) B4 has a function of collecting numerical information related to each evaluation object individually.
  • the “numerical information” may be called “numerical information individually associated with each evaluation target given along the time series” or may be called “numerical time series data”.
  • time series data including “text time series data” and “numerical time series data” may be referred to as “complex event time series data”.
  • the class discriminating unit B5 discriminates the class related to the change of the numerical information based on the numerical information related to the evaluation target represented by the evaluation target expression as the evaluation target item assigned by the item extracting unit B2, Is assigned to the text information to which the item to be evaluated is assigned.
  • the transaction generation unit B6 assigns, for each text information collected by the text time series collection unit B1, an evaluation target item assigned by the item extraction unit B2, each item extracted by the item extraction unit B2, and a class determination unit B5. It has a function to generate a transaction including the specified class.
  • the pattern finding unit B7 has a function of finding a pattern indicating a combination of characteristic items from the set of transactions generated by the transaction generating unit B6.
  • the “characteristic item combination” may be referred to as a “frequency item combination” or a “frequency item combination”.
  • the discovered pattern is written into the pattern storage unit B8 by the pattern discovery unit B7.
  • the pattern storage unit B8 is a storage device that can be read / written from each of the units B1, B2, B4 to B7, and B9, and stores the pattern found by the pattern finding unit B7.
  • the evaluation target knowledge storage unit B3 and the pattern storage unit B8 separate storage areas in the same storage device may be used, or separate storage devices may be used.
  • the evaluation object extraction unit B9 has a function of extracting a notable evaluation object by applying a pattern in the pattern storage unit B8 to a transaction generated from newly collected text information.
  • news headlines are taken up as text time-series data (text information)
  • stock prices are taken up as numerical time-series data (numerical information).
  • company name is taken up as an evaluation target.
  • step Sa1 the numerical time-series collection unit B4 collects numerical time-series data indicating stock price information for each evaluation target from a Web site that distributes stock price information through an Internet line or the like.
  • the numerical time series data for example, data including a brand code, a date, and an opening price is used as shown in FIG.
  • the numerical time-series data is composed only of data on the date when the stock market is operating, and does not include data on the date when the stock market is not operating.
  • step Sa2 the text time-series collection unit B1 collects text time-series data including the news headlines from the Web site that distributes the news headlines via the Internet line or the like.
  • the text time-series data for example, as shown in FIG. 4, data including a news delivery date and a news headline is used.
  • step Sa3 the text time series collection unit B1 extracts one text from the collected text time series data. At this time, if there is a text to be extracted, the process proceeds to step Sa4. On the other hand, if there is no text to be extracted, the process proceeds to step Sa11. Therefore, when the text time-series data shown in FIG. 4 is collected, the process proceeds to step Sa11 when performing this step in the process immediately after the time-series data Tn is extracted.
  • step Sa4 the item extraction unit B2 extracts each expression representing the extracted text as an item.
  • the item extraction unit B2 performs morphological analysis on the text to identify the part of speech of each expression, and extracts the expression to which a noun is assigned as the part of speech as an item. Therefore, when the morphological analysis is performed on the text with the text number T1 and noun expressions are extracted, “Company a”, “Accounting”, “Reservation”, “Soft”, “Previous”, “Sales” "And” start "are extracted as items.
  • the item set shown in FIG. 5 can be generated from each text.
  • step Sa5 one item is extracted from the set of items extracted by the item extraction unit B2. At this time, if there is an item to be extracted, the process proceeds to step Sa6, whereas if there is no item to be extracted, the process proceeds to step Sa7. Therefore, in the case of T1, when this step is performed in the process immediately after the “start” item is extracted, the process moves to step Sa7.
  • step Sa6 the item extraction unit B2 determines whether or not the item is related to the evaluation target by referring to the evaluation target knowledge stored in the evaluation target knowledge storage unit B3.
  • the item extraction unit B2 determines that the item is an evaluation target
  • the item extraction unit B2 assigns the evaluation target item to the text.
  • the evaluation target knowledge configured from the evaluation target expression and the related expression shown in FIG. 6 is stored in the evaluation target knowledge storage unit B3.
  • the item “Company a” is extracted from the text of the text number T1.
  • the “text of text number T ⁇ ” is also referred to as “text T ⁇ ” (the subscript ⁇ represents an arbitrary number).
  • “item set with item set number I ⁇ ” is also referred to as “item set I ⁇ ”.
  • the item extraction unit B2 can determine that the item is registered as the related expression by referring to the related expression of the evaluation target knowledge. Therefore, the item extraction unit B2 assigns “Company A”, which is an evaluation target expression corresponding to the related expression, to the evaluation target item for the text T1.
  • the item extraction unit B2 can identify that the item is registered as the related expression at a plurality of locations by referring to the related expression of the evaluation target knowledge. Therefore, the item extraction unit B2 assigns “D1 company”, “D2 company”, and “D3 company”, which are evaluation target expressions corresponding to the respective related expressions, to the evaluation target item for the text of text number T7. .
  • step Sa5 without assigning a new evaluation target item to each text. Will return.
  • step Sa7 the class determination unit B5 takes out one evaluation target item assigned to the text. At this time, if there is an evaluation target item to be extracted, the process proceeds to step Sa8. On the other hand, if there is no item to be evaluated, the process proceeds to step Sa9. For example, if only the evaluation target item “Company A” is assigned to the item set I1, the process immediately after extracting “Company A” proceeds to Step Sa9.
  • the class determination unit B5 refers to the numerical time series data corresponding to the extracted evaluation target item, thereby calculating a variation rate that is a criterion for class determination.
  • the class determination unit B5 calculates a variation rate corresponding to the evaluation target item based on, for example, the equation (1).
  • Expression (1) it is the evaluation target item, d is the distribution date of the text including the evaluation target, dy is the business day y days after the distribution date d, and value () is the opening price of the stock price on the specified date of the evaluation target item A function that returns However, if d is not a business day, it will be the business day one day ago.
  • the class determination unit B5 calculates an evaluation value obtained by integrating the fluctuation rates calculated for each item corresponding to the text, and determines the class according to the value of the evaluation value.
  • the class determination unit B5 calculates an average variation rate that is an average value of the variation rates based on, for example, the equation (2), and sets the average variation rate as an evaluation value corresponding to the text.
  • I is a set of items corresponding to text
  • is an operation for calculating the number of items constituting the item set.
  • is an operation for calculating the number of items constituting the item set.
  • is an operation for calculating the number of items constituting the item set.
  • is an operation for calculating the number of items constituting the item set.
  • the average value is a value obtained by multiplying a predetermined class discrimination threshold Th (> 0) by ⁇ 1, ⁇ Th or less is “falling”, a value exceeding Th is “rising”, and ⁇ Th A value which is large and smaller than Th is determined as “level”.
  • Th predetermined class discrimination threshold
  • the average variation rate is given as ⁇ 0.01774.
  • the class discrimination threshold is given as 0.015, the classes “down” and “up” are assigned to the texts T1 and Tn, respectively.
  • the average variation rate cannot be calculated, and therefore no class is assigned.
  • the class discriminating unit B5 discriminates a class for each text and assigns the class, thereby obtaining a class assignment result for each text between the text and the class as shown in FIG. Can be obtained as data representing the correspondence relationship.
  • a diagonal line “/” is described.
  • step Sa10 the transaction generation unit B6 generates a transaction from each text with a class by combining the item extracted from the text and the evaluation target item with the assigned class. Accordingly, a transaction with a class is generated from the text of FIG. 4 as shown in FIG.
  • step Sa11 the pattern finding unit B7 extracts one class from the classes assigned to the text. At this time, if there is a class to be extracted, the process proceeds to step Sa12. On the other hand, if there is no class to be extracted, the present algorithm is terminated. In the present embodiment, the pattern discovery is attempted only from the classes “up” and “down”.
  • the pattern finding unit B7 extracts a transaction consisting of the designated class. Further, the pattern finding unit B7 uses a reference R. ⁇ ⁇ Agrawal ⁇ ⁇ ⁇ ⁇ and R. Srikant, “Fast Algorithms for Mining Association Rules as a combination of frequent items that are equal to or greater than the minimum support level that is a threshold relating to the pattern frequency. "20th" VLDB "Conference” (1994) All are found by the algorithm and stored in the pattern storage unit B8 as a pattern corresponding to the selected class.
  • the pattern finding unit B7 sets a combination of items such as “Company I” and “Server” as pattern candidates for the class “rising” in the transaction shown in FIG. And a pattern candidate having a higher frequency than the reference value among the created pattern candidates is left as a pattern.
  • the pattern finding unit B7 can find a pattern indicating a combination of characteristic items as shown in FIG. 11 and store it in the pattern storage unit B8.
  • a pattern can be found from the frequency of pattern candidates as shown in FIG. 12 and stored in the pattern storage unit B8.
  • the evaluation object extraction unit B9 extracts the evaluation object to be noted by applying the pattern in the pattern storage unit B8 to the transaction generated from the newly collected text time series data.
  • a plurality of items are extracted for each collected text information, and when there is an item that matches the evaluation target expression or the related expression among the items, the evaluation target
  • the evaluation target expression associated with the expression or the related expression is assigned to the text information as the evaluation target item, the class related to the change of numerical information related to the evaluation target item is determined, and the evaluation target item is determined for each text information.
  • a clear correspondence between text information and numerical information is not described by creating a transaction with a class including each item and class and finding a pattern indicating a combination of characteristic items from the set of transactions. However, text information and numerical information can be properly associated with each other. It is possible to extract the accountable pattern from the text information.
  • time-series data is not limited to the generation related to the evaluation target, and the pattern is automatically found. Can do.
  • the conventional second method has a disadvantage that it is impossible to predict a notable evaluation target in which a specific relationship occurs based on the discovered pattern.
  • the evaluation object extraction unit B9 evaluates new text information based on the found pattern, so that the evaluation object that is highly likely to change numerical information is The evaluation target to be predicted can be predicted (extracted).
  • FIG. 13 is a block diagram schematically showing the configuration of the attention evaluation object extraction apparatus according to the second embodiment. Detailed descriptions of the same parts as those in FIG. 1 are omitted, and different parts are mainly described here.
  • the second embodiment is a specific example of the first embodiment
  • the evaluation object extraction unit B9 includes a pattern evaluation unit B10 and an attention evaluation object extraction unit B11.
  • the transaction generation unit B6 after the pattern is stored in the pattern storage unit B8, for each piece of text information newly collected by the text time series collection unit B1, the evaluation target item assigned by the item extraction unit B2 And a function for generating a classless transaction that does not include the above-described class.
  • the “classless transaction” an arbitrary name may be used as long as it can be distinguished from the class-added transaction used for pattern discovery (pattern discovery transaction). Therefore, the “classless transaction” may be simply called “transaction”, for example, “classless transaction”, “attention evaluation target extraction transaction”, “new transaction”, or the like.
  • the pattern evaluation unit (pattern evaluation unit) B10 has a function of applying the pattern in the pattern storage unit B8 to the classless transaction and evaluating whether the classless transaction includes the pattern.
  • evaluation may be called “determination”.
  • the attention evaluation object extraction unit (attention evaluation object extraction means) B11 adds the frequency associated with the evaluation object item in the classless transaction when the pattern is included as a result of the evaluation, and based on the addition result of the frequency It has a function of extracting an evaluation target item associated with the frequency as a notable evaluation target.
  • step Sb1 the text time-series collection unit B1 collects text time-series data including the news headlines from the Web site that distributes the news headlines via the Internet line or the like.
  • the text time-series data for example, data including a news delivery date and a news headline is used as shown in FIG.
  • the distribution date of the text time-series data in this embodiment is assumed to be a date after the collection date of the text time-series data used for the pattern discovery by the pattern discovery unit B7.
  • step Sb2 the text time series collecting unit B1 takes out one text from the collected text. At this time, if there is a text to be extracted, the process proceeds to step Sb3, whereas if there is no text to be extracted, the process proceeds to step Sb9. For example, when the text shown in FIG. 15 is collected, the process proceeds to step Sb9 in the process immediately after the text Em is extracted.
  • step Sb3 the item extraction unit B2 performs processing similar to that in step Sa4 in FIG. 2 on the extracted text, thereby extracting an item representing the text. Therefore, items such as “Company i”, “Middle”, “End”, “Server”, “Speech”, “Recognition”, “Function”, and “Installed” are extracted from the text E1.
  • step Sb4 the item extraction unit B2 sequentially extracts one item from the extracted items. At this time, if there is an item to be extracted, the process proceeds to step Sb5, whereas if there is no item to be extracted, the process proceeds to step Sb6. For example, in the case of the text E1, in the process immediately after the item “mounted” is extracted, the process proceeds to step Sb6.
  • step Sb5 the item extraction unit B2 evaluates whether or not there is an evaluation target item corresponding to the extracted item by performing the same processing as in step Sa6 of FIG. 2 on the extracted item. . If it exists, the item extraction unit B2 assigns the evaluation target item to the text.
  • step Sb6 the transaction generation unit B6 generates, for each text, a transaction including an item extracted from the text and an evaluation target text corresponding to the text.
  • This process is similar to the process of step Sa10 of FIG. 2, but unlike the process of step Sa10 of FIG. 2, no class is assigned to each transaction. Therefore, a classless transaction can be generated from the text shown in FIG. 15 as shown in FIG.
  • step Sb7 the pattern evaluation unit B10 sequentially extracts one pattern from the patterns stored in the pattern storage unit B8. At this time, if there is a pattern to be extracted, the process proceeds to step Sa8. On the other hand, if there is no pattern to be extracted, the process returns to step Sb2.
  • step Sb8 the pattern evaluation unit B10 compares the extracted transaction with no class with the pattern, and evaluates whether the items constituting the pattern include the items constituting the transaction without the class. At this time, if the pattern is included, the class corresponding to the pattern is referred to, and the frequency of the evaluation target item for each class corresponding to the transaction is incremented by one.
  • the items “Company I”, “Server”, and “Installation” constituting the pattern up4 are included in the items constituting the transaction F1. Further, since the class of up4 is given as “rising”, 1 is added to the values of the evaluation object item “Company I” and the class “rising”.
  • the frequency of the evaluation target item “D3 company”, the class “rise”, the evaluation target item “Company J”, and the class “rise” is incremented by one.
  • step Sb9 the attention evaluation object extraction unit B11 determines and outputs an attention evaluation object based on the frequency calculated by evaluating each transaction with each pattern.
  • the attention evaluation target extraction unit B11 is not limited to extracting a higher-order item, and may extract a higher frequency than the reference value.
  • the attention evaluation object extraction apparatus of the second embodiment is not limited to the second embodiment, and can be used as a modification, for example, as shown in [1] to [6] below.
  • Step Sa11 and step Sa12 in FIG. 2 a class is selected, and a pattern is found based on a subset of transactions divided based on the class. 2 is not limited to this.
  • References: Steps Sa11 and Sa12 in FIG. 2 are written by Shigeaki Sakurai, “Finding frequent patterns from a set of items with classes”, The 24th Annual Conference of the Japanese Society for Artificial Intelligence, 2010, 2A3 -4, By using the algorithm described in ⁇ https://kaigi.org/jsai/webprogram/2010/pdf/10.pdf>, execute processing based on FP-tree and FP-growth, It is also possible to find patterns from transactions with classes without splitting the transactions.
  • the pattern finding unit B7 generates an FP-tree in which the item set included in the class-added transaction is stored in a tree structure format by this algorithm.
  • the FP-tree for an item set with class an area for storing a pattern class corresponding to the pattern in the header of the FP-tree and a flag for identifying whether the pattern is a feature pattern or a possibility pattern And a flag indicating whether or not the feature support level of the pattern is equal to or higher than the minimum support level.
  • the pattern finding unit B7 executes the FP-growth of this algorithm to generate an item subset that is conditioned by a specific item from the FP-tree, and further generates an FP-tree from the item subset. Generate a tree.
  • the pattern finding unit B7 uses this algorithm to find a pattern by recursively repeating this FP-tree generation and item subset generation.
  • one class discrimination threshold is used to divide into three classes.
  • four or more classes are used. It can also be divided into
  • step Sb8 of FIG. 14 the frequency is incremented by 1 for all the evaluation target items corresponding to the transaction including the pattern, but a plurality of evaluation target items are extracted from one transaction. A value normalized by using the number of items to be evaluated as a weight can be added.
  • the frequency can be added by giving a higher weight than the evaluation target item appearing only in the transaction.
  • the target evaluation object is determined based on the frequency for each class, but the evaluation is performed by calculating the integrated evaluation value by adding the frequencies of the individual classes. It is also possible to determine the target of attention evaluation using the value.
  • the target evaluation target is output.
  • the pattern is evaluated for each transaction, and the evaluation target item corresponding to the transaction including the pattern is focused. It can also be output as a target.
  • the pattern is applied to the classless transaction, and it is evaluated whether the classless transaction includes the pattern.
  • the frequency associated with the evaluation target item in the transaction is added and the evaluation target item associated with the frequency is extracted as an evaluation target to be noted based on the addition result of the frequency, Similar effects can be obtained.
  • a classless transaction that does not include a class is generated, so a transaction can be generated at high speed.
  • a plurality of items are extracted for each collected text information, and when there is an item that matches the evaluation target expression or the related expression among the items, the evaluation is performed.
  • the evaluation target expression associated with the target expression or the related expression is assigned to the text information as the evaluation target item, the class related to the change of numerical information related to the evaluation target item is determined, and the evaluation target is determined for each text information.
  • the storage medium can store a program and can be read by a computer
  • the storage format may be any form.
  • an OS operating system
  • MW middleware
  • database management software network software
  • the storage medium in each embodiment is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
  • the number of storage media is not limited to one, and the case where the processing in each of the above embodiments is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.
  • the computer in each embodiment executes each process in each of the above embodiments based on a program stored in a storage medium, and a single device such as a personal computer or a plurality of devices are connected to a network. Any configuration of the system or the like may be used.
  • the computer in each embodiment is not limited to a personal computer, and includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program. Yes.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 実施形態の注目評価対象抽出装置は、アイテム割当て手段、クラス判別手段、トランザクション生成手段及びパターン発見手段を備えている。前記アイテム割当て手段は、収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現の評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てる。前記クラス判別手段は、前記評価対象アイテムに関連した前記数値情報の変化からクラスを判別し、当該クラスを当該テキスト情報に割り当てる。前記トランザクション生成手段は、前記テキスト情報毎に、前記評価対象アイテム、前記各アイテム及び前記クラスを含むクラス付きトランザクションを生成する。前記パターン発見手段は、前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見する。

Description

注目評価対象抽出装置及びプログラム
 本発明の実施形態は、注目評価対象抽出装置及びプログラムに関する。
 コンピュータ及びネットワーク環境では、特定の対象に対する数値的な時系列データが収集可能であるとともに、特定の対象に対するテキスト的な時系列データが入手可能となっている。このような環境においては、数値的な時系列データとテキスト的な時系列データに基づいて、数値的な時系列データの変動を、テキスト的な時系列データによって説明するパターンを発見するとともに、次期における注目すべき評価対象を予測する方法が研究されてきている。
 例えば、証券市場においては、株価を数値的な時系列データ、銘柄に関連するニュース記事をテキスト的な時系列データとみなすことにより、株価の変動を説明する、ニュース記事から抽出されるパターンを発見するとともに、次期における注目すべき銘柄を利用者に通知し、利用者の銘柄売買に関する意思決定を支援する方法が研究されてきている。
 評価対象を予測する方法としては、例えば2つの方法が提案されている。
 第1の方法は、明示的に与えられる属性値によって評価対象を事前に特徴付けておき、評価対象の発生に関するイベントの頻度に基づいた時系列データを生成し、評価対象の重要度あるいは評価対象の属性値の重要度を算出することにより、特定の問題領域において重要な評価対象を抽出する方式である。
 一方、第2の方法では、評価対象と特定の語の出現回数の経時的変化を対応させて、評価対象と特定の語との関係を視覚的に把握できるように利用者に表示する方式である。
特開2002-207755号公報 特開2001-216311号公報
 しかしながら以上のような2つの方法は、通常は特に問題ないが、本発明者の検討によれば、以下のような不都合がある。
 例えば、第1の方法は、明示的な属性値によって評価対象が事前に特徴付けられるため、特徴付けが事前に与えられないような評価対象を扱うことができないという不都合がある。また、第1の方法は、評価対象に関連する時系列データが、評価対象の発生に関するイベントの時系列データに限定されるという不都合もある。
 一方、第2の方法は、評価対象と特定の語との関係を視覚的に把握できるとしても、特定の関係が生じる場合を説明し得るようなパターンを自動的に発見できないという不都合がある。
 本発明が解決しようとする課題は、特徴付けが事前に与えられない評価対象を扱うことができ、時系列データが評価対象の発生に関するものに限定されず、且つパターンを自動的に発見し得る注目評価対象抽出装置及びプログラムを提供することである。
 実施形態の注目評価対象抽出装置は、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、前記パターンを発見可能な装置である。
 前記注目評価対象抽出装置は、テキスト収集手段、数値収集手段、対象表現格納手段、アイテム割当て手段、クラス判別手段、トランザクション生成手段、パターン発見手段及びパターン格納手段を備えている。
 前記テキスト収集手段は、前記複数のテキスト情報を収集する。
 前記数値収集手段は、前記各評価対象に個別に関連した数値情報を収集する。
 前記対象表現格納手段は、前記各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて格納する。
 前記アイテム割当て手段は、前記収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、前記評価対象表現又は前記関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に前記対象表現格納手段内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てる。
 前記クラス判別手段は、前記評価対象アイテムとしての評価対象表現が表す評価対象に関連した前記数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てる。
 前記トランザクション生成手段は、前記収集されたテキスト情報毎に、前記割り当てられた評価対象アイテム、前記抽出された各アイテム及び前記割り当てられたクラスを含むクラス付きトランザクションを生成する。
 前記パターン発見手段は、前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見する。
 前記パターン格納手段は、前記発見されたパターンを格納する。
図1は、第1の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図である。 図2は、同実施形態における動作を説明するためのフローチャートである。 図3は、同実施形態における数値時系列データの一例を示す模式図である。 図4は、同実施形態におけるテキスト時系列データの一例を示す模式図である。 図5は、同実施形態におけるアイテム集合の一例を示す模式図である。 図6は、同実施形態における評価対象知識の一例を示す模式図である。 図7は、同実施形態における数値時系列データの一例を示す模式図である。 図8は、同実施形態における数値時系列データの一例を示す模式図である。 図9は、同実施形態におけるクラスの割り当て結果の一例を示す模式図である。 図10は、同実施形態におけるクラス付きのトランザクションの一例を示す模式図である。 図11は、同実施形態におけるパターンの一例を示す模式図である。 図12は、同実施形態におけるパターンの一例を示す模式図である。 図13は、第2の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図である。 図14は、同実施形態における動作を説明するためのフローチャートである。 図15は、同実施形態におけるテキスト時系列データの一例を示す模式図である。 図16は、同実施形態におけるアイテム集合の一例を示す模式図である。 図17は、同実施形態におけるテキスト時系列データの評価結果の一例を示す模式図である。
 以下、各実施形態について図面を用いて説明する。なお、以下の注目評価対象抽出装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、図1及び図13に示す如き、予めネットワーク又は非一時的なコンピュータ読取可能な記憶媒体(non-transitory computer-readable storage medium)Mからコンピュータにインストールされ、当該コンピュータのプロセッサに実行されることにより、当該コンピュータに注目評価対象抽出装置の機能を実現させるためのプログラムが用いられる。
 <第1の実施形態>
 図1は第1の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図である。この注目評価対象抽出装置は、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、当該パターンを発見可能な装置である。
 具体的には注目評価対象抽出装置は、テキスト時系列収集部B1、アイテム抽出部B2、評価対象知識格納部B3、数値時系列収集部B4、クラス判別部B5、トランザクション生成部B6、パターン発見部B7、パターン格納部B8及び評価対象抽出部B9を備えている。すなわち、注目評価対象抽出装置は、評価対象抽出部B9によって注目すべき評価対象を抽出する前に、各部B1~B8によってパターンを発見可能となっている。
 ここで、テキスト時系列収集部(テキスト収集手段)B1は、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報を収集する機能をもっている。ここで、「テキスト情報」は、「テキスト時系列データ」と呼んでもよい。
 アイテム抽出部(アイテム割当て手段)B2は、テキスト時系列収集部B1により収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、評価対象知識格納部B3内の評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に評価対象知識格納部B3内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てる機能をもっている。
 評価対象知識格納部(対象表現格納手段)B3は、各部B1,B2,B4~B7,B9から読出/書込可能な記憶装置であって、各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて格納している。例えば、評価対象知識格納部B3は、評価対象表現と関連表現とが対応付けて記述された評価対象知識が制御部(図示せず)により予め書込まれている。なお、評価対象知識格納部B3は、注目評価対象抽出装置のプログラムの一部に予め記述された評価対象知識が起動時に制御部から書き込まれる形態でもよく、ユーザの操作により記述された評価対象知識が書き込まれている形態でもよい。
 数値時系列収集部(数値収集手段)B4は、各評価対象に個別に関連した数値情報を収集する機能をもっている。ここで、「数値情報」は、「時系列に沿って与えられる各評価対象に個別に関連した数値情報」と呼んでもよく、「数値時系列データ」と呼んでもよい。また、「テキスト時系列データ」と「数値時系列データ」とを含む時系列データを「複合イベント時系列データ」と呼んでもよい。
 クラス判別部B5は、アイテム抽出部B2により割り当てられた評価対象アイテムとしての評価対象表現が表す評価対象に関連した数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てる機能をもっている。
 トランザクション生成部B6は、テキスト時系列収集部B1により収集されたテキスト情報毎に、アイテム抽出部B2により割り当てられた評価対象アイテム、アイテム抽出部B2により抽出された各アイテム及びクラス判別部B5により割り当てられたクラスを含むトランザクションを生成する機能をもっている。
 パターン発見部B7は、トランザクション生成部B6により生成されたトランザクションの集合から特徴的なアイテムの組合せを示すパターンを発見する機能をもっている。なお、「特徴的なアイテムの組合せ」は、「頻度の高いアイテムの組合せ」又は「頻出するアイテムの組合せ」と呼んでもよい。また、発見されたパターンは、パターン発見部B7によりパターン格納部B8に書込まれる。
 パターン格納部B8は、各部B1,B2,B4~B7,B9から読出/書込可能な記憶装置であって、パターン発見部B7により発見されたパターンを格納する。なお、評価対象知識格納部B3及びパターン格納部B8としては、同一の記憶装置内の別々の記憶領域を用いてもよく、別々の記憶装置を用いてもよい。
 評価対象抽出部B9は、パターン格納部B8内のパターンを新たに収集されたテキスト情報から生成されたトランザクションに適用することにより、注目すべき評価対象を抽出する機能をもっている。
 次に、以上のように構成された注目評価対象抽出装置の動作を図2のフローチャートを用いて説明する。以下の説明においては、テキスト時系列データ(テキスト情報)として、ニュース見出しを取り上げ、数値時系列データ(数値情報)として株価を取り上げる。また、評価対象としては、会社名(株価銘柄名)を取り上げることにする。
 ステップSa1では、数値時系列収集部B4がインターネット回線などを通じて、株価情報を配信しているWebサイトから、評価対象毎の株価情報を示す数値時系列データを収集する。数値時系列データとしては、例えば、図3に示すように銘柄コード、日付、始値を含むデータが用いられる。ただし、数値時系列データは、株式市場が営業している日付のみのデータだけから構成されているとし、株式市場が営業していない日付に関するデータは含まれていないとする。
 ステップSa2では、テキスト時系列収集部B1がインターネット回線などを通じて、ニュース見出しを配信しているWebサイトから、ニュース見出しを含むテキスト時系列データを収集する。テキスト時系列データとしては、例えば、図4に示すように、ニュースの配信日とニュース見出しを含むデータが用いられる。
 ステップSa3では、収集したテキスト時系列データから、テキスト時系列収集部B1がひとつのテキストを取り出す。このとき、取り出すテキストが存在すれば、ステップSa4へと処理を進める一方、取り出すテキストが存在しない場合には、ステップSa11へと処理を進める。従って、図4に示すテキスト時系列データが収集されている場合、時系列データTnが取り出された直後の処理において、本ステップを実施する際に、ステップSa11へと進むことになる。
 ステップSa4では、アイテム抽出部B2が、取り出されたテキストを代表する各表現をアイテムとして抽出する。例えば、アイテム抽出部B2は、テキストに対して、形態素解析を実施することにより、各表現の品詞を特定し、その品詞として名詞が付与された表現を、アイテムとして抽出する。従って、テキスト番号T1のテキストに対して、形態素解析を実施して、名詞表現を抽出した場合には、「a社」、「会計」、「予約」、「ソフト」、「先行」、「販売」、「開始」といった表現がアイテムとして抽出されることになる。同様の処理を、図4に示す各テキストに実施することにより、図5に示すアイテム集合を各テキストから生成することができる。
 ステップSa5では、アイテム抽出部B2が抽出したアイテムの集合の中からひとつのアイテムを取り出す。このとき、取り出すアイテムが存在する場合には、ステップSa6へと進む一方、取り出すアイテムが存在しない場合には、ステップSa7へと進む。従って、T1の場合においては、「開始」のアイテムが取り出された直後の処理において、本ステップを実施した場合に、ステップSa7へ移動することになる。
 ステップSa6では、アイテム抽出部B2が、評価対象知識格納部B3に格納されている評価対象知識を参照することにより、当該アイテムが評価対象と関連するか否かを判定する。
 アイテム抽出部B2は、評価対象であると判定した場合、当該テキストに、評価対象アイテムを割り当てる。例えば、評価対象知識格納部B3に、図6に示す評価対象表現と関連表現とから構成された評価対象知識が格納されているとする。このとき、テキスト番号T1のテキストからアイテム「a社」が取り出されるとする。以下、「テキスト番号T○のテキスト」は「テキストT○」ともいう(添字の○は任意の数字を表す。)。同様に、「アイテム集合番号I○のアイテム集合」は「アイテム集合I○」ともいう。アイテム抽出部B2は、評価対象知識の関連表現を参照することにより、当該アイテムが関連表現として登録されていると判定することができる。そこで、アイテム抽出部B2は、テキストT1に対して、関連表現に対応する評価対象表現である「A社」を評価対象アイテムに割り当てる。
 次に、テキストT7からアイテム「鶏肉」が取り出されるとする。アイテム抽出部B2は、評価対象知識の関連表現を参照することにより、当該アイテムが複数の箇所で関連表現として登録されていると識別することができる。そこで、アイテム抽出部B2は、テキスト番号T7のテキストに対して、それぞれの関連表現に対応する評価対象表現である「D1社」、「D2社」、「D3社」を、評価対象アイテムに割り当てる。
 一方、テキストT1のアイテム「会社」やテキストT7のアイテム「原産地」の場合には、対応する関連表現が存在しないので、それぞれのテキストに、新たな評価対象アイテムを割り当てることなく、ステップSa5に処理を戻すことになる。
 ステップSa7では、クラス判別部B5が、テキストに割り当てられた評価対象アイテムをひとつ取り出す。このとき、取り出す評価対象アイテムが存在すれば、ステップSa8へと進む。一方、取り出す評価対象アイテムが存在しない場合は、ステップSa9へと進む。例えば、アイテム集合I1に対して、評価対象アイテム「A社」だけが割り当てられているとすれば、「A社」を取り出した直後の処理では、ステップSa9へと進むことになる。
 ステップSa8では、クラス判別部B5が、取り出された評価対象アイテムに対応する数値時系列データを参照することにより、クラス判定の基準となる変動率を算出する。ここで、クラス判別部B5は、例えば式(1)に基づいて、当該評価対象アイテムに対応する変動率を算出することとする。式(1)において、itが評価対象アイテム、dが評価対象を含むテキストの配信日、dyを配信日dよりy日後の営業日、value()を評価対象アイテムの指定日における株価の始値を返す関数とする。ただし、dが営業日でない場合は、一日前の営業日とする。
Figure JPOXMLDOC01-appb-M000001
 ここで、yが2と与えられているとした場合について、変動率を算出してみることにする。アイテム集合I1から「A社」が取り出されており、「A社」に対応する数値時系列データが図3に示すように与えられているとする。このとき、アイテム集合I1に対応するテキストT1の配信日として、2010/4/26を得ることができるとともに、dyとして2010/4/28を得ることができる。図3を参照することにより、value(A社,2010/4/26)、value(A社,2010/4/28)は、それぞれ902、886と与えられているため、f(A社, 2010/4/26)=(886-902)/902=-0.01774を得ることができる。次に、アイテム集合Inから「K社」が取り出されており、「K社」に対応する数値時系列データが図7に示すように与えられている場合を考えてみることにする。このとき、アイテム集合Inに対応するテキストTnの配信日として、2010/05/27を得ることができるとともに、y日後の営業日dyとして2010/5/31を得ることができる。図7を参照することにより、value(K社,2010/5/27)、value(K社,2010/5/31)は、802、816と与えられているため、f(K社,2010/5/27)=(816-802)/802=0.05923を得ることができる。同様に、アイテム集合Inから「L社」が取り出されており、「L社」に対応する数値時系列データが図8に示すように与えられている場合には、f(L社,2010/5/27)=(926-914)/914=0.01313と与えられる。
 ステップSa9では、クラス判別部B5がテキストに対応する各アイテムに対して算出された変動率を統合した評価値を算出し、その評価値の値に従ってクラスを判別する。ここで、クラス判別部B5は、例えば式(2)に基づいて、変動率の平均値である平均変動率を算出し、当該平均変動率を、テキストに対応する評価値とする。式(2)において、Iはテキストに対応するアイテムの集合、| |はアイテム集合を構成するアイテムの個数を算出する演算とする。ただし、アイテム集合が空集合の場合には、当該平均変動率は算出不能であるとする。
Figure JPOXMLDOC01-appb-M000002
 また、当該平均値が予め指定してあるクラス判別しきい値Th(>0)に-1掛けた値-Th以下であるものを「下降」、Th以上のものを「上昇」、-Thより大きくThより小さいものを「平準」と判定する。ただし、平均変動率が算出不能の場合においては、クラスは割り当てられないとする。
 例えば、テキストT1の場合においては、ひとつのアイテム「A社」のみが割り当てられているので、平均変動率は、-0.01774と与えられる。また、テキストTnの場合においては、「K社」、「L社」のふたつのアイテムが割り当てられているので、各アイテムの平均値である(0.05923+0.01313)/2=0.03618が平均変動率として与えられる。ここで、クラス判別しきい値が0.015と与えられているとすれば、テキストT1,Tnに対して、クラス「下降」、「上昇」がそれぞれ割り当てられることになる。一方、テキストT2、T8にはアイテムが含まれていないため、平均変動率が算出不能となるため、クラスは割り当てられないことになる。
 以上のように、クラス判別部B5は、各テキストに対してクラスを判別し、当該クラスを割り当てることにより、図9に示すように、各テキストに対するクラスの割り当て結果を、テキストとクラスとの間の対応関係を表すデータとして得ることができる。ただし、クラスが割り当てられない場合には、斜線「/」が記載されている。
 ステップSa10では、トランザクション生成部B6が、クラス付きの各テキストから、当該テキストから抽出されるアイテム及び評価対象アイテムと、割り当てられたクラスとを組み合わせることにより、トランザクションを生成する。従って、図4のテキストからは、図10に示すようにクラス付きのトランザクションが生成されることになる。
 ステップSa11では、パターン発見部B7が、テキストに割り当てられるクラスの中からひとつのクラスを取り出す。このとき、取り出すクラスが存在する場合には、ステップSa12へと処理を進める一方、取り出すクラスが存在しない場合には、本アルゴリズムを終了する。また、本実施形態においては、クラス「上昇」、「下降」のみからパターンの発見を試みることにする。
 ステップSa12では、パターン発見部B7が、指定されているクラスからなるトランザクションを抽出する。また、パターン発見部B7は、パターンの頻度に関するしきい値である最小支持度以上となる頻出するアイテムの組合せであるパターンを、参考文献R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules”, 20th VLDB Conference (1994) に記載のアルゴリズムによってすべて発見し、選択されているクラスに対応するパターンとして、パターン格納部B8に格納する。
 パターン発見部B7は、例えば、本アルゴリズムを利用することにより、図10に示したトランザクション内のクラス「上昇」に対して、「I社」と「サーバー」のように各アイテムの組み合わせをパターン候補として作成し、当該作成したパターン候補の中で頻度が基準値よりも高いパターン候補をパターンとして残す。これにより、パターン発見部B7は、図11に示すように特徴的なアイテムの組合せを示すパターンを発見し、パターン格納部B8に格納することができる。また、クラス「下降」に対しても同様にしてパターン候補の頻度から、図12に示すようにパターンを発見し、パターン格納部B8に格納することができる。
 評価対象抽出部B9は、パターン格納部B8内のパターンを新たに収集されたテキスト時系列データから生成されたトランザクションに適用することにより、注目すべき評価対象を抽出する。
 上述したように本実施形態によれば、収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当て、評価対象アイテムに関連した数値情報の変化に関連したクラスを判別し、テキスト情報毎に、評価対象アイテム、各アイテム及びクラスを含むクラス付きトランザクションを生成し、トランザクションの集合から特徴的なアイテムの組合せを示すパターンを発見する構成により、テキスト情報と数値情報の間に明確な対応関係が記述されていないとしても、テキスト情報と数値情報を適切に関連付けることができ、数値情報の変化を説明可能なパターンをテキスト情報の中から抽出することができる。
 補足すると、本実施形態によれば、特徴付けが事前に与えられない評価対象を扱うことができ、時系列データが評価対象の発生に関するものに限定されず、且つパターンを自動的に発見することができる。
 また、従来の第2の方法では、発見されたパターンに基づいて、特定の関係が発生する注目すべき評価対象を予測できないという不都合もある。これに対し、本実施形態によれば、評価対象抽出部B9により、発見されたパターンに基づいて新たなテキスト情報を評価することにより、数値情報の変化が起きる可能性の高い評価対象として、注目すべき評価対象を予測(抽出)することができる。
 <第2の実施形態>
 図13は第2の実施形態に係る注目評価対象抽出装置の構成を模式的に示すブロック図であり、図1と同一部分についてはその詳しい説明を省略し、ここでは異なる部分について主に述べる。
 すなわち、第2の実施形態は、第1の実施形態の具体例であり、評価対象抽出部B9が、パターン評価部B10及び注目評価対象抽出部B11を備えた形態となっている。これに伴い、トランザクション生成部B6は、パターン格納部B8にパターンが格納された後、テキスト時系列収集部B1によって新たに収集されたテキスト情報毎に、アイテム抽出部B2によって割り当てられた評価対象アイテムと抽出された各アイテムとを含み、前述したクラスを含まないクラス無しトランザクションを生成する機能をもっている。なお、「クラス無しトランザクション」は、パターン発見に用いたクラス付きトランザクション(パターン発見用トランザクション)と区別がつけば任意の名称を用いてよい。このため、「クラス無しトランザクション」は、例えば、単に「トランザクション」と呼んでもよく、「クラス無しのトランザクション」、「注目評価対象抽出用トランザクション」又は「新規トランザクション」等と呼んでもよい。
 ここで、パターン評価部(パターン評価手段)B10は、パターン格納部B8内のパターンを当該クラス無しトランザクションに適用し、当該クラス無しトランザクションが当該パターンを含むか否かを評価する機能をもっている。ここで、「評価」は「判定」と呼んでもよい。
 注目評価対象抽出部(注目評価対象抽出手段)B11は、評価の結果、パターンを含む場合には当該クラス無しトランザクション内の評価対象アイテムに関連付けた頻度を加算し、当該頻度の加算結果に基づいて当該頻度に関連付けられた評価対象アイテムを、注目すべき評価対象として抽出する機能をもっている。
 次に、以上のように構成された注目評価対象抽出装置の動作を図14のフローチャートを用いて説明する。
 ステップSb1では、テキスト時系列収集部B1がインターネット回線などを通じて、ニュース見出しを配信しているWebサイトから、ニュース見出しを含むテキスト時系列データを収集する。テキスト時系列データとしては、例えば、図15に示すように、ニュースの配信日とニュース見出しを含むデータが用いられる。但し、本実施形態のテキスト時系列データの配信日は、パターン発見部B7によるパターンの発見に用いたテキスト時系列データの収集日以降の日であるとする。
 ステップSb2では、テキスト時系列収集部B1が、収集したテキストの中からひとつのテキストを取り出す。このとき、取り出すテキストが存在する場合には、ステップSb3へと進む一方、取り出すテキストが存在しない場合には、ステップSb9へと進む。例えば、図15に示すテキストが収集されている場合には、テキストEmが取り出された直後の処理において、ステップSb9へと進むことになる。
 ステップSb3では、アイテム抽出部B2が、取り出されたテキストに対して、図2のステップSa4と同様な処理を実施することにより、テキストを代表するアイテムを抽出する。従って、テキストE1からは、「i社」、「ミドル」、「エンド」、「サーバー」、「音声」、「認識」、「機能」、「搭載」といったアイテムが抽出されることになる。
 ステップSb4では、アイテム抽出部B2が、抽出したアイテムの中からひとつのアイテムを順に取り出す。このとき、取り出すアイテムが存在する場合には、ステップSb5へと進む一方、取り出すアイテムが存在しない場合には、ステップSb6へと進む。例えば、テキストE1の場合には、アイテム「搭載」が抽出された直後の処理において、ステップSb6へと進むことになる。
 ステップSb5では、アイテム抽出部B2が、取り出されたアイテムに対して、図2のステップSa6と同様な処理を実施することにより、取り出したアイテムに対応する評価対象アイテムが存在するかどうかを評価する。存在する場合には、アイテム抽出部B2は、当該評価対象アイテムを当該テキストに割り当てる。
 ステップSb6では、トランザクション生成部B6が、各テキストに対して、テキストから抽出されたアイテムと、テキストに対応する評価対象テキストからなるトランザクションを生成する。本処理は、図2のステップSa10の処理に類似するが、図2のステップSa10の処理の場合とは異なり、各トランザクションにはクラスが割り当てられていない。従って、図15に示すテキストから、図16に示すようにクラス無しのトランザクションを生成することができる。
 ステップSb7では、パターン評価部B10が、パターン格納部B8に格納されているパターンの中から順にひとつのパターンを取り出す。このとき、取り出すパターンが存在する場合には、ステップSa8へと処理を進める一方、取り出すパターンが存在しない場合には、ステップSb2へと処理を戻す。
 ステップSb8では、パターン評価部B10が、取り出されているクラス無しのトランザクションとパターンを比較し、当該パターンを構成するアイテムを、当該クラス無しのトランザクションを構成するアイテムが含んでいるかどうかを評価する。このとき、当該パターンを含んでいるとすれば、当該パターンに対応するクラスを参照し、当該トランザクションに対応するクラス毎の評価対象アイテムの頻度を1加算する。
 例えば、トランザクションF1とパターンup4が選ばれている場合、パターンup4を構成するアイテム「I社」、「サーバー」、「搭載」は、トランザクションF1を構成するアイテムに含まれている。また、up4のクラスは「上昇」と与えられているので、評価対象アイテム「I社」、クラス「上昇」の値を1加算する。
 また、トランザクションF3とパターンdw5が選択されている場合、パターンdw4を構成する「原産地」、「偽装」は、トランザクションF3を構成するアイテムに含まれるため、評価対象アイテム「D2社」、クラス「下降」の頻度を1加算する。
 同様に、トランザクションFmとパターンup8が選ばれている場合には、評価対象アイテム「D3社」、クラス「上昇」及び評価対象アイテム「J社」、クラス「上昇」の頻度を1加算する。
 すべてのトランザクションとパターンに対してこのようにパターンの評価を行なうことにより、図17に示すように評価対象アイテムと頻度との関係を得ることができる。
 ステップSb9では、注目評価対象抽出部B11が、各トランザクションを各パターンで評価することによって算出された頻度に基づいて、注目評価対象を決定して出力する。
 例えば、抽出する注目対象の個数を設定し、頻度の高い評価対象アイテムを、当該個数分順に出力することができる。ここで、図17に示す評価対象アイテムと頻度との関係に対して、上位3個のものを注目対象として抽出することにした場合、クラス毎に頻度を参照することにより、「D3社」、「D2社」、「I社」といった評価対象アイテムを注目評価対象として出力することができる。なお、注目評価対象抽出部B11は、上位のものを抽出する場合に限らず、基準値より高い頻度のものを抽出してもよい。
 以上のようにすることにより、請求項2に記載の複合イベント時系列からのパターンの発見及び注目評価対象の抽出装置に基づいて、注目評価対象を決定することができる。
 第2の実施形態の注目評価対象抽出装置は、第2の実施形態に限られたものではなく、例えば以下の[1]~[6]に示す如き、変形例として用いることができる。
 [1]例えば、図2のステップSa11及びステップSa12において、クラスを選択し、クラスに基づいて分割したトランザクションの部分集合に基づいてパターンを発見する。これに限らず、図2のステップSa11及びステップSa12は、参考文献:櫻井茂明 著, “クラス付きアイテム集合からの頻出パターンの発見”, The 24th Annual Conference of the Japanese Society for Artificial Intelligence, 2010, 2A3-4, <https://kaigi.org/jsai/webprogram/2010/pdf/10.pdf> に記載のアルゴリズムを利用することにより、FP-tree及びFP-growthに基づいた処理を実行して、トランザクションを分割すること無しに、クラス付きのトランザクションからパターンを発見することもできる。
 補足すると、パターン発見部B7は、本アルゴリズムにより、クラス付きのトランザクションに含まれるアイテム集合を木構造の形式に格納したFP-treeを生成する。なお、クラス付きアイテム集合向けのFP-treeにおいては、FP-treeのヘッダに、パターンに対応するパターンクラスを格納する領域と、パターンが特徴パターンであるか可能性パターンであるかを識別するフラグと、パターンの特徴支持度が最小支持度以上であるかどうかを示すフラグとが追加されている。FP-treeの生成後、パターン発見部B7は、本アルゴリズムのFP-growthを実行することにより、FP-treeから特定のアイテムで条件付けられたアイテム部分集合を生成し、アイテム部分集合から更にFP-treeを生成する。パターン発見部B7は、本アルゴリズムにより、このFP-treeの生成とアイテム部分集合の生成を再帰的に繰り返すことにより、パターンを発見する。
 [2]図2のステップSa9において、ひとつのクラス判別しきい値を利用して、3つのクラスに分割しているが、複数のクラス判別しきい値を利用することにより、4分割以上のクラスに分割することもできる。
 [3]図14のステップSb8において、パターンを含むトランザクションに対応するすべての評価対象アイテムに対して、その頻度を1加算しているが、複数の評価対象アイテムがひとつのトランザクションから抽出される場合には、評価対象アイテムの個数を重みとして正規化した値を加算することもできる。
 [4]パターンとトランザクションの両方に出現する評価対象アイテムに対しては、トランザクションのみに出現する評価対象アイテムよりも高い重みを与えて頻度を加算することもできる。
 [5]図14のステップSb9において、クラス毎の頻度に基づいて注目評価対象を決定しているが、個々のクラスの頻度を加算することにより、統合した評価値を算出することにより、当該評価値を用いて注目評価対象を決定することもできる。
 [6]図14においては、すべてのトランザクションを処理した後で、注目評価対象を出力するようにしているが、トランザクション毎にパターンの評価を行い、パターンを含むトランザクションに対応する評価対象アイテムを注目対象として出力することもできる。
 上述したように本実施形態によれば、パターンを当該クラス無しトランザクションに適用し、当該クラス無しトランザクションが当該パターンを含むか否かを評価し、評価の結果、パターンを含む場合には当該クラス無しトランザクション内の評価対象アイテムに関連付けた頻度を加算し、当該頻度の加算結果に基づいて当該頻度に関連付けられた評価対象アイテムを、注目すべき評価対象として抽出する構成により、第1の実施形態と同様の効果を得ることができる。
 また、パターン発見用のトランザクションとは異なり、クラスを含まないクラス無しトランザクションを生成するので、高速にトランザクションを生成することができる。
 以上説明した少なくとも一つの実施形態によれば、収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、評価対象表現又は関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当て、評価対象アイテムに関連した数値情報の変化に関連したクラスを判別し、テキスト情報毎に、評価対象アイテム、各アイテム及びクラスを含むクラス付きトランザクションを生成し、トランザクションの集合から特徴的なアイテムの組合せを示すパターンを発見する構成により、特徴付けが事前に与えられない評価対象を扱うことができ、時系列データが評価対象の発生に関するものに限定されず、且つパターンを自動的に発見することができる。
 なお、上記の各実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD-ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
 また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
 また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
 さらに、各実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。
 また、記憶媒体は一つに限らず、複数の媒体から上記の各実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
 なお、各実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の各実施形態における各処理を実行するものであって、パソコン等の一つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
 また、各実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。
 なお、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

Claims (3)

  1.  時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、前記パターンを発見可能な注目評価対象抽出装置であって、
     前記複数のテキスト情報を収集するテキスト収集手段(B1)と、
     前記各評価対象に個別に関連した数値情報を収集する数値収集手段(B4)と、
     前記各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて格納する対象表現格納手段(B3)と、
     前記収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、前記評価対象表現又は前記関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に前記対象表現格納手段内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てるアイテム割当て手段(B2)と、
     前記評価対象アイテムとしての評価対象表現が表す評価対象に関連した前記数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てるクラス判別手段(B5)と、
     前記収集されたテキスト情報毎に、前記割り当てられた評価対象アイテム、前記抽出された各アイテム及び前記割り当てられたクラスを含むクラス付きトランザクションを生成するトランザクション生成手段(B6)と、
     前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見するパターン発見手段(B7)と、
     前記発見されたパターンを格納するパターン格納手段(B8)と
     を備えたことを特徴とする注目評価対象抽出装置。
  2.  請求項1に記載の注目評価対象抽出装置において、
     前記パターン格納手段にパターンが格納された後、前記テキスト収集手段によって新たに収集されたテキスト情報毎に、前記アイテム割当て手段によって割り当てられた評価対象アイテムと抽出された各アイテムとを含み、前記クラスを含まないクラス無しトランザクションを生成する手段(B6)と、
     前記パターン格納手段内のパターンを前記クラス無しトランザクションに適用し、当該クラス無しトランザクションが当該パターンを含むか否かを評価するパターン評価手段(B10)と、
     前記評価の結果、前記パターンを含む場合には当該クラス無しトランザクション内の評価対象アイテムに関連付けた頻度を加算し、前記頻度の加算結果に基づいて当該頻度に関連付けられた評価対象アイテムを、前記注目すべき評価対象として抽出する注目評価対象抽出手段(B11)と
     を更に備えたことを特徴とする注目評価対象抽出装置。
  3.  対象表現格納手段(B3)及びパターン格納手段(B8)を備え、時系列に沿って与えられる複数の評価対象に関連した複数のテキスト情報からパターンに基づいて注目すべき評価対象を抽出する前に、前記パターンを発見可能な注目評価対象抽出装置のプロセッサにより実行され、非一時的なコンピュータ読取可能な記憶媒体(M)に記憶されたプログラムであって、
     前記複数のテキスト情報を収集する処理(B1)を前記プロセッサに実行させる第1プログラムコード、
     前記各評価対象に個別に関連した数値情報を収集する処理(B4)を前記プロセッサに実行させる第2プログラムコード、
     前記各評価対象を個別に表す評価対象表現と当該各評価対象に個別に関連した対象を表す関連表現とを対応付けて前記対象表現格納手段(B3)に書込む処理を前記プロセッサに実行させる第3プログラムコード、
     前記収集されたテキスト情報毎に、複数のアイテムを抽出すると共に、当該各アイテムのうち、前記評価対象表現又は前記関連表現に一致したアイテムがあるとき、当該評価対象表現又は当該関連表現に前記対象表現格納手段内で対応付けられた評価対象表現を評価対象アイテムとして当該テキスト情報に割り当てる処理(B2)を前記プロセッサに実行させる第4プログラムコード、
     前記評価対象アイテムとしての評価対象表現が表す評価対象に関連した前記数値情報に基づいて、当該数値情報の変化に関連したクラスを判別し、当該クラスを当該評価対象アイテムが割り当てられたテキスト情報に割り当てる処理(B5)を前記プロセッサに実行させる第5プログラムコード、
     前記収集されたテキスト情報毎に、前記割り当てられた評価対象アイテム、前記抽出された各アイテム及び前記割り当てられたクラスを含むクラス付きトランザクションを生成する処理(B6)を前記プロセッサに実行させる第6プログラムコード、
     前記トランザクションの集合から特徴的なアイテムの組合せを示す前記パターンを発見し、当該発見したパターンを前記パターン格納手段に書込む処理(B7)を前記プロセッサに実行させる第7プログラムコード、
     を備えたことを特徴とするプログラム。
PCT/JP2012/064189 2011-06-07 2012-05-31 注目評価対象抽出装置及びプログラム WO2012169432A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201280013764.3A CN103460206B (zh) 2011-06-07 2012-05-31 注目评价对象提取装置及方法
EP12796503.6A EP2720153A4 (en) 2011-06-07 2012-05-31 DEVICE AND PROGRAM FOR EXTRACTION OF OBSERVATION AND EVALUATION OBJECTIVES
US14/098,076 US10769534B2 (en) 2011-06-07 2013-12-05 Evaluation target of interest extraction apparatus and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-127432 2011-06-07
JP2011127432A JP5254402B2 (ja) 2011-06-07 2011-06-07 注目評価対象抽出装置及びプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/098,076 Continuation US10769534B2 (en) 2011-06-07 2013-12-05 Evaluation target of interest extraction apparatus and program

Publications (1)

Publication Number Publication Date
WO2012169432A1 true WO2012169432A1 (ja) 2012-12-13

Family

ID=47295998

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/064189 WO2012169432A1 (ja) 2011-06-07 2012-05-31 注目評価対象抽出装置及びプログラム

Country Status (5)

Country Link
US (1) US10769534B2 (ja)
EP (1) EP2720153A4 (ja)
JP (1) JP5254402B2 (ja)
CN (1) CN103460206B (ja)
WO (1) WO2012169432A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101540322B1 (ko) * 2013-12-30 2015-07-29 주식회사 코스콤 소셜 데이터의 분석에 따른 감성 기반 인덱스를 이용한 주가 지수의 추세와 전환점 판정 방법 및 그 시스템
US9734179B2 (en) 2014-05-07 2017-08-15 Sas Institute Inc. Contingency table generation
US10949492B2 (en) 2016-07-14 2021-03-16 International Business Machines Corporation Calculating a solution for an objective function based on two objective functions
CN111027023B (zh) * 2019-12-11 2022-07-08 重庆锐云科技有限公司 一种基于频繁分析的房产在线开盘检测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320469A (ja) * 1997-05-20 1998-12-04 Kokusai Electric Co Ltd 情報端末システム
JP2001216311A (ja) 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002207755A (ja) 2001-01-09 2002-07-26 Fujitsu Ltd イベントデータに関する情報管理装置
JP2002251590A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 文書分析装置
JP2005100221A (ja) * 2003-09-26 2005-04-14 Nomura Research Institute Ltd 投資判断支援情報提供装置および方法
JP2006155404A (ja) * 2004-11-30 2006-06-15 Toshiba Corp 時間情報抽出装置、時間情報抽出方法、及び時間情報抽出プログラム
JP2007102289A (ja) * 2005-09-30 2007-04-19 Ibm Japan Ltd 数値情報にテキスト情報を関連付けて表示する装置、および、その方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8285619B2 (en) * 2001-01-22 2012-10-09 Fred Herz Patents, LLC Stock market prediction using natural language processing
JP4303921B2 (ja) * 2001-08-08 2009-07-29 株式会社東芝 テキストマイニングシステム及び方法並びにプログラム
JP2003330948A (ja) 2002-03-06 2003-11-21 Fujitsu Ltd ウェブページを評価する装置および方法
US20080086436A1 (en) * 2007-08-01 2008-04-10 Dr. Ying Zhao Knowledge pattern search from networked agents
JP5382651B2 (ja) * 2009-09-09 2014-01-08 独立行政法人情報通信研究機構 単語対取得装置、単語対取得方法、およびプログラム
WO2012121747A1 (en) * 2011-03-04 2012-09-13 Ultratick, Inc. Predicting the performance of a financial instrument

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320469A (ja) * 1997-05-20 1998-12-04 Kokusai Electric Co Ltd 情報端末システム
JP2001216311A (ja) 2000-02-01 2001-08-10 Just Syst Corp イベント分析装置、及びイベント分析プログラムが格納されたプログラム装置
JP2002207755A (ja) 2001-01-09 2002-07-26 Fujitsu Ltd イベントデータに関する情報管理装置
JP2002251590A (ja) * 2001-02-23 2002-09-06 Fujitsu Ltd 文書分析装置
JP2005100221A (ja) * 2003-09-26 2005-04-14 Nomura Research Institute Ltd 投資判断支援情報提供装置および方法
JP2006155404A (ja) * 2004-11-30 2006-06-15 Toshiba Corp 時間情報抽出装置、時間情報抽出方法、及び時間情報抽出プログラム
JP2007102289A (ja) * 2005-09-30 2007-04-19 Ibm Japan Ltd 数値情報にテキスト情報を関連付けて表示する装置、および、その方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
R. AGRAWAL; R. SRIKANT: "Fast Algorithms for Mining Association Rules", 20TH VLDB CONFERENCE, 1994
See also references of EP2720153A4
SHIGEAKI SAKURAI: "Discovery of Frequent Patterns from Item Sets with their Classes", THE 24TH ANNUAL CONFERENCE OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, 2010, pages 2A3 - 4, Retrieved from the Internet <URL:https://kaigi.org/jsai/webprogram/2010/pdf/10.pdf>

Also Published As

Publication number Publication date
EP2720153A4 (en) 2015-07-01
US20140095424A1 (en) 2014-04-03
US10769534B2 (en) 2020-09-08
JP2012256108A (ja) 2012-12-27
CN103460206A (zh) 2013-12-18
CN103460206B (zh) 2016-10-12
JP5254402B2 (ja) 2013-08-07
EP2720153A1 (en) 2014-04-16

Similar Documents

Publication Publication Date Title
US9542477B2 (en) Method of automated discovery of topics relatedness
JP5823943B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
KR20180077690A (ko) 문서의 내러티브 학습 장치 및 방법, 문서의 내러티브 생성 장치 및 방법
WO2012169432A1 (ja) 注目評価対象抽出装置及びプログラム
JPWO2011090036A1 (ja) 動向情報検索装置、動向情報検索方法およびプログラム
MX2012011923A (es) Asignacion de atributis aplicables para datos que describen la identidad personal.
EP3608802A1 (en) Model variable candidate generation device and method
JP2011165131A (ja) 情報処理装置および方法、並びにプログラム
JP4017354B2 (ja) 情報分類装置および情報分類プログラム
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
JP2017107391A (ja) テキストマイニング方法、及びテキストマイニングプログラム
JP5827206B2 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
JP2016206748A (ja) 分類付与方法および分類付与システム
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
KR20190101718A (ko) 사용자 리뷰 기반 평점 재산정 장치 및 방법, 이를 기록한 기록매체
JP2007199966A (ja) 文書分類装置、文書分類方法および文書分類プログラム
Chatterjee et al. Twitter truths: Authenticating analysis of information credibility
US11544600B2 (en) Prediction rationale analysis apparatus and prediction rationale analysis method
JP4407272B2 (ja) 文書分類方法、文書分類装置及び文書分類プログラム
JP2010198278A (ja) 評判情報分類装置、評判情報分類方法及びプログラム
JP5018313B2 (ja) 情報構造化装置、情報構造化方法、及びプログラム
JP4813312B2 (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP2006293616A (ja) 文書集約方法及び装置及びプログラム
CN110619212B (zh) 一种基于字符串的恶意软件识别方法、系统及相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12796503

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE