WO2016056095A1 - データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム - Google Patents

データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム Download PDF

Info

Publication number
WO2016056095A1
WO2016056095A1 PCT/JP2014/077021 JP2014077021W WO2016056095A1 WO 2016056095 A1 WO2016056095 A1 WO 2016056095A1 JP 2014077021 W JP2014077021 W JP 2014077021W WO 2016056095 A1 WO2016056095 A1 WO 2016056095A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
document
analysis system
unit
predetermined case
Prior art date
Application number
PCT/JP2014/077021
Other languages
English (en)
French (fr)
Inventor
守本 正宏
秀樹 武田
和巳 蓮子
Original Assignee
株式会社Ubic
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社Ubic filed Critical 株式会社Ubic
Priority to PCT/JP2014/077021 priority Critical patent/WO2016056095A1/ja
Publication of WO2016056095A1 publication Critical patent/WO2016056095A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to a data analysis system that can extract data related to a predetermined case from a plurality of data.
  • Patent Document 1 discloses a document classification system that analyzes document information collected for submission as evidence in a lawsuit and sorts it so as to facilitate use in a lawsuit.
  • FIG. 5 is a heat map showing the distribution of documents when the score is calculated by a conventional document analysis system.
  • the documents ⁇ are distributed so as to gather in the central area A.
  • the documents having low relevance are distributed at positions away from the area A, and the documents ⁇ having the lowest relevance are distributed uniformly in the outer peripheral area B. For this reason, the document ⁇ and the document ⁇ cannot be linearly separated. This means that the difference between the two is not clear and the document ⁇ may be difficult to separate from the document ⁇ .
  • the present invention has been made in view of the above problems, and its purpose is to clearly separate data related to a predetermined case by clearly separating data not related to the predetermined case. To provide a simple data analysis system.
  • a data analysis system includes a data recording unit that records data to be determined as to whether or not the data is related to a predetermined case, and a part of the data is predetermined.
  • the main result is to derive a determination result receiving unit that receives the result of the user's determination and a main index that indicates the strength of the relationship between the data and the predetermined case based on the determination result.
  • the data analysis system further includes, for example, a main element evaluation unit that evaluates data elements included in a part of the data given the determined result based on a predetermined criterion,
  • the main index deriving unit can derive the main index based on the result of the data element being evaluated by the main element evaluating unit.
  • the data analysis system further includes, for example, a sub-element evaluation unit that evaluates data elements included in the partial data based on a predetermined criterion, and the sub-index derivation unit includes the sub-element evaluation unit.
  • the sub-indicator can be derived based on the result of evaluating the data element by the unit.
  • the predetermined criterion may be, for example, a transmission information amount representing a dependency relationship between a data element and a determination result for data including the data element.
  • the data analysis system provides, for example, a relevance indicating whether undecided data that has not been determined whether or not related to a predetermined case is related to the predetermined case.
  • the information processing apparatus may further include a relation giving unit that gives information using the main index and the sub index.
  • the data extraction unit extracts data related to a predetermined case from the data by rearranging the data using the main index and the sub-index. be able to.
  • the data includes at least a digital document that can be processed by a computer, for example.
  • a data analysis system control method includes a data analysis unit including a data recording unit that records data to be determined as to whether or not the data analysis system is related to a predetermined case.
  • a control method for a system wherein a determination result receiving step for receiving a result determined by a user as to whether or not a part of data is related to a predetermined case, and a strength of relevance between the data and the predetermined case
  • the main index derivation step for deriving the main index to be shown based on the judgment result, and selecting the partial data from the data according to the main index, and the sub index indicating the weakness of the relevance between the data and the predetermined case
  • a data analysis system control program provides a data analysis unit including a data recording unit that records data to be determined as to whether or not the data analysis system is related to a predetermined case.
  • a control program for the system which is a data analysis system, a judgment result receiving function for accepting a result of a user judgment as to whether a part of data is related to a predetermined case, and a relation between the data and the predetermined case.
  • the main index derivation function that derives the main index indicating the strength of the sex based on the judgment result, and partial data is selected from the data according to the main index, and the weakness of the relationship between the data and the predetermined case
  • a part of data to be determined as to whether or not the data analysis system is related to a predetermined case Accepts the result of the user's judgment as to whether or not it is related to a given case, derives a main index indicating the strength of the relationship between the data and the given case, based on the judged result, and responds to the main index Partial data is selected from the data, a sub-index indicating the weakness of the relationship between the data and the predetermined case is derived based on the partial data, and the data related to the predetermined case is extracted from the data as the main indicator. And sub-index. Therefore, the data analysis system and the like have an effect that the data related to the predetermined case can be sorted with high accuracy.
  • a document analysis system (data analysis system) 100 is an information processing system capable of extracting a document related to a predetermined case from a plurality of documents by analyzing a digital document.
  • the document analysis system 100 only needs to include a computer that can execute the processing described below, and can be realized using, for example, a server device, a personal computer, a mainframe, a workstation, or other electronic devices.
  • FIG. 2 is a schematic diagram schematically showing an example of the document analysis system 100.
  • the reviewer user determines whether or not the document is related to a predetermined case, and inputs the determined result (review result 5 a) to the document analysis system 100.
  • the “document” is data digitized so that it can be processed by a computer. For example, e-mail, technical documents, presentation materials, spreadsheet materials, financial reports, meeting materials, contracts, organization charts, Business plans can be widely included.
  • the “predetermined case” includes an incident that occurs when a general user who uses the document in the organization takes an illegal act and / or a preliminary act thereof, for example, an incident in which confidential information is leaked to the outside.
  • the predetermined case is not limited to the above example, and may include a wide range of cases in which related data (for example, document, audio, video, etc.) can be generated (described in detail later).
  • the document analysis system 100 uses a keyword (data element) included in the document 1a from which the review result 5a is obtained (determined data on which the user has determined whether or not relevant to a predetermined case) as a predetermined standard (for example, , Based on the amount of transmitted information). Then, based on the evaluated result, the document analysis system 100 converts the review result 5a into the document 1b (undecided data for which it is not determined by the user whether or not it is related to a predetermined case). On the other hand, a positive score (main index) indicating the strength of the relevance with the predetermined case is calculated.
  • a keyword data element included in the document 1a from which the review result 5a is obtained
  • a predetermined standard for example, , Based on the amount of transmitted information
  • the document analysis system 100 selects a predetermined number of documents (for example, randomly) as partial data from the documents 1b having a low positive score (for example, a document having the positive score almost zero), and The keywords included in the selected document 1c are evaluated based on the predetermined criteria. Then, the document analysis system 100 calculates a negative score (sub-index) indicating the weakness of relevance between the document 1b and the predetermined case for the document 1b based on the evaluated result. Finally, the document analysis system 100 extracts the document 1b according to the positive score and the negative score (for example, rearranges the whole document so that the documents are arranged in order from the document having the highest positive score and the lowest negative score).
  • the document analysis system 100 not only derives an index (positive score) indicating that it is related to a predetermined case based on the review result 5a by the reviewer, but also according to the positive score, An index (negative score) indicating that the event is not related (weak relationship with the predetermined event) is also derived.
  • the document analysis system 100 extracts documents that are highly likely to be related to the predetermined case in accordance with both, and returns a list result 5b (information that can be listed and presented to the reviewer) to the reviewer. it can. That is, the document analysis system 100 can extract documents related to the predetermined case with high accuracy by clearly separating documents not related to the predetermined case.
  • FIG. 1 is a block diagram illustrating an example of a main configuration of the document analysis system 100.
  • the document analysis system 100 includes a control unit 10 (a data extraction unit 11, a result acquisition unit 12, an element evaluation unit 13, a score calculation unit 14, a data setting unit 15, a relationship assignment unit 16, and a storage unit. 17, document acquisition unit 18), reception unit 20, input unit 40, display unit 50, and storage unit 30.
  • a control unit 10 a data extraction unit 11, a result acquisition unit 12, an element evaluation unit 13, a score calculation unit 14, a data setting unit 15, a relationship assignment unit 16, and a storage unit. 17, document acquisition unit 18
  • reception unit 20 input unit 40, display unit 50, and storage unit 30.
  • the control unit 10 comprehensively controls various functions of the document analysis system 100.
  • the control unit 10 includes a data extraction unit 11, a result acquisition unit 12, an element evaluation unit 13, a score calculation unit 14, a data setting unit 15, an association assignment unit 16, a storage unit 17, and a document acquisition unit 18.
  • the data extraction unit 11 extracts a predetermined number of documents 1a to be judged by a reviewer from a predetermined document group (data group) as to whether or not it is related to a predetermined case.
  • the document group may be data distributed on the network, or may be data stored in advance in the storage unit 30.
  • the data extraction unit 11 can present the document 1a to the reviewer by outputting the extracted document 1a to the display unit 50.
  • the reviewer can give, for example, the review result 5a indicating that the document 1a is “related to the predetermined case” or “not related to the predetermined case” to the document 1a.
  • the data extraction unit 11 outputs the document 1 a to the result acquisition unit 12 and the element evaluation unit 13.
  • the result acquisition unit (determination result reception unit) 12 determines the result (review result 5a) that the reviewer has determined whether the document 1a is related to a predetermined case.
  • the review result 5 a is received via the input unit 40 and is output to the element evaluation unit 13.
  • the element evaluation unit (main element evaluation unit) 13 evaluates each keyword (data element) included in the document 1a determined by the reviewer whether or not it is related to a predetermined case based on a predetermined criterion.
  • the element evaluation unit 13 uses, for example, the amount of transmitted information representing the dependency relationship between the keyword and the result (review result 5a) determined by the reviewer for the document 1a including the keyword as one of the predetermined criteria.
  • the keyword can be evaluated by calculating the weight of the keyword. Thereby, since the document analysis system 100 can accurately evaluate the keyword, it is possible to accurately extract data related to a predetermined case.
  • the element evaluation unit 13 may evaluate the keyword by assigning a predetermined weight to the keyword. In this case, for example, the element evaluation unit 13 can assign a weight of “1” to the keyword.
  • the above “keyword” includes a meaningful character string (morpheme). For example, a sentence “classify a document” includes keywords “document” and “classification”.
  • the element evaluation unit 13 outputs the keyword information 5 c that is a pair of the keyword and the weight of the keyword to the score calculation unit 14 and the storage unit 17.
  • the element evaluation unit (sub-element evaluation unit) 13 When the positive score 5d is input from the score calculation unit 14, the element evaluation unit (sub-element evaluation unit) 13 indicates that the positive score 5d indicates that the relevance to the predetermined case is weak. For example, the keywords included in the document 1b in which the positive score 5d is almost zero are evaluated based on the predetermined criterion. At this time, the element evaluation unit 13 selects a predetermined number of documents (partial data) 1c (for example, randomly) from the documents 1b having a low positive score 5d, and selects keywords included in the selected document 1c. Can be evaluated. The element evaluation unit 13 outputs the keyword information 5 e that is a pair of the keyword and the weight of the keyword to the score calculation unit 14 and the storage unit 17.
  • the score calculation unit (main index derivation unit) 14 calculates a positive score 5d indicating the strength of relevance with a predetermined case for the document 1b based on the result (keyword information 5c) evaluated by the element evaluation unit 13. (Derivation), and outputs the positive score 5 d to the element evaluation unit 13 and the data setting unit 15.
  • the score calculation unit 14 only needs to be able to derive an index that can be ordered, such as “high”, “medium”, and “low”, and the index is not limited to a score (scalar value).
  • the score calculation unit (sub-index derivation unit) 14 is shown to be weakly related to a predetermined case by the positive score 5d based on the result (keyword information 5e) evaluated by the element evaluation unit 13.
  • a negative score 5 f indicating the possibility of exclusion of the document 1 b is calculated (derived), and the negative score 5 f is output to the data setting unit 15.
  • the negative score 5f is a score indicating that “the positive score 5d is weakly related to a predetermined case” as an index, whereas “negative document 5f is another document that is not related to the predetermined case”. It is also a score indicating that “there is high relevance to”. That is, the score calculation unit 14 calculates the positive score 5d based on the relevance to a predetermined case, while other documents (for example, the calculation of the positive score 5d are unrelated to the predetermined case).
  • the negative score 5f is calculated based on the relationship with the document that acts as noise.
  • the other document may be given as, for example, a document included in a document group designated in advance, or may be a document extracted based on the ranking result of the positive score 5d calculated in advance. .
  • the score calculation unit 14 can calculate the score of the document by adding the weights of keywords appearing in the document. For example, as a result of the text “adjust price” included in the document, the keywords “price” and “adjustment” are evaluated by the element evaluation unit 13, respectively. As a result, “1.2” and “2. When the weight “2” is set, the score calculation unit 14 can calculate the score of the document as “3.4” (1.2 + 2.2).
  • the score calculation unit 14 generates a keyword vector indicating whether or not a predetermined keyword is included in the document.
  • the keyword vector is a vector indicating whether or not a predetermined keyword associated with the element is included in the document when each element of the keyword vector takes a value of “0” or “1”. It is.
  • the score calculation unit 14 changes the element corresponding to the “price” of the keyword vector from “0” to “1”. Then, the score calculation unit 14 calculates the inner product of the keyword vector (vertical vector) and the weight vector (vertical vector using the weight for each keyword as an element) as in the following formula, thereby calculating the score of the document. S is calculated.
  • s represents a keyword vector
  • W represents a weight vector
  • T represents transposing a matrix / vector (replaces rows and columns).
  • the score calculation unit 14 may calculate the score S according to the following formula.
  • m j represents the appearance frequency of the j-th keyword
  • w i represents the weight of the i-th keyword.
  • the score calculation unit 14 determines that the first keyword included in the document 1a and / or the document 1b is evaluated (the weight of the first keyword) and the second keyword included in the document 1a and / or the document 1b.
  • the positive score 5d and / or the negative score 5f may be calculated based on the evaluated result (weight of the second keyword).
  • the score calculation unit 14 may calculate a positive score 5d and / or a negative score 5f for each sentence included in the document 1a and / or the document 1b (both will be described later in detail).
  • the data setting unit (data extraction unit) 15 uses the positive score 5d and the negative score 5f to extract a document related to the predetermined case from the document 1b, and sets it as a document to be reported to the reviewer. For example, the data setting unit 15 determines whether the positive score is high and the negative score is low, and sets the document as a document to be reported to the reviewer by setting a flag on the determined document. . Or the data setting part 15 extracts and sets the said document as a document which should be reported to a reviewer by rearranging a document in order with a high positive score and / or a low negative score. The data setting unit 15 outputs setting information 5g that can specify the set document to the association adding unit 16.
  • the association assigning unit 16 uses the positive score 5d and the negative score 5f to indicate the relevance information (review result by the document analysis system 100, “classification code”) indicating whether or not the document 1b is related to the predetermined case. ).
  • the classification code may be given to the document set by the data setting unit 15.
  • the association providing unit 16 outputs the list result 5b to the display unit 50, thereby listing the documents 1b set by the data setting unit 15 (documents determined by the document analysis system 100 to be related to a predetermined case). It can be displayed as possible.
  • the storage unit 17 associates the keyword included in the keyword information 5c or the keyword information 5e with the evaluation result (weight) of the keyword. In addition, it is stored in the storage unit 30. Thereby, the document analysis system 100 can extract data related to a predetermined case by analyzing the current data based on a result of analyzing past data (weight as a result of evaluating a keyword).
  • the document acquisition unit (undecided data acquisition unit) 18 acquires the document 1b for which the review result 5a has not been accepted by the result acquisition unit 12 as undetermined data, and uses the acquired document 1b as the element evaluation unit 13 and the score calculation unit. 14 for output.
  • FIG. 1 illustrates a configuration in which the document acquisition unit 18 acquires the document 1a and the document 1b from the outside via the reception unit 20, but the document acquisition unit 18 reads a document stored in the storage unit 30 and performs a review.
  • the document to which the result 5a is given is output to the data extraction unit 11 as the document 1a (data determined by the reviewer as to whether the document is related to the predetermined case), and the document to which the review result 5a is not given is output to the document 1b (
  • the data may be output to the element evaluation unit 13 and the score calculation unit 14 as data that has not yet been determined by the reviewer as to whether or not it is related to a predetermined case.
  • the input unit 40 receives an input (review result 5a) from a reviewer.
  • FIG. 1 shows a configuration in which the document analysis system 100 includes an input unit 40 (for example, a configuration in which a keyboard, a mouse, and the like are connected as the input unit 40).
  • the input unit 40 communicates with the document analysis system 100. It may be an external input device (for example, a client terminal) that is connected as possible.
  • the receiving unit 20 receives the document 1a and / or the document 1b from the network via a communication network according to a predetermined communication method. It is only necessary that the receiving unit 20 has an essential function for realizing communication with an external device (for example, a terminal used by a general user), and a communication line, a communication method, a communication medium, and the like are not limited.
  • the receiving unit 20 can be configured by a device such as an Ethernet (registered trademark) adapter, for example.
  • the receiving unit 20 can use a communication method or a communication medium such as IEEE 802.11 wireless communication or Bluetooth (registered trademark).
  • FIG. 1 shows a configuration in which the document analysis system 100 acquires the document 1a and / or the document 1b from the network via the receiving unit 20.
  • the document analysis system 100 includes, for example, the document 1a and / or the document 1b.
  • the document 1a and / or the document 1b may be acquired by connecting a predetermined storage device that stores the document.
  • the display unit 50 is a device that displays an interface screen that can be operated by the reviewer.
  • FIG. 1 shows a configuration in which the document analysis system 100 includes a display unit 50 (for example, a configuration in which a liquid crystal display or the like is connected as the display unit 50).
  • the display unit 50 can communicate with the document analysis system 100. It may be an external display device (for example, a client terminal) connected to the.
  • the storage unit (data recording unit) 30 is a recording device capable of recording predetermined data (for example, the document 1a and the document 1b) to be determined as to whether or not they are related to the predetermined case. , SSD (silicon state drive), semiconductor memory, DVD, etc.
  • the storage unit 30 can further store a keyword program 5c, keyword information 5e, and / or a control program that can control the document analysis system 100.
  • 1 illustrates a configuration in which the document analysis system 100 includes the storage unit 30, the storage unit 30 may be an external storage device connected to be communicable with the document analysis system 100.
  • FIG. 3 is a heat map showing the distribution of documents when a positive score and a negative score are calculated by the document analysis system 100.
  • FIG. 3 is a visual representation of the difference so that the difference between the two systems can be easily grasped. Note that the document is not actually distributed on a two-dimensional plane as shown in FIG. .
  • a document with a high score that is, a document ⁇ highly related to a predetermined case
  • the document with the lowest score that is, the document ⁇ having a low relevance to the predetermined case
  • the document ⁇ and the document ⁇ cannot be linearly separated. This means that the difference between the two does not appear clearly in the score, and the desired document ⁇ may be difficult to separate from the document ⁇ .
  • documents with high positive scores that is, documents ⁇ highly related to a predetermined case
  • the document with a high negative score that is, the document ⁇ having low relevance to the predetermined case
  • the document analysis system 100 clearly excludes the unnecessary document ⁇ when sorting the desired document ⁇ . Thereby, since the difference between the two appears clearly, the document analysis system 100 can sort the document ⁇ with high accuracy.
  • FIG. 4 is a flowchart illustrating an example of processing executed by the document analysis system 100.
  • parenthesized “ ⁇ step” represents each step included in the control method of the data analysis system.
  • the data extraction unit 11 extracts a predetermined number of documents 1a to be judged by a reviewer from a predetermined document group as to whether or not they are related to a predetermined case (step 1, hereinafter “step” is “S”). Abbreviated).
  • the result acquisition unit 12 acquires the result (review result 5a) determined by the reviewer as to whether or not the document 1a is related to a predetermined case via the input unit 40 (S2, determination result reception step).
  • the element evaluation unit 13 evaluates each keyword included in the document 1a determined by the reviewer whether or not it is related to the predetermined case based on a predetermined criterion (S3).
  • the document acquisition unit 18 acquires the document 1b that has not yet been determined by the reviewer as to whether or not it is related to the predetermined case (S4). Then, the score calculation unit 14 calculates (derivates) a positive score 5d indicating the strength of the relevance between the document 1b and the predetermined case based on the result of the determination (review result 5a) (S5, main) Indicator derivation step). Next, the element evaluation unit 13 selects a document 1b whose positive score 5d indicates that the relevance to the predetermined case is weak, and selects a keyword included in the selected document 1b as the predetermined criterion.
  • the score calculation unit 14 calculates a negative score 5f indicating weakness of relevance with the predetermined case based on the result (keyword information 5e) evaluated by the element evaluation unit 13.
  • the document 1b is calculated (S7, sub-index derivation step).
  • the data setting unit 15 determines whether the document 1b is a document to be reported to the reviewer according to the positive score 5d and the negative score 5f (S8).
  • the document 1b is set (extracted) as a document to be reported (S9, data extraction step).
  • the association assigning unit 16 assigns to the document 1b set by the data setting unit 15 relevance information (review result by the document analysis system 100) indicating that the document 1b is associated with a predetermined case.
  • a list result 5b for displaying the document 1b on the display unit 50 is output (S10).
  • control method may optionally include not only the above-described processing described with reference to FIG. 4 but also processing executed in each unit included in the control unit 10.
  • the score calculation unit 14 obtains a score (hereinafter collectively referred to as “score”) based on the result of evaluating the first keyword included in the document and the result of evaluating the second keyword included in the document. In this case, both a positive score and a negative score are calculated. That is, when the first keyword appears in the document, the score calculation unit 14 takes into account the frequency with which the second keyword appears in the document (that is, the correlation between the first keyword and the second keyword or co-occurrence). The document score.
  • the score calculation unit 14 uses the correlation matrix (co-occurrence matrix) C that represents the correlation (co-occurrence) between the first keyword and the second keyword to express the following equation (instead of [Equation 1] above). Therefore, the score S can be calculated.
  • the correlation matrix C is optimized in advance using a learning data set including a predetermined number of predetermined documents. For example, when a keyword “price” appears in a document, a value obtained by normalizing the number of occurrences of other keywords with respect to the keyword between 0 and 1 (that is, a maximum likelihood estimate) is the correlation matrix C. Stored in each element (therefore, the sum for each column of the correlation matrix C is 1).
  • the document analysis system 100 can calculate a score in consideration of the correlation between keywords, it can classify data related to a predetermined case with higher accuracy.
  • the score calculation unit 14 can calculate a score for each sentence included in each document.
  • the score calculation unit 14 generates a keyword vector indicating whether or not a predetermined keyword is included in the sentence included in the document for each sentence.
  • the score calculation part 14 calculates a score for every document according to the following formula.
  • s s is a keyword vector corresponding to the sth sentence. It should be noted that co-occurrence is taken into account (correlation matrix C is used) in calculating the score according to [Equation 4].
  • TFnorm can be calculated as shown in [Formula 5] below.
  • TF i represents the appearance frequency (Term Frequency) of the i-th keyword
  • s ji represents the j-th element of the i-th keyword vector
  • c ji represents the correlation matrix C Of j rows and i columns.
  • the score calculation unit 14 calculates the following score for each document by calculating the following [Equation 6].
  • w i is the i-th element of the weight vector w.
  • the document analysis system 100 can calculate a score that correctly reflects the sentence meaning, it can classify data related to a predetermined case with higher accuracy.
  • phase analysis The document analysis system 100 can estimate a phase to which a predetermined case belongs and calculate a score according to the phase.
  • the “phase” is an index indicating each stage where the predetermined case progresses (classified according to the progress of the predetermined case).
  • the predetermined case is a fraud case of “collusion with another company”, and the document analysis system 100 determines whether or not an email distributed daily on the network is related to the fraud case.
  • the above phases include the “preparation phase for collecting information on competitors with other companies”, the “relationship building phase for building relationships with customers / competitors”, “ It may include a “competition phase” that presents a price to the customer, gets feedback, and communicates with the competitor regarding that feedback.
  • time series information and generation process information are stored in the storage unit 30.
  • the “time-series information” is information indicating the temporal order of the phases, for example, a time development model indicating that the “competition phase” is reached from the “preparation phase” through the “relationship building phase”. It may be.
  • the “generation process information” is information that models a process in which each keyword is generated in a certain phase, and may be, for example, a multinomial distribution model defined for each phase.
  • the result acquisition unit 12 obtains the review result based on the result of the review by the reviewer as to whether or not the document 1a is related to the predetermined case, and the result of determining to which phase of the predetermined case the document 1a belongs.
  • the element evaluation unit 13 evaluates the keywords included in the document 1a for each phase (determines the weight of each keyword).
  • the score calculation unit 14 estimates in which phase the document 1b is based on the generation process information. Specifically, the likelihood for each phase is calculated based on the generation process information, and the phase that maximizes the likelihood is estimated as the phase of the document 1b. And the score calculation part 14 calculates the score of the document 1b, respectively using the weight corresponding to the estimated phase. At this time, the score calculation unit 14 may use the correlation matrix C corresponding to the phase.
  • the association assigning unit 16 can display the document 1b set by the data setting unit 15 in a listable manner and can display the estimated phase. At this time, the association assigning unit 16 can predict the possibility and timing of the estimated phase developing to the next phase based on the time series information, and can display the predicted result together.
  • the document analysis system 100 can accurately calculate the score according to the phase, the data related to the predetermined case can be separated with higher accuracy.
  • the element evaluation unit 13 can recalculate the weight based on the feedback newly obtained for the determination of the document analysis system 100.
  • the document analysis system 100 can obtain a weight suitable for the document to be analyzed, and can accurately calculate the score based on the weight, so that data related to a predetermined case can be separated with higher accuracy. .
  • the data setting unit 15 extracts proper nouns appearing in the document 1b (for example, unique data elements such as a person's name, company name, place name, etc.), a predetermined proper noun (first unique data element) and others By estimating the correspondence with the proper noun (second unique data element), the strength of connection between a plurality of persons or organizations can be visualized.
  • proper nouns appearing in the document 1b for example, unique data elements such as a person's name, company name, place name, etc.
  • first unique data element a predetermined proper noun
  • second unique data element the strength of connection between a plurality of persons or organizations can be visualized.
  • data setting unit 15 Extracts “person A”, “person B”, and “person C” and puts an arrow on each of the node indicating “person B” and the node indicating “person C” from the node indicating “person A”.
  • the connected chart can be displayed.
  • the data setting unit 15 may display the chart so that the thickness of the arrow varies depending on the strength of the correlation between the person and the organization.
  • the document analysis system 100 includes a communication data acquisition unit that acquires communication data that is transmitted and received between a plurality of terminals and is associated with each of a plurality of persons, and the content of the communication data acquired by the communication data acquisition unit.
  • An analysis unit for analyzing an evaluation unit for evaluating the relevance between the content of the communication data and a predetermined case, using the analysis result of the analysis unit, and the case based on the evaluation result of the evaluation unit
  • a display unit for displaying the relevance of the plurality of persons related to.
  • the document analysis system 100 can easily identify and display the correlation between the person and the organization based on the result of analyzing the document, so that the subject that causes the fraud case can be identified without omission.
  • the document analysis system 100 evaluates the keywords included in the document 1a based on the predetermined result based on the review result 5a. Then, the document analysis system 100 calculates a positive score indicating the strength of the relevance with the predetermined case based on the evaluated result for each of the documents 1a, and the relevance rate (relating to the predetermined case) The minimum score that can exceed the set target value (target relevance ratio) with respect to the determined document 1a in the document group including a predetermined number of documents) is specified as the relevance threshold. it can.
  • the document analysis system 100 sets the conformance threshold based on the review result 5a given by the reviewer (result determined by a human with respect to past data), and positive that exceeds the conformance threshold. Only the document 1b having a score can be returned to the reviewer as a document having a high possibility of being related to the predetermined case. In other words, the document analysis system 100 can discriminate data related to a predetermined case by analyzing current data based on the result of analyzing past data. Thereby, the document analysis system 100 can detect, for example, a sign that an illegal act occurs in real time (the document 1b to be analyzed does not need to be prepared in advance).
  • the document analysis system 100 sorts the positive scores in descending order. Next, the document analysis system 100 scans the review result 5a given to the document 1a in order from the document 1a having the maximum positive score (the rank of the positive score is first), The ratio of the number of documents to which the review result 5a “Yes” is given to the number of documents that have been scanned at the present time (the relevance ratio) is sequentially calculated.
  • the document analysis system 100 calculates the relevance rate as 0.9 (18/20).
  • the number of documents to which the review result 5a “related to a predetermined case” is given is 35, document analysis The system 100 calculates the precision as 0.875 (35/40).
  • the document analysis system 100 calculates all the relevance ratios for the document 1a, and specifies the minimum score that can exceed the target relevance ratio. Specifically, the document analysis system 100 scans the relevance ratio calculated with respect to the document 1a in order from the document 1a having the minimum score (positive score rank 100), and the relevance ratio is the target. When the precision is exceeded, the positive score corresponding to the precision is specified as the minimum score (fit threshold) that can maintain the target precision.
  • the document analysis system 100 determines whether or not the positive score calculated for the document 1b that has not been determined whether or not it is related to the predetermined case exceeds the conformance threshold, The document 1b determined to be exceeding can be set as data to be reported to the reviewer.
  • the document analysis system 100 may further set the document 1b as data to be reported to the reviewer in consideration of the negative score. Thereby, the document analysis system 100 can classify the data related to the predetermined case with high accuracy.
  • the document analysis system 100 is a data analysis system that can extract data related to a predetermined case from newly acquired data, and the user has already determined whether or not the data is related to the predetermined case.
  • a storage unit that stores determination data and undetermined data that has not been determined whether or not it is related to the predetermined case is newly acquired, a threshold that is a basis for the determination with respect to the undetermined data, A threshold value specifying unit that is specified from the score calculated as an index indicating the strength of the relevance of the predetermined case with respect to the already determined data, a threshold value that is specified by the threshold specifying unit, and a calculation for the undetermined data
  • a data setting unit that sets the undetermined data as data to be reported to the user according to a result of comparison with the score obtained.
  • the data analysis system of the present invention can be implemented in the form of a voice analysis system that analyzes voice.
  • the voice analysis system (1) recognizes the voice, converts the content of the conversation included in the voice into characters (document data), and processes the document data in the same manner as the document analysis system 100.
  • the audio data may be processed as it is.
  • the speech analysis system converts speech data into document data by using an arbitrary speech recognition algorithm (for example, a recognition method using a hidden Markov model).
  • an arbitrary speech recognition algorithm for example, a recognition method using a hidden Markov model.
  • the voice analysis system can discriminate whether or not the voice data is related to a predetermined case by extracting the partial voice included in the voice data. For example, when voice data “adjust price” is obtained, the voice analysis system extracts partial voices “price” and “adjustment” from the voice data, and based on the result of evaluating the partial voice, Relevance information can be given to unsorted audio data.
  • the speech analysis system can classify speech data using a time series data classification algorithm (for example, a hidden Markov model, a Kalman filter, a neural network, etc.). Thereby, the voice analysis system has the same effect as the document analysis system 100.
  • the data analysis system of the present invention can be implemented in the form of a video analysis system that analyzes video (moving images).
  • the video analysis system can identify a person included in the frame image by extracting a frame image included in the video data and using an arbitrary face recognition technique.
  • the video analysis system uses an arbitrary motion recognition technique (for example, a pattern matching technique may be applied), thereby enabling a partial video (all frame images included in the video to be included) included in the video data.
  • the motion (motion) of the person can be extracted from the video including a part of the video.
  • the video analysis system can sort the video data based on the person and / or motion.
  • the video analysis system has the same effect as the document analysis system 100.
  • the data analysis system of the present invention can analyze digital data (documents, audio, video, etc.) in which information is developed in time series. As a result, the data analysis system can clearly classify the data related to the predetermined case by clearly separating the data not related to the predetermined case.
  • the data analysis system according to the present invention can also be realized as a driver support system capable of extracting data related to a predetermined case from a plurality of data acquired from around the vehicle.
  • the driver assistance system acquires, for example, an external image taken from the vehicle as undetermined data in which it is not determined whether or not it is related to a predetermined case.
  • the “predetermined case” broadly includes cases, objects, situations, actions, and the like that the driver of the vehicle is considered to exhibit information processing ability. For example, obstacles (eg, pedestrians, guardrails, other Collision avoidance with a vehicle, etc., garage entry, lane change, joining / leaving to a highway, and the like.
  • the driver support system determines whether or not a driver (for example, a skilled driver) relates to the predetermined case when undetermined data that has not been determined whether or not related to the predetermined case is newly acquired. Based on the determined already determined data, the relevance between the undetermined data and the predetermined case is evaluated. Specifically, the driver support system extracts a data element from data (for example, an external image), and calculates the score (positive score and / or Negative score) is calculated. When the calculated score satisfies a predetermined condition (for example, the score exceeds a predetermined threshold), the driver support system notifies the driver (for example, an unskilled driver) of the data. .
  • a driver for example, a skilled driver
  • the driver support system can determine whether or not to notify the driver of new undecided data based on the result determined by the driver as to whether or not it is related to a predetermined case. For example, when the experienced driver experiences a near-miss, the driver support system learns the relationship between the near-miss situation (predetermined case) and an external image indicating the situation, and the unskilled driver encounters a similar situation. As a result, when a similar external image is acquired, a part of or all of the similar external image or data (for example, notification by voice) processed from the similar external image is notified to the unskilled driver. it can.
  • the driver support system has an effect of notifying the driver of data required by the driver (for example, an external image showing a high risk situation leading to an accident).
  • the data analysis system may be a medical system capable of extracting healthcare data related to a predetermined symptom from a plurality of healthcare data acquired from structured healthcare data and / or unstructured healthcare data. Can be realized.
  • the medical system has not yet been determined whether or not image information (data) indicating a situation that is likely to be unhealthy is related to a predetermined symptom (predetermined case). Get as data.
  • the “predetermined symptom” is a symptom, disease, disease or syndrome diagnosed by a doctor as being in an unhealthy state (a state in which a person's heart or body is upset or inconvenient). Including widely.
  • the medical system is related to the predetermined symptom by a doctor (for example, an experienced doctor) when undetermined health care data that has not been determined whether it is related to the predetermined symptom is newly acquired. Based on the already-determined healthcare data for which it is determined whether or not, the relevance between the undetermined healthcare data and the predetermined symptoms is evaluated. Specifically, the medical system extracts data elements from the data (for example, image information indicating a situation that is likely to result in unhealthy conditions), and extracts the data elements from the data elements that are evaluated using the determined health care data. The score (positive score and / or negative score) of the data is calculated. When the calculated score satisfies a predetermined condition (for example, the score exceeds a predetermined threshold), the medical system uses the predicted diagnosis consumer (for example, patient, experience) Inform the poor doctor).
  • a doctor for example, an experienced doctor
  • the medical system can determine whether or not to notify new undetermined health care data to the predictive diagnosis consumer of the disease based on the result of the doctor determining whether or not it is related to a predetermined symptom.
  • a predetermined symptom For example, in the above medical system, when an experienced doctor experiences a near-miss (experience in which the doctor's diagnosis did not lead to a medical error but it did not cause a medical error), the situation of the near-miss (predetermined) Symptom) and the external image showing the situation, and when a similar external image is acquired when a less experienced doctor encounters a similar situation, experience the similar external image Can inform a poor doctor.
  • the medical system has an effect of being able to notify a diagnosis result with high reliability to a predictive diagnosis consumer of a disease.
  • the data analysis system according to the present invention can also be realized as a performance evaluation system that evaluates the performance of the employee based on a plurality of data acquired from the employee.
  • the above-mentioned performance evaluation system has a relationship between predetermined data (for example, daily reports submitted by employees every day) and “the evaluation of employees who are the target of performance evaluation is good” (predetermined cases). By evaluating the sex, the performance of the employee can be evaluated.
  • the data analysis system can also be realized as an intellectual property evaluation system that performs infringement / clearance investigation of intellectual property rights based on web data acquired via a network.
  • the intellectual property evaluation system evaluates the relevance between the web data and "the predetermined technology infringes the intellectual property right disclosed in the web data" (predetermined case). Investigate intellectual property rights infringement and clearance.
  • the control block (particularly, the control unit 10) of the document analysis system 100 may be realized by a logic circuit (hardware) formed in an integrated circuit (IC chip) or the like, or using a CPU (Central Processing Unit). It may be realized by software.
  • the document analysis system 100 includes a CPU that executes instructions of a control program that is software that implements each function, and a ROM (Read Only) in which the control program and various data are recorded so as to be readable by a computer (or CPU).
  • Memory or a storage device (these are referred to as “recording media”), a RAM (Random Access Memory) that expands the control program, and the like.
  • the computer reads the control program from the recording medium and executes it, thereby achieving the object of the present invention.
  • a “non-temporary tangible medium” such as a tape, a disk, a card, a semiconductor memory, a programmable logic circuit, or the like can be used.
  • the control program may be supplied to the computer via any transmission medium (such as a communication network or a broadcast wave) that can transmit the control program.
  • the present invention can also be realized in the form of a data signal embedded in a carrier wave, in which the control program is embodied by electronic transmission.
  • the above control program is implemented using, for example, a script language such as Python, ActionScript, JavaScript (registered trademark), an object-oriented programming language such as Objective-C, Java (registered trademark), or a markup language such as HTML5. it can.
  • a script language such as Python, ActionScript, JavaScript (registered trademark), an object-oriented programming language such as Objective-C, Java (registered trademark), or a markup language such as HTML5.
  • an information processing apparatus for example, the document analysis system 100
  • server apparatus that includes each unit that implements the remaining functions different from the respective functions
  • An analysis system including the above also falls within the scope of the present invention.
  • the present invention can also be expressed as follows. That is, a learning unit that learns weights of data elements included in the separated data that is sorted by the user whether or not it is related to a predetermined case, and whether or not it is related to the predetermined case by the user
  • a search unit that searches for data elements included in the classified data from unsorted data that has not been performed, a data element searched by the search unit, and a weight of the data element learned by the learning unit
  • the data analysis system provided with the parameter
  • the present invention may have the following configuration. That is, a learning unit that learns weights of data elements included in the separated data that is sorted by the user whether or not it is related to a predetermined case, and whether or not it is related to the predetermined case by the user
  • a search unit that searches for data elements included in the classified data from unsorted data that has not been performed, a data element searched by the search unit, and a weight of the data element learned by the learning unit
  • a data analysis system comprising: an index deriving unit for deriving an index that evaluates the strength of association between the unsorted data and the classification code (a code indicating whether or not it is related to a predetermined case).
  • the present invention may have the following configuration. That is, a data recording unit that records predetermined data to be determined whether or not it is related to a predetermined case, and whether a part of the data recorded in the data recording unit is related to the predetermined case Whether or not it is related to the predetermined case based on the determination result receiving unit that receives the determination result by the user via a predetermined input unit and the determination result received by the determination result receiving unit Depending on the main index derived by the main index deriving unit, and a main index deriving unit for deriving a main index indicating the strength of the relevance between the undecided data that has not yet been determined and the predetermined case A sub-index derivation unit that selects a predetermined number of data from the undetermined data, and derives a sub-index indicating weakness of association between the undetermined data and the predetermined case based on the selected data; ,in front A data extraction unit for extracting data related to the predetermined case from the undetermined data, using the main index derived by the main index
  • the data analysis system may further include an undetermined data acquisition unit that acquires, as the undetermined data, data for which the determination result is not received by the determination result receiving unit.
  • the present invention can be widely applied to personal computers, server devices, mainframes, workstations, and other electronic devices.
  • 1a Document (predetermined data, part of data), 1b: Document (undecided data), 1c: Document (partial data), 5a: Review result (judged result), 5d: Positive score (main index), 5f: negative score (sub-index), 12: result acquisition unit (judgment result reception unit), 13: element evaluation unit (main element evaluation unit, sub-element evaluation unit), 14: score calculation unit (main index derivation unit, sub-index) (Index derivation unit), 15: data setting unit (data extraction unit), 16: association assignment unit, 18: document acquisition unit (undecided data acquisition unit), 100: document analysis system (data analysis system)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 本発明は、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部と、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付部と、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出部と、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出部と、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出部とを備えている。

Description

データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
 本発明は、複数のデータから所定の事案と関連するデータを抽出可能なデータ分析システム等に関するものである。
 コンピュータを用いた紛争が生じた場合、当該紛争に関連する機器・電子的記録を収集・分析し、その法的な証拠性を明らかにする技術が提案されている。例えば、特許文献1には、訴訟において証拠として提出するために収集された文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムが開示されている。
特開2013-182338号公報
 上記文書情報には、証拠となり得る(訴訟に関連する)文書とそうでない文書とが混在しているところ、従来の文書分別システムは前者のみを取り出すものであった。すなわち、訴訟と関連性の高い文書αと関連性の低い文書βとを分別するにあたり、文書αを特定するだけで、文書βを明に排除することはしていない。そのため、分別において文書βがノイズとして作用することにより、分別精度が不十分となるおそれがあった。
 図5は、従来の文書分析システムによってスコアが算出された場合における文書の分布を示すヒートマップである。図5に示されるように、従来の文書分析システムによれば、文書αが中心の領域Aに集まるように分布する。そして、関連性の低い文書は当該領域Aから離れた位置に分布し、最も関連性の低い文書βは、外縁の領域Bにまとまりなく分布する。このため、文書αと文書βとは線形分離できない。これは、両者の違いが明確でなく、文書αが文書βから分別困難となるおそれがあることを意味する。
 本発明は、上記の問題点に鑑みてなされたものであり、その目的は、所定の事案に関連しないデータを明に分別することによって、当該所定の事案に関連するデータを高い精度で分別可能なデータ分析システム等を提供することである。
 上記課題を解決するために、本発明の一態様に係るデータ分析システムは、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部と、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付部と、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出部と、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出部と、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出部とを備えている。
 また、本発明の一態様に係るデータ分析システムは、例えば、判断した結果を与えられたデータの一部に含まれるデータ要素を、所定の基準に基づいて評価する主要素評価部をさらに備え、主指標導出部は、主要素評価部によってデータ要素が評価された結果に基づいて主指標を導出することができる。
 また、本発明の一態様に係るデータ分析システムは、例えば、部分データに含まれるデータ要素を、所定の基準に基づいて評価する副要素評価部をさらに備え、副指標導出部は、副要素評価部によってデータ要素が評価された結果に基づいて副指標を導出することができる。
 また、本発明の一態様に係るデータ分析システムにおいて、所定の基準は、例えば、データ要素と、当該データ要素を含むデータに対する判断した結果との依存関係を表す伝達情報量であってよい。
 また、本発明の一態様に係るデータ分析システムは、例えば、所定の事案と関連するか否かが未だ判断されていない未判断データが、当該所定の事案と関連するか否かを示す関連性情報を、主指標および副指標を用いて付与する関連付与部をさらに備えることができる。
 また、本発明の一態様に係るデータ分析システムにおいては、例えば、データ抽出部は、主指標および副指標を用いてデータを並べ替えることによって、当該データから所定の事案と関連するデータを抽出することができる。
 また、本発明の一態様に係るデータ分析システムにおいて、データは、例えば、コンピュータで処理可能なデジタル文書を少なくとも含んでいる。
 上記課題を解決するために、本発明の一態様に係るデータ分析システムの制御方法は、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御方法であって、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付ステップと、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出ステップと、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出ステップと、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出ステップとを含んでいる。
 上記課題を解決するために、本発明の一態様に係るデータ分析システムの制御プログラムは、所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御プログラムであって、データ分析システムに、データの一部が所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付機能と、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出する主指標導出機能と、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出機能と、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出するデータ抽出機能とを実現させる。
 本発明の一態様によれば、データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラムは、所定の事案と関連するか否かを判断する対象となるデータの一部が、所定の事案と関連するか否かについて、ユーザが判断した結果を受け付け、データと所定の事案との関連性の強さを示す主指標を、判断した結果に基づいて導出し、主指標に応じてデータから部分データを選出し、当該データと所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出し、データから所定の事案と関連するデータを、主指標および副指標を用いて抽出する。したがって、上記データ分析システム等は、当該所定の事案に関連するデータを高い精度で分別することができるという効果を奏する。
本発明の実施の形態に係る文書分析システムの要部構成の一例を示すブロック図である。 上記文書分析システムの一例を概略的に示す概略図である。 上記文書分析システムによってポジティブスコアおよびネガティブスコアが算出された場合における文書の分布を示すヒートマップである。 上記文書分析システムが実行する処理の一例を示すフローチャートである。 従来の文書分析システムによってスコアが算出された場合における文書の分布を示すヒートマップである。
 図1~図4に基づいて、本発明の実施の形態を説明する。
 〔文書分析システム100の概要〕
 文書分析システム(データ分析システム)100は、デジタル文書を分析することによって、複数の文書から所定の事案と関連する文書を抽出可能な情報処理システムである。文書分析システム100は、以下で説明する処理を実行可能なコンピュータを含んでいればよく、例えば、サーバ装置、パーソナルコンピュータ、メインフレーム、ワークステーション、その他の電子機器などを用いて実現され得る。
 図2は、文書分析システム100の一例を概略的に示す概略図である。図2に示されるように、レビュア(ユーザ)は、文書が所定の事案と関連するか否かを判断し、当該判断した結果(レビュー結果5a)を文書分析システム100に入力する。
 上記「文書」は、コンピュータによって処理可能となるようにデジタル化されたデータであり、例えば、電子メール、技術文書、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、契約書、組織図、事業計画書などが広く含まれ得る。
 また、上記「所定の事案」は、組織において上記文書を利用する一般ユーザが、不正行為、および/またはその予備的行為をとることによって生じる事件を含み、例えば、機密情報が外部に漏えいする事件、他社と談合した事件、決算を粉飾した事件、取引企業に架空請求して代金を着服した事件、その他企業にとって好ましくない事件など、当該組織が発生を防止したいと考える事案を広く含む。ただし、上記所定の事案は上記の例に限定されず、関連するデータ(例えば、文書、音声、映像など)を生成し得る事案一般を広く含んでよい(後で詳細に説明する)。
 文書分析システム100は、上記レビュー結果5aが得られた文書1a(所定の事案と関連するか否かがユーザによって判断された既判断データ)に含まれるキーワード(データ要素)を所定の基準(例えば、伝達情報量)に基づいてそれぞれ評価する。そして、文書分析システム100は、当該評価された結果に基づいて、未だレビュー結果5aが得られていない文書1b(所定の事案と関連するか否かがユーザによって判断されていない未判断データ)に対して、上記所定の事案との関連性の強さを示すポジティブスコア(主指標)をそれぞれ算出する。
 次に、文書分析システム100は、上記ポジティブスコアが低い文書1b(例えば、当該ポジティブスコアがほとんどゼロとなる文書)の中から所定数の文書を(例えば、ランダムに)部分データとして選出し、当該選出された文書1cに含まれるキーワードを上記所定の基準に基づいてそれぞれ評価する。そして、文書分析システム100は、当該評価された結果に基づいて、文書1bと上記所定の事案との関連性の弱さを示すネガティブスコア(副指標)を、当該文書1bに対して算出する。最後に、文書分析システム100は、上記ポジティブスコアおよびネガティブスコアにしたがって、文書1bを抽出する(例えば、ポジティブスコアが高く、ネガティブスコアが低い文書から順に並ぶように、文書全体を並べ替える)。
 以上のように、文書分析システム100は、レビュアによるレビュー結果5aに基づいて、所定の事案と関連することを示す指標(ポジティブスコア)を導出するだけでなく、当該ポジティブスコアにしたがって、当該所定の事案と関連しない(当該所定の事案との関連性が弱い)ことを示す指標(ネガティブスコア)も導出する。
 そして、文書分析システム100は、両者にしたがって上記所定の事案と関連する可能性が高い文書を抽出し、レビュアに一覧結果5b(当該文書を一覧してレビュアに提示可能な情報)を返すことができる。すなわち、文書分析システム100は、所定の事案に関連しない文書を明に分別することによって、当該所定の事案と関連する文書を高い精度で抽出することができる。
 〔文書分析システム100の構成〕
 図1は、文書分析システム100の要部構成の一例を示すブロック図である。図1に示されるように、文書分析システム100は、制御部10(データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、データ設定部15、関連付与部16、格納部17、文書取得部18)、受信部20、入力部40、表示部50、および記憶部30を備えている。
 制御部10は、文書分析システム100が有する各種の機能を統括的に制御する。制御部10は、データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、データ設定部15、関連付与部16、格納部17、および文書取得部18を含む。
 データ抽出部11は、所定の事案と関連するか否かがレビュアによって判断されるべき文書1aを、所定の文書群(データ群)から所定数だけ抽出する。当該文書群は、ネットワーク上を流通するデータであってもよいし、記憶部30にあらかじめ格納されたデータであってもよい。
 データ抽出部11は、抽出した文書1aを表示部50に出力することによって、当該文書1aをレビュアに提示することができる。これにより、レビュアは、例えば、文書1aが「所定の事案と関連する」または「所定の事案と関連しない」を示すレビュー結果5aを当該文書1aにそれぞれ付与できる。また、データ抽出部11は、当該文書1aを結果取得部12および要素評価部13に出力する。
 結果取得部(判断結果受付部)12は、文書1aがデータ抽出部11から入力された場合、当該文書1aが所定の事案と関連するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して受け付け、当該レビュー結果5aを要素評価部13に出力する。
 要素評価部(主要素評価部)13は、所定の事案と関連するか否かがレビュアによって判断された文書1aに含まれるキーワード(データ要素)を、所定の基準に基づいてそれぞれ評価する。要素評価部13は、例えば、上記キーワードと当該キーワードを含む文書1aに対してレビュアが判断した結果(レビュー結果5a)との依存関係を表す伝達情報量を、上記所定の基準の1つとして当該キーワードの重みを算出することによって、当該キーワードを評価することができる。これにより、文書分析システム100は、キーワードを正確に評価することができるため、所定の事案と関連するデータを正確に抽出できる。
 または、要素評価部13は、上記キーワードに所定の重みを割り当てることにより、当該キーワードを評価してもよい。この場合、要素評価部13は、例えば、上記キーワードに「1」の重みを割り当てることができる。
 なお、上記「キーワード」は、意味を有する文字列(形態素)を含む。例えば、「文書を分別する」という文章には、「文書」および「分別」というキーワードが含まれる。要素評価部13は、上記キーワードと当該キーワードの重みとのペアであるキーワード情報5cを、スコア算出部14および格納部17に出力する。
 また、スコア算出部14からポジティブスコア5dが入力された場合、要素評価部(副要素評価部)13は、当該ポジティブスコア5dによって上記所定の事案との関連性が弱いことが示された文書1b(例えば、当該ポジティブスコア5dがほとんどゼロとなる文書1b)に含まれるキーワードを、上記所定の基準に基づいて評価する。このとき、要素評価部13は、上記ポジティブスコア5dが低い文書1bの中から所定数の文書(部分データ)1cを(例えば、ランダムに)選出し、当該選出された文書1cに含まれるキーワードを評価できる。要素評価部13は、上記キーワードと当該キーワードの重みとのペアであるキーワード情報5eを、スコア算出部14および格納部17に出力する。
 スコア算出部(主指標導出部)14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、所定の事案との関連性の強さを示すポジティブスコア5dを文書1bについて算出(導出)し、当該ポジティブスコア5dを要素評価部13およびデータ設定部15に出力する。なお、スコア算出部14は、「高」、「中」、「低」など、序列化可能な指標を導出できさえすればよく、当該指標はスコア(スカラー値)に限定されない。
 また、スコア算出部(副指標導出部)14は、要素評価部13によって評価された結果(キーワード情報5e)に基づいて、ポジティブスコア5dによって所定の事案との関連性が弱いことが示された文書1bの排除可能性を示すネガティブスコア5fを算出(導出)し、当該ネガティブスコア5fをデータ設定部15に出力する。
 上記のように、ネガティブスコア5fは、「ポジティブスコア5dによって所定の事案との関連性が弱い」ことを指標として示すスコアであるが、一方で、「所定の事案とは無関係である他の文書との関連性が高い」ことを指標として示すスコアでもある。すなわち、スコア算出部14は、所定の事案との関連性に基づいて、上記ポジティブスコア5dを算出する一方で、所定の事案とは無関係である他の文書(例えば、ポジティブスコア5dの算出に対してノイズとして作用する文書)との関連性に基づいて、上記ネガティブスコア5fを算出する。上記他の文書は、例えば、あらかじめ指定された文書群に含まれる文書として与えられてもよいし、先行して算出されたポジティブスコア5dのランキング結果に基づいて抽出された文書であってもよい。
 スコア算出部14は、文書に出現するキーワードの重みを合算することによって、当該文書のスコアを計算できる。例えば、文書に「価格を調整する」という文章が含まれていることにより、「価格」および「調整」というキーワードが要素評価部13によってそれぞれ評価された結果、「1.2」および「2.2」という重みが設定された場合、スコア算出部14は、当該文書のスコアを「3.4」(1.2+2.2)と計算できる。
 具体的には、スコア算出部14は、所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、当該キーワードベクトルのそれぞれの要素が「0」または「1」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記文書に含まれるか否かを示すベクトルである。例えば、上記文書に「価格」というキーワードが含まれている場合、スコア算出部14は、上記キーワードベクトルの上記「価格」に対応する要素を「0」から「1」に変更する。そして、スコア算出部14は、以下の式のように、上記キーワードベクトル(縦ベクトル)と重みベクトル(各キーワードに対する重みを要素にした縦ベクトル)との内積を計算することにより、上記文書のスコアSを計算する。
Figure JPOXMLDOC01-appb-M000001
 ここで、sはキーワードベクトルを表し、Wは重みベクトルを表す。なお、Tは行列・ベクトルを転置する(行と列とを入れ替える)ことを表す。
 または、スコア算出部14は、以下の式にしたがってスコアSを算出してもよい。
Figure JPOXMLDOC01-appb-M000002
 ここで、mは、j番目のキーワードの出現頻度を表し、wは、i番目のキーワードの重みを表す。なお、スコア算出部14は、文書1aおよび/または文書1bに含まれる第1キーワードが評価された結果(第1キーワードの重み)と、当該文書1aおよび/または文書1bに含まれる第2キーワードが評価された結果(第2キーワードの重み)とに基づいて、ポジティブスコア5dおよび/またはネガティブスコア5fを算出してよい。また、スコア算出部14は、文書1aおよび/または文書1bにそれぞれ含まれるセンテンスごとに、ポジティブスコア5dおよび/またはネガティブスコア5fを算出してよい(いずれも後で詳細に説明する)。
 データ設定部(データ抽出部)15は、ポジティブスコア5dおよびネガティブスコア5fを用いて、文書1bから上記所定の事案と関連する文書を抽出することにより、レビュアに報告すべき文書として設定する。データ設定部15は、例えば、ポジティブスコアが高く、かつ、ネガティブスコアが低いか否かを判定し、当該判定された文書にフラグを立てることにより、当該文書をレビュアに報告すべき文書に設定する。または、データ設定部15は、ポジティブスコアが高い順に、および/または、ネガティブスコアが低い順に、文書を並べ替えることによって、当該文書をレビュアに報告すべき文書として抽出・設定する。データ設定部15は、設定した文書を特定可能な設定情報5gを関連付与部16に出力する。
 関連付与部16は、ポジティブスコア5dおよびネガティブスコア5fを用いて、文書1bが上記所定の事案と関係するか否かを示す関連性情報(文書分析システム100によるレビュー結果、「分別符号」ともいう)を付与する。例えば、データ設定部15によって設定された文書に、上記分別符号を付与してよい。また、関連付与部16は、一覧結果5bを表示部50に出力することにより、データ設定部15によって設定された文書1b(所定の事案と関連すると文書分析システム100によって判断された文書)を一覧可能に表示できる。
 格納部17は、要素評価部13からキーワード情報5cまたはキーワード情報5eが入力された場合、当該キーワード情報5cまたはキーワード情報5eに含まれるキーワードと、当該キーワードが評価された結果(重み)とを対応付けて、記憶部30に格納する。これにより、文書分析システム100は、過去のデータを分析した結果(キーワードが評価された結果としての重み)に基づいて現在のデータを分析することによって、所定の事案と関連するデータを抽出できる。
 文書取得部(未判断データ取得部)18は、結果取得部12によってレビュー結果5aが受け付けられなかった文書1bを未判断データとして取得し、当該取得した文書1bを要素評価部13およびスコア算出部14に出力する。図1は、文書取得部18が、受信部20を介して文書1aおよび文書1bを外部から取得する構成を例示するが、文書取得部18は、記憶部30に格納された文書を読み出し、レビュー結果5aが与えられた文書を文書1a(所定の事案と関連するか否かがレビュアによって判断されたデータ)としてデータ抽出部11に出力し、レビュー結果5aが与えられなかった文書を文書1b(所定の事案と関連するか否かがレビュアによって未だ判断されていないデータ)として要素評価部13およびスコア算出部14に出力する構成であってもよい。
 入力部40は、レビュアから入力(レビュー結果5a)を受け付ける。図1は、文書分析システム100が入力部40を備えた構成(例えば、入力部40としてキーボード、マウスなどが接続された構成)を示すが、当該入力部40は、当該文書分析システム100と通信可能に接続された外部の入力装置(例えば、クライアント端末)であってもよい。
 受信部20は、所定の通信方式にしたがう通信網を介して、ネットワークから文書1aおよび/または文書1bを受信する。外部の機器(例えば、一般ユーザが使用する端末)との通信を実現する本質的な機能が受信部20に備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。受信部20は、例えばイーサネット(登録商標)アダプタなどの機器で構成できる。また、受信部20は、例えばIEEE802.11無線通信、Bluetooth(登録商標)などの通信方式や通信媒体を利用できる。
 なお、図1は、文書分析システム100が受信部20を介してネットワークから文書1aおよび/または文書1bを取得する構成を示すが、当該文書分析システム100は、例えば、文書1aおよび/または文書1bを格納した所定の記憶装置を接続することによって当該文書1aおよび/または文書1bを取得する構成であってもよい。
 表示部50は、レビュアが操作可能なインターフェース画面を表示するデバイスである。図1は、文書分析システム100が表示部50を備えた構成(例えば、表示部50として液晶ディスプレイなどが接続された構成)を示すが、当該表示部50は、当該文書分析システム100と通信可能に接続された外部の表示装置(例えば、クライアント端末)であってもよい。
 記憶部(データ記録部)30は、上記所定の事案と関連するか否かを判断する対象となる所定のデータ(例えば、文書1a、文書1b)を記録可能な記録機器であり、例えば、ハードディスク、SSD(silicon state drive)、半導体メモリ、DVDなど、任意の記録媒体によって構成される。また、記憶部30は、キーワード情報5c、キーワード情報5e、および/または文書分析システム100を制御可能な制御プログラムをさらに記憶することができる。なお、図1は、文書分析システム100が記憶部30を内蔵する構成を示すが、当該記憶部30は、当該文書分析システム100と通信可能に接続された外部の記憶装置であってもよい。
 〔文書分析システム100の性能を示すヒートマップ〕
 図3は、文書分析システム100によってポジティブスコアおよびネガティブスコアが算出された場合における文書の分布を示すヒートマップである。図3は、両システムの差異が把握容易となるように当該差異を視覚的に示したものであり、実際に文書が図3のように2次元平面上に分布するわけではないことに注意する。
 従来の文書分析システムによれば、高いスコアが算出された文書(すなわち、所定の事案と関連性の高い文書α)が中心の領域Aに集まるように分布する(図5参照)。そして、スコアが減少するほど文書は当該領域Aから離れた位置に分布し、最もスコアの低い文書(すなわち、所定の事案と関連性の低い文書β)は、外縁の領域Bにまとまりなく分布する。このため、文書αと文書βとは線形分離できない。これは、上記スコアに両者の違いが明確に現れず、所望の文書αが文書βから分別困難となるおそれがあることを意味する。
 図3に示されるように、本実施の形態に係る文書分析システム100によれば、高いポジティブスコアが算出された文書(すなわち、所定の事案と関連性の高い文書α)が領域Aに集まるように分布する一方で、高いネガティブスコアが算出された文書(すなわち、所定の事案と関連性の低い文書β)が領域Bに集まるように分布する。すなわち、文書分析システム100は、所望の文書αを分別するにあたり、不要な文書βを明に排除する。これにより、両者の違いが明確に現れるため、文書分析システム100は、文書αを高い精度で分別することができる。
 〔文書分析システム100が実行する処理〕
 図4は、文書分析システム100が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「~ステップ」は、データ分析システムの制御方法に含まれる各ステップを表す。
 まず、データ抽出部11は、所定の事案と関連するか否かがレビュアによって判断されるべき文書1aを、所定の文書群から所定数だけ抽出する(ステップ1、以下「ステップ」を「S」と略記する)。次に、結果取得部12は、文書1aが所定の事案と関連するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して取得する(S2、判断結果受付ステップ)。次に、要素評価部13は、上記所定の事案と関連するか否かがレビュアによって判断された文書1aに含まれるキーワードを、所定の基準に基づいてそれぞれ評価する(S3)。
 文書取得部18は、上記所定の事案と関連するか否かがレビュアによって未だ判断されていない文書1bを取得する(S4)。そして、スコア算出部14は、上記判断した結果(レビュー結果5a)に基づいて、文書1bと当該所定の事案との関連性の強さを示すポジティブスコア5dを算出(導出)する(S5、主指標導出ステップ)。次に、要素評価部13は、ポジティブスコア5dによって上記所定の事案との関連性が弱いことが示された文書1bを選出し、当該選出された文書1bに含まれるキーワードを、上記所定の基準に基づいて評価し(S6)、スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5e)に基づいて、上記所定の事案との関連性の弱さを示すネガティブスコア5fを文書1bについて算出する(S7、副指標導出ステップ)。
 データ設定部15は、ポジティブスコア5dおよびネガティブスコア5fにしたがって、文書1bをレビュアに報告すべき文書か否かを判定し(S8)、報告すべき文書と判定した場合(S8においてYES)、当該文書1bを報告すべき文書として設定(抽出)する(S9、データ抽出ステップ)。最後に、関連付与部16は、データ設定部15によって設定された文書1bに、当該文書1bが所定の事案と関連することを示す関連性情報(文書分析システム100によるレビュー結果)を付与し、当該文書1bを表示部50に表示する一覧結果5bを出力する(S10)。
 なお、上記制御方法は、図4を参照して前述した上記処理だけでなく、制御部10に含まれる各部において実行される処理を任意に含んでよい。
 〔共起に基づくスコア計算〕
 前述したように、スコア算出部14は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコア(以下「スコア」と総称した場合、ポジティブスコアとネガティブスコアとを両方指す)を算出できる。すなわち、スコア算出部14は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
 この場合、スコア算出部14は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、(上記〔数1〕ではなく)以下の式にしたがってスコアSを計算できる。
Figure JPOXMLDOC01-appb-M000003
 なお、上記相関行列Cは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0~1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
 以上のように、文書分析システム100は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案と関連するデータを分別できる。
 〔センテンスごとのスコア計算〕
 前述したように、スコア算出部14は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部14は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
Figure JPOXMLDOC01-appb-M000004
 ここで、sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数4〕にしたがうスコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
 TFnormは、下記の〔数5〕に示されるように計算できる。
Figure JPOXMLDOC01-appb-M000005
 ここで、上記〔数5〕において、TFはi番目のキーワードの出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
 上記〔数4〕および〔数5〕をまとめると、スコア算出部14は、以下の〔数6〕を計算することによって文書ごとに上記スコアを算出する。
Figure JPOXMLDOC01-appb-M000006
 ここで、上記〔数6〕において、wは上記重みベクトルwのi番目の要素である。
 以上のように、文書分析システム100は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関連するデータを分別できる。
 〔フェーズ分析〕
 文書分析システム100は、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
 例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分析システム100は、ネットワーク上を日々流通する電子メールが当該不正行為事件に関連するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。
 また、時系列情報および生成過程情報が記憶部30に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。
 結果取得部12は、文書1aが所定の事案と関連するか否かについてレビュアが判断した結果と、当該文書1aが上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果5aとして取得し、要素評価部13は、文書1aに含まれるキーワードを上記フェーズごとにそれぞれ評価する(各キーワードの重みを決定する)。
 スコア算出部14は、文書1bに対してスコアを算出する場合、上記生成過程情報に基づいて当該文書1bがいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書1bのフェーズとして推定する。そして、スコア算出部14は、推定したフェーズに対応する重みを用いて、文書1bのスコアをそれぞれ算出する。このとき、スコア算出部14は、当該フェーズに対応する相関行列Cを用いてもよい。
 関連付与部16は、データ設定部15によって設定された文書1bを一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関連付与部16は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。
 以上のように、文書分析システム100は、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関連するデータを分別できる。
 〔重みの再計算〕
 データ設定部15によって設定された文書1b(所定の事案と関連すると文書分析システム100によって判断された文書)が、関連付与部16によって一覧可能に表示された後、結果取得部12は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分析システム100によって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部13は、上記フィードバックに基づいて各キーワードを再評価できる。
 言い換えれば、要素評価部13は、文書分析システム100の判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分析システム100は、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関連するデータを分別できる。
 〔人物・組織相関の表示〕
 データ設定部15は、文書1bに出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
 例えば、人物Aから人物Bに送信された電子メールを文書1bとして分析した結果、当該文書1bに「私からCさんに連絡しておきます」という文章が含まれていた場合、データ設定部15は、「人物A」、「人物B」、および「人物C」を抽出し、「人物A」を示すノードから「人物B」を示すノード、および「人物C」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部15は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。
 すなわち、文書分析システム100は、複数の端末間で送受信され、複数の人物のそれぞれに対応づけられる通信データを取得する通信データ取得部と、前記通信データ取得部が取得した前記通信データの内容を分析する分析部と、前記分析部の分析結果を用い、前記通信データの内容と予め定められた事案との関連性を評価する評価部と、前記評価部の評価結果に基づいて、前記事案に関連する前記複数の人物の関連性を表示する表示部とを備えてよい。
 以上のように、文書分析システム100は、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。
 〔閾値の設定〕
 前述のように、文書分析システム100は、レビュー結果5aに基づいて文書1aに含まれるキーワードを所定の基準に基づいてそれぞれ評価する。そして、文書分析システム100は、当該評価された結果に基づいて、上記所定の事案との関連性の強さを示すポジティブスコアを文書1aについてそれぞれ算出し、適合率(上記所定の事案に関連すると判断された文書1aが、所定数の文書を含む文書群に占める割合)に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値として特定することができる。
 すなわち、文書分析システム100は、レビュアから与えられたレビュー結果5a(過去のデータに対して人間が判断した結果)に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するポジティブスコアを有する文書1bのみを、上記所定の事案と関連する可能性が高い文書として、レビュアに一覧結果5bを返すことができる。言い換えれば、文書分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、所定の事案と関連するデータを分別できる。これにより、文書分析システム100は、例えば、不正行為が生じる予兆をリアルタイムに検知できる(分析対象となる文書1bが、あらかじめ用意されている必要はない)。
 より具体的には、上記所定の事案と関連するか否かがレビュアによって判断された文書1aについてポジティブスコアがそれぞれ算出された場合、文書分析システム100は、当該ポジティブスコアを降順に並べ替える。次に、文書分析システム100は、最大のポジティブスコア(当該ポジティブスコアのランクが1位)を有する文書1aから順番に当該文書1aに付与されたレビュー結果5aを走査し、「所定の事案と関連する」というレビュー結果5aが付与された文書の数が、現時点において走査が終了した文書の数に占める割合(適合率)を、順次計算する。
 例えば、レビュー結果5aが付与された文書1aの数が100である場合に、ポジティブスコアのランクが1位から20位までの文書について走査を終了したところ、「所定の事案と関連する」というレビュー結果5aが付与された文書の数が18であった場合、文書分析システム100は、適合率を0.9(18/20)と計算する。または、ポジティブスコアのランクが1位から40位までの文書について走査を終了したところ、「所定の事案と関連する」というレビュー結果5aが付与された文書の数が35であった場合、文書分析システム100は、適合率を0.875(35/40)と計算する。
 文書分析システム100は、文書1aに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、文書分析システム100は、最小のスコア(ポジティブスコアのランクが100位)を有する文書1aから順番に当該文書1aに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するポジティブスコアを、上記目標適合率を維持可能な最小スコア(適合しきい値)として特定する。
 そして、文書分析システム100は、上記所定の事案と関連するか否かが未だ判断されていない文書1bについて算出されたポジティブスコアが、上記適合しきい値を超過しているか否かを判定し、超過していると判定した文書1bをレビュアに報告すべきデータとして設定できる。この場合、前述したように、文書分析システム100は、ネガティブスコアをさらに考慮して、文書1bをレビュアに報告すべきデータとして設定してよい。これにより、文書分析システム100は、上記所定の事案に関連するデータを高い精度で分別することができる。
 すなわち、上記文書分析システム100は、新たに取得されたデータから所定の事案と関連するデータを抽出可能なデータ分析システムであって、所定の事案と関連するか否かがユーザによって判断された既判断データを格納する記憶部と、前記所定の事案と関連するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、前記既判断データについて当該所定の事案との関連性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、前記閾値特定部によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えてよい。
 〔文書以外のデータに適用する例〕
 本発明のデータ分析システムを実施する一形態として、文書を分析する文書分析システム100を説明したが、当該データ分析システムは、文書以外のデータも分析可能である。
 例えば、本発明のデータ分析システムは、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(文書データ)に変換し、上記文書分析システム100と同様に当該文書データを処理してもよいし、(2)音声データをそのまま処理してもよい。
 上記(1)の場合、上記音声分析システムは、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分析システム100が実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
 上記(2)の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関連するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
 または、本発明のデータ分析システムは、映像(動画)を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像データに含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、上記映像分析システムは、上記人物および/またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分析システム100と同様の効果を奏する。
 すなわち、本発明のデータ分析システムは、時系列で情報が展開するデジタルデータ(文書、音声、映像など)を分析することができる。これにより、上記データ分析システムは、所定の事案に関連しないデータを明に分別することによって、当該所定の事案に関連するデータを高い精度で分別できるという効果を奏する。
 〔その他の応用例〕
 (ドライバ支援システムとして実現する例)
 本発明に係るデータ分析システムは、車両の周囲から取得された複数のデータから所定の事案と関連するデータを抽出可能なドライバ支援システムとしても実現され得る。この場合、上記ドライバ支援システムは、例えば、車両から撮影された外部画像を、所定の事案と関連するか否かが判断されていない未判断データとして取得する。ここで、上記「所定の事案」は、上記車両のドライバが情報処理能力を発揮すると考えられる事案、対象、状況、行動などを広く含み、例えば、障害物(例えば、歩行者、ガードレール、他の車両など)との衝突回避、車庫入れ、車線変更、高速道路への合流・離脱などであってよい。
 上記ドライバ支援システムは、所定の事案と関連するか否かが判断されていない未判断データが新たに取得された場合、ドライバ(例えば、熟練ドライバ)によって当該所定の事案と関連するか否かが判断された既判断データに基づいて、当該未判断データと当該所定の事案との関連性を評価する。具体的には、上記ドライバ支援システムは、データ(例えば、外部画像)からデータ要素を抽出し、既判断データを用いてそれぞれ評価された当該データ要素から、当該データのスコア(ポジティブスコアおよび/またはネガティブスコア)を算出する。そして、上記ドライバ支援システムは、算出されたスコアが所定の条件を満たす(例えば、当該スコアが所定の閾値を超過しているなど)場合、当該データをドライバ(例えば、非熟練ドライバ)に報知する。
 すなわち、上記ドライバ支援システムは、所定の事案と関連するか否かがドライバによって判断された結果に基づいて、新たな未判断データをドライバに報知するか否かを判断できる。例えば、上記ドライバ支援システムは、熟練ドライバがヒヤリハットを経験した場合、当該ヒヤリハットの状況(所定の事案)と当該状況を示す外部画像との関連性を学習し、非熟練ドライバが同様の状況に遭遇したことによって、類似の外部画像が取得された場合に、当該類似の外部画像の一部、全部、または当該類似の外部画像を加工したデータ(例えば、音声による通知など)を非熟練ドライバに報知できる。
 したがって、上記ドライバ支援システムは、ドライバが必要とするデータ(例えば、事故に至る危険性の高い状況を示す外部画像)を当該ドライバに報知できるという効果を奏する。
 (医療システムとして実現する例)
 本発明に係るデータ分析システムは、構造化ヘルスケアデータおよび/または非構造化ヘルスケアデータから取得された複数のヘルスケアデータから所定の症状と関連するヘルスケアデータを抽出可能な医療システムとしても実現され得る。この場合、上記医療システムは、例えば、不健康に至る可能性が高い状況を示す画像情報(データ)を、所定の症状(所定の事案)と関連するか否かが判断されていない未判断ヘルスケアデータとして取得する。ここで、上記「所定の症状」(所定の事案)は、医師によって、不健康な状態(人間の心や体に不調または不都合が生じた状態)であると診断された症状、疾病、疾患、症候群などを広く含む。
 上記医療システムは、所定の症状と関連するか否かが判断されていない未判断ヘルスケアデータが新たに取得された場合、医師(例えば、経験豊富な医師)によって当該所定の症状と関連するか否かが判断された既判断ヘルスケアデータに基づいて、当該未判断ヘルスケアデータと当該所定の症状との関連性を評価する。具体的には、上記医療システムは、データ(例えば、不健康に至る可能性が高い状況を示す画像情報)からデータ要素を抽出し、既判断ヘルスケアデータを用いてそれぞれ評価された当該データ要素から、当該データのスコア(ポジティブスコアおよび/またはネガティブスコア)を算出する。そして、上記医療システムは、算出されたスコアが所定の条件を満たす(例えば、当該スコアが所定の閾値を超過している)場合、当該データを病気の予測診断需要者(例えば、患者、経験が乏しい医師)に報知する。
 すなわち、上記医療システムは、所定の症状と関連するか否かが医師によって判断された結果に基づいて、新たな未判断ヘルスケアデータを病気の予測診断需要者に報知するか否かを判断できる。例えば、上記医療システムは、経験豊富な医師が、ヒヤリハットを経験(医師の診断が医療ミスには至らなかったが、医療ミスにつながってもおかしくなかった経験)した場合、当該ヒヤリハットの状況(所定の症状)と当該状況を示す外部画像との関連性を学習し、経験が乏しい医師が同様の状況に遭遇したことによって、類似の外部画像が取得された場合に、当該類似の外部画像を経験が乏しい医師に報知できる。
 したがって、上記医療システムは、病気の予測診断需要者に信頼性が高い診断結果を報知できるという効果を奏する。
 (その他のシステムとして実現する例)
 本発明に係るデータ分析システムは、従業者から取得された複数のデータに基づいて、当該従業者の実績を評価する実績評価システムとしても実現され得る。この場合、上記実績評価システムは、所定のデータ(例えば、従業者が日々提出する日報など)と「実績の評価対象である従業者の評価が良好であること」(所定の事案)との関連性を評価することによって、当該従業者の実績を評価することができる。
 また、本発明に係るデータ分析システムは、ネットワークを介して取得されたウェブデータに基づいて、知的財産権の侵害・クリアランス調査を行う知財評価システムとしても実現され得る。この場合、上記知財評価システムは、ウェブデータと「所定の技術が当該ウェブデータに開示された知的財産権を侵害していること」(所定の事案)との関連性を評価することによって、知的財産権の侵害・クリアランス調査を行うことができる。
 〔サーバ装置が機能の一部または全部を提供する構成〕
 以上では、データを分析する機能を提供可能な制御プログラム(データ分析システムの制御プログラム)が、主に文書分析システム100(データ分析システム)において実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分析システム100(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明のデータ分析システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分析システム100が機能を提供する場合に、当該文書分析システム100が奏する効果と同じ効果を奏する。
 〔ソフトウェアによる実現例〕
 文書分析システム100の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
 なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置(例えば、文書分析システム100)と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。
 〔付記事項〕
 本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
 本発明は、次のようにも表現できる。すなわち、所定の事案と関連するか否かがユーザによって分別された分別データに含まれるデータ要素の重みづけを学習する学習部と、前記所定の事案と関連するか否かが前記ユーザによって未だ分別されていない未分別データから、前記分別データに含まれるデータ要素を探索する探索部と、前記探索部によって探索されたデータ要素、および前記学習部によって学習された当該データ要素の重みづけを用いて、前記未分別データと分別符号(所定の事案と関連するか否かを示す符号)との結びつきの強さを評価した第1指標、および当該未分別データと当該分別符号との結びつきの弱さを評価した第2指標を導出する指標導出部とを備えたデータ分析システム。
 また、本発明は、次のような構成であってもよい。すなわち、所定の事案と関連するか否かがユーザによって分別された分別データに含まれるデータ要素の重みづけを学習する学習部と、前記所定の事案と関連するか否かが前記ユーザによって未だ分別されていない未分別データから、前記分別データに含まれるデータ要素を探索する探索部と、前記探索部によって探索されたデータ要素、および前記学習部によって学習された当該データ要素の重みづけを用いて、前記未分別データと分別符号(所定の事案と関連するか否かを示す符号)との結びつきの強さを評価した指標を導出する指標導出部とを備えたデータ分析システム。
 また、本発明は、次のような構成であってもよい。すなわち、所定の事案と関連するか否かを判断する対象となる所定のデータを記録するデータ記録部と、前記データ記録部に記録されたデータの一部が、前記所定の事案と関連するか否かについてユーザが判断した結果を、所定の入力部を介して受け付ける判断結果受付部と、前記判断結果受付部によって受け付けられた前記判断した結果に基づいて、前記所定の事案と関連するか否かが未だ判断されていない未判断データと前記所定の事案との関連性の強さを示す主指標を導出する主指標導出部と、前記主指標導出部によって導出された前記主指標に応じて前記未判断データから所定数のデータを選出し、当該選出されたデータに基づいて、当該未判断データと前記所定の事案との関連性の弱さを示す副指標を導出する副指標導出部と、前記主指標導出部によって導出された前記主指標、および前記副指標導出部によって導出された前記副指標を用いて、前記未判断データから前記所定の事案と関連するデータを抽出するデータ抽出部とを備えたデータ分析システム。
 また、上記データ分析システムは、前記判断結果受付部によって前記判断した結果が受け付けられなかったデータを、前記未判断データとして取得する未判断データ取得部をさらに備えてよい。
 本発明は、パーソナルコンピュータ、サーバ装置、メインフレーム、ワークステーション、その他の電子機器に広く適用することができる。
 1a:文書(既判断データ、データの一部)、1b:文書(未判断データ)、1c:文書(部分データ)、5a:レビュー結果(判断した結果)、5d:ポジティブスコア(主指標)、5f:ネガティブスコア(副指標)、12:結果取得部(判断結果受付部)、13:要素評価部(主要素評価部、副要素評価部)、14:スコア算出部(主指標導出部、副指標導出部)、15:データ設定部(データ抽出部)、16:関連付与部、18:文書取得部(未判断データ取得部)、100:文書分析システム(データ分析システム)

Claims (9)

  1.  所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部と、
     前記データの一部が前記所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付部と、
     前記データと前記所定の事案との関連性の強さを示す主指標を、前記判断した結果に基づいて導出する主指標導出部と、
     前記主指標に応じて前記データから部分データを選出し、当該データと前記所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出部と、
     前記データから前記所定の事案と関連するデータを、前記主指標および副指標を用いて抽出するデータ抽出部とを備えたデータ分析システム。
  2.  前記判断した結果を与えられた前記データの一部に含まれるデータ要素を、所定の基準に基づいて評価する主要素評価部をさらに備え、
     前記主指標導出部は、前記主要素評価部によってデータ要素が評価された結果に基づいて前記主指標を導出することを特徴とする請求項1に記載のデータ分析システム。
  3.  前記部分データに含まれるデータ要素を、所定の基準に基づいて評価する副要素評価部をさらに備え、
     前記副指標導出部は、前記副要素評価部によってデータ要素が評価された結果に基づいて前記副指標を導出することを特徴とする請求項1または2に記載のデータ分析システム。
  4.  前記所定の基準は、前記データ要素と、当該データ要素を含むデータに対する前記判断した結果との依存関係を表す伝達情報量であることを特徴とする請求項2または3に記載のデータ分析システム。
  5.  前記所定の事案と関連するか否かが未だ判断されていない未判断データが、当該所定の事案と関連するか否かを示す関連性情報を、前記主指標および副指標を用いて付与する関連付与部をさらに備えたことを特徴とする請求項1から4のいずれか一項に記載のデータ分析システム。
  6.  前記データ抽出部は、前記主指標および副指標を用いて前記データを並べ替えることによって、当該データから前記所定の事案と関連するデータを抽出することを特徴とする請求項1から5のいずれか一項に記載のデータ分析システム。
  7.  前記データは、コンピュータで処理可能なデジタル文書を少なくとも含むことを特徴とする請求項1から6のいずれか一項に記載のデータ分析システム。
  8.  所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御方法であって、
     前記データの一部が前記所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付ステップと、
     前記データと前記所定の事案との関連性の強さを示す主指標を、前記判断した結果に基づいて導出する主指標導出ステップと、
     前記主指標に応じて前記データから部分データを選出し、当該データと前記所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出ステップと、
     前記データから前記所定の事案と関連するデータを、前記主指標および副指標を用いて抽出するデータ抽出ステップとを含むデータ分析システムの制御方法。
  9.  所定の事案と関連するか否かを判断する対象となるデータを記録するデータ記録部を備えたデータ分析システムの制御プログラムであって、
     前記データ分析システムに、
     前記データの一部が前記所定の事案と関連するか否かについて、ユーザが判断した結果を受け付ける判断結果受付機能と、
     前記データと前記所定の事案との関連性の強さを示す主指標を、前記判断した結果に基づいて導出する主指標導出機能と、
     前記主指標に応じて前記データから部分データを選出し、当該データと前記所定の事案との関連性の弱さを示す副指標を、当該部分データに基づいて導出する副指標導出機能と、
     前記データから前記所定の事案と関連するデータを、前記主指標および副指標を用いて抽出するデータ抽出機能とを実現させるデータ分析システムの制御プログラム。
PCT/JP2014/077021 2014-10-08 2014-10-08 データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム WO2016056095A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/077021 WO2016056095A1 (ja) 2014-10-08 2014-10-08 データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/077021 WO2016056095A1 (ja) 2014-10-08 2014-10-08 データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム

Publications (1)

Publication Number Publication Date
WO2016056095A1 true WO2016056095A1 (ja) 2016-04-14

Family

ID=55652751

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/077021 WO2016056095A1 (ja) 2014-10-08 2014-10-08 データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム

Country Status (1)

Country Link
WO (1) WO2016056095A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003486A (ja) * 2020-06-23 2022-01-11 株式会社Ipsign 侵害情報抽出システム、方法及びプログラム
JP2022072383A (ja) * 2020-10-29 2022-05-17 株式会社Ipsign 侵害情報抽出システム、方法及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293502A (ja) * 1999-04-05 2000-10-20 Nippon Telegr & Teleph Corp <Ntt> データ分類方法及び装置及びデータ分類プログラムを格納した記憶媒体
JP2009205615A (ja) * 2008-02-29 2009-09-10 Internatl Business Mach Corp <Ibm> 変化分析システム、方法及びプログラム
JP2011175497A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000293502A (ja) * 1999-04-05 2000-10-20 Nippon Telegr & Teleph Corp <Ntt> データ分類方法及び装置及びデータ分類プログラムを格納した記憶媒体
JP2009205615A (ja) * 2008-02-29 2009-09-10 Internatl Business Mach Corp <Ibm> 変化分析システム、方法及びプログラム
JP2011175497A (ja) * 2010-02-25 2011-09-08 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022003486A (ja) * 2020-06-23 2022-01-11 株式会社Ipsign 侵害情報抽出システム、方法及びプログラム
JP2022072383A (ja) * 2020-10-29 2022-05-17 株式会社Ipsign 侵害情報抽出システム、方法及びプログラム

Similar Documents

Publication Publication Date Title
US20230013306A1 (en) Sensitive Data Classification
KR101981075B1 (ko) 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
JP5977898B1 (ja) 行動予測装置、行動予測装置の制御方法、および行動予測装置の制御プログラム
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP5885875B1 (ja) データ分析システム、データ分析方法、プログラム、および、記録媒体
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2016147276A1 (ja) データ分析システム及びデータ分析方法並びにデータ分析プログラム
US20170358045A1 (en) Data analysis system, data analysis method, and data analysis program
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP6379199B2 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
JP5905651B1 (ja) 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
WO2016203652A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
US20150339786A1 (en) Forensic system, forensic method, and forensic program
EP3089053A1 (en) Data evaluation system, data evaluation method, and data evaluation program
JPWO2016189605A1 (ja) データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
WO2016056095A1 (ja) データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP5933863B1 (ja) データ分析システム、制御方法、制御プログラム、および記録媒体
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
Stewart et al. Why is it difficult to detect sudden and unexpected epidemic outbreaks in Twitter?
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP6441930B2 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
US20230229937A1 (en) Ai training data creation support system, ai training data creation support method, and ai training data creation support program
WO2018029791A1 (ja) キーワード抽出システム、キーワード抽出方法およびプログラム
JP2017199113A (ja) バースト検出装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14903755

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14903755

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP