WO2018003115A1 - 分析支援装置、分析支援方法、および分析支援プログラム - Google Patents

分析支援装置、分析支援方法、および分析支援プログラム Download PDF

Info

Publication number
WO2018003115A1
WO2018003115A1 PCT/JP2016/069648 JP2016069648W WO2018003115A1 WO 2018003115 A1 WO2018003115 A1 WO 2018003115A1 JP 2016069648 W JP2016069648 W JP 2016069648W WO 2018003115 A1 WO2018003115 A1 WO 2018003115A1
Authority
WO
WIPO (PCT)
Prior art keywords
document data
category
classification
cluster
data group
Prior art date
Application number
PCT/JP2016/069648
Other languages
English (en)
French (fr)
Inventor
裕 早矢仕
直史 冨田
石黒 正雄
Original Assignee
株式会社日立製作所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社日立製作所 filed Critical 株式会社日立製作所
Priority to PCT/JP2016/069648 priority Critical patent/WO2018003115A1/ja
Priority to JP2018502286A priority patent/JP6496078B2/ja
Publication of WO2018003115A1 publication Critical patent/WO2018003115A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Definitions

  • the present invention relates to an analysis support apparatus, an analysis support method, and an analysis support program that support trend analysis.
  • PESTLE analysis extracts external factors that affect the industry for each political, economic, social, technical, legal, and environmental category from documents such as government documents and news articles, Analyze the transition.
  • manual analysis such as PESTLE analysis requires a large amount of man-hours because a large number of documents must be confirmed manually.
  • quality of analysis by the analyst, such as omission of an external factor to be noted. Therefore, there is a need for technology that supports the analysis of changes in industry trends from documents for the purpose of reducing man-hours and ensuring quality in analysis.
  • Patent Document 1 discloses a technique for automating the transition analysis of these industry trends. Specifically, Patent Document 1 analyzes changes in technical trends in a specific field. Patent document 1 extracts the content implement
  • the present invention has been made to solve such a problem, and aims to improve the efficiency of trend analysis.
  • An analysis support apparatus, an analysis support method, and an analysis support program that are one aspect of the invention disclosed in the present application are a processor that executes a program, a storage device that stores the program, a communication interface that communicates with an external device, An analysis support apparatus, an analysis support method using the analysis support apparatus, and an analysis support program executed by the processor.
  • At least one of the storage device and the external device stores a first document data group and a second document data group, and each first document data of the first document data group includes a first body, Including a first category to which the first document data belongs and a first period specified by the content of the first text, and each second document data of the second document data group includes a second text.
  • the processor includes: an acquisition process for acquiring the first document data group and the second document data group from at least one of the storage device and the external device; and each of the second document data groups acquired by the acquisition process
  • a generating process for generating a feature quantity related to a word common to the second document data in the teacher data including the first text, the first category, and the first time period, and the teacher data includes The second category specified by the content of the second category to which the second document data belongs and the content of the second text, using the first category and the first time period, and the feature amount generated by the generation process.
  • a construction process for constructing a classification model for obtaining the time, and the feature quantity of the second document data is given to the classification model constructed by the construction process
  • the identification process for specifying the second category and the second time period of the second document data, and the classification of the first document data group and the second document data group as a combination of the same category and the same time period A classification process is performed for each of the processes, and an output process for outputting a classification result by the classification process is executed.
  • FIG. 1 is an explanatory diagram illustrating an example of analysis support.
  • FIG. 2 is a block diagram illustrating a hardware configuration example of the analysis support apparatus.
  • FIG. 3 is an explanatory diagram showing an example of the stored contents of the collected data storage DB.
  • FIG. 4 is an explanatory diagram showing an example of the contents stored in the external data storage DB.
  • FIG. 5 is an explanatory diagram showing an example of the contents stored in the clustering result storage DB.
  • FIG. 6 is an explanatory diagram showing an example of the contents stored in the complementary score storage DB.
  • FIG. 7 is an explanatory diagram showing an example of the stored contents of the classification model storage DB.
  • FIG. 8 is an explanatory diagram showing an example of the contents stored in the external data classification result storage DB.
  • FIG. 1 is an explanatory diagram illustrating an example of analysis support.
  • FIG. 2 is a block diagram illustrating a hardware configuration example of the analysis support apparatus.
  • FIG. 3 is an explanatory diagram showing an
  • FIG. 9 is an explanatory diagram of an example of the contents stored in the category shortage score storage DB.
  • FIG. 10 is a block diagram illustrating a functional configuration example of the analysis support apparatus.
  • FIG. 11 is a block diagram illustrating a detailed functional configuration example of the dividing unit and the sorting unit illustrated in FIG. 10.
  • FIG. 12 is an explanatory diagram illustrating an example of a collected data input screen.
  • FIG. 13 is a diagram illustrating an example of a collected data display screen.
  • FIG. 14 is a diagram illustrating an example of an external data display screen.
  • FIG. 15 is an explanatory diagram illustrating an example of a data collection status display screen.
  • FIG. 16 is an explanatory diagram illustrating an example of a category-related cluster display screen.
  • FIG. 17 is a flowchart illustrating an example of an analysis support processing procedure performed by the analysis support apparatus.
  • FIG. 18 is a flowchart showing a detailed processing procedure example of the external data classification processing (step S1704) shown in
  • FIG. 1 is an explanatory diagram illustrating an example of analysis support.
  • Data used in the present embodiment includes collected data and external data. Collected data is document data relating to industry trends collected by the user 1, such as news article data, Web pages, and electronic books.
  • the collected data includes a text, a category to which the collected data belongs, and a time specified by the content of the text (for example, a trend related to the text).
  • the user 1 operates the terminal 2 of the user 1 to collect document data as collected data from a network 3 such as the Internet.
  • the collected data group is stored in a collected data storage DB (Database) 4.
  • Database collected data storage DB
  • External data is document data relating to industry trends collected by the computer 5, such as news article data, Web pages, and electronic books.
  • External data includes a text, and the category to which the external data belongs and the time specified by the content of the text are undecided.
  • the computer 5 reads a predetermined URL (Uniform Resource Locator) list, and collects document data described in the URL list as external data. Further, the computer 5 may collect document data including a predetermined keyword among the document data group described in the URL list as external data.
  • the external data group is stored in the external data storage DB 6. Note that, even external data, document data that has been analyzed by the user 1 may be collected data of the user 1.
  • the computer 5 mixes the collected data group and the external data group, and clusters the mixed document data group for each similar document data group. Then, the computer 5 calculates a topic complement score St, k for each cluster k (k is an integer equal to or greater than 1) according to the equation (1).
  • the topic complement score St, k is a score for the cluster k, and is a value indicating how much collected data is collected for the topic handled in the cluster k. Note that n c, k is the number of collected data in cluster k, and n o, k is the number of external data in cluster k.
  • the topic complement score St, k is the ratio of external data to all document data belonging to the cluster k. Therefore, for a topic handled by the cluster k having a large topic complement score St, k , the cluster k includes more external data than the collected data. For this reason, it is necessary to collect additional document data for the cluster k having a large topic complement score St, k .
  • the computer 5 calculates a segment shortage score U d, ij for each segment ij.
  • the category ij is a combination of one of the categories (with i as an index) and one period within a period (with j as an index).
  • the computer 5 aggregates the number of collected data and the number of external data for each category ij, and uses the number of collected data and the number of external data for each aggregated category ij to calculate the value for each category ij according to Equation (2).
  • the category shortage score U d, ij is calculated.
  • the category shortage score U d, ij is a ratio of external data to all document data included in the category ij. That is, for the section ij having a large section shortage score U d, ij , more external data exists than the collected data, and additional document data collection is required.
  • the category shortage score U d, ij can be regarded as the ratio of external data in all document data belonging to the category ij. Note that nc , ij is the number of collected data in the section ij, and no , ij is the number of external data in the section ij.
  • the computer 5 calculates the topic complement score St, k , whereby the user 1 determines whether additional document data collection is required for each cluster k. Can do. Therefore, the user 1 can satisfy the shortage by additionally collecting the document data for the cluster k for which the document data is short. Thereby, omission of document data can be suppressed, and the efficiency of trend analysis can be improved.
  • the computer 5 calculates the insufficient segment score U d, ij so that the user 1 can determine whether additional document data collection is required for each category ij. . Therefore, the user 1 performs additional collection of document data for the category ij that lacks document data. The shortage can be satisfied. Thereby, the omission of document data can be suppressed, and the efficiency of trend analysis can be improved.
  • the terminal 2 of the user 1 may perform trend analysis support.
  • the terminal 2 or the computer 5 in which the analysis support program of this embodiment is installed is referred to as an analysis support apparatus.
  • FIG. 2 is a block diagram illustrating a hardware configuration example of the analysis support apparatus.
  • the analysis support apparatus 200 includes a processor 201, a storage device 202, an input device 203, an output device 204, and a communication interface (communication IF 205).
  • the processor 201, the storage device 202, the input device 203, the output device 204, and the communication IF 205 are connected by a bus 206.
  • the processor 201 controls the analysis support apparatus 200.
  • the storage device 202 serves as a work area for the processor 201.
  • the storage device 202 is a non-temporary or temporary recording medium that stores various programs and data.
  • Examples of the storage device 202 include a ROM (Read Only Memory), a RAM (Random Access Memory), a HDD (Hard Disk Drive), and a flash memory.
  • the input device 203 inputs data. Examples of the input device 203 include a keyboard, a mouse, a touch panel, a numeric keypad, and a scanner.
  • the output device 204 outputs data. Examples of the output device 204 include a display and a printer.
  • the communication IF 205 is connected to the network 3 and transmits / receives data.
  • AA field bbb (AA is a field name and bbb is a code) may be expressed as AAbbb.
  • the value of the collected data ID field 301 is expressed as a collected data ID 301.
  • FIG. 3 is an explanatory diagram showing an example of stored contents of the collected data storage DB 4.
  • the collected data storage DB 4 is a database that stores collected data.
  • the collected data storage DB 4 includes a collected data ID field 301, a title field 302, a body text field 303, a category field 304, a time field 305, and a source field 306.
  • An entry that is a set of values of each field in the same row constitutes collected data.
  • the collected data ID field 301 is a storage area for storing the collected data ID.
  • the collected data ID 301 is identification information that uniquely identifies the collected data.
  • the title field 302 is a storage area for storing the title of collected data.
  • a text field 303 is a storage area for storing the text of the collected data.
  • the category field 304 is a storage area for storing the category of collected data.
  • the time field 305 is a storage area for storing a time when the collected data is specified by an associated industry trend.
  • the source field 306 is a storage area for storing a source of collected data.
  • FIG. 4 is an explanatory diagram showing an example of the contents stored in the external data storage DB 6.
  • the external data storage DB 6 is a database that stores external data.
  • the external data storage DB 6 has an external data ID field 401, a title field 402, a text field 403, and a source field 404.
  • An entry that is a set of values of each field in the same row constitutes external data.
  • External data ID field 401 is a storage area for storing an external data ID.
  • the external data ID 401 is identification information that uniquely identifies external data.
  • the title field 402 is a storage area for storing the title of external data.
  • a text field 403 is a storage area for storing a text of external data.
  • the source field 404 is a storage area for storing a source of external data.
  • FIG. 5 is an explanatory diagram showing an example of the contents stored in the clustering result storage DB 500.
  • the clustering result storage DB 500 is a database that stores a clustering result obtained by clustering a document data group obtained by mixing a collection data group and an external data group for each similar document data group.
  • the clustering result storage DB 500 includes a cluster ID field 501, a collected data ID list field 502, a collected data number field 503, an external data ID list field 504, an external data number field 505, a cluster feature word list field 506, Have An entry that is a set of values of each field in the same row constitutes a cluster k in the clustering result.
  • the cluster ID field 501 is a storage area for storing a cluster ID.
  • the cluster ID 501 is identification information that uniquely identifies the cluster k.
  • the collected data ID list field 502 is a storage area for storing the collected data ID list.
  • the collection data ID list 502 is a set of collection data IDs 301 of collection data of each collection data group included in the cluster k of the cluster ID 501.
  • the collected data number field 503 is a storage area for storing the number of collected data.
  • the number of collected data 503 (n c, k ) is the number of collected data IDs 301 included in the collected data ID list 502.
  • the external data ID list field 504 is a storage area for storing an external data ID list.
  • the external data ID list 504 is a set of external data IDs 401 of external data of each external data group included in the cluster k of the cluster ID 501.
  • the external data number field 505 is a storage area for storing the number of external data.
  • the number of external data 505 (no , k ) is the number of external data IDs 401 included in the external data ID list 504.
  • the cluster feature word list field 506 is a storage area for storing a cluster feature word list.
  • the cluster feature word list 506 is a set of cluster feature words included in the document data group in the cluster k with the cluster ID 501.
  • the cluster feature word is a word representing a feature common to the collected data and external data included in the cluster k. Specifically, for example, words that frequently appear in document data belonging to the cluster k are stored.
  • the word “IoT” is included in the text 303 of the collected data whose collected data ID 301 is “1” and “3” in FIG.
  • the external data body 403 whose external data ID 401 is “2” also includes the word “IoT”. That is, since the collection data whose collection data ID 301 is “1” and “3” and the external data whose external data ID 401 is “2” both deal with topics related to “IoT”, the cluster ID 501 in FIG. Belong to the same cluster with "1".
  • FIG. 6 is an explanatory diagram showing an example of the contents stored in the complementary score storage DB.
  • the complementary score storage DB 600 is a database that stores various complementary scores for each cluster k.
  • the complementary score storage DB 600 includes a cluster ID field 601, a topic complementary score field 602, a segmented complementary score field 603, and an integrated complementary score field 604. An entry that is a set of values of each field in the same row constitutes each complementary score of cluster k.
  • the cluster ID field 601 is a storage area for storing a cluster ID.
  • Topics complementing score field 602, as described in formula in Figure 1 (1) a storage area for storing a topic complementary score S t, k of clusters k cluster ID 601.
  • the segment complement score field 603 is a storage area for storing the segment complement score S d, k of the cluster k of the cluster ID 601.
  • the segment complementation score 603 (S d, k ) will be described later.
  • the integrated complementary score field 604 is a storage area for storing the integrated complementary score. The integrated complement score 604 will also be described later.
  • FIG. 7 is an explanatory diagram showing an example of the contents stored in the classification model storage DB 700.
  • the classification model storage DB 700 is a database that stores classification models.
  • the classification model is constructed using teacher data.
  • the classification model is a model for classifying to which category 304 and time 305 external data belongs.
  • As a technique for constructing such a classification model there is a technique such as SVM (Support Vector Machine).
  • the classification model storage DB 700 has a model type field 701 and a parameter field 702.
  • the model type field 701 is a storage area for storing the model type (for example, linear SVM) of the classification model to be applied.
  • the parameter 702 is a vector estimated when the classification model of the model type 701 is applied.
  • FIG. 8 is an explanatory diagram showing an example of stored contents of the external data classification result storage DB.
  • the external data classification result storage DB 800 is a database that stores classification results of external data based on a classification model.
  • the external data classification result storage DB 800 includes an external data ID field 801, a category estimation result field 802, and a time estimation result field 803. An entry that is a set of values of each field in the same row constitutes an external data classification result.
  • External data ID field 801 is a storage area for storing an external data ID.
  • the category estimation result field 802 is a storage area for storing a category estimation result.
  • the category estimation result 802 is an estimation result based on the classification model of the category to which the external data with the external data ID 801 belongs.
  • the timing estimation result field 803 is a storage area for storing a timing estimation result.
  • the time estimation result 803 is an estimation result based on the classification model of the time specified by the industry trend related to the external data of the external data ID 801.
  • FIG. 9 is an explanatory diagram of an example of the contents stored in the category shortage score storage DB.
  • the insufficient category score storage DB 900 is a database that stores the insufficient category score U d, ij for each category ij.
  • the classification shortage score storage DB 900 has a classification field 901 and a classification shortage score field 902. An entry that is a set of values of each field in the same row constitutes a category shortage score U d, ij for each category ij.
  • the partition field 901 is a storage area for storing the partition ij.
  • the category 901 (ij) is a combination of a category and a time as described with reference to FIG.
  • the division shortage score field 902 is a storage area for storing the division shortage score U d, ij of the division 901 (ij).
  • FIG. 10 is a block diagram illustrating a functional configuration example of the analysis support apparatus 200.
  • the analysis support apparatus 200 includes an acquisition unit 1001, a generation unit 1002, a construction unit 1003, a specification unit 1004, a sorting unit 1005, and an output unit 1006. Specifically, for example, these functions are realized by causing the processor 201 to execute a program stored in the storage device 202 illustrated in FIG. 2.
  • the acquisition unit 1001 includes a collected data acquisition unit 1011 and an external data acquisition unit 1012.
  • the collected data acquisition unit 1011 acquires the collected data as shown in FIG. 1 and stores it in the collected data storage DB 4. Moreover, the collection data acquisition part 1011 will acquire a collection data group from collection data storage DB4, if an analysis start trigger is received.
  • the external data acquisition unit 1012 acquires external data as shown in FIG. 1 and stores it in the external data storage DB 6. Moreover, the external data acquisition part 1012 will acquire an external data group from external data storage DB6, if an analysis start trigger is received.
  • the generating unit 1002 generates a feature quantity related to a word common to the teacher data 1010 for each external data of the external data group acquired by the external data acquiring unit 1012.
  • the teacher data 1010 is document data including a body text 303, a category 304, and a time 305, similar to the collected data.
  • the teacher data 1010 may be certain collected data selected from the collected data group or arbitrarily created document data.
  • the feature amount is a vector obtained by performing language analysis on the text of the teacher data 1010 and the text 303 of the external data. For example, when the collected data is the teacher data 1010, the generation unit 1002 applies morpheme analysis to the body 303 of the collected data, and totals a set including the appearing nouns and the number of appearances. Then, the generation unit 1002 uses the data obtained by vectorizing a set of the appearing nouns and the number of appearances as a feature amount. Further, the generation unit 1002 may generate a feature amount using a TF-IDF value instead of the number of appearances.
  • the construction unit 1003 uses the category and time included in the teacher data 1010 and the feature amount generated by the generation unit 1002 to use the category to which the external data belongs and the time specified by the content of the body of the external data. , Construct a classification model.
  • the classification model is a model that classifies to which category 304 and time 305 external data belongs by using a feature amount as an input.
  • a technique for constructing such a classification model a technique such as SVM (Support Vector Machine) is known.
  • SVM Small Vector Machine
  • the construction unit 1003 constructs a classification model using these known techniques.
  • the construction unit 1003 stores the classification model in the classification model storage DB 700.
  • the classification model is a linear SVM
  • the input of the classification model is a feature amount generated by the generation unit 1002
  • the output of the classification model is the category 304 and the time 305 to which the external data belongs.
  • the classification model is expressed by the following equation (3).
  • x is a feature amount of external data
  • w h Is a parameter vector of the classification model
  • y is an estimation result of the category 304 or the time 305.
  • Construction unit 1003 gives the feature amount of external data x of formula (3), by giving the category or period of teacher data 1010 to y, obtaining the parameter vector w h per external data.
  • the identifying unit 1004 identifies the category and time of the external data by giving the feature quantity of the external data to the classification model constructed by the constructing unit 1003. That is, for each external data, the specifying unit 1004 outputs a feature amount of the external data to a classification model having a parameter vector corresponding to the external data, thereby outputting the external data category or time. For each external data, the specifying unit 1004 stores the external data category as the category estimation result 802 and the external data time as the time estimation result 803 in the external data classification result storage DB 800.
  • the sorting unit 1005 classifies the collected data group and the external data group for each category that is a combination of the same category and the same time, and generates a classification result 10. Specifically, for example, as illustrated in FIG. 1, the sorting unit 1005 classifies the collected data group and the external data group for each section ij. Details of the sorting unit 1005 will be described with reference to FIG.
  • the output unit 1006 outputs the sorting result 10 by the sorting unit 1005. Specifically, for example, the output unit 1006 controls the display screen of a display device that is an example of the output device 204 and displays the classification result 10. For example, as shown in FIG. 1, the segmentation result 10 is display information including a symbol image of collected data and a symbol image of external data for each segment ij. Further, the output unit 1006 may transmit the classification result 10 to an external device. For example, if the analysis support apparatus 200 is the computer 5, the classification result 10 may be transmitted to the terminal 2 of the user 1. If the analysis support apparatus 200 is the terminal 2 of the user 1, the classification result 10 is transmitted to the computer 5. You may send it.
  • FIG. 11 is a block diagram showing a detailed functional configuration example of the dividing unit and the sorting unit 1005 shown in FIG. Specifically, the dividing unit 1100 also realizes its function by causing the processor 201 to execute a program stored in the storage device 202 illustrated in FIG. 2, for example.
  • the dividing unit 1100 divides the collected data group and the external data group into a plurality of clusters such that each cluster is a document data group with similar topics.
  • the document data group having similar topics is a document data group including frequently appearing words, that is, cluster feature words. More specifically, for example, the dividing unit 1100 clusters the document data into a plurality of clusters based on the similarity of the text of the document data.
  • the dividing unit 1100 stores the clustering result in the clustering result storage DB 500.
  • methods for realizing clustering methods such as the k-means method and the Ward method are known, and the dividing unit 1100 performs clustering using these known methods.
  • the sorting unit 1005 includes a category shortage score calculation unit 1151, a category supplement score calculation unit 1153, a topic supplement score calculation unit 1152, and a total complement score calculation unit 1154.
  • the category shortage score calculation unit 1151 calculates a category shortage score U d, ij that indicates a lack rate of collected data in the category ij based on the number of collected data in the category ij and the number of external data. Output as a segmentation result 10. Specifically, for example, the classification shortage score calculation unit 1151 calculates the classification shortage score U d, ij for each classification ij by the equation (2) shown in FIG.
  • the segment complementation score calculation unit 1153 calculates the segment complementation score S d, k based on the segment shortage score U d, ij and the number of external data belonging to the cluster k in the segment ij.
  • the segment complementation score S d, k indicates how much external data belonging to the cluster k is included in the segment ij according to the height of the segment shortage score U d, ij .
  • the segment complementation score calculation unit 1153 stores the calculated segment complementation score S d, k in the complementation score storage DB 600.
  • the segment complementation score S d, k is a score for the cluster k , and indicates how much the cluster k is related to a segment with a large segment shortage score U d, ij .
  • the division complement score S d, k in the cluster k is expressed by the following formula (4).
  • no, ij, k is the number of external data 505 belonging to the cluster k in the section ij. That is, the segment complementation score S d, k can be regarded as the sum of the number of external data 505 belonging to the cluster k weighted by the segment shortage score for each segment ij. That is, the cluster k having a large segment complementation score S d, k includes a lot of external data in the segment ij having a large segment insufficient score U d, ij . Therefore, the segment complementation score S d, k suggests that additional information collection is necessary for the external data belonging to the cluster k.
  • the topic complementation score calculation unit 1152 calculates a topic complementation score St, k indicating how much collected data has been collected with respect to the topics handled in the cluster k, based on the number of collected data and the number of external data in the cluster k. calculate.
  • the topic complementation score calculation unit 1152 stores the calculated topic complementation score St, k in the complementation score storage DB 600.
  • the comprehensive complement score calculation unit 1154 calculates a comprehensive complement score indicating the necessity of complementing the external data group included in the cluster k based on the topic complement score St, k and the segmented complement score S d, k. To do.
  • the comprehensive complement score calculation unit 1154 stores the calculated total complement score in the complement score storage DB 600.
  • the comprehensive complement score is an index value indicating whether or not external data included in the cluster k needs to be supplemented for each cluster k. For example, as shown in FIG. 6, the total complement score calculation unit 1154 normalizes the topic complement score St, k and the segment complement score S d, k in the range of 0 to 1, respectively.
  • the total complement score calculation unit 1154 calculates the average value of the normalized topic complement score St, k and the segment complement score S d, k for each cluster k.
  • the calculated average value is the total complement score of the cluster k.
  • the total complement score is an average value, it may be a higher value or a lower value of the normalized topic complement score St, k and the segment complement score S d, k .
  • FIG. 12 is an explanatory diagram illustrating an example of a collected data input screen.
  • the collected data input screen 1200 is a screen that is displayed on the display device by the collected data acquisition unit 1011 according to the operation of the user 1.
  • the analysis support apparatus 200 acquires the data input on the screen as collected data and stores it in the collected data storage DB 4.
  • the collected data input screen 1200 includes a title input area 1201, a text input area 1202, a category input area 1203, a time input area 1204, a source input area 1205, and a registration execution area 1206.
  • the title input area 1201 receives input of the title 302 of collected data from the user 1.
  • the text input area 1202 accepts input of the text 303 of collected data from the user 1.
  • the category input area 1203 accepts input of the collected data category 304 from the user 1.
  • the time input area 1204 accepts input of collected data time 305 from the user 1.
  • the source input area 1205 receives input of the source 306 of collected data from the user 1.
  • the registration execution area 1206 receives a collection data registration instruction from the user 1 and stores the input contents of the input areas 1201 to 1205 in the collection data storage DB 4 as collection data.
  • a title input area 1201, a body text input area 1202, a time input area 1204, and a source input area 1205 are text boxes
  • a category input area 1203 is a pull-down menu
  • a registration execution area 1206 is a button.
  • FIG. 13 is a diagram illustrating an example of a collected data display screen.
  • the collected data display screen 1300 is a screen on which the output unit 1006 controls the display device and refers to the collected data storage DB 4 and the clustering result storage DB 500 to display a list of collected data.
  • the collected data display screen 1300 displays character strings 1301 to 1303 of the title 302 of the collected data for each category ij.
  • the collected data display screen 1300 displays information on the cluster k to which the collected data belongs together. For example, the collected data display screen 1300 displays the collected data 1302 and 1303 belonging to the same cluster k connected by a line 1304. The collected data display screen 1300 displays the character string 1305 of the cluster feature word list 506 in association with the cluster k. By displaying the character strings 1301 to 1303 on the collected data display screen 1300, the user 1 can confirm the collected collected data in association with the category ij. Further, the display of the line 1304 and the character string 1305 allows the user 1 to list the collected data belonging to the same cluster k, and further confirms what topics are handled in the cluster k. .
  • FIG. 14 is a diagram illustrating an example of an external data display screen.
  • the output unit 1006 controls the display device, refers to the external data storage DB 6, the clustering result storage DB 500, and the complementary score storage DB 600, and displays external data that complements the collected data. It is a screen.
  • the external data display screen 1400 displays a list of cluster information 1401 and 1402 related to external data to which each cluster k belongs.
  • the cluster information 1401 and 1402 are displayed according to the values of the comprehensive complement score, the topic complement score St, k , and the segment complement score Sd, k .
  • the comprehensive complement scores 1411 and 1412 are displayed from left to right in descending order.
  • topic complementary score S t, k and division complements score S d may display the cluster information 1401 and 1402 in response to one of the values of k.
  • the cluster information 1401 and 1402 displays character strings 1421 to 1423 of the title 302 of the external data. Furthermore, the external data display screen 1400 displays total complement scores 1411 and 1412 (for example, the number of stars). Further, the external data display screen 1400 displays character strings 1413 and 1414 of the cluster feature word list 506. Further, the external data display screen 1400 displays character strings 1415 and 1416 of the category 304 related to the cluster k.
  • the external data display screen 1400 further displays the external data category estimation results 802 included in the cluster k and the collected data categories 304 in order from the category 304 with the largest total number. Further, the external data display screen 1400 displays character strings 1417 and 1418 of the time 305 related to the cluster k. For example, the external data display screen 1400 further displays the time estimation result 803 of the external data included in the cluster k and the time 305 of the collected data in order from the time 305 in which the total number is large.
  • the user 1 can confirm the external data for each cluster k, and thereby can list and confirm external data related to similar topics.
  • the user 1 can overview the topics and related categories handled in each cluster k. Further, by displaying the clusters in descending order of the comprehensive complement score, the user 1 can preferentially confirm the contents from the external data that needs to be complemented in the collected data.
  • the user 1 can newly add external data such as “Development of processing technology by 3D printer” included in the cluster k to the collected data.
  • FIG. 15 is an explanatory diagram illustrating an example of a data collection status display screen.
  • the output unit 1006 controls the display device to display the document data stored in the collected data storage DB 4 and the external data storage DB 6 in association with the category ij to which the document data belongs. It is a screen.
  • the data collection status display screen 1500 displays, in the display area for each section ij, the section shortage score U d, ij for each section ij with reference to the section shortage score storage DB 900. Further, the display area of the section ij having a large section shortage score may be displayed as a key.
  • the data collection status display screen 1500 allows the user 1 to check the distribution of the collected data and the external data for each category ij, and to specify the category ij for which the collected data is insufficient.
  • FIG. 16 is an explanatory diagram illustrating an example of a category-related cluster display screen.
  • the category-related cluster display screen 1600 is a screen that the output unit 1006 displays by controlling the display device.
  • the category-related cluster display screen 1600 includes a category selection unit 1601 and a category-related cluster display area 1602.
  • the category selection unit 1601 selects which category ij to display the cluster k.
  • the category selection unit 1601 is a pull-down menu.
  • the category-related cluster display area 1602 displays, for the category ij selected by the category selection unit 1601, a cluster k in which document data belonging to the category ij exists.
  • the classification related cluster display area 1602 displays information about the cluster k from the top to the bottom in descending order of the total complement score.
  • the category-related cluster display screen 1600 allows the user 1 to confirm a cluster related to a category with a high category shortage score U d, ij .
  • the display of the data collection status display screen 1500 shows that the user 1 has a high category shortage score U d, ij for the category [category: technology, time: near future], and the collected data in the category is insufficient. .
  • the analysis support apparatus 200 stores the collected data storage DB 4 and the external data classification result storage.
  • a document data group that matches the selected category is specified.
  • the analysis support apparatus 200 refers to the clustering result storage DB 500 and identifies a cluster k that includes the identified document data group. Then, the analysis support apparatus 200 causes the output unit 1006 to display information on the identified cluster k on the classification related cluster display screen 1600. Specifically, for example, the category-related cluster display screen 1600 displays related clusters k in descending order of the comprehensive complement score. For example, the total complement score of cluster k regarding “3D printer” is large. Therefore, the user 1 can supplement the data related to the category [category: technology, time: near future] by adding the external data included in the cluster k to the collected data.
  • FIG. 17 is a flowchart illustrating an example of an analysis support processing procedure performed by the analysis support apparatus 200.
  • the analysis support apparatus 200 acquires a collection data group and an external data group by the acquisition unit 1001 (step S1701).
  • the analysis support apparatus 200 uses the dividing unit 1100 to cluster the acquired collection data group and the external data group (step S1702).
  • analysis support apparatus 200, the topic complementary score calculating unit 1152, for each cluster k, topic complementary score S t calculates the k (step S1703).
  • the external data classification process is a process of building a classification model and obtaining a category estimation result 802 and a timing estimation result 803 for each external data. Details of the external data classification process (step S1704) will be described later with reference to FIG.
  • the analysis support apparatus 200 calculates the segment complementation score S d, k by using the segment complementation score calculation unit 1153 to tabulate the number of document data of each segment ij (step S1705).
  • the analysis support apparatus 200 calculates the segment supplement score by the segment supplement score calculation unit 1153 (step S1706).
  • the analysis support apparatus 200 calculates the total complement score by the total complement score calculation unit 1154 (step S1707).
  • the analysis support apparatus 200 outputs a display screen as shown in FIGS. 13 to 16 using the calculation results obtained so far (step S1708). Thereby, the analysis support apparatus 200 ends the analysis support process.
  • FIG. 18 is a flowchart showing a detailed processing procedure example of the external data classification processing (step S1704) shown in FIG.
  • the analysis support apparatus 200 reads the teacher data 1010 using the generation unit 1002 (step S1801), and generates a feature amount for each external data (step S1802).
  • the analysis support apparatus 200 constructs a classification model by the construction unit 1003 (step S1803), identifies a category and time for each external data by the identifying unit 1004, and determines a category estimation result 802 and a time estimation result 803. Is stored in the external data classification result storage DB 800 (step S1804). Thereafter, the process proceeds to step S1705.
  • the analysis support apparatus 200 classifies the collected data group and the external data group for each category that is a combination of the same category and the same period. Thereby, the analysis support apparatus 200 can present external data that complements the collected data group collected by the user 1 from the collected external data in the trend analysis. In other words, it is possible to present which collected data and external data exist in which category ij. As a result, it is possible to suppress omissions in trend analysis by complementing the data collected manually by the user 1. Therefore, the efficiency of trend analysis can be improved.
  • the above classification by calculating the classification shortage score from the number of collection data in the classification ij and the number of external data, it is possible to present the user 1 with the collection data shortage ratio in the classification ij. As a result, it is possible to suppress omissions in trend analysis by complementing the data collected manually by the user 1.
  • the topic complement score St, k can be regarded as the ratio of external data to all document data belonging to the cluster k. Therefore, it can be seen that there is more external data than the collected data for the topics handled in the cluster k having a large topic complement score St, k . For this reason, it is understood that additional information collection is necessary for the cluster k having a large topic complement score St, k .
  • the necessity of complementing the collected data group in the cluster k can be presented.
  • the user 1 identifies document data to be confirmed from a large amount of external data, and performs an efficient trend analysis by reducing the amount of document data to be confirmed. Can do.
  • information about the cluster k feature words indicating the topic of the cluster k, the category of the external data belonging to the cluster k, the time of the external data belonging to the cluster k, and information specifying the external data belonging to the cluster k (for example, By outputting at least one of the titles), it is possible to present to the user 1 what document data group the presented cluster k is.
  • the document included in the section ij selected by the user 1 It is possible to present to the user 1 what document data group the cluster k to which the data belongs is.
  • the analysis support apparatus 200 acquires a document data group (for example, a collected data group) by the acquisition unit 1001, and classifies the document data group for each category that is a combination of the same category and the same time by the classification unit 1005. Then, the dividing unit 1100 divides the document data group into a plurality of clusters so that each cluster becomes a document data group having similar topics, and the output unit 1006 converts the classification result by the dividing unit 1005 into the same cluster. And document data belonging to different categories may be output in association with each other.
  • a document data group for example, a collected data group
  • collected data belonging to different categories are associated with each other. Therefore, the user 1 can specify the collected data that is different in the section ij but has the same cluster k.
  • the present invention is not limited to the above-described embodiments, and includes various modifications and equivalent configurations within the scope of the appended claims.
  • the above-described embodiments have been described in detail for easy understanding of the present invention, and the present invention is not necessarily limited to those having all the configurations described.
  • a part of the configuration of one embodiment may be replaced with the configuration of another embodiment.
  • each of the above-described configurations, functions, processing units, processing means, etc. may be realized in hardware by designing a part or all of them, for example, with an integrated circuit, and the processor realizes each function. It may be realized by software by interpreting and executing the program to be executed.
  • Information such as programs, tables, and files for realizing each function is recorded on a memory, a hard disk, a storage device such as SSD (Solid State Drive), or an IC (Integrated Circuit) card, SD card, DVD (Digital Versatile Disc). It can be stored on a medium.
  • SSD Solid State Drive
  • IC Integrated Circuit
  • SD card Digital Card
  • DVD Digital Versatile Disc
  • control lines and information lines indicate what is considered necessary for the explanation, and do not necessarily indicate all control lines and information lines necessary for mounting. In practice, it can be considered that almost all the components are connected to each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

分析支援装置は、プロセッサと、記憶デバイスと、外部装置と通信する通信インタフェースと、を有する。記憶デバイス又は外部装置は、第1及び第2文書データ群を記憶し、第1文書データは、第1本文と第1カテゴリと第1本文の内容により特定される第1時期とを含み、第2文書データは第2本文を含む。プロセッサは、第1及び第2文書データ群を取得し、第2文書データについて教師データとの間で共通する単語に関する特徴量を生成し、教師データに含まれる第1カテゴリ及び第1時期と特徴量とを用いて、第2文書データが属する第2カテゴリと、第2本文の内容により特定される第2時期と、を求める分類モデルを構築し、第2文書データの特徴量を、分類モデルに与え、第2文書データの第2カテゴリ及び第2時期を特定し、第1及び第2文書データ群を、同一カテゴリ及び同一時期の組み合わせとなる区分ごとに区分けし、区分け結果を出力する。

Description

分析支援装置、分析支援方法、および分析支援プログラム
 本発明は、動向の分析を支援する分析支援装置、分析支援方法、および分析支援プログラムに関する。
 ニュース記事や技術文書のような業界動向に関する文書に基づいて、将来の業界動向の推移を分析する技術がある。たとえば、このような技術に基づいて、将来の業界動向の推移を分析すること、および、分析結果をマーケティングの事業企画の立案に活用することは、業界動向の変化に合致した収益性の高い事業を立ち上げることを可能にする。
 手作業で文書から将来の業界動向の推移を分析する取り組みがある。たとえば、PESTLE分析とよばれる方法は、官公庁資料やニュース記事などの文書から、政治、経済、社会、技術、法律、および環境のカテゴリ毎に業界に影響を与える外部要因を抽出し、業界動向の推移を分析する。しかし、PESTLE分析のような手作業による分析は、大量の文書を手作業で確認しなければならず、多くの工数がかかる。また、手作業による分析は、着目すべき外部要因の抜け漏れ等、分析者による分析の質のばらつきが発生する。そのため、分析における工数削減及び質の確保を目的として、文書からの業界動向の推移分析を支援する技術が求められる。
 特許文献1は、これらの業界動向の推移分析を自動化する技術を開示する。具体的には、特許文献1は、特定分野における技術動向の推移を分析する。特許文献1は、技術文書に記載された技術によって実現される内容を技術表現として抽出する。特許文献1は、抽出した各技術表現を、実現にかかる時間を示す時間軸とビジネスにもたらす影響度を示す影響度軸の2軸を持つ技術マップ上に配置して、表示する。
特開2008-282222号公報
 特許文献1の技術において大量の文書を対象として分析した場合、マップに配置される情報も大量となる。したがって、配置された情報を確認するための工数が増大する。また、配置された情報の確認漏れにより、着目すべき業界動向の変化を見逃す可能性がある。
 本発明は、かかる問題を解決するためになされたものであり、動向分析の効率化を図ることを目的とする。
 本願において開示される発明の一側面となる分析支援装置、分析支援方法、および分析支援プログラムは、プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置、当該分析支援装置による分析支援方法、および、前記プロセッサに実行させる分析支援プログラムである。
 前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、前記第2文書データ群の各第2文書データは、第2本文を含む。
 前記プロセッサは、前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、前記区分け処理による区分け結果を出力する出力処理と、を実行することを特徴とする。
 本発明の代表的な実施の形態によれば、動向分析の効率化を図ることができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。
図1は、分析支援例を示す説明図である。 図2は、分析支援装置のハードウェア構成例を示すブロック図である。 図3は、収集データ格納DBの記憶内容例を示す説明図である。 図4は、外部データ格納DBの記憶内容例を示す説明図である。 図5は、クラスタリング結果格納DBの記憶内容例を示す説明図である。 図6は、補完スコア格納DBの記憶内容例を示す説明図である。 図7は、分類モデル格納DBの記憶内容例を示す説明図である。 図8は、外部データ分類結果格納DBの記憶内容例を示す説明図である。 図9は、区分不足スコア格納DBの記憶内容例を示す説明図である。 図10は、分析支援装置の機能的構成例を示すブロック図である。 図11は、分割部および図10に示した区分け部の詳細な機能的構成例を示すブロック図である。 図12は、収集データ入力画面例を示す説明図である。 図13は、収集データ表示画面例を示す図である。 図14は、外部データ表示画面例を示す図である。 図15は、データ収集状況表示画面例を示す説明図である。 図16は、区分関連クラスタ表示画面例を示す説明図である。 図17は、分析支援装置による分析支援処理手順例を示すフローチャートである。 図18は、図17に示した外部データ分類処理(ステップS1704)の詳細な処理手順例を示すフローチャートである。
 <分析支援例>
 図1は、分析支援例を示す説明図である。本実施例において用いられるデータには、収集データと、外部データと、がある。収集データとは、ユーザ1が収集した業界動向に関する文書データであり、たとえば、ニュース記事データ、Webページ、電子書籍である。収集データは、本文と、当該収集データが属するカテゴリと、本文の内容(たとえば、本文が関連する動向)により特定される時期と、を含む。ユーザ1は、ユーザ1の端末2を操作して、インターネットなどのネットワーク3から文書データを収集データとして収集する。収集データ群は、収集データ格納DB(Database)4に格納される。
 外部データとは、計算機5が収集した業界動向に関する文書データであり、たとえば、ニュース記事データ、Webページ、電子書籍である。外部データは、本文を含み、当該外部データが属するカテゴリと、本文の内容により特定される時期と、は未定である。計算機5は、予め定められたURL(Uniform Resource Locator)リストを読み込み、URLリストに記載された文書データを外部データとして収集する。また、計算機5は、URLリストに記載された文書データ群のうち、予め定められたキーワードを含む文書データを外部データとして収集してもよい。外部データ群は、外部データ格納DB6に格納される。なお、外部データであっても、ユーザ1により分析済みとなった文書データについては、ユーザ1の収集データとしてもよい。
 計算機5は、収集データ群と外部データ群を混合し、混合した文書データ群を、類似しあう文書データ群ごとにクラスタリングする。そして、計算機5は、式(1)により、クラスタk(kは、1以上の整数)ごとに話題補完スコアSt,kを算出する。話題補完スコアSt,kは、クラスタkに対するスコアであり、クラスタkで扱われている話題に関して収集データがどの程度多く集まっているかを示す値である。なお、nc,kはクラスタkにおける収集データ数であり、no,kはクラスタkにおける外部データ数である。
 話題補完スコアSt,kは、クラスタkに所属する全文書データに対する外部データの割合である。したがって、話題補完スコアSt,kが大きいクラスタkで扱われている話題について、クラスタkは、収集データに比べて外部データを多く含む。このため、話題補完スコアSt,kが大きいクラスタkには、追加の文書データ収集が必要となる。
 また、計算機5は、区分け結果10を生成する。具体的には、たとえば、計算機5は、区分ijごとに、区分不足スコアUd,ijを算出する。ここで、区分ijとは、カテゴリ(iをインデックスとする)の1つと、時期(jをインデックスとする)の中の1期間と、の組み合わせである。たとえば、カテゴリが、政治、経済、社会、技術の4種類(i=4)を含み、時期が、直近(2015年~2017年)、近い未来(2018年~2020年)、遠い未来(2021年~)の3つの期間(j=3)を含む場合、12通りの区分ijが存在する。計算機5は、区分ijごとに、収集データ数と外部データ数とを集計し、集計した区分ijごとに、収集データ数と外部データ数とを用いて、式(2)により、区分ijごとの区分不足スコアUd,ijを算出する。
 区分不足スコアUd,ijは、区分ijに含まれる全文書データに対する、外部データの割合である。すなわち、区分不足スコアUd,ijが大きい区分ijについては、収集データに比べて外部データが多く存在しており、追加の文書データ収集が必要となる。区分不足スコアUd,ijは区分ijに所属する全文書データにおける、外部データの割合とみなせる。なお、nc,ijは区分ijにおける収集データ数であり、no,ijは区分ijにおける外部データ数である。
 このように、本実施例の計算機5は、話題補完スコアSt,kを算出することにより、ユーザ1は、クラスタkごとに、追加の文書データ収集が必要となるか否かを判断することができる。したがって、ユーザ1は、文書データが不足しているクラスタkについて文書データの追加収集を行って、不足分を充足することができる。これにより、文書データの抜け漏れを抑制し、動向分析の効率化を図ることができる。
 また、本実施例の計算機5は、区分不足スコアUd,ijを算出することにより、ユーザ1は、区分ijごとに、追加の文書データ収集が必要となるか否かを判断することができる。したがって、ユーザ1は、文書データが不足している区分ijについて文書データの追加収集を行って。不足分を充足することができる。これにより、文書データの抜けもれを抑制し、動向分析の効率化を図ることができる。
 なお、上述では、計算機5が動向の分析支援を実行する例について説明したが、ユーザ1の端末2が動向の分析支援を実行してもよい。以降、本実施例の分析支援プログラムがインストールされた端末2または計算機5を、分析支援装置と称す。
 <分析支援装置のハードウェア構成例>
 図2は、分析支援装置のハードウェア構成例を示すブロック図である。分析支援装置200は、プロセッサ201と、記憶デバイス202と、入力デバイス203と、出力デバイス204と、通信インターフェース(通信IF205)と、を有する。プロセッサ201、記憶デバイス202、入力デバイス203、出力デバイス204、および通信IF205は、バス206により接続される。プロセッサ201は、分析支援装置200を制御する。記憶デバイス202は、プロセッサ201の作業エリアとなる。また、記憶デバイス202は、各種プログラムやデータを記憶する非一時的なまたは一時的な記録媒体である。記憶デバイス202としては、たとえば、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、フラッシュメモリがある。入力デバイス203は、データを入力する。入力デバイス203としては、たとえば、キーボード、マウス、タッチパネル、テンキー、スキャナがある。出力デバイス204は、データを出力する。出力デバイス204としては、たとえば、ディスプレイ、プリンタがある。通信IF205は、ネットワーク3と接続し、データを送受信する。
 <データベースの記憶内容例>
 つぎに、分析支援装置200がアクセス可能な各種データベースについて説明する。なお、これらのデータベースは、分析支援装置200の記憶デバイス202に記憶されていてもよい。また、分析支援装置200と通信可能な外部装置に記憶されており、分析支援装置200は、通信IF205を介して当該外部装置にアクセス可能としてもよい。なお、以降のデータベースまたはテーブルの説明において、AAフィールドbbb(AAはフィールド名、bbbは符号)の値を、AAbbbと表記する場合がある。たとえば、収集データIDフィールド301の値を、収集データID301と表記する。
 図3は、収集データ格納DB4の記憶内容例を示す説明図である。収集データ格納DB4は、収集データを格納するデータベースである。収集データ格納DB4は、収集データIDフィールド301と、タイトルフィールド302と、本文フィールド303と、カテゴリフィールド304と、時期フィールド305と、出典フィールド306と、を有する。同一行の各フィールドの値の集合であるエントリが、収集データを構成する。
 収集データIDフィールド301は、収集データIDを格納する記憶領域である。収集データID301は、収集データを一意に特定する識別情報である。タイトルフィールド302は、収集データのタイトルを格納する記憶領域である。本文フィールド303は、収集データの本文を格納する記憶領域である。カテゴリフィールド304は、収集データのカテゴリを格納する記憶領域である。時期フィールド305は、収集データが関連する業界動向により特定される時期を格納する記憶領域である。出典フィールド306は、収集データの出典を格納する記憶領域である。
 図4は、外部データ格納DB6の記憶内容例を示す説明図である。外部データ格納DB6は、外部データを格納するデータベースである。外部データ格納DB6は、外部データIDフィールド401と、タイトルフィールド402と、本文フィールド403と、出典フィールド404と、を有する。同一行の各フィールドの値の集合であるエントリが、外部データを構成する。
 外部データIDフィールド401は、外部データIDを格納する記憶領域である。外部データID401は、外部データを一意に特定する識別情報である。タイトルフィールド402は、外部データのタイトルを格納する記憶領域である。本文フィールド403は、外部データの本文を格納する記憶領域である。出典フィールド404は、外部データの出典を格納する記憶領域である。
 図5は、クラスタリング結果格納DB500の記憶内容例を示す説明図である。クラスタリング結果格納DB500は、図1で説明したように、収集データ群と外部データ群を混合した文書データ群を、類似しあう文書データ群ごとにクラスタリングしたクラスタリング結果を格納するデータベースである。
 クラスタリング結果格納DB500は、クラスタIDフィールド501と、収集データIDリストフィールド502と、収集データ数フィールド503と、外部データIDリストフィールド504と、外部データ数フィールド505と、クラスタ特徴語リストフィールド506と、を有する。同一行の各フィールドの値の集合であるエントリが、クラスタリング結果内のクラスタkを構成する。
 クラスタIDフィールド501は、クラスタIDを格納する記憶領域である。クラスタID501は、クラスタkを一意に特定する識別情報である。収集データIDリストフィールド502は、収集データIDリストを格納する記憶領域である。収集データIDリスト502は、クラスタID501のクラスタkに含まれる収集データ群の各々の収集データの収集データID301の集合である。収集データ数フィールド503は、収集データ数を格納する記憶領域である。収集データ数503(nc,k)は、収集データIDリスト502に含まれる収集データID301の個数となる。
 外部データIDリストフィールド504は、外部データIDリストを格納する記憶領域である。外部データIDリスト504は、クラスタID501のクラスタkに含まれる外部データ群の各々の外部データの外部データID401の集合である。外部データ数フィールド505は、外部データ数を格納する記憶領域である。外部データ数505(no,k)は、外部データIDリスト504に含まれる外部データID401の個数となる。
 クラスタ特徴語リストフィールド506は、クラスタ特徴語リストを格納する記憶領域である。クラスタ特徴語リスト506は、クラスタID501のクラスタk内の文書データ群に含まれるクラスタ特徴語の集合である。クラスタ特徴語は、そのクラスタkに含まれる収集データおよび外部データに共通する特徴を表す単語である。具体的には、たとえば、そのクラスタkに所属する文書データに共通して頻出する単語が格納される。
 たとえば、図3において収集データID301が「1」、「3」である収集データの本文303には、単語「IoT」が含まれている。また、図4において外部データID401が「2」である外部データの本文403にも単語「IoT」が含まれている。すなわち、収集データID301が「1」、「3」である収集データ、および外部データID401が「2」である外部データは、いずれも「IoT」に関する話題を扱っているため、図5においてクラスタID501が「1」である同一のクラスタに所属する。
 図6は、補完スコア格納DBの記憶内容例を示す説明図である。補完スコア格納DB600は、クラスタkごとの各種補完スコアを格納するデータベースである。補完スコア格納DB600は、クラスタIDフィールド601と、話題補完スコアフィールド602と、区分補完スコアフィールド603と、統合補完スコアフィールド604と、を有する。同一行の各フィールドの値の集合であるエントリが、クラスタkの各補完スコアを構成する。
 クラスタIDフィールド601は、クラスタIDを格納する記憶領域である。話題補完スコアフィールド602は、図1の式(1)で説明したように、クラスタID601のクラスタkの話題補完スコアSt,kを格納する記憶領域である。区分補完スコアフィールド603は、クラスタID601のクラスタkの区分補完スコアSd,kを格納する記憶領域である。区分補完スコア603(Sd,k)については後述する。統合補完スコアフィールド604は、統合補完スコアを格納する記憶領域である。統合補完スコア604についても後述する。
 図7は、分類モデル格納DB700の記憶内容例を示す説明図である。分類モデル格納DB700は、分類モデルを格納するデータベースである。分類モデルは、教師データを用いて構築される。分類モデルは、外部データがどのカテゴリ304および時期305に属するかを分類するモデルである。このような分類モデルを構築する技術として、SVM(Support Vector Machine)のような技術がある。
 分類モデル格納DB700は、モデル種類フィールド701と、パラメータフィールド702と、を有する。モデル種類フィールド701は、適用する分類モデルのモデル種類(たとえば、線形SVM)を格納する記憶領域である。パラメータ702は、モデル種類701の分類モデルを適用した場合に推定されるベクトルである。
 図8は、外部データ分類結果格納DBの記憶内容例を示す説明図である。外部データ分類結果格納DB800は、分類モデルによる外部データの分類結果を格納するデータベースである。外部データ分類結果格納DB800は、外部データIDフィールド801と、カテゴリ推定結果フィールド802と、時期推定結果フィールド803と、を有する。同一行の各フィールドの値の集合であるエントリが、外部データ分類結果を構成する。
 外部データIDフィールド801は、外部データIDを格納する記憶領域である。カテゴリ推定結果フィールド802は、カテゴリ推定結果を格納する記憶領域である。カテゴリ推定結果802は、外部データID801の外部データが属するカテゴリの分類モデルによる推定結果である。時期推定結果フィールド803は、時期推定結果を格納する記憶領域である。時期推定結果803は、外部データID801の外部データが関連する業界動向により特定される時期の分類モデルによる推定結果である。
 図9は、区分不足スコア格納DBの記憶内容例を示す説明図である。区分不足スコア格納DB900は、区分ijごとの区分不足スコアUd,ijを格納するデータベースである。区分不足スコア格納DB900は、区分フィールド901と、区分不足スコアフィールド902と、を有する。同一行の各フィールドの値の集合であるエントリが、区分ijごとの区分不足スコアUd,ijを構成する。区分フィールド901は、区分ijを格納する記憶領域である。区分901(ij)は、図1で説明したように、カテゴリと時期との組み合わせである。区分不足スコアフィールド902は、その区分901(ij)の区分不足スコアUd,ijを格納する記憶領域である。
 <分析支援装置200の機能的構成例>
 図10は、分析支援装置200の機能的構成例を示すブロック図である。分析支援装置200は、取得部1001と、生成部1002と、構築部1003と、特定部1004と、区分け部1005と、出力部1006と、を有する。これらは、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることにより、それらの機能を実現する。
 取得部1001は、収集データ取得部1011と、外部データ取得部1012と、を有する。収集データ取得部1011は、図1に示したように収集データを取得して、収集データ格納DB4に格納する。また、収集データ取得部1011は、分析開始トリガを受け付けると、収集データ格納DB4から収集データ群を取得する。外部データ取得部1012は、図1に示したように外部データを取得して、外部データ格納DB6に格納する。また、外部データ取得部1012は、分析開始トリガを受け付けると、外部データ格納DB6から外部データ群を取得する。
 生成部1002は、外部データ取得部1012によって取得された外部データ群の各々の外部データについて、教師データ1010との間で共通する単語に関する特徴量を生成する。教師データ1010とは、収集データと同様、本文303とカテゴリ304と時期305とを含む文書データである。たとえば、教師データ1010は、収集データ群から選ばれたある収集データでもよく、任意に作成された文書データでもよい。
 また、特徴量とは、教師データ1010の本文および外部データの本文303に対して言語分析を行うことで得られるベクトルである。たとえば、収集データを教師データ1010とした場合、生成部1002は、収集データの本文303に対して形態素解析を適用し、出現した名詞および出現回数からなる組を集計する。そして、生成部1002は、出現した名詞および出現回数の組をベクトル化したデータを特徴量とする。また、生成部1002は、出現回数にかえてTF-IDF値を用いて、特徴量を生成してもよい。
 構築部1003は、教師データ1010に含まれるカテゴリおよび時期と、生成部1002によって生成された特徴量と、を用いて、外部データが属するカテゴリと、外部データの本文の内容により特定される時期と、を求める分類モデルを構築する。具体的には、たとえば、分類モデルは、特徴量を入力として、外部データがどのカテゴリ304および時期305に属するかを分類するモデルである。このような分類モデルを構築する技術として、SVM(Support Vector Machine)等の技術が知られている。構築部1003は、これらの公知の技術を用いて分類モデルを構築する。構築部1003は、分類モデルを、分類モデル格納DB700に格納する。
 ここで、分類モデルが線形SVMである場合を例に挙げて説明する。分類モデルの入力は、生成部1002によって生成された特徴量であり、分類モデルの出力は、外部データの所属するカテゴリ304および時期305である。線形SVMの場合、分類モデルは、下記式(3)で表される。
y=argmax(w・x)・・・(3)
 ここで、xは外部データの特徴量、hはカテゴリ304または時期305に関するインデックス(h=1,…,H、Hはカテゴリ304または時期305の総数、すなわち、外部データ群の総数)、wは分類モデルのパラメータベクトル、yはカテゴリ304または時期305の推定結果である。構築部1003は、式(3)のxに外部データの特徴量を与え、yに教師データ1010のカテゴリまたは時期を与えることにより、外部データごとのパラメータベクトルwを求める。
 特定部1004は、外部データの特徴量を、構築部1003によって構築された分類モデルに与えることにより、外部データのカテゴリおよび時期を特定する。すなわち、特定部1004は、外部データごとに、外部データの特徴量を、その外部データに対応するパラメータベクトルを有する分類モデルに与えることにより、その外部データのカテゴリまたは時期を出力する。特定部1004は、外部データごとに、その外部データのカテゴリをカテゴリ推定結果802として、その外部データの時期を時期推定結果803として、外部データ分類結果格納DB800に格納する。
 区分け部1005は、収集データ群および外部データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けして、区分け結果10を生成する。具体的には、たとえば、図1に示したように、区分け部1005は、区分ijごとに、収集データ群および外部データ群を分類する。区分け部1005の詳細については、図11で説明する。
 出力部1006は、区分け部1005による区分け結果10を出力する。具体的には、たとえば、出力部1006は、出力デバイス204の一例である表示デバイスの表示画面を制御して、区分け結果10を表示する。たとえば、区分け結果10は、図1に示したように、区分ijごとに収集データのシンボル画像と外部データのシンボル画像とを含む表示情報である。また、出力部1006は、区分け結果10を外部装置に送信してもよい。たとえば、分析支援装置200が計算機5であれば、ユーザ1の端末2に区分け結果10を送信してもよく、分析支援装置200がユーザ1の端末2であれば、計算機5に区分け結果10を送信してもよい。
 図11は、分割部および図10に示した区分け部1005の詳細な機能的構成例を示すブロック図である。分割部1100も、具体的には、たとえば、図2に示した記憶デバイス202に記憶されたプログラムをプロセッサ201に実行させることにより、その機能を実現する。
 分割部1100は、収集データ群および外部データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する。話題が類似する文書データ群とは、共通して頻出する単語、すなわち、クラスタ特徴語を含む文書データ群である。より具体的には、たとえば、分割部1100は、文書データの本文の類似度に基づいて文書データを複数のクラスタにクラスタリングする。分割部1100は、クラスタリング結果をクラスタリング結果格納DB500に格納する。クラスタリングを実現する具体的な手法として、k-means法やWard法などの手法が知られており、分割部1100はこれらの公知の手法を用いてクラスタリングする。
 区分け部1005は、区分不足スコア算出部1151と、区分補完スコア算出部1153と、話題補完スコア算出部1152と、総合補完スコア算出部1154と、を有する。
 区分不足スコア算出部1151は、区分ij内の収集データの数と外部データの数と、に基づいて、区分ij内で収集データの不足割合を示す区分不足スコアUd,ijを算出して、区分け結果10として出力する。具体的には、たとえば、区分不足スコア算出部1151は、図1に示した式(2)により、区分ijごとに区分不足スコアUd,ijを算出する。
 区分補完スコア算出部1153は、区分不足スコアUd,ijと、区分ijにおいてクラスタkに属する外部データの数と、に基づいて、区分補完スコアSd,kを算出する。区分補完スコアSd,kは、区分不足スコアUd,ijの高さに応じてクラスタkに属する外部データが区分ijにどの程度含まれているかを示す。区分補完スコア算出部1153は、算出した区分補完スコアSd,kを補完スコア格納DB600に格納する。区分補完スコアSd,kは、クラスタkに対するスコアであり、クラスタkが区分不足スコアUd,ijの大きい区分にどの程度関連するかを示す。たとえば、クラスタkにおける区分補完スコアSd,kは、下記式(4)で表される。
Figure JPOXMLDOC01-appb-M000001
 ここで、no,ij,kは区分ijにおいてクラスタkに所属する外部データ数505である。すなわち、区分補完スコアSd,kは、区分ijごとに区分不足スコアで重みづけた、クラスタkに所属する外部データ数505の和とみなせる。すなわち、区分補完スコアSd,kの大きいクラスタkは、区分不足スコアUd,ijの大きい区分ijに多くの外部データを含んでいる。したがって、区分補完スコアSd,kは、クラスタkに属する外部データについて追加の情報収集が必要であることを示唆する。
 具体的には、たとえば、図6において、クラスタID501が「2」のクラスタkにおいて、区分補完スコアSd,kが他のクラスタkよりも高いことがわかる。このことは、図1に示したように、区分ij=33や区分ij=43のような収集データが不足した区分ijに、当該クラスタkに含まれる外部データが多く所属することを意味する。このことは、カテゴリi毎に将来の動向推移を分析する上で、当該クラスタkの外部データを収集する必要があることを示唆する。
 話題補完スコア算出部1152は、クラスタk内における収集データの数および外部データの数に基づいて、クラスタkで扱われる話題に関して収集データがどの程度収集されたかを示す話題補完スコアSt,kを算出する。話題補完スコア算出部1152は、算出した話題補完スコアSt,kを、補完スコア格納DB600に格納する。話題補完スコアSt,kは、図1の式(1)により算出される。図5において、クラスタID501が「1」であるクラスタkの場合、文書データの総数は5+3=8であり、外部データの数は3であることから、話題補完スコアSt,kは、3/8=0.37となる。
 総合補完スコア算出部1154は、話題補完スコアSt,kと、区分補完スコアSd,kと、に基づいて、クラスタkに含まれる外部データ群の補完の必要性を示す総合補完スコアを算出する。総合補完スコア算出部1154は、算出した総合補完スコアを補完スコア格納DB600に格納する。総合補完スコアは、各クラスタkについて、クラスタkに含まれる外部データを補完する必要があるかを表す指標値である。たとえば、総合補完スコア算出部1154は、図6で示すように、話題補完スコアSt,kおよび区分補完スコアSd,kをそれぞれ0~1の範囲で正規化する。そして、総合補完スコア算出部1154は、クラスタkごとに、正規化後の話題補完スコアSt,kおよび区分補完スコアSd,kの平均値を算出する。算出した平均値が、当該クラスタkの総合補完スコアである。なお、ここでは、総合補完スコアを平均値としたが、正規化後の話題補完スコアSt,kおよび区分補完スコアSd,kのうち高い方の値でもよく、低い方の値でもよい。
 <収集データの入力例>
 図12は、収集データ入力画面例を示す説明図である。収集データ入力画面1200は、ユーザ1の操作により、収集データ取得部1011が、表示デバイスに表示する画面である。分析支援装置200は、当該画面に入力されたデータを収集データとして取得し、収集データ格納DB4に格納する。
 収集データ入力画面1200は、タイトル入力領域1201と、本文入力領域1202と、カテゴリ入力領域1203と、時期入力領域1204と、出典入力領域1205と、登録実行領域1206とを有する。タイトル入力領域1201は、ユーザ1から収集データのタイトル302の入力を受け付ける。本文入力領域1202は、ユーザ1から収集データの本文303の入力を受け付ける。カテゴリ入力領域1203は、ユーザ1から収集データのカテゴリ304の入力を受け付ける。時期入力領域1204は、ユーザ1から収集データの時期305の入力を受け付ける。出典入力領域1205は、ユーザ1から収集データの出典306の入力を受け付ける。登録実行領域1206は、収集データ登録指示をユーザ1から受け取り、各入力領域1201~1205の入力内容を収集データとして収集データ格納DB4に格納する。たとえば、タイトル入力領域1201と、本文入力領域1202と、時期入力領域1204と、出典入力領域1205はテキストボックスであり、カテゴリ入力領域1203はプルダウンメニューであり、登録実行領域1206はボタンである。
 <収集データの表示例>
 図13は、収集データ表示画面例を示す図である。収集データ表示画面1300は、出力部1006が、表示デバイスを制御して、収集データ格納DB4およびクラスタリング結果格納DB500を参照し、収集データを一覧表示する画面である。たとえば、収集データ表示画面1300は、区分ij毎に収集データのタイトル302の文字列1301~1303を表示する。
 また、収集データ表示画面1300は、収集データの所属するクラスタkの情報を合わせて表示する。たとえば、収集データ表示画面1300は、同一のクラスタkに所属する収集データ1302および1303を線1304で接続して表示する。また、収集データ表示画面1300は、クラスタ特徴語リスト506の文字列1305をクラスタkと対応付けて表示する。収集データ表示画面1300における文字列1301~1303の表示により、ユーザ1は、収集された収集データを区分ijと対応付けて確認することができる。また、線1304および文字列1305の表示により、ユーザ1は、同一クラスタkに所属する収集データを一覧することができ、さらにクラスタkにおいてどのような話題が扱われているかが確認することができる。
 <外部データの表示例>
 図14は、外部データ表示画面例を示す図である。外部データ表示画面1400は、出力部1006が、表示デバイスを制御して、外部データ格納DB6と、クラスタリング結果格納DB500と、補完スコア格納DB600とを参照し、収集データを補完する外部データを表示する画面である。
 外部データ表示画面1400は、クラスタk毎に、所属する外部データに関するクラスタ情報1401,1402を一覧表示する。このとき、クラスタ情報1401,1402は、総合補完スコア、話題補完スコアSt,k、区分補完スコアSd,kの値に応じて表示される。たとえば、総合補完スコア1411,1412は、値の大きい順に左から右へと表示される。また、総合補完スコアの代わりに、話題補完スコアSt,kや区分補完スコアSd,kの一方の値に応じてクラスタ情報1401,1402を表示してもよい。
 また、クラスタ情報1401,1402は、外部データのタイトル302の文字列1421~1423を表示する。さらに、外部データ表示画面1400は、総合補完スコア1411,1412(例として星の数)を表示する。さらに、外部データ表示画面1400は、クラスタ特徴語リスト506の文字列1413,1414を表示する。さらに、外部データ表示画面1400は、クラスタkの関連するカテゴリ304の文字列1415,1416を表示する。
 たとえば、さらに、外部データ表示画面1400は、クラスタkに含まれる外部データのカテゴリ推定結果802および収集データのカテゴリ304を集計した集計数の多いカテゴリ304から順に表示する。さらに、外部データ表示画面1400は、クラスタkの関連する時期305の文字列1417,1418を表示する。たとえば、さらに、外部データ表示画面1400は、クラスタkに含まれる外部データの時期推定結果803および収集データの時期305を集計した集計数の多い時期305から順に表示する。
 外部データ表示画面の表示により、ユーザ1は、外部データをクラスタk毎に確認することができ、これにより、類似した話題に関する外部データを一覧して確認することができる。また、ユーザ1は、各クラスタkで扱われている話題や関連するカテゴリについて、概観することができる。また、総合補完スコアの大きい順にクラスタを表示することで、ユーザ1は、収集データにおいて補完の必要がある外部データから優先的に内容を確認することができる。
 たとえば、クラスタ情報1401において、特徴語の文字列1413の「3Dプリンタ」に関するクラスタkの総合補完スコアが高いことから、補完の必要があることがわかる。これをふまえて、ユーザ1は、当該クラスタkに含まれる「3Dプリンタによる加工技術の発達」などの外部データを新たに収集データに加えることができる。
 <データ収集状況の表示例>
 図15は、データ収集状況表示画面例を示す説明図である。データ収集状況表示画面1500は、出力部1006が表示デバイスを制御して、収集データ格納DB4および外部データ格納DB6に格納された文書データを、当該文書データの所属する区分ijと対応付けて表示する画面である。また、データ収集状況表示画面1500は、各区分ijの表示領域に、区分不足スコア格納DB900を参照して、各区分ijにおける区分不足スコアUd,ijを表示する。また、区分不足スコアが大きい区分ijの表示領域を調表示してもよい。このように、データ収集状況表示画面1500により、ユーザ1は、区分ij毎に収集データと外部データの分布を確認することができ、収集データが不足した区分ijを特定することができる。
 <区分関連クラスタの表示例>
 図16は、区分関連クラスタ表示画面例を示す説明図である。区分関連クラスタ表示画面1600は、出力部1006が表示デバイスを制御して表示する画面である。区分関連クラスタ表示画面1600は、区分選択部1601と、区分関連クラスタ表示領域1602とを有する。区分選択部1601は、どの区分ijに関するクラスタkを表示するかを選択する。たとえば、区分選択部1601はプルダウンメニューである。区分関連クラスタ表示領域1602は、区分選択部1601にて選択された区分ijについて、区分ijに所属する文書データが存在するクラスタkを表示する。たとえば、区分関連クラスタ表示領域1602は、クラスタkに関する情報を、総合補完スコアの大きい順に上から下へと表示する。区分関連クラスタ表示画面1600により、ユーザ1は、区分不足スコアUd,ijの高い区分に関連するクラスタを確認することができる。
 たとえば、データ収集状況表示画面1500の表示から、ユーザ1は、区分[カテゴリ:技術,時期:近い未来]の区分不足スコアUd,ijが高く、区分における収集データが不足していることがわかる。次に、区分関連クラスタ表示画面1600の区分選択部1601にて、区分[カテゴリ:技術,時期:近い未来]が選択されると、分析支援装置200は、収集データ格納DB4および外部データ分類結果格納DB800を参照して、当該選択した区分が一致する文書データ群を特定する。
 そして、分析支援装置200は、クラスタリング結果格納DB500を参照して、特定した文書データ群を含むクラスタkを特定する。そして、分析支援装置200は、出力部1006により、特定したクラスタkに関する情報を、区分関連クラスタ表示画面1600に表示する。具体的には、たとえば、区分関連クラスタ表示画面1600は、関連するクラスタkを総合補完スコアの大きい順に表示する。たとえば、「3Dプリンタ」に関するクラスタkの総合補完スコアが大きい。したがって、ユーザ1は、当該クラスタkに含まれる外部データを収集データに加えることで、区分[カテゴリ:技術,時期:近い未来]に関するデータを補完することができる。
 <分析支援処理手順例>
 図17は、分析支援装置200による分析支援処理手順例を示すフローチャートである。分析支援装置200は、取得部1001により、収集データ群および外部データ群を取得する(ステップS1701)。つぎに、分析支援装置200は、分割部1100により、取得した収集データ群および外部データ群をクラスタリングする(ステップS1702)。つぎに、分析支援装置200は、話題補完スコア算出部1152により、クラスタkごとに、話題補完スコアSt,kを算出する(ステップS1703)。
 つぎに、分析支援装置200は、外部データ分類処理を実行する(ステップS1704)。外部データ分類処理(ステップS1704)は、分類モデルを構築して、外部データごとにカテゴリ推定結果802および時期推定結果803を求める処理である。外部データ分類処理(ステップS1704)の詳細については、図18で後述する。
 つぎに、分析支援装置200は、区分補完スコア算出部1153により、各区分ijの文書データ数を集計して、区分補完スコアSd,kを算出する(ステップS1705)。つぎに、分析支援装置200は、区分補完スコア算出部1153により、区分補完スコアを算出する(ステップS1706)。つぎに、分析支援装置200は、総合補完スコア算出部1154により、総合補完スコアを算出する(ステップS1707)。そして、分析支援装置200は、これまでに得た算出結果を用いて、図13~図16に示したような表示画面を出力する(ステップS1708)。これにより、分析支援装置200は、分析支援処理を終了する。
 図18は、図17に示した外部データ分類処理(ステップS1704)の詳細な処理手順例を示すフローチャートである。分析支援装置200は、生成部1002により、教師データ1010を読み込み(ステップS1801)、外部データごとに特徴量を生成する(ステップS1802)。つぎに、分析支援装置200は、構築部1003により、分類モデルを構築し(ステップS1803)、特定部1004により、外部データごとに、カテゴリおよび時期を特定し、カテゴリ推定結果802および時期推定結果803として外部データ分類結果格納DB800に格納する(ステップS1804)。このあと、ステップS1705に移行する。
 このように、本実施例の分析支援装置200は、収集データ群および外部データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする。これにより、分析支援装置200は、動向分析において、収集した外部データの中から、ユーザ1が収集した収集データ群を補完する外部データを提示することができる。換言すれば、どの区分ijにどの収集データ、外部データがあるかを提示することができる。その結果、ユーザ1の手作業での収集データを補完することで、動向分析における抜け漏れを抑制することができる。したがって、動向分析の効率化を図ることができる。
 また、上記区分けにおいて、区分ij内の収集データの数と外部データの数から区分不足スコアを算出することにより、区分ij内で収集データの不足割合をユーザ1に提示することができる。その結果、ユーザ1の手作業での収集データを補完することで、動向分析における抜け漏れを抑制することができる。
 また、収集データ群および外部データ群をクラスタリングし、クラスタkごとに区分補完スコアを算出することにより、区分不足スコアの高さに応じてクラスタkに属する外部データが区分ijにどの程度含まれているかを提示することができる。すなわち、区分補完スコアの大きいクラスタkに属する外部データほど、区分不足スコアUd,ijの大きい区分ijに多く含まれる。すなわち、収集データが不足した区分ijには、区分補完スコアの大きいクラスタkに含まれる外部データが多く所属することを意味する。したがって、カテゴリ毎に将来の動向推移を分析する上で、収集データが不足した区分ijについて、当該クラスタkの外部データを収集する必要があることを示唆することができる。
 また、クラスタk内における収集データの数および外部データの数に基づいて話題補完スコアを算出することにより、クラスタkで扱われる話題に関して収集データがどの程度収集されたかを提示することができる。話題補完スコアSt,kは、クラスタkに所属する全文書データに対する外部データの割合とみなせる。したがって、話題補完スコアSt,kが大きいクラスタkで扱われている話題に関して、収集データに比べて外部データが多く存在することがわかる。このため、話題補完スコアSt,kが大きいクラスタkについて、追加の情報収集が必要であることがわかる。
 また、話題補完スコアSt,kと、区分補完スコアSd,kと、に基づいて、総合補完スコアを算出することにより、クラスタkにおいて収集データ群の補完の必要性を提示することができる。このように、各種スコアを算出することにより、ユーザ1は、大量の外部データから確認すべき文書データを特定し、確認する文書データの量を減らすことで、効率的な動向分析を実施することができる。
 また、クラスタkに関する情報として、クラスタkの話題を示す特徴語、クラスタkに属する外部データのカテゴリ、クラスタkに属する外部データの時期、および、クラスタkに属する外部データを特定する情報(たとえば、タイトル)のうち、少なくとも1つを出力することにより、提示されるクラスタkがどのような文書データ群であるかをユーザ1に提示することができる。
 また、クラスタkに関する情報として、区分ijを構成するカテゴリおよび時期と同一のカテゴリおよび時期を有する外部データが所属するクラスタkに関する情報を出力することにより、ユーザ1が選択した区分ijに含まれる文書データが所属するクラスタkがどのような文書データ群であるかをユーザ1に提示することができる。
 また、分析支援装置200は、取得部1001により、文書データ群(たとえば、収集データ群)を取得し、区分け部1005により、文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けし、分割部1100により、文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割し、出力部1006により、区分け部1005による区分け結果を、同一クラスタに属し、かつ、異なる区分に属する文書データどうしを関連付けて出力してもよい。
 これにより、図13に示したように、収集データ群をカテゴリおよび時期の組み合わせに区分けした区分ijと、収集データ群を話題が類似するようにクラスタリングしたクラスタkと、について、同一クラスタkに属し、かつ、異なる区分に属する収集データどうしが関連付けられる。したがって、ユーザ1は、区分ijは異なるがクラスタkが同一である収集データを特定することができる。
 なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
 また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。
 各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、SSD(Solid State Drive)等の記憶装置、又は、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)の記録媒体に格納することができる。
 また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims (11)

  1.  プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置であって、
     前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、
     前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、
     前記第2文書データ群の各第2文書データは、第2本文を含み、
     前記プロセッサは、
     前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、
     前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
     前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、
     前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、
     前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
     前記区分け処理による区分け結果を出力する出力処理と、
     を実行することを特徴とする分析支援装置。
  2.  請求項1に記載の分析支援装置であって、
     前記出力処理では、前記プロセッサは、前記区分け結果として、前記区分ごとに、前記区分に属する前記第1文書データ群および前記第2文書データ群を示す情報を出力することを特徴とする分析支援装置。
  3.  請求項1に記載の分析支援装置であって、
     前記区分け処理では、前記プロセッサは、前記区分内の前記第1文書データの数と、前記第2文書データの数と、に基づいて、前記区分内で前記第1文書データの不足割合を示す区分不足スコアを算出し、
     前記出力処理では、前記プロセッサは、前記区分け結果として前記区分不足スコアを出力することを特徴とする分析支援装置。
  4.  請求項3に記載の分析支援装置であって、
     前記プロセッサは、
     前記第1文書データ群および前記第2文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する分割処理と、
     前記区分不足スコアと、前記区分において前記クラスタに属する前記第2文書データの数と、に基づいて、前記区分不足スコアの高さに応じて前記クラスタに属する前記第2文書データが前記区分にどの程度含まれているかを示す区分補完スコアを算出する算出処理と、を実行し、
     前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。
  5.  請求項4に記載の分析支援装置であって、
     前記算出処理では、プロセッサは、前記クラスタ内における前記第1文書データの数および前記第2文書データの数に基づいて、前記クラスタで扱われる前記話題に関して前記第1文書データがどの程度収集されたかを示す話題補完スコアを算出し、
     前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。
  6.  請求項5に記載の分析支援装置であって、
     前記算出処理では、プロセッサは、前記話題補完スコアと、前記区分補完スコアと、に基づいて、前記クラスタに含まれる前記第2文書データ群の補完の必要性を示す総合補完スコアを算出し、
     前記出力処理では、前記プロセッサは、前記算出処理による算出結果を出力することを特徴とする分析支援装置。
  7.  請求項4に記載の分析支援装置であって、
     前記出力処理では、前記プロセッサは、前記クラスタの前記話題を示す特徴語、前記クラスタに属する前記第2文書データの前記第2カテゴリ、前記クラスタに属する前記第2文書データの前記第2時期、および、前記クラスタに属する前記第2文書データを特定する情報のうち、少なくとも1つを出力することを特徴とする分析支援装置。
  8.  請求項1に記載の分析支援装置であって、
     前記出力処理では、前記プロセッサは、前記区分を構成するカテゴリおよび時期と同一の前記第2カテゴリおよび前記第2時期を有する前記第2文書データが所属するクラスタに関する情報を出力することを特徴とする分析支援装置。
  9.  プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置であって、
     前記記憶デバイスまたは前記外部装置は、文書データ群を記憶しており、
     前記文書データ群の各文書データは、本文と、前記文書データが属するカテゴリと、前記本文の内容により特定される時期と、を含み、
     前記プロセッサは、
     前記記憶デバイスまたは前記外部装置から前記文書データ群を取得する取得処理と、
     前記取得処理によって取得された前記文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
     前記文書データ群を、各々のクラスタが話題が類似する文書データ群となるように、複数のクラスタに分割する分割処理と、
     前記区分け処理による区分け結果を、同一クラスタに属し、かつ、異なる区分に属する文書データどうしを関連付けて出力する出力処理と、
     を実行することを特徴とする分析支援装置。
  10.  プログラムを実行するプロセッサと、前記プログラムを記憶する記憶デバイスと、外部装置と通信する通信インタフェースと、を有する分析支援装置が実行する分析支援方法であって、
     前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、
     前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、
     前記第2文書データ群の各第2文書データは、第2本文を含み、
     前記プロセッサは、
     前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、
     前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
     前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、
     前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、
     前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
     前記区分け処理による区分け結果を出力する出力処理と、
     を実行することを特徴とする分析支援方法。
  11.  記憶デバイスまたは外部装置にアクセス可能なプロセッサに実行させる分析支援プログラムであって、
     前記記憶デバイスおよび前記外部装置の少なくとも一方は、第1文書データ群、および第2文書データ群を記憶しており、
     前記第1文書データ群の各第1文書データは、第1本文と、前記第1文書データが属する第1カテゴリと、前記第1本文の内容により特定される第1時期と、を含み、
     前記第2文書データ群の各第2文書データは、第2本文を含み、
     前記プロセッサに、
     前記記憶デバイスおよび前記外部装置の少なくとも一方から前記第1文書データ群および前記第2文書データ群を取得する取得処理と、
     前記取得処理によって取得された前記第2文書データ群の各々の前記第2文書データについて、前記第1本文と前記第1カテゴリと前記第1時期とを含む教師データとの間で共通する単語に関する特徴量を生成する生成処理と、
     前記教師データに含まれる前記第1カテゴリおよび前記第1時期と、前記生成処理によって生成された特徴量と、を用いて、前記第2文書データが属する第2カテゴリと、前記第2本文の内容により特定される第2時期と、を求める分類モデルを構築する構築処理と、
     前記第2文書データの前記特徴量を、前記構築処理によって構築された分類モデルに与えることにより、前記第2文書データの前記第2カテゴリおよび前記第2時期を特定する特定処理と、
     前記第1文書データ群および前記第2文書データ群を、同一カテゴリおよび同一時期の組み合わせとなる区分ごとに区分けする区分け処理と、
     前記区分け処理による区分け結果を出力する出力処理と、
     を実行させることを特徴とする分析支援プログラム。
PCT/JP2016/069648 2016-07-01 2016-07-01 分析支援装置、分析支援方法、および分析支援プログラム WO2018003115A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2016/069648 WO2018003115A1 (ja) 2016-07-01 2016-07-01 分析支援装置、分析支援方法、および分析支援プログラム
JP2018502286A JP6496078B2 (ja) 2016-07-01 2016-07-01 分析支援装置、分析支援方法、および分析支援プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/069648 WO2018003115A1 (ja) 2016-07-01 2016-07-01 分析支援装置、分析支援方法、および分析支援プログラム

Publications (1)

Publication Number Publication Date
WO2018003115A1 true WO2018003115A1 (ja) 2018-01-04

Family

ID=60787428

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/069648 WO2018003115A1 (ja) 2016-07-01 2016-07-01 分析支援装置、分析支援方法、および分析支援プログラム

Country Status (2)

Country Link
JP (1) JP6496078B2 (ja)
WO (1) WO2018003115A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100469A (zh) * 2020-09-23 2020-12-18 潘倩雯 基于大数据的信息数据存储整合系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240488A (ja) * 2003-02-03 2004-08-26 Canon Inc 文書管理装置
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5293339B2 (ja) * 2009-03-27 2013-09-18 富士通株式会社 順序決定プログラム、順序決定方法、および情報処理装置
JP2011227742A (ja) * 2010-04-21 2011-11-10 Hitachi Solutions Ltd 対比表示データ生成装置または対比表示データ生成方法
JP6054793B2 (ja) * 2013-03-28 2016-12-27 三菱スペース・ソフトウエア株式会社 情報検索装置、情報検索プログラム及び情報検索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004240488A (ja) * 2003-02-03 2004-08-26 Canon Inc 文書管理装置
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUKINOBU MARUYAMA ET AL.: "Studies of Methodology that Help to Design Future Experience", HITACHI HYORON, vol. 93, no. 11, 1 November 2011 (2011-11-01), pages 55 - 60 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100469A (zh) * 2020-09-23 2020-12-18 潘倩雯 基于大数据的信息数据存储整合系统及方法
CN113239252A (zh) * 2020-09-23 2021-08-10 潘倩雯 基于大数据的信息数据存储整合系统

Also Published As

Publication number Publication date
JPWO2018003115A1 (ja) 2018-07-05
JP6496078B2 (ja) 2019-04-03

Similar Documents

Publication Publication Date Title
CN111373392B (zh) 文献分类装置
WO2014084140A1 (ja) 文書管理システムおよび文書管理方法並びに文書管理プログラム
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
JP7103496B2 (ja) 関連スコア算出システム、方法およびプログラム
JP2018509664A (ja) モデル生成方法、単語重み付け方法、装置、デバイス及びコンピュータ記憶媒体
KR101667199B1 (ko) 키워드 검색을 통한 웹 페이지의 상대적 품질 지수 평가 장치
CN112825089B (zh) 文章推荐方法、装置、设备及存储介质
US9594757B2 (en) Document management system, document management method, and document management program
US20120239657A1 (en) Category classification processing device and method
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JP2020129232A (ja) 機械学習装置、プログラム及び機械学習方法
CN110874366A (zh) 数据处理、查询方法和装置
JP2005190284A (ja) 情報分類装置および情報分類方法
JP6496078B2 (ja) 分析支援装置、分析支援方法、および分析支援プログラム
JP2009223809A (ja) 仕訳条件作成プログラム、仕訳条件作成装置および仕訳条件作成方法
CN110737749B (zh) 创业计划评价方法、装置、计算机设备及存储介质
Lamba et al. Tools and techniques for text mining and visualization
KR101078966B1 (ko) 문서 분석 시스템
KR20100088892A (ko) 문서 분류 시스템
JP2020166443A (ja) データ加工方法レコメンドシステム、データ加工方法レコメンド方法、及びデータ加工方法レコメンドプログラム
JP6403850B1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20110010662A (ko) 문서 분석 시스템
JP7442430B2 (ja) 審査支援システム、及び審査支援方法
JP7168826B2 (ja) データ統合支援装置、データ統合支援方法、及びデータ統合支援プログラム
CN112069314B (zh) 一种基于科技文献数据的特定领域态势分析系统

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2018502286

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16907348

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16907348

Country of ref document: EP

Kind code of ref document: A1