WO2014109388A1 - テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体 - Google Patents

テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体 Download PDF

Info

Publication number
WO2014109388A1
WO2014109388A1 PCT/JP2014/050333 JP2014050333W WO2014109388A1 WO 2014109388 A1 WO2014109388 A1 WO 2014109388A1 JP 2014050333 W JP2014050333 W JP 2014050333W WO 2014109388 A1 WO2014109388 A1 WO 2014109388A1
Authority
WO
WIPO (PCT)
Prior art keywords
analysis
viewpoint
text
result
data
Prior art date
Application number
PCT/JP2014/050333
Other languages
English (en)
French (fr)
Inventor
正明 土田
石川 開
貴士 大西
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2014556450A priority Critical patent/JP6229665B2/ja
Priority to US14/759,264 priority patent/US20150356152A1/en
Priority to CN201480004597.5A priority patent/CN104919458B/zh
Publication of WO2014109388A1 publication Critical patent/WO2014109388A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Definitions

  • the present invention relates to a text mining device, a text mining system, a text mining method, and a recording medium.
  • Text mining is data mining for text.
  • a technique for grasping features unique to analysis results from each analysis viewpoint by comparing analysis results from a plurality of analysis viewpoints is conventionally known. Such a technique is disclosed in Patent Document 1, for example.
  • the text classification device of Patent Document 1 analyzes data including text and attributes. When the user selects an arbitrary attribute, the text classification device acquires an attribute value of this attribute as an analysis viewpoint, and displays an analysis result from each analysis viewpoint.
  • the present invention has been made in view of the above-described circumstances, and provides a text mining device, a text mining system, a text mining method, and a recording medium that can recommend a combination of analysis viewpoints to which analysis results should be compared to a user. Objective.
  • a text mining device provides: The attribute is acquired as an analysis viewpoint from data including text and one or more attributes associated with the text having an attribute name and an attribute value, and the data is analyzed using each analysis viewpoint.
  • An analysis unit that obtains a result of analysis from each analysis viewpoint and generates a result vector of each analysis viewpoint;
  • a similarity acquisition unit for acquiring a vector similarity between a plurality of result vectors of each analysis viewpoint;
  • a recommendation unit that extracts and presents the combination of the analysis viewpoints as recommendation candidates based on the vector similarity; Comprising It is characterized by that.
  • the text mining system is: A text mining device according to a first aspect; A data storage device storing the data in advance; Comprising It is characterized by that.
  • the text mining method is: The attribute is acquired as an analysis viewpoint from data including text and one or more attributes associated with the text having an attribute name and an attribute value, and the data is analyzed using each analysis viewpoint.
  • a computer-readable recording medium is provided.
  • Computer The attribute is acquired as an analysis viewpoint from data including text and one or more attributes associated with the text having an attribute name and an attribute value, and the data is analyzed using each analysis viewpoint.
  • An analysis unit that obtains analysis results from each analysis viewpoint and generates a result vector of each analysis viewpoint,
  • a similarity acquisition unit for acquiring a vector similarity between a plurality of result vectors of each analysis viewpoint;
  • a recommendation unit that extracts and presents a combination of the analysis viewpoints as a recommendation candidate based on the vector similarity, It is characterized by recording a program to function as.
  • a text mining device a text mining system, a text mining method, and a recording medium that can recommend a combination of analysis viewpoints to which analysis results should be compared to a user.
  • the text mining apparatus 100 recommends to the user a combination of analysis viewpoints (recommendation candidates) with which the analysis results should be compared.
  • the user can grasp the characteristics unique to the analysis results from each analysis viewpoint by comparing the analysis results (hereinafter referred to as analysis results from the analysis viewpoint) included in the recommendation candidates. it can.
  • the text mining apparatus 100 includes a storage unit 110, an analysis unit 120, a vector generation unit 130, a similarity acquisition unit 140, and a recommendation unit 150, as shown in FIG.
  • the storage unit 110 stores data DT illustrated in FIG. 2 in advance.
  • the data DT is arbitrary data to be analyzed by the text mining device 100.
  • the storage unit 110 fetches data DT from an external input device (for example, a storage medium or a network) in advance and stores it.
  • an external input device for example, a storage medium or a network
  • the data DT is composed of a plurality of records as shown in FIG.
  • Each record includes a record ID, an attribute, and text.
  • the record ID, the attribute, and the text included in one record are associated with each other.
  • the record ID is an identifier for identifying each record.
  • Attribute has attribute name and attribute value.
  • the attributes of the data DT shown in FIG. 2 have “sex”, “age”, “marital status”, “purpose of use”, “manufacturer”, “product name”, and “satisfaction” as attribute names.
  • An attribute having “sex” as an attribute name has “male” and “female” as attribute values.
  • the analysis unit 120 acquires an attribute value of each attribute included in the data DT as an analysis viewpoint.
  • the analysis unit 120 analyzes the data DT from each acquired analysis viewpoint, and acquires an analysis result from each analysis viewpoint.
  • the analysis unit 120 generates result data based on the acquired analysis results from each analysis viewpoint.
  • the vector generation unit 130 generates a result vector for each analysis viewpoint based on the result data generated by the analysis unit 120. In addition, the vector generation unit 130 generates a combination of analysis viewpoints including a plurality of analysis viewpoints acquired by the analysis unit 120. The analysis unit 120 and the vector generation unit 130 cooperate to realize the analysis unit of claim 1 of the present application.
  • the similarity acquisition unit 140 acquires the vector similarity between the analysis result vectors included in the combination of the analysis points generated by the vector generation unit 130.
  • the recommendation unit 150 extracts and displays a predetermined number of combinations having the highest vector similarity between the result vectors of the analysis viewpoints included in the combination among the analysis viewpoint combinations generated by the vector generation unit 130 as recommendation candidates.
  • the recommendation candidate is a combination of analysis viewpoints to which the user should compare analysis results.
  • the storage unit 110 included in the text mining device 100 stores in advance data DT that the user desires to perform text mining from an external input device.
  • the user When the user desires to perform text mining on the data DT, the user selects a recommended processing mode which is one of a plurality of operation modes provided in the text mining apparatus 100.
  • the text mining apparatus 100 starts the recommendation process shown in the flowchart of FIG.
  • the analysis unit 120 acquires an attribute value of each attribute included in the data DT as an analysis viewpoint (step S101).
  • the analysis unit 120 acquires analysis results from each analysis viewpoint (step S102).
  • the analysis unit 120 extracts a feature word from a text associated with an attribute value adopted as an analysis viewpoint in the data DT, and acquires it as an analysis result from each analysis viewpoint.
  • the feature word is a word included in the text associated with the attribute value adopted as the analysis viewpoint in the data DT
  • the word in the text associated with the attribute value adopted as the analysis viewpoint Is a predetermined number (50 in the present embodiment) set in advance with the largest ratio (weight value) of the appearance frequency to the appearance frequency of the word in all the texts included in the data DT.
  • the analysis unit 120 generates result data including analysis results from each analysis viewpoint acquired in step S102 (step S103).
  • the result data includes an analysis viewpoint (attribute value), record ID information, and an analysis result as illustrated in FIG.
  • the record ID information indicates all record IDs associated with the attribute values adopted as the analysis viewpoint in the data DT. As shown in FIG. 2, the record ID, the attribute, and the text are associated with each other in the data DT. For this reason, the record ID information indicating all record IDs associated with the attribute value adopted as the analysis viewpoint in the data includes all the texts associated with the attribute value adopted as the analysis viewpoint in the data. Can show.
  • the text associated with the attribute value “male” includes “power saving”, “battery”, “capacity”, “large”, “processing”, “speed”, and the like.
  • the analysis unit 120 includes 50 words (feature words) having the largest weight values among these words, such as “battery”, “texture”, “speed”, “power saving”, and the like.
  • the word is acquired as an analysis result when the attribute value “male” is adopted as an analysis viewpoint.
  • record IDs “1”, “3”, and the like are associated with the attribute value “male”. Therefore, in the result data shown in FIG. 4, the record ID information when the attribute value “male” is adopted as an analysis viewpoint includes record IDs “1”, “3”, and the like.
  • the analysis unit 120 sends the generated result data to the vector generation unit 130.
  • the vector generation unit 130 generates a result vector for each analysis viewpoint based on the result data received from the analysis unit 120 (step S104).
  • the vector generation unit 130 acquires a word (feature word) obtained as an analysis result from a certain analysis viewpoint of a vector having all words included in all texts included in the data DT as elements (original). By assigning a value of “1” to the element and assigning a value of “0” to the other elements, a result vector of the analysis viewpoint is generated.
  • the text included in the data DT includes words such as “design”, “color”, “battery”, “texture”, “speed”, and “power saving”.
  • the analysis result when the attribute value “male” is adopted as an analysis viewpoint includes characteristic words such as “battery”, “texture”, “speed”, and “power saving” as illustrated in FIG. It is assumed that “design” and “color” are not included.
  • the vector generation unit 130 generates a combination of analysis viewpoints including a plurality of analysis viewpoints acquired by the analysis unit 120 in step S101 (step S105).
  • the similarity acquisition unit 140 calculates the vector similarity between the result vectors of each analysis viewpoint included in each combination (step S106).
  • the similarity acquisition unit 140 regards the result vectors of two different viewpoints as a set, and calculates a jaccard coefficient of the two sets as a vector similarity between the two vectors.
  • Jackard coefficient J (A, B) is obtained by the following equation (1).
  • a ⁇ B represents the intersection of sets A and B
  • a ⁇ B represents the union of sets A and B.
  • represents the number of elements of the set A (original number, density).
  • represent the numbers of elements of the sets B, A ⁇ B, and A ⁇ B, respectively.
  • the recommendation unit 150 extracts a predetermined number of combinations set in advance and having the highest vector similarity between the result vectors of each analysis viewpoint included in the combination as recommendation candidates (step S107).
  • the recommendation unit 150 displays the recommendation candidates (step S108), and ends the recommendation process.
  • the text mining apparatus 100 presents a combination of analysis viewpoints with high vector similarity between the result vectors of each analysis viewpoint as a recommendation candidate.
  • the user can compare analysis results from a plurality of analysis viewpoints included in the recommendation candidates, and can grasp a difference between the analysis results, that is, a characteristic unique to the analysis result from each analysis viewpoint.
  • the user since the recommended candidates are presented by the text mining device 100, the user does not need to select a combination of analysis viewpoints to be compared.
  • the analysis results with the highest similarity can be compared with each other preferentially, so that the user can efficiently grasp the difference between the analysis results, that is, the unique features.
  • the present invention when a plurality of attribute values different from each other are adopted as analysis viewpoints and a similar analysis result is obtained, even if these attribute values are attribute values having different attributes, these A combination of analysis viewpoints is presented to the user as a recommendation candidate. Since a plurality of attribute values having different attributes can be compared with each other as analysis viewpoints, the user can accurately grasp features unique to the analysis results from each analysis viewpoint.
  • the text mining apparatus 100 analyzes the data DT having the structure shown in FIG.
  • the text mining apparatus 100 can perform analysis on data having an arbitrary structure as long as the data includes attributes and text.
  • a combination of arbitrary analysis viewpoints with similar analysis results is presented to the user as a recommendation candidate.
  • the text mining apparatus 100 recommends an analysis viewpoint whose analysis result is similar to the analysis result when the attribute value selected as the analysis target is used as the analysis viewpoint. Can also be presented.
  • the user compares the analysis result when the attribute value selected as the analysis target is adopted as the analysis viewpoint with the analysis result from the analysis viewpoint presented as the recommendation candidate by the text mining device 100, thereby analyzing the analysis target. It is possible to grasp the unique characteristics of attribute values.
  • a combination of multiple attribute values may be specified as an analysis target.
  • a combination of attribute values possessed by a plurality of different attributes can be designated as an analysis target.
  • the analysis unit 120 can individually acquire each attribute value included in the data DT as an analysis viewpoint, or can acquire a combination of a plurality of attribute values or an attribute itself including an attribute name and an attribute value as an analysis viewpoint. You can also.
  • the similarity acquisition unit 140 may calculate the vector similarity by itself as in the present embodiment, or may acquire the vector similarity calculated and stored in advance by an external device.
  • 50 feature words were acquired as analysis results.
  • the number of feature words acquired as an analysis result can be arbitrarily set. Information other than the feature word may be acquired as an analysis result.
  • the appearance frequency and the number of appearances of each phrase in the text associated with each analysis viewpoint may be acquired as an analysis result from each analysis viewpoint.
  • the phrase refers to a sequence of a plurality of words.
  • a predetermined number of phrases (characteristic phrases) having the largest weight value among phrases appearing in the text associated with each analysis viewpoint may be acquired as an analysis result from each analysis viewpoint.
  • dependency refers to a grammatical relationship that exists between a word or phrase and another word or phrase. For example, it is assumed that the description equivalent to “high cost performance” or “high cost performance” appears seven times in the text associated with a certain analysis viewpoint. In this case, the dependency “cost performance & high” and the appearance frequency “7” are acquired as one of the analysis results from this analysis viewpoint.
  • a value “1” is assigned to an element indicating a feature word included in an analysis result from each analysis viewpoint of a vector having all words included in the text included in the data DT as elements (original).
  • the result vector was generated.
  • the result vector can be generated by a method different from the method shown in this embodiment.
  • the result vector may be generated by using only a part of the feature words acquired as an analysis result instead of the whole.
  • a result vector may be generated using a phrase or dependency acquired as an analysis result.
  • a result vector including information other than the analysis result may be generated.
  • the result vector is the attribute name “gender” that has the attribute value “male” as the element and the attribute value “male” as the element.
  • a result vector may be generated using the record ID information. For example, a result vector including the record ID indicated by the record ID information as an element can be generated.
  • the Jackard coefficient is adopted as the vector similarity. You may employ
  • the co-occurrence frequency can be adopted as the vector similarity.
  • the co-occurrence frequency K (A, B) can be obtained by the following equation (2).
  • cosine coefficient (cosine distance, cosine similarity) may be adopted as the vector similarity.
  • the cosine coefficient C (A, B) can be obtained by the following equation (3).
  • the die coefficient D (A, B) can be obtained by the following equation (4).
  • an overlap coefficient (Simpson coefficient) may be adopted as the vector similarity.
  • the overlap coefficient S (A, B) can be obtained by the following equation (5).
  • ) represents the smaller one of
  • a predetermined number of combinations having the highest similarity between the result vectors of the analysis viewpoints included in each combination are extracted as recommendation candidates.
  • a list may be created in which all the generated combinations are arranged in descending order of similarity between analysis result vectors included in each combination.
  • the analysis results from each analysis viewpoint included in each combination may be displayed together.
  • the analysis result from the selected analysis viewpoint may be displayed.
  • recommendation scores for each combination may be displayed together.
  • the recommendation score is a score given according to the vector similarity between the result vectors of the analysis viewpoints included in each combination.
  • Recommendation candidates may be displayed as a graph. Further, the recommendation candidates may be presented to the user by a non-visual method such as voice instead of displaying on the display or the like.
  • the text mining system 1000 includes a text mining device 100 and a data storage device 200 as shown in FIG.
  • the text mining device 100 and the data storage device 200 are connected to each other by a wired LAN (Local Area Network) 300.
  • LAN Local Area Network
  • the text mining device 100 functionally includes a vector generation unit 130, a similarity acquisition unit 140, a recommendation unit 150, a result data reception unit 160, a selection unit 170, and recommendation data.
  • a transmission unit 180 As shown in FIG. 5, the text mining device 100 functionally includes a vector generation unit 130, a similarity acquisition unit 140, a recommendation unit 150, a result data reception unit 160, a selection unit 170, and recommendation data.
  • a transmission unit 180 As shown in FIG. 5, the text mining device 100 functionally includes a vector generation unit 130, a similarity acquisition unit 140, a recommendation unit 150, a result data reception unit 160, a selection unit 170, and recommendation data.
  • the functions and operations of the vector generation unit 130, the similarity acquisition unit 140, and the recommendation unit 150 are substantially the same as those in the first embodiment.
  • the result data receiving unit 160 receives the result data from the result data transmitting unit 230 provided in the data storage device 200 described later.
  • the selection unit 170 extracts combinations that satisfy the extraction condition set in advance from among combinations of analysis viewpoints including a plurality of analysis viewpoints (attribute values) generated by the vector generation unit 130.
  • the recommendation data transmission unit 180 generates recommendation data indicating the recommendation candidates extracted by the recommendation unit 150 and transmits the recommendation data to the recommendation data reception unit 240 included in the data storage device 200 described later.
  • the data storage device 200 functionally includes a storage unit 210, an analysis unit 220, a result data transmission unit 230, a recommendation data reception unit 240, and a display unit 250, as shown in FIG. Prepare.
  • the storage unit 210 stores the data DT to be text mining in advance from an external input device and stores it in the same manner as the storage unit 110 included in the text mining device 100 of the first embodiment.
  • the analysis unit 220 has the same function as the analysis unit 120 included in the text mining device 100 according to the first embodiment.
  • the result data transmitting unit 230 transmits the result data to the result data receiving unit 160 provided in the text mining device 100.
  • the recommendation data reception unit 240 receives recommendation data from the recommendation data transmission unit 180 included in the text mining device 100.
  • the display unit 250 displays recommendation candidates indicated by the recommendation data.
  • the storage unit 210 included in the data storage device 200 stores in advance data DT that the user desires to perform text mining from an external input device.
  • the user When the user desires to perform text mining on the data DT, the user selects a recommended processing mode that is one of a plurality of operation modes provided in the data storage device 200.
  • the data storage device 200 starts the recommendation process shown in the flowchart of FIG.
  • the analysis unit 220 of the data storage device acquires the attribute value of each attribute included in the data DT as an analysis viewpoint (step S201).
  • the analysis unit 220 acquires the analysis result from each analysis viewpoint (step S202). Specifically, the analysis unit 220 extracts a feature word from a text associated with an attribute value adopted as an analysis viewpoint in the data DT, and acquires it as an analysis result from each analysis viewpoint.
  • the analysis unit 220 generates result data including analysis results from each analysis viewpoint acquired in step S202 (step S203), and sends the result data to the result data transmission unit 230.
  • the result data transmission unit 230 transmits the received result data to the result data reception unit 160 of the text mining device 100 (step S204).
  • the result data receiving unit 160 receives the result data (step S205) and sends it to the vector generation unit 130.
  • the vector generation unit 130 generates a result vector for each analysis viewpoint based on the received result data (step S206). Specifically, the vector generation unit 130 acquires a word (feature word) obtained as an analysis result from a certain analysis viewpoint of a vector having all words included in all texts included in the data DT as elements (original). By assigning a value of “1” to the element and assigning a value of “0” to the other elements, a result vector of the analysis viewpoint is generated.
  • the vector generation unit 130 generates a combination of analysis viewpoints including a plurality of analysis viewpoints (attribute values) (step S207), and sends the combination to the selection unit 170.
  • the selection unit 170 extracts combinations that satisfy the extraction conditions set in advance from the received combinations of analysis viewpoints (step S208).
  • the selection unit 170 is an element that is common to the result vectors of the respective analysis viewpoints included in the combination among the combinations generated in step S207 and has an element value of “1”. A combination whose number is a predetermined number or more is extracted. Thereby, the selection unit 170 can extract only combinations of analysis viewpoints in which the result vectors are similar to a certain level or more.
  • the similarity acquisition unit 140 calculates the vector similarity (Jackard coefficient) between the result vectors of each analysis viewpoint included in the combination extracted in step S208 (step S209).
  • the recommendation unit 150 extracts a predetermined number of combinations set in advance and having the highest vector similarity between the result vectors of each analysis point included in the combination as recommendation candidates (step S210).
  • the recommendation data transmission unit 180 generates recommendation data indicating the recommendation candidates extracted in step S210, and transmits the recommendation data to the recommendation data reception unit 240 of the data storage device 200 (step S211).
  • the recommendation data receiving unit 240 receives the recommendation data (step S212) and sends it to the display unit 250.
  • the display unit 250 displays recommendation candidates indicated by the received recommendation data (step S213), and ends the recommendation process.
  • the user compares the analysis results from the respective analysis viewpoints included in the combination of analysis viewpoints presented as the recommended candidates by the text mining system 1000 according to the present embodiment, and thus features unique to the analysis results from the respective analysis viewpoints. Can be grasped.
  • a part of the recommendation processing (storage of data DT, acquisition of analysis viewpoint, acquisition of analysis result, generation of result data, display of recommendation candidates) executed by the text mining device 100 in Embodiment 1 is performed. , Being executed by the data storage device 200. For this reason, the processing load concerning the text mining device 100 according to the present embodiment is smaller than the processing load concerning the text mining device 100 according to the first embodiment.
  • the text mining device 100 extracts combinations that satisfy the extraction condition set in advance from among the generated combinations of analysis viewpoints, and only between the analysis viewpoints included in the extracted combinations, between the result vectors of each analysis viewpoint.
  • the vector similarity is calculated.
  • the processing load applied to the text mining device 100 according to the present embodiment calculates the vector similarity between the result vectors of the respective analysis viewpoints included in all the generated combinations, and the text mining device 100 according to the first embodiment. It is small compared with the processing load concerning.
  • the number of elements having a value of “1” is equal to or greater than a predetermined number of elements that are common to the result vectors of the respective analysis viewpoints included in the combination.
  • a combination of analysis viewpoints is extracted, and a part of the extracted combination is presented to the user as a recommendation candidate. That is, a combination whose analysis results from the analysis viewpoint included in the combination are similar to a certain level or more is presented to the user as a recommendation candidate. Since the user can compare the analysis results that are similar to a certain level or more, it is easy to grasp the unique characteristics of each analysis viewpoint.
  • the data storage device 200 stores data DT, acquires analysis viewpoints, acquires analysis results, generates result data, and displays recommendation candidates.
  • the other processing is executed by the text mining apparatus 100.
  • Various function sharing different from the function sharing shown in the present embodiment is possible.
  • the text mining device 100 may display recommendation candidates based on the recommendation data.
  • the processing load on the text mining device 100 may be reduced by generating a result vector and extracting a combination of analysis viewpoints satisfying the extraction condition by the data storage device 200.
  • the data storage device 200 transmits the extracted combination of analysis viewpoints and the result vector of each analysis viewpoint included in these combinations to the text mining apparatus 100. Since only the information related to the extracted analysis viewpoint is transmitted, the operation efficiency of the entire text mining system 1000 is improved as compared with the case where the result data is transmitted for all analysis viewpoints as in the present embodiment.
  • the text mining apparatus 100 uses “1” as an extraction condition used to extract a combination of analysis viewpoints, which is “an element that the result vectors of the analysis viewpoints included in the combination have in common.
  • the number of elements having the value of “is a predetermined number or more” is adopted. You may extract the combination of an analysis viewpoint using arbitrary conditions different from the conditions shown in this embodiment.
  • the simple similarity between the analysis results from each analysis viewpoint included in the combination is equal to or greater than a predetermined threshold” may be adopted as the extraction condition.
  • the simple similarity is an arbitrary similarity obtained more easily than the vector similarity.
  • the simple similarity is, for example, an inner product or a distance between result vectors from each analysis viewpoint.
  • “the number of elements having a value greater than a predetermined threshold that is a common element in the result vector of each analysis point included in the combination is greater than or equal to a predetermined number” is adopted as an extraction condition. May be.
  • the result vector includes the appearance frequency of a word as an element
  • a combination of analysis viewpoints sharing a predetermined number or more of words having an appearance frequency higher than a predetermined threshold is extracted as a combination satisfying the extraction condition.
  • a word that frequently appears in the analysis result can be estimated as a word indicating the characteristics of the analysis result. The user can efficiently grasp the unique characteristics of each analysis viewpoint by comparing the analysis results having the same word indicating the characteristics.
  • the record similarity between the respective analysis viewpoints included in the combination is equal to or less than a predetermined threshold” may be adopted as the extraction condition.
  • the record similarity is a similarity between record ID information.
  • the number of record IDs commonly included in record ID information of different analysis viewpoints and the number of record IDs commonly included in record ID information of different analysis viewpoints are records of each analysis viewpoint.
  • a ratio (share rate) to the total number of record IDs included in the ID information can be adopted as the record similarity. For example, in this embodiment, it is assumed that all men who answered the questionnaire were in their thirties.
  • a single condition is adopted as the extraction condition.
  • a combination of a plurality of conditions may be adopted as the extraction condition.
  • the entire processing is performed by setting the order of filtering (filtering order) according to each condition in consideration of the time required for each filtering, the high selection rate by each filtering, etc. You can save time.
  • Non-patent document 1 Kenji Tateishi, 1 other, "High-speed duplicate document matching using Multi-level prefix-filter", [online], Japan Society for Database Studies, [2012 December 12 search], the Internet (URL: www.dbsj.org/journal/vol5/no4/tateishi.pdf)) and Non-Patent Document 2 (Nakan Okazaki, 1 other person, “Concise and fast for similarity between sets” It may be extracted by the method disclosed in “Similar String Search Algorithm”, [online], [Search December 12, 2012], Internet (URL: www.chokkan.org/publication/okazaki_jnlp2011.pdf)) it can. According to the methods disclosed in Non-Patent Documents 1 and 2, combinations satisfying the extraction condition can be extracted at high speed without actually calculating the similarity between result vectors.
  • the text mining device 100 and the data storage device 200 having the above-described functional configuration and performing the above-described recommendation processing include a control unit 11, a main storage unit 12, an external storage unit 13, an operation unit 14, and a display.
  • Unit 15 a transmission / reception unit 16, and an internal bus 18 that connects them to each other as a hardware configuration.
  • the control unit 11 includes a CPU (Central Processing Unit).
  • the control unit 11 controls the entire text mining device 100 and the data storage device 200 by executing the control program 17 stored in the external storage unit 13, and the above-described various types provided in the text mining device 100 and the data storage device 200. Realize the function.
  • the analysis unit 120, the vector generation unit 130, the similarity acquisition unit 140, the recommendation unit 150, and the selection unit 170 of the text mining device 100 are realized by the control unit 11.
  • the analysis unit 220 of the data storage device 200 is also realized by the control unit 11.
  • the main storage unit 12 includes a RAM (Random-Access Memory).
  • the main storage unit 12 functions as a work area for the control unit 11, and various programs including the control program 17 and the text mining program are temporarily expanded in the main storage unit 12.
  • the external storage unit 13 includes a nonvolatile memory (for example, a flash memory, a hard disk, a DVD-RAM (Digital Versatile Disc Random-Access Memory), a DVD-RW (Digital Versatile Disc ReWriteable, etc.).
  • Various programs including a control program 17 and a text mining program executed by the unit 11 and various fixed data are fixedly stored, and the external storage unit 13 supplies the stored data to the control unit 11.
  • the storage unit 110 stores the data supplied from the control unit 11.
  • the storage unit 110 of the text mining device 100 and the storage unit 210 of the data storage device 200 are realized by the external storage unit 13.
  • the operation unit 14 includes a keyboard and a mouse, and accepts user operations.
  • the display unit 15 displays various information including recommendation candidates.
  • the display unit 15 includes, for example, a CRT (Cathode Ray Tube) or an LCD (Liquid Crystal Display).
  • the display unit 250 of the data storage device 200 is realized by the display unit 15.
  • the transmission / reception unit 16 includes a network termination device or a wired communication device connected to the network, and a serial interface or a LAN interface connected to these.
  • the result data receiving unit 160 and the recommended data transmitting unit 180 of the text mining device 100 and the result data transmitting unit 230 and the recommended data receiving unit 240 of the data storage device 200 are realized by the transmitting / receiving unit 16.
  • the internal bus 18 connects the control unit 11 to the transmission / reception unit 16 to each other.
  • the text mining device 100 and the data storage device 200 can be realized using a normal computer system, not a dedicated system.
  • a computer program for executing the operations of the text mining device 100 and the data storage device 200 is stored in a computer-readable recording medium (flexible disk, CD-ROM, DVD-ROM, etc.) and distributed.
  • the text mining device 100 and the data storage device 200 that execute the above-described processing may be configured by installing a computer program in the computer.
  • the text mining device 100 and the data storage device 200 may be configured by storing the computer program in a storage device included in a server device on a communication network such as the Internet and downloading the computer program from a normal computer system. .
  • the various functions of the text mining device 100 and the data storage device 200 are realized by sharing between the OS (operating system) and the application program, or in cooperation with the OS and the application program, only the application part is externally stored. You may store in the part 13, a recording medium, a memory
  • the application program may be posted on a bulletin board (BBS: Bulletin Board System) on the communication network, and the application program may be distributed via the network.
  • BSS Bulletin Board System
  • the application program may be installed and activated in a computer, and may be configured to execute the above-described processing by being executed in the same manner as other application programs under the control of the OS.
  • the attribute is acquired as an analysis viewpoint from data including text and one or more attributes associated with the text having an attribute name and an attribute value, and the data is analyzed using each analysis viewpoint.
  • An analysis unit that obtains a result of analysis from each analysis viewpoint and generates a result vector of each analysis viewpoint;
  • a similarity acquisition unit for acquiring a vector similarity between a plurality of result vectors of each analysis viewpoint;
  • a recommendation unit that extracts and presents the combination of the analysis viewpoints as recommendation candidates based on the vector similarity; Comprising A text mining device characterized by that.
  • the analysis results from each analysis viewpoint include the words included in the text, the appearance frequency of the words included in the text, the number of appearances of the words included in the text, the dependency included in the text, and included in the text. Including at least one of the phrases
  • Appendix 4 A selection unit for extracting a combination of analysis viewpoints satisfying an extraction condition from the combination of analysis viewpoints;
  • the similarity acquisition unit acquires a vector similarity between result vectors of analysis viewpoints included in each analysis viewpoint combination for the analysis viewpoint combinations extracted by the selection unit;
  • the text mining device according to any one of appendices 1 to 3, characterized in that:
  • the extraction condition is a combination of analysis viewpoints in which the simple similarity between the analysis result vector included in the analysis viewpoint combination is higher than a predetermined threshold, and the analysis viewpoint result included in the analysis viewpoint combination
  • the number of elements having vectors in common and having a value equal to or greater than a predetermined threshold is equal to or greater than a predetermined number, and the similarity between identification information indicating texts associated with each analysis viewpoint is Including at least one of being less than or equal to a predetermined threshold between identification information of analysis viewpoints included in the combination of analysis viewpoints,
  • the text mining device according to supplementary note 4, wherein
  • Appendix 6 The text mining device according to any one of appendices 1 to 5, A data storage device storing the data in advance; Comprising A text mining system characterized by that.
  • the attribute is acquired as an analysis viewpoint from data including text and one or more attributes associated with the text having an attribute name and an attribute value, and the data is analyzed using each analysis viewpoint.
  • the attribute is acquired as an analysis viewpoint from data including text and one or more attributes associated with the text having an attribute name and an attribute value, and the data is analyzed using each analysis viewpoint.
  • An analysis unit that obtains analysis results from each analysis viewpoint and generates a result vector of each analysis viewpoint,
  • a similarity acquisition unit for acquiring a vector similarity between a plurality of result vectors of each analysis viewpoint;
  • a recommendation unit that extracts and presents a combination of the analysis viewpoints as a recommendation candidate based on the vector similarity,
  • the present invention enables the user to grasp features unique to the results of analysis from each analysis viewpoint in text mining. For this reason, the present invention is useful in fields such as marketing, where it is required to extract useful information from enormous text data such as questionnaire results.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

 テキストマイニング装置(100)は、テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得する分析部(120)と、前記各分析観点の結果ベクトルを生成するベクトル生成部(130)と、複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部(140)と、前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部(150)と、を備える。

Description

テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体
 本発明は、テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体に関する。
 テキストマイニングは、テキストを対象としたデータマイニングである。テキストマイニングの手法の一つとして、複数の分析観点からの分析の結果を比較することにより、各分析観点からの分析の結果に固有な特徴を把握する技術が従来知られている。このような技術は、例えば、特許文献1に開示されている。
 特許文献1のテキスト分類装置は、テキストと属性とを含むデータを分析する。ユーザが任意の属性を選択すると、テキスト分類装置は、この属性が有する属性値を分析観点として取得し、各分析観点からの分析の結果を表示する。
特開2004-164137号公報
 特許文献1のテキスト分類装置を用いてデータを分析した際に、ユーザが選択した属性が有する任意の属性値を分析観点として採用した場合の分析結果と、ユーザが選択しなかった属性が有する別の属性値を分析観点として採用した場合の分析結果と、が類似している場合がある。このような場合、ユーザが各分析観点からの分析の結果に固有な特徴を把握するためには、これらの分析結果を比較する必要がある。しかし、特許文献1のテキスト分類装置は、これらの分析結果を比較するようユーザに推薦することができない。
 本発明は、上述の事情に鑑みてなされたものであり、分析結果を比較すべき分析観点の組合せをユーザに推薦できるテキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体を提供することを目的とする。
 上記の目的を達成するため、本発明の第1の観点に係るテキストマイニング装置は、
 テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部と、
 複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部と、
 前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部と、
 を備える、 
 ことを特徴とする。
 本発明の第2の観点に係るテキストマイニングシステムは、
 第1の観点に係るテキストマイニング装置と、
 前記データをあらかじめ記憶しているデータ記憶装置と、
 を備える、
 ことを特徴とする。
 本発明の第3の観点に係るテキストマイニング方法は、
 テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析ステップと、
 複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得ステップと、
 前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦ステップと、
 を備える、 
 ことを特徴とする。
 本発明の第4の観点に係るコンピュータ読み取り可能な記録媒体は、
 コンピュータを、
 テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部、
 複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部、
 前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部、
 として機能させるプログラムを記録したことを特徴とする。
 本発明によれば、分析結果を比較すべき分析観点の組合せをユーザに推薦できるテキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体を提供することができる。
本発明の実施形態1に係るテキストマイニング装置の機能構成の一例を示すブロック図である。 データの一例を示す図である。 本発明の実施形態1に係るテキストマイニング装置が実行する推薦処理の一例を示すフローチャートである。 結果データの一例を示す図である。 本発明の実施形態2に係るテキストマイニングシステムの構成例を示すブロック図である。 本発明の実施形態2に係るテキストマイニングシステムが実行する推薦処理の一例を示すフローチャートである。 テキストマイニング装置及びデータ記憶装置のハードウェア構成の一例を示すブロック図である。
(実施形態1)
 以下、テキストマイニング装置100の機能及び動作を、図を参照しながら詳細に説明する。図中、同一又は相当部分に同一の符号を付す。
 テキストマイニング装置100は、分析結果を比較すべき分析観点の組合せ(推薦候補)をユーザに推薦する。ユーザは、推薦候補に含まれる分析観点からの分析の結果(以下、分析観点からの分析結果と称する)どうしを比較することにより、各分析観点からの分析結果に固有な特徴を把握することができる。
 テキストマイニング装置100は、機能的には、図1に示すように、記憶部110と、分析部120と、ベクトル生成部130と、類似度取得部140と、推薦部150と、を備える。
 記憶部110は、図2に例示するデータDTをあらかじめ記憶している。データDTは、テキストマイニング装置100による分析の対象となる任意のデータである。記憶部110は、外部の入力装置(例えば、記憶媒体やネットワーク)からデータDTをあらかじめ取りこみ、記憶している。
 データDTは、図2に示すように、複数のレコードで構成されている。各レコードは、レコードIDと、属性と、テキストと、を含む。一つのレコードに含まれるレコードIDと、属性と、テキストと、は互いに対応付けられている。
 レコードIDは、各レコードを識別するための識別子である。
 属性は、属性名と属性値とを有する。例えば、図2に示すデータDTの属性は、属性名として「性別」、「年代」、「婚姻状態」、「利用目的」、「メーカー」、「製品名」、「満足度」を有する。属性名として「性別」を有する属性は、属性値として「男」及び「女」を有する。
 分析部120は、データDTに含まれる各属性が有する属性値を分析観点として取得する。分析部120は、取得した各分析観点からデータDTを分析し、各分析観点からの分析結果を取得する。分析部120は、取得した各分析観点からの分析結果に基づいて結果データを生成する。
 ベクトル生成部130は、分析部120が生成した結果データに基づいて各分析観点の結果ベクトルを生成する。また、ベクトル生成部130は、分析部120が取得した分析観点を複数含む分析観点の組合せを生成する。なお、分析部120とベクトル生成部130とが協働して本願請求項1の分析部を実現する。
 類似度取得部140は、ベクトル生成部130が生成した各分析観点の組合せに含まれる分析観点の結果ベクトル間のベクトル類似度を取得する。
 推薦部150は、ベクトル生成部130が生成した分析観点の組合せのうち、その組合せに含まれる分析観点の結果ベクトル間のベクトル類似度が最も高い所定数の組合せを推薦候補として抽出し表示する。推薦候補は、ユーザが分析結果を比較するべき分析観点の組合せである。
 以下、テキストマイニング装置100の動作について、図3のフローチャートを用いて説明する。
 テキストマイニング装置100が備える記憶部110は、ユーザがテキストマイニングを行いたいと所望するデータDTを、外部の入力装置からあらかじめ取りこみ、記憶している。
 ユーザは、データDTに対してテキストマイニングを行いたいと所望する場合、テキストマイニング装置100が備える複数の動作モードの一つである推薦処理モードを選択する。
 ユーザが推薦処理モードを選択すると、テキストマイニング装置100は、図3のフローチャートに示す推薦処理を開始する。
 分析部120は、データDTが含む各属性が有する属性値を分析観点として取得する(ステップS101)。
 分析部120は、各分析観点からの分析結果を取得する(ステップS102)。
 具体的には、分析部120は、データDT中で分析観点として採用された属性値と対応付けられたテキストから特徴語を抽出し、各分析観点からの分析結果として取得する。特徴語は、分析観点として採用された属性値とデータDT中で対応付けられているテキストに含まれる単語であって、分析観点として採用された属性値と対応付けられているテキスト中の当該単語の出現頻度の、データDTが含む全テキスト中の当該単語の出現頻度に対する比率(重み値)が最も大きい、事前に設定した所定の数(本実施形態では50個)の単語である。
 分析部120は、ステップS102で取得した各分析観点からの分析結果を含む結果データを生成する(ステップS103)。
 結果データは、図4に例示するように、分析観点(属性値)と、レコードID情報と、分析結果と、を含む。レコードID情報は、分析観点として採用された属性値とデータDT中で対応付けられた全てのレコードIDを示す。図2に示すように、レコードIDと、属性と、テキストと、はデータDT中で互いに対応付けられている。このため、分析観点として採用された属性値とデータ中で対応付けられた全てのレコードIDを示すレコードID情報は、分析観点として採用された属性値とデータ中で対応付けられた全てのテキストを示すことができる。
 例えば、図2に例示するデータDTにおいて、属性値「男」と対応付けられたテキストは、「省電力」、「バッテリー」、「容量」、「大きい」、「処理」、「スピード」等の単語を含んでいる。分析部120は、図4に示すように、これらの単語のうち最も重み値が大きい50個の単語(特徴語)である「バッテリー」、「質感」、「スピード」、「省電力」等の単語を、属性値「男」を分析観点として採用した場合の分析結果として取得する。また、図2に例示するデータDTにおいて、レコードID「1」「3」等が属性値「男」と対応付けられている。このため、図4に示す結果データで、属性値「男」を分析観点として採用した場合のレコードID情報は、レコードID「1」、「3」等を含んでいる。
 分析部120は生成した結果データをベクトル生成部130へ送る。
 ベクトル生成部130は、分析部120から受け取った結果データに基づいて、各分析観点の結果ベクトルを生成する(ステップS104)。
 具体的には、ベクトル生成部130は、データDTに含まれる全テキストに含まれる全ての単語を要素(元)とするベクトルの、ある分析観点からの分析結果として取得された単語(特徴語)の要素に「1」の値を付与し、それ以外の要素に「0」の値を付与することにより、当該分析観点の結果ベクトルを生成する。
 例えば、データDTに含まれるテキストは、図2に示すように、「デザイン」、「色」、「バッテリー」、「質感」、「スピード」、「省電力」等の単語を含んでいる。分析観点として属性値「男」を採用した場合の分析結果は、図4に例示するように、「バッテリー」、「質感」、「スピード」、「省電力」等の特徴語を含んでいる一方で、「デザイン」及び「色」を含んでいないものとする。この場合、ベクトル生成部130は、(デザイン=0、色=0、バッテリー=1、質感=1、スピード=1、省電力=0、……)というベクトルを属性値「男」を分析観点として採用した場合の結果ベクトルとして生成する。
 次に、ベクトル生成部130は、ステップS101で分析部120が取得した分析観点を複数含む、分析観点の組合せを生成する(ステップS105)。
 類似度取得部140は、各組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度を算出する(ステップS106)。
 具体的には、類似度取得部140は、互いに異なる2つの分析観点の結果ベクトルを集合とみなし、2つの集合のジャッカード(jaccard)係数をこの2つのベクトル間のベクトル類似度として算出する。
 互いに異なる2つの分析観点の結果ベクトルをそれぞれ集合A、Bとみなした場合、ジャッカード係数J(A,B)は、次の式(1)により求められる。
Figure JPOXMLDOC01-appb-M000001
 ここで、A∩Bは集合A、Bの積集合、A∪Bは集合A、Bの和集合を表す。|A|は集合Aの要素数(元の数、濃度)を表す。同様に、|B|、|A∩B|、|A∪B|は、それぞれ、集合B、A∩B、A∪Bの要素数を表す。
推薦部150は、その組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度が最も高い、事前に設定した所定数の組合せを推薦候補として抽出する(ステップS107)。
推薦部150は推薦候補を表示して(ステップS108)、推薦処理を終了する。
 以上説明したように、本実施形態に係るテキストマイニング装置100は、各分析観点の結果ベクトル間のベクトル類似度が高い分析観点の組合せを推薦候補として提示する。ユーザは、推薦候補に含まれる複数の分析観点からの分析結果どうしを比較し、それらの分析結果の間の相違点、すなわち各分析観点からの分析結果に固有な特徴を把握することができる。
 本発明によれば、推薦候補がテキストマイニング装置100によって提示されるため、ユーザは、比較する分析観点の組合せを自ら選択する必要がない。
 また、本発明によれば、類似度が最も高い分析結果どうしを優先的に比較することができるため、分析結果間の相違点、すなわち固有の特徴をユーザが効率よく把握できる。
 また、本発明によれば、互いに異なる複数の属性値をそれぞれ分析観点として採用すると類似した分析結果が得られる場合、これらの属性値が互いに異なる属性の有する属性値であったとしても、これらの分析観点の組合せが、推薦候補としてユーザに提示される。互いに異なる属性の有する複数の属性値をそれぞれ分析観点として採用した場合の分析結果どうしを比較できるため、ユーザは、各分析観点からの分析結果に固有な特徴を正確に把握できる。
 本実施形態において、テキストマイニング装置100は、図2に示す構造を有するデータDTに対して分析を行った。テキストマイニング装置100は、属性とテキストとを含むデータでありさえすれば、任意の構造を有するデータに対して分析を行うことができる。
 本実施形態では、分析結果が類似している任意の分析観点の組合せを推薦候補としてユーザに提示した。ユーザが、ある属性値を分析対象として選択した際に、テキストマイニング装置100が、分析対象として選択された属性値を分析観点として採用した場合の分析結果と分析結果が類似する分析観点を推薦候補として提示することもできる。ユーザは、分析対象として選択した属性値を分析観点として採用した場合の分析結果と、テキストマイニング装置100によって推薦候補として提示された分析観点からの分析結果と、を比較することにより、分析対象の属性値の固有な特徴を把握することができる。
 なお、複数の属性値の組合せを分析対象として指定してもよい。この場合、互いに異なる複数の属性が有する属性値の組合せを分析対象として指定することができる。
 分析部120は、データDTが含む各属性値を個別に分析観点として取得することもできるし、複数の属性値の組合せや、属性名と属性値とを含む属性そのものを分析観点として取得することもできる。
 類似度取得部140は、本実施形態のように自らベクトル類似度を算出してもよいし、あらかじめ外部の装置が算出し記憶しているベクトル類似度を取得してもよい。
 本実施形態では、50個の特徴語を分析結果として取得した。分析結果として取得する特徴語の数は任意に設定できる。また、特徴語以外の情報を分析結果として取得してもよい。
 例えば、各分析観点と対応付けられたテキスト内での各単語の出現頻度や出現回数を、各分析観点からの分析結果として取得してもよい。
 あるいは、各分析観点と対応付けられたテキスト内での各フレーズの出現頻度や出現回数を、各分析観点からの分析結果として取得してもよい。ここで、フレーズとは、複数の単語の連なりを指す。
 あるいは、各分析観点と対応付けられたテキスト内に出現するフレーズのうち、最も重み値が大きい所定数のフレーズ(特徴フレーズ)を、各分析観点からの分析結果として取得してもよい。
 あるいは、各分析観点と対応付けられたテキスト内に出現する係り受けや、各分析観点と対応付けられたテキスト内での各係り受けの出現頻度又は出現回数を、各分析観点からの分析結果として取得してもよい。ここで、係り受けとは、単語又はフレーズと、別の単語又はフレーズと、の間に存在する文法関係を指す。例えば、ある分析観点と対応付けられたテキスト内に、「コストパフォーマンスが高い」又は「高いコストパフォーマンス」と同等の内容の記載が7回出現したと仮定する。この場合、係り受けである「コストパフォーマンス&高い」と、その出現回数である「7」と、がこの分析観点からの分析結果の一つとして取得される。
 本実施形態では、データDTが含むテキストに含まれる全ての単語を要素(元)とするベクトルの、各分析観点からの分析結果に含まれる特徴語を示す要素に「1」の値を付与することで結果ベクトルを生成した。本実施形態で示した方法とは異なる方法によって結果ベクトルを生成することもできる。
 例えば、分析結果として取得した特徴語の全部ではなく、一部のみを用いて結果ベクトルを生成してもよい。
 あるいは、分析結果として取得したフレーズや係り受けを用いて結果ベクトルを生成してもよい。
 あるいは、各分析観点からの分析結果として、単語の出現頻度や出現回数、フレーズの出現頻度や出現回数、係り受けの出現頻度や出現回数、の何れかを取得する場合、これらの出現頻度又は出現頻度を要素とする結果ベクトルを生成してもよい。
 あるいは、分析結果以外の情報を含む結果ベクトルを生成してもよい。例えば、分析観点として属性値「男」を採用した場合の結果ベクトルが、その要素として、分析観点である属性値「男」と、属性値「男」を有する属性の有する属性名である「性別」と、を含むことができる。また、レコードID情報を用いて結果ベクトルを生成してもよい。例えば、レコードID情報で示されるレコードIDを要素として含む結果ベクトルを生成することができる。
 本実施形態では、ジャッカード係数をベクトル類似度として採用した。ジャッカード係数以外の集合間類似度をベクトル類似度として採用してもよい。
 例えば、共起頻度をベクトル類似度として採用することができる。互いに異なる2つの分析観点の結果ベクトルをそれぞれ集合A、Bと見なした場合、共起頻度K(A,B)は次の式(2)によって求めることができる。
Figure JPOXMLDOC01-appb-M000002
 あるいは、コサイン(cosine)係数(コサイン距離、コサイン類似度)をベクトル類似度として採用してもよい。コサイン係数C(A,B)は次の式(3)によって求めることができる。
Figure JPOXMLDOC01-appb-M000003
 あるいは、ダイス(dice)係数をベクトル類似度として採用してもよい。ダイス係数D(A,B)は次の式(4)によって求めることができる。
Figure JPOXMLDOC01-appb-M000004
 あるいは、オーバーラップ(overlap)係数(シンプソン(simpson)係数)をベクトル類似度として採用してもよい。オーバーラップ係数S(A,B)は次の式(5)によって求めることができる。
Figure JPOXMLDOC01-appb-M000005

 ここで、min(|A|,|B|)は、|A|又は|B|のうち、値がより小さい方を表す。
 本実施形態では、各組合せが含む分析観点の結果ベクトル間の類似度が最も高い所定数の組合せを推薦候補として抽出した。所定数の組合せを抽出するかわりに、生成された全ての組合せを、各組合せが含む分析観点の結果ベクトル間の類似度が高い順に並べたリストを作成し、このリストを表示してもよい。
 推薦候補として抽出した組合せを表示する際に、それぞれの組合せに含まれる各分析観点からの分析結果をあわせて表示してもよい。あるいは、推薦候補として表示された組合せに含まれる分析観点の何れかをユーザが選択した際に、選択された分析観点からの分析結果を表示してもよい。
 推薦候補として抽出した組合せを表示する際に、各組合せの推薦スコアをあわせて表示してもよい。ここで、推薦スコアとは、各組合せに含まれる分析観点の結果ベクトル間のベクトル類似度に応じて付与されるスコアである。
 推薦候補をグラフ等の図によって表示してもよい。また、推薦候補を、ディスプレイ等に表示するかわりに、音声等の非視覚的な方法によってユーザに提示してもよい。
(実施形態2)
 実施形態1ではテキストマイニング装置100が実行した推薦処理の一部を、テキストマイニング装置100以外の装置が行ってもよい。以下、テキストマイニング装置100とデータ記憶装置200とが協働して推薦処理を実行する、テキストマイニングシステム1000について説明する。
 テキストマイニングシステム1000は、図5に示すように、テキストマイニング装置100と、データ記憶装置200と、を含む。テキストマイニング装置100とデータ記憶装置200とは、有線LAN(Local Area Netowork)300によって互いに接続されている。
 テキストマイニング装置100は、機能的には、図5に示すように、ベクトル生成部130と、類似度取得部140と、推薦部150と、結果データ受信部160と、選択部170と、推薦データ送信部180と、を備えている。
 ベクトル生成部130、類似度取得部140、推薦部150の機能及び動作は、第1実施形態とほぼ同様である。
 結果データ受信部160は、後述するデータ記憶装置200が備える結果データ送信部230から結果データを受信する。
 選択部170は、ベクトル生成部130が生成した、複数の分析観点(属性値)を含む分析観点の組合せのうち、事前に設定した抽出条件を満たす組合せを抽出する。
 推薦データ送信部180は、推薦部150が抽出した推薦候補を示す推薦データを生成し、後述するデータ記憶装置200が備える推薦データ受信部240へ送信する。
 一方、データ記憶装置200は、機能的には、図5に示すように、記憶部210と、分析部220と、結果データ送信部230と、推薦データ受信部240と、表示部250と、を備える。
 記憶部210は、実施形態1のテキストマイニング装置100が備える記憶部110と同様に、テキストマイニングの対象となるデータDTをあらかじめ外部の入力装置から取りこみ記憶している。
 分析部220は、第1実施形態に係るテキストマイニング装置100が備える分析部120と同様の機能を備える。
 結果データ送信部230は、結果データを、テキストマイニング装置100が備える結果データ受信部160へ送信する。
 推薦データ受信部240は、テキストマイニング装置100が備える推薦データ送信部180から推薦データを受信する。
 表示部250は、推薦データで示される推薦候補を表示する。
 以下、テキストマイニングシステム1000の動作について、図6のフローチャートを用いて説明する。
 データ記憶装置200が備える記憶部210は、ユーザがテキストマイニングを行いたいと所望するデータDTを、外部の入力装置からあらかじめ取りこみ、記憶している。
 ユーザは、データDTに対してテキストマイニングを行いたいと所望する場合、データ記憶装置200が備える複数の動作モードの一つである推薦処理モードを選択する。
 ユーザが推薦処理モードを選択すると、データ記憶装置200は、図6のフローチャートに示す推薦処理を開始する。
 データ記憶装置の分析部220は、データDTが含む各属性が有する属性値を分析観点として取得する(ステップS201)。
 分析部220は、各分析観点からの分析結果を取得する(ステップS202)。具体的には、分析部220は、データDT中で分析観点として採用された属性値と対応付けられたテキストから特徴語を抽出し、各分析観点からの分析結果として取得する。
 分析部220は、ステップS202で取得した各分析観点からの分析結果を含む結果データを生成し(ステップS203)、結果データ送信部230へ送る。
 結果データ送信部230は、受け取った結果データを、テキストマイニング装置100の結果データ受信部160へ送信する(ステップS204)。
 結果データ受信部160は、結果データを受信し(ステップS205)、ベクトル生成部130へ送る。
 ベクトル生成部130は、受け取った結果データに基づいて、各分析観点の結果ベクトルを生成する(ステップS206)。具体的には、ベクトル生成部130は、データDTに含まれる全テキストに含まれる全ての単語を要素(元)とするベクトルの、ある分析観点からの分析結果として取得された単語(特徴語)の要素に「1」の値を付与し、それ以外の要素に「0」の値を付与することにより、当該分析観点の結果ベクトルを生成する。
 次に、ベクトル生成部130は、分析観点(属性値)を複数含む、分析観点の組合せを生成し(ステップS207)、選択部170へ送る。
 選択部170は、受け取った分析観点の組合せのうち、事前に設定した抽出条件を満たす組合せを抽出する(ステップS208)。
 具体的には、選択部170は、ステップS207で生成された組合せのうち、その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、「1」の値を有する要素の数が所定数以上であるような組合せを抽出する。これにより、選択部170は、結果ベクトルどうしが一定レベル以上に類似している分析観点の組合せのみを抽出することができる。
 類似度取得部140は、ステップS208で抽出された組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度(ジャッカード係数)を算出する(ステップS209)。
 推薦部150は、その組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度が最も高い、事前に設定した所定数の組合せを推薦候補として抽出する(ステップS210)。
 推薦データ送信部180は、ステップS210で抽出された推薦候補を示す推薦データを生成し、データ記憶装置200の推薦データ受信部240へ送信する(ステップS211)。
 推薦データ受信部240は、推薦データを受信し(ステップS212)、表示部250へ送る。表示部250は、受け取った推薦データによって示される推薦候補を表示し(ステップS213)、推薦処理を終了する。
 ユーザは、本実施形態に係るテキストマイニングシステム1000が推薦候補として提示した分析観点の組合せに含まれる各分析観点からの分析結果どうしを比較することにより、各分析観点からの分析結果に固有の特徴を把握することができる。
 本実施形態においては、実施形態1においてテキストマイニング装置100によって実行された推薦処理の一部(データDTの記憶、分析観点の取得、分析結果の取得、結果データの生成、推薦候補の表示)が、データ記憶装置200によって実行されている。このため、本実施形態に係るテキストマイニング装置100に係る処理負荷は、実施形態1に係るテキストマイニング装置100にかかる処理負荷と比べて小さい。
 本実施形態に係るテキストマイニング装置100は、生成した分析観点の組合せのうち事前に設定した抽出条件を満たす組合せを抽出し、抽出した組合せに含まれる分析観点についてのみ、各分析観点の結果ベクトル間のベクトル類似度を算出する。このため、本実施形態に係るテキストマイニング装置100にかかる処理負荷は、生成した全ての組合せに含まれる各分析観点の結果ベクトル間のベクトル類似度を算出する、実施形態1に係るテキストマイニング装置100にかかる処理負荷と比べて小さい。
 本実施形態に係るテキストマイニングシステム1000は、その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、「1」の値を有する要素の数が所定数以上であるような分析観点の組合せを抽出し、抽出した組合せの一部を推薦候補としてユーザに提示する。すなわち、その組合せが含む分析観点からの分析結果どうしが一定レベル以上に類似している組合せが推薦候補としてユーザに提示される。ユーザは、一定レベル以上に類似している分析結果どうしを比較できるため、各分析観点の固有な特徴を把握しやすい。
 本実施形態では、実施形態1においてテキストマイニング装置100が実行した処理のうち、データDTの記憶、分析観点の取得、分析結果の取得、結果データの生成、及び推薦候補の表示がデータ記憶装置200によって実行され、その他の処理はテキストマイニング装置100によって実行された。本実施形態で示した機能分担とは異なる、様々な機能分担が可能である。
 例えば、推薦データに基づく推薦候補の表示を、テキストマイニング装置100が行ってもよい。
 あるいは、結果ベクトルの生成、及び抽出条件を満たす分析観点の組合せの抽出をデータ記憶装置200が行うことにより、テキストマイニング装置100にかかる処理負荷を軽減してもよい。この場合、データ記憶装置200は、抽出した分析観点の組合せとこれらの組合せに含まれる各分析観点の結果ベクトルとをテキストマイニング装置100に送信する。抽出した分析観点に関する情報のみが送信されるため、本実施形態のように全ての分析観点について結果データを送信する場合に比べて、テキストマイニングシステム1000全体の動作の効率が改善される。
 本実施形態で、テキストマイニング装置100は、分析観点の組合せを抽出するために用いる抽出条件として、「その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、「1」の値を有する要素の数が所定数以上であること」を採用した。本実施形態で示した条件とは異なる、任意の条件を用いて分析観点の組合せを抽出してもよい。
 例えば、「その組合せに含まれる各分析観点からの分析結果間の簡易類似度が所定の閾値以上であること」を抽出条件として採用してもよい。ここで、簡易類似度とは、ベクトル類似度よりも簡易に得られる任意の類似度である。簡易類似度は、例えば、各分析観点の結果ベクトル間の内積や距離である。
 あるいは、「その組合せに含まれる各分析観点の結果ベクトルが共通して有する要素であって、所定の閾値より大きな値を有する要素の数が所定の数以上であること」を抽出条件として採用してもよい。例えば、結果ベクトルが単語の出現頻度を要素として含む場合、所定の閾値より出現頻度の高い単語を所定数以上共有している分析観点の組合せが抽出条件を満たす組合せとして抽出される。分析結果に頻繁に出現する単語は、その分析結果の特徴を示す単語だと推定できる。ユーザは、特徴を示す単語が共通している分析結果どうしを比較することで、各分析観点の固有な特徴を効率的に把握できる。
 あるいは、「その組合せに含まれる各分析観点どうしのレコード類似度が所定の閾値以下であること」を抽出条件として採用してもよい。ここで、レコード類似度とは、レコードID情報間の類似度である。具体的には、互いに異なる分析観点のレコードID情報に共通して含まれるレコードIDの数や、互いに異なる分析観点のレコードID情報に共通して含まれるレコードIDの数の、各分析観点のレコードID情報に含まれるレコードIDの総数に対する比率(共有率)をレコード類似度として採用することができる。例えば、本実施形態で、アンケートに回答した男性が全員30代だったと仮定する。この場合、属性値「男」を分析観点として採用した場合の分析結果と、属性値「30代」を分析観点とした場合の分析結果と、の間に高い類似性があると推定できる。しかし、この類似性は、サンプルの偏りによって生じた偽の類似性に過ぎない。偽の類似性を有する2つの分析結果を比較することにより、ユーザが各分析観点の特徴を誤って認識してしまう可能性がある。レコード類似度が極端に高い分析観点の組合せを排除することにより、サンプルの偏りが原因で生じた、分析結果間の偽の類似性を排除できる。
 本実施形態では単一の条件を抽出条件として採用した。複数の条件の組合せを抽出条件として採用してもよい。複数の条件を抽出条件として採用する場合、各絞り込みに要する時間や各絞り込みによる選択率の高さ等を考慮して各条件による絞り込みの順番(フィルタリングの順番)を設定することにより、全体の処理時間を短縮できる。
 抽出条件を満たす分析観点の組合せは、非特許文献1(立石健二、他1名、「Multi-level prefix-filterを用いた高速重複文書照合」、[online]、日本データベース学会、[平成24年12月12日検索]、インターネット(URL: www.dbsj.org/journal/vol5/no4/tateishi.pdf))及び非特許文献2(岡崎直観、他1名、「集合間類似度に対する簡潔かつ高速な類似文字列検索アルゴリズム」、[online]、 [平成24年12月12日検索]、インターネット(URL: www.chokkan.org/publication/okazaki_jnlp2011.pdf))に開示された方法によって抽出することもできる。非特許文献1及び2に開示された方法によれば、高速で、結果ベクトル間の類似度を実際に計算することなく、抽出条件を満たす組合せを抽出することができる。
 上述の機能構成を備え、上述の推薦処理を行うテキストマイニング装置100及びデータ記憶装置200は、図7に示すように、制御部11、主記憶部12、外部記憶部13、操作部14、表示部15、送受信部16、及びこれらを相互に接続する内部バス18をハードウェア構成として備える。
 制御部11は、CPU(Central Processing Unit)を備える。制御部11は、外部記憶部13が記憶している制御プログラム17を実行することによりテキストマイニング装置100及びデータ記憶装置200全体を制御し、テキストマイニング装置100及びデータ記憶装置200が備える上述の各種機能を実現する。テキストマイニング装置100の分析部120、ベクトル生成部130、類似度取得部140、推薦部150、選択部170は、制御部11によって実現される。また、データ記憶装置200の分析部220も、制御部11によって実現される。
 主記憶部12は、RAM(Random-Access Memory)を備える。主記憶部12は制御部11のワークエリアとして機能し、制御プログラム17やテキストマイニングプログラムを含む各種プログラムが主記憶部12に一時的に展開される。
 外部記憶部13は、不揮発性メモリ(例えば、フラッシュメモリ、ハードディスク、DVD-RAM(Digital Versatile Disc Random-Access Memory)、DVD-RW(Digital Versatile Disc ReWritable等)を備える。外部記憶部13は、制御部11が実行する制御プログラム17やテキストマイニングプログラムを含む各種プログラムや、種々の固定データを固定的に記憶している。外部記憶部13は、記憶しているデータを制御部11に供給したり、制御部11から供給されたデータを記憶したりする。テキストマイニング装置100の記憶部110と、データ記憶装置200の記憶部210と、は外部記憶部13によって実現される。
 操作部14は、キーボードやマウスを備え、ユーザによる操作を受け付ける。
 表示部15は、推薦候補を含む各種情報を表示する。表示部15は、例えば、CRT(Cathode Ray Tube)やLCD(Liquid Crystal Display)を備える。データ記憶装置200の表示部250は、表示部15によって実現される。
 送受信部16は、ネットワークに接続する網終端装置又は有線通信装置と、これらと接続するシリアルインターフェース又はLANインターフェースと、を備える。テキストマイニング装置100の結果データ受信部160及び推薦データ送信部180と、データ記憶装置200の結果データ送信部230及び推薦データ受信部240と、は送受信部16によって実現される。
 内部バス18は、制御部11~送受信部16を相互に接続している。
 テキストマイニング装置100及びデータ記憶装置200は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、テキストマイニング装置100及びデータ記憶装置200の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体(フレキシブルディスク、CD-ROM、DVD-ROMなど)に格納して配布し、該コンピュータプログラムをコンピュータにインストールすることにより、上述の処理を実行するテキストマイニング装置100及びデータ記憶装置200を構成してもよい。また、インターネットなどの通信ネットワーク上のサーバ装置が有する記憶装置に該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロードなどすることでテキストマイニング装置100及びデータ記憶装置200を構成してもよい。
 なお、テキストマイニング装置100及びデータ記憶装置200の各種機能を、OS(オペレーティングシステム)とアプリケーションプログラムとの分担、又はOSとアプリケーションプログラムとの協働により実現する場合には、アプリケーション部分のみを外部記憶部13や記録媒体、記憶装置等に格納してもよい。
 また、搬送波にアプリケーションプログラムを重畳し、通信ネットワークを介して配信することも可能である。例えば、通信ネットワーク上の掲示板(BBS:Bulletin Board System)にアプリケーションプログラムを掲示し、ネットワークを介してアプリケーションプログラムを配信してもよい。そして、このアプリケーションプログラムをコンピュータにインストールして起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
 その他、上記のハードウェア構成やフローチャート、閾値、パラメタ等は一例に過ぎず、任意に変更及び修正が可能である。
 上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られない。
(付記1)
 テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部と、
 複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部と、
 前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部と、
 を備える、 
 ことを特徴とするテキストマイニング装置。
(付記2)
 前記結果ベクトルは、前記各分析観点からの分析の結果に含まれる一つ以上のデータに基づいて生成される、
 ことを特徴とする付記1に記載のテキストマイニング装置。
(付記3)
 前記各分析観点からの分析の結果は、前記テキストに含まれる単語、前記テキストに含まれる単語の出現頻度、前記テキストに含まれる単語の出現回数、前記テキストに含まれる係り受け、前記テキストに含まれるフレーズ、の少なくとも何れか一つを含む、
 ことを特徴とする付記1又は2に記載のテキストマイニング装置。
(付記4)
 前記分析観点の組合せのうち、抽出条件を満たす分析観点の組合せを抽出する選択部を更に備え、
 前記類似度取得部は、前記選択部によって抽出された前記分析観点の組合せについて、各分析観点の組合せに含まれる分析観点の結果ベクトル間のベクトル類似度を取得する、
 ことを特徴とする付記1乃至3の何れか一つに記載のテキストマイニング装置。
(付記5)
 前記抽出条件は、その分析観点の組合せに含まれる分析観点の結果ベクトル間の簡易類似度が所定の閾値よりも高い分析観点の組合せであること、その分析観点の組合せに含まれる分析観点の結果ベクトルが共通して有する要素であって、所定の閾値以上の値を有する要素の数が所定の数以上であること、各分析観点と対応付けられたテキストを示す識別情報間の類似度が、その分析観点の組合せに含まれる分析観点の識別情報間において所定の閾値以下であること、の少なくとも何れか一つを含む、
 ことを特徴とする付記4に記載のテキストマイニング装置。
(付記6)
 付記1乃至5の何れか一つに記載のテキストマイニング装置と、
 前記データをあらかじめ記憶しているデータ記憶装置と、
 を備える、
 ことを特徴とするテキストマイニングシステム。
(付記7)
 テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析ステップと、
 複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得ステップと、
 前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦ステップと、
 を備える、 
 ことを特徴とするテキストマイニング方法。
(付記8)
 コンピュータを、
 テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部、
 複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部、
 前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部、
 として機能させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
 なお、本発明は、本発明の広義の精神と範囲とを逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本発明を説明するためのものであり、本発明の範囲を限定するものではない。つまり、本発明の範囲は、実施形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、本発明の範囲とみなされる。
 本出願は、2013年1月11日に出願された日本国特許出願2013-003990号に基づく。本明細書中に日本国特許出願2013-003990号の明細書、特許請求の範囲、図面全体を参照として取り込むものとする。
 本発明は、ユーザが、テキストマイニングにおける、各分析観点からの分析の結果に固有な特徴を把握することを可能にする。このため、本発明は、アンケート結果等の膨大なテキストデータから有用な情報を抽出することが求められる、マーケティング等の分野において有用である。
11…制御部
12…主記憶部
13…外部記憶部
14…操作部
15…表示部
16…送受信部
17…制御プログラム
18…内部バス
100…テキストマイニング装置
110…記憶部
120…分析部
130…ベクトル生成部
140…類似度取得部
150…推薦部
160…結果データ受信部
170…選択部
180…推薦データ送信部
200…データ記憶装置
210…記憶部
220…分析部
230…結果データ送信部
240…推薦データ受信部
250…表示部
300…有線LAN
1000…テキストマイニングシステム

Claims (8)

  1.  テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部と、
     複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部と、
     前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部と、
     を備える、 
     ことを特徴とするテキストマイニング装置。
  2.  前記結果ベクトルは、前記各分析観点からの分析の結果に含まれる一つ以上のデータに基づいて生成される、
     ことを特徴とする請求項1に記載のテキストマイニング装置。
  3.  前記各分析観点からの分析の結果は、前記テキストに含まれる単語、前記テキストに含まれる単語の出現頻度、前記テキストに含まれる単語の出現回数、前記テキストに含まれる係り受け、前記テキストに含まれるフレーズ、の少なくとも何れか一つを含む、
     ことを特徴とする請求項1又は2に記載のテキストマイニング装置。
  4.  前記分析観点の組合せのうち、抽出条件を満たす分析観点の組合せを抽出する選択部を更に備え、
     前記類似度取得部は、前記選択部によって抽出された前記分析観点の組合せについて、各分析観点の組合せに含まれる分析観点の結果ベクトル間のベクトル類似度を取得する、
     ことを特徴とする請求項1乃至3の何れか1項に記載のテキストマイニング装置。
  5.  前記抽出条件は、その分析観点の組合せに含まれる分析観点の結果ベクトル間の簡易類似度が所定の閾値よりも高い分析観点の組合せであること、その分析観点の組合せに含まれる分析観点の結果ベクトルが共通して有する要素であって、所定の閾値以上の値を有する要素の数が所定の数以上であること、各分析観点と対応付けられたテキストを示す識別情報間の類似度が、その分析観点の組合せに含まれる分析観点の識別情報間において所定の閾値以下であること、の少なくとも何れか一つを含む、
     ことを特徴とする請求項4に記載のテキストマイニング装置。
  6.  請求項1乃至5の何れか1項に記載のテキストマイニング装置と、
     前記データをあらかじめ記憶しているデータ記憶装置と、
     を備える、
     ことを特徴とするテキストマイニングシステム。
  7.  テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析ステップと、
     複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得ステップと、
     前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦ステップと、
     を備える、 
     ことを特徴とするテキストマイニング方法。
  8.  コンピュータを、
     テキストと、属性名及び属性値を有する、前記テキストに対応付けられた一つ以上の属性と、を含むデータから前記属性を分析観点として取得し、前記各分析観点を用いて前記データを分析することで各分析観点からの分析の結果を取得し、前記各分析観点の結果ベクトルを生成する分析部、
     複数の前記各分析観点の結果ベクトル間のベクトル類似度を取得する類似度取得部、
     前記分析観点の組合せを、前記ベクトル類似度に基づいて推薦候補として抽出し提示する推薦部、
     として機能させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2014/050333 2013-01-11 2014-01-10 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体 WO2014109388A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014556450A JP6229665B2 (ja) 2013-01-11 2014-01-10 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム
US14/759,264 US20150356152A1 (en) 2013-01-11 2014-01-10 Text mining device, text mining method, and recording medium
CN201480004597.5A CN104919458B (zh) 2013-01-11 2014-01-10 文本挖掘设备、文本挖掘方法和记录介质

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-003990 2013-01-11
JP2013003990 2013-01-11

Publications (1)

Publication Number Publication Date
WO2014109388A1 true WO2014109388A1 (ja) 2014-07-17

Family

ID=51167034

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/050333 WO2014109388A1 (ja) 2013-01-11 2014-01-10 テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及び記録媒体

Country Status (4)

Country Link
US (1) US20150356152A1 (ja)
JP (1) JP6229665B2 (ja)
CN (1) CN104919458B (ja)
WO (1) WO2014109388A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105307023A (zh) * 2015-10-30 2016-02-03 北京奇艺世纪科技有限公司 应用推荐方法、装置及视频推荐方法、装置
JP2016099741A (ja) * 2014-11-19 2016-05-30 株式会社東芝 情報抽出支援装置、方法およびプログラム
WO2017122437A1 (ja) * 2016-01-12 2017-07-20 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10198498B2 (en) * 2015-05-13 2019-02-05 Rovi Guides, Inc. Methods and systems for updating database tags for media content
CN105426534A (zh) * 2015-12-21 2016-03-23 华为技术有限公司 信息确定方法及装置
JP6472573B2 (ja) * 2016-03-28 2019-02-20 三菱電機株式会社 データ分析手法候補決定装置
CN106777304B (zh) * 2016-12-30 2020-03-20 中国民航信息网络股份有限公司 主题的推送方法及装置
CN107122394B (zh) * 2017-03-10 2020-02-14 博彦科技股份有限公司 异常数据检测方法和装置
US9996527B1 (en) 2017-03-30 2018-06-12 International Business Machines Corporation Supporting interactive text mining process with natural language and dialog
CN109840321B (zh) 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备
CN108763221B (zh) * 2018-06-20 2022-05-17 科大讯飞股份有限公司 一种属性名表征方法及装置
CN111797204A (zh) * 2020-07-01 2020-10-20 北京三快在线科技有限公司 文本匹配方法、装置、计算机设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301786A (ja) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
JP2010108268A (ja) * 2008-10-30 2010-05-13 Toshiba Corp 文書処理装置
JP2012043113A (ja) * 2010-08-18 2012-03-01 Fuji Xerox Co Ltd プログラム及び診療支援装置
JP2012093966A (ja) * 2010-10-27 2012-05-17 Toshiba Corp 文書分析装置およびプログラム
JP2012198809A (ja) * 2011-03-22 2012-10-18 Toshiba Corp 文書分析装置およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411754A (zh) * 2011-11-29 2012-04-11 南京大学 一种基于商品属性熵值的个性化推荐方法
CN102446254B (zh) * 2011-12-30 2014-08-06 中国信息安全测评中心 一种基于文本挖掘的相似漏洞查询方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005301786A (ja) * 2004-04-14 2005-10-27 Internatl Business Mach Corp <Ibm> 評価装置、クラスタ生成装置、プログラム、記録媒体、評価方法、及びクラスタ生成方法
JP2008027057A (ja) * 2006-07-19 2008-02-07 Fuji Xerox Co Ltd 分類情報管理装置、分類情報管理システムおよび分類情報管理プログラム
JP2010108268A (ja) * 2008-10-30 2010-05-13 Toshiba Corp 文書処理装置
JP2012043113A (ja) * 2010-08-18 2012-03-01 Fuji Xerox Co Ltd プログラム及び診療支援装置
JP2012093966A (ja) * 2010-10-27 2012-05-17 Toshiba Corp 文書分析装置およびプログラム
JP2012198809A (ja) * 2011-03-22 2012-10-18 Toshiba Corp 文書分析装置およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099741A (ja) * 2014-11-19 2016-05-30 株式会社東芝 情報抽出支援装置、方法およびプログラム
CN105307023A (zh) * 2015-10-30 2016-02-03 北京奇艺世纪科技有限公司 应用推荐方法、装置及视频推荐方法、装置
CN105307023B (zh) * 2015-10-30 2018-04-13 北京奇艺世纪科技有限公司 应用推荐方法、装置及视频推荐方法、装置
WO2017122437A1 (ja) * 2016-01-12 2017-07-20 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10650083B2 (en) 2016-01-12 2020-05-12 Sony Corporation Information processing device, information processing system, and information processing method to determine correlation of data

Also Published As

Publication number Publication date
JP6229665B2 (ja) 2017-11-15
JPWO2014109388A1 (ja) 2017-01-19
US20150356152A1 (en) 2015-12-10
CN104919458B (zh) 2018-12-14
CN104919458A (zh) 2015-09-16

Similar Documents

Publication Publication Date Title
JP6229665B2 (ja) テキストマイニング装置、テキストマイニングシステム、テキストマイニング方法及びプログラム
CN107657048B (zh) 用户识别方法及装置
CN107346336B (zh) 基于人工智能的信息处理方法和装置
US20080301105A1 (en) Methodologies and analytics tools for locating experts with specific sets of expertise
US10599760B2 (en) Intelligent form creation
WO2010026900A1 (ja) 関係性発見装置、関係性発見方法および記録媒体
US20130204835A1 (en) Method of extracting named entity
JP6605410B2 (ja) 感情要因推定支援装置、感情要因推定支援方法及び感情要因推定支援用プログラム
CN108536676B (zh) 数据处理方法、装置、电子设备及存储介质
CN114817715A (zh) 一种隐私保护的物联网实体服务搜索方法
WO2019088084A1 (ja) 因果文解析装置、因果文解析システム、プログラム、及び因果文解析方法
US20170242851A1 (en) Non-transitory computer readable medium, information search apparatus, and information search method
US10769534B2 (en) Evaluation target of interest extraction apparatus and program
WO2019100031A9 (en) System and method based on sliding-scale cluster groups for precise look-alike modeling
US10838880B2 (en) Information processing apparatus, information processing method, and recording medium that provide information for promoting discussion
Zhao et al. Advance gender prediction tool of first names and its use in analysing gender disparity in Computer Science in the UK, Malaysia and China
JP2014174781A (ja) アイテム推薦システム、アイテム推薦方法およびアイテム推薦プログラム
JP5700007B2 (ja) 情報処理装置、方法、およびプログラム
Oh et al. Efficient semantic network construction with application to PubMed search
CN114610859A (zh) 基于内容与协同过滤的产品推荐方法、装置及设备
JP2015036892A (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2016013175A1 (ja) テキスト処理システム、テキスト処理方法およびテキスト処理プログラム
KR102078541B1 (ko) 이슈 관심도 기반의 뉴스 가치 평가 장치 및 방법, 이를 기록한 기록매체
JP2021056857A (ja) 情報処理システム、情報処理方法、プログラム
Gündoğan et al. Evaluation of session-suitability of papers in conference programs

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14737673

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014556450

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14759264

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14737673

Country of ref document: EP

Kind code of ref document: A1