KR102180487B1 - Text mining method, text mining program, and text mining device - Google Patents
Text mining method, text mining program, and text mining device Download PDFInfo
- Publication number
- KR102180487B1 KR102180487B1 KR1020197000933A KR20197000933A KR102180487B1 KR 102180487 B1 KR102180487 B1 KR 102180487B1 KR 1020197000933 A KR1020197000933 A KR 1020197000933A KR 20197000933 A KR20197000933 A KR 20197000933A KR 102180487 B1 KR102180487 B1 KR 102180487B1
- Authority
- KR
- South Korea
- Prior art keywords
- screen
- analysis
- text
- data
- group
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/358—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
텍스트 분석 스텝 (S109 ∼ S110) 에서는, 입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시한다. 화면 생성 스텝 (S111) 에서는, 그룹 수 (m) 와 그룹 내의 최대 데이터 수 (n) 에 기초하여, 텍스트 분석 스텝에 의한 분석 결과로부터 m 개의 클러스터를 구하고, 클러스터에 포함되는 단어를 n 개 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성한다. 분석 결과 표시 스텝 (S112) 에서는, 생성된 화면 데이터에 기초하여, 화면을 표시한다. 이로 인해, 계층적 클러스터 분석의 결과를 이용자가 직감적으로 이해할 수 있도록 화면에 표시한다.In the text analysis steps S109 to S110, hierarchical cluster analysis is performed on words extracted from the input text data. In the screen generation step S111, based on the number of groups (m) and the maximum number of data in the group (n), m clusters are obtained from the analysis result by the text analysis step, and n or less words included in the cluster are included. Create screen data for displaying a group of actions on the screen. In the analysis result display step S112, a screen is displayed based on the generated screen data. For this reason, the results of the hierarchical cluster analysis are displayed on the screen so that users can intuitively understand them.
Description
본 발명은, 텍스트 마이닝에 관한 것으로, 특히, 텍스트 데이터의 분석 결과를 화면에 표시하는 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치에 관한 것이다.The present invention relates to text mining, and more particularly, to a text mining method, a text mining program, and a text mining apparatus for displaying an analysis result of text data on a screen.
최근, 자유롭게 기술된 대량의 텍스트 데이터를 해석하고, 해석 결과로부터 유용한 정보를 구하는 텍스트 마이닝이 주목받고 있다. 텍스트 마이닝에서는, 예를 들어, 분석 대상인 텍스트 데이터로부터 단어를 추출하여, 단어의 출현 빈도나 출현 경향 등을 해석함으로써, 정보를 구한다.In recent years, text mining that analyzes a large amount of freely described text data and obtains useful information from the analysis results has attracted attention. In text mining, for example, information is obtained by extracting words from text data to be analyzed and analyzing the frequency and tendency of the words to appear.
이하, 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하고, 분석 결과를 화면에 표시하는 텍스트 마이닝 장치에 대해 검토한다. 계층적 클러스터 분석에서는, 단어간의 유사도에 기초하여, 유사도가 높은 단어를 포함하는 클러스터가 계층적으로 작성된다. 일반적으로, 계층적 클러스터 분석의 결과는, 도 15 에 나타내는 수형도 (樹形圖) (덴드로그램) 를 사용하여 이용자 (분석자) 에게 제공된다.Hereinafter, a hierarchical cluster analysis is performed on words extracted from text data, and a text mining device that displays the analysis result on a screen is examined. In hierarchical cluster analysis, clusters including words with high similarity are hierarchically created based on the similarity between words. In general, the result of hierarchical cluster analysis is provided to a user (analyzer) using a tree diagram (dendogram) shown in FIG. 15.
본원 발명에 관련하여, 특허문헌 1 에는, 수형도를 구축하고, 수형도를 탐색하여 하층에서부터 상층을 특정 가능한 인덱스를 생성하여 기억 수단에 기억시키는 계층적 클러스터링 수단을 갖는 클러스터링 장치가 기재되어 있다. 특허문헌 2 에는, 키워드간의 거리를 산출하고, 키워드로부터 키워드간의 거리를 탐색 가능한 거리 행렬 데이터를 생성하여 기억 수단에 기억시키는 거리 행렬 계산 수단과, 거리 행렬을 사용하여 키워드를 계층적 클러스터링하고, 구축된 수형도를 하층에서부터 상층으로 탐색 가능한 보텀 업 인덱스로서 기억 수단에 기억시키는 클러스터링 수단을 갖는 쿼리 제공 장치가 기재되어 있다.In connection with the present invention,
종래의 텍스트 마이닝 장치는, 계층적 클러스터 분석의 결과를 수형도를 사용하여 화면에 표시한다. 그러나, 이와 같은 텍스트 마이닝 장치에는, 이용자가 분석 결과를 직감적으로 이해할 수 없다는 문제가 있다. 예를 들어, 이용자는, 도 15 에 나타내는 분석 결과에 있어서 클러스터 수를 4 로 설정할 때에는, 도 16 에 나타내는 바와 같이, 수형도 상에 절단선을 설정한다. 그러나, 이용자는, 이와 같은 수형도를 본 것 만으로는, 각 클러스터에 포함되는 단어를 직감적으로 인식할 수 없다. 또, 이용자는, 단어 수가 많을 때에 클러스터 수를 변경한 경우에는, 각 클러스터에 포함되는 단어가 어떻게 변화할지를 직감적으로 파악할 수 없다.A conventional text mining apparatus displays the results of hierarchical cluster analysis on a screen using a tree diagram. However, such a text mining apparatus has a problem that the user cannot intuitively understand the analysis result. For example, when the user sets the number of clusters to 4 in the analysis result shown in FIG. 15, as shown in FIG. 16, a cut line is set on the tree diagram. However, the user cannot intuitively recognize words included in each cluster just by looking at such a tree diagram. Further, when the number of clusters is changed when the number of words is large, the user cannot intuitively grasp how the words included in each cluster will change.
또, 수형도에는 단어의 출현 빈도가 기재되어 있지 않기 때문에, 이용자는 어느 단어가 중요한지를 알 수 없다. 또, 분석 대상인 텍스트 데이터가 연월일이나 시각 등의 정보를 갖는 시계열 데이터인 경우에는, 이용자는 분석 결과의 시간적인 변화를 알 것을 요망하는 경우가 있다. 그러나, 종래의 텍스트 마이닝 장치에서는, 이용자의 이와 같은 요망에 부응할 수 없다.In addition, since the frequency of appearance of words is not described in the tree diagram, the user cannot know which words are important. In addition, when the text data to be analyzed is time series data having information such as year, month, date and time, the user may request to know the temporal change of the analysis result. However, in the conventional text mining apparatus, such a request of a user cannot be met.
그 때문에, 본 발명은, 계층적 클러스터 분석의 결과를 이용자가 직감적으로 이해할 수 있도록 화면에 표시하는 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치를 제공하는 것을 목적으로 한다.Therefore, an object of the present invention is to provide a text mining method, a text mining program, and a text mining device that display the results of hierarchical cluster analysis on a screen so that users can intuitively understand them.
본 발명의 제 1 국면은, 텍스트 데이터의 분석 결과를 화면에 표시하는 텍스트 마이닝 방법으로서,A first aspect of the present invention is a text mining method for displaying an analysis result of text data on a screen,
입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 텍스트 분석 스텝과,A text analysis step that performs hierarchical cluster analysis on words extracted from the input text data,
상기 텍스트 분석 스텝에 의한 분석 결과에 기초하여, 화면 데이터를 생성하는 화면 생성 스텝과,A screen generation step for generating screen data based on the analysis result by the text analysis step,
상기 화면 데이터에 기초하여, 화면을 표시하는 분석 결과 표시 스텝을 구비하고,An analysis result display step of displaying a screen based on the screen data,
상기 화면 생성 스텝은, 그룹 수와 그룹 내의 최대 데이터 수에 기초하여, 상기 분석 결과로부터 상기 그룹 수의 클러스터를 구하고, 상기 클러스터에 포함되는 단어를 상기 최대 데이터 수 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 한다.The screen generation step, based on the number of groups and the maximum number of data in the group, obtains a cluster of the number of groups from the analysis result, and displays a group including words included in the cluster less than the maximum number of data on the screen. It characterized in that it generates screen data for.
본 발명의 제 2 국면은, 본 발명의 제 1 국면에 있어서,In the second aspect of the present invention, in the first aspect of the present invention,
상기 그룹에 포함되는 단어는, 상기 그룹에 대응하는 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로 선택되는 것을 특징으로 한다.The words included in the group may be selected in the order of their appearance frequency from among words included in the cluster corresponding to the group.
본 발명의 제 3 국면은, 본 발명의 제 2 국면에 있어서,The third aspect of the present invention, in the second aspect of the present invention,
상기 그룹은, 상기 화면 내에서, 상기 그룹에 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는 것을 특징으로 한다.The group is characterized in that it has a size according to the sum of the frequency of appearance of words included in the cluster corresponding to the group in the screen.
본 발명의 제 4 국면은, 본 발명의 제 3 국면에 있어서,In the fourth aspect of the present invention, in the third aspect of the present invention,
상기 그룹에 포함되는 단어는, 상기 화면 내에서, 상기 단어의 출현 빈도에 따른 사이즈를 갖는 것을 특징으로 한다.Words included in the group are characterized in that they have a size according to the frequency of appearance of the word in the screen.
본 발명의 제 5 국면은, 본 발명의 제 1 국면에 있어서,In the fifth aspect of the present invention, in the first aspect of the present invention,
이용자로부터의 지시를 입력하기 위한 지시 입력 스텝을 추가로 구비하고,An instruction input step for inputting an instruction from the user is further provided,
상기 텍스트 분석 스텝 및 상기 화면 생성 스텝 중의 어느 것이, 상기 지시 입력 스텝에서 입력된 지시에 기초하여 실행되는 것을 특징으로 한다.Any of the text analysis step and the screen generation step is performed based on an instruction input in the instruction input step.
본 발명의 제 6 국면은, 본 발명의 제 5 국면에 있어서,In the sixth aspect of the present invention, in the fifth aspect of the present invention,
상기 지시 입력 스텝은 상기 그룹 수의 설정 지시를 받고,The instruction input step receives an instruction for setting the number of groups,
상기 화면 생성 스텝은, 상기 지시 입력 스텝에서 설정된 그룹 수에 기초하여, 상기 화면 데이터를 생성하는 것을 특징으로 한다.The screen generation step is characterized in that the screen data is generated based on the number of groups set in the instruction input step.
본 발명의 제 7 국면은, 본 발명의 제 5 국면에 있어서,In the seventh aspect of the present invention, in the fifth aspect of the present invention,
상기 지시 입력 스텝은 상기 최대 데이터 수의 설정 지시를 받고,The instruction input step receives an instruction to set the maximum number of data,
상기 화면 생성 스텝은, 상기 지시 입력 스텝에서 설정된 최대 데이터 수에 기초하여, 상기 화면 데이터를 생성하는 것을 특징으로 한다.The screen generation step is characterized in that the screen data is generated based on the maximum number of data set in the instruction input step.
본 발명의 제 8 국면은, 본 발명의 제 5 국면에 있어서,In the eighth aspect of the present invention, in the fifth aspect of the present invention,
상기 지시 입력 스텝은 분석 대상 기간의 설정 지시를 받고,The instruction input step receives an instruction for setting an analysis target period,
상기 텍스트 분석 스텝은, 상기 텍스트 데이터 중 상기 지시 입력 스텝에서 설정된 분석 대상 기간 내의 텍스트 데이터에 포함되는 단어에 대해, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 한다.The text analysis step is characterized in that, among the text data, the hierarchical cluster analysis is performed on words included in the text data within the analysis target period set in the instruction input step.
본 발명의 제 9 국면은, 본 발명의 제 5 국면에 있어서,In the ninth aspect of the present invention, in the fifth aspect of the present invention,
상기 지시 입력 스텝은 분석 목적의 설정 지시를 받고,The instruction input step receives an instruction for setting the purpose of analysis,
상기 텍스트 분석 스텝은, 상기 텍스트 데이터로부터 상기 지시 입력 스텝에서 설정된 분석 목적에 따른 종류의 단어를 추출하여, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 한다.The text analysis step is characterized in that the hierarchical cluster analysis is performed by extracting a word of a type according to an analysis purpose set in the instruction input step from the text data.
본 발명의 제 10 국면은, 본 발명의 제 5 국면에 있어서,In the tenth aspect of the present invention, in the fifth aspect of the present invention,
상기 지시 입력 스텝은 단어 제외 지시를 받고,The instruction input step receives an instruction to exclude words,
상기 텍스트 분석 스텝은, 상기 지시 입력 스텝에서 지시된 단어를 제외하고, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 한다.The text analysis step is characterized in that the hierarchical cluster analysis is performed by excluding the words indicated in the instruction input step.
본 발명의 제 11 국면은, 본 발명의 제 5 국면에 있어서,In the eleventh aspect of the present invention, in the fifth aspect of the present invention,
상기 지시 입력 스텝은 유의어 등록 지시를 받고,The instruction input step receives a synonym registration instruction,
상기 텍스트 분석 스텝은, 상기 지시 입력 스텝에서 지시된 복수의 단어를 동일한 단어로 간주하여, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 한다.The text analysis step is characterized in that the hierarchical cluster analysis is performed by considering a plurality of words indicated in the instruction input step as the same word.
본 발명의 제 12 국면은, 본 발명의 제 5 국면에 있어서,In the twelfth aspect of the present invention, in the fifth aspect of the present invention,
상기 지시 입력 스텝은 복합어 등록 지시를 받고,The instruction input step receives a compound word registration instruction,
상기 텍스트 분석 스텝은, 상기 지시 입력 스텝에서 지시된 복수의 단어를 1 개의 단어로 병합하여, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 한다.The text analysis step is characterized in that the hierarchical cluster analysis is performed by merging a plurality of words indicated in the instruction input step into one word.
본 발명의 제 13 국면은, 본 발명의 제 1 국면에 있어서,In the thirteenth aspect of the present invention, in the first aspect of the present invention,
상기 화면 생성 스텝은, 상기 그룹을 포함하는 분석 결과 화면과, 상기 분석 결과 화면의 표시 양태를 설정하기 위한 분석 설정 화면을 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 한다.The screen generation step is characterized by generating screen data for displaying an analysis result screen including the group and an analysis setting screen for setting a display mode of the analysis result screen.
본 발명의 제 14 국면은, 텍스트 데이터의 분석 결과를 화면에 표시하는 텍스트 마이닝 프로그램으로서,A fourteenth aspect of the present invention is a text mining program that displays an analysis result of text data on a screen,
입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 텍스트 분석 스텝과,A text analysis step that performs hierarchical cluster analysis on words extracted from the input text data,
상기 텍스트 분석 스텝에 의한 분석 결과에 기초하여, 화면 데이터를 생성하는 화면 생성 스텝과,A screen generation step for generating screen data based on the analysis result by the text analysis step,
상기 화면 데이터에 기초하여, 화면을 표시하는 분석 결과 표시 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,Based on the screen data, the CPU executes the analysis result display step of displaying a screen in the computer using a memory,
상기 화면 생성 스텝은, 그룹 수와 그룹 내의 최대 데이터 수에 기초하여, 상기 분석 결과로부터 상기 그룹 수의 클러스터를 구하고, 상기 클러스터에 포함되는 단어를 상기 최대 데이터 수 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 한다.The screen generation step, based on the number of groups and the maximum number of data in the group, obtains a cluster of the number of groups from the analysis result, and displays a group including words included in the cluster less than the maximum number of data on the screen. It characterized in that it generates screen data for.
본 발명의 제 15 국면은, 본 발명의 제 14 국면에 있어서,In the fifteenth aspect of the present invention, in the fourteenth aspect of the present invention,
상기 그룹에 포함되는 단어는, 상기 그룹에 대응하는 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로 선택되는 것을 특징으로 한다.The words included in the group may be selected in the order of their appearance frequency from among words included in the cluster corresponding to the group.
본 발명의 제 16 국면은, 본 발명의 제 15 국면에 있어서,In the sixteenth aspect of the present invention, in the fifteenth aspect of the present invention,
상기 그룹은, 상기 화면 내에서, 상기 그룹에 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는 것을 특징으로 한다.The group is characterized in that it has a size according to the sum of the frequency of appearance of words included in the cluster corresponding to the group in the screen.
본 발명의 제 17 국면은, 본 발명의 제 16 국면에 있어서,In the seventeenth aspect of the present invention, in the sixteenth aspect of the present invention,
상기 그룹에 포함되는 단어는, 상기 화면 내에서, 상기 단어의 출현 빈도에 따른 사이즈를 갖는 것을 특징으로 한다.Words included in the group are characterized in that they have a size according to the frequency of appearance of the word in the screen.
본 발명의 제 18 국면은, 본 발명의 제 14 국면에 있어서,In the eighteenth aspect of the present invention, in the fourteenth aspect of the present invention,
이용자로부터의 지시를 입력하기 위한 지시 입력 스텝을 상기 컴퓨터에 추가로 실행시키고,An instruction input step for inputting an instruction from the user is additionally executed on the computer,
상기 텍스트 분석 스텝 및 상기 화면 생성 스텝 중의 어느 것이, 상기 지시 입력 스텝에서 입력된 지시에 기초하여 실행되는 것을 특징으로 한다.Any of the text analysis step and the screen generation step is performed based on an instruction input in the instruction input step.
본 발명의 제 19 국면은, 본 발명의 제 14 국면에 있어서,In the nineteenth aspect of the present invention, in the fourteenth aspect of the present invention,
상기 화면 생성 스텝은, 상기 그룹을 포함하는 분석 결과 화면과, 상기 분석 결과 화면의 표시 양태를 설정하기 위한 분석 설정 화면을 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 한다.The screen generation step is characterized by generating screen data for displaying an analysis result screen including the group and an analysis setting screen for setting a display mode of the analysis result screen.
본 발명의 제 20 국면은, 텍스트 데이터의 분석 결과를 화면에 표시하는 텍스트 마이닝 장치로서,A twentieth aspect of the present invention is a text mining apparatus that displays an analysis result of text data on a screen,
입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 텍스트 분석부와,A text analysis unit that performs hierarchical cluster analysis on words extracted from the input text data,
상기 텍스트 분석부에 의한 분석 결과에 기초하여, 화면 데이터를 생성하는 화면 생성부와,A screen generation unit that generates screen data based on the analysis result by the text analysis unit,
상기 화면 데이터에 기초하여, 화면을 표시하는 분석 결과 표시부를 구비하고,An analysis result display unit for displaying a screen based on the screen data,
상기 화면 생성부는, 그룹 수와 그룹 내의 최대 데이터 수에 기초하여, 상기 분석 결과로부터 상기 그룹 수의 클러스터를 구하고, 상기 클러스터에 포함되는 단어를 상기 최대 데이터 수 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 한다.The screen generator is configured to obtain a cluster of the number of groups from the analysis result based on the number of groups and the maximum number of data in the group, and to display a group including words included in the cluster less than the maximum number of data on the screen. It is characterized by generating screen data.
본 발명의 제 21 국면은, 본 발명의 제 20 국면에 있어서,In the twenty-first aspect of the present invention, in the twenty-first aspect of the present invention,
상기 그룹에 포함되는 단어는, 상기 그룹에 대응하는 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로 선택되는 것을 특징으로 한다.The words included in the group may be selected in the order of their appearance frequency from among words included in the cluster corresponding to the group.
본 발명의 제 22 국면은, 본 발명의 제 21 국면에 있어서,In the twenty-second aspect of the present invention, in the twenty-first aspect of the present invention,
상기 그룹은, 상기 화면 내에서, 상기 그룹에 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는 것을 특징으로 한다.The group is characterized in that it has a size according to the sum of the frequency of appearance of words included in the cluster corresponding to the group in the screen.
본 발명의 제 23 국면은, 본 발명의 제 22 국면에 있어서,In the twenty-third aspect of the present invention, in the twenty-second aspect of the present invention,
상기 그룹에 포함되는 단어는, 상기 화면 내에서, 상기 단어의 출현 빈도에 따른 사이즈를 갖는 것을 특징으로 한다.Words included in the group are characterized in that they have a size according to the frequency of appearance of the word in the screen.
본 발명의 제 24 국면은, 본 발명의 제 20 국면에 있어서,In the twenty-fourth aspect of the present invention, in the twenty-fourth aspect of the present invention,
이용자로부터의 지시를 입력하기 위한 지시 입력부를 추가로 구비하고,Further provided with an instruction input unit for inputting an instruction from the user,
상기 텍스트 분석부 및 상기 화면 생성부 중 어느 것이, 상기 지시 입력부에서 입력된 지시에 기초하여 동작하는 것을 특징으로 한다.Any of the text analysis unit and the screen generation unit may operate based on an instruction input from the instruction input unit.
본 발명의 제 25 국면은, 본 발명의 제 20 국면에 있어서,In the twenty-fifth aspect of the present invention, in the twenty-fifth aspect of the present invention,
상기 화면 생성부는, 상기 그룹을 포함하는 분석 결과 화면과, 상기 분석 결과 화면의 표시 양태를 설정하기 위한 분석 설정 화면을 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 한다.The screen generating unit is characterized in that generating screen data for displaying an analysis result screen including the group and an analysis setting screen for setting a display mode of the analysis result screen.
본 발명의 제 1, 제 14 또는 제 20 국면에 의하면, 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과에 기초하여, 클러스터에 포함되는 단어를 포함하는 그룹이 화면에 표시된다. 또, 그룹에 포함되는 단어의 수는, 최대 데이터 수 이하로 제한된다. 따라서, 이용자는, 화면을 보았을 때에, 계층적 클러스터 분석의 결과를 직감적으로 이해할 수 있다.According to the first, fourteenth, or twentieth aspect of the present invention, a group including words included in the cluster is displayed on a screen based on a result of performing hierarchical cluster analysis on words included in text data. In addition, the number of words included in the group is limited to the maximum number of data. Accordingly, the user can intuitively understand the results of hierarchical cluster analysis when viewing the screen.
본 발명의 제 2, 제 15 또는 제 21 국면에 의하면, 그룹의 내부에는, 클러스터에 포함되는 단어 중 출현 빈도가 높은 단어가 표시된다. 따라서, 이용자는, 각 클러스터에 포함되는 출현 빈도가 높은 단어를 용이하게 인식할 수 있다.According to the second, fifteenth or twenty-first aspect of the present invention, words with a high frequency of appearance among words included in the cluster are displayed inside the group. Accordingly, the user can easily recognize words with a high frequency of appearance included in each cluster.
본 발명의 제 3, 제 16 또는 제 22 국면에 의하면, 그룹은, 화면 내에서, 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는다. 따라서, 이용자는, 단어의 출현 빈도의 합계가 큰 클러스터를 용이하게 인식할 수 있다.According to the third, sixteenth, or twenty-second aspect of the present invention, a group has a size according to the sum of the frequency of appearances of words included in the cluster within the screen. Accordingly, the user can easily recognize a cluster in which the sum of the frequency of occurrence of words is large.
본 발명의 제 4, 제 17 또는 제 23 국면에 의하면, 단어는, 화면 내에서, 단어의 빈도에 따른 사이즈를 갖는다. 따라서, 이용자는, 출현 빈도가 높은 단어를 용이하게 인식할 수 있다.According to the fourth, seventeenth or twenty-third aspect of the present invention, a word has a size within a screen according to the frequency of the word. Accordingly, the user can easily recognize words with a high frequency of appearance.
본 발명의 제 5, 제 18 또는 제 24 국면에 의하면, 이용자로부터의 지시에 따라, 계층적 클러스터 분석 결과의 표시 양태를 전환할 수 있다.According to the fifth, eighteenth or twenty-fourth aspect of the present invention, the display mode of the hierarchical cluster analysis result can be switched according to an instruction from the user.
본 발명의 제 6 국면에 의하면, 화면에 표시되는 그룹의 개수 (클러스터의 개수) 를 이용자로부터의 지시에 따라 전환할 수 있다.According to the sixth aspect of the present invention, the number of groups (number of clusters) displayed on the screen can be switched according to an instruction from the user.
본 발명의 제 7 국면에 의하면, 그룹에 포함되는 단어의 개수의 상한치를 이용자로부터의 지시에 따라 전환할 수 있다.According to the seventh aspect of the present invention, the upper limit of the number of words included in the group can be switched according to an instruction from the user.
본 발명의 제 8 국면에 의하면, 이용자로부터 지시된 분석 대상 기간 내의 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다. 따라서, 이용자는, 계층적 클러스터 분석 결과의 시간적 변화를 용이하게 인식할 수 있다.According to an eighth aspect of the present invention, a result of performing hierarchical cluster analysis on words included in text data within a period to be analyzed instructed by a user is displayed on the screen. Therefore, the user can easily recognize the temporal change in the hierarchical cluster analysis result.
본 발명의 제 9 국면에 의하면, 이용자로부터 지시된 분석 목적에 따라 분석 대상의 단어의 종류를 전환하여 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 수 있다.According to the ninth aspect of the present invention, a result of hierarchical cluster analysis can be displayed on a screen by switching the types of words to be analyzed according to the analysis purpose indicated by the user.
본 발명의 제 10 국면에 의하면, 이용자로부터 지시된 단어를 제외하고 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 수 있다.According to the tenth aspect of the present invention, the result of hierarchical cluster analysis can be displayed on the screen except for words indicated by the user.
본 발명의 제 11 국면에 의하면, 이용자로부터 지시된 복수의 단어를 동일한 단어로 간주하여 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 수 있다.According to the eleventh aspect of the present invention, a plurality of words instructed by a user can be regarded as the same word, and the result of hierarchical cluster analysis can be displayed on a screen.
본 발명의 제 12 국면에 의하면, 이용자로부터 지시된 복수의 단어를 1 개의 단어로 병합하여, 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 수 있다.According to the twelfth aspect of the present invention, a plurality of words instructed by a user can be merged into one word, and the result of hierarchical cluster analysis can be displayed on a screen.
본 발명의 제 13, 제 19 또는 제 25 국면에 의하면, 분석 결과 화면과 분석 설정 화면이 표시된다. 따라서, 이용자는, 분석 설정 화면을 사용하여, 계층적 클러스터 분석을 실시한 결과의 표시 양태를 용이하게 전환할 수 있다.According to the thirteenth, nineteenth or twenty-fifth aspect of the present invention, an analysis result screen and an analysis setting screen are displayed. Accordingly, the user can easily switch the display mode of the result of performing the hierarchical cluster analysis using the analysis setting screen.
도 1 은, 본 발명의 실시형태에 관련된 텍스트 마이닝 장치의 구성을 나타내는 블록도이다.
도 2 는, 도 1 에 나타내는 텍스트 마이닝 장치로서 기능하는 컴퓨터의 구성을 나타내는 블록도이다.
도 3 은, 도 1 에 나타내는 텍스트 마이닝 장치의 표시 화면을 나타내는 도면이다.
도 4 는, 도 1 에 나타내는 텍스트 마이닝 장치의 동작을 나타내는 플로 차트이다.
도 5 는, 도 1 에 나타내는 텍스트 마이닝 장치의 화면 데이터 생성 처리의 플로 차트이다.
도 6 은, 도 1 에 나타내는 텍스트 마이닝 장치의 데이터 지정 화면을 나타내는 도면이다.
도 7 은, 도 1 에 나타내는 텍스트 마이닝 장치에 입력되는 텍스트 데이터의 예를 나타내는 도면이다.
도 8 은, 도 1 에 나타내는 텍스트 마이닝 장치의 목적 지정 화면을 나타내는 도면이다.
도 9 는, 도 1 에 나타내는 텍스트 마이닝 장치의 유의어 리스트 선택 화면을 나타내는 도면이다.
도 10 은, 도 1 에 나타내는 텍스트 마이닝 장치의 복합어 리스트 선택 화면을 나타내는 도면이다.
도 11a 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 분석 대상 기간을 설정하기 전의 분석 결과 화면을 나타내는 도면이다.
도 11b 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 분석 대상 기간을 설정한 후의 분석 결과 화면을 나타내는 도면이다.
도 12a 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 단어 제외를 실시하기 전의 분석 결과 화면을 나타내는 도면이다.
도 12b 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 단어 제외를 실시한 후의 분석 결과 화면을 나타내는 도면이다.
도 13a 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 유의어 등록을 실시하기 전의 분석 결과 화면을 나타내는 도면이다.
도 13b 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 유의어 등록을 실시한 후의 분석 결과 화면을 나타내는 도면이다.
도 14a 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 복합어 등록을 실시하기 전의 분석 결과 화면을 나타내는 도면이다.
도 14b 는, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서 복합어 등록을 실시한 후의 분석 결과 화면을 나타내는 도면이다.
도 15 는, 수형도의 예를 나타내는 도면이다.
도 16 은, 도 15 에 나타내는 수형도에 클러스터 수를 설정한 모습을 나타내는 도면이다.
도 17 은, 도면 및 그 설명에 나타나는 단어를 나타내는 도면이다.1 is a block diagram showing a configuration of a text mining apparatus according to an embodiment of the present invention.
Fig. 2 is a block diagram showing the configuration of a computer functioning as the text mining device shown in Fig. 1.
3 is a diagram showing a display screen of the text mining device shown in FIG. 1.
4 is a flow chart showing the operation of the text mining device shown in FIG. 1.
5 is a flowchart of screen data generation processing of the text mining device shown in FIG. 1.
6 is a diagram illustrating a data designation screen of the text mining device shown in FIG. 1.
7 is a diagram illustrating an example of text data input to the text mining device shown in FIG. 1.
FIG. 8 is a diagram illustrating a purpose designation screen of the text mining device shown in FIG. 1.
9 is a diagram showing a synonym list selection screen of the text mining device shown in FIG. 1.
FIG. 10 is a diagram illustrating a compound word list selection screen of the text mining device shown in FIG. 1.
FIG. 11A is a diagram illustrating an analysis result screen before setting an analysis target period in the text mining device shown in FIG. 1.
11B is a diagram showing an analysis result screen after setting an analysis target period in the text mining device shown in FIG. 1.
12A is a diagram illustrating an analysis result screen before word exclusion is performed in the text mining device shown in FIG. 1.
12B is a diagram illustrating an analysis result screen after word exclusion is performed in the text mining device shown in FIG. 1.
FIG. 13A is a diagram showing an analysis result screen before registration of synonyms in the text mining device shown in FIG. 1.
FIG. 13B is a diagram showing an analysis result screen after registration of synonyms in the text mining device shown in FIG. 1.
14A is a diagram showing an analysis result screen before registration of compound words in the text mining device shown in FIG. 1.
14B is a diagram showing an analysis result screen after compound word registration is performed in the text mining apparatus shown in FIG. 1.
15 is a diagram illustrating an example of a vertical diagram.
FIG. 16 is a diagram showing a mode in which the number of clusters is set in the tree diagram shown in FIG. 15.
Fig. 17 is a diagram showing words appearing in a drawing and its description.
이하, 도면을 참조하여, 본 발명의 실시형태에 관련된 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치에 대해 설명한다. 본 실시형태에 관련된 텍스트 마이닝 방법은, 전형적으로는 컴퓨터를 사용하여 실행된다. 본 실시형태에 관련된 텍스트 마이닝 프로그램은, 컴퓨터를 사용하여 텍스트 마이닝 방법을 실시하기 위한 프로그램이다. 본 실시형태에 관련된 텍스트 마이닝 장치는, 전형적으로는 컴퓨터를 사용하여 구성된다. 텍스트 마이닝 프로그램을 실행하는 컴퓨터는, 텍스트 마이닝 장치로서 기능한다.Hereinafter, a text mining method, a text mining program, and a text mining apparatus according to an embodiment of the present invention will be described with reference to the drawings. The text mining method according to this embodiment is typically executed using a computer. The text mining program according to the present embodiment is a program for implementing a text mining method using a computer. The text mining apparatus according to the present embodiment is typically configured using a computer. A computer executing a text mining program functions as a text mining device.
도 1 은, 본 발명의 실시형태에 관련된 텍스트 마이닝 장치의 구성을 나타내는 블록도이다. 도 1 에 나타내는 텍스트 마이닝 장치 (10) 는, 지시 입력부 (11), 텍스트 분석부 (12), 화면 생성부 (13), 및 분석 결과 표시부 (14) 를 구비하고 있다. 텍스트 마이닝 장치 (10) 에는, 분석 대상인 텍스트 데이터 (5) 가 입력된다. 텍스트 마이닝 장치 (10) 는, 입력된 텍스트 데이터 (5) 로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하여, 분석 결과를 화면에 표시한다.1 is a block diagram showing a configuration of a text mining apparatus according to an embodiment of the present invention. The
텍스트 마이닝 장치 (10) 의 동작의 개요는, 이하와 같다. 지시 입력부 (11) 에는, 이용자로부터의 지시가 입력된다. 텍스트 분석부 (12) 는, 입력된 텍스트 데이터 (5) 로부터 단어를 추출하고, 추출한 단어에 대해 계층적 클러스터 분석을 실시한다. 화면 생성부 (13) 는, 텍스트 분석부 (12) 에 의한 분석 결과에 기초하여, 화면 데이터를 생성한다. 분석 결과 표시부 (14) 는, 화면 생성부 (13) 에서 생성된 화면 데이터에 기초하여, 화면을 표시한다.The outline of the operation of the
지시 입력부 (11) 에 입력되는 이용자로부터의 지시에는, 그룹 수의 설정, 그룹 내의 최대 데이터 수의 설정, 분석 대상 기간의 설정, 단어 제외, 유의어 등록, 복합어 등록 등이 포함된다. 텍스트 데이터 (5) 가 연월일이나 시각 등의 정보를 갖는 시계열 데이터인 경우에는, 텍스트 분석부 (12) 는, 입력된 텍스트 데이터 (5) 중, 지시 입력부 (11) 에서 설정된 분석 대상 기간 내의 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한다.Instructions from the user input to the
화면 생성부 (13) 는, 화면 데이터를 생성할 때에, 그룹 수와 그룹 내의 최대 데이터 수에 따른다 (상세한 것은 후술). 또, 이용자가 새로운 지시를 입력 했을 때에는, 지시된 처리가 실시된 후에, 화면 생성부 (13) 는 새로운 화면 데이터를 생성하고, 분석 결과 표시부 (14) 는 새로운 화면을 표시한다. 이와 같이 텍스트 마이닝 장치 (10) 는, 이용자로부터의 지시에 따라, 텍스트 데이터 (5) 의 분석 양태와 분석 결과의 표시 양태를 전환한다.When the
도 2 는, 텍스트 마이닝 장치 (10) 로서 기능하는 컴퓨터의 구성을 나타내는 블록도이다. 도 2 에 나타내는 컴퓨터 (20) 는, CPU (21), 메인 메모리 (22), 기억부 (23), 입력부 (24), 표시부 (25), 통신부 (26), 및 기록 매체 판독부 (27) 를 구비하고 있다. 메인 메모리 (22) 에는, 예를 들어, DRAM 이 사용된다. 기억부 (23) 에는, 예를 들어, 하드 디스크나 솔리드 스테이트 드라이브가 사용된다. 입력부 (24) 에는, 예를 들어, 키보드 (28) 나 마우스 (29) 가 포함된다. 표시부 (25) 에는, 예를 들어, 액정 디스플레이가 사용된다. 통신부 (26) 는, 유선 통신 또는 무선 통신의 인터페이스 회로이다. 기록 매체 판독부 (27) 는, 프로그램 등을 기억한 기록 매체 (30) 의 인터페이스 회로이다. 기록 매체 (30) 에는, 예를 들어, CD-ROM, DVD-ROM, USB 메모리 등의 비일과성의 기록 매체가 사용된다.2 is a block diagram showing the configuration of a computer functioning as the
컴퓨터 (20) 가 텍스트 마이닝 프로그램 (31) 을 실행하는 경우, 기억부 (23) 는, 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (5) 를 기억한다. 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (5) 는, 예를 들어, 서버나 다른 컴퓨터로부터 통신부 (26) 를 사용하여 수신한 것이어도 되고, 기록 매체 (30) 로부터 기록 매체 판독부 (27) 를 사용하여 판독 출력한 것이어도 된다.When the
텍스트 마이닝 프로그램 (31) 을 실행할 때에는, 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (5) 는 메인 메모리 (22) 에 복사 전송된다. CPU (21) 는, 메인 메모리 (22) 를 작업용 메모리로서 이용하여, 메인 메모리 (22) 에 기억된 텍스트 마이닝 프로그램 (31) 을 실행함으로써, 메인 메모리 (22) 에 기억된 텍스트 데이터 (5) 를 처리한다. 이 때 컴퓨터 (20) 는, 텍스트 마이닝 장치 (10) 로서 기능한다. 또한, 이상에 서술한 컴퓨터 (20) 의 구성은 일례에 불과하고, 임의의 컴퓨터를 사용하여 텍스트 마이닝 장치 (10) 를 구성할 수 있다.When executing the
이하, 텍스트 데이터 (5) 는, 일본어의 단어를 포함하는 일본어의 데이터라고 한다. 도 17 은, 도면 및 그 설명에 나타나는 단어를 나타내는 도면이다. 도 17 의 각 행에는, 단어 (일본어의 단어) 와 단어의 의미가 기재되어 있다. 이하의 설명에 있어서 일본어의 단어에 대해 언급할 때에, 단어의 뒤에 괄호 쓰기로 단어의 의미를 기재하는 경우가 있다. 또한, 텍스트 데이터 (5) 는, 임의의 언어의 데이터여도 된다.Hereinafter, the
도 3 은, 텍스트 마이닝 장치 (10) 의 표시 화면을 나타내는 도면이다. 도 3 에 나타내는 표시 화면 (40) 에는, 분석 결과 화면 (41) 과 분석 설정 화면 (42) 이 포함된다. 분석 결과 화면 (41) 에는, 텍스트 분석부 (12) 에 의한 분석 결과가 표시된다. 분석 설정 화면 (42) 에는, 텍스트 분석부 (12) 에 있어서의 분석 양태와 화면 생성부 (13) 에서 생성되는 화면 데이터의 특성을 설정하기 위한 그래피컬 유저 인터페이스 부품이 표시된다.3 is a diagram showing a display screen of the
계층적 클러스터 분석의 결과에 대해 클러스터 수를 설정하면, 각 클러스터에 포함되는 단어가 결정된다. 텍스트 마이닝 장치 (10) 는, 텍스트 데이터 (5) 로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 때에, 수형도 대신에, 클러스터에 대응하는 그룹을 도 3 에 나타내는 양태로 표시한다.When the number of clusters is set for the result of hierarchical cluster analysis, words included in each cluster are determined. When the
이하의 설명에서는, 화면에 표시되는 클러스터를 그룹이라고도 한다. 이용자는, 지시 입력부 (11) 를 사용하여, 그룹 수 (클러스터 수) 와 그룹 내의 최대 데이터 수 (그룹에 포함되는 단어의 수의 상한치) 를 지정한다. 이하, 전자를 m, 후자를 n 으로 한다.In the following description, clusters displayed on the screen are also referred to as groups. The user uses the
텍스트 마이닝 장치 (10) 에서는, 텍스트 데이터 (5) 에 포함되는 단어는 m 개의 클러스터로 분류되고, 각 클러스터에는 1 개 이상의 단어가 포함된다. 분석 결과 화면 (41) 에는 m 개의 그룹이 표시되고, 각 그룹의 내부에는 단어가 표시된다. 그룹은 구름형 도형을 사용하여 표시되고, 그룹에 포함되는 단어는 타원 영역의 내부에 표시된다. 각 그룹에 포함되는 단어는, n 개 이하로 제한된다. 예를 들어, n = 5 일 때에 어느 클러스터가 10 개의 단어를 포함하는 경우, 분석 결과 화면 (41) 에서는 그룹의 내부에 5 개의 단어가 표시된다.In the
분석 설정 화면 (42) 에는, 그룹 수 (m) 를 설정하기 위한 제 1 슬라이더와 2 개의 제 1 버튼 (기호 「+」 또는 「―」을 부여한 것), 그룹 내의 최대 데이터 수 (n) 를 설정하기 위한 제 2 슬라이더와 2 개의 제 2 버튼, 및 분석 대상 기간을 설정하기 위한 4 개의 박스와 2 개의 제 3 버튼 (좌향 화살표 또는 우향 화살표를 부여한 것) 이 표시된다.On the
이용자는, 마우스 (29) 를 조작하여, 제 1 슬라이더의 탭을 좌우로 이동시키거나, 제 1 버튼을 누르는 것에 의해, 그룹 수 (m) 를 지시한다. 그룹 수 (m) 는, 기호 「+」를 부여한 제 1 버튼이 눌렸을 때에는 증가하고, 기호 「―」를 부여한 제 1 버튼이 눌렸을 때에는 감소한다. 그룹 수 (m) 의 초기치는, 예를 들어, 텍스트 분석부 (12) 에 의한 분석 결과에 포함되는 단어의 종류의 평방근, 또는 이것에 가까운 정수로 설정된다. 예를 들어, 텍스트 분석부 (12) 에 의한 분석 결과에 16 종류의 단어가 포함되어 있는 경우, 그룹 수 (m) 의 초기치는 4 로 설정된다.The user operates the
이용자는, 마우스 (29) 를 조작하여, 제 2 슬라이더의 탭을 좌우로 이동시키거나, 제 2 버튼을 누르는 것에 의해, 그룹 내의 최대 데이터 수 (n) 를 지시한다. 그룹 내의 최대 데이터 수 (n) 는, 제 2 버튼이 눌렸을 때에는 증가 또는 감소한다. 그룹 내의 최대 데이터 수 (n) 의 초기치는, 예를 들어, 5 로 설정된다.The user operates the
텍스트 데이터 (5) 가 시계열 데이터인 경우, 이용자는, 키보드 (28) 또는 마우스 (29) 를 조작하여, 4 개의 박스를 사용하여 연월일과 시각을 지정하거나, 제 3 버튼을 누르는 것에 의해, 분석 대상 기간을 지시한다. 분석 대상 기간은, 좌향 화살표를 부여한 제 3 버튼이 눌렸을 때에는 소정량만큼 (예를 들어 1 개월) 과거로 이동하고, 우향 화살표를 부여한 제 3 버튼이 눌렸을 때에는 소정량만큼 반대 방향으로 이동한다. 분석 대상 기간의 초기치는, 예를 들어, 텍스트 데이터 (5) 의 가장 오래된 시각부터 가장 새로운 시각까지의 기간으로 설정된다. 또한, 텍스트 데이터 (5) 가 시계열 데이터가 아닌 경우에는, 이용자는 분석 대상 기간을 지정할 수 없다.When the text data (5) is time series data, the user operates the keyboard (28) or the mouse (29) to designate the year, month, date and time using four boxes, or by pressing the third button to Dictate the period. The analysis target period moves to the past by a predetermined amount (for example, 1 month) when the third button with a left arrow is pressed, and moves in the opposite direction by a predetermined amount when the third button with a right arrow is pressed. . The initial value of the period to be analyzed is set to, for example, a period from the oldest time to the newest time of the
분석 결과 화면 (41) 에는 1 개 이상 m 개 이하의 그룹이 표시되고, 각 그룹의 내부에는 1 개 이상 n 개 이하의 단어가 표시된다. 각 그룹은, 화면 내에서, 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계가 클수록 크게 표시된다. 클러스터에 포함되는 단어의 수가 n 개를 초과하는 경우에는, 그룹의 내부에는 출현 빈도가 높은 n 개의 단어가 표시된다. 그룹에 포함되는 단어와 이것을 포함하는 타원 영역은, 화면 내에서, 단어의 출현 빈도가 높을수록 크게 표시된다. 각 그룹에는, 명칭이 부여된다. 그룹의 명칭에는, 클러스터에 포함되는 단어 중 출현 빈도가 가장 높은 단어가 사용된다. 그룹의 명칭은, 그룹의 내부에 밑줄을 그어 표시된다. 또한, 타원 영역의 내부에 단어를 표시할 수 없는 경우에는, 단어 대신에 기호 「…」이 표시된다.One or more and m or less groups are displayed on the
분석 결과 화면 (41) 에는, 줌 배율을 지정하기 위한 제 3 슬라이더 및 2 개의 제 4 버튼 (기호 「+」 또는 「―」를 부여한 것) 이 표시된다. 이용자는, 마우스 (29) 를 조작하여, 제 3 슬라이더의 탭을 좌우로 이동시키거나, 제 4 버튼을 누르는 것에 의해, 줌 배율을 설정한다. 분석 결과 화면 (41) 에는, 단어를 포함하는 그룹이, 설정된 줌 배율에 따라 확대 또는 축소되어 표시된다. 줌 배율의 초기치는, 100 % 로 설정된다. 초기 상태의 분석 결과 화면 (41) 에는, 모든 그룹이 표시된다.On the
이용자가 분석 설정 화면 (42) 에 있어서 그룹 수 (m), 그룹 내의 최대 데이터 수 (n), 또는 분석 대상 기간을 변경했을 때에, 분석 결과 화면 (41) 의 내용은 이것에 따라 변화한다. 이용자가 분석 결과 화면 (41) 에 있어서 단어 제외, 유의어 등록, 또는 복합어 등록을 지시했을 때에도, 분석 결과 화면 (41) 의 내용은 이것에 따라 변화한다.When the user changes the number of groups (m), the maximum number of data in the group (n), or the period subject to analysis in the
텍스트 마이닝 장치 (10) 는, 텍스트 데이터 (5) 로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시할 때, 제외해야 할 단어를 기억한 제외 단어 리스트, 유의어로서 처리해야 할 단어를 기억한 유의어 리스트, 및 복합어로서 처리해야 할 단어를 기억한 복합어 리스트를 참조한다. 유의어 리스트에는, 동일한 의미 (또는, 거의 동일한 의미) 를 갖는 복수의 단어와, 이들 단어를 대표하는 1 개의 단어가 대응하여 기억되어 있다. 복합어 리스트에는, 연결하면 1 개의 복합어가 되는 복수의 단어와, 이들 단어를 연결한 복합어가 대응하여 기억되어 있다. 유의어 리스트에는, 예를 들어, 「daigakusei (대학생)」 및 「gakusei (학생)」과, 양자를 대표하는 「daigakusei」가 대응하여 기억되어 있다. 복합어 리스트에는, 예를 들어, 「nintai (인내)」 및 「tsuyoi (강하다)」와, 양자를 연결한 「nintaizuyoi (인내심이 강하다)」가 대응하여 기억되어 있다. 텍스트 마이닝 장치 (10) 는, 복수의 유의어 리스트와 복수의 복합어 리스트를 갖는 경우가 있다.When performing hierarchical cluster analysis on words extracted from
도 4 는, 텍스트 마이닝 장치 (10) 의 동작을 나타내는 플로 차트이다. 도 5 는, 텍스트 마이닝 장치 (10) 의 화면 데이터 생성 처리 (도 4 에 나타내는 스텝 S111) 의 상세를 나타내는 플로 차트이다. 입력부 (24) 와 스텝 S113 을 실행하는 CPU (21) 는, 지시 입력부 (11) 로서 기능한다. 스텝 S109 ∼ S110 을 실행하는 CPU (21) 는, 텍스트 분석부 (12) 로서 기능한다. 스텝 S111 을 실행하는 CPU (21) 는, 화면 생성부 (13) 로서 기능한다. 표시부 (25) 와 스텝 S112 를 실행하는 CPU (21) 는, 분석 결과 표시부 (14) 로서 기능한다. 이하, 도 4 및 도 5 를 참조하여, 텍스트 마이닝 장치 (10) 의 동작을 설명한다.4 is a flowchart showing the operation of the
먼저, CPU (21) 는, 도 6 에 나타내는 데이터 지정 화면 (51) 을 표시부 (25) 에 표시시킨다 (스텝 S101). 데이터 지정 화면 (51) 에는, 파일명을 지정하기 위한 박스와 폴더명을 지정하기 위한 박스가 표시되어 있다. 이용자는, 데이터 지정 화면 (51) 에 있어서 파일명 또는 폴더명을 지정함으로써, 분석 대상인 텍스트 데이터 (5) 를 지정한다. 텍스트 데이터 (5) 는, 하드 디스크 등의 기억부 (23) 에 기억되어 있어도 되고, 통신부 (26) 를 사용하여 접속된 서버나 다른 컴퓨터 등에 기억되어 있어도 된다.First, the
다음으로, CPU (21) 는, 데이터 지정 화면 (51) 을 사용하여 지정된 텍스트 데이터 (5) 를 메인 메모리 (22) 에 전송한다. 이로 인해, 텍스트 마이닝 장치 (10) 에 텍스트 데이터 (5) 가 입력된다 (스텝 S102). 도 7 은, 텍스트 데이터 (5) 의 예를 나타내는 도면이다. 도 7 에 나타내는 텍스트 데이터는, 대학생이 작성한 리포트의 데이터이며, 연월일의 정보를 갖는 시계열 데이터이다. 도 7 에 나타내는 텍스트 데이터는, 위로부터 순서대로 「본 강의에 있어서의 대학생과 사회의 관계에 대해 …」, 「일반적으로 대학생은 졸업하여 사회에 나오기 전에 아르바이트나 …」, 「우리들 학생은, 비싼 수업료를 지불하며 배우고 있는 것을 자각 …」, 및 「학생 생활은 자신이 성장하기 위한 귀중한 시간이다. 또 …」이다. 또한, 텍스트 마이닝 장치 (10) 가 분석하는 텍스트 데이터 (5) 의 종류는 임의이다.Next, the
다음으로, CPU (21) 는, 도 8 에 나타내는 목적 지정 화면 (52) 을 표시부 (25) 에 표시시킨다 (스텝 S103). 목적 지정 화면 (52) 에는, 내용, 특징, 및 평판에 대응한 3 개의 라디오 버튼이 표시되어 있다. 이용자는, 마우스 (29) 를 조작하여 어느 라디오 버튼을 누르는 것에 의해, 분석 목적을 내용, 특징, 및 평판 중에서 선택한다. 다음으로, CPU (21) 는, 목적 지정 화면 (52) 을 사용하여 지정된 분석 목적을 받는다. 이로 인해, 텍스트 마이닝 장치 (10) 에 분석 목적이 입력된다 (스텝 S104).Next, the
다음으로, CPU (21) 는, 도 9 에 나타내는 유의어 리스트 선택 화면 (53) 을 표시부 (25) 에 표시시킨다 (스텝 S105). 유의어 리스트 선택 화면 (53) 에는, 텍스트 마이닝 장치 (10) 가 갖는 유의어 리스트의 명칭과, 각 유의어 리스트에 등록된 유의어가 표시된다. 이용자는, 마우스 (29) 를 조작하여 유의어 리스트 선택 화면 (53) 에 있어서 어느 유의어 리스트를 선택함으로써, 사용하는 유의어 리스트를 지정한다. 이로 인해, 텍스트 마이닝 장치 (10) 에서는, 유의어 리스트가 선택된다 (스텝 S106).Next, the
다음으로, CPU (21) 는, 도 10 에 나타내는 복합어 리스트 선택 화면 (54) 을 표시부 (25) 에 표시시킨다 (스텝 S107). 복합어 리스트 선택 화면 (54) 에는, 텍스트 마이닝 장치 (10) 가 갖는 복합어 리스트의 명칭과, 각 복합어 리스트에 등록된 복합어가 표시된다. 이용자는, 마우스 (29) 를 조작하여 복합어 리스트 선택 화면 (54) 에 있어서 어느 것의 복합어 리스트를 선택함으로써, 사용하는 복합어 리스트를 지정한다. 이로 인해, 텍스트 마이닝 장치 (10) 에서는, 복합어 리스트가 선택된다 (스텝 S108).Next, the
다음으로, CPU (21) 는, 제외 단어 리스트, 유의어 리스트, 및 복합어 리스트를 고려하여, 스텝 S102 에서 입력된 텍스트 데이터 (5) 중 분석 대상 기간 내에 있는 텍스트 데이터로부터 스텝 S104 에서 지정된 분석 목적에 따른 종류의 단어를 추출한다 (스텝 S109). CPU (21) 는, 분석 목적이 「내용」인 경우에는, 텍스트 데이터 (5) 로부터 명사, 고유 명사, 지명, 및 인명을 추출한다. 분석 목적이 「특징」인 경우에는, CPU (21) 는 텍스트 데이터 (5) 로부터 명사, 고유 명사, 사(サ)행 변격 활용 명사, 및 동사를 추출한다. 분석 목적이 「평판」인 경우에는, CPU (21) 는 텍스트 데이터 (5) 로부터 형용사, 형용 동사, 및 감동사를 추출한다. 또한, 텍스트 마이닝 장치 (10) 는, 상기 3 개 이외의 분석 목적을 서포트해도 된다. 또, CPU (21) 는, 각 분석 목적에 따라 상기와는 상이한 종류의 단어를 추출해도 된다.Next, the
텍스트 데이터 (5) 가 시계열 데이터인 경우에는, CPU (21) 는, 스텝 S109 를 실행할 때에, 텍스트 데이터 (5) 중, 이용자로부터 지시된 분석 대상 기간에 포함되는 텍스트 데이터만으로부터 단어를 추출한다. 또, 단어 W1 이 제외 단어 리스트에 기억되어 있는 경우에는, CPU (21) 는, 스텝 S109 를 실행할 때에, 텍스트 데이터 (5) 에 포함되는 단어 W1 을 모두 무시한다. 또, 선택된 유의어 리스트에 단어 W2 및 단어 W3 과, 양자를 대표하는 단어 W2 가 대응하여 기억되어 있는 경우에는, CPU (21) 는, 스텝 S109 를 실행할 때에, 텍스트 데이터 (5) 에 포함되는 단어 W3 을 모두 단어 W2 로서 처리한다. 또, 선택된 복합어 리스트에 단어 W4 및 단어 W5 와, 양자를 연결한 단어 W6 이 대응하여 기억되어 있는 경우에는, CPU (21) 는, 스텝 S109 를 실행할 때에, 텍스트 데이터 (5) 에 포함되는, 연속한 단어 W4 와 단어 W5 를 모두 단어 W6 으로서 처리한다.When the
다음으로, CPU (21) 는, 스텝 S109 에서 추출한 단어에 대해 계층적 클러스터 분석을 실시한다 (스텝 S110). CPU (21) 는, 스텝 S110 에 있어서, 예를 들어, 텍스트 데이터 (5) 에 있어서의 2 개의 단어간의 거리 (2 개의 단어가 어느 정도 떨어져 나타날지) 에 기초하여, 2 개의 단어간의 유사도를 구한다. CPU (21) 는, 구한 단어간의 유사도에 기초하여, 소정의 방법 (예를 들어, 최단 거리법, 최장 거리법, 군평균법, 십진법, 워드법 등) 을 이용하여 계층적 클러스터 분석을 실시한다. 또, CPU (21) 는, 스텝 S110 에 있어서, 각 단어의 출현 빈도를 구한다.Next, the
다음으로, CPU (21) 는, 스텝 S110 에서 구한 계층적 클러스터 분석의 결과에 기초하여, 분석 결과를 표시하기 위한 화면 데이터를 생성한다 (스텝 S111). CPU (21) 는, 스텝 S111 에 있어서, 도 5 에 나타내는 처리를 실시한다.Next, the
CPU (21) 는, 그룹 수를 m, 그룹 내의 최대 데이터 수를 n 으로 한다 (스텝 S201). 다음으로, CPU (21) 는, 계층적 클러스터 분석의 결과에 대해 클러스터 수를 m 으로 설정하고, m 개의 클러스터를 구한다 (스텝 S202). 다음으로, CPU (21) 는, 각 클러스터에 대해, 클러스터에 포함되는 단어의 출현 빈도의 합계를 구한다 (스텝 S203). 다음으로, CPU (21) 는, 스텝 S203 에서 구한 출현 빈도의 합계에 기초하여, 각 그룹의 표시 사이즈를 결정한다 (스텝 S204). 스텝 S204에서는, 클러스터에 포함되는 단어의 출현 빈도의 합계가 클수록, 그룹의 표시 사이즈는 크게 결정된다.The
다음으로, CPU (21) 는, 각 클러스터에 대해, 클러스터에 포함되는 단어 중에서 표시해야 할 단어를 선택한다 (스텝 S205). 스텝 S205 에서는, 각 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로, n 개 이하의 단어가 선택된다. 다음으로, CPU (21) 는, 스텝 S205 에서 선택한 각 단어에 대해, 단어의 출현 빈도에 기초하여 단어의 표시 사이즈를 결정한다 (스텝 S206). 스텝 S206 에서는, 출현 빈도가 높은 단어일수록, 단어의 표시 사이즈는 크게 결정된다.Next, for each cluster, the
다음으로, CPU (21) 는, 계층적 클러스터 분석의 결과를 표시하기 위한 화면 데이터를 생성한다 (스텝 S207). 스텝 S207 에서 생성되는 화면 데이터에는, 스텝 S204 에서 결정된 사이즈를 갖는 m 개의 그룹 (구름형 도형으로 표현된다) 이 포함된다. 각 그룹의 내부에는, 스텝 S206 에서 결정된 사이즈를 갖는 n 개 이하의 단어가 포함된다. 단어는, 화면 내에서, 그룹의 내부에 표시된다. CPU (21) 는, 스텝 S207 을 실행한 후에 화면 데이터 생성 처리를 종료한다.Next, the
다음으로, CPU (21) 는, 스텝 S111 에서 생성한 화면 데이터에 기초하는 화면을 표시부 (25) 에 표시시킨다 (스텝 S112). 다음으로, CPU (21) 는, 이용자로부터의 지시를 받는다 (스텝 S113). 다음으로, CPU (21) 는, 스텝 S113 에서 받은 지시의 종류에 따라, 스텝 S115 ∼ S120 중의 어느 것으로 진행된다 (스텝 S114).Next, the
CPU (21) 는, 스텝 S113 에서 받은 지시가 「그룹 수의 설정」인 경우에는, 스텝 S115 로 진행된다. 이 경우, CPU (21) 는, 그룹 수 (m) 를 이용자가 지시한 값으로 설정하고 (스텝 S115), 스텝 S111 로 진행된다. 그 후, 설정된 그룹 수 (m) 에 기초하여 화면 데이터가 생성되어 새로운 화면이 표시된다. 이로 인해, 지정된 개수의 그룹을 포함하는 분석 결과 화면이 표시된다.When the instruction received in step S113 is "setting of the number of groups", the
CPU (21) 는, 스텝 S113 에서 받은 지시가 「그룹 내의 최대 데이터 수의 설정」인 경우에는, 스텝 S116 으로 진행된다. 이 경우, CPU (21) 는, 그룹 내의 최대 데이터 수 (n) 를 이용자가 지정한 값으로 설정하고 (스텝 S116), 스텝 S111 로 진행된다. 그 후, 설정된 그룹 내의 최대 데이터 수 (n) 에 기초하여 화면 데이터가 생성되어 새로운 화면이 표시된다. 이로 인해, 각 그룹에 포함되는 단어의 개수가 지정된 값 이하로 제한된 분석 결과 화면이 표시된다.When the instruction received in step S113 is "setting of the maximum number of data in the group", the
CPU (21) 는, 스텝 S113 에서 받은 지시가 「분석 대상 기간의 설정」인 경우에는, 스텝 S117 로 진행된다. 이 경우, CPU (21) 는, 분석 대상 기간을 이용자가 지정한 기간으로 설정하고 (스텝 S117), 스텝 S109 로 진행된다. 그 후, 설정된 분석 대상 기간을 참조하여 계층적 클러스터 분석이 실시되고, 새로운 분석 결과를 표시하기 위한 화면 데이터가 생성되어 새로운 화면이 표시된다. 이로 인해, 지정된 분석 대상 기간 내의 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다.When the instruction received in step S113 is "setting of an analysis target period", the
도 11a 는, 분석 대상 기간을 설정하기 전의 분석 결과 화면을 나타내는 도면이다. 도 11b 는, 분석 대상 기간을 설정한 후의 분석 결과 화면을 나타내는 도면이다. 도 11a 에 나타내는 설정 전의 분석 결과 화면 (61) 에는, 입력된 텍스트 데이터 (5) 중, 2014년 1월 1일 0시 0분부터 2015년 12월 31일 24시 0분까지의 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과가 표시된다. 도 11b 에 나타내는 설정 후의 분석 결과 화면 (62) 에는, 입력된 텍스트 데이터 (5) 중, 2014년 3월 1일 0시 0분부터 2014년 9월 30일 24시 0분까지의 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과가 표시된다. 분석 결과 화면 (61) 의 표시 내용과 분석 결과 화면 (62) 의 표시 내용은 상이하다. 이용자는, 분석 대상 기간을 설정하기 전후의 분석 결과 화면을 봄으로써, 계층적 클러스터 분석 결과의 시간적인 변화를 용이하게 인식할 수 있다.11A is a diagram showing an analysis result screen before an analysis target period is set. 11B is a diagram showing an analysis result screen after setting an analysis target period. In the
CPU (21) 는, 스텝 S113 에서 받은 지시가 「단어 제외」인 경우에는, 스텝 S118 로 진행된다. 이 경우, CPU (21) 는, 지정된 단어를 제외 단어 리스트에 추가하여 (스텝 S118), 스텝 S109 로 진행된다. 그 후, 지정된 단어를 제외하고 계층적 클러스터 분석이 실시되고, 새로운 분석 결과를 표시하기 위한 화면 데이터가 생성되어, 새로운 화면이 표시된다. 이로 인해, 지정된 단어를 제외하고 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다.When the instruction received in step S113 is "except for words", the
도 12a 는, 단어 제외를 실시하기 전의 분석 결과 화면을 나타내는 도면이다. 도 12b 는, 단어 제외를 실시한 후의 분석 결과 화면을 나타내는 도면이다. 이용자는, 마우스 (29) 를 조작하여, 제외해야 할 단어를 선택한 후, 단어 제외를 지시한다. 도 12a 에 나타내는 단어 제외 전의 분석 결과 화면 (63) 에서는, 「shakai (사회)」가 선택되고, 메뉴 중에서 「단어 제외」가 선택되어 있다. 그 후, 「shakai」를 제외하고 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다. 도 12b 에 나타내는 단어 제외 후의 분석 결과 화면 (64) 에는, 「shakai」 대신에 「shingaku (진학)」가 표시되어 있다. 「shingaku」는, 「shakai」와 동일한 클러스터에 포함되는 단어 중에서, 분석 결과 화면 (63) 에 표시된 5 개의 단어의 다음으로 출현 빈도가 높은 것이다.12A is a diagram illustrating an analysis result screen before word exclusion is performed. 12B is a diagram illustrating an analysis result screen after word exclusion is performed. The user operates the
CPU (21) 는, 스텝 S113 에서 받은 지시가 「유의어 등록」인 경우에는, 스텝 S119 로 진행된다. 이 경우, CPU (21) 는, 지시된 단어를 사용 중인 유의어 리스트에 추가하고 (스텝 S119), 스텝 S109 로 진행된다. 그 후, 지시된 유의어를 고려하여 계층적 클러스터 분석이 실시되고, 새로운 분석 결과를 표시하기 위한 화면 데이터가 생성되어, 새로운 화면이 표시된다. 이로 인해, 지시된 단어를 유의어로 하여 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다.When the instruction received in step S113 is "significant word registration", the
도 13a 는, 유의어 등록을 실시하기 전의 분석 결과 화면을 나타내는 도면이다. 도 13b 는, 유의어 등록을 실시한 후의 분석 결과 화면을 나타내는 도면이다. 이용자는, 마우스 (29) 를 조작하여, 유의어로서 등록해야 할 복수의 단어를 선택한 후, 유의어 등록을 지시한다. 도 13a 에 나타내는 유의어 등록 전의 분석 결과 화면 (65) 에서는, 「daigakusei (대학생)」와 「gakusei (학생)」이 선택되고, 메뉴 중에서 「유의어 등록」이 선택되어 있다. 그 후, 「daigakusei」와 「gakusei」를 유의어로 하여 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다. 도 13b 에 나타내는 유의어 등록 후의 분석 결과 화면 (66) 에서는, 「daigakusei」가 분석 결과 화면 (65) 보다 큰 사이즈로 표시되고, 「gakusei」대신에 「shingaku (진학)」가 표시되어 있다. 「daigakusei」는, 「daigakusei」의 출현 빈도와 「gakusei」의 출현 빈도의 합계에 따라, 분석 결과 화면 (65) 내의 「daigakusei」보다 큰 사이즈로 표시된다.13A is a diagram showing an analysis result screen before registration of synonyms is performed. 13B is a diagram showing an analysis result screen after registration of synonyms is performed. The user operates the
CPU (21) 는, 스텝 S113 에서 받은 지시가 「복합어 등록」인 경우에는, 스텝 S120 으로 진행된다. 이 경우, CPU (21) 는, 지시된 단어를 사용 중인 복합어 리스트에 추가하여 (스텝 S120), 스텝 S109 로 진행된다. 그 후, 지시된 복합어를 고려하여 계층적 클러스터 분석이 실시되고, 새로운 분석 결과를 표시하기 위한 화면 데이터가 생성되어, 새로운 화면이 표시된다. 이로 인해, 지정된 단어를 복합어로 하여 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다.When the instruction received in step S113 is "compound word registration", the
도 14a 는, 복합어 등록을 실시하기 전의 분석 결과 화면을 나타내는 도면이다. 도 14b 는, 복합어 등록을 실시한 후의 분석 결과 화면을 나타내는 도면이다. 이용자는, 마우스 (29) 를 조작하여, 복합어로서 등록해야 할 복수의 단어를 선택한 후, 「유의어 등록」을 지시한다. 도 14a 에 나타내는 복합어 등록 전의 분석 결과 화면 (67) 에서는, 「nintai (인내)」와 「tsuyoi (강하다)」가 선택되고, 메뉴 중에서 「복합어 등록」이 선택되어 있다. 그 후, 「nintai」와 「tsuyoi」를 복합어로 하여 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다. 도 14b 에 나타내는 복합어 등록 후의 분석 결과 화면 (68) 에서는, 「nintai」 및 「tsuyoi」대신에, 「nintaizuyoi (인내심이 강하다)」가 「nintai」 및 「tsuyoi」이하의 사이즈로 표시된다.14A is a diagram showing an analysis result screen before compound word registration is performed. 14B is a diagram showing an analysis result screen after compound word registration is performed. The user operates the
이상에 나타내는 바와 같이, 본 실시형태에 관련된 텍스트 마이닝 방법은, 입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 텍스트 분석 스텝과, 텍스트 분석 스텝에 의한 분석 결과에 기초하여, 화면 데이터를 생성하는 화면 생성 스텝과, 화면 데이터에 기초하여, 화면을 표시하는 분석 결과 표시 스텝을 구비하고 있다. 화면 생성 스텝은, 그룹 수 (m) 와, 그룹 내의 최대 데이터 수 (n) 에 기초하여, 분석 결과로부터 m 개의 클러스터를 구하고, 클러스터에 포함되는 단어를 n 개 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성한다. 본 실시형태에 관련된 텍스트 마이닝 방법에 의하면, 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과에 기초하여, 클러스터에 포함되는 단어를 포함하는 그룹이 화면에 표시된다. 또, 그룹에 포함되는 단어의 수는, n 개 이하로 제한된다. 따라서, 이용자는, 화면을 보았을 때에, 계층적 클러스터 분석의 결과를 직감적으로 이해할 수 있다.As shown above, the text mining method according to the present embodiment includes a text analysis step for performing hierarchical cluster analysis on words extracted from input text data, and screen data based on the analysis result by the text analysis step. And an analysis result display step of displaying a screen based on the screen data and a screen generation step of generating a screen. In the screen creation step, based on the number of groups (m) and the maximum number of data in the group (n), m clusters are obtained from the analysis result, and groups containing n or less words included in the cluster are displayed on the screen. Create screen data for According to the text mining method according to the present embodiment, a group including words included in the cluster is displayed on a screen based on a result of performing hierarchical cluster analysis on words included in text data. In addition, the number of words included in the group is limited to n or less. Accordingly, the user can intuitively understand the results of hierarchical cluster analysis when viewing the screen.
또, 그룹에 포함되는 단어는, 그룹에 대응하는 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로 선택된다. 이 때문에, 그룹의 내부에는, 클러스터에 포함되는 단어 중 출현 빈도가 높은 단어가 표시된다. 따라서, 이용자는, 각 클러스터에 포함되는 출현 빈도가 높은 단어를 용이하게 인식할 수 있다. 또, 그룹은, 화면 내에서, 그룹에 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는다. 따라서, 이용자는, 단어의 출현 빈도의 합계가 큰 클러스터를 용이하게 인식할 수 있다. 또, 그룹에 포함되는 단어는, 화면 내에서, 단어의 출현 빈도에 따른 사이즈를 갖는다. 따라서, 이용자는, 출현 빈도가 높은 단어를 용이하게 인식할 수 있다.Further, the words included in the group are selected in the order of the highest frequency of appearance among words included in the cluster corresponding to the group. For this reason, words with a high frequency of appearance among words included in the cluster are displayed inside the group. Accordingly, the user can easily recognize words with a high frequency of appearance included in each cluster. Further, the group has a size according to the sum of the frequency of appearance of words included in the cluster corresponding to the group in the screen. Accordingly, the user can easily recognize a cluster in which the sum of the frequency of occurrence of words is large. Further, the words included in the group have a size according to the frequency of appearance of the words in the screen. Accordingly, the user can easily recognize words with a high frequency of appearance.
또, 텍스트 마이닝 방법은, 이용자로부터의 지시를 입력하기 위한 지시 입력 스텝을 구비하고, 텍스트 분석 스텝 및 화면 생성 스텝 중의 어느 것이, 지시 입력 스텝에서 입력된 지시에 기초하여 실행된다. 따라서, 이용자로부터의 지시에 따라, 계층적 클러스터 분석 결과의 표시 양태를 전환할 수 있다. 특히, 지시 입력 스텝은 그룹 수 (m) 의 설정 지시를 받고, 화면 생성 스텝은 지시 입력 스텝에서 지정된 그룹 수 (m) 에 기초하여, 화면 데이터를 생성한다. 이로 인해, 화면에 표시되는 영역의 개수 (클러스터의 개수) 를 이용자로부터의 지시에 따라 전환할 수 있다. 또, 지시 입력 스텝은 그룹 내의 최대 데이터 수 (n) 를 받고, 화면 생성 스텝은 지시 입력 스텝에서 지정된 그룹 내의 최대 데이터 수 (n) 에 기초하여, 화면 데이터를 생성한다. 이로 인해, 영역 내에 표시되는 단어의 개수를 이용자로부터의 지시에 따라 전환할 수 있다.Further, the text mining method includes an instruction input step for inputting an instruction from a user, and any of the text analysis step and the screen generation step is executed based on the instruction input in the instruction input step. Accordingly, according to an instruction from the user, the display mode of the hierarchical cluster analysis result can be switched. In particular, the instruction input step receives an instruction for setting the number of groups m, and the screen generation step generates screen data based on the number of groups m designated in the instruction input step. For this reason, the number of areas (number of clusters) displayed on the screen can be switched according to an instruction from the user. Further, the instruction input step receives the maximum number of data (n) in the group, and the screen generation step generates screen data based on the maximum number of data (n) in the group specified in the instruction input step. For this reason, the number of words displayed in the area can be switched according to an instruction from the user.
또, 지시 입력 스텝은 분석 대상 기간의 지시를 받고, 텍스트 분석 스텝은, 텍스트 데이터 중 지시 입력 스텝에서 지정된 분석 대상 기간 내의 텍스트 데이터에 포함되는 단어에 대해, 계층적 클러스터 분석을 실시한다. 따라서, 이용자로부터 지시된 분석 대상 기간 내의 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과가 화면에 표시된다. 이로써, 이용자는, 계층적 클러스터 분석 결과의 시간적 변화를 용이하게 인식할 수 있다. 또, 지시 입력 스텝은 분석 목적의 설정 지시를 받고, 텍스트 분석 스텝은, 텍스트 데이터 (5) 로부터 지시 입력 스텝에서 설정된 분석 목적에 따른 종류의 단어를 추출하여, 계층적 클러스터 분석을 실시한다. 이로 인해, 이용자로부터 지시된 분석 목적에 따라 분석 대상의 단어의 종류를 전환하여 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 수 있다.In addition, the instruction input step receives an instruction of an analysis target period, and the text analysis step performs hierarchical cluster analysis on words contained in the text data within the analysis target period designated by the instruction input step among text data. Accordingly, the result of hierarchical cluster analysis on words included in the text data within the analysis target period indicated by the user is displayed on the screen. Thereby, the user can easily recognize the temporal change of the hierarchical cluster analysis result. In addition, the instruction input step receives an instruction for setting the analysis purpose, and the text analysis step extracts words of a kind according to the analysis purpose set in the instruction input step from the
또, 지시 입력 스텝은 단어 제외 지시를 받고, 텍스트 분석 스텝은 지시 입력 스텝에서 지시된 단어를 제외하여, 계층적 클러스터 분석을 실시한다. 이로 인해, 이용자로부터 지시된 단어를 제외하고 계층적 클러스터 분석을 실시한 결과를 표시할 수 있다. 또, 지시 입력 스텝은 유의어 등록 지시를 받고, 텍스트 분석 스텝은 지시 입력 스텝에서 지시된 복수의 단어를 동일한 단어로 간주하여, 계층적 클러스터 분석을 실시한다. 이로 인해, 이용자로부터 지시된 복수의 단어를 동일한 단어로 간주하여 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 수 있다. 또, 지시 입력 스텝은 복합어 등록 지시를 받고, 텍스트 분석 스텝은 지시 입력 스텝에서 지정된 복수의 단어를 1 개의 단어로 병합하여, 계층적 클러스터 분석을 실시한다. 이로 인해, 이용자로부터 지시된 복수의 단어를 1 개의 단어로 병합하여, 계층적 클러스터 분석을 실시한 결과를 화면에 표시할 수 있다.Further, the instruction input step receives an instruction to exclude words, and the text analysis step excludes the words indicated at the instruction input step, and performs hierarchical cluster analysis. For this reason, it is possible to display the result of performing hierarchical cluster analysis excluding words indicated by the user. Further, the instruction input step receives a synonym registration instruction, and the text analysis step considers a plurality of words indicated in the instruction input step as the same word, and performs hierarchical cluster analysis. For this reason, a plurality of words instructed by the user can be regarded as the same word and the result of hierarchical cluster analysis can be displayed on the screen. Further, the instruction input step receives a compound word registration instruction, and the text analysis step merges a plurality of words designated in the instruction input step into one word, and performs hierarchical cluster analysis. For this reason, it is possible to merge a plurality of words instructed by the user into one word and display the results of hierarchical cluster analysis on the screen.
또, 화면 생성 스텝은, 그룹을 포함하는 분석 결과 화면과, 분석 결과 화면의 표시 양태를 설정하기 위한 분석 설정 화면을 표시하기 위한 화면 데이터를 생성한다. 따라서, 분석 결과 화면과 분석 설정 화면이 표시된다. 이로써, 이용자는, 분석 설정 화면을 사용하여, 계층적 클러스터 분석을 실시한 결과의 표시 양태를 용이하게 전환할 수 있다.In addition, the screen generation step generates screen data for displaying an analysis result screen including a group and an analysis setting screen for setting a display mode of the analysis result screen. Therefore, the analysis result screen and analysis setting screen are displayed. Thereby, the user can easily switch the display mode of the result of hierarchical cluster analysis using the analysis setting screen.
본 실시형태에 관련된 텍스트 마이닝 프로그램 (31), 및 본 실시형태에 관련된 텍스트 마이닝 장치 (10) 는, 본 실시형태에 관련된 텍스트 마이닝 처리 방법과 동일한 구성을 갖고, 동일한 효과를 발휘한다.The
본 실시형태에 관련된 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치에 의하면, 텍스트 데이터에 포함되는 단어에 대해 계층적 클러스터 분석을 실시한 결과에 기초하여, 클러스터에 포함되는 단어를 최대 데이터 수 이하 포함하는 그룹이 화면에 표시된다. 따라서, 이용자는, 화면을 보았을 때에, 계층적 클러스터 분석의 결과를 직감적으로 이해할 수 있다.According to the text mining method, text mining program, and text mining apparatus according to the present embodiment, words included in the cluster are included in the maximum number of data or less, based on the result of hierarchical cluster analysis on words included in text data. Group is displayed on the screen. Accordingly, the user can intuitively understand the results of hierarchical cluster analysis when viewing the screen.
또한, 본원은, 2016년 7월 25일에 출원된 「텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치」라는 명칭의 일본 특허출원 2016-145065호에 기초하는 우선권을 주장하는 출원이며, 이들 출원의 내용은 인용함으로써 본원 중에 포함된다.In addition, this application is an application claiming priority based on Japanese Patent Application No. 2016-145065 entitled "Text mining method, text mining program, and text mining device" filed on July 25, 2016, and these applications The contents of are incorporated herein by reference.
5 : 텍스트 데이터
10 : 텍스트 마이닝 장치
11 : 지시 입력부
12 : 텍스트 분석부
13 : 화면 생성부
14 : 분석 결과 표시부
20 : 컴퓨터
21 : CPU
22 : 메인 메모리
24 : 입력부
25 : 표시부
30 : 기록 매체
31 : 텍스트 마이닝 프로그램
40 : 표시 화면
41, 61 ∼ 68 : 분석 결과 화면
42 : 분석 설정 화면
51 : 데이터 지정 화면
52 : 목적 지정 화면
53 : 유의어 리스트 선택 화면
54 : 복합어 리스트 선택 화면 5: text data
10: text mining device
11: Instruction input unit
12: text analysis unit
13: screen generator
14: analysis result display unit
20: computer
21: CPU
22: main memory
24: input
25: display
30: recording medium
31: text mining program
40: display screen
41, 61 ∼ 68: Analysis result screen
42: Analysis setting screen
51: Data designation screen
52: Purpose designation screen
53: Thesaurus list selection screen
54: Compound word list selection screen
Claims (25)
입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 텍스트 분석 스텝과,
상기 텍스트 분석 스텝에 의한 분석 결과에 기초하여, 화면 데이터를 생성하는 화면 생성 스텝과,
상기 화면 데이터에 기초하여, 화면을 표시하는 분석 결과 표시 스텝을 구비하고,
상기 화면 생성 스텝은, 그룹 수와 그룹 내의 최대 데이터 수에 기초하여, 상기 분석 결과로부터 상기 그룹 수의 클러스터를 구하고, 상기 클러스터에 포함되는 단어를 상기 최대 데이터 수 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성하고,
상기 그룹에는, 명칭으로서 상기 클러스터에 포함되는 단어 중 출현 빈도가 가장 높은 단어가 부여되어 있는 것을 특징으로 하는, 텍스트 마이닝 방법.As a text mining method that displays the analysis result of text data on a screen,
A text analysis step that performs hierarchical cluster analysis on words extracted from the input text data,
A screen generation step for generating screen data based on the analysis result by the text analysis step,
An analysis result display step of displaying a screen based on the screen data,
The screen generation step, based on the number of groups and the maximum number of data in the group, obtains a cluster of the number of groups from the analysis result, and displays a group including words included in the cluster less than the maximum number of data on the screen. Create screen data for
The text mining method, characterized in that, as a name, a word having the highest occurrence frequency among words included in the cluster is assigned to the group.
상기 그룹에 포함되는 단어는, 상기 그룹에 대응하는 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로 선택되는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 1,
The words included in the group are selected from among words included in a cluster corresponding to the group in the order of their occurrence frequency.
상기 그룹은, 상기 화면 내에서, 상기 그룹에 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 2,
Wherein the group has a size according to the sum of the frequency of occurrence of words included in the cluster corresponding to the group in the screen.
상기 그룹에 포함되는 단어는, 상기 화면 내에서, 상기 단어의 출현 빈도에 따른 사이즈를 갖는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 3,
A text mining method, characterized in that the words included in the group have a size according to the frequency of appearance of the word in the screen.
이용자로부터의 지시를 입력하기 위한 지시 입력 스텝을 추가로 구비하고,
상기 텍스트 분석 스텝 및 상기 화면 생성 스텝 중의 어느 것이, 상기 지시 입력 스텝에서 입력된 지시에 기초하여 실행되는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 1,
An instruction input step for inputting an instruction from the user is further provided,
Any of the text analysis step and the screen generation step is executed based on an instruction input in the instruction input step.
상기 지시 입력 스텝은 상기 그룹 수의 설정 지시를 받고,
상기 화면 생성 스텝은, 상기 지시 입력 스텝에서 설정된 그룹 수에 기초하여, 상기 화면 데이터를 생성하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 5,
The instruction input step receives an instruction for setting the number of groups,
The screen generating step is characterized in that the screen data is generated based on the number of groups set in the instruction input step.
상기 지시 입력 스텝은 상기 최대 데이터 수의 설정 지시를 받고,
상기 화면 생성 스텝은, 상기 지시 입력 스텝에서 설정된 최대 데이터 수에 기초하여, 상기 화면 데이터를 생성하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 5,
The instruction input step receives an instruction to set the maximum number of data,
The screen generating step is characterized in that the screen data is generated based on the maximum number of data set in the instruction input step.
상기 지시 입력 스텝은 분석 대상 기간의 설정 지시를 받고,
상기 텍스트 분석 스텝은, 상기 텍스트 데이터 중 상기 지시 입력 스텝에서 설정된 분석 대상 기간 내의 텍스트 데이터에 포함되는 단어에 대해, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 5,
The instruction input step receives an instruction for setting an analysis target period,
In the text analysis step, the hierarchical cluster analysis is performed on words included in the text data within the analysis target period set in the instruction input step among the text data.
상기 지시 입력 스텝은 분석 목적의 설정 지시를 받고,
상기 텍스트 분석 스텝은, 상기 텍스트 데이터로부터 상기 지시 입력 스텝에서 설정된 분석 목적에 따른 종류의 단어를 추출하여, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 5,
The instruction input step receives an instruction for setting the purpose of analysis,
In the text analysis step, the hierarchical cluster analysis is performed by extracting a word of a kind according to an analysis purpose set in the instruction input step from the text data.
상기 지시 입력 스텝은 단어 제외 지시를 받고,
상기 텍스트 분석 스텝은, 상기 지시 입력 스텝에서 지시된 단어를 제외하고, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 5,
The instruction input step receives an instruction to exclude words,
In the text analysis step, the hierarchical cluster analysis is performed, excluding words indicated in the instruction input step.
상기 지시 입력 스텝은 유의어 등록 지시를 받고,
상기 텍스트 분석 스텝은, 상기 지시 입력 스텝에서 지시된 복수의 단어를 동일한 단어로 간주하여, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 5,
The instruction input step receives a synonym registration instruction,
In the text analysis step, the hierarchical cluster analysis is performed by considering a plurality of words indicated in the instruction input step as the same word.
상기 지시 입력 스텝은 복합어 등록 지시를 받고,
상기 텍스트 분석 스텝은, 상기 지시 입력 스텝에서 지시된 복수의 단어를 1 개의 단어로 병합하여, 상기 계층적 클러스터 분석을 실시하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 5,
The instruction input step receives a compound word registration instruction,
In the text analysis step, the hierarchical cluster analysis is performed by merging a plurality of words indicated in the instruction input step into one word.
상기 화면 생성 스텝은, 상기 그룹을 포함하는 분석 결과 화면과, 상기 분석 결과 화면의 표시 양태를 설정하기 위한 분석 설정 화면을 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 하는, 텍스트 마이닝 방법.The method of claim 1,
The screen generating step comprises generating screen data for displaying an analysis result screen including the group and an analysis setting screen for setting a display mode of the analysis result screen.
입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 텍스트 분석 스텝과,
상기 텍스트 분석 스텝에 의한 분석 결과에 기초하여, 화면 데이터를 생성하는 화면 생성 스텝과,
상기 화면 데이터에 기초하여, 화면을 표시하는 분석 결과 표시 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
상기 화면 생성 스텝은, 그룹 수와 그룹 내의 최대 데이터 수에 기초하여, 상기 분석 결과로부터 상기 그룹 수의 클러스터를 구하고, 상기 클러스터에 포함되는 단어를 상기 최대 데이터 수 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성하고,
상기 그룹에는, 명칭으로서 상기 클러스터에 포함되는 단어 중 출현 빈도가 가장 높은 단어가 부여되어 있는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.As a text mining program stored in a recording medium that displays the analysis result of text data on a screen,
A text analysis step that performs hierarchical cluster analysis on words extracted from the input text data,
A screen generation step for generating screen data based on the analysis result by the text analysis step,
Based on the screen data, the CPU executes the analysis result display step of displaying a screen in the computer using a memory,
The screen generation step, based on the number of groups and the maximum number of data in the group, obtains a cluster of the number of groups from the analysis result, and displays a group including words included in the cluster less than the maximum number of data on the screen. Create screen data for
A text mining program stored in a recording medium, characterized in that a word having the highest frequency of appearance among words included in the cluster is assigned as a name to the group.
상기 그룹에 포함되는 단어는, 상기 그룹에 대응하는 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로 선택되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.The method of claim 14,
The text mining program stored in the recording medium, characterized in that the words included in the group are selected in the order of their appearance frequency from among words included in the cluster corresponding to the group.
상기 그룹은, 상기 화면 내에서, 상기 그룹에 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.The method of claim 15,
Wherein the group has a size according to the sum of the frequency of appearances of words included in the cluster corresponding to the group in the screen.
상기 그룹에 포함되는 단어는, 상기 화면 내에서, 상기 단어의 출현 빈도에 따른 사이즈를 갖는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.The method of claim 16,
A text mining program stored in a recording medium, characterized in that the words included in the group have a size according to the frequency of appearance of the word in the screen.
이용자로부터의 지시를 입력하기 위한 지시 입력 스텝을 상기 컴퓨터에 추가로 실행시키고,
상기 텍스트 분석 스텝 및 상기 화면 생성 스텝 중의 어느 것이, 상기 지시 입력 스텝에서 입력된 지시에 기초하여 실행되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.The method of claim 14,
An instruction input step for inputting an instruction from the user is additionally executed on the computer,
A text mining program stored in a recording medium, characterized in that either of the text analysis step and the screen generation step is executed based on an instruction input in the instruction input step.
상기 화면 생성 스텝은, 상기 그룹을 포함하는 분석 결과 화면과, 상기 분석 결과 화면의 표시 양태를 설정하기 위한 분석 설정 화면을 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.The method of claim 14,
The screen generation step comprises generating screen data for displaying an analysis result screen including the group and an analysis setting screen for setting a display mode of the analysis result screen, characterized in that the text mining stored in a recording medium program.
입력된 텍스트 데이터로부터 추출한 단어에 대해 계층적 클러스터 분석을 실시하는 텍스트 분석부와,
상기 텍스트 분석부에 의한 분석 결과에 기초하여, 화면 데이터를 생성하는 화면 생성부와,
상기 화면 데이터에 기초하여, 화면을 표시하는 분석 결과 표시부를 구비하고,
상기 화면 생성부는, 그룹 수와 그룹 내의 최대 데이터 수에 기초하여, 상기 분석 결과로부터 상기 그룹 수의 클러스터를 구하고, 상기 클러스터에 포함되는 단어를 상기 최대 데이터 수 이하 포함하는 그룹을 화면에 표시하기 위한 화면 데이터를 생성하고,
상기 그룹에는, 명칭으로서 상기 클러스터에 포함되는 단어 중 출현 빈도가 가장 높은 단어가 부여되어 있는 것을 특징으로 하는, 텍스트 마이닝 장치.As a text mining device that displays text data analysis results on a screen,
A text analysis unit that performs hierarchical cluster analysis on words extracted from the input text data,
A screen generation unit that generates screen data based on the analysis result by the text analysis unit,
An analysis result display unit for displaying a screen based on the screen data,
The screen generator is configured to obtain a cluster of the number of groups from the analysis result based on the number of groups and the maximum number of data in the group, and to display a group including words included in the cluster less than the maximum number of data on the screen. Create screen data,
The text mining apparatus, characterized in that, as a name, a word having the highest occurrence frequency among words included in the cluster is assigned to the group.
상기 그룹에 포함되는 단어는, 상기 그룹에 대응하는 클러스터에 포함되는 단어 중에서 출현 빈도가 높은 순으로 선택되는 것을 특징으로 하는, 텍스트 마이닝 장치.The method of claim 20,
The text mining apparatus, characterized in that the words included in the group are selected in the order of their appearance frequency from among words included in a cluster corresponding to the group.
상기 그룹은, 상기 화면 내에서, 상기 그룹에 대응하는 클러스터에 포함되는 단어의 출현 빈도의 합계에 따른 사이즈를 갖는 것을 특징으로 하는, 텍스트 마이닝 장치.The method of claim 21,
The group, in the screen, characterized in that the size according to the sum of the frequency of occurrence of words included in the cluster corresponding to the group, text mining apparatus.
상기 그룹에 포함되는 단어는, 상기 화면 내에서, 상기 단어의 출현 빈도에 따른 사이즈를 갖는 것을 특징으로 하는, 텍스트 마이닝 장치.The method of claim 22,
The text mining apparatus, characterized in that the words included in the group have a size according to the frequency of appearance of the words in the screen.
이용자로부터의 지시를 입력하기 위한 지시 입력부를 추가로 구비하고,
상기 텍스트 분석부 및 상기 화면 생성부 중 어느 것이, 상기 지시 입력부에서 입력된 지시에 기초하여 동작하는 것을 특징으로 하는, 텍스트 마이닝 장치.The method of claim 20,
Further provided with an instruction input unit for inputting an instruction from the user,
Any one of the text analysis unit and the screen generation unit operates based on an instruction input from the instruction input unit.
상기 화면 생성부는, 상기 그룹을 포함하는 분석 결과 화면과, 상기 분석 결과 화면의 표시 양태를 설정하기 위한 분석 설정 화면을 표시하기 위한 화면 데이터를 생성하는 것을 특징으로 하는, 텍스트 마이닝 장치.The method of claim 20,
The screen generation unit generates screen data for displaying an analysis result screen including the group and an analysis setting screen for setting a display mode of the analysis result screen.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016145065A JP6794162B2 (en) | 2016-07-25 | 2016-07-25 | Text mining methods, text mining programs, and text mining equipment |
JPJP-P-2016-145065 | 2016-07-25 | ||
PCT/JP2017/020922 WO2018020842A1 (en) | 2016-07-25 | 2017-06-06 | Text mining method, text mining program, and text mining apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20190018480A KR20190018480A (en) | 2019-02-22 |
KR102180487B1 true KR102180487B1 (en) | 2020-11-18 |
Family
ID=61015910
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020197000933A KR102180487B1 (en) | 2016-07-25 | 2017-06-06 | Text mining method, text mining program, and text mining device |
Country Status (5)
Country | Link |
---|---|
JP (1) | JP6794162B2 (en) |
KR (1) | KR102180487B1 (en) |
CN (1) | CN109478191B (en) |
TW (1) | TWI686716B (en) |
WO (1) | WO2018020842A1 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7078429B2 (en) * | 2018-03-20 | 2022-05-31 | 株式会社Screenホールディングス | Text mining methods, text mining programs, and text mining equipment |
US11636144B2 (en) | 2019-05-17 | 2023-04-25 | Aixs, Inc. | Cluster analysis method, cluster analysis system, and cluster analysis program |
US20230065007A1 (en) * | 2020-02-25 | 2023-03-02 | Nec Corporation | Item classification assistance system, method, and program |
EP4266186A4 (en) * | 2020-12-16 | 2024-01-17 | Fujitsu Limited | Information processing program, information processing method, and information processing device |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000075811A2 (en) | 1999-06-09 | 2000-12-14 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
JP2003044491A (en) * | 2001-07-30 | 2003-02-14 | Toshiba Corp | Knowledge analytic system. method for setting analytic condition, saving analytic condition and re-analyzing processing in the system |
JP2005107688A (en) * | 2003-09-29 | 2005-04-21 | Nippon Telegr & Teleph Corp <Ntt> | Information display method and system and information display program |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3577819B2 (en) * | 1995-07-14 | 2004-10-20 | 富士ゼロックス株式会社 | Information search apparatus and information search method |
JP4404323B2 (en) * | 1999-02-05 | 2010-01-27 | 経済産業大臣 | Thesaurus browsing system and method |
CN1934570B (en) * | 2004-03-18 | 2012-05-16 | 日本电气株式会社 | Text mining device, and method thereof |
KR20090069874A (en) * | 2007-12-26 | 2009-07-01 | 한국과학기술정보연구원 | Method of selecting keyword and similarity coefficient for knowledge map analysis, and system thereof and media that can record computer program sources for method therof |
JP5022319B2 (en) * | 2008-08-04 | 2012-09-12 | 日本電信電話株式会社 | Text mining apparatus, method, program, and recording medium thereof |
JP5439261B2 (en) | 2010-04-01 | 2014-03-12 | 日本電信電話株式会社 | Clustering apparatus, clustering method, and clustering program |
JP5545876B2 (en) | 2011-01-17 | 2014-07-09 | 日本電信電話株式会社 | Query providing apparatus, query providing method, and query providing program |
US9477704B1 (en) * | 2012-12-31 | 2016-10-25 | Teradata Us, Inc. | Sentiment expression analysis based on keyword hierarchy |
TW201516713A (en) * | 2013-10-16 | 2015-05-01 | Chunghwa Telecom Co Ltd | File classification method based on group characteristic values |
CN104142918B (en) * | 2014-07-31 | 2017-04-05 | 天津大学 | Short text clustering and focus subject distillation method based on TF IDF features |
CN104504024B (en) * | 2014-12-11 | 2018-09-07 | 中国科学院计算技术研究所 | Keyword method for digging based on content of microblog and system |
CN105550365A (en) * | 2016-01-15 | 2016-05-04 | 中国科学院自动化研究所 | Visualization analysis system based on text topic model |
-
2016
- 2016-07-25 JP JP2016145065A patent/JP6794162B2/en active Active
-
2017
- 2017-06-06 WO PCT/JP2017/020922 patent/WO2018020842A1/en active Application Filing
- 2017-06-06 KR KR1020197000933A patent/KR102180487B1/en active IP Right Grant
- 2017-06-06 CN CN201780043375.8A patent/CN109478191B/en active Active
- 2017-06-30 TW TW106122011A patent/TWI686716B/en active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000075811A2 (en) | 1999-06-09 | 2000-12-14 | The Boeing Company | Method and system for text mining using multidimensional subspaces |
JP2003044491A (en) * | 2001-07-30 | 2003-02-14 | Toshiba Corp | Knowledge analytic system. method for setting analytic condition, saving analytic condition and re-analyzing processing in the system |
JP2005107688A (en) * | 2003-09-29 | 2005-04-21 | Nippon Telegr & Teleph Corp <Ntt> | Information display method and system and information display program |
Also Published As
Publication number | Publication date |
---|---|
TWI686716B (en) | 2020-03-01 |
KR20190018480A (en) | 2019-02-22 |
TW201807597A (en) | 2018-03-01 |
WO2018020842A1 (en) | 2018-02-01 |
JP6794162B2 (en) | 2020-12-02 |
CN109478191A (en) | 2019-03-15 |
CN109478191B (en) | 2022-04-08 |
JP2018018118A (en) | 2018-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102180487B1 (en) | Text mining method, text mining program, and text mining device | |
US20120221553A1 (en) | Methods for electronic document searching and graphically representing electronic document searches | |
US10698956B2 (en) | Active knowledge guidance based on deep document analysis | |
RU2696305C2 (en) | Browsing images through intellectually analyzed hyperlinked fragments of text | |
US20120078612A1 (en) | Systems and methods for navigating electronic texts | |
US10141006B1 (en) | Artificial intelligence system for improving accessibility of digitized speech | |
US9411482B2 (en) | Visualizing user interfaces | |
US9129009B2 (en) | Related links | |
US20120210213A1 (en) | Keyword extraction apparatus and program | |
US20140379719A1 (en) | System and method for tagging and searching documents | |
US20190377779A1 (en) | Device, System and Method for Displaying Sectioned Documents | |
JP2012256176A (en) | Information presentation device | |
US20130097494A1 (en) | Method and system for visual cues to facilitate navigation through an ordered set of documents | |
JP5268508B2 (en) | Information processing apparatus and search method | |
KR20130021482A (en) | Method of editing html tables by cell unit | |
JP2005128872A (en) | Document retrieving system and document retrieving program | |
JP2016045552A (en) | Feature extraction program, feature extraction method, and feature extraction device | |
JP2019096148A (en) | Providing device, providing method and providing program | |
CN113010072A (en) | Searching method and device, electronic equipment and readable storage medium | |
WO2017056164A1 (en) | Information presentation system, and information presentation method | |
Nizamee et al. | Visualizing the web search results with web search visualization using scatter plot | |
JP2009271671A (en) | Information processor, information processing method, program, and recording medium | |
JP5574775B2 (en) | Idea organization support device and idea organization support program | |
CN117313675A (en) | Text modification method, apparatus, computer device and computer readable storage medium | |
JP5720511B2 (en) | Information browsing method, information browsing system, server device, and client device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |