KR102162779B1 - 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 - Google Patents

텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 Download PDF

Info

Publication number
KR102162779B1
KR102162779B1 KR1020190013093A KR20190013093A KR102162779B1 KR 102162779 B1 KR102162779 B1 KR 102162779B1 KR 1020190013093 A KR1020190013093 A KR 1020190013093A KR 20190013093 A KR20190013093 A KR 20190013093A KR 102162779 B1 KR102162779 B1 KR 102162779B1
Authority
KR
South Korea
Prior art keywords
air
word
screen
text data
air network
Prior art date
Application number
KR1020190013093A
Other languages
English (en)
Other versions
KR20190110428A (ko
Inventor
미키 가키노키
Original Assignee
가부시키가이샤 스크린 홀딩스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 스크린 홀딩스 filed Critical 가부시키가이샤 스크린 홀딩스
Publication of KR20190110428A publication Critical patent/KR20190110428A/ko
Application granted granted Critical
Publication of KR102162779B1 publication Critical patent/KR102162779B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)

Abstract

텍스트 마이닝 방법은, 텍스트 데이터로부터 단어를 추출하는 스텝과, 추출된 단어에 대해 공기 행렬을 생성하는 스텝과, 생성된 공기 행렬에 기초하여 공기 네트워크를 생성하는 스텝과, 생성된 공기 네트워크를 포함하는 화면을 표시하는 스텝을 구비한다. 지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 지정된 텍스트 데이터 중 주목어를 포함하는 부분으로 이루어지는 한정 텍스트 데이터로부터 단어를 추출하고, 추출한 단어에 대해 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 제 2 공기 행렬에 기초하여 제 2 공기 네트워크를 생성하고, 제 2 공기 네트워크를 포함하는 제 2 화면을 표시한다.

Description

텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치{TEXT MINING METHOD, TEXT MINING PROGRAM AND TEXT MINING APPARATUS}
본 발명은 텍스트 마이닝에 관한 것으로, 특히, 단어의 공기 (共起) 네트워크를 포함하는 화면을 표시하는 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치에 관한 것이다.
최근, 자유 기술된 텍스트 데이터를 분석하고, 분석 결과로부터 유용한 정보를 구하는 텍스트 마이닝이 주목받고 있다. 텍스트 마이닝에서는, 예를 들어, 분석 대상인 텍스트 데이터로부터 단어를 추출하고, 단어의 출현 빈도나 출현 경향 등을 해석함으로써 정보를 구한다.
자유 기술된 텍스트 데이터를 분석할 때에는, 분석자는, 초기 단계에서는 대상을 주관적으로 선택하는 것이 아니라, 텍스트 데이터의 전체 이미지를 파악할 필요가 있다. 이 때문에, 분석자는, 텍스트 데이터에 포함되는 단어의 공기 네트워크를 사용하는 경우가 있다.
도 19 는, 공기 네트워크의 예를 나타내는 도면이다. 공기 네트워크는, 텍스트 데이터로부터 동일한 문장에 포함되는 경우가 많은 단어의 페어를 추출하여, 그 결과를 무향 그래프로 표현한 것이다. 분석 대상인 텍스트 데이터에 있어서 단어 Wa 와 단어 Wb 가 동일한 문장에 포함되는 경우가 많은 경우, 공기 네트워크에는, 단어 Wa 에 대응하는 노드, 단어 Wb 에 대응하는 노드, 및 양자를 접속하는 에지가 포함된다. 도 19 에 나타내는 공기 네트워크는, 「스태프」에 대응하는 노드, 「대응」에 대응하는 노드, 및 양자를 접속하는 에지를 포함하고 있다. 도 19 에 나타내는 공기 네트워크를 보면, 분석 대상인 텍스트 데이터에서는 「스태프」 과 「대응」이 동일한 문장에 포함되는 경우가 많은 것을 알 수 있다.
일반적으로, 공기 네트워크는, 지정된 텍스트 데이터 전체에 기초하여 생성된다. 이하, 이와 같은 공기 네트워크를 「전체 공기 네트워크」라고 한다. 분석자는, 자신이 세운 가설이나 분석 목적에 따라 전체 공기 네트워크로부터 주목해야 할 단어 (이하, 주목어라고 한다) 를 복수 개 선택하고, 주목어를 고려하여 이후의 분석을 실시한다.
분석자는, 주목어를 선택할 때, 선택한 주목어가 분석 목적 등에 적합한지 여부를 판단하기 위해, 주목어를 포함하는 문장 중에서 주목어가 어떻게 사용되고 있는지를 고찰한다. 이 때문에, 분석자는, 지정된 텍스트 데이터 중 주목어를 포함하는 문장으로 이루어지는 텍스트 데이터 (이하, 한정 텍스트 데이터라고 한다) 에 기초한 공기 네트워크를 사용하는 경우가 있다. 또한, 여기서 말하는 「주목어를 포함하는 문장」은, 주목어를 포함하는 단일 문장을 의미하는 경우뿐만 아니라, 주목어를 포함하는 문장을 포함하는 단락 등, 블록 단위로 분할된 복수의 문장 (문장의 집합) 을 의미하는 경우가 있다. 이하, 이와 같은 공기 네트워크를 「한정 공기 네트워크」라고 한다. 분석자는, 한정 공기 네트워크를 사용함으로써, 한정 텍스트 데이터의 내용을 파악할 수 있다. 분석자는, 모든 주목어를 선택할 때까지, 전체 공기 네트워크와 한정 공기 네트워크를 반복해서 참조한다.
이하, 텍스트 데이터에 포함되는 단어의 공기 네트워크를 생성하고, 생성된 공기 네트워크를 포함하는 화면을 표시하는 텍스트 마이닝 장치에 대해 생각한다. 일본 공개특허공보 평8-314980호에는, 복수의 문서 각각에 대해 전체 공기 네트워크를 생성하고, 생성된 복수의 전체 공기 네트워크를 포함하는 화면을 표시하는 도큐먼트 데이터베이스 표시 장치가 기재되어 있다. 이 표시 장치는, 복수의 전체 공기 네트워크 중에서 이용자가 입력한 단어를 검색하여, 검색한 단어를 화면 내에서 강조 표시한다.
종래의 텍스트 마이닝 장치는, 지정된 텍스트 데이터 전체에 기초하여 공기 네트워크를 생성한다. 따라서, 종래의 텍스트 마이닝 장치에 의하면, 전체 공기 네트워크를 포함하는 화면을 용이하게 표시할 수 있다.
한편, 종래의 텍스트 마이닝 장치를 사용하여 한정 공기 네트워크를 포함하는 화면을 표시할 때에는, 분석자는 번잡한 조작을 실시할 필요가 있다. 구체적으로는, 분석자는, 전체 공기 네트워크 중에서 1 개의 주목어를 선택할 때마다, 지정된 텍스트 데이터에 기초하여 한정 텍스트 데이터를 생성하고, 생성된 한정 텍스트 데이터를 텍스트 마이닝 장치에 제공할 필요가 있다. 또, 분석자는, 주목어를 선택할 때에는, 전체 공기 네트워크와 한정 공기 네트워크의 양방을 참조한다. 이 때문에, 텍스트 마이닝 장치는, 전체 공기 네트워크의 화상 데이터와 한정 공기 네트워크의 화상 데이터의 양방을 보존할 필요가 있다. 그러나, 다수의 공기 네트워크를 생성한 경우, 화상 데이터의 보존과 관리가 곤란해진다.
그 때문에, 본 발명은, 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 간단한 조작으로 표시할 수 있는 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치를 제공하는 것을 목적으로 한다.
본 발명의 제 1 국면은, 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법으로서,
텍스트 데이터로부터 단어를 추출하는 스텝과,
상기 단어에 대해 공기 행렬을 생성하는 스텝과,
상기 공기 행렬에 기초하여 공기 네트워크를 생성하는 스텝과,
상기 공기 네트워크를 포함하는 화면을 표시하는 스텝을 구비하고,
지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 상기 단어를 추출하는 스텝은 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 부분으로 이루어지는 한정 텍스트 데이터로부터 상기 단어를 추출하고, 상기 공기 행렬을 생성하는 스텝은 상기 단어에 대해 상기 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 상기 공기 네트워크를 생성하는 스텝은 상기 제 2 공기 행렬에 기초하여 제 2 공기 네트워크를 생성하고, 상기 화면을 표시하는 스텝은 상기 제 2 공기 네트워크를 포함하는 제 2 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 2 국면은, 본 발명의 제 1 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 노드를 선택하고, 분석 개시를 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 3 국면은, 본 발명의 제 1 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 노드를 계속해서 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 4 국면은, 본 발명의 제 1 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 에지를 계속해서 선택함으로써, 상기 에지에 접속된 2 개의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 5 국면은, 본 발명의 제 1 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 에지를 선택하고, 분석 개시를 선택함으로써, 상기 에지에 접속된 복수의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 6 국면은, 본 발명의 제 1 국면에 있어서,
복수의 제 2 공기 네트워크를 포함하는 제 2 화면 내에서 병합 지시가 입력되었을 때, 상기 화면을 표시하는 스텝은, 상기 복수의 제 2 공기 네트워크를 탭 형식으로 표시하는 것을 특징으로 한다.
본 발명의 제 7 국면은, 본 발명의 제 6 국면에 있어서,
상기 제 2 화면 내에서 하나의 제 2 공기 네트워크를 드래그하여 다른 제 2 공기 네트워크 내에서 드롭함으로써, 상기 병합 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 8 국면은, 본 발명의 제 1 국면에 있어서,
상기 한정 텍스트 데이터는, 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 문장으로 이루어지는 것을 특징으로 한다.
본 발명의 제 9 국면은, 본 발명의 제 8 국면에 있어서,
복수의 주목어가 지정되었을 때의 상기 한정 텍스트 데이터는, 상기 지정된 텍스트 데이터 중 상기 복수의 주목어 모두를 포함하는 문장으로 이루어지는 것을 특징으로 한다.
본 발명의 제 10 국면은, 본 발명의 제 8 국면에 있어서,
복수의 주목어가 지정되었을 때의 상기 한정 텍스트 데이터는, 상기 지정된 텍스트 데이터 중 상기 복수의 주목어 중 어느 것을 포함하는 문장으로 이루어지는 것을 특징으로 한다.
본 발명의 제 11 국면은, 본 발명의 제 1 국면에 있어서,
상기 공기 행렬을 생성하는 스텝은, Jaccard 계수를 요소로 하는 공기 행렬을 생성하는 것을 특징으로 한다.
본 발명의 제 12 국면은, 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하기 위한 텍스트 마이닝 프로그램으로서,
텍스트 데이터로부터 단어를 추출하는 스텝과,
상기 단어에 대해 공기 행렬을 생성하는 스텝과,
상기 공기 행렬에 기초하여 공기 네트워크를 생성하는 스텝과,
상기 공기 네트워크를 포함하는 화면을 표시하는 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 상기 단어를 추출하는 스텝은 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 부분으로 이루어지는 한정 텍스트 데이터로부터 상기 단어를 추출하고, 상기 공기 행렬을 생성하는 스텝은 상기 단어에 대해 상기 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 상기 공기 네트워크를 생성하는 스텝은 상기 제 2 공기 행렬에 기초하여 제 2 공기 네트워크를 생성하고, 상기 화면을 표시하는 스텝은 상기 제 2 공기 네트워크를 포함하는 제 2 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 13 국면은, 본 발명의 제 12 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 노드를 선택하고, 분석 개시를 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 14 국면은, 본 발명의 제 12 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 노드를 계속해서 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 15 국면은, 본 발명의 제 12 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 에지를 계속해서 선택함으로써, 상기 에지에 접속된 2 개의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 16 국면은, 본 발명의 제 12 국면에 있어서,
상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 에지를 선택하고, 분석 개시를 선택함으로써, 상기 에지에 접속된 복수의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 17 국면은, 본 발명의 제 12 국면에 있어서,
복수의 제 2 공기 네트워크를 포함하는 제 2 화면 내에서 병합 지시가 입력되었을 때, 상기 화면을 표시하는 스텝은, 상기 복수의 제 2 공기 네트워크를 탭 형식으로 표시하는 것을 특징으로 한다.
본 발명의 제 18 국면은, 본 발명의 제 17 국면에 있어서,
상기 제 2 화면 내에서 하나의 제 2 공기 네트워크를 드래그하여 다른 제 2 공기 네트워크 내에서 드롭함으로써, 상기 병합 지시가 입력되는 것을 특징으로 한다.
본 발명의 제 19 국면은, 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 장치로서,
텍스트 데이터로부터 단어를 추출하는 단어 추출부와,
상기 단어에 대해 공기 행렬을 생성하는 공기 행렬 생성부와,
상기 공기 행렬에 기초하여 공기 네트워크를 생성하는 공기 네트워크 생성부와,
상기 공기 네트워크를 포함하는 화면을 표시하는 화면 표시부를 구비하고,
지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 상기 단어 추출부는 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 부분으로 이루어지는 한정 텍스트 데이터로부터 상기 단어를 추출하고, 상기 공기 행렬 생성부는 상기 단어에 대해 상기 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 상기 공기 네트워크 생성부는 상기 제 2 공기 행렬에 기초하여 제 2 공기 네트워크를 생성하고, 상기 화면 표시부는 상기 제 2 공기 네트워크를 포함하는 제 2 화면을 표시하는 것을 특징으로 한다.
본 발명의 제 20 국면은, 본 발명의 제 19 국면에 있어서,
복수의 제 2 공기 네트워크를 포함하는 제 2 화면 내에서 병합 지시가 입력되었을 때, 상기 화면 표시부는, 상기 복수의 제 2 공기 네트워크를 탭 형식으로 표시하는 것을 특징으로 한다.
상기 제 1, 제 12 또는 제 19 국면에 의하면, 지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 지정된 텍스트 데이터 중 주목어를 포함하는 부분에 기초한 제 2 공기 네트워크를 포함하는 제 2 화면이 표시된다. 따라서, 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 간단한 조작으로 표시할 수 있다.
상기 제 2 또는 제 13 국면에 의하면, 제 1 화면 내에서 1 개 또는 복수의 노드와 분석 개시를 선택함으로써, 1 개 또는 복수의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 1 개 또는 복수의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다.
상기 제 3 또는 제 14 국면에 의하면, 제 1 화면 내에서 1 개의 노드를 계속해서 선택함으로써, 1 개의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 1 개의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다.
상기 제 4 또는 제 15 국면에 의하면, 제 1 화면 내에서 1 개의 에지를 계속해서 선택함으로써, 2 개의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 2 개의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다.
상기 제 5 또는 제 16 국면에 의하면, 제 1 화면 내에서 1 개 또는 복수의 에지와 분석 개시를 선택함으로써, 복수의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 복수의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다.
상기 제 6, 제 17 또는 제 20 국면에 의하면, 병합 지시가 입력되었을 때에 복수의 제 2 공기 네트워크를 탭 형식으로 표시함으로써, 복수의 제 2 공기 네트워크를 콤팩트하게 표시할 수 있다.
상기 제 7 또는 제 18 국면에 의하면, 제 2 화면 내에서 제 2 공기 네트워크를 드래그 앤 드롭함으로써, 병합 지시를 간단한 조작으로 입력하여, 복수의 제 2 공기 네트워크를 콤팩트하게 표시할 수 있다.
상기 제 8 국면에 의하면, 주목어를 지정하는 지시가 입력되었을 때, 지정된 텍스트 데이터를 문장 단위로 나누어 한정 텍스트 데이터를 구하고, 구한 한정 텍스트 데이터에 기초한 제 2 공기 네트워크를 포함하는 화면을 표시할 수 있다.
상기 제 9 또는 제 10 국면에 의하면, 복수의 주목어에 대해 AND 처리 또는 OR 처리를 실시했을 때의 제 2 공기 네트워크를 포함하는 화면을 표시할 수 있다.
상기 제 11 국면에 의하면, Jaccard 계수를 요소로 하는 공기 행렬을 생성함으로써, 텍스트 데이터에 포함되는 단어의 공기성을 바람직하게 분석할 수 있다.
도 1 은, 본 발명의 실시형태에 관련된 텍스트 마이닝 장치의 구성을 나타내는 블록도이다.
도 2 는, 도 1 에 나타내는 텍스트 마이닝 장치로서 기능하는 컴퓨터의 구성을 나타내는 블록도이다.
도 3 은, 도 1 에 나타내는 텍스트 마이닝 장치의 동작을 나타내는 플로 차트이다.
도 4 는, 도 1 에 나타내는 텍스트 마이닝 장치에서 생성되는 공기 행렬의 예를 나타내는 도면이다.
도 5 는, 도 1 에 나타내는 텍스트 마이닝 장치가 표시하는 전체 공기 네트워크를 포함하는 윈도의 예를 나타내는 도면이다.
도 6 은, 도 5 에 나타내는 윈도 내에서 주목어를 지정하는 제 1 조작을 나타내는 도면이다.
도 7 은, 도 5 에 나타내는 윈도 내에서 주목어를 지정하는 제 2 조작을 나타내는 도면이다.
도 8 은, 도 5 에 나타내는 윈도 내에서 주목어를 지정하는 제 3 조작을 나타내는 도면이다.
도 9 는, 도 5 에 나타내는 윈도 내에서 주목어를 지정하는 제 4 조작을 나타내는 도면이다.
도 10 은, 도 5 에 나타내는 윈도 내에서 주목어를 지정하는 제 5 조작을 나타내는 도면이다.
도 11 은, 도 5 에 나타내는 윈도 내에서 주목어를 지정하는 제 6 조작을 나타내는 도면이다.
도 12 는, 도 1 에 나타내는 텍스트 마이닝 장치가 표시하는 한정 공기 네트워크를 포함하는 윈도의 예를 나타내는 도면이다.
도 13 은, 도 1 에 나타내는 텍스트 마이닝 장치가 표시하는 한정 공기 네트워크를 포함하는 윈도의 예를 나타내는 도면이다.
도 14 는, 도 1 에 나타내는 텍스트 마이닝 장치의 표시 화면의 예를 나타내는 도면이다.
도 15 는, 도 1 에 나타내는 텍스트 마이닝 장치의 표시 화면의 예를 나타내는 도면이다.
도 16 은, 도 1 에 나타내는 텍스트 마이닝 장치의 표시 화면의 예를 나타내는 도면이다.
도 17 은, 도 1 에 나타내는 텍스트 마이닝 장치에 있어서의 윈도를 병합하는 조작을 나타내는 도면이다.
도 18 은, 도 17 에 나타내는 조작을 실시한 후의 표시 화면을 나타내는 도면이다.
도 19 는, 공기 네트워크의 예를 나타내는 도면이다.
이하, 도면을 참조하여, 본 발명의 실시형태에 관련된 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치에 대해 설명한다. 본 실시형태에 관련된 텍스트 마이닝 방법은, 전형적으로는 컴퓨터를 사용하여 실행된다. 본 실시형태에 관련된 텍스트 마이닝 프로그램은, 컴퓨터를 사용하여 텍스트 마이닝 방법을 실시하기 위한 프로그램이다. 본 실시형태에 관련된 텍스트 마이닝 장치는, 전형적으로는 컴퓨터를 사용하여 구성된다. 텍스트 마이닝 프로그램을 실행하는 컴퓨터는, 텍스트 마이닝 장치로서 기능한다.
도 1 은, 본 발명의 실시형태에 관련된 텍스트 마이닝 장치의 구성을 나타내는 블록도이다. 도 1 에 나타내는 텍스트 마이닝 장치 (10) 는, 지시 입력부 (11), 텍스트 데이터 기억부 (12), 단어 추출부 (13), 공기 행렬 생성부 (14), 공기 네트워크 생성부 (15), 및 화면 표시부 (16) 를 구비하고 있다. 텍스트 마이닝 장치 (10) 는, 텍스트 데이터 기억부 (12) 에 기억된 텍스트 데이터에 기초하여 텍스트 데이터의 분석 결과로서 공기 네트워크를 생성하고, 생성된 공기 네트워크를 포함하는 화면을 표시한다.
텍스트 마이닝 장치 (10) 의 동작의 개요는 이하와 같다. 지시 입력부 (11) 에는, 이용자 (텍스트 데이터의 분석자) 로부터의 지시가 입력된다. 텍스트 데이터 기억부 (12) 는, 자유 기술된 1 이상의 텍스트 데이터를 기억하고 있다. 단어 추출부 (13) 는, 텍스트 데이터 기억부 (12) 로부터 지정된 텍스트 데이터를 판독 출력하고, 판독 출력한 텍스트 데이터에 대하여 형태소 해석을 실시함으로써, 텍스트 데이터로부터 단어를 추출한다. 공기 행렬 생성부 (14) 는, 단어 추출부 (13) 에서 추출된 단어에 대해 공기 행렬을 생성한다. 공기 네트워크 생성부 (15) 는, 공기 행렬 생성부 (14) 에서 생성된 공기 행렬에 기초하여 공기 네트워크를 생성한다. 화면 표시부 (16) 는, 공기 네트워크 생성부 (15) 에서 생성된 공기 네트워크를 포함하는 화면을 표시한다.
이용자는, 지시 입력부 (11) 를 사용하여, 분석 대상인 텍스트 데이터를 지정하는 지시, 주목어를 지정하는 지시 등을 입력한다. 단어 추출부 (13), 공기 네트워크 생성부 (15), 및 화면 표시부 (16) 는, 이용자로부터의 지시에 따라, 공기 네트워크를 포함하는 화면을 표시하기 위한 동작을 실시한다. 텍스트 데이터를 지정하는 지시가 입력되었을 때에는, 지정된 텍스트 데이터 전체에 기초한 전체 공기 네트워크가 생성되어, 전체 공기 네트워크를 포함하는 화면이 표시된다. 전체 공기 네트워크를 포함하는 화면 내에서 주목어를 지정하는 지시가 입력되었을 때에는, 지정된 텍스트 데이터 중 주목어를 포함하는 문장에 기초한 한정 공기 네트워크가 생성되어, 한정 공기 네트워크를 포함하는 화면이 표시된다.
도 2 는, 텍스트 마이닝 장치 (10) 로서 기능하는 컴퓨터의 구성을 나타내는 블록도이다. 도 2 에 나타내는 컴퓨터 (20) 는, CPU (21), 메인 메모리 (22), 기억부 (23), 입력부 (24), 표시부 (25), 통신부 (26), 및 기록 매체 판독부 (27) 를 구비하고 있다. 메인 메모리 (22) 에는, 예를 들어, DRAM 이 사용된다. 기억부 (23) 에는, 예를 들어, 하드 디스크나 솔리드 스테이트 드라이브가 사용된다. 입력부 (24) 에는, 예를 들어, 키보드 (28) 나 마우스 (29) 가 포함된다. 표시부 (25) 에는, 예를 들어, 액정 디스플레이가 사용된다. 통신부 (26) 는, 유선 통신 또는 무선 통신의 인터페이스 회로이다. 기록 매체 판독부 (27) 는, 프로그램 등을 기억한 기록 매체 (30) 의 인터페이스 회로이다. 기록 매체 (30) 에는, 예를 들어, CD-ROM, DVD-ROM, USB 메모리 등의 비일과성의 기록 매체가 사용된다.
컴퓨터 (20) 가 텍스트 마이닝 프로그램 (31) 을 실행하는 경우, 기억부 (23) 는, 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (32) 를 기억한다. 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (32) 는, 예를 들어, 서버나 다른 컴퓨터로부터 통신부 (26) 를 사용하여 수신한 것이어도 되고, 기록 매체 (30) 로부터 기록 매체 판독부 (27) 를 사용하여 판독 출력한 것이어도 된다.
텍스트 마이닝 프로그램 (31) 을 실행할 때에는, 텍스트 마이닝 프로그램 (31) 과 텍스트 데이터 (32) 는 메인 메모리 (22) 에 복사 전송된다. CPU (21) 는, 메인 메모리 (22) 를 작업용 메모리로서 이용하여, 메인 메모리 (22) 에 기억된 텍스트 마이닝 프로그램 (31) 을 실행함으로써, 텍스트 데이터 (32) 로부터 단어를 추출하는 처리, 추출한 단어에 대해 공기 행렬을 생성하는 처리, 생성된 공기 행렬에 기초하여 공기 네트워크를 생성하는 처리, 생성된 공기 네트워크를 포함하는 화면을 표시하는 처리 등을 실시한다. 이 때 컴퓨터 (20) 는, 텍스트 마이닝 장치 (10) 로서 기능한다. 또한, 이상에서 기술한 컴퓨터 (20) 의 구성은 일례에 불과하여, 임의의 컴퓨터를 사용하여 텍스트 마이닝 장치 (10) 를 구성할 수 있다.
도 3 은, 텍스트 마이닝 장치 (10) 의 동작을 나타내는 플로 차트이다. 도 3 에 나타내는 동작을 실시하기 전에, 텍스트 데이터 기억부 (12) 는 자유 기술된 1 이상의 텍스트 데이터를 기억하고 있다. 각 텍스트 데이터는, 복수의 문장을 포함하고 있다. 텍스트 마이닝 장치 (10) 는, 텍스트 데이터 기억부 (12) 에 기억된 텍스트 데이터 중에서 이용자가 지정한 텍스트 데이터에 대하여 처리를 실시한다.
도 3 에 있어서, 지시 입력부 (11) 는, 먼저 이용자로부터 텍스트 데이터를 지정하는 지시를 수취한다 (스텝 S101). 이 때, 지시 입력부 (11) 는, 텍스트 데이터를 지정하는 지시에 추가로, 공기 행렬의 기준값 (상세는 후술) 을 설정하는 지시, AND 처리와 OR 처리 (상세는 후술) 를 전환하는 지시, 공기 네트워크의 표시 양태의 상세를 설정하는 지시 등을 수취해도 된다. 수취한 지시는, 텍스트 마이닝 장치 (10) 의 각 부에 대하여 출력된다.
다음으로, 단어 추출부 (13) 는, 텍스트 데이터 기억부 (12) 로부터 지정된 텍스트 데이터를 판독 출력한다 (스텝 S102). 다음으로, 단어 추출부 (13) 는, 스텝 S102 에서 판독 출력한 텍스트 데이터에 대하여 형태소 해석을 실시함으로써, 판독 출력한 텍스트 데이터로부터 단어를 추출한다 (스텝 S103). 이 때, 단어 추출부 (13) 는, 판독 출력한 텍스트 데이터로부터, 이후의 분석에서 필요한 단어만을 추출한다. 다음으로, 공기 행렬 생성부 (14) 는, 스텝 S103 에서 추출된 단어에 대해, 스텝 S102 에서 판독 출력된 텍스트 데이터를 사용하여 공기 행렬을 생성한다 (스텝 S104).
도 4 는, 공기 행렬 생성부 (14) 에서 생성된 공기 행렬의 예를 나타내는 도면이다. 공기 행렬의 요소는, 단어의 페어에 대해 구한 Jaccard 계수이다. 분석 대상인 텍스트 데이터에 대해, 단어 Wa 를 포함하는 문장의 집합을 A, 단어 Wb 를 포함하는 문장의 집합을 B 라고 한다. 단어의 페어 (Wa, Wb) 에 대한 Jaccard 계수 K(Wa, Wb) 는, 다음 식 (1) 에 의해 주어진다.
K(Wa, Wb) = |A∩B|/|A∪B| … (1)
단, 식 (1) 에 있어서, 기호 ∩ 는 교집합을 구하는 연산을 나타내고, 기호 ∪ 는 합집합을 구하는 연산을 나타내고, |S| 는 집합 S 에 포함되는 요소의 개수를 나타낸다.
공기 행렬 생성부 (14) 는, 스텝 S104 에 있어서, 스텝 S102 에서 판독 출력된 텍스트 데이터 전체로부터 추출된 단어의 페어 모두에 대해 Jaccard 계수를 구하고, 구한 Jaccard 계수를 요소로 하는 공기 행렬을 생성한다. 공기 행렬의 행 및 열은, 스텝 S102 에서 판독 출력된 텍스트 데이터 전체로부터 추출된 단어의 종류에 대응한다. 판독 출력된 텍스트 데이터 전체로부터 n 종류의 단어가 추출되었을 때, 스텝 S104 에서 생성되는 공기 행렬은, 대각 요소가 모두 1 인 n 행 n 열의 대칭 행렬이다.
또한, 공기 행렬 생성부 (14) 는, 텍스트 데이터를 문장 이외의 단위로 나누어 Jaccard 계수를 구해도 된다. 예를 들어, 공기 행렬 생성부 (14) 는, 단어 Wa 를 포함하는 단락의 집합을 A, 단어 Wb 를 포함하는 단락의 집합을 B 라고 하고, 식 (1) 에 따라 Jaccard 계수를 구해도 된다. 또, 텍스트 데이터에 포함되는 문장이 날짜를 갖는 경우에는, 공기 행렬 생성부 (14) 는, 텍스트 데이터를 동일한 날짜를 갖는 문장으로 이루어지는 복수의 부분으로 나누어, 단어 Wa 를 포함하는 부분의 집합을 A, 단어 Wb 를 포함하는 부분의 집합을 B 라고 하고, 식 (1) 에 따라 Jaccard 계수를 구해도 된다. 또, 공기 행렬 생성부 (14) 는, 단어의 공기성을 나타내는 다른 값 (예를 들어, Simpson 계수나 코사인 거리 등) 을 요소로서 포함하는 공기 행렬을 생성해도 된다.
다음으로, 공기 네트워크 생성부 (15) 는, 스텝 S104 에서 생성된 공기 행렬에 기초하여, 전체 공기 네트워크를 생성한다 (스텝 S105). 다음으로, 화면 표시부 (16) 는, 스텝 S105 에서 생성된 전체 공기 네트워크를 포함하는 화면을 표시한다 (스텝 S106). 도 5 는, 스텝 S106 에서 표시되는, 전체 공기 네트워크를 포함하는 윈도의 예를 나타내는 도면이다. 도 5 에 나타내는 윈도 (41) 는, 전체 공기 네트워크 (51) 와 분석 버튼 (61) 을 포함하고 있다. 분석 버튼 (61) 은, 분석 개시를 지시하기 위해 형성된다.
공기 네트워크 생성부 (15) 는, 공기 행렬의 기준값 (이하, V 라고 한다) 을 갖고 있다. 기준값 V 는, 미리 결정된 값이어도 되고, 지시 입력부 (11) 를 사용하여 이용자로부터 설정된 값이어도 된다. 스텝 S104 에서 생성된 공기 행렬에 있어서, 단어 Wa 에 대응하는 행에 포함되는 Jaccard 계수 K(Wa, *) 의 최대값이 기준값 V 이상인 경우, 공기 네트워크 생성부 (15) 는 단어 Wa 에 대응하는 노드 (단어 Wa 라고 기재한 노드) 를 전체 공기 네트워크에 포함시킨다. 또, 스텝 S104 에서 생성된 공기 행렬에 있어서, 단어의 페어 (Wa, Wb) 에 관련된 Jaccard 계수 K(Wa, Wb) 가 기준값 V 이상인 경우, 공기 네트워크 생성부 (15) 는 단어 Wa 에 대응하는 노드와 단어 Wb 에 대응하는 노드를 접속하는 에지를 전체 공기 네트워크에 포함시킨다.
도 5 에 나타내는 전체 공기 네트워크 (51) 에서는, 출현 빈도가 큰 단어에 대응하는 노드는 크게 표시되어 있다. 공기 네트워크를 포함하는 화면을 표시할 때에는, Jaccard 계수 K(Wa, Wb) 가 클 때, 단어 Wa 에 대응하는 노드와 단어 Wb 에 대응하는 노드를 접속하는 에지를 굵게 표시해도 된다. 또, Jaccard 계수에 따라, 에지의 색을 전환해도 되고, 에지의 굵기와 색의 양방을 전환해도 된다. 공기 네트워크는, 에지를 통해 도달 가능한 복수의 부분으로 나누어진다. 공기 네트워크를 포함하는 화면을 표시할 때에는, 각 부분에 포함되는 복수의 노드를 각 부분에 할당한 색으로 표시해도 된다. 또한, 공기 네트워크에 포함되는 노드와 에지의 위치에 의미는 없다.
다음으로, 지시 입력부 (11) 는, 이용자로부터 주목어를 지정하는 지시를 수취한다 (스텝 S111). 스텝 S111 을 실행할 때에는, 전체 공기 네트워크를 포함하는 화면이 표시되어 있다. 이용자는, 마우스 (29) 를 조작하여, 전체 공기 네트워크의 요소를 선택함으로써, 주목어를 지정하는 지시를 입력한다. 또한, 이용자는, 지시를 입력할 때, 마우스 (29) 대신에 키보드 (28) 를 사용해도 되고, 표시 화면에 직접 접촉하는 등의 조작을 실시해도 된다. 이하, 스텝 S111 을 실행할 때, 도 5 에 나타내는 윈도 (41) 를 포함하는 화면이 표시되어 있는 것으로 한다.
도 6 ∼ 도 11 은, 각각, 윈도 (41) 내에서 주목어를 지정하는 제 1 ∼ 제 6 조작을 나타내는 도면이다. 도 6 ∼ 도 11 에 있어서, 말칸은 조작의 순서를 나타내고, 흰색 화살표는 마우스 커서 (62) 의 이동을 나타낸다. 말칸 및 화살표는, 실제 화면에는 표시되지 않는다. 이하, 마우스 커서 (62) 가 표시 화면 내에 있는 요소의 위에 있을 때 마우스 (29) 의 버튼을 클릭 (더블 클릭) 하는 것을 「요소를 클릭 (더블 클릭) 한다」라고 한다.
도 6 에 나타내는 바와 같이, 이용자는, 윈도 (41) 내에서 먼저 주목어로 지정하는 단어 (여기서는 「노천탕」) 에 대응하는 노드를 클릭하고 (1 회째 클릭), 다음으로 분석 버튼 (61) 을 클릭한다 (2 회째 클릭). 이 조작에 의해, 1 회째에 클릭된 노드에 대응하는 단어가 주목어로 지정된다. 이와 같이 전체 공기 네트워크를 포함하는 화면 내에서 전체 공기 네트워크에 포함되는 1 개의 노드를 선택하고, 분석 개시를 선택함으로써, 1 개의 주목어를 지정하는 지시가 입력된다.
도 7 에 나타내는 바와 같이, 이용자는, 윈도 (41) 내에서 주목어로 지정하는 단어 (여기서는 「노천탕」) 에 대응하는 노드를 더블 클릭한다. 이 조작에 의해, 더블 클릭된 노드에 대응하는 단어가 주목어로 지정된다. 이와 같이 전체 공기 네트워크를 포함하는 화면 내에서 전체 공기 네트워크에 포함되는 1 개의 노드를 계속해서 선택함으로써, 1 개의 주목어를 지정하는 지시가 입력된다.
도 8 에 나타내는 바와 같이, 이용자는, 윈도 (41) 내에서 먼저 주목어로 지정하는 단어 (여기서는 「노천탕」) 에 대응하는 노드를 클릭하고 (1 회째 클릭), 다음으로 주목어로 지정하는 다른 단어 (여기서는 「가격」) 에 대응하는 노드를 클릭하고 (2 회째 클릭), 마지막으로 분석 버튼 (61) 을 클릭한다 (마지막 클릭). 이 조작에 의해, 1 회째와 2 회째에 클릭된 노드에 대응하는 2 개의 단어가 주목어로 지정된다. 이용자는, 윈도 (41) 내에서 p 개 (p 는 3 이상의 정수) 의 노드를 순서대로 클릭하고, 마지막으로 분석 버튼 (61) 을 클릭해도 된다. 이 조작에 의해, p 개의 노드에 대응하는 p 개의 단어가 주목어로 지정된다. 이와 같이 전체 공기 네트워크를 포함하는 화면 내에서 전체 공기 네트워크에 포함되는 복수의 노드를 선택하고, 분석 개시를 선택함으로써, 복수의 주목어를 지정하는 지시가 입력된다.
도 9 에 나타내는 바와 같이, 이용자는, 윈도 (41) 내에서 주목어로 지정하는 2 개의 단어 (여기서는 「노천탕」과「계단」) 에 대응하는 2 개의 노드를 접속하는 에지를 더블 클릭한다. 이로써, 더블 클릭된 에지에 접속된 2 개의 노드에 대응하는 2 개의 단어가 주목어로 지정된다. 이와 같이 전체 공기 네트워크를 포함하는 화면 내에서 전체 공기 네트워크에 포함되는 1 개의 에지를 계속해서 선택함으로써, 2 개의 주목어를 지정하는 지시가 입력된다.
도 10 에 나타내는 바와 같이, 이용자는, 윈도 (41) 내에서 먼저 주목어로 지정하는 2 개의 단어 (여기서는 「노천탕」과「계단」) 에 대응하는 2 개의 노드를 접속하는 에지를 클릭하고 (1 회째 클릭), 다음으로 분석 버튼 (61) 을 클릭한다 (2 회째 클릭). 이로써, 1 회째에 클릭된 에지에 접속된 2 개의 노드에 대응하는 2 개의 단어가 주목어로 지정된다. 이와 같이 전체 공기 네트워크를 포함하는 화면 내에서 전체 공기 네트워크에 포함되는 1 개의 에지를 선택하고, 분석 개시를 선택함으로써, 2 개의 주목어를 지정하는 지시가 입력된다.
도 11 에 나타내는 바와 같이, 이용자는, 윈도 (41) 내에서 먼저 주목어로 지정하는 2 개의 단어 (여기서는 「노천탕」과「계단」) 에 대응하는 2 개의 노드를 접속하는 에지를 클릭하고 (1 회째 클릭), 다음으로 주목어로 지정하는 다른 2 개의 단어 (여기서는 「가격」과「생각하다」) 에 대응하는 2 개의 노드를 접속하는 에지를 클릭하고 (2 회째 클릭), 마지막으로 분석 버튼 (61) 을 클릭한다 (마지막 클릭). 이 조작에 의해, 1 회째와 2 회째에 클릭된 2 개의 에지에 접속된 4 개의 노드에 대응하는 4 개의 단어가 주목어로 지정된다. 이용자는, 윈도 (41) 내에서 q 개 (q 는 3 이상의 정수) 의 에지를 순서대로 클릭하고, 마지막에 분석 버튼 (61) 을 클릭해도 된다. 이 조작에 의해, q 개의 에지에 접속된 2q 개의 노드에 대응하는 2q 개의 단어가 주목어로 지정된다. 이와 같이 전체 공기 네트워크를 포함하는 화면 내에서 전체 공기 네트워크에 포함되는 복수의 에지를 선택하고, 분석 개시를 선택함으로써, 복수의 주목어를 지정하는 지시가 입력된다.
지시 입력부 (11) 는, 스텝 S111 에 있어서, 주목어를 지정하는 지시에 추가하여, 공기 행렬의 기준값을 설정하는 지시, AND 처리와 OR 처리를 전환하는 지시, 공기 네트워크의 표시 양태의 상세를 설정하는 지시 등을 수취해도 된다. 수취한 지시는, 텍스트 마이닝 장치 (10) 의 각 부에 대하여 출력된다.
다음으로, 단어 추출부 (13) 는, 스텝 S102 에서 판독 출력한 텍스트 데이터로부터 스텝 S111 에서 지정된 주목어를 포함하는 문장을 추출함으로써, 주목어를 포함하는 문장으로 이루어지는 한정 텍스트 데이터를 구한다 (스텝 S112).
단어 추출부 (13) 는, 복수의 주목어가 지정된 경우에 AND 처리와 OR 처리 중 어느 것을 실시할지를 나타내는 플래그를 갖고 있다. 플래그의 값은, 미리 결정된 값이어도 되고, 지시 입력부 (11) 를 사용하여 이용자로부터 설정된 값이어도 된다. 플래그가 AND 처리를 나타내는 경우, 단어 추출부 (13) 는, 판독 출력한 텍스트 데이터로부터 지정된 복수의 주목어 모두를 포함하는 문장을 추출함으로써, 한정 텍스트 데이터를 구한다. 플래그가 OR 처리를 나타내는 경우, 단어 추출부 (13) 는, 판독 출력한 텍스트 데이터로부터 지정된 어느 주목어를 포함하는 문장을 추출함으로써, 한정 텍스트 데이터를 구한다.
다음으로, 단어 추출부 (13) 는, 스텝 S112 에서 구한 한정 텍스트 데이터에 대하여 형태소 해석을 실시함으로써, 한정 텍스트 데이터로부터 단어를 추출한다 (스텝 S113). 다음으로, 공기 행렬 생성부 (14) 는, 스텝 S113 에서 추출된 단어에 대해, 스텝 S112 에서 구해진 한정 텍스트 데이터를 사용하여 공기 행렬을 생성한다 (스텝 S114). 다음으로, 공기 네트워크 생성부 (15) 는, 스텝 S114 에서 생성된 공기 행렬에 기초하여, 한정 공기 네트워크를 생성한다 (스텝 S115). 또한, 스텝 S103 ∼ S105 와 스텝 S113 ∼ S115 간에는, 처리 대상은 상이하지만, 처리 내용은 동일하다.
일반적으로, 스텝 S112 에서 구해진 한정 텍스트 데이터로부터 추출되는 단어의 종류는, 스텝 S102 에서 판독 출력된 텍스트 데이터로부터 추출되는 단어의 종류보다 적다. 스텝 S114 에서 생성된 공기 행렬은, 스텝 S104 에서 생성된 공기 행렬과는 상이하다. 스텝 S115 에서 생성된 한정 공기 네트워크는, 스텝 S105 에서 생성된 전체 공기 네트워크와는 상이하다.
다음으로, 화면 표시부 (16) 는, 스텝 S115 에서 생성된 한정 공기 네트워크를 포함하는 화면을 표시한다 (스텝 S116). 도 12 및 도 13 은, 스텝 S116 에서 표시되는, 한정 공기 네트워크를 포함하는 윈도의 예를 나타내는 도면이다. 도 12 에 나타내는 윈도 (42) 는, 1 개의 주목어 (여기서는 「노천탕」) 를 지정했을 때의 한정 공기 네트워크 (52) 를 포함하고 있다. 도 13 에 나타내는 윈도 (43) 는, 2 개의 주목어 (여기서는 「노천탕」과「욕장」) 를 지정했을 때의 한정 공기 네트워크 (53) 를 포함하고 있다.
도 14 및 도 15 는, 텍스트 마이닝 장치 (10) 의 표시 화면의 예를 나타내는 도면이다. 화면 표시부 (16) 는, 전체 공기 네트워크를 포함하는 윈도와 한정 공기 네트워크를 포함하는 윈도를 겹치지 않고 나란히 표시해도 되고, 양자를 겹쳐서 표시해도 된다. 도 14 에 나타내는 화면 (71) 에서는, 전체 공기 네트워크 (51) 를 포함하는 윈도 (41) 와 한정 공기 네트워크 (52) 를 포함하는 윈도 (42) 는, 겹치지 않고 나란히 표시되어 있다. 이용자는, 화면 (71) 에 있어서, 전체 공기 네트워크 (51) 와 한정 공기 네트워크 (52) 를 동시에 볼 수 있다. 도 15 에 나타내는 화면 (72) 에서는, 한정 공기 네트워크 (52) 를 포함하는 윈도 (42) 는, 전체 공기 네트워크 (51) 를 포함하는 윈도 (41) 에 겹쳐져 표시되어 있다. 이용자는, 화면 (72) 에 있어서, 전체 공기 네트워크 (51) 와 한정 공기 네트워크 (52) 를 전환하여 볼 수 있다.
다음으로, 지시 입력부 (11) 는, 이용자로부터 지시를 수취한다 (스텝 S121). 다음으로, 텍스트 마이닝 장치 (10) 는, 스텝 S121 에서 수취한 지시가 주목어를 지정하는 지시인지 여부를 판단한다 (스텝 S122). 스텝 S122 에서 예인 경우, 텍스트 마이닝 장치 (10) 의 제어는 스텝 S112 로 진행된다. 이 경우, 스텝 S121 에서 지정된 주목어에 대해 스텝 S112 ∼ S116 가 실행되고, 스텝 S121 에서 지정된 주목어를 포함하는 문장으로 이루어지는 한정 텍스트 데이터에 기초한 한정 공기 네트워크를 포함하는 화면이 표시된다.
도 16 은, 텍스트 마이닝 장치 (10) 의 표시 화면의 예를 나타내는 도면이다. 도 16 에 나타내는 화면 (73) 에서는, 전체 공기 네트워크 (51) 를 포함하는 윈도 (41) 와 한정 공기 네트워크 (52) 를 포함하는 윈도 (42) 에 겹쳐져, 주목어로 「욕장」을 지정했을 때의 한정 공기 네트워크 (54) 를 포함하는 윈도 (44) 가 표시되어 있다. 화면 (73) 은, 스텝 S111 에서 「노천탕」을 주목어로 지정하고, 스텝 S121 에서 「욕장」을 주목어로 지정했을 때에 표시된다. 이용자는, 화면 (73) 에 있어서, 전체 공기 네트워크 (51) 와 한정 공기 네트워크 (52, 54) 를 전환하여 볼 수 있다.
스텝 S122 에서 아니오인 경우, 텍스트 마이닝 장치 (10) 의 제어는 스텝 S123 으로 진행된다. 이 경우, 스텝 S121 에서 수취한 지시는, 예를 들어, 윈도를 이동시키는 지시, 윈도를 비표시로 하는 지시, 윈도를 닫는 지시, 윈도를 병합하는 지시 등이다. 이용자는, 전체 공기 네트워크와 한정 공기 네트워크를 포함하는 화면이 표시되어 있을 때 지시 입력부 (11) 를 조작함으로써, 이들 지시를 입력한다. 화면 표시부 (16) 는, 스텝 S121 에서 수취한 지시에 따라, 갱신 후의 화면을 표시한다 (스텝 S123). 그 후, 텍스트 마이닝 장치 (10) 의 제어는, 스텝 S121 로 진행된다.
도 17 은, 윈도를 병합하는 조작을 나타내는 도면이다. 도 17 에 나타내는 화면 (74) 에는, 「노천탕」을 주목어로 지정했을 때의 한정 공기 네트워크 (52) 를 포함하는 윈도 (42) 와, 「욕장」을 주목어로 지정했을 때의 한정 공기 네트워크 (54) 를 포함하는 윈도 (44) 가 표시되어 있다. 이용자는, 화면 (74) 에 있어서, 2 개의 한정 공기 네트워크 (52, 54) 를 동시에 볼 수 있다.
도 17 에 나타내는 해칭 표시된 화살표는, 마우스 (29) 의 버튼이 눌린 상태로 마우스 커서 (62) 가 이동한 것을 나타낸다. 이 화살표는, 실제 화면에는 표시되지 않는다. 이용자는, 화면 (74) 내에서 한정 공기 네트워크 (52) 를 드래그하여 한정 공기 네트워크 (54) 내에서 드롭 조작 (drop 조작) 을 실시한다. 보다 상세하게는, 이용자는, 마우스 커서 (62) 가 윈도 (42) 내에 있을 때 마우스 (29) 의 버튼을 누르고, 마우스 (29) 의 버튼을 누른 채로 마우스 커서 (62) 를 윈도 (44) 내까지 이동시키고, 마우스 커서 (62) 가 윈도 (44) 내에 있을 때 마우스 (29) 의 버튼을 놓는다. 이 조작에 의해, 윈도를 병합하는 지시가 입력된다.
도 18 은, 도 17 에 나타내는 조작을 실시한 후의 표시 화면을 나타내는 도면이다. 도 18 에 나타내는 화면 (75) 에는, 복수의 한정 공기 네트워크를 탭 형식으로 표시하는 윈도 (45) 가 표시되어 있다. 도 18 에서는, 「노천탕」이라고 기재한 탭 (64) 이 선택되어, 윈도 (45) 에는 「노천탕」을 주목어로 지정했을 때의 한정 공기 네트워크 (52) 가 표시되어 있다. 「욕장」이라고 기재한 탭 (63) 이 선택되었을 때에는, 윈도 (45) 에는 도 17 에 나타내는 한정 공기 네트워크 (54) 가 표시된다.
이용자가 윈도 (45) 내의 닫힘 버튼 (× 표) 을 클릭했을 때, 윈도 (45) 는 닫힌다. 이용자가 탭 (63) 내의 닫힘 버튼을 클릭했을 때에는, 탭 (63) 은 표시되지 않게 된다. 이용자가 탭 (64) 내의 닫힘 버튼을 클릭했을 때에는, 탭 (64) 은 표시되지 않게 되어, 윈도 (45) 에는 한정 공기 네트워크 (54) 가 표시된다.
이상에서 나타내는 바와 같이, 본 실시형태에 관련된 텍스트 마이닝 방법은, 텍스트 데이터로부터 단어를 추출하는 스텝 (스텝 S102, S103, S112, S113) 과, 추출한 단어에 대해 공기 행렬을 생성하는 스텝 (스텝 S104, S114) 과, 생성된 공기 행렬에 기초하여 공기 네트워크를 생성하는 스텝 (스텝 S105, S115) 과, 공기 네트워크를 포함하는 화면을 표시하는 스텝 (스텝 S106, S116) 을 구비하고 있다. 지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크 (전체 공기 네트워크 (51)) 를 포함하는 제 1 화면 (윈도 (41) 를 포함하는 화면) 내에서 주목어를 지정하는 지시가 입력되었을 때, 단어를 추출하는 스텝 (스텝 S112, S113) 은 지정된 텍스트 데이터 중 주목어를 포함하는 부분 (주목어를 포함하는 문장) 으로 이루어지는 한정 텍스트 데이터로부터 단어를 추출하고, 공기 행렬을 생성하는 스텝 (스텝 S114) 은 추출한 단어에 대해 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 공기 네트워크를 생성하는 스텝 (스텝 S115) 은 제 2 공기 행렬에 기초하여 제 2 공기 네트워크 (한정 공기 네트워크 (52 ∼ 54)) 를 생성하고, 화면을 표시하는 스텝 (스텝 S116) 은 제 2 공기 네트워크를 포함하는 제 2 화면 (윈도 (42 ∼ 45) 를 포함하는 화면) 을 표시한다. 이와 같이 본 실시형태에 관련된 텍스트 마이닝 방법에서는, 지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 지정된 텍스트 데이터 중 주목어를 포함하는 부분에 기초한 제 2 공기 네트워크를 포함하는 제 2 화면이 표시된다. 따라서, 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 간단한 조작으로 표시할 수 있다.
또, 제 1 화면 내에서 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 노드를 선택하고, 분석 개시를 선택함으로써, 노드에 대응하는 단어를 주목어로 지정하는 지시가 입력된다 (도 6, 도 8). 이와 같이 제 1 화면 내에서 1 개 또는 복수의 노드와 분석 개시를 선택함으로써, 1 개 또는 복수의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 1 개 또는 복수의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다. 또, 제 1 화면 내에서 제 1 공기 네트워크에 포함되는 1 개의 노드를 계속해서 선택함으로써, 노드에 대응하는 단어를 주목어로 지정하는 지시가 입력된다 (도 7). 이와 같이 제 1 화면 내에서 1 개의 노드를 계속해서 선택함으로써, 1 개의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 1 개의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다.
또, 제 1 화면 내에서 제 1 공기 네트워크에 포함되는 1 개의 에지를 계속해서 선택함으로써, 에지에 접속된 2 개의 노드에 대응하는 단어를 주목어로 지정하는 지시가 입력된다 (도 9). 이와 같이 제 1 화면 내에서 1 개의 에지를 계속해서 선택함으로써, 2 개의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 2 개의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다. 또, 제 1 화면 내에서 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 에지를 선택하고, 분석 개시를 선택함으로써, 에지에 접속된 복수의 노드에 대응하는 단어를 주목어로 지정하는 지시가 입력된다 (도 10, 도 11). 이와 같이 제 1 화면 내에서 1 개 또는 복수의 에지와 분석 개시를 선택함으로써, 복수의 주목어를 지정하는 지시를 간단한 조작으로 입력하여, 복수의 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 표시할 수 있다.
또, 복수의 제 2 공기 네트워크 (한정 공기 네트워크 (52, 54)) 를 포함하는 제 2 화면 (화면 (74)) 내에서 병합 지시가 입력되었을 때 (도 17), 화면을 표시하는 스텝은, 복수의 제 2 공기 네트워크를 탭 형식으로 표시한다 (도 18). 이로써, 복수의 제 2 공기 네트워크를 콤팩트하게 표시할 수 있다. 또, 제 2 화면 내에서 하나의 제 2 공기 네트워크 (한정 공기 네트워크 (52)) 를 드래그하여 다른 제 2 공기 네트워크 (한정 공기 네트워크 (54)) 내에서 드롭함으로써, 병합 지시가 입력된다. 따라서, 병합 지시를 간단한 조작으로 입력하여, 복수의 제 2 공기 네트워크를 콤팩트하게 표시할 수 있다.
한정 텍스트 데이터는, 지정된 텍스트 데이터 중 주목어를 포함하는 문장으로 구성되어 있어도 된다. 이 경우, 주목어를 지정하는 지시가 입력되었을 때, 지정된 텍스트 데이터를 문장 단위로 나누어 한정 텍스트 데이터를 구하고, 구한 한정 텍스트 데이터에 기초한 제 2 공기 네트워크를 포함하는 화면을 표시할 수 있다. 복수의 주목어가 지정되었을 때의 한정 텍스트 데이터는, 지정된 텍스트 데이터 중 복수의 주목어 모두를 포함하는 문장으로 구성되어 있어도 된다. 이 경우, 복수의 주목어에 대해 AND 처리를 실시했을 때의 제 2 공기 네트워크를 포함하는 화면을 표시할 수 있다. 복수의 주목어가 지정되었을 때의 한정 텍스트 데이터는, 지정된 텍스트 데이터 중 복수의 주목어 중 어느 것을 포함하는 문장으로 구성되어 있어도 된다. 이 경우, 복수의 주목어에 대해 OR 처리를 실시했을 때의 제 2 공기 네트워크를 포함하는 화면을 표시할 수 있다. 또, 공기 행렬을 생성하는 스텝은, Jaccard 계수를 요소로 하는 공기 행렬을 생성한다. 따라서, 텍스트 데이터에 포함되는 단어의 공기성을 바람직하게 분석할 수 있다.
본 실시형태에 관련된 텍스트 마이닝 장치 (10) 및 텍스트 마이닝 프로그램 (31) 은, 상기한 텍스트 마이닝 방법과 동일한 특징을 갖고, 동일한 효과를 나타낸다. 본 실시형태에 관련된 텍스트 마이닝 방법, 텍스트 마이닝 장치 (10), 및 텍스트 마이닝 프로그램 (31) 에 의하면, 주목어를 지정했을 때의 공기 네트워크를 포함하는 화면을 간단한 조작으로 표시할 수 있다.
이상으로 본 발명을 상세하게 설명했지만, 이상의 설명은 모든 면에서 예시적인 것으로서 제한적인 것은 아니다. 다수의 다른 변경이나 변형이 본 발명의 범위를 일탈하지 않고 안출 가능한 것으로 이해된다.
10 : 텍스트 마이닝 장치
11 : 지시 입력부
12 : 텍스트 데이터 기억부
13 : 단어 추출부
14 : 공기 행렬 생성부
15 : 공기 네트워크 생성부
16 : 화면 표시부
20 : 컴퓨터
21 : CPU
22 : 메인 메모리
29 : 마우스
30 : 기록 매체
31 : 텍스트 마이닝 프로그램
32 : 텍스트 데이터
41 ∼ 45 : 윈도
51 : 전체 공기 네트워크
52 ∼ 54 : 한정 공기 네트워크
61 : 분석 버튼
62 : 마우스 커서
63 ∼ 64 : 탭
71 ∼ 75 : 화면

Claims (20)

  1. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 방법으로서,
    텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 공기 행렬을 생성하는 스텝과,
    상기 공기 행렬에 기초하여 공기 네트워크를 생성하는 스텝과,
    상기 공기 네트워크를 포함하는 화면을 표시하는 스텝을 구비하고,
    지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 상기 단어를 추출하는 스텝은 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 부분으로 이루어지는 한정 텍스트 데이터로부터 상기 단어를 추출하고, 상기 공기 행렬을 생성하는 스텝은 상기 단어에 대해 상기 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 상기 공기 네트워크를 생성하는 스텝은 상기 제 2 공기 행렬에 기초하여 제 2 공기 네트워크를 생성하고, 상기 화면을 표시하는 스텝은 상기 제 2 공기 네트워크를 포함하는 제 2 화면을 표시하는 것을 특징으로 하는, 텍스트 마이닝 방법.
  2. 제 1 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 노드를 선택하고, 분석 개시를 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 텍스트 마이닝 방법.
  3. 제 1 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 노드를 계속해서 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 텍스트 마이닝 방법.
  4. 제 1 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 에지를 계속해서 선택함으로써, 상기 에지에 접속된 2 개의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 텍스트 마이닝 방법.
  5. 제 1 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 에지를 선택하고, 분석 개시를 선택함으로써, 상기 에지에 접속된 복수의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 텍스트 마이닝 방법.
  6. 제 1 항에 있어서,
    복수의 제 2 공기 네트워크를 포함하는 제 2 화면 내에서 병합 지시가 입력되었을 때, 상기 화면을 표시하는 스텝은, 상기 복수의 제 2 공기 네트워크를 탭 형식으로 표시하는 것을 특징으로 하는, 텍스트 마이닝 방법.
  7. 제 6 항에 있어서,
    상기 제 2 화면 내에서 하나의 제 2 공기 네트워크를 드래그하여 다른 제 2 공기 네트워크 내에서 드롭함으로써, 상기 병합 지시가 입력되는 것을 특징으로 하는, 텍스트 마이닝 방법.
  8. 제 1 항에 있어서,
    상기 한정 텍스트 데이터는, 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 문장으로 이루어지는 것을 특징으로 하는, 텍스트 마이닝 방법.
  9. 제 8 항에 있어서,
    복수의 주목어가 지정되었을 때의 상기 한정 텍스트 데이터는, 상기 지정된 텍스트 데이터 중 상기 복수의 주목어 모두를 포함하는 문장으로 이루어지는 것을 특징으로 하는, 텍스트 마이닝 방법.
  10. 제 8 항에 있어서,
    복수의 주목어가 지정되었을 때의 상기 한정 텍스트 데이터는, 상기 지정된 텍스트 데이터 중 상기 복수의 주목어 중 어느 것을 포함하는 문장으로 이루어지는 것을 특징으로 하는, 텍스트 마이닝 방법.
  11. 제 1 항에 있어서,
    상기 공기 행렬을 생성하는 스텝은, Jaccard 계수를 요소로 하는 공기 행렬을 생성하는 것을 특징으로 하는, 텍스트 마이닝 방법.
  12. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하기 위한, 기록 매체에 저장된 텍스트 마이닝 프로그램으로서,
    텍스트 데이터로부터 단어를 추출하는 스텝과,
    상기 단어에 대해 공기 행렬을 생성하는 스텝과,
    상기 공기 행렬에 기초하여 공기 네트워크를 생성하는 스텝과,
    상기 공기 네트워크를 포함하는 화면을 표시하는 스텝을 컴퓨터에 CPU 가 메모리를 이용하여 실행시키고,
    지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 상기 단어를 추출하는 스텝은 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 부분으로 이루어지는 한정 텍스트 데이터로부터 상기 단어를 추출하고, 상기 공기 행렬을 생성하는 스텝은 상기 단어에 대해 상기 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 상기 공기 네트워크를 생성하는 스텝은 상기 제 2 공기 행렬에 기초하여 제 2 공기 네트워크를 생성하고, 상기 화면을 표시하는 스텝은 상기 제 2 공기 네트워크를 포함하는 제 2 화면을 표시하는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  13. 제 12 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 노드를 선택하고, 분석 개시를 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  14. 제 12 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 노드를 계속해서 선택함으로써, 상기 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  15. 제 12 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개의 에지를 계속해서 선택함으로써, 상기 에지에 접속된 2 개의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  16. 제 12 항에 있어서,
    상기 제 1 화면 내에서 상기 제 1 공기 네트워크에 포함되는 1 개 또는 복수의 에지를 선택하고, 분석 개시를 선택함으로써, 상기 에지에 접속된 복수의 노드에 대응하는 단어를 상기 주목어로 지정하는 지시가 입력되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  17. 제 12 항에 있어서,
    복수의 제 2 공기 네트워크를 포함하는 제 2 화면 내에서 병합 지시가 입력되었을 때, 상기 화면을 표시하는 스텝은, 상기 복수의 제 2 공기 네트워크를 탭 형식으로 표시하는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  18. 제 17 항에 있어서,
    상기 제 2 화면 내에서 하나의 제 2 공기 네트워크를 드래그하여 다른 제 2 공기 네트워크 내에서 드롭함으로써, 상기 병합 지시가 입력되는 것을 특징으로 하는, 기록 매체에 저장된 텍스트 마이닝 프로그램.
  19. 텍스트 데이터의 분석 결과를 포함하는 화면을 표시하는 텍스트 마이닝 장치로서,
    텍스트 데이터로부터 단어를 추출하는 단어 추출부와,
    상기 단어에 대해 공기 행렬을 생성하는 공기 행렬 생성부와,
    상기 공기 행렬에 기초하여 공기 네트워크를 생성하는 공기 네트워크 생성부와,
    상기 공기 네트워크를 포함하는 화면을 표시하는 화면 표시부를 구비하고,
    지정된 텍스트 데이터 전체에 기초한 제 1 공기 네트워크를 포함하는 제 1 화면 내에서 주목어를 지정하는 지시가 입력되었을 때, 상기 단어 추출부는 상기 지정된 텍스트 데이터 중 상기 주목어를 포함하는 부분으로 이루어지는 한정 텍스트 데이터로부터 상기 단어를 추출하고, 상기 공기 행렬 생성부는 상기 단어에 대해 상기 한정 텍스트 데이터를 사용하여 제 2 공기 행렬을 생성하고, 상기 공기 네트워크 생성부는 상기 제 2 공기 행렬에 기초하여 제 2 공기 네트워크를 생성하고, 상기 화면 표시부는 상기 제 2 공기 네트워크를 포함하는 제 2 화면을 표시하는 것을 특징으로 하는, 텍스트 마이닝 장치.
  20. 제 19 항에 있어서,
    복수의 제 2 공기 네트워크를 포함하는 제 2 화면 내에서 병합 지시가 입력되었을 때, 상기 화면 표시부는, 상기 복수의 제 2 공기 네트워크를 탭 형식으로 표시하는 것을 특징으로 하는, 텍스트 마이닝 장치.
KR1020190013093A 2018-03-20 2019-01-31 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치 KR102162779B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018052074A JP6987003B2 (ja) 2018-03-20 2018-03-20 テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JPJP-P-2018-052074 2018-03-20

Publications (2)

Publication Number Publication Date
KR20190110428A KR20190110428A (ko) 2019-09-30
KR102162779B1 true KR102162779B1 (ko) 2020-10-07

Family

ID=68065531

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190013093A KR102162779B1 (ko) 2018-03-20 2019-01-31 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치

Country Status (4)

Country Link
JP (1) JP6987003B2 (ko)
KR (1) KR102162779B1 (ko)
CN (1) CN110309290B (ko)
TW (1) TWI703457B (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2024148802A (ja) * 2023-04-06 2024-10-18 株式会社日立製作所 提案支援装置、提案支援方法、および提案支援プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164791A (ja) 2010-02-05 2011-08-25 Ntt Data Corp 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
KR101512084B1 (ko) 2013-11-15 2015-04-17 한국과학기술원 가상현실 기반의 3차원 웹 검색 인터페이스를 제공하는 웹 검색 시스템 및 그 제공 방법
JP2016218512A (ja) 2015-05-14 2016-12-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2806867B2 (ja) * 1995-03-13 1998-09-30 株式会社トレンディ ドキュメントデータベースの構築方法、表示方法、及び表示装置
JPH10283367A (ja) * 1997-04-09 1998-10-23 Mitsubishi Electric Corp ハイパーメディア装置
JP4404323B2 (ja) * 1999-02-05 2010-01-27 経済産業大臣 シソーラスブラウジングシステムと方法
JP5059282B2 (ja) * 2003-10-14 2012-10-24 ソニー株式会社 情報提供システム,情報提供サーバ,ユーザ端末装置,コンテンツ表示装置,コンピュータプログラム,およびコンテンツ表示方法
JP2006215936A (ja) * 2005-02-07 2006-08-17 Hitachi Ltd 検索システム及び検索方法
JP2007193380A (ja) * 2006-01-16 2007-08-02 So-Net Entertainment Corp 情報処理装置,情報処理方法,およびコンピュータプログラム
JP5534167B2 (ja) * 2009-12-16 2014-06-25 日本電気株式会社 グラフ作成装置、グラフ作成方法およびグラフ作成プログラム
US20120066628A1 (en) * 2010-09-09 2012-03-15 Microsoft Corporation Drag-able tabs
JP2014085992A (ja) * 2012-10-26 2014-05-12 Hitachi Ltd 文書認識支援装置、文書認識支援方法および文書認識支援プログラム
JP5903376B2 (ja) * 2012-12-11 2016-04-13 日本電信電話株式会社 情報推薦装置、情報推薦方法、及び情報推薦プログラム
US9177104B2 (en) * 2013-03-29 2015-11-03 Case Western Reserve University Discriminatively weighted multi-scale local binary patterns
JP6287192B2 (ja) * 2013-12-26 2018-03-07 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理方法、プログラム
WO2016027372A1 (ja) * 2014-08-22 2016-02-25 株式会社日立製作所 自己産出的情報処理システムおよび方法
JP6280859B2 (ja) * 2014-11-20 2018-02-14 日本電信電話株式会社 行動ネットワーク情報抽出装置、行動ネットワーク情報抽出方法及び行動ネットワーク情報抽出プログラム
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
WO2017061253A1 (ja) * 2015-10-09 2017-04-13 アイビーリサーチ株式会社 表示制御装置、表示制御方法及び表示制御プログラム
TWM523901U (zh) * 2016-01-04 2016-06-11 信義房屋仲介股份有限公司 可語意分析關鍵字的搜尋引擎裝置
US9710544B1 (en) * 2016-05-19 2017-07-18 Quid, Inc. Pivoting from a graph of semantic similarity of documents to a derivative graph of relationships between entities mentioned in the documents
CN107766318B (zh) * 2016-08-17 2021-03-16 北京金山安全软件有限公司 一种关键词的抽取方法、装置及电子设备
CN107193803B (zh) * 2017-05-26 2020-07-10 北京东方科诺科技发展有限公司 一种基于语义的特定任务文本关键词提取方法
CN107451120B (zh) * 2017-08-01 2020-10-30 中国人民解放军火箭军工程大学 一种公开文本情报的内容冲突检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011164791A (ja) 2010-02-05 2011-08-25 Ntt Data Corp 特徴語抽出装置、特徴語抽出方法および特徴語抽出プログラム
KR101512084B1 (ko) 2013-11-15 2015-04-17 한국과학기술원 가상현실 기반의 3차원 웹 검색 인터페이스를 제공하는 웹 검색 시스템 및 그 제공 방법
JP2016218512A (ja) 2015-05-14 2016-12-22 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
장재영, 텍스트마이닝을 위한 그래프 기반 텍스트 표현 모델의 연구 동향, 한국인터넷방송통신학회 논문지, 2013.

Also Published As

Publication number Publication date
JP2019164593A (ja) 2019-09-26
JP6987003B2 (ja) 2021-12-22
CN110309290A (zh) 2019-10-08
KR20190110428A (ko) 2019-09-30
TW201945958A (zh) 2019-12-01
TWI703457B (zh) 2020-09-01
CN110309290B (zh) 2023-06-06

Similar Documents

Publication Publication Date Title
WO2009148790A1 (en) Processing a page
WO2018079225A1 (ja) 自動予測システム、自動予測方法および自動予測プログラム
WO2018020842A1 (ja) テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
KR102162779B1 (ko) 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
JP6529698B2 (ja) データ分析装置およびデータ分析方法
JP4792885B2 (ja) 自然言語処理システム、自然言語処理方法、自然言語処理プログラム
US9858113B2 (en) Creating execution flow by associating execution component information with task name
JP2019185682A (ja) コンピュータプログラム、情報処理方法及びコンピュータ
JP6001173B2 (ja) データ分析装置、rdfデータの拡張方法、およびデータ分析プログラム
US11768852B2 (en) System and method for data analysis and presentation of data
JP2004185346A (ja) プロジェクト作業支援方法およびシステム
KR101985014B1 (ko) 탐색적 데이터 시각화 시스템 및 그 방법
JP6200392B2 (ja) 情報提示装置および情報提示プログラム
JP2007272517A (ja) マイクロシナリオデータ分析システムおよびマイクロシナリオデータ分析プログラム
JP5202598B2 (ja) ワークフロー管理装置、及びワークフロー管理プログラム
WO2023084704A1 (ja) 画像処理装置、方法およびプログラム
JP4241642B2 (ja) 情報表示方法、情報表示装置及び情報表示プログラム
JP2024122324A (ja) 情報処理装置、情報処理プログラム、及び情報処理方法
JP4728878B2 (ja) 時系列分析支援システム、時系列分析支援方法及び時系列分析支援プログラム
Medisetty TWITTER POLICING
Busch et al. Semantic document indexing with Generative AI
Chi et al. The Impact of Element Ordering on LM Agent Performance
JP2010092230A (ja) 機器・装置用図記号検索用プログラム
JP2004139199A (ja) データ解析方法
Portes dos Santos Amorim Multidimensional Projection Visualization: Control-points Selection and Inverse Projection Exploration

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant