KR20110044562A - 온톨로지를 이용한 문서의 주제 측정 방법 및 장치 - Google Patents

온톨로지를 이용한 문서의 주제 측정 방법 및 장치 Download PDF

Info

Publication number
KR20110044562A
KR20110044562A KR1020090101302A KR20090101302A KR20110044562A KR 20110044562 A KR20110044562 A KR 20110044562A KR 1020090101302 A KR1020090101302 A KR 1020090101302A KR 20090101302 A KR20090101302 A KR 20090101302A KR 20110044562 A KR20110044562 A KR 20110044562A
Authority
KR
South Korea
Prior art keywords
keyword
document
keywords
average distance
matrix
Prior art date
Application number
KR1020090101302A
Other languages
English (en)
Other versions
KR101058895B1 (ko
Inventor
이용규
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020090101302A priority Critical patent/KR101058895B1/ko
Publication of KR20110044562A publication Critical patent/KR20110044562A/ko
Application granted granted Critical
Publication of KR101058895B1 publication Critical patent/KR101058895B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

온톨로지를 이용한 문서의 주제 측정 방법 및 장치가 개시된다. 상기 문서 주제 측정 방법은, 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 단계, 상기 각 키워드 별로 키워드들 간의 상기 온톨로지 isA 계층구조상의 평균 거리를 계산하는 단계; 및 상기 계산된 평균 거리가 짧은 순서로 하나 이상의 키워드를 상기 문서의 중심 주제어로 선정하는 단계를 포함한다. 이에 따라 본 발명은 온톨로지 isA 계층구조를 이용하여 문서의 중심 주제어를 용이하게 파악함으로써 문서들을 주제별로 빠르고 정확하게 분류하고 검색할 수 있다.

Description

온톨로지를 이용한 문서의 주제 측정 방법 및 장치{Method and apparatus for measuring subject of document using ontology}
본 발명의 실시예들은 문서의 중심 주제어 추출 기술과 관련된다.
온톨로지(Ontology)란 사람들이 사물에 대해 생각하는 바를 추상화하고 공유한 모델로, 정형화되어 있고 개념의 타입이나 사용상의 제약 조건들이 명시적으로 정의된 기술을 말한다. 특히, 전산학과 정보 과학에서 특정 영역을 표현하는 데이터 모델로서, 특정한 영역(Domain)에 속하는 개념과, 개념 사이의 관계를 기술하는 정형(Formal) 어휘의 집합으로 정의된다.
한편, 최근 인터넷 등의 발달로 인하여 온라인을 중심으로 문서의 수가 급격히 늘어나고 있다. 따라서 원하는 정보를 얻기 위해서는 이러한 수 많은 문서들 중 필요로 하는 정보를 포함하는 문서를 쉽게 검색 및 추출하는 방법이 필요하게 되었으며, 특히 상술한 온톨로지를 이용하여 문서의 중심 주제어를 알아내고 이를 이용하여 문서를 분류하고 정보 추천 등에 활용하기 위한 방법들이 필요하게 되었다.
본 발명의 실시예들은 온톨로지 isA 계층구조를 이용하여 문서 내의 키워드로부터 문서의 중심 주제어를 계산함으로써 문서의 중심 주제를 정확하게 파악하고 이에 따라 문서의 분류 및 검색을 할 수 있도록 하는 방법을 제공하고자 한다.
상기 과제를 해결하기 위한 본 발명의 실시예에 따른 문서의 주제 측정 방법은, 문서 주제 측정 장치에서, 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 단계; 상기 문서 주제 측정 장치에서, 상기 추출된 키워드 간의 온톨로지 isA 계층구조 내에서의 거리를 각 셀의 값으로 하는 매트릭스 또는 삼각 행렬을 생성하는 단계; 상기 문서 주제 측정 장치에서, 상기 매트릭스 또는 삼각 행렬을 이용하여 각 키워드 별로 상기 키워드 및 빈도수 추출 단계에서 추출된 다른 키워드들 간의 상기 온톨로지 isA 계층구조상의 평균 거리를 계산하는 단계; 및 상기 문서 주제 측정 장치에서, 상기 계산된 평균 거리가 짧은 순서로 하나 이상의 키워드를 상기 문서의 중심 주제어로 선정하는 단계;를 포함한다.
또한 상기 과제를 해결하기 위한 본 발명의 실시예에 따른 문서의 주제 측정 장치는, 키워드들간의 온톨로지 isA 계층구조가 저장된 데이터베이스; 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 키워드 추출부; 상기 키워드 추출부에서 추출된 키워드 간의 온톨로지 isA 계층구조 내에서의 거리를 각 셀의 값으로 하는 매트릭스 또는 삼각 행렬을 생성하고, 상기 매트릭스 또는 삼각 행렬을 이용하여 각 키워드 별로 상기 키워드 및 빈도수 추출 단계에서 추출된 다른 키워드들 간의 상기 온톨로지 isA 계층구조상의 평균 거리를 계산하는 평균 거리 계산부; 및 상기 평균 거리 계산부에서 계산된 평균 거리가 짧은 순서로 하나 이상의 키워드를 상기 문서의 중심 주제어로 선정하는 중심 주제어 추출부;를 포함한다.
전술한 것 외의 다른 측면, 특징 및 이점은 이하의 도면, 특허청구범위 및 발명의 상세한 설명으로부터 명확해질 것이다.
본 발명의 실시예들은 온톨로지 isA 계층구조를 이용하여 문서의 중심 주제어를 용이하게 파악함으로써 문서들을 주제별로 빠르고 정확하게 분류하고 검색할 수 있는 방법을 제공할 수 있다.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이 다.
본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
본 발명을 설명하기에 앞서, 본 발명의 실시예에 따른 온톨로지 isA 계층구조에 대해 간단히 설명하기로 한다.
도 1은 본 발명의 실시예에 따른 온톨로지 isA 계층구조(100)의 일례를 나타낸 도면이다. 본 발명의 실시예에서는 온톨로지를 트리 또는 그래프 형태의 계층 구조로 구성하고, 상기 트리 또는 그래프의 노드들 사이의 간선(edge)의 수로서 노드 간의 거리(의미상의 거리)를 표현한다. 예를 들어, 도 1에 도시된 온톨로지 isA 계층구조 (100)에서 「동물」과 「무척추동물」간의 거리는 1, 「무척추동물」과 「척추동물」간의 거리는 2이며, 「사람」과 「새우」와의 거리는 6이 된다.
문서의 중심 주제어 선정
도 2는 본 발명의 일 실시예에 따른 문서의 주제 측정 방법(200)을 나타낸 순서도이다.
먼저, 주제를 측정하고자 하는 문서로부터 키워드 및 각 키워드의 빈도를 추출한다(202). 상기 키워드는, 예를 들어 상기 문서를 구성하는 텍스트를 형태소 분 석함으로써 추출될 수 있다. 또한 추출된 키워드 중 색인어로서의 가치가 없는 불용어(stop word)는 제거한다. 상기 온톨로지 계층구조는 추출된 키워드를 노드로 포함한다.
다음으로, 상기 추출된 키워드를 이용하여 n*n 매트릭스(M; 이때 n은 추출된 키워드의 개수) 또는 상위 삼각 행렬(T)을 생성한다(204). 상기 n*n 매트릭스 또는 상위 삼각 행렬에서, 각 행 및 열은 상기 추출된 키워드를, 각 셀은 해당 행 및 열에 해당하는 키워드들의 온톨로지 isA 계층구조상의 거리를 나타낸다.
예를 들어, 상기 202 단계에서 추출된 키워드 및 빈도가 다음의 표 1과 같은 경우, 도 1에 도시된 온톨로지 isA 계층구조를 이용하여 매트릭스(M)를 구성하면 표 2와 같다.
일련번호 키워드 빈도
1 붕어 2
2 잉어 3
3 멸치 1
4 동물 2
M 1 2 3 4
1 0 2 2 3
2 2 0 2 3
3 2 2 0 3
4 3 3 3 0
또한, 상기 도 1의 키워드를 이용하여 상위 삼각 행렬(T)을 구성하면 다음의 표 3과 같다.
T 1 2 3 4
1 0 2 2 3
2 0 2 3
3 0 3
4 0
다음으로, 상기 매트릭스(M) 또는 상위 삼각 행렬(T)을 이용하여 각 키워드 별로 추출된 키워드 간의 온톨로지 isA 계층구조상의 평균거리를 계산한다(206).
예를 들어, 상기 매트릭스(M)를 이용하여 각 키워드 별 평균거리를 계산할 경우에는 다음의 수학식 1을 이용한다.
Figure 112009065113379-PAT00001
상기 수학식에서, K는 키워드의 일련번호, F(i)는 일련번호가 i인 키워드의 빈도, M(i, j)는 상기 매트릭스(M)의 행 i 열 j 인 (i, j) 셀의 값이다.
만약 각 키워드 별 빈도를 고려하지 않을 경우, F(i) 값은 모두 1이 된다.
상기 상위 삼각 행렬(T)를 이용하여 각 키워드 별 평균거리를 계산할 경우에 는 다음의 수학식 2를 이용한다.
Figure 112009065113379-PAT00002
상기 수학식에서, K는 키워드의 일련번호, F(i)는 일련번호가 i인 키워드의 빈도, T(i, j)는 상기 상위 삼각 행렬(T)의 행 i 열 j 인 (i, j) 셀의 값이다.
이 때에도 만약 각 키워드 별 빈도를 고려하지 않을 경우, F(i) 값은 모두 1이 된다.
마지막으로, 상기 계산된 평균거리가 짧은 순서로 소정 개수의 키워드를 상기 문서의 중심 주제어로 선정하게 된다(208). 상기 중심 주제어는 하나가 될 수도 있고 복수 개가 될 수도 있으며, 이는 상기 문서 및 키워드의 특성 등에 따라 적절하게 설정할 수 있다.
상기 수학식 1 및 2에 따라 표 1에 기재된 각 키워드의 평균거리를 계산하면 다음과 같다.
붕어: (0*2+2*3+2*1+3*2)/8 = 1.75
잉어: (2*2+0*3+2*1+3*2)/8 = 1.5
멸치: (2*2+2*3+0*1+3*2)/8 = 2.0
동물: (3*2+3*3+3*1+0*2)/8 = 2.25
즉, 상기 키워드들 중 평균 거리가 가장 짧은 키워드는 「잉어」, 그 다음은 「붕어」이므로, 중심 주제어를 하나만 설정할 경우의 상기 문서의 중심 주제어는 「잉어」가 되며, 2개 설정할 경우에는 「잉어」및 「붕어」가 된다.
만약 상기 수학식에서 빈도를 고려하지 않을 경우의 각 키워드 별 평균거리는 다음과 같다.
붕어: (0+2+2+3)/4 = 1.75
잉어: (2+0+2+3)/4 = 1.75
멸치: (2+2+0+3)/4 = 1.75
동물: (3+3+3+0)/4 = 2.25
즉, 이 경우에는 「붕어」, 「잉어」, 「멸치」의 평균거리가 모두 같으므로, 「붕어」, 「잉어」 및 「멸치」를 모두 상기 문서의 중심 주제어로 선정할 수 있다.
응집도 및 편차도 계산
상기와 같이 문서의 각 키워드 별 평균거리가 계산되고 이에 따라 중심 주제어가 선정되면, 다음으로 상기 추출된 키워드들의 응집도를 계산할 수 있다. 응집도란 문서 내의 키워드들이 중심 주제어와 얼마나 밀접하게 관련되어 있는지를 판단하기 위한 척도로 사용될 수 있다.
상기 응집도는 다음의 수학식 3에 의하여 계산된다. 계산된 응집도는 0에서 1 사이의 값을 가지며, 1에 가까울수록 응집도가 높다.
Figure 112009065113379-PAT00003
예를 들어, 표 2에 도시된 매트릭스(M)에서 중심 주제어를 「잉어」라 할 경우, 상기 중심 주제어와 상기 문서의 각 키워드들간의 평균거리는 빈도를 고려하지 않을 경우 (2+0+2+3)/4=1.75가 된다. 여기서 평균거리를 계산할 때 주제어도 키워드로 포함시켰으나, 주제어는 키워드에서 제외하고 계산할 수도 있다. 또한 도 1에 도시된 온톨로지 isA 계층구조에서의 최대거리는 「사람」과 「새우」 사이의 거리로서 6이므로, 상기 응집도는
1 - 1.75/6 = 0.71
이 된다.
한편 빈도를 고려하게 되면, 상기 중심 주제어와 상기 문서의 각 키워드들간의 평균거리는 (2*2+0*3+2*1+3*2)/8 = 1.5가 된다. 따라서 상기 응집도는
1 - 1.5/6 = 0.75
가 된다
Figure 112009065113379-PAT00004
중심 주제어로부터 각 키워드까지의 평균거리의 표준편차를 이용하여 중심 주제어로부터 각 키워드들간의 거리의 편차도를 계산할 수도 있다. 이를 수학식으로 나타내면 다음과 같다.
Figure 112009065113379-PAT00005
상기 수학식에서 편차도는 0에서 1사이의 값을 가지며, 1에 가까울수록 편차도가 높다.즉, 편차도가 1에 가까울수록 중심주제어로부터 각 키워드까지의 거리가 균등해진다.
심화도 계산
한편, 상기와 같이 중심주제어를 알면 해당 문서의 심화도를 알 수 있다. 상 기 심화도는 다음의 수학식 5에 의하여 정해진다. 상기 심화도 또한 0과 1 사이의 값을 가지며 1에 가까울수록 심화도가 높다.
Figure 112009065113379-PAT00006
온톨로지 isA 계층구조에서의 임의의 노드 U 에 대하여, 뿌리부터 상기 노드 U 에 도달할 때까지의 경로의 길이, 즉 경로상의 노드의 개수를 U의 레벨(level) 또는 깊이(depth)라 한다. 예를 들어, 도 1에 도시된 온톨로지 isA 계층구조에서 「동물」 의 레벨은 1이 되며, 루트 노드의 자식 노드인 「척추동물」과 「무척추동물」의 레벨은 2, 「참새」의 레벨은 4가 된다.
이에 따라 상기 온톨로지 isA 계층구조를 이용하여 중심 주제어의 레벨 및 상기 온톨로지 isA 계층구조의 최대 레벨을 추출하면 상기 중심 주제어의 심화도를 계산할 수 있다. 전술한 예에서, 중심 주제어를 「잉어」라 할 경우, 「잉어」의 레벨은 4이며, 도 1에 도시된 온톨로지 isA 계층구조의 최대 레벨 또한 4이므로, 상기 문서의 심화도는 4/4 = 1이 된다.
전술한 실시예에서는 온톨로지 isA 계층구조에서 간선 간의 거리를 일률적으로 1로 가정하였지만, 실시예에 따라 간선 간의 거리가 각각 다르게 정해지는 경우 가 있다. 예를 들어, 도 3과 같은 온톨로지 isA 계층구조의 경우 노드 B와 D 간의 거리는 0.5로, A와 C 간의 거리는 2.0으로 정의되어 있다.
이와 같이 간선마다 각각 거리가 다른 경우에는 루트 노드에서부터 중심 주제어 까지의 경로상에 존재하는 각 노드들 간의 거리를 합하고, 상기 온톨로지 isA 계층구조에서의 루트 노드에서부터 리프 노드까지의 거리의 합 중 최대값으로 나눔으로써 심화도를 계산할 수 있다.
또한 상기 온톨로지 isA 계층구조는 반드시 트리 형태로만 구성되는 것은 아니며, 그래프의 형태를 가질 수도 있다. 그래프의 경우 특정 노드의 부모 노드가 한 개가 아닌 복수 개 존재할 수 있다는 점에서 트리와 상이하다. 이에 따라 그래프의 경우 임의의 두 노드 사이의 경로가 두 개 이상 존재할 수 있다. 이와 같이 그래프 형태로 온톨로지 isA 계층구조가 형성된 경우에도 본 발명의 실시예에 따라 동일한 방법으로 문서의 중심 주제어를 추출할 수 있다. 다만, 이 경우 그래프 내의 임의의 두 노드의 경로 중 어떤 경로를 따르더라도 두 노드 사이의 거리가 동일하도록 그래프가 구성되어야 함은 자명하다. 물론, 특별한 경우로 두 노드 사이의 두 개 이상의 경로들의 거리가 서로 다른 경우가 존재한다면 하나를 선택하여 사용할 수도 있다.
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수 행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
도 3은 본 발명의 일 실시예에 따른 문서 주제 측정 장치(400)를 나타낸 도면이다.
본 발명의 일 실시예에 따른 문서 주제 측정 장치(400)는 전술한 문서의 주제 측정 방법(200)을 수행하기 위한 장치로서, 도시된 바와 같이 온톨로지 데이터베이스(402), 키워드 추출부(404), 평균 거리 계산부(406) 및 중심 주제어 추출부(408)를 포함하여 구성된다.
온톨로지 데이터베이스(402)는 온톨로지 isA 계층구조가 저장된 데이터베이스이다.
키워드 추출부(404)는, 주제를 측정하고자 하는 문서로부터 키워드 및 각 키워드의 빈도를 추출한다. 상기 키워드는, 예를 들어 상기 문서를 구성하는 텍스트를 형태소 분석함으로써 추출될 수 있다.
평균 거리 계산부(406)는 상기 키워드 추출부(402)에서 추출된 키워드를 이용하여 n*n 매트릭스(M; 이때 n은 추출된 키워드의 개수) 또는 상위 삼각 행렬(T)을 생성하고, 상기 매트릭스(M) 또는 상위 삼각 행렬(T)을 이용하여 각 키워드 별로 추출된 키워드 간의 온톨로지 isA 계층구조상의 평균거리를 계산한다. 이때, 상기 n*n 매트릭스 또는 상위 삼각 행렬의 각 행 및 열은 상기 추출된 키워드를, 각 셀은 해당 행 및 열에 해당하는 키워드들의 온톨로지 isA 계층구조상의 거리를 나타냄은 전술한 바와 같다.
중심 주제어 추출부(408)는 계산된 상기 키워드들의 온톨로지 isA 계층구조상의 평균거리를 서로 비교하고, 평균거리가 짧은 순서로 소정 개수의 키워드를 상기 문서의 중심 주제어로서 추출하게 된다.
한편, 본 발명의 일 실시예에 따른 문서 주제 측정 장치(400)는 필요에 따라 상기 중심 주제어와 상기 온톨로지 isA 게층관계를 이용하여 상기 추출된 키워드들의 응집도를 계산하는 응집도 계산부(미도시) 및 상기 중심 주제어와 상기 온톨로지 isA 게층관계를 이용하여 상기 문서의 심화도를 계산하는 심화도 계산부(미도시)를 더 포함할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으 나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.
그러므로 본 발명의 권리범위는 설명된 실시 예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 실시예에 따른 온톨로지 isA 계층구조의 일례를 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 문서의 주제 측정 방법을 나타낸 순서도이다.
도 3은 본 발명의 일 실시예에 따라 노드 간의 거리가 각기 다르게 설정된 온톨로지 isA 계층구조의 일례를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 문서 주제 측정 장치를 나타낸 도면이다.
<도면의 주요 부호에 대한 설명>
300 : 문서 주제 측정 장치 302 : 온톨로지 데이터베이스
304 : 키워드 추출부 306 : 평균 거리 계산부
308 : 중심 주제어 추출부

Claims (15)

  1. 문서 주제 측정 장치에서, 문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 단계;
    상기 문서 주제 측정 장치에서, 상기 추출된 키워드 간의 온톨로지 isA 계층구조 내에서의 거리를 각 셀의 값으로 하는 매트릭스 또는 삼각 행렬을 생성하는 단계;
    상기 문서 주제 측정 장치에서, 상기 매트릭스 또는 삼각 행렬을 이용하여 각 키워드 별로 상기 키워드 및 빈도수 추출 단계에서 추출된 다른 키워드들 간의 상기 온톨로지 isA 계층구조상의 평균 거리를 계산하는 단계; 및
    상기 문서 주제 측정 장치에서, 상기 계산된 평균 거리가 짧은 순서로 하나 이상의 키워드를 상기 문서의 중심 주제어로 선정하는 단계;
    를 포함하는 문서 주제 측정 방법.
  2. 제1항에 있어서,
    상기 두 노드 간의 거리는, 상기 개념 트리에서 상기 두 노드를 연결하는 간선(edge)의 개수 또는 상기 두 노드를 연결하는 경로상에 존재하는 각 간선의 거리의 합인, 문서 주제 측정 방법.
  3. 제1항에 있어서,
    상기 매트릭스 또는 상기 삼각 행렬의 각 행 및 각 열은 상기 키워드 및 빈도수 추출 단계에서 추출된 키워드이며, 상기 매트릭스 또는 상기 삼각 행렬의 각 셀은 해당 행 및 열에 해당하는 키워드들의 온톨로지 isA 계층구조상의 거리인, 문서 주제 측정 방법.
  4. 제3항에 있어서,
    상기 평균 거리 계산 단계에서 상기 매트릭스를 이용하여 각 키워드 별 평균거리를 계산할 경우, 다음의 수학식
    Figure 112009065113379-PAT00007
    (이때, n은 추출된 키워드의 개수, K는 상기 키워드의 일련번호로서 1≤K≤n, M(i, j)는 매트릭스의 i행 j열, F(i)는 i번째 키워드의 빈도수)
    을 이용하여 평균 거리를 계산하는, 문서 주제 측정 방법.
  5. 제4항에 있어서,
    상기 평균 거리 계산에서 각 키워드의 빈도수를 고려하지 않을 경우, 상기 수학식에서 F(i) 값은 모두 1로 설정되는, 문서 주제 측정 방법.
  6. 제3항에 있어서,
    상기 평균 거리 계산 단계에서 상기 삼각 행렬을 이용하여 각 키워드 별 평 균거리를 계산할 경우, 다음의 수학식
    Figure 112009065113379-PAT00008
    (이때, n은 추출된 키워드의 개수, K는 상기 키워드의 일련번호로서 1≤K≤n, T(i, j)는 삼각 행렬의 i행 j열, F(i)는 i번째 키워드의 빈도수)
    을 이용하여 평균 거리를 계산하는, 문서 주제 측정 방법.
  7. 제6항에 있어서,
    상기 평균 거리 계산에서 각 키워드의 빈도수를 고려하지 않을 경우, 상기 수학식에서 F(i) 값은 모두 1로 설정되는, 문서 주제 측정 방법.
  8. 제1항에 있어서,
    상기 중심 주제어 선정 단계의 수행 이후, 상기 중심 주제어를 이용하여 상기 문서에서 추출된 키워드의 응집도를 계산하는 단계를 더 포함하는, 문서 주제 측정 방법.
  9. 제8항에 있어서,
    상기 응집도는, 다음의 수학식
    Figure 112009065113379-PAT00009
    에 의하여 계산되는, 문서 주제 측정 방법.
  10. 제1항에 있어서,
    상기 중심 주제어 선정 단계의 수행 이후, 상기 중심 주제어를 이용하여 상기 문서에서 추출된 키워드의 편차도를 계산하는 단계를 더 포함하는, 문서 주제 측정 방법.
  11. 제10항에 있어서,
    상기 편차도는, 다음의 수학식
    Figure 112009065113379-PAT00010
    에 의하여 계산되는, 문서 주제 측정 방법.
  12. 제1항에 있어서,
    상기 중심 주제어 선정 단계의 수행 이후, 상기 중심 주제어를 이용하여 상기 문서에서 추출된 키워드의 심화도를 계산하는 단계를 더 포함하는, 문서 주제 측정 방법.
  13. 제12항에 있어서,
    상기 심화도는, 다음의 수학식
    Figure 112009065113379-PAT00011
    에 의하여 계산되는, 문서 주제 측정 방법.
  14. 제1항 내지 제13항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  15. 키워드들간의 온톨로지 isA 계층구조가 저장된 데이터베이스;
    문서로부터 복수 개의 키워드 및 상기 각 키워드의 상기 문서 내에서의 빈도수를 추출하는 키워드 추출부;
    상기 키워드 추출부에서 추출된 키워드 간의 온톨로지 isA 계층구조 내에서의 거리를 각 셀의 값으로 하는 매트릭스 또는 삼각 행렬을 생성하고, 상기 매트릭스 또는 삼각 행렬을 이용하여 각 키워드 별로 상기 키워드 및 빈도수 추출 단계에서 추출된 다른 키워드들 간의 상기 온톨로지 isA 계층구조상의 평균 거리를 계산하는 평균 거리 계산부; 및
    상기 평균 거리 계산부에서 계산된 평균 거리가 짧은 순서로 하나 이상의 키워드를 상기 문서의 중심 주제어로 선정하는 중심 주제어 추출부;
    를 포함하는 문서 주제 측정 장치.
KR1020090101302A 2009-10-23 2009-10-23 온톨로지를 이용한 문서의 주제 측정 방법 및 장치 KR101058895B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090101302A KR101058895B1 (ko) 2009-10-23 2009-10-23 온톨로지를 이용한 문서의 주제 측정 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090101302A KR101058895B1 (ko) 2009-10-23 2009-10-23 온톨로지를 이용한 문서의 주제 측정 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20110044562A true KR20110044562A (ko) 2011-04-29
KR101058895B1 KR101058895B1 (ko) 2011-08-23

Family

ID=44049270

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090101302A KR101058895B1 (ko) 2009-10-23 2009-10-23 온톨로지를 이용한 문서의 주제 측정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR101058895B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013002436A1 (ko) * 2011-06-27 2013-01-03 한국과학기술정보연구원 온톨로지 기반의 문서 분류 방법 및 장치
KR101389449B1 (ko) * 2011-07-07 2014-04-28 경북대학교 산학협력단 자료 분석 장치 및 방법
WO2021040089A1 (ko) * 2019-08-29 2021-03-04 주식회사 테크플럭스 이미지 유사성 기반, 이종 토픽 문서에서 온톨로지 데이터 확장방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100490442B1 (ko) 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013002436A1 (ko) * 2011-06-27 2013-01-03 한국과학기술정보연구원 온톨로지 기반의 문서 분류 방법 및 장치
KR101389449B1 (ko) * 2011-07-07 2014-04-28 경북대학교 산학협력단 자료 분석 장치 및 방법
WO2021040089A1 (ko) * 2019-08-29 2021-03-04 주식회사 테크플럭스 이미지 유사성 기반, 이종 토픽 문서에서 온톨로지 데이터 확장방법

Also Published As

Publication number Publication date
KR101058895B1 (ko) 2011-08-23

Similar Documents

Publication Publication Date Title
US10878004B2 (en) Keyword extraction method, apparatus and server
US10831793B2 (en) Learning thematic similarity metric from article text units
US8407253B2 (en) Apparatus and method for knowledge graph stabilization
CN106156083B (zh) 一种领域知识处理方法及装置
Stanley et al. Predicting tags for stackoverflow posts
US8738635B2 (en) Detection of junk in search result ranking
Xiong et al. Towards better text understanding and retrieval through kernel entity salience modeling
KR101548096B1 (ko) 문서 자동 요약 방법 및 서버
US10067965B2 (en) Hierarchic model and natural language analyzer
US20140052688A1 (en) System and Method for Matching Data Using Probabilistic Modeling Techniques
CN108875040A (zh) 词典更新方法及计算机可读存储介质
US20110029476A1 (en) Indicating relationships among text documents including a patent based on characteristics of the text documents
US8719025B2 (en) Contextual voice query dilation to improve spoken web searching
US10628749B2 (en) Automatically assessing question answering system performance across possible confidence values
US20170140290A1 (en) Automated Similarity Comparison of Model Answers Versus Question Answering System Output
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
KR101058895B1 (ko) 온톨로지를 이용한 문서의 주제 측정 방법 및 장치
US8862586B2 (en) Document analysis system
JPWO2019234827A1 (ja) 情報処理装置、判定方法、及びプログラム
KR101071700B1 (ko) 온톨로지를 이용한 문서의 주제어 및 관련어 측정 방법 및 장치
JP6091448B2 (ja) トピックモデリング装置、トピックモデリング方法、トピックモデリングプログラム
KR101620841B1 (ko) 통계적 분석에 기반한 기술계층다이어그램 모델을 이용한 특허분석방법
KR101351555B1 (ko) 대용량 데이터의 텍스트마이닝을 위한 의미기반 분류 추출시스템
JP5292336B2 (ja) 検索システムユーザの分野ごとにおける知識量推定装置、知識量推定方法および知識量推定プログラム
KR101108600B1 (ko) 온톨로지를 이용한 문서간 유사도 측정 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140818

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150729

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160728

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170801

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180731

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190731

Year of fee payment: 9