KR101113787B1 - 텍스트 색인 장치 및 방법 - Google Patents

텍스트 색인 장치 및 방법 Download PDF

Info

Publication number
KR101113787B1
KR101113787B1 KR1020090102937A KR20090102937A KR101113787B1 KR 101113787 B1 KR101113787 B1 KR 101113787B1 KR 1020090102937 A KR1020090102937 A KR 1020090102937A KR 20090102937 A KR20090102937 A KR 20090102937A KR 101113787 B1 KR101113787 B1 KR 101113787B1
Authority
KR
South Korea
Prior art keywords
segment
keyword
document
keywords
frequency
Prior art date
Application number
KR1020090102937A
Other languages
English (en)
Other versions
KR20110046098A (ko
Inventor
이용규
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020090102937A priority Critical patent/KR101113787B1/ko
Publication of KR20110046098A publication Critical patent/KR20110046098A/ko
Application granted granted Critical
Publication of KR101113787B1 publication Critical patent/KR101113787B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Abstract

텍스트 색인 장치 및 방법이 개시된다. 본 발명의 실시예에 따른 텍스트 색인 장치 및 방법은 문서를 복수 개의 세그먼트로 나누고, 문서로부터 복수 개의 키워드, 키워드가 위치하는 세그먼트 정보 및 키워드의 빈도수를 추출하는 키워드 추출부와, 키워드 추출부에서 추출된 키워드, 세그먼트 정보 및 빈도수를 이용하여, 문서에 대한 세그먼트 인덱스를 생성하는 세그먼트 인덱스 생성부 및 세그먼트 인덱스 생성부에서 생성된 세그먼트 인덱스를 이용하여 문서의 특정 세그먼트에 대한 주제어를 선정하는 주제어 계산부를 포함한다.

Description

텍스트 색인 장치 및 방법{Apparatus and method for indexing text}
본 발명의 실시 예들은 텍스트 색인 장치 및 방법에 관련된 것으로서, 문서의 위치에 따른 키워드 및 주제어를 알 수 있는 기술에 관한 것이다.
일반적으로 대용량의 텍스트 또는 문서의 검색을 위해서 키워드를 이용한 검색 방법이 많이 사용된다. 즉, 사용자가 특정 키워드를 입력하면 해당 키워드를 포함하는 문서 및 때에 따라 상기 문서 내에서의 상기 키워드의 위치를 찾아내어 사용자에게 출력하는 것이다. 이와 같은 텍스트 검색을 위해서는 키워드에 대한 인덱스를 구축하고, 각 키워드마다 해당되는 문서 및 각 문서 내에서의 위치정보를 저장하게 된다.
그러나 상기와 같이 구성된 키워드 인덱스의 경우, 반대로 특정 문서를 읽는 도중 상기 문서의 특정 위치의 키워드 또는 주제어를 검색하기가 매우 어렵다. 이는 상기 인덱스가 키워드 단위로 구성되어 있어, 특정 위치의 키워드를 추출하기 위해서는 상기 인덱스의 모든 엔트리를 검색하여야 하기 때문이다.
따라서 문서의 특정 위치가 주어지면 해당 위치의 키워드를 쉽게 추출하고 이에 따라 상기 위치의 주제어를 계산하기 위한 연구가 필요하게 되었다.
본 발명의 실시 예들은 문서 별로 세그먼트 인덱스를 구축하여, 문서 위치에 따라 키워드를 추출할 수 있으며, 키워드가 위치한 세그먼트의 거리에 따라 키워드의 중요도를 부여하여, 주제어를 선정할 수 있는 것으로, 문서의 키워드 및 주제어를 용이하게 검색할 수 있는 텍스트 색인 장치 및 방법을 제공하고자 한다.
상기 과제를 해결하기 위한 텍스트 색인 장치는 문서를 복수 개의 세그먼트로 나누고, 상기 문서로부터 복수 개의 키워드, 상기 키워드가 위치하는 세그먼트 정보 및 상기 키워드의 빈도수를 추출하는 키워드 추출부와, 상기 키워드 추출부에서 추출된 상기 키워드, 세그먼트 정보 및 빈도수를 이용하여, 상기 문서에 대한 세그먼트 인덱스를 생성하는 세그먼트 인덱스 생성부 및 상기 세그먼트 인덱스 생성부에서 생성된 상기 세그먼트 인덱스를 이용하여 상기 문서의 특정 세그먼트에 대한 주제어를 선정하는 주제어 계산부를 포함한다.
한편, 상기 과제를 해결하기 위한 텍스트 색인 방법은 텍스트 색인 장치에서, 문서를 복수 개의 세그먼트로 분할하는 단계와, 상기 텍스트 색인 장치에서, 상기 세그먼트로 분할된 문서로부터 복수 개의 키워드, 상기 키워드가 위치하는 세그먼트 정보 및 상기 키워드의 빈도수를 추출하는 단계 및 상기 텍스트 색인 장치에서, 상기 키워드 추출부에서 추출된 상기 키워드, 세그먼트 정보 및 빈도수를 이용하여, 상기 문서에 대한 세그먼트 인덱스를 생성하는 단계를 포함한다.
본 발명의 실시 예들에 따르면, 문서 별로 세그먼트 인덱스를 구축하여, 문서 위치에 따라 키워드를 추출하며, 키워드가 위치한 세그먼트의 거리에 따라 키워드의 중요도를 부여하여, 주제어를 선정할 수 있는 것으로, 문서내의 키워드 및 주제어를 용이하게 선정 할 수 있다.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시 예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
도 1은 본 발명의 일 실시예에 따른 텍스트 색인 장치(100)의 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 텍스트 색인 장 치(100)는 키워드 추출부(102), 세그먼트 인덱스 생성부(104) 및 주제어 계산부(106)를 포함한다.
본 발명의 일 실시예에 따른 텍스트 색인 장치(100)의 문서는 예를 들어, 서적, 신문 기사 또는 웹 문서 등으로서, 문서의 어느 특정 영역으로 마우스 포인터를 이동시키거나 해당 영역을 화면 상에 띄우면, 해당 지점에 대응되는 문서 내의 세그먼트의 키워드를 알 수 있으며, 또한 세그먼트의 주제어도 추출할 수 있다.
상기 키워드 추출부(102)는 문서를 복수 개의 세그먼트로 나누고, 상기 문서로부터 복수 개의 키워드, 상기 키워드가 위치하는 세그먼트 정보 및 상기 키워드의 빈도수를 추출한다. 상기 세그먼트는 문서의 단락, 페이지, 또는 일정수의 라인 별로 구성할 수 있으며, 하나의 세그먼트의 크기는 상기 문서 또는 추출되는 키워드의 특성에 따라 적절히 구성할 수 있다.
또한, 상기 추출되는 키워드의 경우, 키워드가 위치하는 문서 내의 정확한 위치 정보를 추출하는 것이 아니라, 상기 키워드가 위치하는 세그먼트 정보만을 추출한다. 상기 문서의 크기가 크더라도 하나의 세그먼트의 크기는 크지 않으므로, 세그먼트 정보만을 알면 각 세그먼트 내에서 키워드의 위치를 패턴 검색을 통해 바로 알 수 있기 때문이다. 그러나 만일 패턴 검색에 의하지 않고 키워드의 정확한 위치를 알고자 할 때는 세그먼트 내의 위치도 추출할 수 있다. 한편 상기 키워드는, 예를 들어 상기 문서를 구성하는 텍스트를 형태소 분석함으로써 추출될 수 있다. 또한 추출된 키워드 중 색인어로서의 가치가 없는 불용어(stop word)는 미리 제거한다.
또한, 상기 키워드 추출부(102)는 키워드가 각 세그먼트에서 기재된 빈도수를 추출한다. 키워드는 하나의 세그먼트에서만 기재된 것이 아니라, 문서를 구성하는 복수 개의 세그먼트 마다 기재될 수 있기에, 각 세그먼트 별로 키워드의 빈도수를 추출한다.
상기와 같이 키워드 추출부에서 상기 문서의 키워드, 키워드가 위치하는 세그먼트 정보 및 빈도수를 추출하고 나면, 이에 따른 키워드 리스트가 생성될 수 있다. 도 2를 참조하면, 이와 같이 상기 키워드 추출부(102)에서 생성된 키워드 리스트(200)가 도시되어 있다. 도시된 바와 같이, 상기 키워드 리스트(200)는 복수 개의 문서를 구별하기 위한 문서번호, 해당 문서에서 추출된 키워드 및 각 키워드가 위치한 세그먼트 정보들이 리스트 형태로 구성된다.
이때, 상기 키워드 리스트(200)의 키워드 필드에는 키워드 대신 키워드 번호가 기재될 수 있다. 이를 위하여 상기 텍스트 색인 장치(100)는 추출된 모든 키워드들에 대한 (키워드, 키워드 번호) 쌍을 포함하는 별도의 키워드 사전을 포함할 수 있다.
또한, 도시된 상기 키워드 리스트(200)의 경우 문서-키워드-세그먼트의 순서로 리스트가 구성되어 있으나, 키워드와 세그먼트의 순서를 바꾸어 문서-세그먼트-키워드의 순서로 리스트를 구성할 수도 있다. 즉, 문서를 복수 개의 세그먼트로 구별하고 각각의 세그먼트에 포함되는 키워드를 나열하는 형식으로 키워드 리스트를 구성할 수도 있다.
상기 세그먼트 인덱스 생성부(104)는 상기 키워드 추출부(102)에서 추출된 상기 키워드, 세그먼트 정보 및 빈도수를 이용하여, 상기 문서에 대한 세그먼트 인덱스(300)를 생성한다. 도 3에 상기 세그먼트 인덱스(300)가 도시되어 있다. 도 3에 도시된 바와 같이, 상기 세그먼트 인덱스(300)의 각 행은 상기 문서의 세그먼트이고, 각 열은 상기 추출된 키워드이며, 상기 세그먼트 인덱스(300)의 각 셀은 셀이 위치하는 행에 해당하는 세그먼트에서의 셀이 위치하는 열에 해당하는 키워드의 빈도수를 나타낸다. 예를 들어, 상기 세그먼트 인덱스(300)의 M(i,j)셀은 키워드의 빈도를 나타낸 것으로 세그먼트 i에 키워드 j가 나타나는 빈도수 값을 의미한다. 이때 상기 세그먼트 인덱스의 각 열의 순서는 해당 문서에서 추출된 키워드의 일련번호일 수 있다. 이를 위해서는 (문서 내 키워드 번호, 키워드) 또는 (문서 내 키워드 번호, 키워드 사전의 키워드 번호) 필드들로 구성되는 테이블이 필요하다. 이와 같이 문서내의 키워드 번호만을 세그먼트 인덱스에 포함시키는 것이 문헌 데이터베이스의 전체 키워드를 포함시키는 것에 비하여 매트릭스의 크기를 줄일 수 있게 된다
상기 주제어 계산부(106)는 상기 세그먼트 인덱스 생성부(104)에서 생성된 상기 세그먼트 인덱스(300)를 이용하여 상기 문서의 특정 세그먼트에 대한 주제어를 선정한다. 상기 주제어 선정은, 예를 들어 다음의 두 가지 방법 중 하나를 사용할 수 있다.
첫 번째 방법은, 상기 키워드 리스트(200)로부터 주제어를 선정하기 위한 세그먼트(이하 세그먼트 k라 한다)에 포함된 키워드들을 추출하고, 상기 키워드들을 상기 세그먼트 내에서의 빈도수 값이 높은 순서대로 정렬하여 빈도수 값이 높은 순서대로 소정 개수의 키워드를 주제어로 선정하는 것이다. 해당 세그먼트에서 가장 빈도수가 높은 키워드가 상기 세그먼트의 주제어일 가능성이 높기 때문이다.
그러나, 반드시 해당 세그먼트에서 빈도수가 높게 나타나는 키워드만이 주제어가 되는 것은 아니다. 예를 들어, 직전 세그먼트에서 가장 빈도수가 높게 나타나는 키워드가 현재 세그먼트에서는 빈도수가 낮게 나타난다고 하여 상기 키워드를 주제어가 아니라고 단정할 수는 없다. 문서 또는 스트림 형태의 데이터의 경우 주제가 갑자기 달라지거나 하는 경우는 극히 드물기 때문이다. 따라서 주제어를 선정하기 위한 세그먼트에서만 키워드의 빈도수를 추출하는 것이 아니라 상기 세그먼트의 일정 거리 이내에 위치하는 세그먼트에 포함된 키워드들의 경우에도 주제어 선정에 반영할 필요가 있다.
즉, 주제어 선정을 위한 두 번째 방법의 경우 키워드 추출부(102)에서 추출된 키워드의 상기 세그먼트 k에서의 중요도를 계산하고, 계산된 상기 중요도 값이 높은 순서대로 소정 개수의 키워드를 주제어로 선정한다. (세그먼트의 개수는 m이고, 1<= k <= m)
여기서, 중요도는 다음의 수학식 1에 따라 계산된다.
키워드 j의 중요도 = W0*F0j+W1*F1j+W2*F2j+...+Wd*Fdj
이때, Wi는 주제어를 계산하려는 세그먼트에서 거리 i만큼 떨어진 세그먼트의 가중치, Fij는 키워드 j의 상기 거리 i만큼 떨어진 세그먼트에서의 빈도이다. 따라서 주제어를 계산하려는 상기 세그먼트의 가중치는 W0이고, 상기 세그먼트의 키워드 j의 빈도는 F0j이다.
상기 수학식 1에서는 세그먼트 k와의 거리 차가 d이내인 세그먼트 내에서의 키워드의 빈도수를 반영한다. 여기서, 거리 차 d는 상기 주제어 계산부(106)에 기 설정된 수치이거나, 문서 전체의 세그먼트 개수를 고려하여 계산된 수치일 수 있다. 예를 들어, 문서 전체의 세그먼트 개수를 m개라 하고 전체 세그먼트 개수의 p %에 해당하는 세그먼트를 선택한다면, 아래의 수학식 2와 같이 거리 차 d를 구할 수 있다.
거리 차 d = (p / 100) * m
상기 수학식의 계산 결과가 정수가 아니면 반올림 등의 방법으로 정수로 변환한다. 또한 상기 d의 값을 m으로 선정하여 문서 전체의 키워드들을 가중치에 의 해 특정 세그먼트의 키워드 선정에 반영하는 것도 가능하다.
또한, 상기 수학식 1에 부여되는 가중치는, 특정 세그먼트부터의 거리에 따라 작아지도록 설정될 수 있다. 즉, 세그먼트 k에 기재된 키워드의 가중치를 의미하는 W0에 가장 높은 값을 부여하고, W1 부터 Wd까지 순서대로 점점 낮은 수치의 가중치를 부여할 수 있다. 예를 들어, W0에 1의 값을 부여하고, 나머지의 Wi의 값을 0으로 부여한다면, 세그먼트 k의 키워드만 주제어로 선정되는 것이다.
또한, 상기 수학식 1의 Fij는 키워드 j가 위치한 세그먼트 k에서 거리 i만큼 떨어진 세그먼트들에서의 상기 키워드의 빈도를 나타내는 것으로, 세그먼트 k의 이전과 이후로 각각 거리 i만큼씩 떨어진 세그먼트 k-i와 세그먼트 k+i에서의 상기 키워드의 빈도의 합을 나타낸다. 여기서, 세그먼트 k-d와 세그먼트 k+d의 범위는 k-d>=1과 k+d<=m이다. 즉, 세그먼트 k에서 내림차순으로 거리 차 d만큼 떨어진 세그먼트 k-d는 1(처음 세그먼트)보다 크거나 같고, 세그먼트 k에서 오름차순으로 거리 차 d만큼 떨어진 세그먼트 k+d는 전체 세그먼트의 개수 m(마지막 세그먼트)보다 작거나 같게 된다.
한편 이상에서는 세그먼트의 이전과 이후에 나타나는 키워드들을 모두 고려하였지만, 해당 세그먼트의 이전이나 이후의 한쪽 방향의 세그먼트의 키워드만을 고려할 수도 있다. 예를 들어, 세그먼트의 키워드들과 해당 세그먼트의 이전 세그먼트들의 키워드들만을 고려하여 키워드의 중요도를 계산할 수도 있다.
도 4는 본 발명의 일 실시예에 따른 텍스트 색인 방법을 순차 도시한 순서도가 도시되어 있다.
도 4에 도시된 바와 같이, 상기 텍스트 색인 방법은 세그먼트 분할 단계(402), 세그먼트 정보 및 상기 키워드의 빈도수를 추출 단계(404), 세그먼트 인덱스 생성 단계(406) 및 주제어 선정 단계(408)를 포함한다.
먼저, 문서를 복수 개의 세그먼트로 분할한다(402). 이때 세그먼트는 문서의 단락, 페이지, 또는 일정수의 라인 별로 구성할 수 있음은 전술하였다.
다음, 상기 세그먼트로 분할된 문서로부터 복수 개의 키워드, 상기 키워드가 위치하는 세그먼트 정보 및 상기 키워드의 빈도수를 추출한다(404). 이때, 상기 키워드 추출부(102)에서 키워드는 통상의 형태소 분석 방법을 이용해 추출될 수 있다. 또한 상기 빈도수는 각각의 키워드의 상기 문서 내의 각 세그먼트 별 빈도수를 의미한다.
다음, 키워드 추출부(102)에서 추출된 상기 키워드, 세그먼트 정보 및 빈도수를 이용하여, 세그먼트 인덱스 생성부(104)에서 상기 문서에 대한 세그먼트 인덱스를 생성한다(406). 상기 세그먼트 인덱스(300)의 각 행은 상기 문서의 세그먼트이고, 각 열은 상기 추출된 키워드이며, 상기 세그먼트 인덱스(300)의 각 셀은 셀이 위치하는 행에 해당하는 세그먼트에서의 셀이 위치하는 열에 해당하는 키워드의 빈도수를 나타낸다.
다음으로, 상기 세그먼트 인덱스(300)를 이용하여 상기 문서의 특정 세그먼 트의 주제어를 선정한다(408). 상기 주제어 선정 방법에 대해서는 앞에서 상세히 설명하였으므로, 이하에서는 그 상세한 설명을 생략한다.
한편, 본 발명의 실시 예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야에서 통상의 지식을 가진 자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 대표적인 실시 예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시 예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.
그러므로 본 발명의 권리범위는 설명된 실시 예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 일 실시예에 따른 텍스트 색인 장치의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 키워드 추출부를 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 세그먼트 인덱스를 나타낸 단면도이다.
도 4는 본 발명의 일 실시예에 따른 텍스트 색인 장치에서의 텍스트 색인 방법을 순차적으로 도시한 순서도이다.

Claims (13)

  1. 문서를 복수 개의 세그먼트로 나누고, 상기 문서로부터 복수 개의 키워드, 상기 키워드가 위치하는 세그먼트 정보 및 상기 키워드의 빈도수를 추출하는 키워드 추출부;
    상기 키워드 추출부에서 추출된 상기 키워드, 세그먼트 정보 및 빈도수를 이용하여, 상기 문서에 대한 세그먼트 인덱스를 생성하는 세그먼트 인덱스 생성부; 및
    상기 세그먼트 인덱스 생성부에서 생성된 상기 세그먼트 인덱스를 이용하여 상기 문서의 특정 세그먼트에 대한 주제어를 선정하되, 추출된 상기 키워드의 상기 특정 세그먼트에서의 중요도를 계산하고, 계산된 상기 중요도 값이 높은 순서대로 소정 개수의 키워드를 주제어로 선정하는 주제어 계산부를 포함하며,
    상기 키워드의 중요도는, 상기 문서 내 각각의 세그먼트 내에서의 상기 키워드의 빈도 및 상기 각각의 세그먼트와 상기 특정 세그먼트 사이의 거리에 따른 가중치에 의하여 계산되는, 텍스트 색인 장치.
  2. 제1항에 있어서,
    상기 세그먼트 인덱스의 각 행은 상기 문서의 세그먼트이고, 각 열은 상기 추출된 키워드이며, 상기 세그먼트 인덱스의 각 셀은 상기 셀이 위치하는 행에 해당하는 세그먼트에서의 상기 셀이 위치하는 열에 해당하는 키워드의 빈도수인, 텍스트 색인 장치.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 중요도는, 다음의 수학식
    키워드 j의 중요도 = W0*F0j+W1*F1j+W2*F2j+...+Wd*Fdj
    (이때, Wi는 특정 세그먼트에서 거리 i만큼 떨어진 세그먼트의 가중치, Fij는 키워드 j의 상기 특정 세그먼트에서 거리 i만큼 떨어진 세그먼트에서의 빈도)
    에 의해 계산되는, 텍스트 색인 장치.
  5. 제 4 항에 있어서,
    상기 가중치는, 상기 특정 세그먼트부터의 거리에 따라 작아지도록 설정되는, 텍스트 색인 장치.
  6. 제 1 항에 있어서,
    상기 주제어 계산부는
    상기 키워드 추출부에서 추출된 키워드의 빈도수 값이 높은 순서대로 소정 개수의 키워드를 주제어로 선정하는, 텍스트 색인 장치.
  7. 텍스트 색인 장치에서, 문서를 복수 개의 세그먼트로 분할하는 단계;
    상기 텍스트 색인 장치에서, 상기 세그먼트로 분할된 문서로부터 복수 개의 키워드, 상기 키워드가 위치하는 세그먼트 정보 및 상기 키워드의 빈도수를 추출하는 단계;
    상기 텍스트 색인 장치에서, 상기 키워드 추출부에서 추출된 상기 키워드, 세그먼트 정보 및 빈도수를 이용하여, 상기 문서에 대한 세그먼트 인덱스를 생성하는 단계; 및
    상기 텍스트 색인 장치에서, 상기 세그먼트 인덱스 생성부에서 생성된 상기 세그먼트 인덱스를 이용하여 상기 문서의 특정 세그먼트에 대한 주제어를 선정하되, 추출된 키워드의 상기 특정 세그먼트에서의 중요도를 계산하고, 계산된 상기 중요도 값이 높은 순서대로 소정 개수의 키워드를 주제어로 선정하는 단계를 포함하며,
    상기 키워드의 중요도는, 상기 문서 내 각각의 세그먼트 내에서의 상기 키워드의 빈도 및 상기 각각의 세그먼트와 상기 특정 세그먼트 사이의 거리에 따른 가중치에 의하여 계산되는, 텍스트 색인 방법.
  8. 삭제
  9. 삭제
  10. 제 7 항에 있어서,
    상기 텍스트 색인 장치에서, 상기 중요도는, 다음의 수학식
    키워드 j의 중요도 = W0*F0j+W1*F1j+W2*F2j+...+Wd*Fdj
    (이때, Wi는 특정 세그먼트에서 거리 i만큼 떨어진 세그먼트의 가중치, Fij는 키워드 j의 상기 특정 세그먼트에서 거리 i만큼 떨어진 세그먼트에서의 빈도)
    에 의해 계산되는, 텍스트 색인 방법.
  11. 제 10 항에 있어서,
    상기 텍스트 색인 장치에서, 상기 가중치는, 상기 특정 세그먼트부터의 거리에 따라 작아지도록 설정되는, 텍스트 색인 방법.
  12. 제 7 항에 있어서,
    상기 텍스트 색인 장치에서, 상기 주제어를 선정하는 단계는,
    키워드 추출부에서 추출된 키워드의 빈도수 값이 높은 순서대로 소정 개수의 키워드를 주제어로 선정하는, 텍스트 색인 방법.
  13. 제 7 항 또는 제10항 내지 제 12 항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 저장매체.
KR1020090102937A 2009-10-28 2009-10-28 텍스트 색인 장치 및 방법 KR101113787B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090102937A KR101113787B1 (ko) 2009-10-28 2009-10-28 텍스트 색인 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090102937A KR101113787B1 (ko) 2009-10-28 2009-10-28 텍스트 색인 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110046098A KR20110046098A (ko) 2011-05-04
KR101113787B1 true KR101113787B1 (ko) 2012-02-27

Family

ID=44241048

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090102937A KR101113787B1 (ko) 2009-10-28 2009-10-28 텍스트 색인 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101113787B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101780412B1 (ko) 2016-01-29 2017-10-10 (주) 다이퀘스트 비디오 콘텐츠의 장면 단위 키워드 추출장치 및 이를 위한 키워드 가중치 산출장치

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102110523B1 (ko) * 2018-09-28 2020-05-13 배재대학교 산학협력단 문서 분석 기반 주요 요소 추출 시스템 및 방법
KR102285080B1 (ko) * 2019-11-11 2021-08-02 신종화 이슈 발생 예측 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072092A (ko) * 2001-03-08 2002-09-14 서정연 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2004054757A (ja) * 2002-07-23 2004-02-19 Fujitsu Ltd 文書検索方法、文書検索プログラム及び文書検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072092A (ko) * 2001-03-08 2002-09-14 서정연 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP2004054757A (ja) * 2002-07-23 2004-02-19 Fujitsu Ltd 文書検索方法、文書検索プログラム及び文書検索システム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101780412B1 (ko) 2016-01-29 2017-10-10 (주) 다이퀘스트 비디오 콘텐츠의 장면 단위 키워드 추출장치 및 이를 위한 키워드 가중치 산출장치

Also Published As

Publication number Publication date
KR20110046098A (ko) 2011-05-04

Similar Documents

Publication Publication Date Title
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
CN107102981B (zh) 词向量生成方法和装置
KR100898456B1 (ko) 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템
US8812504B2 (en) Keyword presentation apparatus and method
KR100706389B1 (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
JP5510563B2 (ja) 検索プログラム、検索装置、および検索方法
KR101379128B1 (ko) 사전 생성 장치, 사전 생성 방법 및 사전 생성 프로그램을 기억하는 컴퓨터 판독 가능 기록 매체
CN112784009A (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
KR101113787B1 (ko) 텍스트 색인 장치 및 방법
KR101710010B1 (ko) 문서의 상대적 특징을 반영한 문서 요약 방법 및 시스템
KR101793578B1 (ko) 효율적으로 질의를 처리하는 방법 및 장치
JP2008165401A (ja) 文献検索プログラム、文献検索装置、文献検索方法
KR101615164B1 (ko) 엔-그램 기반의 질의 처리 장치 및 그 방법
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP2009175826A (ja) テキスト検索装置、テキスト検索方法、テキスト検索プログラムおよびそのプログラムを記録した記録媒体
JP2008197952A (ja) テキストセグメンテーション方法,その装置,そのプログラムおよびコンピュータ読み取り可能な記録媒体
KR100922693B1 (ko) 인물 검색 시스템 및 방법
KR101363335B1 (ko) 문서 분류모델 생성장치 및 방법
CN105426551A (zh) 文言文搜索方法和装置
JP2009048351A (ja) 情報検索装置、情報検索方法および情報検索プログラム
JP4985096B2 (ja) 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム
JP2007011892A (ja) 語彙獲得方法及び装置及びプログラム及びプログラムを格納した記憶媒体
JP2014235584A (ja) 文書分析システム、文書分析方法およびプログラム
Nawab et al. External plagiarism detection using information retrieval and sequence alignment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160201

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170201

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180130

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190131

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20200120

Year of fee payment: 9