KR100952077B1 - 키워드를 이용한 표제어 선정 장치 및 방법 - Google Patents

키워드를 이용한 표제어 선정 장치 및 방법 Download PDF

Info

Publication number
KR100952077B1
KR100952077B1 KR1020090093134A KR20090093134A KR100952077B1 KR 100952077 B1 KR100952077 B1 KR 100952077B1 KR 1020090093134 A KR1020090093134 A KR 1020090093134A KR 20090093134 A KR20090093134 A KR 20090093134A KR 100952077 B1 KR100952077 B1 KR 100952077B1
Authority
KR
South Korea
Prior art keywords
keyword
heading
headword
vector
cell
Prior art date
Application number
KR1020090093134A
Other languages
English (en)
Inventor
이용규
Original Assignee
동국대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동국대학교 산학협력단 filed Critical 동국대학교 산학협력단
Priority to KR1020090093134A priority Critical patent/KR100952077B1/ko
Application granted granted Critical
Publication of KR100952077B1 publication Critical patent/KR100952077B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Abstract

키워드를 이용한 표제어 선정 장치 및 방법이 개시된다. 본 발명의 실시예에 따른 표제어 선정 장치는, 표제어 데이터베이스에 저장된 각각의 레코드 및 상기 입력받은 제시문으로부터 각각의 레코드 및 제시문에 대응되는 표제어 벡터 및 제시문 벡터를 생성하며, 생성된 표제어 벡터 및 제시문 벡터 간의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 표제어 벡터를 출력하도록 구성된다.

Description

키워드를 이용한 표제어 선정 장치 및 방법{Apparatus and method for choosing entry using keywords}
본 발명의 실시예들은 사용자가 소정의 제시문을 입력하면 그 제시문으로부터 키워드를 추출하고 그 키워드를 이용하여 적절한 표제어를 선정하여 사용자에게 추천해 주는 기술에 관한 것이다.
언어의 학습에 있어서 많은 보조 도구가 필요하며, 그 중에서도 사전류의 도움은 필수적이다. 사전류는 통상적으로 종이 매체로 인쇄되며, 표제어를 알고 있는 경우에 언어에 따라 가나다 순서 또는 알파벳 순서 등으로 기재되어 있는 표제어를 찾으면 그에 따른 해설이 상세히 기재되어 있다.
최근에는 단지 종이 매체로 된 사전류 뿐만 아니라 전자적인 매체로 된 사전류도 많이 등장해 있다. 예를 들어, 휴대형 전자 사전, 컴퓨터를 이용해서 볼 수 있는 전자 사전 등이 있다. 그 중에서도 국어를 예로 들자면, 사전이라 함은 흔히 생각하는 국어 사전 뿐만 아니라 고사성어 사전, 속담 사전 등 여러 가지 형태의 사전이 있을 수 있다. 이 경우 표제어란 국어 사전이나 영어 사전 등의 경우에는 특정의 단어, 고사성어 사전의 경우에는 특정의 고사성어, 속담 사전의 경우에는 특정의 속담이 될 것이다.
그러나 이러한 고사성어 사전 속담 사전 등은 특정 고사성어 또는 속담 등을 알고 있어야 검색이 가능할 뿐, 반대로 특정 상황 또는 특정 의미를 가진 고사성어 또는 속담 등을 검색하여 주는 기능은 가지고 있지 못하다. 따라서 사용자가 표제어(고사성어, 속담 등)를 정확히 알지 못하더라도, 사용자가 소정의 제시문을 제공하면 그 제시문으로부터 추출한 키워드를 이용하여 적절한 표제어를 선정하여 사용자에게 추천하는 기술에 대한 연구가 필요하게 되었다.
본 발명의 실시예들은, 사용자가 표제어(고사성어, 속담 등)를 정확히 알지 못하더라도, 사용자가 소정의 제시문을 제공하면 그 제시문으로부터 추출한 키워드를 이용하여 적절한 표제어를 선정하여 사용자에게 추천하는 장치 및 방법을 제공하고자 한다.
상기 과제를 해결하기 위한 본 발명의 실시예에 따른 표제어 선정 장치는, 표제어 및 상기 표제어에 대한 설명을 포함하는 복수 개의 레코드가 저장되는 표제어 데이터베이스; 사용자로부터 제시문을 입력받는 입력부; 상기 표제어 데이터베이스에 저장된 각각의 레코드를 이용하여 복수 개의 표제어 벡터를 포함하는 표제어 매트릭스를 생성하고, 생성된 상기 표제어 매트릭스의 표제어 벡터를 복수 개의 클러스터로 분할하여 분할된 각각의 클러스터의 중심 벡터 및 평균 벡터를 계산하며, 상기 입력받은 제시문으로부터 키워드를 추출하고 상기 키워드를 이용하여 상기 제시문에 대응되는 제시문 벡터를 생성하는 벡터 변환부; 상기 벡터 변환부에서 생성된 표제어 벡터 및 제시문 벡터 간의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 소정 개수의 표제어 벡터를 선택하는 유사도 계산부; 및 상기 유사도 계산부에서 선택된 표제어 벡터에 대응되는 표제어를 상기 표제어 데이터베이스에서 추출하여 출력하는 디스플레이부;를 포함한다.
또한 상기 과제를 해결하기 위한 본 발명의 실시예에 따른 표제어 선정 장치 를 이용한 표제어 선정 방법은, 상기 표제어 선정 장치에서, 표제어 데이터베이스에 저장된 각각의 레코드를 이용하여 복수 개의 표제어 벡터를 포함하는 표제어 매트릭스를 생성하는 단계; 생성된 상기 표제어 매트릭스의 표제어 벡터를 복수 개의 클러스터로 분할하고, 분할된 각각의 클러스터의 중심 벡터 및 평균 벡터를 계산하는 단계; 상기 표제어 선정 장치에서, 사용자로부터 제시문을 입력받는 단계; 상기 표제어 선정 장치에서, 상기 입력받은 제시문으로부터 키워드를 추출하고, 상기 키워드를 이용하여 상기 제시문에 대응되는 제시문 벡터를 생성하는 단계; 상기 표제어 선정 장치에서, 상기 표제어 벡터 및 제시문 벡터 간의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 소정 개수의 표제어 벡터를 선택하는 단계; 및 상기 표제어 선정 장치에서, 상기 표제어 벡터 선택 단계에서 선택된 표제어 벡터에 대응되는 표제어를 상기 표제어 데이터베이스에서 추출하여 출력하는 단계;를 포함한다.
본 발명의 실시예에 따르면, 사용자가 표제어(고사성어, 속담 등)를 정확히 알지 못하더라도, 사용자가 소정의 제시문을 제시하면 그 제시문을 이용하여 키워드를 추출하고 그 키워드를 이용하여 적절한 표제어를 선정하여 사용자에게 제시하므로, 편의성이 증대되고, 또한 본 발명의 실시예에 따라 적절히 데이터베이스의 필드, 배열, 유사도 등을 처리하므로 검색의 효율성 및 정확성이 증대된다.
이하, 도면을 참조하여 본 발명의 구체적인 실시형태를 설명하기로 한다. 그러나 이는 예시에 불과하며 본 발명은 이에 제한되지 않는다.
본 발명을 설명함에 있어서, 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술하는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명의 기술적 사상은 청구범위에 의해 결정되며, 이하의 실시예는 본 발명의 기술적 사상을 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 일 수단일 뿐이다.
도 1은 본 발명의 일 실시예에 따른 표제어 선정 장치(100)의 구성도이다.
도시된 바와 같이, 본 발명의 일 실시예에 따른 표제어 선정 장치(100)는 표제어 데이터베이스(102), 입력부(104), 디스플레이부(106), 벡터 변환부(108), 키워드 데이터베이스(110), 유사도 계산부(112)를 포함한다.
본 발명의 일 실시예에 따른 표제어 선정 장치(100)는 예를 들어, 고사성어/속담 사전의 표제어를 추천하는 장치일 수 있다. 즉, 사용자가 소정의 제시문을 제시하면 그 제시문으로부터 추출한 키워드와 고사성어/속담 사전의 설명을 비교하여 가장 유사도가 높은 고사성어/속담을 추천하게 된다. 이는 전자적 단말기를 통해 구현될 수 있으며, 이 전자적 단말기는 또한 여러 가지 형태로 구현될 수 있다. 가장 흔한 것은 통상의 전자 사전과 같은 정도의 작은 전자 디바이스이다. 또한, PC상에서 실행되는 소프트웨어로 구현될 수도 있음은 물론이다. 또는, 네트워크상의 서버에 구현되어 네트워크를 통해 정보를 주고 받을 수도 있다.
고사성어/속담이라 함은 '표제어'의 일 예이다. 이하에서는 고사성어/속담(또는 간략히 고사성어)을 이용하여 표제어를 구성한 예에 대해서 주로 설명하였으나, 이 외에도 통상적인 영어사전, 국어사전 등, 다시 말해 영어 단어 또는 국어 단어가 표제어가 되는 경우에도 본 발명의 실시예들이 동일하게 적용 가능함은 자명하다.
도 1에 나타난 표제어 선정 장치(100)는 하나의 장치일 수도 있으며, 또는 입력부(102), 처리부(104) 및 디스플레이부(108)가 사용자 단말을 구성하고, 메모리부(106)는 상기 사용자 단말과 네트워크를 통하여 연결된 서버 상에 설치될 수도 있다. 이 경우 처리부(104)와 메모리부(106) 사이의 정보 교환은 네트워크를 통해 이루어질 수 있다.
표제어 데이터베이스(102)는 표제어 및 상기 표제어에 대한 설명을 포함하는 복수 개의 레코드가 저장되는 데이터베이스이다. 만약 고사성어를 이용하여 표제어를 구성할 경우, 상기 표제어 데이터베이스의 각 레코드는 고사성어 필드, 고사성어의 의미 필드를 포함하여 구성될 수 있다. 표제어 데이터베이스(102)의 구성에 대해서는 도 2에서 좀 더 상세히 설명한다.
입력부(104)는 예를 들어, 키보드와 같은 형태를 가질 수 있다. 디스플레이부(106)는 입력되는 문구 및 출력되는 문구를 시각적으로 확인할 수 있게 하며, 예 를 들어 모니터 등으로 구성될 수 있다. 표제어 선정 장치(100)는 이러한 입력부(106)를 이용하여 사용자로부터 제시문을 입력받으며, 상기 제시문을 이용하여 선택된 표제어를 디스플레이부(106)를 통하여 출력한다.
벡터 변환부(108)는 표제어 데이터베이스(102)에 저장된 각각의 레코드 및 입력부(104)로부터 입력받은 제시문으로부터 상기 레코드 및 상기 제시문 각각에 대응되는 키워드를 추출하고, 상기 추출된 키워드로부터 상기 각각의 레코드 및 제시문에 대응되는 표제어 벡터 및 제시문 벡터를 생성한다. 상기 표제어 벡터 및 제시문 벡터의 생성을 위하여 표제어 선정 장치(100)는 별도의 키워드 데이터베이스(108)를 포함할 수 있다. 키워드 데이터베이스(108)는 표제어 데이터베이스(102)에서 추출된 키워드를 이용하여 구성된 데이터베이스로서, 각각의 키워드들의 순서를 나타낸다. 벡터 변환부(108)에서의 벡터 생성 과정에 대해서는 도 4에서 상세히 설명한다.
유사도 계산부(112)는 벡터 변환부(108)에서 생성된 표제어 벡터 및 제시문 벡터 간의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 소정 개수의 표제어 벡터를 선택한다. 유사도 계산부(112)에서의 표제어 벡터 선택 과정은 도 5에서 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 표제어 데이터베이스(102)의 상세 구성을 나타낸 도면으로서, 고사성어를 이용하여 표제어 데이터베이스(102)를 구성한 실시예를 나타내었다.
도시된 바와 같이, 본 발명의 일 실시예에 따른 표제어 데이터베이스(102)는 고사성어가 저장된 복수 개의 레코드를 포함하여 구성될 수 있으며, 각각의 레코드는 (고사성어 ID, 고사성어, 고사성어 설명)을 포함하는 복수 개의 필드로 구성될 수 있다. 이때 상기 레코드의 표제어는 '고사성어'가 될 수 있으며, 상기 '고사성어 설명' 필드는 상기 표제어에 대한 설명이 될 수 있다. 이러한 필드의 구성은 기능의 변화 또는 추가에 따라서 적절히 변형될 수 있음은 물론이다. 본 사전에는 총 m개의 표제어 및 각각의 표제어에 대한 설명이 포함되어 있다고 가정한다.
도 3은 본 발명의 일 실시예에 따른 키워드 데이터베이스(110)을 나타낸 도면이다.
도 2에 도시된 표제어 데이터베이스(102)와 마찬가지로, 본 발명의 일 실시예에 따른 키워드 데이터베이스(300)는 표제어 데이터베이스(102)의 각 레코드로부터 추출된 키워드가 저장된 복수 개의 레코드를 포함하여 구성되며, 각각의 레코드는 (키워드 ID, 키워드)를 포함하는 복수 개의 필드로 구성될 수 있다. 상기 키워드 ID는 각각의 키워드들을 구분하기 위한 구분자이다. 본 고사성어 키워드 사전(300)에는 총 n개의 키워드가 포함되어 있다고 가정한다.
도 4는 본 발명의 일 실시예에 따른 표제어 선정 장치(100)에서의 표제어 벡터 생성 방법(400)을 나타낸 순서도이다.
먼저, 표제어 데이터베이스(102)의 각 레코드로부터 키워드 및 각 키워드의 빈도수를 추출한다(402). 상기 키워드는 표제어 데이터베이스(102)의 표제어 및 표제어 설명 항목으로부터 추출될 수 있다. 예를 들어, 상기 고사성어 데이터베이스의 경우, 고사성어 필드 및 고사성어 설명 필드에서 키워드가 추출될 수 있다. 만약 표제어가 "각골난망"인 레코드에서 키워드를 추출할 경우 추출된 키워드는 예를 들어 "각골"(1회), "난망"(1회), "은덕"(1회), "고마움"(1회), "마음"(1회) 등이 될 수 있다(괄호 안은 빈도수).
본 실시예에서는 상기 추출된 키워드 및 빈도수만으로 표제어 벡터를 생성할 수도 있다. 그러나 상기 표제어 및 표제어의 설명에서 추출된 키워드는 그 개수가 매우 적으므로, 이들만으로 벡터를 구성하여 벡터간의 유사도를 계산하는 것은 효과적이지 못하고, 특정 키워드의 존재 여부에 따라 유사도가 결정되므로 키워드에 의한 불리언(AND, OR) 검색과 별 차이가 없게 된다. 따라서 상기 추출된 키워드를 이용한 키워드의 확장이 필요하다.
키워드 확장을 위하여, 먼저 문헌 검색을 통하여 관련어 매트릭스(R)을 구성한다(404). 상기 관련어 매트릭스(R)의 형태는 다음의 표 1과 같으며, 매트릭스(R)의 각 행은 상기 표제어를, 각 열은 표제어 데이터베이스(102)에서 추출된 키워드 및 상기 문헌으로부터 추출된 키워드를 나타내고, 각 셀은 특정 표제어가 특정 키워드와 동일한 문헌에서 사용된 수를 나타낸다. 예를 들어, "각골난망"이라는 표제어와 "은혜"라는 키워드가 동시에 나타나는 문헌의 수가 5개일 경우 해당 셀의 값은 5가 된다. 상기 문헌은 인터넷상의 웹 페이지, 문헌 데이터베이스 또는 서적 등이 될 수 있다. 전술한 바와 같이 상기 매트릭스(R)의 키워드들은 상기 표제어 및 상기 표제어의 설명으로부터 추출된 키워드를 모두 포함하며, 문헌 검색을 통하여 표제어의 설명에 없는 키워드 등의 추가도 가능하다. 상기 예에서, "은혜"는 "각골난망"의 설명에는 없는 키워드이나, "은혜"와 "각골난망"이 동시에 사용된 문헌이 있을 경우 "은혜"를 "각골난망" 표제어의 키워드로 추가할 수 있다.
매트릭스 R 키워드1 키워드2 키워드3 키워드4 ...
표제어1 5 3 1 2 ...
표제어2 0 4 0 3 ...
표제어3 0 0 2 0 ...
표제어4 2 1 4 2 ...
... ... ... ... ... ...
다음으로, 상기 매트릭스(R)에서 표제어 i에 대한 키워드 j의 관련도 F(i, j)를 다음의 수학식 1을 이용하여 계산한다(406). 상기 관련도는 0에서 1 사이의 값을 가지며, 1에 가까울수록 표제어와 관련성이 높은 키워드임을 나타낸다.
Figure 112009060297175-pat00001
이때, R(i, j)는 매트릭스(R)의 각 셀의 값, max{R(i)}는 i행에서의 셀의 최대값이다.
한편, 상기 관련도는 온톨로지(onthology)를 이용하여 계산될 수도 있다. 온톨로지는 용어들간의 관련성(isA 관계)를 계층구조(hierarchy)로 나타내므로 온톨로지에서 용어간의 거리를 관련도로 사용할 수 있다. 즉, 상기 매트릭스(R)의 표제어와 키워드들을 이용하여 트리 또는 그래프 형태의 온톨로지를 구성하고, 상기 온톨로지의 계층구조에서 isA 관계를 거리 1로 계산하면 용어들 간의 거리를 계산할 수 있다. 즉, 트리 또는 그래프의 노드들을 연결하는 간선(edge)을 거리 1로 해석하여 거리를 계산한다. 예를 들어 두 개의 용어들이 온톨로지 내에서 간선 5개로 연결된다면, 두 용어간의 거리는 5가 된다. 또는, isA 관계를 이루는 용어간의 의미상의 차이를 온톨로지에 표현하여 거리를 계산할 수도 있다. 이때는 isA 관계를 나타내는 간선의 차이 값이 1이 아닌 양의 실수 값이 될 수 있다. 예를 들어, 도 5에 예시된 온톨로지에서는 용어간의 의미상의 차이를 간선에 나타내고 있으며, 이 예에서 “마음”과 “은덕”간의 거리는 1.5가 된다.
온톨로지를 이용한 관련도 계산식은 다음의 수학식 2와 같다.
Figure 112009060297175-pat00002
이때, O(i, j)는 온톨로지 계층구조에서 표제어 i와 키워드 j 간의 거리, max{O(i)}는 온톨로지 계층구조에서 표제어 i와 키워드들 간의 최대 거리이다.
상기 수학식은 온톨로지에 모든 표제어와 모든 키워드들이 함께 나타나는 것을 전제로 한 것이다. 그러나 만일 온톨로지에 모든 키워드들은 나타나지만 키워드들의 조합으로 구성되는 표제어는 존재하지 않는다면, 표제어 i를 구성하는 키워드들을 추출하고, O(i, j)는 온톨로지 계층구조에서 표제어 i의 키워드들과 키워드 j의 평균거리를 사용하고, max{O(i)}는 표제어 i의 키워드들과 다른 키워드와의 평균거리의 최대값을 사용할 수 있다.
상기 406 단계에서 키워드별 관련도가 계산되면 다음으로 키워드 벡터의 생성을 위하여 관련어 매트릭스(R)에 포함된 키워드들을 분류한다(408). 상기 키워드는 각 표제어마다 다음의 3개의 그룹으로 분류된다.
- 그룹 A : 해당 표제어에 포함된 키워드들
- 그룹 B : 해당 표제어의 설명에 사용된 키워드들
- 그룹 C : 해당 표제어에 또는 표제어 설명에 사용되지 않은 관련어로 확장된 키워드들
각 표제어마다 독자적인 그룹 A, 그룹 B, 그룹 C를 갖게 된다. 상기 예에서, 표제어가 "각골난망"인 레코드에서 추출된 키워드 중, "각골"과 "난망"은 표제어에 포함된 키워드이므로 그룹 A에, "은덕", "고마움", "마음"은 표제어의 설명에 사용된 키워드이므로 그룹 B에 포함되며, 만약 관련어 매트릭스(R) 생성 과정에서 문헌 검색에 의하여 "은혜", "감사", "뼈" 등의 키워드로 키워드 확장이 이루어진 경우, 상기 "은혜", "감사", "뼈"는 그룹 C에 포함되게 된다.
상기 키워드 분류가 완료되면, 다음으로 상기 관련어 매트릭스(R)에 포함된 키워드 및 각각의 키워드의 빈도수 또는 관련도 정보를 이용하여 m×n(m은 표제어의 수, n은 키워드의 총 수) 크기의 표제어 매트릭스(M)를 구성한다(410). 상기 표제어 매트릭스(M)의 각 행은 각각 하나의 표제어를 나타내며, 각 열은 상기 표제어에 포함되는 키워드들로서, 실질적으로 표제어 매트릭스(M)은 관련어 매트릭스(R)와 동일한 형태를 가진다. 상기 표제어 매트릭스(M)의 각 셀의 값은 다음과 같이 정해진다.
- 그룹 A에 속하는 키워드 : M(i, j) = 해당 키워드의 빈도수 × w1
그룹 A에 속하는 키워드는 표제어를 구성하는 키워드이므로, 대부분의 빈도수 값은 1로 나타난다.
- 그룹 B에 속하는 키워드 : M(i, j) = 해당 키워드의 빈도수 × w2
그룹 B에 속하는 키워드는 전술한 바와 같이 표제어의 설명을 구성하는 키 워드이므로, 상기 식에서의 빈도수는 상기 표제어 설명에서 해당 키워드가 등장하는 회수이다.
- 그룹 C에 속하는 키워드 : M(i, j) = F(i, j) × w3
그룹 C에 속하는 키워드는 상기 표제어 또는 표제어의 설명에는 포함되지 않으나 문헌 검색에 의하여 관련어로 확장된 키워드이다. 본 그룹의 키워드들의 값은 기 산출된 관련도 값으로부터 정해진다.
상기 식에서, w1, w2, w3는 조정계수로서 일반적으로 w1 ≥ w2 ≥ w3 의 관계를 가진다. 즉 그룹 A의 가중치를 높이기 위하여 w1의 값을 가장 크게 하고, 확장된 키워드의 가중치인 w3의 값을 가장 작게 정한다.
상기 예에서, w1 = 5, w2 = 3, w3 = 2로 가정할 경우, A 그룹에 속하는 키워드 "각골" 및 "난망"의 빈도수는 각각 1이므로 해당 키워드의 상기 표제어 매트릭스(M)에서의 값은 각각 5가 된다. 또한 B 그룹에 속하는 "은덕", "고마움", "마음"의 빈도수 또한 각각 1이므로 이들의 값은 각각 3이 된다. 마지막으로 C 그룹에 속하는 "은혜", "감사", "뼈"의 관련도를 각각 0.8, 0.5, 0.2라 하면, 해당 키워드들의 값은 각각 1.6, 1.0, 0.4가 된다.
상기 단계를 거쳐 생성된 표제어 매트릭스(M)의 각 행은 각각의 표제어들과 대응되는 m 개의 표제어 벡터를 구성하게 된다.
상기 표제어 매트릭스(M) 생성 단계가 완료되면, 다음으로 상기 표제어 매트릭스(M)에 포함된 m 개의 표제어 벡터를 k개의 클러스터들(k < m)로 나눈다(412). 즉 표제어 데이터베이스(102)에 기재된 레코드들을 k 개의 집단으로 나눈다. 이때 k 값은 적정한 그룹의 수로 사전에 설정한다. 상기 표제어 벡터들을 복수 개(k개)의 소집단으로 나누고 각 클러스터의 중심점을 구하는 방법으로서, 예를 들어 k-means 클러스터링을 이용할 수 있으며, 클러스터의 중심점으로부터 클러스터 내 다른 점들간의 유클리디언 거리의 평균이 최소가 되도록 그룹으로 묶을 수 있다. 이때, 클러스터를 구하는 방법으로 유클리디언 거리공식 외에 맨하탄 거리공식 또는 코사인 공식 등을 사용할 수도 있다. 그러나, 본 발명의 실시에 있어 클러스터의 지정 방식은 특정 방법에 제한되지 않으며, 여러 가지 기준으로 행해질 수 있다.
여기서 표제어 벡터들을 k개의 유사집단(클러스터)으로 구분하는 것은 제시문을 통한 표제어 검색 시 데이터베이스의 모든 레코드들과 비교하여 검색하지 않고 먼저 가장 유사한 클러스터를 찾아내고 찾아낸 클러스터 내의 레코드들과 비교하여 검색하기 위한 것이다. 즉, 사전에 클러스터를 구성하는 노력이 들지만, 표제어의 검색을 빨리 할 수 있는 장점이 있다.
다음으로, 생성된 각 클러스터의 중심점(중심 벡터) 및 평균 벡터를 계산한다(414). 각 클러스터의 중심점은 전술한 바와 같이, 예를 들어 k-means 클러스터 구성 방법을 사용하여 클러스터와 함께 구할 수 있다. 즉, 상기 412 단계와 414 단계는 동시에 수행될 수 있다. 클러스터의 중심점(중심 벡터)이란, 클러스터 구성에 사용되는 공식에 따라, 유클리디언 공식과 맨하탄 공식에서는 클러스터 내의 다른 모든 점들과의 평균거리가 최소가 되는 점(point)이고, 코사인 공식에서는 평균 유사도가 가장 높은 점이 된다.
유클리디언 거리 공식이란 다차원 공간에서 두 점 간의 거리를 구하는 것으로서, 이 거리는 자로 측정한 거리의 일종이다. 두 점을 (p1, p2, p3, p4,...)와 (q1, q2, q3, q4, ...)로 표기한 경우 유클리디안 거리 공식은 아래와 같다.
Figure 112009060297175-pat00003
한편, 맨하탄 거리 공식은, 두 점 A,B를 A(p1, p2, p3 ... pn), B(q1, q2, q3 ... qn)이라고 정의했을 때
Figure 112009060297175-pat00004
와 같이 나타낸다.
마지막으로, 코사인 공식은 벡터 간의 코사인 값을 구하여 벡터 간의 유사도를 구하는 식이다. 이때 계산된 코사인 값이 클수록 높은 유사도를 가진다. 코사인 공식은 두 점 A,B를 A(p1, p2, p3 ... pn), B(q1, q2, q3 ... qn)이라고 정의했을 때
Figure 112009060297175-pat00005
와 같다.
다만 이들은 두 벡터간의 유사도를 나타내는 방식의 예시일 뿐이며 다른 임의의 유사도 산출 방식을 사용하여도 좋다.
또한, 클러스터의 평균 벡터는 각 클러스터의 벡터들의 합을 구한 후 클러스터의 크기로 나눔으로써 얻을 수 있다. 클러스터의 중심점과 유사도가 적은 점들은 어느 클러스터에 속하는지 중심점만의 비교만으로는 부족할 수가 있으므로, 클러스터의 평균 벡터도 함께 사용하여 더 용이하게 공간상의 특정 점이 속하는 정확한 클러스터를 찾도록 한다. 클러스터의 중심 벡터는 클러스터 내의 벡터들의 평균값으로 구할 수 있으므로 클러스터 구성 보다 매우 적은 노력으로 구할 수 있다.
이후의 레코드의 검색에 있어서는 전술한 클러스터의 중심점(중심점 벡터)과 함께 평균 벡터를 이용한다.
위와 같은 과정(즉, 단계 402 내지 단계 414)으로서 표제어 선정 장치(100)에서의 기본 설정이 행해진다. 이 과정들은 본 발명의 표제어 선정 장치(100)의 일 실시예의 기본적인 설정에 해당하므로 본 발명의 실시예에 따른 기능이 발휘되는 한도 내에서라면, 도 4에 기재된 순서에 한정될 필요는 없음을 유의하여야 한다.
도 6은 본 발명의 실시예에 따른 표제어 선정 장치(100)의 표제어 선정 방법(600)을 나타낸 순서도이다.
도 6에 도시된 표제어 선정 방법(600)은 상기 도 4에 기재된 벡터 생성 방법(600)이 수행된 이후에 실행된다. 즉, 표제어 선정 방법(600)이 수행되기 위해서는 먼저 표제어 매트릭스 및 표제어 벡터가 생성되고 생성된 표제어 벡터들이 클러스터링 되어 있음을 전제로 한다.
먼저, 사용자로부터 제시문을 입력받는다(602). 사용자의 입력이라 함은, 사용자가 소정의 고사성어(또는 속담)을 찾기 위하여 제시하는 제시문으로서, 문장이나 문단 또는 문서일 수 있다.
다음으로, 사용자의 제시문에서 키워드들을 추출하여 제시문 벡터를 생성한다(604). 제시문 벡터란, 사용자의 제시문에 나타나는 키워드들을 벡터로 표시한 것이다. 이 벡터는 표제어 벡터와 동일하게 n개의 원소를 갖는 1차원 배열이며, B[b1, b2, b3, ..., bn]과 같이 나타낼 수 있다(n은 키워드의 수이고, 원소는 키워드의 빈도이다).
다음으로, 상기 604 단계에서 생성된 제시문 벡터의 각 원소 값에 각 클러스터의 중심벡터 및 평균벡터와의 비교를 위한 가중치를 부여한다(606). 즉, 상기 표제어 벡터와 마찬가지로 키워드 중 표제어 또는 표제어 설명에 해당하는 키워드들은 확장된 키워드들보다 가중치를 높게 부여할 수 있다. 상기 가중치 부여 단계는 다음과 같이 수행될 수 있다.
먼저, 표제어 데이터베이스의 전체 키워드들에 대하여 표제어 키워드, 표제어 설명 키워드, 확장 키워드와 어느 곳에도 해당되지 않는 키워드를 구분하기 위하여 표제어 데이터베이스의 구분벡터를 생성한다.
예를 들어, 표제어 데이터베이스의 구분벡터는
(1, 2, 2, 3, 1, …) (이때, 1:표제어, 2:설명, 3:확장)
과 같이 생성될 수 있다. 이때 벡터의 원소값이 1이면 해당 위치의 키워드 가 표제어 데이터베이스에서 표제어의 키워드로서 사용된 것이고, 2이면 표제어의 키워드로는 사용되지 않았으나 표제어의 설명에서 사용된 것이며, 3이면 표제어나 표제어 설명에서도 사용되지 않은 확장된 키워드인 것을 나타낸다.
상기 구분벡터를 보면 표제어 데이터베이스의 모든 표제어 키워드, 모든 설명 키워드, 모든 확장 키워드 그리고 관련 없는 키워드를 구분할 수 있다.
다음으로, 상기 표제어 데이터베이스의 구분 벡터를 이용하여 키워드를 다음과 같이 구분한다.
- 모든 표제어 키워드 : 그룹 D
- 모든 표제어에는 사용되지 않았으나 모든 표제어 설명에 사용된 키워드 : 그룹 E
- 모든 표제어와 모든 표제어 설명에 사용되지 않은 확장된 키워드 : 그룹 E
다음으로, 상기 제시문 벡터의 각 원소에 다음과 같이 가중치를 부여한다.
- 그룹 D에 속하는 키워드 : 각 원소에 가중치 w4를 곱한다..
- 그룹 E에 속하는 키워드 : 각 원소에 가중치 w5를 곱한다.
- 그룹 F에 속하는 키워드 : 각 원소에 가중치 w6을 곱한다.
상기 w4, w5, w6은 조정계수로 사전에 설정되는 값이며, 각 그룹마다 가중치의 값을 달리할 수 있고 일반적으로 w4≥w≥w6의 관계를 가진다.
다음으로, 상기와 같은 표제어 데이터베이스의 키워드 그룹에 의해 가중치가 부여된 제시문 벡터와 408 단계에서 생성된 각 클러스터(즉, 클러스터 1~클러스터 k) 와의 유사도를 비교한다(608). 상기 유사도 비교는 각 클러스터의 중심벡터 또는 평균벡터와 상기 가중치가 부여된 제시문 벡터 간에 클러스터 구성에 사용된 유사도 공식을 사용하여 수행될 수 있다. 예를 들어, 유클리디언 공식에 의해 클러스터가 구성되었으면 유클리디언 공식을 사용하고, 코사인 공식에 의해 클러스터가 구성되었으면 코사인 공식을 사용할 수 있다.
다음으로, 상기 클러스터들 중에서 유사도가 가장 높은 클러스터를 선택하고(610), 선택된 클러스터 내의 표제어 벡터들과 제시문 벡터와의 유사도를 비교하기 위하여 상기 604 단계에서 생성된 제시문 벡터의 각 원소 값에 다시 가중치를 부여한다(612). 즉, 본 단계에서의 가중치는 선택된 클러스터 내의 표제어 벡터들과의 비교를 위한 가중치이다. 상기 표제어 벡터와 마찬가지로, 키워드 중 선택된 클러스터의 표제어 또는 표제어 설명에 해당하는 키워드들은 다른 키워드들보다 가중치를 높게 부여할 수 있다. 상기 가중치 부여 단계는 다음과 같이 수행될 수 있다.
먼저, 각 클러스터에 대하여 해당 클러스터의 표제어 키워드, 표제어 설명 키워드, 확장 키워드와 이들 중 어느 곳에도 해당되지 않는 기타 키워드를 구분하 기 위하여 클러스터마다 구분벡터를 생성한다.
예를 들어, 클러스터의 중심 또는 평균 벡터가 (3.5, 0, 1.2, 0.4, 0, …)과 같이 구성된다고 가정할 때, 클러스터의 구분벡터는
(1, 0, 2, 3, 0, …) (이때, 1:표제어, 2:설명, 3:확장, 0:해당없음)
과 같이 생성될 수 있다.
상기 구분벡터를 보면 클러스터의 모든 표제어 키워드, 모든 설명 키워드, 모든 확장 키워드 그리고 관련 없는 키워드를 구분할 수 있다.
다음으로, 상기 클러스터의 구분 벡터를 이용하여 키워드를 다음과 같이 구분한다.
- 해당 클러스터의 모든 표제어 키워드 : 그룹 G
- 해당 클러스터의 모든 표제어에는 사용되지 않았으나 설명에 사용된 키워드 : 그룹 H
- 해당 클러스터를 구성하는 표제어 벡터들의 표제어와 설명에 사용되지 않은 해당 클러스터의 확장된 키워드 : 그룹 I
- 기타 키워드 : 그룹 J
다음으로, 상기 제시문 벡터의 각 원소에 다음과 같이 가중치를 부여한다.
- 그룹 G에 속하는 키워드 : 각 원소에 가중치 w7을 곱한다..
- 그룹 H에 속하는 키워드 : 각 원소에 가중치 w8을 곱한다.
- 그룹 I에 속하는 키워드 : 각 원소에 가중치 w9를 곱한다.
- 그룹 J에 속하는 키워드 : 각 원소에 가중치 w10을 곱한다.
상기 w7, w8, w9 , w10은 조정계수로 사전에 설정되는 값이며, 일반적으로 w7≥ w8≥w9≥w10의 관계를 가진다.
다음으로, 선택된 클러스터 내의 표제어 벡터들과 상기 612 단계에 의해 가중치가 부여된 제시문 벡터와의 유사도를 비교하여 유사도가 높은 순서로 표제어 벡터들에 랭킹을 부여한다(614). 이때에도 역시 유사도 비교를 위하여 각 표제어 벡터들과 상기 가중치가 부여된 제시문 벡터 간의 유클리디언, 맨하탄 공식에 따른 거리 또는 코사인 공식에 따른 두 점간의 코사인 값을 이용할 수 있다. 다만 상기 608 단계에서 유사도 비교에 유클리디언 공식을 사용하였다고 하여 본 단계에서도 동일하게 유클리디언 공식을 사용해야 하는 것은 아니며, 필요에 따라 상기 공식들 중 하나 또는 벡터간의 유사도를 구하기 위한 다른 공식들을 자유롭게 사용할 수 있다.
예를 들어, 클러스터의 구성과 클러스터의 검색에서는 유클리디언 공식을 사용하고, 클러스터가 선택된 후 클러스터 내의 표제어 벡터와의 비교에 의한 랭킹 부여에서도 유클리디언 공식을 사용할 수 있지만, 이때 유클리디언 공식 대신에 코사인 공식을 사용할 수도 있다. 맨하탄 공식보다는 유클리디언 공식이, 유클리디언 공식보다는 코사인 공식의 계산식이 더 복잡하므로 계산시간이 더 걸리게 된다. 따라서 전체 표제어 벡터들과의 코사인 공식에 의한 비교보다는 클러스터의 구성과 검색은 유클리디언 공식으로 하고, 클러스터 내의 벡터들과의 비교는 코사인 공식으로 하는 것이 시간이 덜 걸리게 된다.
다음으로, 상기 614 단계에서 계산된 유사도 순위(랭킹)에 따라 유사도가 높은 순서대로 소정 개수의 표제어 벡터를 선택하고(616), 상기 표제어 벡터에 대응하는 레코드(고사성어/속담)들을 표제어 데이터베이스(102)에 추출하여 출력한다(618).
한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램을 포함하는 컴퓨터 판독가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 플로피 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명 령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.
이상에서 대표적인 실시예를 통하여 본 발명에 대하여 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시 예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다.
그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
도 1은 본 발명의 일 실시예에 따른 표제어 선정 장치(100)의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 표제어 데이터베이스(102)의 상세 구성을 나타낸 도면이다.
도 3은 본 발명의 일 실시예에 따른 고사성어 키워드 데이터베이스(102)을 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 표제어 선정 장치(100)에서의 표제어 벡터 생성 방법(400)을 나타낸 순서도이다.
도 5는 본 발명의 일 실시예에 있어 용어간의 거리를 구하기 위한 온톨로지의 예이다.
도 6은 본 발명의 실시예에 따른 표제어 선정 장치(100)의 표제어 선정 방법(600)을 나타낸 순서도이다.

Claims (20)

  1. 표제어 및 상기 표제어에 대한 설명을 포함하는 복수 개의 레코드가 저장되는 표제어 데이터베이스;
    사용자로부터 제시문을 입력받는 입력부;
    상기 표제어 데이터베이스에 저장된 각각의 레코드를 이용하여 복수 개의 표제어 벡터를 포함하는 표제어 매트릭스를 생성하고, 생성된 상기 표제어 매트릭스의 표제어 벡터를 복수 개의 클러스터로 분할하여 분할된 각각의 클러스터의 중심 벡터 및 평균 벡터를 계산하며, 상기 입력받은 제시문으로부터 키워드를 추출하고 상기 키워드를 이용하여 상기 제시문에 대응되는 제시문 벡터를 생성하는 벡터 변환부;
    상기 벡터 변환부에서 생성된 표제어 벡터 및 제시문 벡터 간의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 소정 개수의 표제어 벡터를 선택하는 유사도 계산부; 및
    상기 유사도 계산부에서 선택된 표제어 벡터에 대응되는 표제어를 상기 표제어 데이터베이스에서 추출하여 출력하는 디스플레이부;
    를 포함하는 표제어 선정 장치.
  2. 제1항에 있어서,
    상기 벡터 변환부는,
    상기 표제어 데이터베이스의 각 레코드에 포함된 표제어 및 상기 표제어에 대한 설명으로부터 키워드 및 각 키워드의 빈도수를 추출하고, 상기 표제어를 포함하는 문헌을 검색하여 상기 표제어와 동일한 문헌에서 사용된 단어를 상기 키워드에 추가하고, 추가된 단어가 상기 표제어와 동일한 문헌에서 사용된 회수를 계산하며, 상기 키워드의 상기 표제어와의 관련도를 계산하고, 상기 키워드의 빈도수 및 관련도를 이용하여 상기 표제어 매트릭스의 각 셀의 값을 계산하는, 표제어 선정 장치.
  3. 제2항에 있어서,
    상기 키워드의 상기 표제어와의 관련도는, 다음의 수학식
    Figure 112009060297175-pat00006
    (이때, F(i, j)는 i번째 표제어와 j번째 키워드와의 관련도, R(i, j)는 i번째 표제어와 j 번째 키워드의 동시 사용 문헌의 빈도수, max{R(i)}는 i 번째 표제어에서의 빈도수의 최대값)
    에 의하여 계산되는, 표제어 선정 장치.
  4. 제2항에 있어서,
    상기 키워드의 상기 표제어와의 관련도는, 다음의 수학식
    Figure 112009060297175-pat00007
    (이때, F(i, j)는 i번째 표제어와 j번째 키워드와의 관련도, O(i, j)는 상기 표제어와 상기 키워드를 포함하는 온톨로지 계층구조에서의 i번째 표제어와 j번째 키워드간의 거리, max{O(i)}는 i 번째 표제어에서의 온톨로지에서의 거리의 최대값)
    에 의하여 계산되는, 표제어 선정 장치.
  5. 제2항에 있어서,
    상기 벡터 변환부는, 상기 키워드들을 상기 표제어에 포함된 키워드 그룹, 상기 표제어의 설명에 사용된 키워드 그룹, 및 문헌 검색에 의하여 확장된 키워드 그룹으로 분류하고 각각의 그룹에 속한 키워드들의 빈도수 또는 관련도 값에 기 설정된 조정계수를 적용하여 각 셀의 값을 계산하는, 표제어 선정 장치.
  6. 제5항에 있어서,
    상기 벡터 변환부는,
    해당 셀의 키워드가 상기 표제어로부터 추출된 키워드일 경우, 해당 키워드의 상기 표제어에서의 빈도수에 제 1 조정계수(w1)를 곱하여 해당 셀의 값을 계산하 고,
    해당 셀의 키워드가 상기 표제어의 설명으로부터 추출된 키워드일 경우, 해당 키워드의 상기 표제어에서의 빈도수에 제 2 조정계수(w2)를 곱하여 해당 셀의 값을 계산하며,
    해당 셀의 키워드가 상기 표제어와 동일한 문헌에서 사용된 확장된 키워드일 경우, 해당 키워드의 관련도 값에 제 3 조정계수(w3)를 곱하여 해당 셀의 값을 계산하는, 표제어 선정 장치.
  7. 제1항에 있어서,
    상기 클러스터의 중심 벡터는 상기 클러스터에 포함된 표제어 벡터들과의 평균 유사도가 가장 큰 벡터인, 표제어 선정 장치.
  8. 제1항에 있어서,
    상기 유사도 계산부는,
    상기 표제어 데이터베이스의 전체 키워드들에 대하여 표제어로부터 추출된 키워드, 표제어 설명으로부터 추출된 키워드, 및 문헌 검색을 통하여 확장된 키워드를 분류하고, 상기 제시문 벡터의 각 원소에 대하여, 상기 표제어 데이터베이스의 키워드 분류 단계에서의 키워드 분류에 따라 가중치를 부여하며, 상기 표제어 데이터베이스의 키워드 분류에 의하여 가중치가 부여된 제시문 벡터와 상기 각각의 클러스터의 중심 벡터 또는 평균 벡터와의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 클러스터를 선택하고, 상기 선택된 클러스터 내의 전체 키워드들에 대하여 표제어로부터 추출된 키워드, 표제어 설명으로부터 추출된 키워드, 및 문헌 검색을 통하여 확장된 키워드를 분류하며, 상기 제시문 벡터의 각 원소에 대하여, 상기 클러스터 내의 키워드 분류 단계에서의 키워드 분류에 따라 가중치를 부여하고, 상기 클러스터 내의 키워드 분류에 의하여 가중치가 부여된 제시문 벡터와 상기 클러스터 내의 각 표제어 벡터와의 유사도를 계산하여 상기 제시문 벡터와 유사한 순서로 소정 개수의 표제어 벡터를 선택하는, 표제어 선정 장치.
  9. 제8항에 있어서,
    상기 유사도 계산부는, 상기 표제어 데이터베이스의 키워드 분류 단계에서의 키워드 분류에 따라 가중치를 부여함에 있어,
    해당 셀의 키워드가 상기 표제어 데이터베이스의 표제어로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 4 조정계수(w4)를 곱하여 가중치를 계산하고,
    해당 셀의 키워드가 상기 표제어 데이터베이스의 표제어의 설명으로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 5 조정계수(w5)를 곱하여 가중치를 계산하며,
    해당 셀의 키워드가 상기 표제어 데이터베이스의 표제어와 동일한 문헌에서 사용된 확장된 키워드일 경우, 해당 셀의 원소 값에 제 6 조정계수(w6)를 곱하여 가 중치를 계산하는, 표제어 선정 장치.
  10. 제8항에 있어서,
    상기 유사도 계산부는, 상기 선택된 클러스터 내의 키워드 분류 단계에서의 키워드 분류에 따라 가중치를 부여함에 있어,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 7 조정계수(w7)를 곱하여 가중치를 계산하며,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어의 설명으로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 8 조정계수(w8)를 곱하여 가중치를 계산하고,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어와 동일한 문헌에서 사용된 확장된 키워드일 경우, 해당 셀의 원소 값에 제 9 조정계수(w9)를 곱하여 가중치를 계산하며,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어 키워드, 표제어 설명 키워드, 확장 키워드 중 어느 그룹에도 속하지 않는 키워드인 경우, 해당 셀의 원소 값에 제 10 조정계수(w10)를 곱하여 가중치를 계산하는, 표제어 선정 장치.
  11. 표제어 선정 장치를 이용한 표제어 선정 방법으로서,
    상기 표제어 선정 장치에서, 표제어 데이터베이스에 저장된 각각의 레코드 를 이용하여 복수 개의 표제어 벡터를 포함하는 표제어 매트릭스를 생성하는 단계;
    생성된 상기 표제어 매트릭스의 표제어 벡터를 복수 개의 클러스터로 분할하고, 분할된 각각의 클러스터의 중심 벡터 및 평균 벡터를 계산하는 단계;
    상기 표제어 선정 장치에서, 사용자로부터 제시문을 입력받는 단계;
    상기 표제어 선정 장치에서, 상기 입력받은 제시문으로부터 키워드를 추출하고, 상기 키워드를 이용하여 상기 제시문에 대응되는 제시문 벡터를 생성하는 단계;
    상기 표제어 선정 장치에서, 상기 표제어 벡터 및 제시문 벡터 간의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 소정 개수의 표제어 벡터를 선택하는 단계; 및
    상기 표제어 선정 장치에서, 상기 표제어 벡터 선택 단계에서 선택된 표제어 벡터에 대응되는 표제어를 상기 표제어 데이터베이스에서 추출하여 출력하는 단계;
    를 포함하는 표제어 선정 방법.
  12. 제11항에 있어서,
    상기 표제어 매트릭스 생성 단계는,
    상기 표제어 데이터베이스의 각 레코드에 포함된 표제어 및 상기 표제어에 대한 설명으로부터 키워드 및 각 키워드의 빈도수를 추출하는 단계;
    상기 표제어를 포함하는 문헌을 검색하고, 상기 표제어와 동일한 문헌에서 사용된 단어를 상기 키워드에 추가하고, 추가된 단어가 상기 표제어와 동일한 문헌에서 사용된 회수를 계산하는 단계;
    상기 키워드의 상기 표제어와의 관련도를 계산하는 단계; 및
    상기 키워드의 빈도수 및 관련도를 이용하여 상기 표제어 매트릭스의 각 셀의 값을 계산하는 단계;
    를 포함하는 표제어 선정 방법.
  13. 제12항에 있어서,
    상기 키워드의 상기 표제어와의 관련도는, 다음의 수학식
    Figure 112009060297175-pat00008
    (이때, F(i, j)는 i번째 표제어와 j번째 키워드와의 관련도, R(i, j)는 i번째 표제어와 j 번째 키워드의 동시 사용 문헌의 빈도수, max{R(i)}는 i 번째 표제어에서의 빈도수의 최대값)
    에 의하여 계산되는, 표제어 선정 방법.
  14. 제12항에 있어서,
    상기 키워드의 상기 표제어와의 관련도는, 다음의 수학식
    Figure 112009060297175-pat00009
    (이때, F(i, j)는 i번째 표제어와 j번째 키워드와의 관련도, O(i, j)는 상기 표제어와 상기 키워드를 포함하는 온톨로지 계층구조에서의 i번째 표제어와 j번째 키워드간의 거리, max{O(i)}는 i 번째 표제어에서의 온톨로지에서의 거리의 최대값)
    에 의하여 계산되는, 표제어 선정 방법.
  15. 제12항에 있어서,
    상기 표제어 매트릭스의 각 셀의 값을 계산하는 단계는,
    해당 셀의 키워드가 상기 표제어로부터 추출된 키워드일 경우, 해당 키워드의 상기 표제어에서의 빈도수에 제 1 조정계수(w1)를 곱하여 해당 셀의 값을 계산하고,
    해당 셀의 키워드가 상기 표제어의 설명으로부터 추출된 키워드일 경우, 해당 키워드의 상기 표제어에서의 빈도수에 제 2 조정계수(w2)를 곱하여 해당 셀의 값을 계산하며,
    해당 셀의 키워드가 상기 표제어와 동일한 문헌에서 사용된 확장된 키워드일 경우, 해당 키워드의 관련도 값에 제 3 조정계수(w3)를 곱하여 해당 셀의 값을 계산하는, 표제어 선정 방법.
  16. 제11항에 있어서,
    상기 클러스터의 중심 벡터는 상기 클러스터에 포함된 표제어 벡터들과의 평균 유사도가 가장 큰 벡터인, 표제어 선정 방법.
  17. 제11항에 있어서,
    상기 표제어 선택 단계는,
    상기 표제어 데이터베이스의 전체 키워드들에 대하여 표제어로부터 추출된 키워드, 표제어 설명으로부터 추출된 키워드, 및 문헌 검색을 통하여 확장된 키워드를 분류하는 단계;
    상기 제시문 벡터의 각 원소에 대하여, 상기 표제어 데이터베이스의 키워드 분류 단계에서의 키워드 분류에 따라 가중치를 부여하는 단계;
    상기 표제어 데이터베이스의 키워드 분류에 의하여 가중치가 부여된 제시문 벡터와 상기 각각의 클러스터의 중심 벡터 또는 평균 벡터와의 유사도를 계산하여 상기 제시문 벡터와 가장 유사한 클러스터를 선택하는 단계;
    상기 선택된 클러스터 내의 전체 키워드들에 대하여 표제어로부터 추출된 키워드, 표제어 설명으로부터 추출된 키워드, 및 문헌 검색을 통하여 확장된 키워드를 분류하는 단계;
    상기 제시문 벡터의 각 원소에 대하여, 상기 클러스터 내의 키워드 분류 단계에서의 키워드 분류에 따라 가중치를 부여하는 단계;
    상기 클러스터 내의 키워드 분류에 의하여 가중치가 부여된 제시문 벡터와 상기 클러스터 내의 각 표제어 벡터와의 유사도를 계산하여 상기 제시문 벡터와 유 사한 순서로 소정 개수의 표제어 벡터를 선택하는 단계;
    를 포함하는, 표제어 선정 방법.
  18. 제17항에 있어서,
    상기 표제어 데이터베이스의 키워드 분류 단계에서의 키워드 분류에 따른 가중치를 부여 단계는,
    해당 셀의 키워드가 상기 표제어 데이터베이스의 표제어로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 4 조정계수(w4)를 곱하여 가중치를 계산하고,
    해당 셀의 키워드가 상기 표제어 데이터베이스의 표제어의 설명으로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 5 조정계수(w5)를 곱하여 가중치를 계산하며,
    해당 셀의 키워드가 상기 표제어 데이터베이스의 표제어와 동일한 문헌에서 사용된 확장된 키워드일 경우, 해당 셀의 원소 값에 제 6 조정계수(w6)를 곱하여 가중치를 계산하는, 표제어 선정 방법.
  19. 제18항에 있어서,
    상기 선택된 클러스터 내의 키워드 분류 단계에서의 키워드 분류에 따른 가중치 부여 단계는,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 7 조정계수(w7)를 곱하여 가중치를 계산하며,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어의 설명으로부터 추출된 키워드일 경우, 해당 셀의 원소 값에 제 8 조정계수(w8)를 곱하여 가중치를 계산하고,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어와 동일한 문헌에서 사용된 확장된 키워드일 경우, 해당 셀의 원소 값에 제 9 조정계수(w9)를 곱하여 가중치를 계산하며,
    해당 셀의 키워드가 상기 선택된 클러스터의 표제어 키워드, 표제어 설명 키워드, 확장 키워드 중 어느 그룹에도 속하지 않는 키워드인 경우, 해당 셀의 원소 값에 제 10 조정계수(w10)를 곱하여 가중치를 계산하는, 표제어 선정 방법.
  20. 제11항 내지 제19항 중 어느 한 항에 기재된 방법을 컴퓨터상에서 수행하기 위한 프로그램을 기록한 컴퓨터 판독가능 기록매체.
KR1020090093134A 2009-09-30 2009-09-30 키워드를 이용한 표제어 선정 장치 및 방법 KR100952077B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090093134A KR100952077B1 (ko) 2009-09-30 2009-09-30 키워드를 이용한 표제어 선정 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090093134A KR100952077B1 (ko) 2009-09-30 2009-09-30 키워드를 이용한 표제어 선정 장치 및 방법

Publications (1)

Publication Number Publication Date
KR100952077B1 true KR100952077B1 (ko) 2010-04-14

Family

ID=42219715

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090093134A KR100952077B1 (ko) 2009-09-30 2009-09-30 키워드를 이용한 표제어 선정 장치 및 방법

Country Status (1)

Country Link
KR (1) KR100952077B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101617317B1 (ko) 2013-10-28 2016-05-02 한국과학기술원 이진 자료를 군집화하는 방법 및 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110409A (ja) 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置
JP2001155027A (ja) 1999-11-26 2001-06-08 Nec Corp 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体
KR100490442B1 (ko) 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110409A (ja) 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置
JP2001155027A (ja) 1999-11-26 2001-06-08 Nec Corp 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体
KR100490442B1 (ko) 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101617317B1 (ko) 2013-10-28 2016-05-02 한국과학기술원 이진 자료를 군집화하는 방법 및 장치

Similar Documents

Publication Publication Date Title
Singh et al. Relevance feedback-based query expansion model using ranks combining and Word2Vec approach
Singh et al. Relevance feedback based query expansion model using Borda count and semantic similarity approach
US7849104B2 (en) Searching heterogeneous interrelated entities
US7451124B2 (en) Method of analyzing documents
US8332434B2 (en) Method and system for finding appropriate semantic web ontology terms from words
KR101339103B1 (ko) 의미적 자질을 이용한 문서 분류 시스템 및 그 방법
CN112988980B (zh) 目标产品查询方法、装置、计算机设备和存储介质
US20200073890A1 (en) Intelligent search platforms
Krishnaveni et al. Automatic text summarization by local scoring and ranking for improving coherence
JP2011227688A (ja) テキストコーパスにおける2つのエンティティ間の関係抽出方法及び装置
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Irfan et al. Implementation of Fuzzy C-Means algorithm and TF-IDF on English journal summary
Alami et al. Arabic text summarization based on graph theory
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
JP4426041B2 (ja) カテゴリ因子による情報検索方法
JPWO2014002774A1 (ja) 同義語抽出システム、方法および記録媒体
JP2017072885A (ja) 情報検索装置、辞書作成装置、方法、及びプログラム
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
JP2005149014A (ja) 文書関連語彙獲得方法及び装置及びプログラム
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
US20130238607A1 (en) Seed set expansion
JP4573358B2 (ja) 評判情報検索装置、その方法およびプログラム
Huang et al. Rough-set-based approach to manufacturing process document retrieval
Cakaloglu et al. MRNN: A multi-resolution neural network with duplex attention for document retrieval in the context of question answering
Musyaffanto et al. Automatic extractive text summarization for indonesian news articles using maximal marginal relevance and non-negative matrix factorization

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment
FPAY Annual fee payment

Payment date: 20160330

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170403

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180402

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190329

Year of fee payment: 10