KR101049984B1

KR101049984B1 - 기분석 사전 갱신장치 및 그 방법

Info

Publication number: KR101049984B1
Application number: KR1020080138604A
Authority: KR
Inventors: 심보준
Original assignee: 주식회사 엔씨소프트
Priority date: 2008-12-31
Filing date: 2008-12-31
Publication date: 2011-07-19
Also published as: KR20100079992A

Abstract

본 발명은 기분석 사전 갱신장치 및 그 방법에 관한 것으로 색인하고자 하는 문서로부터 토큰을 얻는 토큰 분석부; 상기 얻어진 토큰이 기분석 사전에 존재하는가 판단하는 기분석사전 비교부; 기분석 사전에 존재하지 않는 토큰의 형태소를 분석하는 형태소 분석부; 상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 변환부; 상기 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인하는 색인부; 및 상기 변환된 데이터를 기분석 사전에 추가하는 기분석 사전 갱신부;를 구비하는 것을 특징으로 한다.

검색엔진, 형태소 분석기, 기분석 사전, 색인, 색인어,

Description

기분석 사전 갱신장치 및 그 방법{APPARATUS AND METHOD OF UPDATING ELECTRONIC DICTIONARY OF INFLECTED FORMS}

본 발명은 검색엔진의 색인과정에서 형태소 분석기를 사용할 때에 참조하는 기분석 사전의 갱신을 위한 갱신장치 및 그 방법에 관한 것이다.

인터넷 상의 문서의 양은 인터넷 보급초기에 비해 급격한 속도로 증가하고 있다. 이에, 검색엔진이 색인해야하는 문서의 양도 기하급수적으로 증가하고 있어, 보다 효율적인 방법론 연구의 중요성이 점차 확대되고 있는 추세이다.

이렇듯 기하급수적으로 증가하는 새로운 문서들을 얼마나 신속하게 색인하여 검색엔진에 반영하는가 하는 것은 검색결과의 품질에 직접적인 영향을 주는데, 색인 알고리즘 그 자체는 이미 1960년대부터 알려지기 시작하여 더 이상 큰 개선의 여지가 남아있지 않다.

결국, 색인어를 추출하는 방법이나 형태소 분석기의 성능에 따라서 검색엔진의 성능과 검색결과의 품질이 달라지게 된다.

한편, 형태소 분석기를 이용하여 색인 하는 경우를 따져보면 형태소 분석기를 통한 분석과정이 전체 색인시간의 3-40%를 차지할 정도로 중요한데, 형태소 분 석기를 통한 분석은 명사만을 추출할 것인지 모든 품사를 추출할 것인지, 기분석 사전을 사용할 것인지의 여부 등에 따라서 또한 크게 차이를 보이게 된다.

이때 기분석 사전이 주기적으로 갱신되어 신선도를 유지하고 있다면 형태소 분석에 소요되는 시간은 크게 줄어들 것임이 자명하다. 그럼에도 불구하고, 기분석 사전의 갱신은 큰 부하가 걸리는 작업일 뿐만 아니라, 충분한 데이터 축적을 요구하므로 빈번하게 이루어지기 어려운 것이 사실이며, 통상 수개월에 달하는 긴 기간마다 한번씩 갱신되는 것이 일반적이다.

본 발명은 색인 과정내에서 기분석 사전을 업데이트 함으로써 색인 자체의 속도를 향상시키고, 반복적인 분석과정을 배제할 수 있도록 하는 기분석 사전 갱신장치 및 그 방법의 제공을 목적으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명의 기분석 사전 갱신장치는 색인하고자 하는 문서로부터 토큰을 얻는 토큰 분석부;

상기 얻어진 토큰이 기분석 사전에 존재하는가 판단하는 기분석사전 비교부;

기분석 사전에 존재하지 않는 토큰의 형태소를 분석하는 형태소 분석부;

상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 변환부;

상기 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인하는 색인부; 및

상기 변환된 데이터를 기분석 사전에 추가하는 기분석 사전 갱신부;를 구비하는 것을 특징으로 한다.

한편, 상기와 같은 목적을 달성하기 위한 본 발명의 기분석 사전 갱신방법은 기분석 사전을 메모리에 적재하는 제 110 단계;

색인하고자 하는 문서로부터 토큰을 얻는 제 120 단계;

기분석 사전에 토큰이 존재하는지 판단하고, 없으면 형태소 분석을 하는 제 130 단계;

상기 형태소 분석결과 및 상기 토큰을 이용하여 기분석 사전의 포맷으로 변환하는 제 140 단계;

상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 150 단계; 및

상기 색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 130 단계로 분기하되, 다음 토큰이 없으면 종료하는 제 160 단계;를 구비하되,

제 130 단계 이후 상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분석결과를 이용하여 색인하는 제 131 단계;를 포함하는 것을 특징으로 한다.

한편, 상기와 같은 목적을 달성하기 위한 본 발명의 기분석 사전 갱신방법은 색인하고자 하는 문서로부터 토큰을 얻는 제 210 단계;

기분석 사전에 토큰이 존재하는지 판단하고, 존재하면 제 240 단계로 분기하되 존재하지 않으면 형태소 분석을 하는 제 220 단계;

상기 토큰 및 상기 형태소 분석결과를 저장하는 제 230 단계;

상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분석결과를 이용하여 색인하는 제 240 단계;

색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 220 단계로 분기하되, 다음 토큰이 없으면 다음 단계로 진행하는 제 250 단계;

상기 저장된 토큰 및 상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 제 260 단계;

상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 270 단계;로 이루어지는 것을 특징으로 한다.

상기와 같은 본 발명에 의하면 색인 과정에서 얻어진 데이터를 이용하여 기분석 사전을 업데이트함으로써 기분석 사전을 최신의 것으로 유지할 수 있다는 효과가 있으며,

아울러 이에 의하여 색인에 소요되는 시간(특히, 대용량 문서의 경우)을 대폭 줄일 수 있다는 효과가 있다.

검색엔진에서 색인에 소요되는 시간의 단축은 곧 검색엔진의 성능향상과 검색품질의 향상에 직접적인 영향을 주므로, 타 검색엔진 대비 경쟁력을 갖출 수 있도록 하는 효과가 있다.

이하에서는 첨부하는 도면을 참조하여 본 발명에 의한 기분석 사전 갱신장치의 구성을 상세히 살펴보기로 한다. 도 1은 본 발명에 의한 기분석 사전 갱신장치의 구성을 나타내는 기능블록도이다.

도 1에 의하면, 본 발명에 의한 기분석 사전 갱신장치(100)는 토큰 분석부(110), 기분석 사전 비교부(120), 형태소 분석부(130), 변환부(140), 색인부(150), 기분석 사전 갱신부(160), 임시저장부(170)를 구비한다.

검색엔진(Search Engine)은 문서(Document)의 색인시, 해당 문서로부터 토큰(Token)을 순차적으로 얻어온다. 한글로 이루어진 문서의 경우 어절 단위로 읽 어와 색인(Indexing)할 수 있다. 토큰 분석부(110)는 이렇듯 색인하고자 하는 문서로부터 순차적으로 토큰을 획득한다. 이때, 문서는 일반적으로 웹 문서(Web Document)일 수 있으나, 반드시 이에 한정되지는 않는다.

도 2에 도시된 예를 참조하면, 토큰 분석부(110)가 문서로부터 "대한민국의", "면적은"과 같은 어절을 순차적으로 획득함을 확인할 수 있다.

기분석 사전 비교부(120)는 토큰 분석부(110)가 문서로부터 얻어온 토큰이 기분석 사전에 포함되어 있는가 여부를 판단한다. 검색엔진의 색인시 후술하는 바와 같이 형태소 분석을 수행하여 색인어를 추출하게 되는데 이때, 기분석 사전을 이용하게 되면 기존에 형태소 분석을 한 어절과 동일한 어절에 대해서는 형태소 분석을 생략할 수 있게 된다. 일반적으로 기분석 사전은 그 용량이 매우 크기 때문에 토큰이 기분석 사전에 속하는가 여부를 판단하기 위해서는 빈번한 디스크 액세스가 발생한다. 그러나, 최근 메모리 가격의 하락으로 인해 대용량 메모리를 탑재하여 기분석 사전 전체를 메모리에 적재하는 것이 가능해졌으며 이에 의해 처리시간을 크게 줄일 수 있다. 뿐만 아니라, 메모리에 기분석 사전을 적재하는 경우 후술하는 바와 같이 기분석 사전의 신속한 업데이트가 가능한 객관적 환경이 마련된다.

한편, 형태소 분석기(130)는 상기 토큰이 기분석 사전에 존재하지 않는 경우 토큰을 분석하여 색인어를 추출한다. 이러한 형태소 분석과정은 한글의 경우 불규칙이나 음운변화 등 형태소의 형태적 변화를 분석하여 체언, 용언, 접사, 조사, 어미와 같은 품사를 나누고, 품사마다의 규칙에 따라 색인어를 추출하는 방법으로 이루어지는 것이 일반적이다.

이렇게 토큰을 형태소 분석기(130)가 분석함으로써 색인어를 추출하면 변환부(140)는 토큰과 분석결과에 해당하는 색인어를 취합하여 기분석 사전의 데이터 구조에 맞추어 포맷 변환을 수행한다.

이때, 이러한 분석결과를 색인과정이 모두 끝날 때까지 임시저장부(170)에 누적하여 파일로 저장하였다가 이후 이를 기분석 사전의 데이터 구조로 변환하여 일시에 기분석 사전에 반영하여 업데이트하거나, 또는 형태소 분석기(130)가 분석을 할 때마다 매번 그 결과를 이용 기분석 사전을 실시간으로 업데이트 할 수 있다. 기분석 사전을 실시간으로 업데이트하는 경우 메모리 가격하락으로 인해 메모리에 기분석 사전을 적재하는 것이 가능해졌기 때문에 기분석 사전에의 빈번한 액세스에도 불구하고 처리속도의 저하를 막을 수 있다.

색인부(150)는 상기 토큰 분석부(110)가 읽어온 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인한다.

한편, 기분석 사전 갱신부(160)는 상기 변환부에 의해 기분석 사전의 데이터구조로 변환된 데이터를 기분석 사전에 반영함으로써 업데이트한다. 상기에서 설명한 바와 같이 형태소 분석부(130)에 의한 분석이 이루어질 때마다 업데이트할 수도 있고, 문서에 대한 색인이 완료된 다음 일시에 업데이트할 수도 있다.

이하에서는 첨부하는 도면을 참조하여 상기와 같은 구성을 갖는 기분석 사전 갱신장치에서 기분석 사전의 업데이트가 이루어지는 과정을 살펴보기로 한다. 단, 상기에서 설명한 바와 중복되는 사항에 대해서는 그 설명을 생략한다.

도 2은 토큰 분석부가 문서로부터 토큰을 가져오는 과정을 개념적으로 설명하는 참고도이며, 도 3은 본 발명의 일 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이다.

도 3에 의하면 본 발명의 일 실시예에 의한 기분석 사전 갱신방법은 다음과 같이 이루어진다.

먼저 기분석 사전을 메모리에 적재한다(S110). 형태소 분석부(130)에 의한 형태소 분석이 이루어질 때마다 기분석 사전을 업데이트 하므로 기분석 사전에 대한 빈번한 액세스가 이루어진다. 따라서, 하드디스크와 같은 저장장치(Storage)에 저장된 채로 쓰기동작을 수행하게되면 색인과정 자체가 크게 지연될 수밖에 없다.

이후, 토큰 분석부(110)가 색인하고자 하는 문서로부터 토큰을 읽어온다(S120).

한편, 기분석 사전 비교부(120)가 기분석 사전에 상기 토큰에 해당하는 값이 존재하는가 여부를 판단하고, 있으면 S131 단계로 분기하되 없으면 형태소 분석부(130)가 상기 토큰에 대한 형태소 분석을 수행한다(S130).

형태소 분석부(130)에 의한 형태소 분석이 이루어지면, 변환부(140)가 그때마다 분석 결과와 상기 토큰을 이용하여 기분석 사전의 데이터 구조에 맞게 포맷변환을 수행한다(S140).

이후, 기분석 사전 갱신부(160)는 상기 변환된 데이터를 기분석 사전에 추가함으로써 갱신한다(S150).

한편, 기분석 사전의 상기 토큰에 해당하는 값 또는 형태소 분석결과를 이용 하여 상기 문서에 대한 색인을 한다(S131). 이러한 색인 과정은 S130단계 이후에 이루어지나 S140 및 S150 단계의 기분석 사전의 갱신과정과 비교할 때 반드시 어느것이 시간순으로 선행되어야만 하는 관계는 아니다.

기분석 사전이 갱신되면, 토큰 분석부(110)가 색인하고자 하는 문서로부터 다음 토큰을 읽어와 S130 단계로 분기한다. 만일 다음 토큰이 없는 경우 즉, 문서에 대한 색인이 완료되면 종료한다(S160).

결국, 형태소 분석을 수행할 때마다 기분석 사전을 업데이트 함으로써 하나의 문서를 색인하는 과정 내에서도 기존에 기분석 사전에 존재하지 않았던 토큰에 대해 형태소 분석을 반복하지 않아도 되는 효과가 발생한다.

도 2의 예에서 토큰 분석부(110)는 "대한민국의"라는 어절을 읽어온 다음 아랫줄에서 "대한민국의"이라는 어절을 재차 읽어온다. 이때, 기분석 사전에 "대한민국의"에 해당하는 값이 존재하지 않으면 동일 문서 내에서도 반복하여 형태소 분석을 하게 되는데, 상기와 같은 과정을 통해 이러한 문제점이 해소된다.

특히, 같은 어절이 자주 반복되는 대용량 문서의 경우 전체 색인 속도의 비약적인 향상이 가능하다.

한편, 이하에서는 첨부하는 도면을 참조하여 본 발명의 이실시예에 의한 기분석 사전 갱신방법을 살펴보기로 한다. 도 4는 본 발명의 이 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이다.

본 발명의 이 실시예는 문서에 대한 색인이 완료되면 누적하여 저장해두었던 형태소 분석결과 파일을 이용하여 기분석 사전을 갱신한다.

먼저 토큰 분석부(110)가 색인하고자 하는 문서로부터 토큰을 읽어온다(S210).

이후, 기분석 사전 비교부(120)는 기분석 사전에 상기 토큰에 해당하는 값이 존재하는가 여부를 판단하고, 존재하면 S240 단계로 분기하되, 존재하지 않으면 형태소 분석부(130)가 상기 토큰에 대한 형태소 분석을 수행한다(S220).

그 다음 임시저장부(170)에 토큰 및 형태소 분석결과를 저장하는데, 기 저장된 데이터가 존재하는 경우 누적하여 저장한다(S230).

한편, 색인부(150)는 기분석 사전의 상기 토큰에 해당하는 값 또는 상기 토큰에 대한 형태소 분석결과를 이용하여 색인을 진행한다(S240).

이때, 임시저장부(170)에 토큰 및 형태소 분석결과를 저장하는 S230 단계와 색인을 진행하는 S240 단계는 반드시 시간적으로 어느 것이 선행되어야 하는 것은 아니며, 그 반대여도 무방한 서로 병렬적인 관계이다.

이후, 토큰 분석부(110)는 색인하고자 하는 문서에 다음 토큰을 존재하는가 여부를 판단하여 존재하면 다음 토큰을 읽어와 S220 단계로 분기하되, 다음 토큰이 존재하지 않는 경우, 즉 문서에 대한 색인이 완료된 경우 다음 단계로 진행한다(S250).

색인이 완료되면 변환부(140)는 상기 임시저장부(170)에 저장된 토큰 및 이에 대한 형태소 분석결과를 기분석 사전의 데이터 구조에 적합하게 포맷변환을 수행한다(S260).

이후, 기분석 사전 갱신부(160)가 변환된 데이터를 기분석 사전에 추가함으로써 갱신한다(S270).

이상 몇가지의 실시예를 들어 본 발명을 상세히 살펴보았으나 본 발명은 이러한 실시예에 국한되어 해석되지 아니하며, 특허청구범위에 기재된 기술적 사상의 범위 내에서 자유롭게 변형 실시, 해석되어야 한다.

도 1은 본 발명에 의한 기분석 사전 갱신장치의 구성을 나타내는 기능블록도이며,

도 2은 토큰 분석부가 문서로부터 토큰을 가져오는 과정을 개념적으로 설명하는 참고도이며,

도 3은 본 발명의 일 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이며,

도 4는 본 발명의 이 실시예에 의한 기분석 사전 갱신방법을 설명하는 플로우차트이다.

<도면의 주요 부분에 대한 부호의 설명>

110 : 토큰 분석부 120 : 기분석 사전 비교부

130 : 형태소 분석부 140 : 변환부

150 : 색인부 160 : 기분석 사전 갱신부

170 : 임시 저장부

Claims

검색엔진의 색인시 사용되는 기분석 사전을 갱신하는 방법으로서 기분석 사전 갱신장치에서 실행되는 방법에 있어서,

기분석 사전을 메모리에 적재하는 제 110 단계;

색인하고자 하는 문서로부터 토큰을 얻는 제 120 단계;

기분석 사전에 상기 획득한 토큰에 해당하는 항목이 존재하는지 판단하고, 없으면 형태소 분석을 하는 제 130 단계;

상기 형태소 분석결과 및 상기 토큰을 이용하여 기분석 사전의 포맷으로 변환하는 제 140 단계; 및

상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 150 단계;로 이루어지는 것을 특징으로 하는 기분석 사전 갱신방법.
제 1 항에 있어서,

상기 색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 130 단계로 분기하되, 다음 토큰이 없으면 종료하는 제 160 단계;를 더 포함하는 것을 특징으로 하는 기분석 사전 갱신방법.
제 2 항에 있어서,

제 130 단계 이후 상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분 석결과를 이용하여 색인하는 제 131 단계;를 더 포함하는 것을 특징으로 하는 기분석 사전 갱신방법.
제 1 항에 있어서,

상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신방법.
검색엔진의 색인시 사용되는 기분석 사전을 갱신하는 방법으로서 기분석 사전 갱신장치에서 실행되는 방법에 있어서,

색인하고자 하는 문서로부터 토큰을 얻는 제 210 단계;

기분석 사전에 토큰이 존재하는지 판단하고, 존재하면 제 240 단계로 분기하되 존재하지 않으면 형태소 분석을 하는 제 220 단계;

상기 토큰 및 상기 형태소 분석결과를 저장하는 제 230 단계;

상기 토큰에 대한 기분석 사전의 값 또는 상기 형태소 분석결과를 이용하여 색인하는 제 240 단계;

색인하고자 하는 문서로부터 다음 토큰을 얻어 상기 제 220 단계로 분기하되, 다음 토큰이 없으면 다음 단계로 진행하는 제 250 단계;

상기 저장된 토큰 및 상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 제 260 단계;

상기 변환된 데이터를 상기 기분석 사전에 추가하는 제 270 단계;로 이루어지는 것을 특징으로 하는 기분석 사전 갱신방법.
제 5 항에 있어서,

상기 제 210 단계 이전에 기분석 사전을 메모리에 적재하는 단계;를 더 구비하는 것을 특징으로 하는 기분석 사전 갱신방법.
제 5 항에 있어서,

상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신방법.
색인하고자 하는 문서로부터 토큰을 얻는 토큰 분석부;

상기 얻어진 토큰이 기분석 사전에 존재하는가 판단하는 기분석사전 비교부;

기분석 사전에 존재하지 않는 토큰의 형태소를 분석하는 형태소 분석부;

상기 형태소 분석결과를 기분석 사전의 포맷으로 변환하는 변환부;

상기 토큰에 대한 기분석 사전의 값 또는 형태소 분석결과를 이용하여 색인하는 색인부; 및

상기 변환된 데이터를 기분석 사전에 추가하는 기분석 사전 갱신부;를 구비 하는 것을 특징으로 하는 기분석 사전 갱신장치.
제 8 항에 있어서,

상기 변환부는 상기 형태소 분석부가 토큰에 대한 형태소를 분석할 때마다 분석결과를 기분석 사전의 포맷으로 변환하는 것을 특징으로 하는 기분석 사전 갱신장치.
제 8 항에 있어서,

형태소 분석기가 분석한 데이터를 저장하는 임시 저장부;를 더 구비하되,

상기 변환부는 상기 색인부를 통하여 상기 색인하고자 하는 문서에 대한 색인이 완료되면 상기 형태소 분석기가 분석한 결과를 기분석 사전의 포맷으로 변환하는 것을 특징으로 하는 기분석 사전 갱신장치.
제 8 항에 있어서,

상기 색인하고자 하는 문서는 웹 문서인 것을 특징으로 하는 기분석 사전 갱신장치.