KR100515698B1

KR100515698B1 - 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치

Info

Publication number: KR100515698B1
Application number: KR10-2003-0031164A
Authority: KR
Inventors: 김경서; 윤준태
Original assignee: (주)다음소프트
Priority date: 2003-05-16
Filing date: 2003-05-16
Publication date: 2005-09-16
Also published as: KR20040098862A

Abstract

본 발명은 한 문서에서 중요한 단어나 구문은 한 번 이상 반복되며 그 의미가 일관되게 유지되는 경향에 근거하여 특정문서 고유사전(document-specific dictoinary; DSD)을 작성하는 방법 및 장치에 관한 것으로, 하나의 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하는 단계, 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬하는 단계, 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하는 단계, 그리고 검출된 단어 및 구문으로부터 특정문서 고유사전(DSD)을 작성하는 단계를 포함하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 그 기록 매체, 그리고 작성을 위한 장치를 제공하며, 이에 의해 검색시스템은 검색자가 의도하지 않은 문서들을 검색결과로부터 제외시킬 수 있고, 중요한 단어/구문이 문서 내에서 어떤 것인지 용이하게 알 수 있게 되고, 중의적 해석이 가능한 어절에 대해 형태적 구성요소를 정확히 파악함으로써 의미 분별을 가능하게 하는 도구를 제공할 수 있게 된다.

Description

색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법 및 작성을 위한 장치{METHOD AND APPARATUS FOR GENERATING DOCUMENT-SPECIFIC DICTIONARY USED FOR INDEXING AND KOREAN MORPHOLOGICAL ANALYSIS}

본 발명은 색인 및 형태소 분석에 이용되는 사전의 작성방법 및 작성을 위한 장치에 관한 것으로, 보다 구체적으로는 한 문서에서 중요한 단어나 구문은 한 번 이상 반복되며 그 의미가 일관되게 유지되는 경향에 근거하여, 한 문서내의 반복된 단어나 구문으로 이루어진 사전을 작성하는 방법 및 장치에 관한 것이다.

공개특허공보 제2002-0054254호는 도 1에 도시된 바와 같이, 어절 단위로 단어를 추출하는 단계(100), 추출된 단어를 압축 불용어 사전을 참조하여 검색하는 단계(103), 추출된 단어를 명사사전을 참조하여 검색하는 단계(104), 명사사전 참조 검색 후 남은 음절을 체크하여 부적합 오류가 발생하였는지를 확인하는 단계(105), 그리고 단계(105)의 확인 결과 부적합 오류가 발생하면 미등록어로 처리하고 단계(105)의 확인 결과 부적합 오류가 발생하지 않으면 명사를 추출하여 데이터베이스에 저장하는 단계(106)를 포함하는 형태소 분석 장치에 적용되는 사전구조(AVL+Trie)를 이용한 한국어 형태소 분석 방법을 제시하고 있다.

공개특허공보 제2000-0039406호는 도 2에 도시된 바와 같이, 형태소 분석을 위한 명사사전의 복합명사와 말뭉치에서 자동태깅 결과 얻어진 복합명사를 합하여 복합명사 사전을 구축하는 단계(201, 202, 203), 부분 구문분석을 통해 서술성 명사의 공기관계를 이용하여 추출될 수 있는 복합명사 유형중에 실제로 사용되는 올바른 복합명사만을 선정하는 단계(204, 205, 206), 그리고 문헌에서 색인어를 선정할 때 부분 구문분석을 이용하여 서술성 명사와 보어와의 공기관계를 추출한 후에, 공기관계에 의해 생성된 복합명사가 상기 올바른 복합명사일 경우에 색인어로 선정하는 단계(207, 208, 209, 210)를 포함하여 이루어진 부분 구문분석을 통한 보어-술어 관계의 복합명사 색인방법을 제시하고 있다.

상기와 같이 여러형태의 형태소 분석방법 내지는 색인어 설정방법, 인터넷 검색방법, 형태소 분석기, 번역방법 등이 IPC분류 G06F 17 분야에서 제시되고 있으나, 여전히 많은 해결해야 할 과제를 안고 있다.

예를 들어, "하나로"라는 단어의 경우에 어떤 문서에서 "세계를 하나로 묶는다"로 나타난다면 수사와 조사가 결합된 형태로 분석될 수 있고, 반면에 다른 문서에서 "하나로 통신"으로 나타난다면 "하나로"는 그 자체가 하나의 고유명사로 분석될 수 있다. 따라서, 형태소 분석 내지는 색인어 선정에 있어서 "세계가 하나로 묶인다"의 "하나로"(수사+조사)와 "하나로 통신"의 "하나로"(고유명사)는 구분될 필요가 있고, 정보 검색의 과정에서도 검색어를 "하나로"로 하는 경우, 대상 고유명사가 사전에 존재하지 않으면 서로 다른 문서상에 나타나는 두 어휘를 구분하지 못하므로 검색시스템은 필요로 하지 않는 문서도 검색하게 되는 기술적인 문제점을 발생시킨다.

또한, 상기의 문제는 정보 검색의 성능에 매우 큰 영향을 미치는 구(phrase)의 인식에도 문제를 야기할 수 있다. 예를 들어, "후세인"이라는 단어가 사전에 존재하지 않는다면 주어진 단어는 "후세(명사)+이(서술격조사)+ㄴ(어미)"로 분석되며 문서에서 "사담 후세인"이라는 구가 나타났을 때 "사담 후세인"을 키워드로서 색인하지 못하게 되며 "사담 후세인과 관련된 신문기사"와 같은 질의에 대해 문서상의 구와 올바른 매치를 실행할 수 없게 된다. 이러한 구의 문제가 가장 두드러지게 나타날 수 있는 부분은 명사가 아닌 단어들로 이루어진 중요 구이다. 예를 들어 "돈보다 사람이다"라는 책에 대한 문서를 인터넷에서 찾고자 할 때, 실제 색인되거나 질의처리된 결과로 나오는 단어는 '돈'과 '사람'으로 이에 의한 검색 결과는 수많은 부적합 문서를 포함하게 되는 문제를 낳는다.

본 발명은 한 문서에서 중요한 단어나 구문은 한 번 이상 반복되고 그 의미가 일관되게 유지되는 경향을 기반으로, 상기한 기술적 문제점을 해결하기 위한 신규의 색인 및 형태소 분석에 이용되는 사전의 작성방법 및 작성을 위한 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 예를 들어 "디지털 라디오 방송" 혹은 "사담 후세인"과 같은 새로운 구(phrase)가 나타났을 때 새로운 구를 정확하게 인식할 수 있는 신규의 색인 및 형태소 분석에 이용되는 사전의 작성방법 및 작성을 위한 장치를 제공하는 것을 목적으로 한다.

또한, 본 발명은 명사이외의 다른 단어를 포함하는 구(pharse)를 인식함으로써 어떤 것이 문서를 표현하는 중요한 구인지에 대한 판단의 근거를 제공할 수 있는 신규의 색인 및 형태소 분석에 이용되는 사전의 작성방법 및 작성을 위한 장치를 제공하는 것을 목적으로 한다.

상기한 과제를 해결하기 위하여, 본 발명은 하나 이상의 문서를 포함하는 문서저장부로부터 실행명령부의 실행명령에 근거하여 검출기로 특정문서를 가져오는 단계, 검출기에서 당해 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하는 단계, 검출기에서 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬하는 단계, 검출기에서 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하는 단계, 그리고 검출기에서 검출된 단어 및 구문으로부터 특정문서 고유사전(DSD)를 작성하는 단계;를 포함하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법을 제공한다.

또한, 본 발명은 하나 이상의 문서를 저장하고 있는 문서저장기, 문서저장기에 저장되어 있는 특정문서에 대한 사전작성의 실행을 명령하는 실행명령부, 실행명령부로부터 실행명령을 받아 당해 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하고 그 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬한 후, 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하여 특정문서 고유사전(DSD)을 작성하는 검출기를 포함하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성을 위한 장치를 제공한다.

또한, 본 발명은 하나의 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하는 단계, 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬하는 단계, 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하는 단계, 검출된 단어 및 구문으로부터 특정문서 고유사전(DSD)을 작성하는 단계;를 포함하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법을 제공한다.

또한, 본 발명은 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체의 형태로 제공될 수 있다.

또한, 본 발명은 작성된 특정문서 고유사전(DSD)과 기존 형태소 사전을 통합하여 문서에 대한 형태소 분석 사전을 작성하는 단계를 더 포함하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법을 제공한다.

이하, 첨부된 도면을 참조하여 본 발명을 보다 상세히 설명한다.

도 3은 하나의 실시 예로서 본 발명을 구현한 형태를 나타내는 도면으로서, n개의 문서가 저장되어 있는 문서저장부(1), n개의 문서중 특정문서에 대한 사전작성의 실행을 명령하는 실행명령부(2), 실행명령부(2)로부터 특정문서에 대한 사전작성 실행명령이 있는 경우에 문서저장부(1)로부터 해당문서(1i)를 가져와서 해당문서(1i)에 반복되는 단어 내지는 구문을 검출하는 검출기(3), 검출기(3)의 내적과정에 의한 결과로서 만들어지며 해당문서(1i)의 반복되는 단어 내지는 구문으로 이루어진 특정문서 고유사전 DSDi(4; document-specific dictionary)로 구성된다.

도 4a-4e는 본 발명에 따라 문서저장부(1)의 문서1(11)로부터 DSD를 작성하는 과정을 설명하는 도면으로서, 도 4a에 도시된 바와 같이, 문서1(11)은 '저희 사이트에서는 메일 서비스를 이용할 수 있습니다. 메일 서비스의 사용은 무료이며 사이트 가입자에 한합니다.'라는 문장들로 구성되어 있다.

먼저, 실행명령부(2)로부터 문서저장부(1)에 저장된 문서1(11)에 대한 사전작성 실행명령을 받은 검출기(3)는 문서저장부(1)로부터 문서1(11)을 가져온 다음, 도 4b에 도시된 바와 같이 문서1(11)을 빈칸을 기준으로 문장들을 어절 단위로 구분한 후, 각 어절의 첫 번째 문자열에 대한 포인터를 이용하여 서픽스 어레이(suffix array)를 구성한다.

다음으로, 검출기(3)는 구성된 서픽스 어레이(suffix array)를 도 4c에 도시된 바와 같이 가나다 순으로 정렬한다.

다음으로, 검출기(4)는 도 4d에 도시된 바와 같이, 가나다 순으로 정렬된 서픽스 어레이(suffix array)를 이용하여 최대길이 문자열 비교(longest string match)와 조사 인식에 의하여 반복된 단어 및 구문 "메일 서비스", "사이트", "서비스"를 검출한다.

마지막으로, 검출기(4)는 도 4e에 도시된 바와 같이 검출된 단어 및 구문 "메일 서비스", "사이트", "서비스"로 이루어진 DSD₁을 작성한다.

도 5는 문서저장부(1)의 문서2(12)로부터 본 발명에 따라 작성된 DSD를 나타내는 도면으로서, 문서2(12)는 '저희 사이트에서는 장보기 서비스를 이용할 수 있습니다. 장보기 서비스의 사용은 무료이며 사이트 가입자에 한합니다.'라는 문장들로 구성되어 있고, DSD₂는 "장보기 서비스", "사이트", "서비스"로 구성된다.

도 6은 문서저장부(1)의 문서3(13)으로부터 발명에 따라 작성된 DSD를 나타내는 도면으로서, 문서3(13)은 '안녕하세요 하나로 통신의 대변인입니다. 하나로 통신은 모토가 모두 하나가 되자입니다.'라는 문장들로 구성되어 있고, 빈칸을 기준으로 서픽스 어레이(suffix array)를 구성하고 정렬한 후 최대길이 문자열 비교(longest string match) 및 조사 인식에 의하여 반복된 단어 및 구문 "하나로 통신", "통신"을 검출하고, "하나로 통신 ", "통신"으로 이루어진 DSD₃을 작성한다.

따라서, 검색어를 "하나"로 하여 본 발명에 따른 DSD₃을 검색하면 문서3(13)을 검색의 결과로서 도출되지 않게 되고, 불필요한 문서의 검색을 배제할 수 있다.

도 7은 본 발명에 따라 문서저장부(1)의 문서n(1n)으로부터 DSD를 작성하는 과정을 설명하는 도면으로서, 문서n(1n)은 '디지털 라디오 방송은 차세대 라디오 방송으로 불립니다. 디지털 라디오 방송은 FM으로 우선 실시할 예정입니다'라는 문장들로 구성되어 있고, 빈칸을 기준으로 서픽스 어레이(suffix array)를 구성하고 최대길이 문자열 비교(longest string match) 및 조사 인식에 의하여 반복된 단어 및 구문 "디지털 라디오 방송", "라디오 방송 ", "방송"을 검출하고, "디지털 라디오 방송", "라디오 방송", "방송"으로 이루어진 DSD_n을 작성한다.

DSD_n을 통해 문서n(1n)에서 중요한 단어/구문들이 무엇인지 명확히 알 수 있으며, 또한 새로운 구인 "디지털 라디오 방송"을 인식하는 것이 가능해 진다.

도 8은 본 발명의 다른 실시 예로서 특정문서로부터 당해 문서에 해당하는 DSD를 만드는 과정과 만들어진 DSD를 형태소 분석기에 적용한 예를 나타내는 도면이다. DSD의 생성은 단계(S1)에서 특정문서에 대해 서픽스 어레이(suffix array)를 생성하고, 단계(S2)에서 생성된 서픽스 어레이(suffix array)를 가나다 순으로 정렬한 후, 단계(S3)에서 최대길이 문자열 비교(longest string match) 및 나머지에 대한 조사 인식을 행하여, 단계(S4)에서 최대길이 문자열로부터 DSD를 만듦으로써 이루어진다. 생성된 DSD는 단계(S5)에서 기존의 시스템 형태소 사전(MD)과 통합됨으로써 새로이 문서에 대한 형태소 사전을 형성하거나 형태소 분석기에서 활용될 수 있다.

이상에서, 본 발명이 실시 예를 중심으로 설명되었지만, 본 발명의 기술적범위는 이에 한정되는 것은 아니다.

본 발명에 의한 사전을 이용함으로써, 검색시스템은 검색자가 의도하지 않은 문서들을 검색결과로부터 제외시킬 수 있다.

또한, 본 발명에 의한 사전 작성방법 및 작성을 위한 장치를 통해 새로운 어휘를 색인화하는 것이 가능해진다.

또한, 본 발명에 의한 사전 작성방법 및 작성을 위한 장치를 통해 중요한 단어/구문이 문서내에서 어떤 것인지 용이하게 알 수 있게 된다.

또한, 본 발명에 의한 사전 작성방법 및 작성을 위한 장치를 통해 단어가 조사를 포함하는 것인지 아니면 자체로 단어인지를 구분하는데 있어서 필요한 도구를 제공할 수 있게 된다.

본 발명의 사전은 자연어 처리에서 매우 어려운 문제의 하나인 형태적 중의성 해소에 이용될 수 있다. 예를 들어, "하나로"라는 단어가 어떤 문서에서 쓰였을 때, 그 단어만으로는 "하나로(고유명사)"라는 회사로 쓰였는지 "하나(수사)+로(조사)"로 분석되는 수사로 쓰였는지 알 수 없다. 본 발명의 사전은 그 문서에 대한 전체 문맥을 반영하고 있으므로 형태적 중의성을 해소하는 하나의 증거로서 이용될 수 있다.

또한, 본 발명의 사전은 도서명과 같이 명사만이 아니라 어절까지 포괄하는 구를 인식하고자 할 때도 그 판단 근거를 제시함으로써 구 단위 정보 검색을 보다 효과적으로 가능하게 할 수 있다.

도 1은 공개특허공보 제2002-0054254호를 설명하는 도면,

도 2는 공개특허공보 제2000-0039406호를 설명하는 도면,

도 3은 하나의 실시 예로서 본 발명을 구현한 형태를 나타내는 도면,

도 4a-4e는 본 발명에 따라 문서저장부(1)의 문서1(11)로부터 DSD를 작성하는 과정을 설명하는 도면,

도 5는 문서저장부(1)의 문서2(12)로부터 본 발명에 따라 작성된 DSD를 나타내는 도면,

도 6은 문서저장부(1)의 문서3(13)으로부터 본 발명에 따라 작성된 DSD를 나타내는 도면,

도 7은 본 발명에 따라 문서저장부(1)의 문서n(1n)으로부터 DSD를 작성하는 과정을 설명하는 도면,

도 8은 본 발명의 다른 실시 예로서 특정문서로부터 당해 문서에 해당하는 DSD를 만드는 과정과 만들어진 DSD를 형태소분석기에 적용한 예를 나타내는 도면.

Claims

하나 이상의 문서를 포함하는 문서저장부로부터 실행명령부의 실행명령에 근거하여 검출기로 특정문서를 가져오는 단계;

상기 검출기에서 당해 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하는 단계;

상기 검출기에서 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬하는 단계;

상기 검출기에서 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하는 단계; 그리고

상기 검출기에서 검출된 단어 및 구문으로부터 특정문서 고유사전(DSD)를 작성하는 단계;를 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법.
하나 이상의 문서를 저장하고 있는 문서저장기;

상기 문서저장기에 저장되어 있는 특정문서에 대한 사전작성의 실행을 명령하는 실행명령부;

상기 실행명령부로부터 실행명령을 받아 당해 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하고 그 서픽스 어레이(suffix array)내의 각 문자열 포인터들에 대해 가나다 순으로 정렬한 후, 정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하여 특정문서 고유사전(DSD)을 작성하는 검출기;를 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성을 위한 장치.
하나의 문서에 대해 공백 문자를 구분자로 하여 각 문자열에 대한 포인터 배열인 서픽스 어레이(suffix array)를 생성하는 단계;

서픽스 어레이(suffix array)서픽스 어레이(suffix array)열 포인터들에 대해 가나다 순으로 정렬하는 단계;

정렬된 문자열들에 대해 최대길이 문자열 비교(longest string match) 및 조사 인식에 의해 반복된 단어 및 구문을 검출하는 단계; 그리고

검출된 단어 및 구문으로부터 특정문서 고유사전(DSD)을 작성하는 단계;를 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법.
제3항에 있어서,

작성된 특정문서 고유사전(DSD)과 기존 형태소 사전을 통합하여 문서에 대한 형태소 분석 사전을 작성하는 단계;를 더 포함하는 것을 특징으로 하는 색인 및 형태소 분석에 이용되는 특정문서 고유사전의 작성방법.
제3항에 기재된 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.