KR100347055B1

KR100347055B1 - 한국어 형태소 분석방법

Info

Publication number: KR100347055B1
Application number: KR1019990056776A
Authority: KR
Inventors: 권혁철
Original assignee: 주식회사 엔비즈테크놀러지; 정보통신연구진흥원
Priority date: 1999-12-07
Filing date: 1999-12-07
Publication date: 2002-08-03
Also published as: KR20010055114A

Abstract

본 발명은 한국어 형태소분석방법에 관한 것으로, 본 발명에 따른 한국어 형태소 분석방법은 (a) 한국어의 기본명사, 조사 및 어미에 관한 정보를 저장한 데이터베이스를 구비한 후에, (b) 분석할 한국어 단어를 입력받아, (c) 위 입력받은 단어를 음소단위를 기준으로 생성 가능한 모든 형태소 후보를 추출하고, (d) 위 형태소 후보들을 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 해싱기법에 따라 검색하여 형태소를 확정하게 된다. 본 발명에 따르면 종래의 한국어 형태소 분석방법 보다 빠르게 형태소를 분석할 수 있게된다.

Description

한국어 형태소 분석방법{Korean morpheme analyzing method}

본 발명은 한국어 형태소분석방법에 관한 것으로, 특히 첫 음절규칙, 음절간의 규칙, 완전 해싱함수와 기본명사, 조사 및 어미사전, 어절-형태소분석결과사전 등을 이용한 한국어 형태소 분석방법에 관한 것이다.즉, 본 발명은 형태소분석기, 맞춤법 검사기와 같은 한국어 정보처리 시스템 등에서 정보를 가져오는 속도를 개선하고, 이를 통해 한국어 정보처리의 성능을 향상시키는데 그 목적이 있다고 할 수 있다.종래의 대부분의 형태소분석기에서는 언어자료(Corpus)를 이용하는 분석기법을 채택하고 있다. 그러나 종래의 시스템들이 사용하는 Tree사전 구조에 의한 기법이나 이진탐색기법 등의 방법으로는 입력된 문자열에 해당하는 언어자료를 가져올 때까지 걸리는 탐색시간이 많이 걸린다, 따라서 형태소분석기의 속도가 저하되는 문제점이 있었다.

본 발명이 이루고자 하는 기술적 과제는 처리속도가 빠른 한국어 형태소 분석방법을 제공하는데 있다.

도 1은 음소 단위 분석 함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.

도 2는 첫음절 DB, 음소 단위 분석함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.

도 3은 첫음절 DB, 음소 단위 분석 함수, 완전 해싱 함수와 음절간 규칙을 이용한 기본 명사 DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.

도 4는 완전한 해싱 함수를 이용한 언어자료(Corpus) DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.

도 5는 상기 도 3에서 이용한 음절간의 규칙을 예를 들어 보이고 있다.

도 6은 KSC-5601 한글, 한자, 특수 문자 코드 영역을 보이고 있다.

상기 과제를 해결하기 위한 본 발명에 따른 한국어 형태소 분석방법은 (a) 한국어의 기본명사, 조사 및 어미에 관한 정보를 저장한 데이터베이스를 구비하는 단계, (b) 분석할 한국어 단어를 입력받는 단계, (c) 상기 입력받은 단어를 음소단위를 기준으로 생성 가능한 모든 형태소 후보를 추출하는 단계, 및 (d) 상기 형태소 후보들을 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 해싱기법에 따라 검색하여 형태소를 확정하는 단계를 포함하는 것을 특징으로 한다. 또한 위 (d) 단계는 상기 입력받은 단어의 첫 음절에 대한 한글코드 값에서 한국어의 첫 음절인 '가'의 한글코드 값을 뺀 상대값에 기초하여 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 검색하여 형태소를 확정하는 단계일 수 있으며, 또한 위 (d) 단계 이전에 (e) 어떤 음절 다음에 올 수 있는 음소에 관한 규칙정보를 저장하는 데이터베이스를 구비하고, 이러한 규칙정보를 참조하여 상기 입력받은 단어로 부터 추출된 형태소 후보들 중 상기 규칙정보에 어긋나는 형태소 후보들을 제거하는 단계를 더 포함할 수 있다. 그리고 위 (d) 단계는 (f) 상기 입력받은 단어에 대한 형태소 분석이 끝나면, 상기 분석정보를 저장하는 데이터베이스인 어절-형태소분석결과사전을 구비하고, 상기 형태소 후보들을 상기 어절-형태소분석결과사전 상의 상기 입력받은 단어에 대한 형태소 분석정보를 해싱기법에 따라 검색하여 형태소를 확정하는 단계일 수 도 있다.이하에서는 본 발명에서 사용되는 해싱함수에 대하여 설명한다. 본 발명에서는 완전한 해싱함수를 이용한 탐색기법을 제안한다. 이 기법에서 사용되는 함수는 다음과 같이 정의된다.

여기서 ① F_hash(A)는 A라는 문자열을 C라는 코드 영역으로 변환하는 해싱함수이다. 그리고 이 함수는 충돌(Collision)이 없는 완전한 해싱 함수이다.

또한 ②F_hash ^-1(C)는 해싱값 C로부터 원시 코드인 A를 복원하는 함수 이다. 이 함수는 F_hash(A)의 역함수로서 F_hash(C)이 완전 해싱 함수이므로 반드시 1대1로 대응하는 출력이 제시된다. 위 수학식 1에서 정의된 완전한 해싱 함수의 조건은 다음과 같다.

F_hash(A_i) = C_k에서 ① A_i는 입력되는 문자열이며 C_k는 완전한 해싱을 통해서 출력되는 숫자이다. ② 다른 입력 문자열인 A_m이 입력되어 완전한 해싱을 통해서 출력되는 숫자가 C_g라고 할 때 C_k와 C_g는 결코 같지 않다. ③ 출력되는 숫자의 범위는 A의 개수 만큼이다. 예를 들어 입력되는 문자열의 수가 100만개라고 할 때 출력되는 C의 범위는 0 ≤C≤100만-1 이다. ④ A에서 C로의 일대일 함수관계가 성립한다.이하에서는 위 수학식 1에서 개시된 완전한 해싱함수를 이용한 해싱기법에 따라 한국어 형태소를 분석하는 방법을 설명한다.

형태소 분석이란 입력된 단어에서 가능한 의미 형태소를 완전히 분석하는 것을 말한다. 예를 들어 '학교생활'이라는 단어가 입력되면 만들어질 수 있는 형태소는 다음과 같다.학교생활 => {하, 학, 학ㄱ, 학교, 학교ㅅ, 학교사, 학교새, 학교생, 학교생ㅎ, 학교생호, 학교생화, 학교생활}

이렇게 분석된 단어는 8만개의 기본명사 사전, 조사/어미 사전과 규칙을 이용하여 형태소 분석을 한다. 이때 8만개의 명사 사전에서는 명사, 조사/어미 사전에서 해당하는 조사/어미를 찾을 때 사용되던 기존의 방법을 완전한 해싱기법을 이용하여 성능을 향상시키게 되었다.

이하에서는 첫 음절 규칙을 함께 이용한 한국어 형태소 분석방법을 설명한다. 한국어에서 빈도수가 높은 100만개의 단어를 추출하여 그 단어의 평균 길이를 조사한 결과 평균적으로 약 2.5개의 음절이 사용되는 결과를 얻게된다. 따라서 단어의 전(全)형태소 분석방법에서 첫 음절이 차지하는 비중이 약 30%에 해당하게되고, 한 음절에 대해 미리 분석한 형태소정보를 이용하는 방법이 상기 첫 음절 규칙을 함께 이용한 한국어 형태소 분석방법이다.먼저 한 음절을 한글코드 2바이트 값으로 하여 하나의 긴 문자열에 순서대로 저장한다. 그 후 입력되는 단어의 첫 음절과 한국어의 첫 음절인 '가'를 뺀 상대값을 이용하여 어떤 검색 기법을 사용하지 않고 해당하는 음절을 곧바로 탐색가능하도록 한다.이후에서는 음절간의 규칙과 완전한 해싱기법을 이용한 형태소 분석방법에 대하여 설명한다. 음절간에는 한 음절 다음에 나올 수 있는 음소가 있고 그렇지 못한 음소가 있다. 이를 이용하여 나올 수 없는 음소는 미리 제거하여 형태소 추출을 위한 탐색시에 비교횟수를 줄여서 성능을 향상시킬 수 있다. 이러한 규칙을 이용하면 약 10%정도의 비교횟수가 감소하고 앞에서 설명된 1, 2의 기법과 함께 사용할 수 있다.이하에서는 완전한 해싱기법을 이용한 어절-형태소분석결과사전을 검색하는 한국어 형태소 분석방법에 대하여 설명한다. 한번 분석이된 단어를 다시 분석한다는 것은 비효율적이므로 한번 형태소 분석된 단어는 미리 그 분석결과정보를 파일로 저장한다. 그리고 어떤 단어를 분석하고자 할때에는 이렇게 저장된 정보를 먼저 탐색하여 보므로써 한번 분석된 결과정보를 반복하여 이용할 수 있게 된다. 이렇게 분석된 결과정보를 이용하는 것이 어절-형태소분석결과사전 검색기법이다. 기존의 검색방법들은 사전의 크기에 대해서 검색속도가 사전크기에 비례하여 증가하였으나,완전한 해싱기법을 이용하면 사전의 크기에 관계없이 검색속도는 거의 일정하다.이하에서는 도면을 참조하여 본원발명의 바람직한 실시예를 상세히 설명한다.도 1은 음소 단위 분석 함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.먼저 분석할 문자열을 입력받는다. 입력받은 문자열은 음소단위분석함수를 이용하여 음소단위로 발생할 수 있는 모든 형태소 후보를 생성하게 된다(101). 그리고 위의 수학식 1에서 정의된 완전 해싱함수를 이용하여 기본명사 데이터베이스(103)에서 형태소를 검색(102)하게 된다. 그 결과 해당문자열 정보를 추출하게 된다.도 2는 첫음절 DB, 음소 단위 분석함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.먼저 분석할 문자열을 입력받고, 첫 음절 데이터베이스(201)를 참조하여 첫 음절에 일치하는 형태소 후보를 음소단위로 분석하여 추출(202)하게된다. 그 후 위의 수학식 1에서 정의된 완전 해싱함수(203)를 이용하여 기본명사 데이터베이스를 검색(204)하여 해당 문자열의 정보를 추출하게 된다.도 3은 첫음절 DB, 음소 단위 분석 함수, 완전 해싱 함수와 음절간 규칙을 이용한 기본 명사 DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.먼저 분석할 문자열을 입력받고, 첫 음절 데이터베이스(301)를 참조하여 첫 음절에 일치하는 형태소 후보를 음소단위로 분석하여 추출(302)하게된다. 이때 음절간의 규칙 즉, 어떤 음절 다음에는 일정한 음소만이 올 수 있는 규칙에 맞는 형태소 후보를 추출하고(305), 이에 대하여 기본명사 데이타베이스를 검색(304)하여 해당 문자열의 정보를 추출하게 된다.도 4는 완전한 해싱 함수를 이용한 언어자료(Corpus) DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다. 먼저 분석할 문자열을 입력받고, 수학식 1에서 정의된 완전해싱함수(401)를 이용하여 언어자료데이터베이스(402)를 검색하여 해당 문자열의 정보를 추출한다. 여기서 언어자료데이터베이스는 어떤 문자열에 대하여 형태소분석이 이루어진 경우 그 결과 정보를 저장한 어절-형태소분석결과사전을 말한다.도 5는 상기 도 3에서 이용한 음절간의 규칙을 예를 들어 보이고 있으며, 도 6은 KSC-5601 한글, 한자, 특수 문자 코드 영역을 보이고 있다.

완전한 해싱함수를 이용하여 기본명사, 조사 및 어미에 관한 정보를 검색하거나, 한번 형태소 분석이 이루어진 단어의 분석결과정보를 검색하므로써 상기 정보의 양에 관계없이 검색속도를 일정하게 유지할 수 있게된다. 또한 수학식 1에서 제안된 해싱함수 및 복원함수를 이용하면 KSC-5601이나 Uni-code와 같은 코드 체계 내에서 처리가 가능할 뿐만 아니라 다른 코드체계, 다른 언어들에 대해서도 처리가 가능하게 된다. 여기에다 첫 음절규칙 및 어떤 음절 다음에는 일정한 음소이외에는 올 수 없는 규칙을 이용하여 상기 기본명사, 조사 및 어미사전 또는 어절-형태소분석결과사전을 검색할 때에 검색속도를 종래의 한국어 행태소 분석방법에 비하여 현저하게 높일 수 있게된다.

Claims

(a) 한국어의 기본명사, 조사 및 어미를 그에 대응되는 소정의 해싱함수 값과 함께 저장한 데이터베이스를 구비하는 단계;

(b) 분석할 한국어 단어를 입력받는 단계;

(c) 상기 입력받은 단어를 음소단위를 기준으로 생성 가능한 모든 형태소 후보를 추출하는 단계; 및

(d) 상기 형태소 후보들에 대한 상기 해싱함수 값을 구하고, 상기 형태소 후보들의 상기 해싱함수 값과 동일한 해싱함수 값을 갖는 기본명사, 조사 및 어미를 상기 데이터베이스에서 검색하여 형태소를 확정하는 단계를 포함하는 것을 특징으로 하는 한국어 형태소 분석방법.
제1항에 있어서, 상기 (d) 단계는

상기 입력받은 단어의 첫 음절에 대한 한글코드 값에서 한국어의 첫 음절인 '가'의 한글코드 값을 뺀 상대값에 기초하여 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 검색하여 형태소를 확정하는 단계인 것을 특징으로 하는 한국어 형태소 분석방법.
제1항에 있어서, 상기 (d) 단계 이전에

(e) 어떤 음절 다음에 올 수 있는 음소에 관한 규칙정보를 저장하는 데이터베이스를 구비하고, 이러한 규칙정보를 참조하여 상기 입력받은 단어로 부터 추출된 형태소 후보들 중 상기 규칙정보에 어긋나는 형태소 후보들을 제거하는 단계를 더 포함하는 것을 특징으로 하는 한국어 형태소 분석방법.
제1항에 있어서, 상기 (d) 단계는

(f) 상기 입력받은 단어에 대한 형태소 분석이 끝나면, 상기 분석정보를 저장하는 데이터베이스인 어절-형태소분석결과사전을 구비하고, 상기 형태소 후보들을 상기 어절-형태소분석결과사전 상의 상기 입력받은 단어에 대한 형태소 분석정보를 해싱기법에 따라 검색하여 형태소를 확정하는 단계인 것을 특징으로 하는 한국어 형태소 분석방법.