KR100347055B1 - 한국어 형태소 분석방법 - Google Patents

한국어 형태소 분석방법 Download PDF

Info

Publication number
KR100347055B1
KR100347055B1 KR1019990056776A KR19990056776A KR100347055B1 KR 100347055 B1 KR100347055 B1 KR 100347055B1 KR 1019990056776 A KR1019990056776 A KR 1019990056776A KR 19990056776 A KR19990056776 A KR 19990056776A KR 100347055 B1 KR100347055 B1 KR 100347055B1
Authority
KR
South Korea
Prior art keywords
morpheme
korean
information
word
syllable
Prior art date
Application number
KR1019990056776A
Other languages
English (en)
Other versions
KR20010055114A (ko
Inventor
권혁철
Original Assignee
주식회사 엔비즈테크놀러지
정보통신연구진흥원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 엔비즈테크놀러지, 정보통신연구진흥원 filed Critical 주식회사 엔비즈테크놀러지
Priority to KR1019990056776A priority Critical patent/KR100347055B1/ko
Publication of KR20010055114A publication Critical patent/KR20010055114A/ko
Application granted granted Critical
Publication of KR100347055B1 publication Critical patent/KR100347055B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 한국어 형태소분석방법에 관한 것으로, 본 발명에 따른 한국어 형태소 분석방법은 (a) 한국어의 기본명사, 조사 및 어미에 관한 정보를 저장한 데이터베이스를 구비한 후에, (b) 분석할 한국어 단어를 입력받아, (c) 위 입력받은 단어를 음소단위를 기준으로 생성 가능한 모든 형태소 후보를 추출하고, (d) 위 형태소 후보들을 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 해싱기법에 따라 검색하여 형태소를 확정하게 된다. 본 발명에 따르면 종래의 한국어 형태소 분석방법 보다 빠르게 형태소를 분석할 수 있게된다.

Description

한국어 형태소 분석방법{Korean morpheme analyzing method}
본 발명은 한국어 형태소분석방법에 관한 것으로, 특히 첫 음절규칙, 음절간의 규칙, 완전 해싱함수와 기본명사, 조사 및 어미사전, 어절-형태소분석결과사전 등을 이용한 한국어 형태소 분석방법에 관한 것이다.즉, 본 발명은 형태소분석기, 맞춤법 검사기와 같은 한국어 정보처리 시스템 등에서 정보를 가져오는 속도를 개선하고, 이를 통해 한국어 정보처리의 성능을 향상시키는데 그 목적이 있다고 할 수 있다.종래의 대부분의 형태소분석기에서는 언어자료(Corpus)를 이용하는 분석기법을 채택하고 있다. 그러나 종래의 시스템들이 사용하는 Tree사전 구조에 의한 기법이나 이진탐색기법 등의 방법으로는 입력된 문자열에 해당하는 언어자료를 가져올 때까지 걸리는 탐색시간이 많이 걸린다, 따라서 형태소분석기의 속도가 저하되는 문제점이 있었다.
본 발명이 이루고자 하는 기술적 과제는 처리속도가 빠른 한국어 형태소 분석방법을 제공하는데 있다.
도 1은 음소 단위 분석 함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.
도 2는 첫음절 DB, 음소 단위 분석함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.
도 3은 첫음절 DB, 음소 단위 분석 함수, 완전 해싱 함수와 음절간 규칙을 이용한 기본 명사 DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.
도 4는 완전한 해싱 함수를 이용한 언어자료(Corpus) DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.
도 5는 상기 도 3에서 이용한 음절간의 규칙을 예를 들어 보이고 있다.
도 6은 KSC-5601 한글, 한자, 특수 문자 코드 영역을 보이고 있다.
상기 과제를 해결하기 위한 본 발명에 따른 한국어 형태소 분석방법은 (a) 한국어의 기본명사, 조사 및 어미에 관한 정보를 저장한 데이터베이스를 구비하는 단계, (b) 분석할 한국어 단어를 입력받는 단계, (c) 상기 입력받은 단어를 음소단위를 기준으로 생성 가능한 모든 형태소 후보를 추출하는 단계, 및 (d) 상기 형태소 후보들을 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 해싱기법에 따라 검색하여 형태소를 확정하는 단계를 포함하는 것을 특징으로 한다. 또한 위 (d) 단계는 상기 입력받은 단어의 첫 음절에 대한 한글코드 값에서 한국어의 첫 음절인 '가'의 한글코드 값을 뺀 상대값에 기초하여 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 검색하여 형태소를 확정하는 단계일 수 있으며, 또한 위 (d) 단계 이전에 (e) 어떤 음절 다음에 올 수 있는 음소에 관한 규칙정보를 저장하는 데이터베이스를 구비하고, 이러한 규칙정보를 참조하여 상기 입력받은 단어로 부터 추출된 형태소 후보들 중 상기 규칙정보에 어긋나는 형태소 후보들을 제거하는 단계를 더 포함할 수 있다. 그리고 위 (d) 단계는 (f) 상기 입력받은 단어에 대한 형태소 분석이 끝나면, 상기 분석정보를 저장하는 데이터베이스인 어절-형태소분석결과사전을 구비하고, 상기 형태소 후보들을 상기 어절-형태소분석결과사전 상의 상기 입력받은 단어에 대한 형태소 분석정보를 해싱기법에 따라 검색하여 형태소를 확정하는 단계일 수 도 있다.이하에서는 본 발명에서 사용되는 해싱함수에 대하여 설명한다. 본 발명에서는 완전한 해싱함수를 이용한 탐색기법을 제안한다. 이 기법에서 사용되는 함수는 다음과 같이 정의된다.
여기서 ① Fhash(A)는 A라는 문자열을 C라는 코드 영역으로 변환하는 해싱함수이다. 그리고 이 함수는 충돌(Collision)이 없는 완전한 해싱 함수이다.
또한 ②Fhash -1(C)는 해싱값 C로부터 원시 코드인 A를 복원하는 함수 이다. 이 함수는 Fhash(A)의 역함수로서 Fhash(C)이 완전 해싱 함수이므로 반드시 1대1로 대응하는 출력이 제시된다. 위 수학식 1에서 정의된 완전한 해싱 함수의 조건은 다음과 같다.
Fhash(Ai) = Ck에서 ① Ai는 입력되는 문자열이며 Ck는 완전한 해싱을 통해서 출력되는 숫자이다. ② 다른 입력 문자열인 Am이 입력되어 완전한 해싱을 통해서 출력되는 숫자가 Cg라고 할 때 Ck와 Cg는 결코 같지 않다. ③ 출력되는 숫자의 범위는 A의 개수 만큼이다. 예를 들어 입력되는 문자열의 수가 100만개라고 할 때 출력되는 C의 범위는 0 ≤C≤100만-1 이다. ④ A에서 C로의 일대일 함수관계가 성립한다.이하에서는 위 수학식 1에서 개시된 완전한 해싱함수를 이용한 해싱기법에 따라 한국어 형태소를 분석하는 방법을 설명한다.
형태소 분석이란 입력된 단어에서 가능한 의미 형태소를 완전히 분석하는 것을 말한다. 예를 들어 '학교생활'이라는 단어가 입력되면 만들어질 수 있는 형태소는 다음과 같다.학교생활 => {하, 학, 학ㄱ, 학교, 학교ㅅ, 학교사, 학교새, 학교생, 학교생ㅎ, 학교생호, 학교생화, 학교생활}
이렇게 분석된 단어는 8만개의 기본명사 사전, 조사/어미 사전과 규칙을 이용하여 형태소 분석을 한다. 이때 8만개의 명사 사전에서는 명사, 조사/어미 사전에서 해당하는 조사/어미를 찾을 때 사용되던 기존의 방법을 완전한 해싱기법을 이용하여 성능을 향상시키게 되었다.
이하에서는 첫 음절 규칙을 함께 이용한 한국어 형태소 분석방법을 설명한다. 한국어에서 빈도수가 높은 100만개의 단어를 추출하여 그 단어의 평균 길이를 조사한 결과 평균적으로 약 2.5개의 음절이 사용되는 결과를 얻게된다. 따라서 단어의 전(全)형태소 분석방법에서 첫 음절이 차지하는 비중이 약 30%에 해당하게되고, 한 음절에 대해 미리 분석한 형태소정보를 이용하는 방법이 상기 첫 음절 규칙을 함께 이용한 한국어 형태소 분석방법이다.먼저 한 음절을 한글코드 2바이트 값으로 하여 하나의 긴 문자열에 순서대로 저장한다. 그 후 입력되는 단어의 첫 음절과 한국어의 첫 음절인 '가'를 뺀 상대값을 이용하여 어떤 검색 기법을 사용하지 않고 해당하는 음절을 곧바로 탐색가능하도록 한다.이후에서는 음절간의 규칙과 완전한 해싱기법을 이용한 형태소 분석방법에 대하여 설명한다. 음절간에는 한 음절 다음에 나올 수 있는 음소가 있고 그렇지 못한 음소가 있다. 이를 이용하여 나올 수 없는 음소는 미리 제거하여 형태소 추출을 위한 탐색시에 비교횟수를 줄여서 성능을 향상시킬 수 있다. 이러한 규칙을 이용하면 약 10%정도의 비교횟수가 감소하고 앞에서 설명된 1, 2의 기법과 함께 사용할 수 있다.이하에서는 완전한 해싱기법을 이용한 어절-형태소분석결과사전을 검색하는 한국어 형태소 분석방법에 대하여 설명한다. 한번 분석이된 단어를 다시 분석한다는 것은 비효율적이므로 한번 형태소 분석된 단어는 미리 그 분석결과정보를 파일로 저장한다. 그리고 어떤 단어를 분석하고자 할때에는 이렇게 저장된 정보를 먼저 탐색하여 보므로써 한번 분석된 결과정보를 반복하여 이용할 수 있게 된다. 이렇게 분석된 결과정보를 이용하는 것이 어절-형태소분석결과사전 검색기법이다. 기존의 검색방법들은 사전의 크기에 대해서 검색속도가 사전크기에 비례하여 증가하였으나,완전한 해싱기법을 이용하면 사전의 크기에 관계없이 검색속도는 거의 일정하다.이하에서는 도면을 참조하여 본원발명의 바람직한 실시예를 상세히 설명한다.도 1은 음소 단위 분석 함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.먼저 분석할 문자열을 입력받는다. 입력받은 문자열은 음소단위분석함수를 이용하여 음소단위로 발생할 수 있는 모든 형태소 후보를 생성하게 된다(101). 그리고 위의 수학식 1에서 정의된 완전 해싱함수를 이용하여 기본명사 데이터베이스(103)에서 형태소를 검색(102)하게 된다. 그 결과 해당문자열 정보를 추출하게 된다.도 2는 첫음절 DB, 음소 단위 분석함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.먼저 분석할 문자열을 입력받고, 첫 음절 데이터베이스(201)를 참조하여 첫 음절에 일치하는 형태소 후보를 음소단위로 분석하여 추출(202)하게된다. 그 후 위의 수학식 1에서 정의된 완전 해싱함수(203)를 이용하여 기본명사 데이터베이스를 검색(204)하여 해당 문자열의 정보를 추출하게 된다.도 3은 첫음절 DB, 음소 단위 분석 함수, 완전 해싱 함수와 음절간 규칙을 이용한 기본 명사 DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다.먼저 분석할 문자열을 입력받고, 첫 음절 데이터베이스(301)를 참조하여 첫 음절에 일치하는 형태소 후보를 음소단위로 분석하여 추출(302)하게된다. 이때 음절간의 규칙 즉, 어떤 음절 다음에는 일정한 음소만이 올 수 있는 규칙에 맞는 형태소 후보를 추출하고(305), 이에 대하여 기본명사 데이타베이스를 검색(304)하여 해당 문자열의 정보를 추출하게 된다.도 4는 완전한 해싱 함수를 이용한 언어자료(Corpus) DB 검색을 통하여 해당 문자열 정보를 추출하는 과정을 보이고 있다. 먼저 분석할 문자열을 입력받고, 수학식 1에서 정의된 완전해싱함수(401)를 이용하여 언어자료데이터베이스(402)를 검색하여 해당 문자열의 정보를 추출한다. 여기서 언어자료데이터베이스는 어떤 문자열에 대하여 형태소분석이 이루어진 경우 그 결과 정보를 저장한 어절-형태소분석결과사전을 말한다.도 5는 상기 도 3에서 이용한 음절간의 규칙을 예를 들어 보이고 있으며, 도 6은 KSC-5601 한글, 한자, 특수 문자 코드 영역을 보이고 있다.
완전한 해싱함수를 이용하여 기본명사, 조사 및 어미에 관한 정보를 검색하거나, 한번 형태소 분석이 이루어진 단어의 분석결과정보를 검색하므로써 상기 정보의 양에 관계없이 검색속도를 일정하게 유지할 수 있게된다. 또한 수학식 1에서 제안된 해싱함수 및 복원함수를 이용하면 KSC-5601이나 Uni-code와 같은 코드 체계 내에서 처리가 가능할 뿐만 아니라 다른 코드체계, 다른 언어들에 대해서도 처리가 가능하게 된다. 여기에다 첫 음절규칙 및 어떤 음절 다음에는 일정한 음소이외에는 올 수 없는 규칙을 이용하여 상기 기본명사, 조사 및 어미사전 또는 어절-형태소분석결과사전을 검색할 때에 검색속도를 종래의 한국어 행태소 분석방법에 비하여 현저하게 높일 수 있게된다.

Claims (4)

  1. (a) 한국어의 기본명사, 조사 및 어미를 그에 대응되는 소정의 해싱함수 값과 함께 저장한 데이터베이스를 구비하는 단계;
    (b) 분석할 한국어 단어를 입력받는 단계;
    (c) 상기 입력받은 단어를 음소단위를 기준으로 생성 가능한 모든 형태소 후보를 추출하는 단계; 및
    (d) 상기 형태소 후보들에 대한 상기 해싱함수 값을 구하고, 상기 형태소 후보들의 상기 해싱함수 값과 동일한 해싱함수 값을 갖는 기본명사, 조사 및 어미를 상기 데이터베이스에서 검색하여 형태소를 확정하는 단계를 포함하는 것을 특징으로 하는 한국어 형태소 분석방법.
  2. 제1항에 있어서, 상기 (d) 단계는
    상기 입력받은 단어의 첫 음절에 대한 한글코드 값에서 한국어의 첫 음절인 '가'의 한글코드 값을 뺀 상대값에 기초하여 상기 데이터베이스에 저장된 기본명사, 조사 및 어미에 관한 정보를 검색하여 형태소를 확정하는 단계인 것을 특징으로 하는 한국어 형태소 분석방법.
  3. 제1항에 있어서, 상기 (d) 단계 이전에
    (e) 어떤 음절 다음에 올 수 있는 음소에 관한 규칙정보를 저장하는 데이터베이스를 구비하고, 이러한 규칙정보를 참조하여 상기 입력받은 단어로 부터 추출된 형태소 후보들 중 상기 규칙정보에 어긋나는 형태소 후보들을 제거하는 단계를 더 포함하는 것을 특징으로 하는 한국어 형태소 분석방법.
  4. 제1항에 있어서, 상기 (d) 단계는
    (f) 상기 입력받은 단어에 대한 형태소 분석이 끝나면, 상기 분석정보를 저장하는 데이터베이스인 어절-형태소분석결과사전을 구비하고, 상기 형태소 후보들을 상기 어절-형태소분석결과사전 상의 상기 입력받은 단어에 대한 형태소 분석정보를 해싱기법에 따라 검색하여 형태소를 확정하는 단계인 것을 특징으로 하는 한국어 형태소 분석방법.
KR1019990056776A 1999-12-07 1999-12-07 한국어 형태소 분석방법 KR100347055B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990056776A KR100347055B1 (ko) 1999-12-07 1999-12-07 한국어 형태소 분석방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990056776A KR100347055B1 (ko) 1999-12-07 1999-12-07 한국어 형태소 분석방법

Publications (2)

Publication Number Publication Date
KR20010055114A KR20010055114A (ko) 2001-07-04
KR100347055B1 true KR100347055B1 (ko) 2002-08-03

Family

ID=19625073

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990056776A KR100347055B1 (ko) 1999-12-07 1999-12-07 한국어 형태소 분석방법

Country Status (1)

Country Link
KR (1) KR100347055B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101117790B1 (ko) 2009-10-29 2012-02-29 송도규 품사별 결합 정보를 이용한 형태소 분석 시스템 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100782556B1 (ko) * 2006-02-15 2007-12-06 엔에이치엔(주) 질의어 자동완성 서비스 방법 및 상기 방법을 수행하는서버

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101117790B1 (ko) 2009-10-29 2012-02-29 송도규 품사별 결합 정보를 이용한 형태소 분석 시스템 및 방법

Also Published As

Publication number Publication date
KR20010055114A (ko) 2001-07-04

Similar Documents

Publication Publication Date Title
US5890103A (en) Method and apparatus for improved tokenization of natural language text
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
CN1954315B (zh) 用于将汉语拼音翻译成汉字的系统和方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
KR100481598B1 (ko) 복합 형태소 분석 장치 및 방법
KR100347055B1 (ko) 한국어 형태소 분석방법
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
KR20200073524A (ko) 특허 문서의 키프레이즈 추출 장치 및 방법
US8131537B2 (en) Apparatus and method for morphological analysis
KR100617317B1 (ko) 복합 명사 전문용어 사전 엔트리의 재분석 방법 및 그 장치
Kasthuri et al. An improved rule based iterative affix stripping stemmer for Tamil language using K-mean clustering
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
CN113330430A (zh) 语句结构向量化装置、语句结构向量化方法及语句结构向量化程序
Pimpalshende et al. Pre-processing phase of Hindi language text summarization System
JP3314720B2 (ja) 文字列検索装置
JP3339879B2 (ja) 文字認識装置
JP3123181B2 (ja) 文字認識装置
JP2001022752A (ja) 文字組抽出方法、文字組抽出装置および文字組抽出のための記録媒体
JP3139624B2 (ja) 形態素解析装置
JPH0954781A (ja) 文書検索システム
CN116484008A (zh) 基于知识图谱和向量搜索引擎的智能荐题方法
CN115238686A (zh) 一种基于人工智能的藏语数据处理方法
Lap et al. Indexing multilingual information on the web
Rajan et al. Application of Letter Successor Varieties in Tamil Morphological Analysis

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee