KR20010055114A - 완전 해싱 기법을 이용한 한국어 형태소 분석기 성능 향상기법 - Google Patents

완전 해싱 기법을 이용한 한국어 형태소 분석기 성능 향상기법 Download PDF

Info

Publication number
KR20010055114A
KR20010055114A KR1019990056776A KR19990056776A KR20010055114A KR 20010055114 A KR20010055114 A KR 20010055114A KR 1019990056776 A KR1019990056776 A KR 1019990056776A KR 19990056776 A KR19990056776 A KR 19990056776A KR 20010055114 A KR20010055114 A KR 20010055114A
Authority
KR
South Korea
Prior art keywords
hashing
technique
syllable
word
input
Prior art date
Application number
KR1019990056776A
Other languages
English (en)
Other versions
KR100347055B1 (ko
Inventor
권혁철
Original Assignee
강상훈
정보통신연구진흥원
이동훈
(주)나눔정보테크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 강상훈, 정보통신연구진흥원, 이동훈, (주)나눔정보테크 filed Critical 강상훈
Priority to KR1019990056776A priority Critical patent/KR100347055B1/ko
Publication of KR20010055114A publication Critical patent/KR20010055114A/ko
Application granted granted Critical
Publication of KR100347055B1 publication Critical patent/KR100347055B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

한국어 형태소 분석기의 성능을 향상시키기 위한 방법으로 CORPUS를 이용한 방법이 있다. 이것을 이용하여 한국어 형태소 분석기의 성능을 향상시키려 할 때 기존의 방법은 Trie를 이용하여 구현이 되어 있다.
이 발명은 이미 분석이 된 어절의 형태소 분석 결과를 CORPUS 사전으로 만들고 모든 어절을 완전한 해싱기법을 이용하여 완전한 해싱함수를 만든다. 만들어진 완전한 해싱함수를 이용하여 어떤 입력된 어절이 있을 때 그 어절을 해싱하여 그 어절과 동일한 해싱값과 문자열을 갖는 형태소를 찾는다. 만약 찾았으면 그 어절에 대한 형태소 분석정보를 되돌린다. 이 기법을 이용하면 기존의 Trie사전 구조에 의한 기법이나 이진탐색기법 등 다른 탐색기법보다 속도측면에서 훨씬 뛰어난 성능을 보인다.
이 기법을 이용함으로써 이러한 방법으로 형태소 분석 결과를 찾을 때 다른 기법보다 빠른 한국어 형태소 분석기의 속도를 크게 향상시킬 수 있었다. 이 발명을 이용하면 형태소분석기, 맞춤법 검사기와 같은 한국어 정보처리 시스템에 사용할 수 있다.

Description

완전 해싱 기법을 이용한 한국어 형태소 분석기 성능 향상 기법{.}
이 발명은 형태소분석기, 맞춤법 검사기와 같은 한국어 정보처리 시스템 등에서 정보를 가져오는 속도를 개선하고, 이를 통해 한국어 정보처리의 성능을 향상시키는데 그 목적이 있다.
대부분의 형태소분석기에서는 Corpus(언어자료)를 이용하는 분석기법을 가지고 있다. 그러나 이 시스템들은 기존의 방법으로는 입력된 문자열에 해당하는 Corpus를 가져올 때까지 걸리는 탐색시간이 많이 걸린다, 따라서 형태소분석기의 속도가 저하되는 현상이 있다.
이 발명을 통해서 Corpus를 기반으로 한 형태소분석기의 처리속도를 증가시키고자 한다. 이것을 통해서 한국어 정보처리 시스템의 성능을 향상시키고자 한다.
[도1] 음소 단위 분석 함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색
[도2] 첫음절 DB, 음소 단위 분석함수와 완전 해싱 함수를 이용한 기본 명사 DB 자료 검색
[도3] 첫음절 DB, 음소 단위 분석 함수, 완전 해싱 함수와 음절간 규칙을 이용한 기본 명사 DB 검색
[도4] 완전한 해싱 함수를 이용한 Corpus DB 검색
[도5] 음절간의 규칙
[도6] KSC-5601 한글, 한자, 특수 문자 코드 영역
본 발명에서는 형태소분석기에서 Corpus를 찾아내기 위해 완전한 해싱을 이용한 탐색기법을 제안한다. 이 기법에서 제안하는 함수는 다음과 같다.
①Fhash()는 A라는 문자열을 C라는 코드 영역으로 변환하는 해싱함수이다. 그리고 이 함수는 Collision이 없는 완전한 해싱 함수이다.
②Fhash -1()는 해싱값 C로부터 원시 코드인 A를 복원하는 함수 있다. 이 함수는 Fhash()의 역함수로서 Fhash()이 완전 해싱 함수이므로 반드시 1대1로 대응하는 출력이 제시된다.
위의 조건을 만족하는 해싱 함수와 복원 함수를 이용하여 KSC-5601이나 Uni-code와 같은 코드 체계 내에서 처리가 가능할 뿐만 아니라 다른 코드체계, 다른 언어들에 대해서도 처리가 가능하다.
●빠른 언어자료검색을 위한 완전한 해싱 함수
완전한 해싱 함수의 조건은 다음과 같다.
Fhash(Ai) = Ck에서
①Ai는 입력되는 문자열이며 Ck는 완전한 해싱을 통해서 출력되는 숫자이다.
②다른 입력 문자열인 Am이 입력되어 완전한 해싱을 통해서 출력되는 숫자가 Cg라고 할 때 Ck와 Cg는 결코 같지 않다.
③출력되는 숫자의 범위는 A의 개수 만큼이다. 예를 들어 입력되는 문자열의 수가 100만개라고 할 때 출력되는 C의 범위는 0 ≤C≤100만-1 이다.
④A에서 C로의 일대일 함수관계가 성립한다.
●완전한 해싱기법을 이용한 한국어형태소분석기의 구현
1. 완전한 해싱기법을 이용한 한국어 형태소분석기 분석성능 향상 기법
형태소 분석기법은 입력된 단어에서 가능한 의미 형태소를 완전히 분석하는 것을 말한다.
예를 들어 '학교생활'이라는 단어가 입력되면 만들어질 수 있는 형태소는 다음과 같다.
학교생활 => {하, 학, 학ㄱ, 학교, 학교ㅅ, 학교사, 학교새, 학교생, 학교생ㅎ, 학교생호, 학교생화, 학교생활}
이렇게 분석된 단어는 8만개의 기본명사 사전, 조사/어미 사전과 규칙을 이용하여 형태소 분석을 한다. 이때 8만개의 명사 사전에서는 명사, 조사/어미 사전에서 해당하는 조사/어미를 찾을 때 사용되던 기존의 방법을 완전한 해싱기법을 이용하여 성능을 향상시키게 되었다.
2. 첫 음절 규칙과 완전한 해싱기법을 이용한 한국어 형태소분석기 성능 향상 기법
1의 방법에서 좀더 향상을 시키기 위해서 본 연구팀은 한국어에서 빈도수가 높은 100만개의 단어를 추출하여 그 단어의 평균 길이를 조사한 결과 평균적으로 약 2.5개의 음절이 사용됨을 알게 되었다. 따라서 단어 전(全)형태소 분석기법에서 첫 음절이 차지하는 비중이 약 30%에 해당하므로 한 음절에 대해 미리 분석한 형태소정보를 이용한다. 한 음절을 한글코드 2바이트 값으로 하나의 긴 문자열에 순서대로 저장한다. 입력되는 단어의 첫 음절과 한국어의 첫 음절인 '가'를 뺀 상대값을 이용하여 어떤 검색 기법을 사용하지 않고 해당하는 음절을 직접가게 함으로써 첫 음절 을 처리하는 비용을 줄여서 보다 성능이 향상되었다.
3. 음절간의 규칙과 완전한 해싱기법을 이용한 형태소 분석기법
음절간에는 한 음절 다음에 나올 수 있는 음소가 있고 그렇지 못한 음소가 있다. 이를 이용하여 나올 수 없는 음소는 미리 제거하여 비교횟수를 줄여서 성능을 향상시킬 수 있다. 이러한 규칙을 이용하면 약 10%정도의 비교횟수가 감소하고 앞에서 설명된 1, 2의 기법과 함께 이용하여 성능이 더욱 향상하게 되었다.
4. 완전한 해싱기법을 이용한 어절-형태소분석결과사전 검색속도 향상 기법
이미 분석이 된 단어를 다시 분석을 한다는 것은 시스템의 성능에 많은 지장을 주게 되므로 분석된 단어는 미리 그 정보를 확보하여 파일로 저장한다. 이렇게 저장된 정보를 이용하는 것이 어절-형태소분석결과사전 검색기법이다. 기존의 검색방법들은 사전의 크기에 대해서 검색속도가 사전크기에 비례하여 증가한다. 그러나 완전한 해싱기법을 이용하면 사전의 크기에 관계없이 검색속도는 거의 일정하다. 따라서 완전한 해싱기법을 이용한 어절-형태소분석결과사전 검색기법이 크게 향상되었다.
이 특허에서 제안한 함수를 이용하여 한국어 형태소 분석기를 구현하였다. 이를 통해 다음의 효과를 거두었다.
1) 한국어 형태소 분석기의 사전 검색 속도를 기존에 비해 개선함.
2) 한국어 정보 검색 시스템의 성능이 개선됨.

Claims (4)

  1. 완전 해싱을 이용한 음소단위로 분석된 어절의 기본명사 정보DB 검색 기법
    한국이 색인 기법 가운데 Corpus 사전을 이용하는 기법이 있다. 이 기법에서 한 어절이 입력이 될 때 그 어절을 음소단위로 분석을 한 후 그 결과를 완전 해싱을 이용하여 DB검색 기법이 가능하도록 한 것을 말한다.
    이 특허는 Corpus를 이용한 한국어 색인 기법에서 음소단위로 분석한 입력어절의 부분집합에 대한 검색시 완전 해싱 기법을 이용한 것을 그 범위로 한다. 각 언어에 따라 해싱 함수의 적용이 달라질 수 있다.
  2. 첫 음절 DB와 음소 단위 분석 함수, 그리고 완전 해싱 기법을 이용한 기본 명사 DB 검색 기법
    한국어 색인 기법 가운데 Corpus 사전을 이용하는 기법이 있다. 이 기법에서 한 어절이 입력 될 때 먼저 첫 음절은 포인팅을 통해서 검색을 하고 두 번째 음절부터는 [청구항1]에서 제시한 기법을 그대로 이용한 것을 그 범위로 한다. 직접 포인팅하는 음절의 길이를 다양한 변형이 가능하다.
  3. 첫 음절 DB와 음소 단위 분석 함수, 그리고 완전 해싱 기법과 규칙을 이용한 기본 명사 DB 검색 기법
    한국어 색인 기법 가운데 Corpus 사전을 이용하는 기법이 있다. 이 기법에서한 어절이 입력 될 때 먼저 첫 음절은 포인팅을 통해서 검색을 하고 두 번째 음절부터는 음소단위분석 함수를 통해서 분석된 입력 어절의 부분집합을 만드는 과정에서 음절간의 규칙을 통해서 부분집합의 원소를 줄인다. 이렇게 줄어든 부분집합을 [청구항1]에서 제시한 기법을 그대로 이용한 것을 그 범위로 한다. 규칙을 더 줄수록 입력어절에 대한 부분집합이 줄어들 수 있다.
  4. 완전한 해싱 함수를 이용한 Corpus DB 검색
    입력된 어절에 대해서 [청구항1]에서 제시된 어절단위분석 함수를 사용하지 않고 입력 어절 그대로를 검색하는 것을 말한다. 다른 언어에 대해서도 적용이 가능하다.
KR1019990056776A 1999-12-07 1999-12-07 한국어 형태소 분석방법 KR100347055B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1019990056776A KR100347055B1 (ko) 1999-12-07 1999-12-07 한국어 형태소 분석방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019990056776A KR100347055B1 (ko) 1999-12-07 1999-12-07 한국어 형태소 분석방법

Publications (2)

Publication Number Publication Date
KR20010055114A true KR20010055114A (ko) 2001-07-04
KR100347055B1 KR100347055B1 (ko) 2002-08-03

Family

ID=19625073

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990056776A KR100347055B1 (ko) 1999-12-07 1999-12-07 한국어 형태소 분석방법

Country Status (1)

Country Link
KR (1) KR100347055B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100782556B1 (ko) * 2006-02-15 2007-12-06 엔에이치엔(주) 질의어 자동완성 서비스 방법 및 상기 방법을 수행하는서버

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101117790B1 (ko) 2009-10-29 2012-02-29 송도규 품사별 결합 정보를 이용한 형태소 분석 시스템 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100782556B1 (ko) * 2006-02-15 2007-12-06 엔에이치엔(주) 질의어 자동완성 서비스 방법 및 상기 방법을 수행하는서버

Also Published As

Publication number Publication date
KR100347055B1 (ko) 2002-08-03

Similar Documents

Publication Publication Date Title
Kannan et al. Preprocessing techniques for text mining
US6466901B1 (en) Multi-language document search and retrieval system
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
Nie et al. On the use of words and n-grams for Chinese information retrieval
US7478033B2 (en) Systems and methods for translating Chinese pinyin to Chinese characters
US5890103A (en) Method and apparatus for improved tokenization of natural language text
JP2742115B2 (ja) 類似文書検索装置
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JPH0519184B2 (ko)
JPS6211932A (ja) 情報検索方法
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
KR20010055114A (ko) 완전 해싱 기법을 이용한 한국어 형태소 분석기 성능 향상기법
Eldos Arabic text data mining: A root-based hierarchical indexing model
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
KR100374114B1 (ko) 에이치티엠엘 기반 한글 용어/약어 하이퍼링크 생성기
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
Al-Abweeny et al. Arabic stemmer system based on rules of roots
JP3314720B2 (ja) 文字列検索装置
JP3508312B2 (ja) キーワード抽出装置
JP2900628B2 (ja) 辞書検索装置
KR19990084950A (ko) 역화일을 이용한 데이터 부분검색 장치 및 그 방법
JP3139624B2 (ja) 形態素解析装置
JP3339879B2 (ja) 文字認識装置
Morris A review of recent developments in term conflation approaches for Arabic text information retrieval

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee