KR20190066859A - 한국어 형태소 분석방법 - Google Patents

한국어 형태소 분석방법 Download PDF

Info

Publication number
KR20190066859A
KR20190066859A KR1020170166684A KR20170166684A KR20190066859A KR 20190066859 A KR20190066859 A KR 20190066859A KR 1020170166684 A KR1020170166684 A KR 1020170166684A KR 20170166684 A KR20170166684 A KR 20170166684A KR 20190066859 A KR20190066859 A KR 20190066859A
Authority
KR
South Korea
Prior art keywords
verb
noun
compound
morpheme
word
Prior art date
Application number
KR1020170166684A
Other languages
English (en)
Inventor
김현주
이영민
천승태
Original Assignee
주식회사 데이터스트림즈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 데이터스트림즈 filed Critical 주식회사 데이터스트림즈
Priority to KR1020170166684A priority Critical patent/KR20190066859A/ko
Publication of KR20190066859A publication Critical patent/KR20190066859A/ko

Links

Images

Classifications

    • G06F17/2755

Landscapes

  • Machine Translation (AREA)

Abstract

문법 기반으로 한국어 형태소를 분석함으로써, 모든 품사의 형태소 분석이 가능하도록 한 한국어 형태소 분석방법에 관한 것으로서, 입력 대상을 한국어의 띄어쓰기 대상인 어절로 추출하고, 추출한 어절의 형태소를 추출한 후 낱말 분석을 통해 품사를 확인하는 단계 및 상기 확인한 품사를 기초로 한국어 파서(KR Parser)를 이용하여 조사와 어미를 분석하고, 복합 명사를 처리하여 형태소를 분석하는 단계를 포함하여, 한국어 형태소 분석기에 적용할 한국어 형태소 분석방법을 제공한다.

Description

한국어 형태소 분석방법{Korean morphological analysis method}
본 발명은 한국어 형태소 분석방법에 관한 것으로, 특히 문법 기반으로 한국어 형태소를 분석함으로써, 모든 어절의 형태소 분석이 가능하도록 한 한국어 형태소 분석방법에 관한 것이다.
한국어는 교착어로서 그 특성상 굴절어나 고립어에 비하여 형태소 분석기를 개발하기가 쉽지가 않다. 문법범주와 어휘범주가 결합되는 과정에서 복잡한 형태론적, 음운론적 특성으로 인하여 그 원래의 형태를 분석하기가 쉽지 않기 때문이다.
한국어 형태소 분석은 기본적으로 '명사+조사', '동사+어미'의 유형(pattern)이 주류를 이루지만 그 유형은 상당히 다양하게 나타난다.
한국어 형태소 분석을 위해 종래에 제안된 기술이 하기의 <특허문헌 1> 내지 <특허문헌 2> 에 게시되어 있다.
<특허문헌 1> 에 게시된 종래기술은 사전 데이터베이스를 관리하여 분석 사전을 관리하는 사전 관리부, 상기 사전 관리부에서의 분석 사전 관리 결과를 전달받고, 체언 분석, 용언 분석, 수사 분석, 미등록 분석, 독립언 분석, 유형별 형태소 분석 중에서 하나 이상의 분석을 모듈화하여 형태소 분석을 수행하는 형태소 분석부, 상기 형태소 분석부에서의 형태소 분석 결과를 전달받고 색인을 제공하는 색인 제공부를 포함하여 구성된다.
이러한 구성을 통해 어절분석 속도의 최대화, 형태소 분석기의 모듈화 및 구조화가 가능하도록 하며, 대용량의 데이터에 대한 자동 색인을 효율적으로 수행할 수 있게 되는 것이다.
<특허문헌 2> 에 게시된 종래기술은 주어진 어절로부터 형태소를 분리하여 원형 어절이 생성될 확률을 획득하는 원형 복원 모델 획득 단계, 상기 원형 어절이 주어지고, 그 원형 어절을 형태소 분리하여 분리된 형태소 단위의 리스트가 생성될 확률을 획득하는 형태소 분리 모델 획득 단계, 상기 분리된 형태소 단위의 리스트가 주어지고, 그 분리된 형태소 단위의 리스트에 대응되는 태그(품사) 리스트가 생성될 확률을 획득하는 형태소 태깅 모델 획득 단계; 및 상기 원형 복원 모델, 형태소 분리 모델 및 태깅 모델을 곱셈 연산하여 형태소 분석 모델을 획득하는 단계를 수행한다.
이러한 과정을 통해, 원형 복원 모델 획득단계, 형태소 분리 모델 획득 단계 및 형태소 태깅 모델 획득 단계 시 확률적으로 가장 높은 후보를 우선적으로 표시하여 통계적으로 형태소를 분석한다.
대한민국 등록특허 10-0835706호(2008.05.30. 등록)(발명의 명칭; 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법) 대한민국 등록특허 10-1072460호(2011.10.05. 등록)(발명의 명칭: 한국어 형태소 분석 방법)
그러나 상기와 같은 종래기술은 사전을 구축하고 규칙을 정립하는 데 많은 시간과 노력이 요구되며, 언어 변화에 따라 사전과 규칙을 주기적으로 관리해주어야 하는 복잡함이 있다.
따라서 본 발명은 상기와 같은 종래기술에서 발생하는 제반 문제점을 해결하기 위해서 제안된 것으로서, 문법 기반으로 한국어 형태소를 분석함으로써, 모든 어절의 형태소 분석이 가능하도록 한 한국어 형태소 분석방법을 제공하는 데 그 목적이 있다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명에 따른 한국어 형태소 분석방법은 (a) 입력 대상을 한국어의 띄어쓰기 대상인 어절로 추출하고, 추출한 어절의 형태소를 추출한 후 낱말 분석을 통해 품사를 확인하는 단계; (b) 상기 (a)단계에서 확인한 품사를 기초로 한국어 파서(KRParser)를 이용하여 조사와 어미를 분석하고, 복합 명사를 처리하여 형태소를 분석하는 단계를 포함하는 것을 특징으로 한다.
상기에서 (a)단계는 입력 대상으로부터 추출한 어절의 유형을 하기와 같이 단순화하는 것을 특징으로 한다.
명사-조사, 명사-서술격조사-어미, 명사-서술격조사-선어말어미-어미, 명사-서술격조사-어미-조사, 명사-서술격조사-선어말어미-어미-조사, 명사-용언화접사-어미, 명사-용언화접사-선어말어미-어미, 명사-용언화접사-어미-조사, 명사-용언화접사-선어말어미-어미-조사, 동사-어미, 동사-선어말어미-어미, 동사-어미-조사, 동사-선어말어미-어미-조사, 부사-조사, 어미, 조사, 부사-요.
상기에서 (a)단계의 품사 확인은 어절의 뒤에서부터 조사와 어미를 확인하는 과정을 통해 이루어지는 것을 특징으로 한다.
상기에서 (b)단계는 단순 단어 분석기(Simple Word Analyzer)와 규칙 기반 분석기(Rule Base Analyzer) 및 복합 분석기(Compound Analyzer)를 이용하여 형태소를 분석하는 것을 특징으로 한다.
상기에서 규칙 기반 분석기는 조사 분석과 어미 분석 및 불규칙 활용 분석을 통해 형태소를 분석하는 것을 특징으로 한다.
상기에서 복합 분석기는 복합 명사 처리 알고리즘을 이용하여 형태소를 분석하는 것을 특징으로 한다.
상기에서 복합 분석기는 (c1) 단어가 입력되면 입력 단어를 저장하고, 글자 수를 확인하는 단계; (c2) 상기 확인한 글자 수가 3글자 미만이면 복합명사 처리 알고리즘을 종료하고, 상기 확인한 글자 수가 7글자 이상이면 복합명사 알고리즘을 수행하여 복합명사를 추출하는 단계; (c3) 상기 확인한 글자 수가 7글자 미만이면 글자 수에 따라 글자 수를 분리한 후 복합명사 추출 과정을 수행하는 단계를 포함하는 것을 특징으로 한다.
상기에서 복합명사 알고리즘은 (c1) 입력 단어가 복합 명사인지를 확인하는 단계; (c2) 복합 명사일 경우, 복합 명사 후보를 생성하는 단계; (c3) 생성한 후보 복합 명사에 점수를 부여하는 단계; (c4) 상기 부여된 점수를 기초로 복합명사를 추출하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면 규칙 기반의 형태소 분석 방법을 이용하고, 어절의 유형을 정의함으로써, 분석 대상의 숫자를 줄여, 형태소 분석기의 품질(속도와 정확성) 향상을 도모하는 효과가 있다.
또한, 본 발명에서 별도로 제시한 복합명사 알고리즘을 이용함으로써, 활용빈도가 매우 높은 복합명사의 분석도 가능한 장점이 있다.
도 1은 본 발명에 따른 한국어 형태소 분석방법을 보인 흐름도,
도 2는 본 발명에 적용된 어절 유형 예시도,
도 3은 본 발명에 적용된 복합명사 분석 알고리즘 흐름도.
이하 본 발명의 바람직한 실시 예에 따른 한국어 형태소 분석방법을 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따른 한국어 형태소 분석방법을 보인 흐름도로서, 크게 (a) 입력 대상을 한국어의 띄어쓰기 대상인 어절로 추출하고, 추출한 어절의 형태소를 추출한 후 낱말 분석을 통해 품사를 확인하는 단계(S10 ~ S20), (b) 상기 (a)단계에서 확인한 품사를 기초로 영문 파서(ENParser)를 통해 영어 분석을 수행하는 단계(S30), (c) 상기 품사 확인 후, 한국어 파서(KRparser)를 이용하여 조사와 어미를 분석하고, 복합 명사를 처리하여 형태소를 분석하는 단계(S40 ~ S50)를 포함한다.
상기 (c)단계는 단순 단어 분석기(Simple Word Analyzer)와 규칙 기반 분석기(Rule Base Analyzer) 및 복합 분석기(Compound Analyzer)를 이용하여 형태소를 분석하는 것이 바람직하다.
여기서 규칙 기반 분석기는 조사 분석과 어미 분석 및 불규칙 활용 분석을 통해 형태소를 분석하며, 복합 분석기는 복합명사 처리 알고리즘을 이용하여 형태소를 분석한다.
이에 더하여 상기 복합 분석기는 도 3에 도시한 바와 같이, (c1) 단어가 입력되면 입력 단어를 저장하고, 글자 수를 확인하는 단계(S101 ~ S103), (c2) 상기 확인한 글자 수가 3글자 미만이면 복합명사 처리 알고리즘을 종료하고, 상기 확인한 글자 수가 7글자 이상이면 복합명사 알고리즘을 수행하여 복합명사를 추출하는 단계(S105 ~ S109), (c3) 상기 확인한 글자 수가 7글자 미만이면 글자 수에 따라 글자 수를 분리한 후 복합명사를 추출하는 단계(S110 ~ S113, S106 ~ S109)를 포함한다.
상기 복합명사 알고리즘은 (c1) 입력 단어가 복합 명사인지를 확인하는 단계(S106), (c2) 복합 명사일 경우, 복합 명사 후보를 생성하는 단계(S107), (c3) 생성한 후보 복합 명사에 점수를 부여하는 단계(S108), (c4) 상기 부여된 점수를 기초로 복합명사를 추출하는 단계(S109)를 포함한다.
이와 같이 구성된 본 발명의 바람직한 실시 예에 따른 한국어 형태소 분석방법을 첨부된 도면 도 1 내지 도 3을 참조하여 구체적으로 설명하면 다음과 같다.
본 발명의 형태소 분석을 위한 처리 단위는 한국어의 띄어쓰기 단위인 "어절"을 처리 단위로 한다. 어절을 중심으로 어휘범주와 문법범주를 분석해 내는 데, 그 방법으로는 규칙 기반의 분석 방법을 적용한다. 규칙 기반의 방법은 한국어 사전을 구축하고, 한국어 문법을 연구, 규칙을 도출한다. 그리고 이를 통하여 한국어 형태소를 분석하는 방법이다. 이러한 방법은 1) 사전을 구축하고 규칙을 정립하는 데 많은 시간과 노력이 요구되며, 2) 언어 변화에 따라 사전과 규칙을 주기적으로 관리해주어야 하는 어려움이 있다. 이러한 작업이 선/후행 되지 않는다면 그 성능을 보장받을 수 없다. 그러나 이러한 작업이 가능하다면 분석 속도가 빠르고 구조화된 문서에 대한 분석 성능을 높일 수 있는 장점이 있다(이영민(2017), 한국어 형태소 분석기 개발을 위한 문법 전략, 배재대학교 한국어교육연구소, 한국어교육연구 12-1, 149-166쪽 참조).
먼저, 단계 S10에서 입력 대상을 "Index Extractor"와 "Morpheme Extractor" 과정을 통해 한국어의 띄어쓰기 대상인 어절로 추출한다.
형태소 분석의 속도를 향상시키기 위해서는 무엇보다도 분석의 대상이 되는 어절이 적절히 정의되어 있어야 한다. 대상 어절의 숫자가 너무 많으면 속도가 느려질 수밖에 없는 데, 이를 위해서는 필요한 만큼의 어절을 정의하는 것이 바람직하다.
어절의 정의는 상기 이영민(2017) 논문을 이용하여, 도 2와 같이 15개의 어절 유형으로 정의하였다. 이러한 어절의 유형 정의로 전체 어절 유형을 단순화할 수 있다.
예컨대, 명사-조사(NJ), 명사-서술격조사-어미(NCE), 명사-서술격조사-선어말어미-어미(NCPE), 명사-서술격조사-어미-조사(NCEJ), 명사-서술격조사-선어말어미-어미-조사(NCPEJ), 명사-용언화접사-어미(NXE), 명사-용언화접사-선어말어미-어미(NXPE), 명사-용언화접사-어미-조사(NXEJ), 명사-용언화접사-선어말어미-어미-조사(NXPEJ), 동사-어미(VE), 동사-선어말어미-어미(VPE), 동사-어미-조사(VEJ), 동사-선어말어미-어미-조사(VPEJ), 부사-조사(ADV), 어미, 조사, 부사-요(-요)로 어절 유형을 정의한다.
이어, 단계 S20에서 Tokenizer 과정을 통해 품사를 확인한다. 여기서 품사 확인은 어절의 뒤에서부터 조사와 어미를 확인하는 과정을 통해 수행하는 것이 바람직하다.
예컨대, (1) "ㄱ. 감은 좋은 과일이다. ㄴ. 사람들이 머리를 감은 이유는"이라는 입력 대상이 있다고 가정을 하면, "감은"은 "감(N)+은(J), (1ㄱ)"과 "감(V)+은(E), (1ㄴ)"으로 분석되는 데, 어절의 뒷부분에서부터 분석을 적용, 조사 "-은(J)"과 어미 "-은(E)"이 모두 사전에서 확인된다. 이에 조사와 어미를 분리해내면 각각 선행하는 명사와 동사를 사전에서 확인, 명사 "감(N)"과 동사 "감-(V)"을 분석해 내는 것이다.
다른 예로서, (2) "ㄱ. *감는 좋은 과일이다 ㄴ. 사람들이 머리를 감는 이유는"이라는 입력 대상이 있다고 가정을 하면, 상기 (1) 분석과 같은 방식으로 분석되는 데, ((2)ㄱ)의 "감(N)+는(J)"은 잘못된 분석이므로 배제하여야 한다. 이는 조사 "-은/는"의 결합이 선행 명사의 마지막 음절에 따라 다르게 실현하도록 함으로써 해결할 수 있다.
어절 유형은 '유형15'만 제외하면 어미와 조사를 분석해 낼 수 있도록 되어 있으므로 별도의 규칙을 적용하지 않고 일관적인 결과를 도출해 낼 수 있다. 물론 표면형으로 조사가 실현되지 않은 경우는 단순 명사로 처리할 수 있다.
또 다른 예로서, (3) "ㄱ. 진주만 ㄴ. 진주(N)-만(J)/진주만(N)"이라는 입력 대상이 있다고 가정을 하면, "진주만"은 ((2)와 같은 방식으로) 명사 "진주"와 조사 "-만"으로 분석되지만, 진주만 전체가 하나의 명사로 사전에 등재되어 있으므로 "진주만(N)"으로도 분석되는 것이다. 이에 대하여 조사가 복합적으로 실현되거나(권오욱 외(1999), 음절단위 CYK 알고리즘에 기반을 둔 형태소 분석기 및 품사태거, 한국정보과학회 언어공학연구회 학술발표 논문집, 한국정보 과학회언어공학연구회, 76-87쪽 참조), 선어말 어미가 중복실현 되는 경우는 그 목록을 정의함으로써 유형의 숫자를 15개로 한정할 수가 있다(이영민(2017) 참조).
다음으로, 단계 S20에서 추출한 어절의 형태소를 추출한 후 낱말 분석을 통해 품사를 확인한다. 여기서 엄밀히 말하면 "품사 확인"이라고 할 수 없다. 다만, 논의의 편의를 위하여 사전에 등재된 정보를 이르는 의미로 "품사 확인"이라는 용어를 사용하기로 한다.
이후, S30에서 영문 파서(ENParser)를 통해 영어를 분석하거나, S40 및 S50과 같이 한국어 파서(KRParser)를 이용하여 조사(Postposition)와 어미(Ending)를 분석하고, 복합 명사(Compound) 처리 알고리즘을 이용하며 불규칙 활용도 처리하여 형태소를 분석한다.
여기서 KRParser를 이용하여 조사 및 어미를 분석하는 방법은 기존 조사와 어미를 분석하는 방법을 그대로 채택하여 분석하므로, 그에 대한 구체적인 설명은 생략하기로 한다.
다음으로, 본 발명의 다른 특징으로서 단계 S53과 같이 복합 분석기(Compound Analyzer)을 이용하여 단계 S53-1과 같이 복합명사의 분석이 가능하다.
도 3은 상기 복합명사를 분석하기 위한 알고리즘의 예시이다.
알고리즘의 설계는 기본적으로 이영민(2017)을 수용한다. 이영민(2017)을 정리하면 다음과 같다. 복합명사는 파생명사와 합성명사(이익섭/임홍빈(1983), 국어문법론, 학연사, 고영근/남기심(2014), 표준 국어문법론, 박이정, 이익섭/채완(2012), 국어문법론 강의, 학연사, 참조) 4)를 아우르는 개념으로서, 사전에 등재된 명사를 이른다. 따라서 해당 어절에서 조사만 분리해낼 수 있으면 일반 명사와 마찬가지로 형태소 분석의 알고리즘에는 부담이 되지 않는다. 그런데 현실은 그렇지 않다. 많은 분야에서 복합명사를 명사복합체의 개념으로 사용하고 있으며 어절별로 띄어쓰기를 하지 않는 경우가 대부분이다.
예컨대, "(4) ㄱ. 교양소설, 인공지능, 두꺼비집, 큰아버지, ㄴ. 질소화합물, ㄷ. 남북국시대, 복소수평면, ㄹ. 연결재무제표, ㅁ. 중거리탄도유도탄,
(5) ㄱ. 계좌번호, 거래실적, 연구성과, 인접과학, 남북분단, ㄴ. 한국인류학, 항공승무원, 자기효능감, ㄷ. 세계화시대, 성분별조사, ㄹ. 전국표본조사, 회계추정방법, 국제회계기준, ㅁ. 연차별도산출가액, 대중국무기수출가"와 같다고 가정한다.
(4)의 예들은 사전에 등재된 단어들로서 복합명사로 처리된다. 이를테면, '교양소설을", "중거리탄도유도탄은"은 "교양소설(명사)+을(조사)", "중거리탄도유도탄(명사)+은(조사)"로 분석되며 문제가 되지 않는다. 물론 형태소 분석으로는 결과가 다르게 나타나야 하겠지만 명사를 정확히 분석해는 것이 목적이므로 이와 같은 처리는 문제가 되지 않는다. 현재의 설명은 국립국어원의 표준국어대사전을 대상으로 한 것이다.
반면에 (5)의 예들은 사전에 등재되어 있지 않으므로 문제가 복잡해진다. "계좌번호가"와 같이 다소 간단한 경우도 "계좌번호"가 사전에 등재되어 있지 않으므로 분석되지 않거나 조사를 분리해 낸다 하더라도 "계좌번호(UN)(확인할 수 없는 단어나 어근)+가(조사)"로 분석될 수밖에 없다. 따라서 별도의 분석 알고리즘이 필요한데, 대부분의 4음절 복합명사는 그 내부를 확인하기가 어렵지 않다. 그렇다 하더라도 조사를 분리해 내고 별도의 알고리즘을 사용하여 내부의 명사를 확인해야 한다. 이를테면 "계좌번호를"은 일단 조사를 분리해낸 상태에서("계좌번호(UN)+를(조사)") 미확인 부분인 "계좌번호"를 분석해내는 알고리즘을 적용하는 것이다.
여기서는 4음절 이하의 복합명사는 도 3에 도시한 바와 같이, S110과 같이 간단한 알고리즘을 적용하기로 한다. 4음절 복합 명사의 경우 단계 S111과 같이 대부분이 "2+2"의 구성으로 되어있으므로, 이를 확인하는 알고리즘을 적용하고, 그렇지 않은 경우는 "3+1", "1+3"으로 분석하는 것이다. 이를테면 "일회용침"은 "2+2"의 구성으로 분석하면, "일회(명사)+용침(UN)"으로 분석되는데 이럴 경우는 다시 "3+1"의 알고리즘을 적용하여 "일회용(명사)+침(명사)"으로 분석될 수 있도록 한다.
5음절 이상의 복합명사는 단계 S112와 같이 모든 경우의 수를 따져서 분석한다. 5음절일 경우 가능한 경우의 수는 다음과 같다.
(6) "11111", "1112", "1121", "113", "1211", "122", "131", "14",
"2111", "212", "221", "23",
"311", "32",
"41",
"5"
이를 적용하면 5음절 복합명사는 24, 6음절은 25, 7음절은 26의 경우의 수가 산출된다. 이에 1음절로만 되는 경우("11111")와 전체가 하나의 단어로 등재된 경우(즉 (6) 의 "5")를 배제하면, 각각 24-2, 25-2, 26-2의 경우의 수가 산출된다. 이를 적용하여 14음절까지 분석 가능한 알고리즘을 적용한다.
5음절 복합명사에 조사 "-이"가 결합된 경우를 예로 들면 다음과 같다.
(7) 총자산가액이
ㄱ. 총자(N)산(N)가액(N)이(N):lOO_UK
ㄴ. 총(N)자산(N)가액(N)이(N):lOO_UK
ㄷ. 총자산(N)가액(N)이(N):lOO_UK
ㄹ. 총자(N)산가(N)액(N)이(J):lOO:_NJ
ㅁ. 총(N)자산가(N)액(N)이(J):lOO:_NJ
ㅂ. 총자(N)산(N)가액(N)이(J):lOO_NJ
ㅅ. 총(N)자산(N)가액(N)이(J):lOO:_NJ
ㅈ. 총자(N)산가(N)액이(UN):65:_UK
ㅊ. 총자산(N)가(N)액이(UN):60:_UK
ㅋ. 총(N)자산가(N)액이(UN):60:_UK
ㅌ. 총자산가액(UV)이(E):50:_VE
ㅎ. 총자산가액(UN)이(J):50:_NJ …(더 많은 분석 결과가 산출되나 동일한 설명이 적용되므로 생략함).
(7 ㄱ - ㅇ)은 확인되지 않은 형태가 없으므로 전부 수용 가능하다(100점). 다만 (7 ㄱ - ㄷ)은 유형에서 확인되지 않으므로 배제할 수 있다. 그리고 (7 ㄹ -ㅇ)은 일단 수용 가능한 것으로 보는데 이들 중에서 음절 수가 가장 적은 것을 선택하도록 하면(7ㅇ)이 선택 된다. (7 ㅈ - ㅎ)은 확인되지 않은 형태가 있으므로 배제된다. (7ㅎ)이 더 정확한 분석일 수도 있지만 "총자산가액"이 사전에 등재되어 있지 않으므로 확인이 되지 않은 것이다.
이러한 설명을 바탕으로 복합명사를 분석할 알고리즘을 제시하면, 도 3과 같다.
이상 설명한 바에 따르면, 한국어 형태소 분석기 개발을 위한 알고리즘을 제한하였다. 본 발명은 형태소 분석기의 성능을 향상시키고 최적의 결과물을 산출하기 위하여, 규칙 기반의 방법을 적용하였으며, 어절을 정의함으로써 분석 대상의 숫자를 줄일 수 있었으며, 활용빈도가 매우 높은 복합명사를 분석하기 위한 별도의 알고리즘을 제시하였다. 유형을 단순화하기 위해서는 유형 자체가 간단하고 간략하게 정의되어야 하는데 이를 위하여 조사 복합체와 선어말어미 복합체를 정의하여 그 경우의 수를 줄이고 나아가 불규칙 활용의 문제를 처리할 수 있도록 고안되었다. 더불어 영문이나 숫자, 기호 등이 사용된 어절(특수어절)의 경우도 별도의 규칙을 제시하여 처리할 수 있도록 하였다.
이상 본 발명자에 의해서 이루어진 발명을 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 이 기술분야에서 통상의 지식을 가진 자에게 자명하다.
본 발명은 규칙 기반의 한국어 형태소 분석기 개발을 위한 형태소 분석 기술에 적용된다.
S10: 어절 추출 단계
S20: 품사 확인 단계
S40: KRParser 단계
S50: 형태소 분석 단계

Claims (8)

  1. 규칙 기반으로 한국어 형태소를 분석하는 방법으로서,
    (a) 입력 대상을 한국어의 띄어쓰기 대상인 어절로 추출하고, 추출한 어절의 형태소를 추출한 후 낱말 분석을 통해 품사를 확인하는 단계; 및
    (b) 상기 (a)단계에서 확인한 품사를 기초로 한국어 파서(KR Parser)를 이용하여 조사와 어미를 분석하고, 복합 명사를 처리하여 형태소를 분석하는 단계를 포함하는 것을 특징으로 하는 한국어 형태소 분석방법.
  2. 청구항 1에서, 상기 (a)단계는 입력 대상으로부터 추출한 어절의 유형을 하기와 같이 단순화하는 것을 특징으로 하는 한국어 형태소 분석방법.
    명사-조사, 명사-서술격조사-어미, 명사-서술격조사-선어말어미-어미, 명사-서술격조사-어미-조사, 명사-서술격조사-선어말어미-어미-조사, 명사-용언화접사-어미, 명사-용언화접사-선어말어미-어미, 명사-용언화접사-어미-조사, 명사-용언화접사-선어말어미-어미-조사, 동사-어미, 동사-선어말어미-어미, 동사-어미-조사, 동사-선어말어미-어미-조사, 부사-조사, 어미, 조사, 부사-요.
  3. 청구항 1에서, 상기 (a)단계의 품사 확인은 어절의 뒤에서부터 조사와 어미를 확인하는 과정을 통해 이루어지는 것을 특징으로 하는 한국어 형태소 분석방법.
  4. 청구항 1에서, 상기 (b)단계는 단순 단어 분석기(Simple Word Analyzer)와 규칙 기반 분석기(Rule Base Analyzer) 및 복합 분석기(Compound Analyzer)를 이용하여 형태소를 분석하는 것을 특징으로 하는 한국어 형태소 분석방법.
  5. 청구항 4에서, 상기 규칙 기반 분석기는 조사 분석과 어미 분석 및 불규칙 활용 분석을 통해 형태소를 분석하는 것을 특징으로 하는 한국어 형태소 분석방법.
  6. 청구항 4에서, 상기 복합 분석기는 복합 명사 처리 알고리즘을 이용하여 형태소를 분석하는 것을 특징으로 하는 한국어 형태소 분석방법.
  7. 청구항 6에서, 상기 복합 분석기는 (c1) 단어가 입력되면 입력 단어를 저장하고, 글자 수를 확인하는 단계; (c2) 상기 확인한 글자 수가 3글자 미만이면 복합명사 처리 알고리즘을 종료하고, 상기 확인한 글자 수가 7글자 이상이면 복합명사 알고리즘을 수행하여 복합명사를 추출하는 단계; (c3) 상기 확인한 글자 수가 7글자 미만이면 글자 수에 따라 글자 수를 분리한 후 복합명사 추출 과정을 수행하는 단계를 포함하는 것을 특징으로 하는 한국어 형태소 분석방법.
  8. 청구항 7에서, 상기 복합명사 알고리즘은 (c1) 입력 단어가 복합 명사인지를 확인하는 단계; (c2) 복합 명사일 경우, 복합 명사 후보를 생성하는 단계; (c3) 생성한 후보 복합 명사에 점수를 부여하는 단계; (c4) 상기 부여된 점수를 기초로 복합명사를 추출하는 단계를 포함하는 것을 특징으로 하는 한국어 형태소 분석방법.







KR1020170166684A 2017-12-06 2017-12-06 한국어 형태소 분석방법 KR20190066859A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170166684A KR20190066859A (ko) 2017-12-06 2017-12-06 한국어 형태소 분석방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170166684A KR20190066859A (ko) 2017-12-06 2017-12-06 한국어 형태소 분석방법

Publications (1)

Publication Number Publication Date
KR20190066859A true KR20190066859A (ko) 2019-06-14

Family

ID=66846519

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170166684A KR20190066859A (ko) 2017-12-06 2017-12-06 한국어 형태소 분석방법

Country Status (1)

Country Link
KR (1) KR20190066859A (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835706B1 (ko) 2007-07-09 2008-06-05 한국과학기술정보연구원 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
KR101072460B1 (ko) 2010-08-11 2011-10-11 충북대학교 산학협력단 한국어 형태소 분석 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100835706B1 (ko) 2007-07-09 2008-06-05 한국과학기술정보연구원 자동 색인을 위한 한국어 형태소 분석 시스템 및 그 방법
KR101072460B1 (ko) 2010-08-11 2011-10-11 충북대학교 산학협력단 한국어 형태소 분석 방법

Similar Documents

Publication Publication Date Title
Yeniterzi Exploiting morphology in Turkish named entity recognition system
Inoue et al. Morphosyntactic tagging with pre-trained language models for Arabic and its dialects
KR101079869B1 (ko) 품사 및 동형이의어 태깅 방법 및 이를 이용한 단말 장치
KR20040101678A (ko) 복합 형태소 분석 장치 및 방법
KR101072460B1 (ko) 한국어 형태소 분석 방법
Singha et al. Part of speech tagging in Manipuri: a rule-based approach
Zeldes et al. An NLP pipeline for Coptic
Alotaiby et al. Arabic vs. English: Comparative statistical study
KR101757222B1 (ko) 한글 문장에 대한 의역 문장 생성 방법
KR20120048101A (ko) 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
Albogamy et al. Unsupervised stemmer for Arabic tweets
KR20190066859A (ko) 한국어 형태소 분석방법
Poolsukkho et al. Text normalization on thai twitter messages using ipa similarity algorithm
JP2018181259A (ja) 対話ルール照合装置、対話装置、対話ルール照合方法、対話方法、対話ルール照合プログラム、及び対話プログラム
Ariaratnam et al. A shallow parser for Tamil
Al-Daoud et al. A framework to automate the parsing of Arabic language sentences.
Grönroos et al. Low-resource active learning of North Sámi morphological segmentation
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
KR940022311A (ko) 기계번역장치 및 방법
El-Kahlout et al. Initial explorations in two-phase Turkish dependency parsing by incorporating constituents
Jose et al. Lexical normalization model for noisy SMS text
Jose et al. Lexico-syntactic normalization model for noisy SMS text
Raza et al. Saraiki Language Word Prediction And Spell Correction Framework
Hijjawi et al. An application of pattern matching stemmer in arabic dialogue system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application