KR102152086B1 - 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법 - Google Patents

사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법 Download PDF

Info

Publication number
KR102152086B1
KR102152086B1 KR1020180067452A KR20180067452A KR102152086B1 KR 102152086 B1 KR102152086 B1 KR 102152086B1 KR 1020180067452 A KR1020180067452 A KR 1020180067452A KR 20180067452 A KR20180067452 A KR 20180067452A KR 102152086 B1 KR102152086 B1 KR 102152086B1
Authority
KR
South Korea
Prior art keywords
morpheme
user
korean
morpheme analysis
morphemes
Prior art date
Application number
KR1020180067452A
Other languages
English (en)
Other versions
KR20190140668A (ko
Inventor
채종현
안영민
박호진
오수현
양승민
Original Assignee
(주)아이브릭스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이브릭스 filed Critical (주)아이브릭스
Priority to KR1020180067452A priority Critical patent/KR102152086B1/ko
Publication of KR20190140668A publication Critical patent/KR20190140668A/ko
Application granted granted Critical
Publication of KR102152086B1 publication Critical patent/KR102152086B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)

Abstract

본 발명은 한국어 형태소 분석 장치 및 방법에 관한 것입니다.
본 발명은 질의자 단말의 질의를 수신하여 미리 정해진 언어 처리를 실행하는 전자장치에 구성되어 있는 한국어 형태소 분석장치(20)에 있어서, 저장소에 미리 저장되어 있는 시스템 사전(31)과 사용자 정의 형태소 사전(33)을 이용하여 질의 문장의 형태소를 분석합니다.
이러한 한국어 형태소 분석 장치(20)는 한국어 문법 형태소 분석부(21~23)와 사용자 정의 형태소 분석부(25)를 포함하는데, 한국어 문법 형태소 분석부가 시스템 사전(31)을 이용하여 질의 문장을 분석하게 되지만, 사용자 정의 형태소 분석부(25)는 한국어 문법규칙에서 허용되지 않는 질의 문장이 상기 한국어 문법 형태소 분석부에 의해 분석되지 않는 경우에 한하여 사용자 정의 형태소 사전(33)을 이용하여 질의 문장을 미리 등록된 사용자 정의 형태소로 분석하는 것입니다.

Description

사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법{THE KOREAN MORPHEME ANALYZER USING USER DEFINED MORPHEME AND THE METHOD OF THE SAME}
본 발명은 언어처리 기술에 관하며, 특히 한국어의 형태소 분석 방법에 관한다.
인터넷의 발달로 매일 천문학적인 단위의 정보들이 쏟아져 나오고 있다. 당연히 날마다 생성되는 정보들을 활용하고 분석할 수 있는 시스템의 필요해졌다. 대부분의 정보는 언어로 표현되어 있기 때문에 필수적으로 소정의 언어처리 기술과 그 기술에 기반한 시스템이 요청된다. 그리고 그런 언어처리 시스템은 검색엔진, 텍스트 분석, 기계 번역, 음성 인식, 구문 분석 등의 여러 분야에서 응용될 수 있다.
특히 한국어로 된 정보의 분석을 위해서는 한국어 형태소 분석기를 사용할 수 밖에 없다. 한국어 형태소 분석은 입력된 문장의 어휘 형태소와 문법 형태소를 분리하고 불규칙 활용된 어휘의 형태소 원형을 복원하는 과정을 나타내지만, 한국어의 경우 중의적 의미의 단어가 많아서 더욱 정확하게 분석해야 한다.
종래의 형태소 분석기는 시스템 사전을 이용하여, 내부 로직에 따라 각종 불규칙 활용된 어휘의 형태소 원형을 복원하거나, 복합 명사 등을 분해하는 것이 일반적이었다.
복합명사 분해의 경우 가장 많이 사용하는 방법으로 최장 일치법을 적용하는 경우가 많았는데 신조어의 경우에는 분해가 제대로 되지 않는 경우가 많아 엉뚱한 결과를 내놓기도 했다. 예를 들어 '대학생선교회' 같은 단어의 경우 ['대학생', '선교회'] 또는 ['대학', '생선', '교회'] 등으로 분석이 가능하다. 대학생, 선교회 라는 결과를 원하더라도 후자의 대학, 생선, 교회가 출력될 가능성이 항상 존재하는 것이다.
또한 한국어의 경우 중의적인 의미의 단어가 많고 띄어쓰기 및 오타로 인해 사용자가 원하는 정확한 형태소 분석 결과를 제공하기 어렵다는 문제점도 있었다. 예를 들어 '아버지가방에들어가신다'라는 문장의 경우 ['아버지', '가방', '에', '들어가', '신', '다'] 또는 ['아버지', '가', '방', '에', '들어가', '신', '다'] 등으로 분석이 중의적으로 가능하므로 복합명사 및 띄어쓰기 문제에서 자유롭지 못하며, 입력문장에 국어 문법에 맞게 정확하게 기술해야만 원하는 분석 결과를 얻을 수 있다.
한국어로 된 정보 중에서도 띄어쓰기가 제대로 되어 있으며, 문장에 오탈자가 없는 경우라면, 일반적인 형태소 분석 장치로 기대 수준에 근접하는 정확한 결과를 출력할 수 있다. 그러나 사용자가 문법의 구문 규칙을 무시하고 자유롭게 언어 표현을 하는 최근 소셜 네트워크와 VOC(고객민원) 등의 데이터에 대한 분석의 요구가 증가되면서 띄어쓰기, 오탈자, 신조어 등이 혼재되는 한국어 문장을 정확하게 분석할 수 있는 새로운 솔루션이 요청되고 있는 것이다.
정보 기술의 발전으로 분석해야 할 데이터가 점진적으로 증가되고 있다. 그 결과 <빅데이터>가 축적되고, 이러한 빅데이터에 대한 띄어쓰기, 오탈자, 신조어 등의 각종 오류/미등록 어휘를 미리미리 시스템에 사전 등록한다는 것은 매우 어려운 일이다. 인력과 시간의 소모를 의미하며, 물리적인 한계에 부딪히게 마련이다.
이러한 문제와 한계를 해결하기 위해서는 본 발명의 발명자들은 오랫동안 연구하고 개발하여 노력한 끝에 본 발명을 완성하기에 이르렀다.
한국어 문법의 특징을 잘 분석해 보면, 특정 어휘 앞뒤로 올 수 있는 형태소가 한정적인 예들이 존재한다거나, 혹은 형태소 활용(변형)이 일어나는 예를 찾아볼 수 있다.
우리 발명자들은, 이러한 한국어의 문법적 특징을 세분화한다면 형태소 분석장치 내부의 처리 로직을 변경하거나 오류 어휘를 직접 등록하지 않고도 사용자(보통은 시스템 관리자를 뜻한다)가 원하는 정확한 형태소 분석 결과를 도출할 수 있음을 확인했다. 따라서 띄어쓰기, 오타가 있는 문장이나 구문들의 경우에도 사용자가 원하는 형태로 기술 가능한 <사용자 정의 형태소(User defined Morpheme)>로 등록하여 사용자가 원하는 결과를 유연하게 제공할 수 있으리라는 결론에 이르렀다.
따라서 본 발명의 목적은 사용자 정의 형태소를 이용하는 한국어 형태소 분석 장치/방법을 제시함으로써 위에서 설명한 문제점들과 아래에서 언급하는 종래의 형태소 분석기의 단점을 해결하는 데 있다.
단점 1: 시스템 사전에 미리 등록된 어휘와 내부 로직에 의지하여 한국어 형태소 분석을 수행하기 때문에 사용자가 원하는 결과를 제대로 도출하기 위해서는 시스템 사전 수정 및 내부 로직을 계속 변경해야 하는 단점.
단점 2: 띄어쓰기, 오타 등의 문제에 대해서도 분석 규칙이 존재하지 않기 때문에 정확한 형태소 분석 결과를 기대하기 어렵다는 단점.
한편, 본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 것이다.
본 발명의 제 1 국면은 한국어 형태소 분석 장치로서:
질의자 단말의 질의를 수신하여 미리 정해진 언어 처리를 실행하는 전자장치에 구성되어 있는 한국어 형태소 분석장치에 있어서, 저장소에 미리 저장되어 있는 시스템 사전과 사용자 정의 형태소 사전을 이용하여 질의 문장의 형태소를 분석하되, 상기 한국어 형태소 분석 장치는 한국어 문법 형태소 분석부와 사용자 정의 형태소 분석부를 포함하고,
상기 한국어 문법 형태소 분석부는 상기 시스템 사전을 이용하여 질의 문장을 분석하고, 상기 사용자 정의 형태소 분석부는 한국어 문법규칙에서 허용되지 않는 질의 문장이 상기 한국어 문법 형태소 분석부에 의해 분석되지 않는 경우에 한하여 상기 사용자 정의 형태소 사전을 이용하여 질의 문장을 미리 등록된 사용자 정의 형태소로 분석하는 것을 특징으로 한다.
본 발명의 바람직한 어느 실시예에 따른 한국어 형태소 분석 장치에 있어서, 상기 사용자 정의 형태소 분석부는, 미리 등록된 사용자 정의 형태소의 전후품사와의 결합 가능성을 확인하는 사용자 정의 형태소 속성 처리부와, 사용자 정의 형태소가 아닌 형태소에 대해 한국어 문법 규칙에 따라 형태소의 결합 조건을 판단하는 결합 조건 확인부와, 한국어 문법 규칙에서 허용되지 않는 구어체 오류에 대한 품사 결합을 허용하는 확장 결합 조건 확인부를 포함하는 것이 좋다.
본 발명의 제 2 국면은 한국어 형태소 분석 방법으로서:
질의자 단말의 입력 문장에 대하여 전자장치의 형태소 분석 장치가 실행하는 한국어 형태소 분석 방법에 있어서, 미리 저장되어 있는 시스템 사전을 이용하여 형태소 전처리, 문법형태소 분리, 체언/용언 분석 과정을 거치면서 한국어 문법 형태소 분석 단계를 실행하고, 이 단계에서 입력 문장이 분석되지 않는 경우에 한하여,
상기 형태소 분석 장치의 사용자 정의 형태소 분석부가 미리 저장되어 있는 사용자 정의 형태소 사전을 이용하여 상기 입력 문장을 미리 등록된 사용자 정의 형태소를 통해 품사 간의 결합을 허용하면서 형태소 분석을 실행하고,
이러한 사용자 정의 형태소 분석 과정으로 분석한 결과에 후처리 과정을 거쳐서 한국어 형태소 분석 결과를 출력하는 단계를 포함하는 것을 특징으로 한다.
또한, 본 발명의 바람직한 어느 실시예에 따른 한국어 형태소 분석 방법에 있어서, 상기 사용자 정의 형태소 분석부가 실행하는 형태소 분석 과정은, 사용자 정의 형태소 처리부가 미리 등록된 사용자 정의 형태소의 전후품사와의 결합 가능성을 확인하며, 그다음으로 결합 조건 확인부가 사용자 정의 형태소가 아닌 형태소에 대해 한국어 문법 규칙에 따라 형태소의 결합 조건을 판단하며, 그 다음으로 확장 결합 조건 확인부가 한국어 문법 규칙에서 허용되지 않는 구어체 오류에 대한 품사 결합을 허용하는 과정을 포함하는 것이 좋다.
위와 같은 본 발명의 과제해결수단을 통해서 본 발명에 따르면, 소셜 네트워크에서 작성되는 구어체와 VOC(고객민원) 음성 데이터로부터 생성되는 STT(Speech-to-Text) 데이터에서 빈번하게 발생되는 띄어쓰기, 오탈자를 사용자 정의 형태소(User Defined Morpheme)로 사전에 등록하여 정확도와 신뢰도가 높은 형태소 분석 결과를 제공할 수 있다.
또한, 사용자 정의 형태소를 이용한 분석은 기본 분석 흐름으로 처리되지 않는 단어에만 적용되므로 사용자 정의 형태소로 인하여 발생되는 과분석 오류를 발생시키지 않는 장점이 있다.
또한, 본 발명의 사용자 정의 형태소는 사용자가 편집 가능한 사전 형태로 제공되므로 형태소 분석 장치의 변경 없이 즉각적인 반영이 가능하다는 효과를 발휘한다.
한편, 여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급됨을 첨언한다.
도 1은 본 발명의 바람직한 어느 실시예에 따른 언어 처리 시스템(100)의 개략적인 네트워크 구성을 나타낸다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 형태소 분석 장치(20)의 구성을 프로세스 관점으로 나타내는 도면이다.
도 3은 본 발명의 바람직한 어느 실시예에 따른 사용자 정의 형태소 분석장치(25)의 세부 구성을 개략적으로 나타내는 도면이다.
※ 첨부된 도면은 본 발명의 기술사상에 대한 이해를 위하여 참조로서 예시된 것임을 밝히며, 그것에 의해 본 발명의 권리범위가 제한되지는 아니한다.
이하, 도면을 참조하여 본 발명의 다양한 실시예가 안내하는 본 발명의 구성과 그 구성으로부터 비롯되는 효과에 대해 살펴본다. 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
도 1은 본 발명의 바람직한 어느 실시예에 따른 언어 처리 시스템의 개략적인 네트워크 구성을 나타낸다. 질의자 단말(1)이 통신망을 통해 언어 처리 시스템(100)에 접속하여 질의를 한다.
질의자 단말(1)은 유선 혹은 무선 통신망을 통해 음성을 생성하여 전송하는 것으로, 유선 전화기, 스마트폰 등의 무선 전화기 등을 포함하여 음성을 생성하여 전송할 수 있는 디바이스이다. 언어 처리 시스템(100)은 질의자 단말(1)이 접속하여 질의를 하면, 그 질의를 인식하여 응답할 수 있는 컴퓨터 시스템으로서, 웹 기반, 애플리케이션 기반, 통신 시스템 등에서 사용하는 다양한 전자장치 및 소프트웨어를 포함하여 구성된다. 또한 음성 인식 및 언어 처리 기반으로 질의자 질의에 응답하는 시스템이다. 챗봇 시스템으로도 표현되거나 구성될 수 있다.
언어 처리 시스템(100)은 미리 정해진 프로세스에 의해 생성된 응답을 출력한다. 언어 처리 시스템(100)은 저장장치, 통신장치, I/O 인터페이스 등을 포함하는 하드웨어와, 질의 문장에 대한 형태소 분석 등의 언어처리 프로세스를 실행하는 소프트웨어와, 이 소프트웨어의 실행과 자원을 관리하는 서버 등을 포함한다.
언어 처리 서버(110)는 하나 이상의 하드웨어/소프트웨어 장비를 포함하여 구성되는 서버 장치이며, 상기 언어 처리 시스템(100)을 관리한다.
전자장치에 소프트웨어 모듈로 포함되어 구성되는 언어 처리부(120)는 형태소 분석 장치(20)를 포함하는데, 이 형태소 분석 장치(20)를 통해 본 발명의 한국어 형태소 분석을 실행한다.
언어 처리 시스템(100)의 저장소에는 다양한 데이터베이스가 포함되어 있다. 데이터베이스(130)는 시스템 사전, 사용자 정의 형태소 사전 등의 지식 베이스를 기록하고 관리한다.
도 2는 본 발명의 바람직한 어느 실시예에 따른 형태소 분석 장치(20)의 구성을 시계열적인 프로세스 관점으로 나타내었다.
형태소 분석 장치(20)의 전처리부(21), 문법형태소 분리부(22), 체언/용언 분석부(23)는 저장소에 미리 저장되어 있는 시스템 사전(31)을 이용하여 질의 문장을 분석한다. 그리고 이들 구성은 일반적인 형태소 분석 장치의 보편적인 구성 요소이다. 본 발명에서도 전처리부(21)는 질의 문장에 대한 형태소 분석을 실행하기 위해 전처리를 수행하고, 문법형태소 분리부(22)는 질의문장을 문법형태소에 따라 분리한다. 체언, 조사, 용언, 어미 등의 기본 사전은 시스템 사전(31)에 미리 등록되어 있다. 그다음 체언/용언 분석부(23)는 시스템 사전(31)에 등록되어 있는 체언과 용언으로 형태소가 분리되어 있는 질의문장을 분석하게 된다. 여기까지는 정확도와 처리 속도 등의 언어 처리 성능에서 차이를 보일 수 있다는 점을 제외하곤, 형태소 분석 기술에서는 공지의 요소가 되겠다. 이를 <한국어 문법 형태소 분석부>라고 표현해 보자.
그러나 본 발명의 형태소 분석 장치는 추가적인 다른 구성요소와 유기적으로 결합되어 있다. 형태소 분석 장치는 문법에 기초하기 때문에 띄어쓰기, 오탈자 등으로 말미암아 문법규칙에 어긋난 질의 문장을 분석하는 데 한국어 문법 형태소 분석부가 그 역할을 못할 수 있기 때문에, 여기에 대응하기 위해서 사용자 정의 형태소 분석부(25)가 구성되어 있다.
상기 21 내지 23 구성의 한국어 문법 형태소 분석부에 의해 형태소 분석되지 않는 경우에 한해, 사용자 정의 형태소 분석부(25)가 사용자 정의 형태소 사전(33)을 이용하여 질의 문장을 미리 등록된 사용자 정의 형태소 분석하는 것이다. 한국어 문법 형태소 분석부에 의한 기본적인 분석 흐름으로 처리되지 않는 단어에만 적용하기 때문에 사용자 정의 형태소로 인하여 발생되는 과분석 오류를 일으키지 않는다.
사용자 정의 형태소 사전(33)에는 문법 규칙에 맞지 않는 띄어쓰기가 잘못된 단어, 오탈자 등이 사용자가 정의한 형태소로 미리 등록되어 있다.
그런 다음에 복합명사 분석부(26)에 의해 질의 문장에서 복합 문장을 분석하고, 후처리부(27)를 거쳐 질의에 대응하는 결과를 출력하게 된다. 이때의 형태소 분석 결과는 문법규칙에 따른 형태소 분석을 행했던 종래보다 훨씬 정확하고 신뢰도가 높은 형태소 분석 결과를 제공할 수 있다.
도 3은 위와 같은 사용자 정의 형태소 분석장치(25)의 세부 구성을 보다 상세히 나타내었다. 사용자 정의 형태소 분석장치(25)는 사용자 정의 형태소 속성 처리부(25a), 결합조건 확인부(25b) 및 확장 결합조건 확인부(25c)를 포함할 수 있다.
사용자 정의 형태소 속성 처리부(25a)는 사용자 정의 형태소에 대한 속성값으로 전후 품사와의 결합 가능성을 확인한다. 아래 예제 1(표 1을 말함)을 보자. 예제 1은 사용자 정의 형태소의 구체적인 작성 예를 나타낸다.
할수있
'
하/동사화접미사+ㄹ/관형형전성어미+수/의존명사+있/형용사
사용자 정의 형태소(User Defined Morpheme)의 첫 번째 라인은 분석하고자 하는 단어(예컨대 <할수있>)를 의미한다. 즉, 분석 대상이 되는 단어 혹은 단어의 일부분을 기술할 수 있다. 두 번째 라인의 형태소의 속성을 정의할 수 있으며, 예제 1에서는 속성이 없는 형태소를 의미한다. 다음으로 세 번째 라인은 최종 형태소의 구성 형태를 기술하며, 본 발명의 사용자 정의 형태소 분석장치(25)가 출력하는 결과이다.
예제 1의 사용자 정의 형태소는, 예컨대 "사랑할수있다"와 같이 띄어쓰기 오류가 포함된 단어를 분석하기 위해서 미리 정의하여 등록한 사용자 정의 형태소가 되겠다.
단위성 의존명사 '수'는 전 형태소인 관형형전성어미나 후 형태소인 형용사와 직접적으로 결합할 수 없기 때문에 '할수있'을 하나의 사용자 정의 형태소로 등록하면 "사랑할수있다", "수영할수있다", "변화할수있다" 등에 대한 분석이 가능해진다.
다음으로 사용자 정의 형태소의 속성이 정의된 구체적인 예를 예제 2(표 2를 말한다)로 살펴본다.
같은
'+2음절명사 2음절명사+
같/va+은/etm
예제 2에서 '같은'은 <+2음절명사>, <2음절명사+>의 속성을 포함하고 있다. <+2음절명사> 속성은 전 형태소가 2음절 이상인 명사와 결합이 가능하다는 의미이고, <2음절명사+> 속성은 후 형태소가 2음절 이상인 명사와 결함이 가능하다는 의미이다.
위와 같은 사용자 정의 형태소를 등록하면 "사람같은사람", "바보같은집단", "현실같은증강현실" 등의 띄어쓰기 오류 단어에 대한 분석을 효과적으로 해낼 수 있다.
다음 예제 3(표 3을 말한다)은 본 발명의 바람직한 실시예들에 있어서 사용자 정의 형태소 속성 정의표를 예시한다.
품사 종류 전 형태소 속성 후 형태소 속성
체언 +1음절명사 1음절명사+
+2음절명사 2음절명사+
의존명사+
용언 +1음절용언 1음절용언+
+2음절용언 2음절용언+
어미 어미+
조사 보조사+
예제 3의 사용자 정의 형태소 속성은 적용 도메인에 따라 정의할 수 있다. 바람직하게는, 본 발명은 이러한 확장구조를 포함하고 있다.
결합 조건 확인부(25b)는 사용자 정의 형태소가 아닌 형태소에 대한 일반적인 국어 문법 규칙에 따라 형태소의 결합 조건을 판단한다.
다음으로 확장 결합조건 확인부(25c)는 일반적인 국어 문법에서 허용되지 않지만 구어체에서 빈번하게 발생되는 오류에 대한 품사 결합을 허용하여 분석 결과를 생성하도록 한다. 확장 결합조건 확인부(25c)는 사용자 정의 형태소 분석부의 최종 단계를 실행한다.
예를 들어, 일반적인 국어 문법에서는 '명사'와 '동사'는 직접적인 결합을 허용하지 않지만, 본 발명의 확장 결합 조건 확인부(25c)는 이를 허용하여, "담배피우다", "노래즐겨듣는다", "시간흘러가다" 등을 분석할 수 있다.
본 발명의 바람직한 어느 실시예에서 위와 같은 사용자 정의 형태소 속성 처리부(25a)와 확장 결합 조건 확인부(25c)를 동시에 적용한 경우에는 "펴져서도안되는데", "어떻게할것인가요", "흘러가는강물건너" 등 복합적인 띄어쓰기 오류 단어도 분석할 수 있게 된다.
또한, 오탈자 오류에 대해서는 사용자 정의 형태소에 오류 형태를 등록하여 해결할 수 있다.
예를 들어, "안돼요"와 같은 단어의 빈번한 오탈자 오류는 "안되요"가 되겠다. '안돼요'는 '안되-' 와 '-어요'가 결합되어 축약된 형태이기 때문에 '안돼요'로 작성하는 것이 정상이지만, '안되요'라는 오탈자가 빈번하게 사용되기도 한다. 이러한 오탈자 오류를 사용자 정의 형태소로 작성하는 구체적인 실시의 예는 아래의 예제 4(표 4를 말한다)와 같다.
안되
'+보조사
안되/동사+어/_
오탈자 '안되요'를 분석기 위해서 오탈자의 일부분인 '안되'를 사용자 정의 형태소에 등록하여 '안되/동사+어/_'의 형태로 정의할 수 있다. '요'는 시스템 사전 생성시 미리 '어요'로 확장되어 있다. 이와 같은 조건에서 '안되'의 형태소 분석 결과의 마지막 '어/_'는 '어요', '어서' 등과 같이 '어-'로 시작하는 어미만이 결합이 가능한 것으로 정의함으로써 최종적으로는 '안되/동사+어요/어미'로 분석할 수 있다.
이와 같이, 본 발명의 한국어 형태소 분석 방법은, 질의자 단말의 입력 문장에 대하여 전자장치의 형태소 분석 장치가 위에서 예시한 프로세스를 통해서 기본적인 형태소 분석과 추가적인 형태소 분석을 시계열적으로 행한다. 미리 저장되어 있는 시스템 사전을 이용하여 형태소 전처리, 문법형태소 분리, 체언/용언 분석 과정을 거치면서 한국어 문법 형태소 분석 단계를 실행한다. 그리고 이 단계에서 입력 문장이 분석되지 않는 경우에 한하여, 형태소 분석 장치의 사용자 정의 형태소 분석부가 미리 저장되어 있는 사용자 정의 형태소 사전을 이용해서 입력 문장을 미리 등록된 사용자 정의 형태소를 통해 품사 간의 결합을 허용하면서 형태소 분석을 실행하는 것이다. 또한, 이러한 사용자 정의 형태소 분석 과정으로 분석한 결과에 후처리 과정을 거쳐서 한국어 형태소 분석 결과를 출력한다.
참고로, 본 발명의 일 실시예에 따른 한국어 형태소 분석 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독가능매체에 기록될 수 있다. 상기 컴퓨터 판독가능매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독가능매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체, 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함될 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급언어코드를 포함한다. 상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
본 발명의 보호범위가 이상에서 명시적으로 설명한 실시예의 기재와 표현에 제한되는 것은 아니다. 또한, 본 발명이 속하는 기술분야에서 자명한 변경이나 치환으로 말미암아 본 발명이 보호범위가 제한될 수도 없음을 다시 한 번 첨언한다.

Claims (4)

  1. 질의자 단말의 질의를 통신망을 통해 수신하여 미리 정해진 언어 처리를 실행하는 전자장치에 구성되어 있는 한국어 형태소 분석장치에 있어서, 저장소에 미리 저장되어 있는 시스템 사전과 사용자 정의 형태소 사전을 이용하여 질의 문장의 형태소를 분석하되, 상기 한국어 형태소 분석 장치는 한국어 문법 형태소 분석부와 사용자 정의 형태소 분석부를 포함하고,
    상기 한국어 문법 형태소 분석부는 상기 시스템 사전을 이용하여 질의 문장을 분석하고, 상기 사용자 정의 형태소 분석부는 과분석 오류를 회피하기 위해 한국어 문법규칙에서 허용되지 않는 질의 문장이 상기 한국어 문법 형태소 분석부에 의해 분석되지 않는 경우에 한하여 상기 사용자 정의 형태소 사전을 이용하여 질의 문장을 미리 등록된 사용자 정의 형태소로 분석하되, 상기 사용자 정의 형태소 분석부는 전후 품사와의 결합 가능 속성을 처리하면서 명사와 동사의 직접적인 결합을 허용하여 분석하는 것을 특징으로 하는 한국어 형태소 분석 장치.
  2. 제1항에 있어서,
    상기 사용자 정의 형태소 분석부는, 미리 등록된 사용자 정의 형태소의 전후품사와의 결합 가능성을 확인하는 사용자 정의 형태소 속성 처리부와, 사용자 정의 형태소가 아닌 형태소에 대해 한국어 문법 규칙에 따라 형태소의 결합 조건을 판단하는 결합 조건 확인부와, 한국어 문법 규칙에서 허용되지 않는 구어체 오류에 대한 품사 결합을 허용하는 확장 결합 조건 확인부를 포함하는, 한국어 형태소 분석 장치.
  3. 통신망을 통해 수신한 질의자 단말의 입력 문장에 대하여 전자장치의 형태소 분석 장치가 실행하는 한국어 형태소 분석 방법에 있어서, 미리 저장되어 있는 시스템 사전을 이용하여 형태소 전처리, 문법형태소 분리, 체언/용언 분석 과정을 거치면서 한국어 문법 형태소 분석 단계를 실행하고, 과분석 오류를 회피하기 위해 상기 단계에서 입력 문장이 분석되지 않는 경우에 한하여,
    상기 형태소 분석 장치의 사용자 정의 형태소 분석부가 미리 저장되어 있는 사용자 정의 형태소 사전을 이용하여 상기 입력 문장을 미리 등록된 사용자 정의 형태소를 통해 품사 간의 결합을 허용하면서 형태소 분석을 실행하되, 상기 사용자 정의 형태소 분석부는 미리 등록되어 있는 전후 품사와의 결합 가능 속성을 처리하면서 명사와 동사의 직접적인 결합을 허용하여 분석하며,
    이러한 사용자 정의 형태소 분석 과정으로 분석한 결과에 후처리 과정을 거쳐서 한국어 형태소 분석 결과를 출력하는 단계를 포함하는 한국어 형태소 분석 방법.
  4. 제3항에 있어서,
    상기 사용자 정의 형태소 분석부가 실행하는 형태소 분석 과정은, 사용자 정의 형태소 처리부가 미리 등록된 사용자 정의 형태소의 전후품사와의 결합 가능성을 확인하며, 그다음으로 결합 조건 확인부가 사용자 정의 형태소가 아닌 형태소에 대해 한국어 문법 규칙에 따라 형태소의 결합 조건을 판단하며, 그 다음으로 확장 결합 조건 확인부가 한국어 문법 규칙에서 허용되지 않는 구어체 오류에 대한 품사 결합을 허용하는 과정을 포함하는, 한국어 형태소 분석 방법.
KR1020180067452A 2018-06-12 2018-06-12 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법 KR102152086B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180067452A KR102152086B1 (ko) 2018-06-12 2018-06-12 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180067452A KR102152086B1 (ko) 2018-06-12 2018-06-12 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190140668A KR20190140668A (ko) 2019-12-20
KR102152086B1 true KR102152086B1 (ko) 2020-09-04

Family

ID=69063020

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180067452A KR102152086B1 (ko) 2018-06-12 2018-06-12 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102152086B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102387206B1 (ko) 2020-02-13 2022-04-15 (주) 큰사람커넥트 개체명 인식을 이용한 문장 분석 효율화 방법

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351871A (ja) * 2001-05-24 2002-12-06 Ricoh Co Ltd 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100371135B1 (ko) * 1999-09-10 2003-02-05 한국전자통신연구원 용언 굴절사전을 이용한 용언 형태소 분석장치 및 방법
KR100481598B1 (ko) * 2003-05-26 2005-04-08 한국전자통신연구원 복합 형태소 분석 장치 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002351871A (ja) * 2001-05-24 2002-12-06 Ricoh Co Ltd 形態素解析装置、形態素解析方法、プログラムおよび記録媒体
JP2012118723A (ja) * 2010-11-30 2012-06-21 Fujitsu Ltd 形態素解析装置、音声合成装置、形態素解析方法、形態素解析プログラム及び対応辞書の作成方法

Also Published As

Publication number Publication date
KR20190140668A (ko) 2019-12-20

Similar Documents

Publication Publication Date Title
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
Oostdijk et al. Experiences from the spoken Dutch corpus project
US9330084B1 (en) Automatically generating question-answer pairs during content ingestion by a question answering computing system
US8566076B2 (en) System and method for applying bridging models for robust and efficient speech to speech translation
US10242670B2 (en) Syntactic re-ranking of potential transcriptions during automatic speech recognition
US20140372119A1 (en) Compounded Text Segmentation
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
US10565982B2 (en) Training data optimization in a service computing system for voice enablement of applications
US10553203B2 (en) Training data optimization for voice enablement of applications
US11907665B2 (en) Method and system for processing user inputs using natural language processing
Seljan et al. Combined automatic speech recognition and machine translation in business correspondence domain for english-croatian
US8401855B2 (en) System and method for generating data for complex statistical modeling for use in dialog systems
KR102106797B1 (ko) 복합 문장 분석 장치, 이를 위한 기록매체
US20210133394A1 (en) Experiential parser
KR102152086B1 (ko) 사용자 정의 형태소를 이용한 한국어 형태소 분석 장치 및 방법
Beaufays et al. Language model capitalization
Sunitha A hybrid Parts Of Speech tagger for Malayalam language
Kuo et al. Morphological and syntactic features for Arabic speech recognition
Wang et al. Evaluation of spoken language grammar learning in the ATIS domain
JP4007413B2 (ja) 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム
Fashwan et al. A rule based method for adding case ending diacritics for modern standard Arabic texts
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Gaikwad et al. On State-of-the-art of POS tagger,‘Sandhi’Splitter,‘Alankaar’Finder and ‘Samaas’ Finder for Indo-Aryan and Dravidian Languages
Poel et al. A support vector machine approach to dutch part-of-speech tagging
Park et al. Generation of correct word sequences from multiple outputs of a conventional automatic speech recognizer for voice-activated information appliances

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant