KR102109858B1

KR102109858B1 - 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법

Info

Publication number: KR102109858B1
Application number: KR1020180119102A
Authority: KR
Inventors: 고영중; 김혜민
Original assignee: 동아대학교 산학협력단
Priority date: 2018-10-05
Filing date: 2018-10-05
Publication date: 2020-05-12
Also published as: KR20200044176A

Abstract

본 발명은 음절 및 자모단위로 입력을 구성하며 변환된 자모임베딩을 사용하여 빈번하게 발생되는 오타가 일어난 문장에서도 정확한 품사를 결정할 수 있도록 한 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법에 관한 것으로, 자모 단위 초,중,종성 임베딩을 수행하는 자모단위 임베딩부;음절 단위 임베딩을 수행하는 음절단위 임베딩부;초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 입력부;Bi-LSTM-CRF의 forward/ backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 하는 학습부;최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 품사의 시작, 중간, 끝을 나타내는 기호를 부착한 품사 태그 출력을 하는 출력부;를 포함하는 것이다.

Description

자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법{System and Method for Korean ＰＯＳ Tagging Using the Concatenation of Jamo and Syllable Embedding}

본 발명은 한국어 형태소 분석에 관한 것으로, 구체적으로 음절 및 자모단위로 입력을 구성하며 변환된 자모임베딩을 사용하여 빈번하게 발생되는 오타가 일어난 문장에서도 정확한 품사를 결정할 수 있도록 한 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법에 관한 것이다.

형태소란 한 언어 내에서 의미를 내포하고 있는 가장 작은 단위를 말한다.

형태소 분석기는 어절 또는 문장에 포함된 형태소들을 분리하고, 분리된 형태소들 각각을 분석하는 작동을 수행하는 장치 또는 프로그램으로서, 음성 인식, 감성 분석, 자연어 처리, 데이터 마이닝, 또는 키워드 추출 등 폭넓은 분야에 이용되고 있다.

이와 같은 형태소 분석은 가장 기본적이고 필수적인 자연어 처리 과정으로, 부정확한 품사 태깅 결과는 개체명 인식, 구문 분석 등을 비롯한 많은 언어 처리 과제의 성능에 치명적인 영향을 미칠 수 있다.

이로 인해 전통적으로 정확한 형태소 분석을 위한 많은 연구가 진행되어 왔으며, 최근에는 딥 러닝(deep learning) 모델을 이용하여 형태소 분리 및 품사 태깅 등에서 높은 성능들이 보고되고 있다.

그러나 대부분의 기존 형태소 분석 연구는 상당 수준의 정제된 문장들로 구성된 말뭉치(대표적으로 세종 말뭉치)를 대상으로 수행되어 왔다.

하지만, 빅 데이터의 중요성이 대두되면서, 웹 문서들과 같이 정제되지 않은 대량의 문서들이 중요한 언어 자원으로 사용되고 있는데, 그 안에는 물론 신문 기사와 정제 과정을 거치는 문서들도 포함되어 있지만, 대부분의 문서들은 별도의 정제 과정 없이 작성된 경우이다.

이로 인해 최근 들어서는 오타 등 문법적 오류를 포함하는 비격식 문서를 대상으로 언어 분석 실험을 수행하는 연구들이 수행되고 있다.

이와 같이, 형태소 분석은 자연어처리의 첫단계로써 부정확한 품사 태깅 결과는 개체명 인식, 구문 분석 등 치명적인 영향을 미칠 수 있다.

그러나 종래 기술의 대부분의 형태소 분석 연구는 정제된 문장들로 구성된 신문기사, 세종 말뭉치를 이용하여 학습을 하였기 때문에 오타가 발생한 문장들에 대한 형태소 분석 결과가 좋지 않다.

또한, 최근 SNS 사용의 급증 및 빅 데이터의 대량의 문서들이 중요한 언어 자원으로 사용되고 있지만 이를 이용하기 위하여 형태소 분석을 하면 정제되어 있지 않은 데이터이기 때문에 오타가 빈번하여 적합하지 않는 품사 태깅 결과를 보여준다.

따라서, 실생활에서 자주 혼동하여 사용되는 오타들을 대상으로 강건한 형태소 분석을 가능하도록 하기 위한 새로운 기술의 개발이 요구되고 있다.

대한민국 공개특허 제10-2017-0000201호 대한민국 공개특허 제10-2000-0018924호

본 발명은 종래 기술의 형태소 분석 기술의 문제점을 해결하기 위한 것으로, 음절 및 자모단위로 입력을 구성하며 변환된 자모임베딩을 사용하여 빈번하게 발생되는 오타가 일어난 문장에서도 정확한 품사를 결정할 수 있도록 한 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 Bi-LSTM-CRF(Bidirectional Long Short Term Memory CRFs 모델을 사용하여 입력으로 음절을 표현하기 위하여 자모 및 음절 임베딩 결합을 통하여 오타가 발생한 문장에도 형태소 분석이 효과적으로 이루어지도록 한 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 자주 혼동되거나 입력 실수로 발생되는 오타들의 정확한 형태소 품사 태깅을 위하여 혼동되는 초중종성들을 조사하여 통합을 한 자모임베딩 벡터를 사용함으로써 개선된 형태소 분석을 할 수 있도록 한 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명은 자모 임베딩과 음절 임베딩의 결합 및 임베딩 변환을 이용하여 오타 없는 문서와 오타 있는 문서에서 동시에 우수한 성능을 내는 형태소 분석이 가능하도록 한 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법을 제공하는데 그 목적이 있다.

본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치는 자모 단위 초,중,종성 임베딩을 수행하는 자모단위 임베딩부;음절 단위 임베딩을 수행하는 음절단위 임베딩부;초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 입력부;Bi-LSTM-CRF의 forward/backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 하는 학습부;최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 품사의 시작, 중간, 끝을 나타내는 기호를 부착한 품사 태그 출력을 하는 출력부;를 포함하는 것을 특징으로 한다.

여기서, 입력부는, 임베딩 차원은 64로 하고, 초성과 종성의 동일한 자음 구분을 위하여 초성과 종성의 위치 표시를 두어 구분하고, 종성이 없는 음절의 경우에 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습하는 것을 특징으로 한다.

그리고 입력부는, 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 것을 특징으로 한다.

그리고 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하는 과정에서, 자모sum, 자모음절sum, 자모concat, 자모음절concat의 합 또는 결합을 선택적으로 진행하고, 'sum'은 vector sum을 의미하는 합이고, 'concat'은 concatenate vector를 의미 결합인 것을 특징으로 한다.

그리고 초/중/종성 세 자모 임베딩을 결합하는 과정에서, 실제로 문법을 혼동하거나 혹은 자판 입력 시의 오류로 자주 틀리게 작성되는 자모들을 분석하여, 동일 벡터로 변환하여 해당 오타에 효과적으로 대응할 수 있도록 하는 것을 특징으로 한다.

그리고 초/중/종성 세 자모 임베딩을 결합하는 과정에서 어느하나의 자모와 다른 자모를 동일 벡터로 변환하여 통합하기 위한 오타 유형은, 초성의 ㄱ/ㄲ, ㅂ/ㅃ, ㅅ/ㅆ 중성의 ㅐ/ㅔ, ㅙ/ㅚ/ㅞ 종성의 ㄱ/ㄲ/ㄳ, ㄴ/ㄶ/ㄵ, ㄹ/ㄺ/ㄻ/ㄼ/ㄽ/ㄾ/ㄿ/ㅀ, ㅂ/ㅄ, ㅅ/ㅆ의 유형을 포함하여 구분되는 것을 특징으로 한다.

그리고 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석 결과의 성능은 어절단위 정확도를 사용하여 평가되고,

으로 정의되는 것을 특징으로 한다.

다른 목적을 달성하기 위한 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법은 자모 단위 초,중,종성 임베딩을 수행하고, 음절 단위 임베딩을 수행하는 자모단위 및 음절단위 임베딩 단계;초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 입력 단계;Bi-LSTM-CRF의 forward/backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 하는 학습 단계;최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 품사의 시작, 중간, 끝을 나타내는 기호를 부착한 품사 태그 출력을 하는 출력 단계;를 포함하는 것을 특징으로 한다.

여기서, 입력 단계는, 임베딩 차원은 64로 하고, 초성과 종성의 동일한 자음 구분을 위하여 초성과 종성의 위치 표시를 두어 구분하고, 종성이 없는 음절의 경우에 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습하는 것을 특징으로 한다.

그리고 입력 단계는, 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 것을 특징으로 한다.

으로 정의되는 것을 특징으로 한다.

이상에서 설명한 바와 같은 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법은 다음과 같은 효과가 있다.

첫째, 음절 및 자모단위로 입력을 구성하며 변환된 자모임베딩을 사용하여 빈번하게 발생되는 오타가 일어난 문장에서도 정확한 품사를 결정할 수 있도록 한다.

둘째, Bi-LSTM-CRF(Bidirectional Long Short Term Memory CRFs 모델을 사용하여 입력으로 음절을 표현하기 위하여 자모 및 음절 임베딩 결합을 통하여 오타가 발생한 문장에도 형태소 분석이 효과적으로 이루어지도록 한다.

셋째, 자주 혼동되거나 입력 실수로 발생되는 오타들의 정확한 형태소 품사 태깅을 위하여 혼동되는 초중종성들을 조사하여 통합을 한 자모임베딩 벡터를 사용함으로써 개선된 형태소 분석을 할 수 있도록 한다.

넷째, 자모 임베딩과 음절 임베딩의 결합 및 임베딩 변환을 이용하여 오타 없는 문서와 오타 있는 문서에서 동시에 우수한 성능을 내는 형태소 분석이 가능하도록 한다.

도 1a와 도 1b는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치의 전체 구성도 및 상세 구성도
도 2는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치의 상세 구성도
도 3은 자주 발생되는 오타의 일 예를 나타낸 구성도
도 4는 자주 발생되는 오타 유형을 나타낸 구성도
도 5는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법을 나타낸 플로우 차트
도 6a와 도 6b는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석에 따른 성능을 나타낸 결과 그래프

이하, 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.

본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.

도 1a와 도 1b는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치의 전체 구성도 및 상세 구성도이다.

본 발명은 자연어 처리의 가장 기본적이고 필수적인 과정으로, 한국어와 같은 자연어를 분석하는 시스템에 관한 것이다.

한국어 형태소 분석은 의미를 가지는 가장 작은 단위인 형태소를 분석하기 위하여 형태소가 조합된 어절 단위에서 형태소 단위로 분리하고 형태소에 적합한 품사를 결정하는 기술이며 이를 형태소 분석기(POS Taging)라고 부른다.

본 발명에서는 형태소 분석을 하기 위하여 형태소 분리를 하고 품사 결정을 하는 단계를 합쳐서 딥러닝을 이용하는 구성을 포함한다.

또한, 오타가 있는 문장도 형태소 분석이 정확하게 되기 위하여 음절 및 자모단위로 입력을 구성하며 변환된 자모임베딩을 사용함으로써 빈번하게 발생되는 오타가 일어난 문장에도 정확한 품사를 결정하는 형태소 분석 기술을 구현하기 위한 것이다.

이와 같은 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법은 자주 혼동되어 사용되는 오타들을 분석한 후, 그 자모에 해당하는 임베딩을 하나의 임베딩 벡터로 통합을 하여 임베딩을 만들고, 입력으로 자모와 음절 임베딩벡터를 결합(concatenate)하여 사용하는 것에 의해 자주 혼동되어 사용하는 오타에 대하여 자모임베딩만을 사용하는 방법보다 향상된 성능을 갖도록 한 것이다.

본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법에 적용되는 딥 러닝 모델의 일 예는 Bi-LSTM-CRF 이며, 이로 제한되지 않는다.

이하의 설명에서 본 발명에 따른 자모 단위 초,중,종성 임베딩 및 음절 단위 임베딩은 다음과 같은 의미를 갖는다.

딥러닝의 입력은 벡터로 이루어져 있어야 하는데, 본 발명에서는 첫째, 오타에 강건하기 위하여 음절을 자모 단위로 나누어 입력으로 추가하고, 둘째, 자주 혼동되어 틀리는 오타는 개선하기 위하여 혼동되는 자모끼리 서로 통합하여 자모단위 임베딩을 생성하여 입력으로 사용한다.

일 예로, 'ㅔ', 'ㅐ' 는 모두 'ㅐ'로 통합하여 사용할 수 있다.

이와 같이 본 발명은 자모단위 임베딩을 사용하는 것에 의해 오타에 더 강건한 형태소 분석기를 개발할 수 있도록 한 것이다.

Bi-LSTM-CRF의 입력인 음절과 자모를 표현하기 위하여 알고리즘인 word2vec를 이용하여 임베딩을 사용한다.

이때 임베딩은 대용량의 뉴스코퍼스를 사용하여 자모와 음절 벡터 표현을 만들고, 자모임베딩과 음절임베딩에는 자모와 음절에 대한 정보가 들어간 각 64차원의 벡터가 만들어진다.

그 후, 자모 단위 초,중,종성 임베딩의 각 64차원 벡터 및 음절 단위 임베딩의 64차원 벡터를 결합(concatenate)하여 총 256차원 벡터를 사용하여 입력 벡터로 사용한다.

도 1a와 도 1b에서와 같이, 각 음절을 입력으로 사용하는데, 입력 음절을 표현하기 위해서 자모 단위 초/중/종성 세 임베딩을 사용한다.

그 후 Bi-LSTM-CRF의 forward/backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 한다.

여기서 사용되는 Bi-LSTM-CRF은 순차 레이블이 많은 영역에서 좋은 성능을 보이고 있는 딥러닝 방법인데, forward 단계에서 현재 입력에 대한 상태층의 정보가 뒤의 상태에 영향을 주며, backward 단계에서 뒤에 상태가 앞의 상태에 영향을 주어 학습한다.

예를 들어, '학생의'이라는 어절이 들어왔을때, forward 단계에서 먼저 '학'이라는 음절이 입력되고, 다음으로 음절'생'이 입력된다.

그리하여 실제로는 '학생'을 나타내는 상태와 같은 의미를 가지게 된다.

forward 단계와 마찬가지로 backword 단계도 반대로 '의'이라는 음절이 들어오고 '생'이라는 음절이 들어가는데, forward 단계와 backward 단계가 진행된 후 두 단계를 결과와 정답과의 비용(cost)을 계산한 후에 역전파 알고리즘을 사용하여 학습을 하는 것이다.

마지막으로 최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 최종 출력은 품사의 시작/중간/끝을 나타내는 B/I/E 기호를 부착한 품사 태그가 된다.

태그 사이의 전이확률을 계산하기 위해 CRF의 forward 알고리즘을 이용하고, 최적의 태그열을 찾기 위해 확률 값들의 누적치 중 최고값을 가지는 상태에서 백트랙킹을 하여 최적의 상태열을 추출하는 Viterbi 탐색 알고리즘을 이용하는 것이다.

임베딩 차원은 64로 하였으며, 초성과 종성의 동일한 자음 구분을 위하여 초성과 종성의 위치 표시를 두어 구분한다.

종성이 없는 음절의 경우에는 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습한다.

그 후 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 사용하게 된다.

이하의 설명에서 '초/중/종성 임베딩 3개의 합'으로 표기되는 경우에서의 '합'은 vector sum을 의미하며, 앞으로 'sum'으로 표기한다. 예를 들어, 초/중/종성 임베딩 3개의 합은 '자모sum'이라고 표기한다.

그리고 '초/중/종성 임베딩 3개의 결합'으로 표기되는 경우에서의 '결합'은 concatenate vector를 의미하며, 앞으로 'concat'으로 표기한다.

예를 들어 '자모concat'으로 표기한다.

본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법에 자모sum, 자모음절sum, 자모concat, 자모음절concat 등 다양한 구성을 적용한 경우에서 자모음절concat을 Bi-LSTM-CRF의 입력 자질로 사용한 경우, 오타 없는 문서 및 오타 있는 문서에서 강인한 결과를 갖는다.

또한, 문장 안의 어절 단위 정보를 넣기 위하여 띄어쓰기 단위마다 <SP> 라는 구분자를 입력으로 넣고, 띄어쓰기 공백의 최종 출력은 도 1a와 도 1b에서와 같이 B-S 태그로 설정한다.

본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치의 상세 구성은 다음과 같다.

도 2는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치의 상세 구성도이다.

본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치는 자모 단위 초/중/종성 세 임베딩을 수행하는 자모단위 임베딩부(10)와, 음절 단위 임베딩을 수행하는 음절단위 임베딩부(20)와, 임베딩 차원은 64로 하고, 초성과 종성의 동일한 자음 구분을 위하여 초성과 종성의 위치 표시를 두어 구분하고, 종성이 없는 음절의 경우에 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습하여 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 입력부(30)와, Bi-LSTM-CRF의 forward/ backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 하는 학습부(40)와, 최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 품사의 시작/중간/끝을 나타내는 B/I/E 기호를 부착한 품사 태그 출력을 하는 출력부(50)를 포함한다.

이와 같은 구성을 갖는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치를 이용한 실제 자주 출현하는 오타 분석 결과는 다음과 같다.

그리고 도 3은 자주 발생되는 오타의 일 예를 나타낸 구성도이다.

오타가 있는 문장에서도 형태소 분석이 잘 수행되는지의 여부를 파악하기 위해 강제로 임의의 자모 오타를 생성시킨 후 분석을 수행한다.

오타는 다양한 경우에서 발생되므로, 이와 같이 임의 오타를 생성하여 수행한 분석은 매우 중요하다고 할 수 있다.

본 발명에서는, 실생활에서 유독 오타가 많이 발생되는 경우를 집계하여, 그런 오타 유형에 맞춤형으로 대응하는 분석도 수행한다.

본 발명에서는 국립국어원 질문응답 사이트의 다양한 자료를 분석하여, 실제로 혼동이 많다고 집계된 11 가지 경우에 대해서 각각 자모 임베딩을 동일하게 변환하는 방법으로 분석을 수행한다.

여기서, 초/중/종성 세 자모 임베딩을 결합하는 과정에서 어느하나의 자모와 다른 자모를 동일 벡터로 변환하여 통합하기 위한 오타 유형은, 초성의 ㄱ/ㄲ, ㅂ/ㅃ, ㅅ/ㅆ 그리고 중성의 ㅐ/ㅔ, ㅙ/ㅚ/ㅞ 그리고 종성의 ㄱ/ㄲ/ㄳ, ㄴ/ㄶ/ㄵ, ㄹ/ㄺ/ㄻ/ㄼ/ㄽ/ㄾ/ㄿ/ㅀ, ㅂ/ㅄ, ㅅ/ㅆ의 유형을 포함하여 구분되는 것이 바람직하다.

도 3은 벡터를 통합하는 몇 가지 경우이며 괄호 안은 자주 혼동되는 단어의 예이다.

본 발명은 도 3의 예와 같이 실제로 문법을 혼동하거나 혹은 자판 입력 시의 오류로 자주 틀리게 작성되는 자모들을 분석하여, 동일 벡터로 변환함으로써(예를 들어 ㅐ와 ㅔ의 임베딩을 동일한 벡터로 통합 사용) 시스템이 해당 오타에 효과적으로 대응할 수 있도록 한다.

본 발명은 이와 같은 임베딩 변환을 통하여 오타가 매우 자주 출현하는 데이터(예를 들어 SNS 데이터)에서도 일정 수준 이상의 성능을 산출할 수 있는 형태소 분석이 가능하도록 한 것이다.

본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치를 이용한 형태소 분석 결과를 설명하면 다음과 같다.

본 발명의 형태소 분석에 사용되는 말뭉치는 세종말뭉치이며, 임의로 선택된 4만 어절의 학습 데이터(training data)와 1만 어절의 평가 데이터(test data)를 사용한다.

세세하게 분리된 어미 정보는 사용하지 않고, 각 어미들은 어간과 결합하여 하나의 용언으로 구성한다. 품사 개수는 43개의 품사태그를 사용하였으며, B/I/E태그가 부착되었으므로 출력 태그의 개수는 공백을 나타내는 B-S까지 총 130개가 된다.

임베딩 구축은 11.5GB의 네이버 뉴스 대상으로 Word2Vec을 사용하였으며, Bi-LSTM-CRF의 hidden layer 개수는 100, learning rate는 0.01, 그리고 epoch 수는 최대 150으로 설정하였다.

그리고 성능 평가는 아래와 같이 어절단위 정확도를 사용한다.

이와 같은 분석의 베이스라인은 표 1에서와 같이 두 가지로 설정한다.

표 1에서 음절임베딩은 최근 세종말뭉치 대상으로 가장 높은 형태소 태깅 성능을 산출한다고 보고되고 있는 음절 임베딩을 사용한 경우이다.

본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치를 이용한 형태소 분석 결과를 보면, 음절 임베딩을 Bi-LSTM-CRF의 입력 벡터로 사용하는 시스템을 구현하여 오타 없는 문서에서 97.76%의 높은 성능을 산출하였다.

표 1에서 베이스라인인 자모sum-SP없음은 어절 정보를 포함하지 않는다.

표 2는 문장 안에 어절 정보, 즉, <SP>를 추가하여 분석한 결과이다.

오타 있는 문서를 만들기 위해서, 테스트 데이터의 모든 어절에서 어절당 1개씩의 자모오타를 강제로 생성하여 분석한 결과이다.

표 2에서 볼 수 있듯이, 자모sum-SP없음보다 어절 정보 넣은 나머지 경우들에서 오타 유무와 상관없이 성능이 개선되었다.

그리고 전체적으로 sum 경우보다 concat경우가 성능이 우수하였는데, 오타 없는 데이터의 성능은 자모concat이 97.34%, 오타 있는 경우에서는 자모음절concat이 80.09%로 베이스라인인 자모sum-SP없음보다 9%p 가까이 높은 성능을 산출하였다.

다음으로 오타 출현 빈도별 성능 분석 결과는 다음과 같다.

실제로 모든 어절마다 오타가 출현하는 경우보다는 좀 더 간헐적으로 출현하는 경우가 많을 것이라는 판단 하에, 표 3과 같이 5 및 2어절당 1오타인 경우에 대해서도 성능을 분석하였다.

표 3에서와 같이 오타 빈도수가 n=1, 2, 5 모든 경우에서 자모음절concat이 가장 우수한 결과를 보이고 있는데, 오타에 대해서 자모음절concat이 역할을 잘 하고 있는 것을 알 수 있다.

표 4는 어떤 품사의 단어에서 오타가 발생했을 때 전체 성능에 가장 영향을 주는지를 확인하기 위해, 명사, 동사, 조사에 대해서 각각 별도로 오타를 발생시켜 분석한 것이다.

조사에서 오타 발생 시 인식률이 매우 낮았는데, 이는 조사에 오타가 있는 경우 조사 앞에 있는 체언뿐만 아니라 조사까지 포함하여 전체 어절이 하나의 일반명사로 태깅되기 때문이다.

예를 들어 '학교에' 대신 '학교애'가 입력된 경우, '명사+조사'가 아닌 명사 하나로 출력됨을 확인할 수 있다.

동사는 오타임에도 상대적으로 높은 정확도를 보여주고 있는데, 이는 문맥 정보에 의해 시스템이 동사를 비교적 잘 인식하고 있기 때문이다.

그리고 본 발명에서는 국립국어원 질문응답 사이트의 데이터를 분석하여, 실제로 맞춤법이 어렵거나 자판을 입력할 때의 실수에 의해 오타가 빈번히 발생하는 11 가지 오타 유형에 대해서 자모 임베딩을 통합하였다.

예를 들어, 사용자들이 자주 틀리게 입력하는 단어 중 하나로 '베개'를 들 수 있는데, 베게/배게/배개 등으로 틀리게 입력될 가능성이 높다.

이 경우 중성 ㅐ/ㅔ를 잘못 입력하는 경우인데, 이런 경우 두 중성에 대해 동일한 자모 임베딩 벡터를 사용한다.

비슷한 예로, 되어/돼어, 왠지/웬지 등도 빈번하게 오타가 발생되는 경우로, 세 중성 ㅚ/ㅙ/ㅞ에 대해 하나의 자모 임베딩 벡터로 통합하여 사용한다.

이와 유사한 총 11가지 유형을 설정하여 각각 동일한 임베딩으로 통합 후 학습 및 분석을 진행하고, 도 4는 자주 발생되는 오타 11 유형을 나타낸 구성도이다.

분석을 위하여, 대표자모가 아닌 자모들을 모두 대표자모로 변환 후 (예를 들어, 너한테 -> 너한태) 분석을 한다.

테스트 데이터의 거의 모든 문장에서 최소한 하나씩은 이러한 오타변경이 발생하였다. (예를 들어‘ㅔ’, ‘ㅗ’, ‘ㅆ’등을 하나도 포함하지 않는 문장은 전체 테스트 문장의 1.5%도 되지 않았다.)

표 5는 자모음절concat에 대해서 임베딩 변환 전 후의 성능 변화를 나타낸 것이다.

표 6에서와 같이 변환된 임베딩으로 학습한 경우, 그 유형에 해당하는 오타가 발생한 경우 변환 전에 비해 16%p 가까이 증가한 93.05%의 높은 성능을 기록하였다.

이는 임베딩 변환 방법이 오타가 있는 문서에서 역할을 할 수 있음을 보여주고 있다고 할 수 있다.

다만, 임베딩 변환한 경우 오타가 없는 문서에서 전체 성능은 변환 전에 비해 2.55%p 낮은 94.45%를 기록했는데, 이는 몇몇 자모 벡터를 통합함으로써 오타가 아닌 문장들 경우에 통합된 자모들의 구분 범위가 줄어들었기 때문이다.

이와 같은 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법을 구체적으로 설명하면 다음과 같다.

도 5는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법을 나타낸 플로우 차트이다.

먼저, 자모 단위 초/중/종성 세 임베딩을 수행하고(S501), 음절 단위 임베딩을 수행한다.(S502)

임베딩 차원은 64로 하고, 초성과 종성의 동일한 자음 구분을 위하여 초성과 종성의 위치 표시를 두어 구분하고(S503), 종성이 없는 음절의 경우에 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습한다.(S504)

초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합한다.(S505)

총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공한다.(S506)

Bi-LSTM-CRF의 forward/ backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 하고(S507), 최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 품사의 시작/중간/끝을 나타내는 B/I/E 기호를 부착한 품사 태그 출력을 한다.(S508)

이와 같은 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법은 오타에도 정확한 형태소 품사를 결정하기 위하여 입력을 음절 임베딩 뿐만 아니라 자모단위인 초중종성의 자모임베딩을 concatenate하여 사용한다.

또한, 자주 혼동되거나 입력 실수로 발생하는 오타들은 보다 정확한 품사 결정을 할 수 있도록 혼동되는 자모들을 조사하고 이를 통합된 벡터를 사용함으로써 자주 발생되는 오타들의 잘못된 형태소 분석을 해결한다.

이와 같은 형태소 분석시에 오타에도 효과적인 형태소 분리 및 품사 태깅을 위해 문장이 들어왔을 시 음절로 분리하여 Bidirectional Long Short Term Memory CRFs 모델의 입력으로 두가지의 방법을 사용한다.

첫 번째는 오타가 난 문장에서도 정확한 형태소 분석을 위하여 입력으로 word2vec를 사용하여 만든 음절 임베딩과 음절을 자모 단위로 분리한 초중종성의 임베딩을 concatenate하여 총 256차원이 입력으로 들어간다.

만약, 종성이 없을 시 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습한다.

또한, 문장안의 어절 정보를 넣기 위하여 띄어쓰기를 나타내는 정보인 space 벡터를 추가하여 띄어쓰기마다 <SP>라는 구분자를 입력으로 넣어 모델에 학습을 시킨다.

두 번째는 자주 혼동되는 자모를 분석을 하여 이에 해당되는 오타는 더 정확한 형태소 분석을 하기위해 변환된 자모임베딩을 사용한다.

그러기 위해 자주 혼동되는 자모들은 통합시켜서 word2vec를 이용하여 변환된 자모임베딩을 구축한다.

그리하여 변환된 자모임베딩과 음절임베딩을 concatenate해서 Bidirectional Long Short Term Memory CRFs 모델의 입력으로 넣는다.

이를 통하여 자주 혼동되는 자모 오타에는 일반적인 자모임베딩만 사용한 형태소 분석기보다 변환된 자모임베딩을 사용함으로써 정확한 품사 결정을 할 수 있다.

도 6a와 도 6b는 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석에 따른 성능을 나타낸 결과 그래프이다.

도 6a에서와 같이, 초/중/종성 자모 임베딩 및 음절 임베딩의 결합을 입력으로 하여 Bi-LSTM-CRF을 수행함으로써, 오타없는 문장들에 대해서 97%의 성능을 유지하면서, 동시에 오타있는 문장에서도 베이스라인보다 8.77%p 높은 성능(n=1 기준)을 보여주었다.

또한, 도 6b에서와 같이, 실생활에서 자주 발생하는 11가지 오타 유형을 집계 후 임베딩 통합을 이용해서, 해당 오타가 있는 문장에서도 그림 93.05%의 높은 성능을 산출하였다.

이는 향후 오타 유무와 상관없이 일정 수준 이상의 성능을 유지하는 형태소 분석 시스템의 구현이 가능함을 의미한다.

이상에서 설명한 본 발명에 따른 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치 및 방법은 자모 임베딩과 음절 임베딩의 결합 및 임베딩 변환을 이용하여 오타 없는 문서와 오타 있는 문서에서 동시에 우수한 성능을 내는 형태소 분석이 가능하도록 한 것이다.

이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.

그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

10. 자모단위 임베딩부 20. 음절단위 임베딩부
30. 입력부 40. 학습부
50. 출력부

Claims

자모 단위 초,중,종성 임베딩을 수행하는 자모단위 임베딩부;
음절 단위 임베딩을 수행하는 음절단위 임베딩부;
초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 입력부;
Bi-LSTM-CRF의 forward/backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 하는 학습부;
최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 품사의 시작, 중간, 끝을 나타내는 기호를 부착한 품사 태그 출력을 하는 출력부;를 포함하고,
초/중/종성 세 자모 임베딩을 결합하는 과정에서, 문법을 혼동하거나 혹은 자판 입력 시의 오류로 틀리게 작성되는 자모들을 분석하여, 동일 벡터로 변환하는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치.
제 1 항에 있어서, 입력부는,
임베딩 차원은 64로 하고, 초성과 종성의 동일한 자음 구분을 위하여 초성과 종성의 위치 표시를 두어 구분하고, 종성이 없는 음절의 경우에 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습하는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치.
제 1 항에 있어서, 입력부는,
초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치.
제 1 항 또는 제 3 항에 있어서, 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하는 과정에서,
자모sum, 자모음절sum, 자모concat, 자모음절concat의 합 또는 결합을 선택적으로 진행하고,
'sum'은 vector sum을 의미하는 합이고, 'concat'은 concatenate vector를 의미 결합인 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치.
삭제
제 1 항에 있어서, 초/중/종성 세 자모 임베딩을 결합하는 과정에서 어느하나의 자모와 다른 자모를 동일 벡터로 변환하여 통합하기 위한 오타 유형은,
초성의 ㄱ/ㄲ, ㅂ/ㅃ, ㅅ/ㅆ
중성의 ㅐ/ㅔ, ㅙ/ㅚ/ㅞ
종성의 ㄱ/ㄲ/ㄳ, ㄴ/ㄶ/ㄵ, ㄹ/ㄺ/ㄻ/ㄼ/ㄽ/ㄾ/ㄿ/ㅀ, ㅂ/ㅄ, ㅅ/ㅆ의 유형을 포함하여 구분되는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치.
제 1 항에 있어서, 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석 결과의 성능은 어절단위 정확도를 사용하여 평가되고,

으로 정의되는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 장치.
자모단위 임베딩부에서 자모 단위 초,중,종성 임베딩을 수행하고, 음절단위 임베딩부에서 음절 단위 임베딩을 수행하는 자모단위 및 음절단위 임베딩 단계;
입력부에서 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 입력 단계;
학습부에서 Bi-LSTM-CRF의 forward/backward 단계를 진행한 후 역전파 알고리즘을 이용하여 학습을 하는 학습 단계;
출력부에서 최적의 태그열을 찾기 위해 Viterbi 탐색 알고리즘을 사용하고, 품사의 시작, 중간, 끝을 나타내는 기호를 부착한 품사 태그 출력을 하는 출력 단계;를 포함하고,
초/중/종성 세 자모 임베딩을 결합하는 과정에서, 문법을 혼동하거나 혹은 자판 입력 시의 오류로 틀리게 작성되는 자모들을 분석하여, 동일 벡터로 변환하는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법.
제 8 항에 있어서, 입력 단계는,
임베딩 차원은 64로 하고, 초성과 종성의 동일한 자음 구분을 위하여 초성과 종성의 위치 표시를 두어 구분하고, 종성이 없는 음절의 경우에 종성 위치에 '종성없음'을 나타내는 별도의 구분자를 넣어 학습하는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법.
제 8 항에 있어서, 입력 단계는,
초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하여 총 256차원의 벡터로 한 음절을 표현하며, Bi-LSTM-CRF의 입력으로 제공하는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법.
제 8 항 또는 제 10 항에 있어서, 초/중/종성 세 자모 임베딩을 결합하고, 음절 임베딩을 추가로 결합하는 과정에서,
자모sum, 자모음절sum, 자모concat, 자모음절concat의 합 또는 결합을 선택적으로 진행하고,
'sum'은 vector sum을 의미하는 합이고, 'concat'은 concatenate vector를 의미 결합인 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법.
삭제
제 8 항에 있어서, 초/중/종성 세 자모 임베딩을 결합하는 과정에서 어느하나의 자모와 다른 자모를 동일 벡터로 변환하여 통합하기 위한 오타 유형은,
초성의 ㄱ/ㄲ, ㅂ/ㅃ, ㅅ/ㅆ
중성의 ㅐ/ㅔ, ㅙ/ㅚ/ㅞ
종성의 ㄱ/ㄲ/ㄳ, ㄴ/ㄶ/ㄵ, ㄹ/ㄺ/ㄻ/ㄼ/ㄽ/ㄾ/ㄿ/ㅀ, ㅂ/ㅄ, ㅅ/ㅆ의 유형을 포함하여 구분되는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법.
제 8 항에 있어서, 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석 결과의 성능은 어절단위 정확도를 사용하여 평가되고,

으로 정의되는 것을 특징으로 하는 자모 및 음절 임베딩 결합을 이용하는 한국어 형태소 분석을 위한 방법.