KR20190019683A - 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법 - Google Patents

품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법 Download PDF

Info

Publication number
KR20190019683A
KR20190019683A KR1020170104916A KR20170104916A KR20190019683A KR 20190019683 A KR20190019683 A KR 20190019683A KR 1020170104916 A KR1020170104916 A KR 1020170104916A KR 20170104916 A KR20170104916 A KR 20170104916A KR 20190019683 A KR20190019683 A KR 20190019683A
Authority
KR
South Korea
Prior art keywords
syllable
unit
dictionary
crfs
morpheme
Prior art date
Application number
KR1020170104916A
Other languages
English (en)
Other versions
KR101997783B1 (ko
Inventor
고영중
김혜민
양선
Original Assignee
동아대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 동아대학교 산학협력단 filed Critical 동아대학교 산학협력단
Priority to KR1020170104916A priority Critical patent/KR101997783B1/ko
Publication of KR20190019683A publication Critical patent/KR20190019683A/ko
Application granted granted Critical
Publication of KR101997783B1 publication Critical patent/KR101997783B1/ko

Links

Images

Classifications

    • G06F17/2755
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Abstract

본 발명은 한 어절에서 형태소 단위의 분리 과정과 형태소에 대한 품사 결정 과정을 합쳐서 딥러닝으로 최근 순차 레이블이 많은 영역에서 좋은 성능을 보이고 있는 양방향(Bidirectional) LSTM(Long Short Term Memory) CRFs(bi-LSTM-CRFs)를 사용한 음절 단위 형태소 분석기 및 분석방법을 제공하기 위한 것으로서, 입력된 문장을 음절 단위로 분리하는 음절 분리부와, 상기 음절 분리부에서 분리된 음절을 기반으로 음절에 대한 벡터를 통해 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅을 진행하여 음절이 포함된 형태소의 품사 태그를 할당하는 분류부와, 상기 분류부에서 음절 단위로 품사 태그가 결정된 결과에 대해 기분석 사전을 통해 학습 말뭉치에서 중의성이 없는 변환을 처리하여 오류를 제거하는 오류 제거부와, 상기 오류 제거부에서 오류를 제거하여 음절 단위로 품사 태그가 부착된 결과를 원형복원을 통해 형태소 단위로 변환하는 원형 복원부를 포함하여 구성되는데 있다.

Description

품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법{Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs and Method of the same}
본 발명은 형태소 분석기에 관한 것으로, 특히 한 어절에서 형태소 단위의 분리 과정과 형태소에 대한 품사 결정 과정을 합쳐서 딥러닝으로 최근 순차 레이블이 많은 영역에서 좋은 성능을 보이고 있는 양방향(Bidirectional) LSTM(Long Short Term Memory) CRFs를 사용한 음절 단위 형태소 분석기 및 분석방법에 관한 것이다.
한국어 형태소 분석의 부정확한 결과는 구문 분석, 의미역 부착, 기계 번역 등에 치명적인 영향을 미칠 수 있으므로 정확한 분석이 중요하다. 형태소 분석인 일반적으로 형태소 분석과 품사 태킹 두 가지로 나뉜다. 형태소 분석이란 가장 작은 의미를 가진 형태소와 품사 쌍 후보를 생성하는 것이다. 그리고 품사 태깅이란 형태소 분석에서 나온 후보들에서 각 어절의 뜻과 문맥을 고려하여 가장 알맞은 형태소와 품사 쌍을 결정하는 것이다.
기존의 형태소 단위로 한국어 어절을 분석하기 위해서는 형태소 복원과 동시에 형태소 단위의 분리 과정, 형태소에 대한 품사 결정 과정이 함께 필요하다. 각 과정에서 형태적 중의성 및 품사적 중의성이 발생하므로 이를 처리하기 위한 과정이 비교적 복잡하다. 최근에는 이를 해결하기 위해 음절 단위 품사 태깅에 대한 연구가 늘어나고 있다. 음절 단위 품사 태깅은 어절 단위로 품사 태깅할 때 부다 자료 부족 문제가 줄어들고, 띄어쓰기 등의 기능과 결합이 가능하며, 다른 언어 이식과 이전 연구보다도 우수한 성능을 보인다.
음절 단위 형태소 분석은 입력된 문장을 음절단위로 나누고, CRF와 같은 기계학습 기반 분류기를 이용해 음절 단위로 형태소 시작과 이어지는 형태소를 나타내는 B,I 태그가 포함된 품사 레이블을 결정한다. 그리고 한국어는 교착어로 다양한 음운 현상이 발생하기 때문에 효과적인 음절 단위 형태소 분석을 위해서 기분석 사전을 이용한다. 기분석 사전은 형태소 분석이 된 어절들을 특정한 기준을 통해 미리 만들어 놓고 품사 태깅시 이용하는 것이다. 또한 불규칙 용언을 해결하기 위해 원형복원 사전을 추가적으로 이용한다. 원형복원 사전은 복합 형태소를 대상으로 간단한 규칙을 통하여 복합태그를 부착하는데 사용한다.
음절 단위 형태소 분석을 위해서는 앞서 언급한 것과 같이 순차적 레이블링을 처리할 수 있는 기계학습 기반의 분류기가 필요하며, Structural SVM와 CRF를 이용한 음절단위 형태소 분석 연구가 있다.
그러나 Structural SVM와 CRF는 한 음절에 대해 레이블을 결정하기 위해 다양한 자질을 사용해야 한다. 특히 현재 음절의 앞과 뒤에 존재하는 음절 또는 어절에 대한 정보를 자질로 활용하는 것이 중요하다. 이러한 형태소 분석기의 부정확한 결과는 구분 분석, 의미역 부착, 기계 번역 등에 치명적인 영향을 미칠 수 있으므로 정확한 분석이 중요하다.
최근 순차 레이블이 많은 영역에서 좋은 성능을 보이고 있는 양방향(Bidirectional) LSTM(Long Short Term Memory) CRFs(bi-LSTM-CRFs)를 이용한 음절 단위 형태소 분석 방법을 적용할 수 있다. bi-LSTM-CRFs는 forward 단계에서 현재 입력에 대한 상태층의 정보가 뒤의 상태에 영향을 주며, backward 단계에서 뒤에 상태가 앞의 상태에 영향을 주어 학습이 되기 때문에 다른 순차 레이블링을 위한 기계학습과 달리 작은 수의 자질만으로도 좋은 결과를 얻을 수 있다.
국내특허출원번호 제10-2010-0077308호 (출원일자 2010.08.11) 국내특허출원번호 제10-2015-0089121호 (출원일자 2015.06.23)
따라서 본 발명은 상기와 같은 문제점을 해결하기 위해 안출한 것으로서, 한 어절에서 형태소 단위의 분리 과정과 형태소에 대한 품사 결정 과정을 합쳐서 딥러닝으로 최근 순차 레이블이 많은 영역에서 좋은 성능을 보이고 있는 양방향(Bidirectional) LSTM(Long Short Term Memory) CRFs(bi-LSTM-CRFs)를 사용한 음절 단위 형태소 분석기 및 분석방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기의 특징은 입력된 문장을 음절 단위로 분리하는 음절 분리부와, 상기 음절 분리부에서 분리된 음절을 기반으로 음절에 대한 벡터를 통해 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅을 진행하여 음절이 포함된 형태소의 품사 태그를 할당하는 분류부와, 상기 분류부에서 음절 단위로 품사 태그가 결정된 결과에 대해 기분석 사전을 통해 학습 말뭉치에서 중의성이 없는 변환을 처리하여 오류를 제거하는 오류 제거부와, 상기 오류 제거부에서 오류를 제거하여 음절 단위로 품사 태그가 부착된 결과를 원형복원을 통해 형태소 단위로 변환하는 원형 복원부를 포함하여 구성되는데 있다.
바람직하게 상기 분류부는 음절에 대한 벡터를 생성하기 위해 단어 임베딩(word embedding) 알고리즘인 word2vec를 사용하여 64차원의 음절 단위의 임베딩 벡터를 학습하여 입력 벡터로 사용하는 것을 특징으로 한다.
바람직하게 상기 오류 제거부의 기분석 사전은 어절사전과 명사사전을 사용하는 것을 특징으로 한다.
바람직하게 상기 원형 복원부는 불규칙 변환이 존재하는 경우 불규칙 변환 사전을 통해 이를 보정하여 변환하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법의 특징은 (A) 음절 분리부를 통해 입력된 문장을 음절 단위로 분리하는 단계와, (B) 분류부를 통해 상기 분리된 음절을 기반으로 음절에 대한 벡터를 통해 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅을 진행하여 음절이 포함된 형태소의 품사 태그를 할당하는 단계와, (C) 오류 제거부를 통해 상기 음절 단위로 품사 태그가 결정된 결과에 대해 기분석 사전을 통해 학습 말뭉치에서 중의성이 없는 변환을 처리하여 오류를 제거하는 단계와, (D) 원형 복원부를 통해 상기 오류를 제거하여 음절 단위로 품사 태그가 부착된 결과를 원형복원을 통해 형태소 단위로 변환하는 단계를 포함하여 이루어지는데 있다.
바람직하게 상기 (A) 단계는 CRF 학습을 위해 음절단위 자질과 어절 단위 자질을 사용하는 것을 특징으로 한다.
바람직하게 상기 어절 단위 자질은 전체 말뭉치에서 유일한 어절들을 추출하는 단계와, 상기 추출된 각 어절 별로 ID를 할당하는 단계와, 상기 할당된 ID를 자질로 표현하여 사용하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
바람직하게 상기 (B) 단계는 상기 음절에 대한 벡터를 생성하기 위해 단어 임베딩(word embedding) 알고리즘인 word2vec를 사용하여 64차원의 음절 단위의 임베딩 벡터를 학습하여 입력 벡터로 사용하는 것을 특징으로 한다.
바람직하게 상기 (C) 단계는 기분석 사전을 어절사전과 명사사전을 사용하는 것을 특징으로 한다.
바람직하게 상기 명사사전은 중의적 분석이 되지 않는 명사들로 구축하는 것을 특징으로 한다.
바람직하게 상기 어절사전은 문맥정보를 고려하지 않은 어절사전1과 문맥정보를 고려하여 모호성을 해결한 어절사전2를 구축하는 것을 특징으로 한다.
바람직하게 상기 (D) 단계는 원형 복원 시에 불규칙 변환이 필요한 경우 불규칙 변환 사전을 이용하여 변환하는 것을 특징으로 한다.
바람직하게 상기 (D) 단계는 불규칙 변환에서 불규칙 변환 사전에 동일한 변환이 있을 시 가장 높은 빈도의 결과를 선택하는 단계와, 불규칙 변환을 적용한 후 최종적으로 동일한 품사 태그를 가지는 형태소들은 결합하여 형태소 품사 태깅을 완료하는 단계를 포함하여 이루어지는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석방법은 다음과 같은 효과가 있다.
첫째, bi-LSTM-CRFs를 사용하여 품사를 잘 표현하는 품사 태그 분포를 입력으로 넣어줌으로써, 기존의 형태소 분석기의 복잡한 자질을 없앤다.
둘째, 음절 단위로 형태소 분석을 하여 형태소 분리와 품사 결정 단계를 나눠서 하지 않고 한 번에 처리함에 따라 기존의 형태소 분석기의 방법 보다 더 향상된 성능을 나타낸다.
셋째, 순차 레이블에 적합한 bi-LSTM-CRFs를 사용하며 입력 벡터에 품사 분포 자질을 추가시킴으로써, 각 음절의 품사에 대한 정보를 추가시켜 기존의 형태소 분석기보다 사람의 시간과 노력이 비교적 적게 투자되지만 더 높은 성능을 나타낸다.
넷째, 형태소 분리와 품사 결정을 한 번에 해결하기 위해 음절 단위로 학습하며, 기분석 사전과 원형복원 사전을 미리 구축하여 적용시킴으로써 다양한 음운 현상이 발생하여 겪는 문제들을 해결할 수 있다.
도 1 은 본 발명의 실시예에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기의 구성을 나타낸 블록도
도 2 는 본 발명의 실시예에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석 방법을 설명하기 위한 흐름도
도 3 은 본 발명에서 음절을 입력으로 하는 bi-LSTM-CRFs의 실시예
도 4 는 기존의 CRF와 본 발명의 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅 결과를 비교한 도면
본 발명의 다른 목적, 특성 및 이점들은 첨부한 도면을 참조한 실시예들의 상세한 설명을 통해 명백해질 것이다.
본 발명에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석방법의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 설명하면 다음과 같다. 그러나 본 발명은 이하에서 개시되는 실시예에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예는 본 발명의 개시가 완전하도록하며 통상의 지식을 가진자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.
도 1 은 본 발명의 실시예에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기의 구성을 나타낸 블록도이다.
도 1에서 도시하고 있는 것과 같이, 입력된 문장을 음절 단위로 분리하는 음절 분리부(100)와, 상기 음절 분리부(100)에서 분리된 음절을 기반으로 음절에 대한 벡터를 통해 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅을 진행하여 음절이 포함된 형태소의 품사 태그를 할당하는 분류부(200)와, 상기 분류부(200)에서 음절 단위로 품사 태그가 결정된 결과에 대해 기분석 사전을 통해 학습 말뭉치에서 중의성이 없는 변환을 처리하여 오류를 제거하는 오류 제거부(300)와, 상기 오류 제거부(300)에서 오류를 제거하여 음절 단위로 품사 태그가 부착된 결과를 원형복원을 통해 형태소 단위로 변환하는 원형 복원부(400)로 구성된다.
상기 분류부(200)에서 음절에 대한 벡터를 생성하기 위해 대표적인 단어 임베딩(word embedding) 알고리즘인 word2vec를 사용하여 64차원의 음절 단위의 임베딩 벡터를 학습하여 입력 벡터로 사용한다.
상기 오류 제거부(300)의 기분석 사전은 품사 태깅에 모호성이 존재하지 않는 경우를 사전으로 구축한 것으로, 어절사전과 명사사전을 사용한다.
상기 원형 복원부(400)는 불규칙 변환이 존재하는 경우 불규칙 변환 사전을 통해 이를 보정하여 변환한다.
이와 같이 구성된 본 발명에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기의 동작을 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 도 1 또는 도 2와 동일한 참조부호는 동일한 기능을 수행하는 동일한 부재를 지칭한다.
도 2 는 본 발명의 실시예에 따른 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석 방법을 설명하기 위한 흐름도이다.
도 2를 참조하여 설명하면, 먼저 음절 분리부(100)를 통해 입력된 문장을 음절 단위로 분리한다(S10).
음절 기반의 형태소 품사 태깅을 위해서 분리된 음절에 대해 품사 태그를 결정하는 것이 중요하다. 예를 들어, 문장에서 "세계적인"이라는 어절은 음절 단위로 분리된 후 각 음절별로 아래 표 1과 같이 품사 태그가 할당된다.
Figure pat00001
B-NNG는 품사가 NNG인 형태소의 시작 음절을 나타내며, I-NNG는 품사가 NNG인 형태소의 이어진 음절을 나타낸다. 음절 단위로 품사 태그 부착하기 위해서 CRF와 같은 기계학습 기반 분류기를 학습하여야 한다. 이를 위해서 각 음절에 대해 아래 표 2와 같은 자질들을 사용한다.
Figure pat00002
만일 형태소가 불규칙 형태소였으면 음절 단위로 부착되는 품사 태그의 뒤에 "DIC" 태그를 부착하여 불규칙 변환 사전을 적용해야 할 형태소임을 나타낸다. "DIC"태그가 부착된 음절은 원형복원 단계에서 불규칙 변환사전을 이용하여 불규칙에 대한 문제를 해결한다. 예를 들어, "세계적인"의 경우 "세계적/NNG+이/VCP+ㄴ/ETM 의상/NNG"과 같이 품사 태깅이 이루어지며, 여기서 "인"은 CRF 학습 시에 "인 B-VCPDIC"의 태그를 가지고 학습에 사용된다.
본 발명에서는 CRF 학습을 위해 표 2에서 언급한 음절단위 자질과 어절 단위 자질을 사용한다. 어절 단위 자질은 효과적인 사용을 위해 전체 말뭉치에서 유일한 어절들을 추출한 후 각 어절 별로 ID를 할당하고, 할당된 ID를 자질로 표현하여 사용한다. 추가적으로 문장의 시작은 :S를 나타내고, trigram 어절에서 :S 이전의 어절위치 역시 :S를 사용하였다. 또한, 문장의 끝은 :O를 이용해 표현하였다. 예를 들어, 문장의 시작과 끝인 경우 아래 표 3과 같이 자질이 생성된다.
Figure pat00003
CRF는 하나의 음절에 대한 품사 태그를 부착하기 위해 여러 자질을 사용해야 한다. 반면, bi-LSTM-CRFs는 음절에 대한 벡터만을 입력으로 사용하여 좋은 결과를 얻을 수 있다.
따라서 분류부(200)를 통해 상기 음절 분리부(100)에서 분리된 음절을 기반으로 음절에 대한 벡터를 통해 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅을 진행하여 음절이 포함된 형태소의 품사 태그를 할당한다(S20). 이때, 상기 분류부(200)에서 음절에 대한 벡터를 생성하기 위해 대표적인 단어 임베딩(word embedding) 알고리즘인 word2vec를 사용하여 64차원의 음절 단위의 임베딩 벡터를 학습하여 입력 벡터로 사용한다.
도 3 은 본 발명에서 음절을 입력으로 하는 bi-LSTM-CRFs의 실시예이다.
도 3에서 도시하고 있는 것과 같이, bi-LSTM-CRFs는 음절단위로 학습을 하기 위해 "패션쇼에"라는 어절이 들어왔을 때 forward 단계에서 먼저 "패"라는 음절이 입력되고, 다음으로 음절 "션"이 입력이 된다. 음절 "션"이 입력되었을 때 이전 음절의 상태가 현재 음절의 상태에 영향을 주어 현재 음절의 상태는 실제로는"패션"을 나타내는 상태와 같은 의미를 가지게 된다. 모든 음절이 입력으로 들어갈 때까지 bi-LSTM-CRFs의 forward를 진행한다. backward 단계에서는 forward와 반대로 음절"에"가 먼저 입력이 되고, 다음으로 음절 "쇼"가 입력이 된다. 어절에 대한 forward와 backward 단계가 진행된 후 두 단계를 결과와 정답과의 비용(cost)을 계산한 후 역전파(back-propagation) 알고리즘을 통해 학습한다. 최근 태그 사이의 전이 확률을 반영하여 성능을 개선하는 연구를 진행하였으며, 이를 위해 CRF와 같이 forward 알고리즘을 이용하고, 최적의 태그 열을 찾기 위해 Viterbisearch 알고리즘을 이용하였다.
bi-LSTM-CRFs는 앞의 음절과 다음 음절의 정보가 반영되어 학습이 되기 때문에 CRF와 달리 음절의 입력만을 사용하기 때문에 효과적이다.
한편, 상기 bi-LSTM-CRFs를 이용한 음절 기반의 형태소 품사 태깅의 성능 향상을 위해 음절의 입력 벡터를 확장한다. 이를 위해, 음절이 학습 말뭉치에서 포함된 형태소의 품사 분포를 벡터로 표현하여 입력 벡터를 확장한다. 음절은 포함된 형태소에 따라 다른 품사를 가질 수 있다.
예를 들어, 음절 "하"는 학습 말뭉치에서 명사 태그를 가지는 "하늘"의 일부 음절일 수도 있고, 형용사 태그를 가지는 "하얗게"의 일부 음절일 수도 있다. 이러한 음절이 학습 말뭉치에서 출현한 형태소의 품사 분포를 벡터로 표현하여, bi-LSTM-CRFs의 입력으로 사용하였다. 음절의 품사 분포를 나타내는 벡터는 46개의 품사에 B, I 태그와 DIC 태그가 반영된 131개의 차원에 문장의 처음, 끝, 공백을 나타내는 3개의 태그를 추가한 총 134차원으로 표현된다. 각 차원의 값은 음절에 대한 품사 태그가 말뭉치에서 나온 빈도수를 모두 계산한다. 한 음절에 대해 말뭉치에서 출현한 모든 빈도를 계산한 후 softmax를 통해 확률 값으로 만들어서 벡터의 값을 결정한다.
표 4 는 음절 "랑"에 대한 품사 분포 벡터의 예를 나타내고 있다.
Figure pat00004
표 4를 참조하면, 음절 "랑"은 학습 말뭉치에서 총 435번 출현하였으며, B-NNP, I-NNP, I-NNG, B-JKB 등의 품사 태그를 가지고 있다. 생성한 벡터는 음절 임베딩 벡터와 결합하여 최종적으로 198(64+134)차원의 벡터를 생성하여 bi-LSTM-CRFs의 입력으로 사용한다.
다음으로 오류 제거부(300)를 통해 상기 분류부(200)에서 음절 단위로 품사 태그가 결정된 결과에 대해 기분석 사전을 통해 학습 말뭉치에서 중의성이 없는 변환을 처리하여 오류를 제거한다(S30).
이때, 기분석 사전은 품사 태깅에 모호성이 존재하지 않는 경우를 사전으로 구축한 것으로 CRF의 음절별 품사 태그 부착 결과와 상관없이 학습 말뭉치에 존재하는 품사 태그로 변환하기 위해 필요하다. 기분석 사전은 어절사전과 명사사전을 사용한다. 예를 들어, "엔터테이너"라는 명사의 경우 말뭉치에서 "NNG"이외의 품사태그가 부착되는 경우가 존재하지 않기 때문에 이러한 경우는 명사 사전에 포함한다. 표 5는 명사 사전을 적용한 예이다.
Figure pat00005
명사사전은 중의적 분석이 되지 않는 명사들로 구축을 하였다. 하지만, 명사일 경우만 뽑으면 짧은 명사일 경우 "은/NNG"과 "은/JX"인 동일한 글자이나 다른 품사로 태깅된다. 이를 해결하기 위해 일정 길이가 넘는 명사와 복합 명사를 전체 데이터에서 169,004개를 구축하였다.
또한, 어절사전은 문맥정보를 고려하지 않은 어절사전1과 문맥정보를 고려하여 모호성을 해결한 어절사전2를 구축하였다. 어절사전2는 어절만 보았을 때 문맥의 중의성이 있는 어절이 문제가 되므로 이를 해결하기 위해 어절사전에 들어갈 해당 어절의 전 어절에 포함된 마지막 품사 태그를 함께 저장을 하여 중의성을 해결한다. 어절사전1은 1,552,635개, 어절사전2는 37,233개를 구축하였으며, 다음 표 6은 어절 사전을 적용한 예를 나타내고 있다.
Figure pat00006
이어 원형 복원부(400)를 통해 상기 오류 제거부(300)에서 오류를 제거하여 음절 단위로 품사 태그가 부착된 결과를 원형복원을 통해 형태소 단위로 변환한다(S40). 이때, 상기 원형 복원 시에는 앞서 설명한 불규칙 변환이 필요한 경우 불규칙 변환 사전을 이용하여 변환한다. 표 7은 불규칙 변환 사전을 적용한 예이다.
Figure pat00007
상기 불규칙 변환에서 불규칙 변환 사전에 동일한 변환이 있을 시 가장 높은 빈도의 결과를 선택한다. 불규칙 변환을 적용한 후 최종적으로 동일한 품사 태그를 가지는 형태소들은 결합하여 형태소 품사 태깅을 완료한다. 예를 들어 "생산/NNG+노동자/NNG+들/XSN" 이면 품사 'NNG'가 동일하기 때문에 "생산노동자/NNG+들/XSN"의 형태로 수정한다.
실시예
본 발명에서는 음절 기반의 형태소 품사 태깅을 평가하기 위해서 세종코퍼스를 사용하였다. 최종적으로 CRF 기반의 방법과 제안하는 bi-LSTM-CRFs를 이용한 방법을 비교하기 위해 랜덤하게 50만 어절을 선택한 후 40만 어절을 학습에 사용하였으며, 10만 어절을 테스트에 사용하였다. 모든 모델에 대해서 40만 어절로 학습을 하는 것은 시간이 많이 소모되기 때문에 제안한 방법 중 가장 좋은 성능을 보이는 모델을 판단하기 위해서 랜덤하게 5만 어절을 선택하여 4만어절로 학습을 하고, 1만 어절로 제28회 한글 및 한국어 정보처리 학술대회 논문집(2016년) 테스트하여 평가를 진행하였다. 평가를 위해서 다음 수학식 1, 2의 정확도(accuracy) 수식을 사용하였다.
Figure pat00008
Figure pat00009
도 4 는 기존의 CRF와 본 발명의 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅 결과를 비교한 도면이다.
도 4에서 도시하고 있는 것과 같이, 본 발명에 따른 음절의 품사 분포 벡터를 이용한 bi-LSTM-CRFs 기반의 음절 품사 태깅 방법을 적용하였을 때 CRF 기반의 방법에 비해 7.65% 향상된 92.93%의 음절 단위 품사 태깅 성능을 보였으며, 기분석 사전, 불규칙 변환 사전을 적용한 후 원형복원 했을 때 CRF보다 3.01% 향상된 97.09%의 성능을 보였다.
상기에서 설명한 본 발명의 기술적 사상은 바람직한 실시예에서 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술적 분야의 통상의 지식을 가진자라면 본 발명의 기술적 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다. 따라서 본 발명의 진정한 기술적 보호 범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims (13)

  1. 입력된 문장을 음절 단위로 분리하는 음절 분리부와,
    상기 음절 분리부에서 분리된 음절을 기반으로 음절에 대한 벡터를 통해 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅을 진행하여 음절이 포함된 형태소의 품사 태그를 할당하는 분류부와,
    상기 분류부에서 음절 단위로 품사 태그가 결정된 결과에 대해 기분석 사전을 통해 학습 말뭉치에서 중의성이 없는 변환을 처리하여 오류를 제거하는 오류 제거부와,
    상기 오류 제거부에서 오류를 제거하여 음절 단위로 품사 태그가 부착된 결과를 원형복원을 통해 형태소 단위로 변환하는 원형 복원부를 포함하여 구성되는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기.
  2. 제 1 항에 있어서,
    상기 분류부는 음절에 대한 벡터를 생성하기 위해 단어 임베딩(word embedding) 알고리즘인 word2vec를 사용하여 64차원의 음절 단위의 임베딩 벡터를 학습하여 입력 벡터로 사용하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기.
  3. 제 1 항에 있어서,
    상기 오류 제거부의 기분석 사전은 어절사전과 명사사전을 사용하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기.
  4. 제 1 항에 있어서,
    상기 원형 복원부는 불규칙 변환이 존재하는 경우 불규칙 변환 사전을 통해 이를 보정하여 변환하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기.
  5. (A) 음절 분리부를 통해 입력된 문장을 음절 단위로 분리하는 단계와,
    (B) 분류부를 통해 상기 분리된 음절을 기반으로 음절에 대한 벡터를 통해 bi-LSTM-CRFs를 이용한 음절 단위 품사 태깅을 진행하여 음절이 포함된 형태소의 품사 태그를 할당하는 단계와,
    (C) 오류 제거부를 통해 상기 음절 단위로 품사 태그가 결정된 결과에 대해 기분석 사전을 통해 학습 말뭉치에서 중의성이 없는 변환을 처리하여 오류를 제거하는 단계와,
    (D) 원형 복원부를 통해 상기 오류를 제거하여 음절 단위로 품사 태그가 부착된 결과를 원형복원을 통해 형태소 단위로 변환하는 단계를 포함하여 이루어지는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  6. 제 5 항에 있어서, 상기 (A) 단계는
    CRF 학습을 위해 음절단위 자질과 어절 단위 자질을 사용하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  7. 제 6 항에 있어서,
    상기 어절 단위 자질은 전체 말뭉치에서 유일한 어절들을 추출하는 단계와,
    상기 추출된 각 어절 별로 ID를 할당하는 단계와,
    상기 할당된 ID를 자질로 표현하여 사용하는 단계를 포함하여 이루어지는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  8. 제 5 항에 있어서, 상기 (B) 단계는
    상기 음절에 대한 벡터를 생성하기 위해 단어 임베딩(word embedding) 알고리즘인 word2vec를 사용하여 64차원의 음절 단위의 임베딩 벡터를 학습하여 입력 벡터로 사용하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  9. 제 5 항에 있어서, 상기 (C) 단계는
    기분석 사전을 어절사전과 명사사전을 사용하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  10. 제 9 항에 있어서,
    상기 명사사전은 중의적 분석이 되지 않는 명사들로 구축하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  11. 제 9 항에 있어서,
    상기 어절사전은 문맥정보를 고려하지 않은 어절사전1과 문맥정보를 고려하여 모호성을 해결한 어절사전2를 구축하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  12. 제 5 항에 있어서,
    상기 (D) 단계는 원형 복원 시에 불규칙 변환이 필요한 경우 불규칙 변환 사전을 이용하여 변환하는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
  13. 제 5 항에 있어서, 상기 (D) 단계는
    불규칙 변환에서 불규칙 변환 사전에 동일한 변환이 있을 시 가장 높은 빈도의 결과를 선택하는 단계와,
    불규칙 변환을 적용한 후 최종적으로 동일한 품사 태그를 가지는 형태소들은 결합하여 형태소 품사 태깅을 완료하는 단계를 포함하여 이루어지는 것을 특징으로 하는 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석방법.
KR1020170104916A 2017-08-18 2017-08-18 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법 KR101997783B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170104916A KR101997783B1 (ko) 2017-08-18 2017-08-18 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170104916A KR101997783B1 (ko) 2017-08-18 2017-08-18 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법

Publications (2)

Publication Number Publication Date
KR20190019683A true KR20190019683A (ko) 2019-02-27
KR101997783B1 KR101997783B1 (ko) 2019-07-08

Family

ID=65561066

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170104916A KR101997783B1 (ko) 2017-08-18 2017-08-18 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법

Country Status (1)

Country Link
KR (1) KR101997783B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933792A (zh) * 2019-03-11 2019-06-25 海南中智信信息技术有限公司 基于多层双向lstm和验证模型的观点型问题阅读理解方法
KR102086604B1 (ko) * 2018-09-10 2020-03-09 서울대학교산학협력단 문맥 정보를 활용한 딥 러닝 기반의 대화체 문장 띄어쓰기 방법 및 시스템
KR102172291B1 (ko) * 2019-06-07 2020-10-30 숭실대학교산학협력단 주가 등락 예측 방법 및 장치
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
KR102255704B1 (ko) * 2020-09-02 2021-05-25 주식회사 다인바인 법률 서비스 제공 시스템 및 그 방법
KR20230046046A (ko) * 2021-09-29 2023-04-05 가천대학교 산학협력단 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102390804B1 (ko) * 2019-12-05 2022-04-26 한국과학기술정보연구원 학습데이터생성장치 및 그 동작 방법

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040101678A (ko) * 2003-05-26 2004-12-03 한국전자통신연구원 복합 형태소 분석 장치 및 방법
KR20100077308A (ko) 2008-12-29 2010-07-08 금호타이어 주식회사 수막현상방지 및 소음저감 특성이 향상된 타이어
KR101072460B1 (ko) * 2010-08-11 2011-10-11 충북대학교 산학협력단 한국어 형태소 분석 방법
KR20130074176A (ko) * 2011-12-26 2013-07-04 울산대학교 산학협력단 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법
KR20150029304A (ko) * 2013-09-10 2015-03-18 한국전자통신연구원 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법
KR20150089121A (ko) 2014-01-27 2015-08-05 에스케이하이닉스 주식회사 반도체 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040101678A (ko) * 2003-05-26 2004-12-03 한국전자통신연구원 복합 형태소 분석 장치 및 방법
KR20100077308A (ko) 2008-12-29 2010-07-08 금호타이어 주식회사 수막현상방지 및 소음저감 특성이 향상된 타이어
KR101072460B1 (ko) * 2010-08-11 2011-10-11 충북대학교 산학협력단 한국어 형태소 분석 방법
KR20130074176A (ko) * 2011-12-26 2013-07-04 울산대학교 산학협력단 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법
KR20150029304A (ko) * 2013-09-10 2015-03-18 한국전자통신연구원 분류 모델에 기반한 한국어 형태소 분석 및 품사 태깅 장치 및 방법
KR20150089121A (ko) 2014-01-27 2015-08-05 에스케이하이닉스 주식회사 반도체 장치

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102086604B1 (ko) * 2018-09-10 2020-03-09 서울대학교산학협력단 문맥 정보를 활용한 딥 러닝 기반의 대화체 문장 띄어쓰기 방법 및 시스템
CN109933792A (zh) * 2019-03-11 2019-06-25 海南中智信信息技术有限公司 基于多层双向lstm和验证模型的观点型问题阅读理解方法
KR102172291B1 (ko) * 2019-06-07 2020-10-30 숭실대학교산학협력단 주가 등락 예측 방법 및 장치
CN112069809A (zh) * 2020-08-11 2020-12-11 桂林电子科技大学 一种缺失文本生成方法及系统
CN112069809B (zh) * 2020-08-11 2022-05-24 桂林电子科技大学 一种缺失文本生成方法及系统
KR102255704B1 (ko) * 2020-09-02 2021-05-25 주식회사 다인바인 법률 서비스 제공 시스템 및 그 방법
WO2022050551A1 (ko) * 2020-09-02 2022-03-10 주식회사 다인바인 법률 서비스 제공 시스템 및 그 방법
KR20230046046A (ko) * 2021-09-29 2023-04-05 가천대학교 산학협력단 시퀀스 레이블링 기반의 의존 구문 분석 방법, 컴퓨팅장치 및 컴퓨터-판독가능 매체

Also Published As

Publication number Publication date
KR101997783B1 (ko) 2019-07-08

Similar Documents

Publication Publication Date Title
KR101997783B1 (ko) 품사 분포와 양방향 LSTM CRFs를 이용한 음절 단위 형태소 분석기 및 분석 방법
KR100853173B1 (ko) 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법
US10803858B2 (en) Speech recognition apparatus, speech recognition method, and computer program product
CN112818089B (zh) 文本注音方法、电子设备及存储介质
CN110427619B (zh) 一种基于多通道融合与重排序的中文文本自动校对方法
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
Al Sallab et al. Automatic Arabic diacritics restoration based on deep nets
CN109948144B (zh) 一种基于课堂教学情境的教师话语智能处理的方法
JP2008225963A (ja) 機械翻訳装置、置換辞書生成装置、機械翻訳方法、置換辞書生成方法、及びプログラム
Martínez et al. Automatic interlinear glossing for Otomi language
Rasooli et al. Non-monotonic parsing of fluent umm I mean disfluent sentences
Singh et al. Punjabi dialects conversion system for Malwai and Doabi dialects
Hillard et al. Impact of automatic comma prediction on POS/name tagging of speech
Leidig et al. Automatic detection of anglicisms for the pronunciation dictionary generation: a case study on our German IT corpus.
Berkani et al. Pattern matching in meter detection of Arabic classical poetry
CN109446537B (zh) 一种针对机器翻译的译文评估方法及装置
Sharma et al. Automatic segmentation of wave file
San et al. Automated speech tools for helping communities process restricted-access corpora for language revival efforts
Ariaratnam et al. A shallow parser for Tamil
Sazhok et al. Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings.
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
CN111090720A (zh) 一种热词的添加方法和装置
Ali et al. Arabic character diacritization using DNN
KR20040018008A (ko) 품사 태깅 장치 및 태깅 방법
Waxmonsky et al. G2P conversion of proper names using word origin information

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant