KR20200078248A

KR20200078248A - 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템

Info

Publication number: KR20200078248A
Application number: KR1020180167960A
Authority: KR
Inventors: 김남수; 조원익
Original assignee: 서울대학교산학협력단
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2020-07-01

Abstract

본 발명은 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에 관한 것으로서, 보다 구체적으로는 멀티-핫 벡터(multi-hot vector) 임베딩 방법으로서, (1) 문장을 수신하는 단계; (2) 상기 단계 (1)에서 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 상기 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계; 및 (3) 상기 단계 (2)에서 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.
또한, 본 발명은 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)에 관한 것으로서, 보다 구체적으로는 멀티-핫 벡터(multi-hot vector) 임베딩 시스템으로서, 문장을 수신하는 수신부(100); 상기 수신부(100)에 의해 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 상기 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 임베딩부(200); 및 상기 임베딩부(200)에 의해 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 출력부(300)를 포함하는 것을 그 구성상의 특징으로 한다.
본 발명에서 제안하고 있는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템(10)에 따르면, 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합함으로써, 기존의 음절 기반 방법들보다 많은 수의 음절을 간결하게 표현할 수 있다.
또한, 본 발명에서 제안하고 있는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템에 따르면, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩이 가지는 간결함을 살리면서도, 음절 단위 임베딩이 가지는 음절 자체의 성질을 유지할 수 있다.
뿐만 아니라, 본 발명에서 제안하고 있는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템에 따르면, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩에서 구별하기 어려웠던 초성 또는 모음이 독립적으로 사용되는 경우도 포함하며, 별도의 벡터 사전(vector dictionary)이 필요하지 않아, 많은 디바이스에서 효율적으로 문장 또는 시퀀스를 수치화할 수 있다.

Description

간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템{MULTI-HOT VECTOR EMBEDDING METHOD AND SYSTEM FOR CONCISE HANGUL SYLLABLE REPRESENTATION}

본 발명은 멀티-핫 벡터 임베딩 방법 및 시스템에 관한 것으로서, 보다 구체적으로는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템에 관한 것이다.

언어 모델(Language Model)은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로서, 언어처리, 음성인식 등의 분야에 활용된다. 언어 모델은 자연어 생성(Natural Language Generation)의 기반이 되며, 자연어 생성과 관련된 음성 인식, 기계 번역, 검색어 자동 완성 등과 같은 것들이 언어 모델과 관련이 있다.

자연어를 생성하기 위해서는 사용자로부터 입력된 문자를 숫자로 변환하여야하며, 자연어로 이루어진 문장 또는 단어를 실수 차원의 벡터로 변환하는 것을 임베딩이라고 부른다.

임베딩은 기계 번역, 개체명 인식, 문장 분류 등에 광범위하게 활용되지만, 임베딩과 관련된 연구는 대부분 영어를 대상으로 진행되어, 이를 한글에 적용하기에는 한계가 있다.

음절(Syllable)은 화자와 청자가 한 뭉치로 생각하는 발화의 단위로서, 음소보다 크고 낱말보다 작다. 또한, 음절은 자음과 모음 또는 단독 모음으로 구성되며, 초성, 중성 및 종성으로 이루어져 있다.

한글 음절 임베딩 방법에는 크게 자소분리 임베딩, 음절 원-핫 임베딩(one-hot embedding), 및 dense vector을 이용한 저차원 임베딩이 존재한다. 자소분리 임베딩은 음절 자체의 성질을 잃고, 음절 원-핫 임베딩(one-hot embedding)은 계산량이 커지며, dense vector을 이용한 저차원 임베딩은 별도의 벡터 사전(vector dictionary)이 필요하다는 단점이 있다.

따라서, 음절 자체의 성질을 잃지 않으며, 계산량이 적고, 별도의 벡터 사전(vector dictionary)이 필요하지 않은 한글 음절 임베딩 방법 및 시스템의 개발이 요구되고 있는 실정이다.

한편, 본 발명과 관련된 선행기술로서, 등록특허 제10-0912348호(발명의 명칭: 자연어처리를 위한 완성형 한글코드 음소정보 추출 방법) 등이 개시된 바 있다.

본 발명은 기존에 제안된 방법들의 상기와 같은 문제점들을 해결하기 위해 제안된 것으로서, 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합함으로써, 기존의 음절 기반 방법들보다 많은 수의 음절을 간결하게 표현할 수 있는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템을 제공하는 것을 그 목적으로 한다.

또한, 본 발명은, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩이 가지는 간결함을 살리면서도, 음절 단위 임베딩이 가지는 음절 자체의 성질을 유지할 수 있는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템을 제공하는 것을 다른 목적으로 한다.

뿐만 아니라, 본 발명은, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩에서 구별하기 어려웠던 초성 또는 모음이 독립적으로 사용되는 경우도 포함하며, 별도의 벡터 사전(vector dictionary)이 필요하지 않아, 많은 디바이스에서 효율적으로 문장 또는 시퀀스를 수치화할 수 있는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템을 제공하는 것을 또 다른 목적으로 한다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법은,

멀티-핫 벡터(multi-hot vector) 임베딩 방법으로서,

(1) 문장을 수신하는 단계;

(2) 상기 단계 (1)에서 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 상기 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계; 및

(3) 상기 단계 (2)에서 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 단계를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 단계 (1)에서는,

자음과 모음으로 이루어진 음절을 포함하는 문장을 수신할 수 있다.

바람직하게는, 상기 단계 (2)는,

(2-1) 상기 단계 (1)에서 수신된 문장을 음절로 분리하는 단계;

(2-2) 상기 단계 (2-1)에서 분리된 음절을 자음과 모음으로 분리하는 단계;

(2-3) 상기 단계 (2-2)에서 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하는 단계; 및

(2-4) 상기 단계 (2-3)에서 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계를 포함할 수 있다.

더욱 바람직하게는, 상기 단계 (2-3)에서는,

상기 단계 (2-2)에서 분리된 자음과 모음을 한 개 내지 세 개의 원-핫 벡터(one-hot vector)로 임베딩할 수 있다.

더더욱 바람직하게는, 상기 단계 (2-4)에서는,

상기 단계 (2-3)에서 임베딩된 한 개 내지 세 개의 원-핫 벡터(one-hot vector)를 하나의 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다.

상기한 목적을 달성하기 위한 본 발명의 특징에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템은,

멀티-핫 벡터(multi-hot vector) 임베딩 시스템으로서,

문장을 수신하는 수신부;

상기 수신부에 의해 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 상기 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 임베딩부; 및

상기 임베딩부에 의해 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 출력부를 포함하는 것을 그 구성상의 특징으로 한다.

바람직하게는, 상기 수신부는,

바람직하게는, 상기 임베딩부는,

상기 수신부에 의해 수신된 문장을 음절로 분리하는 문장 분리 모듈;

상기 문장 분리 모듈에 의해 분리된 음절을 자음과 모음으로 분리하는 음절 분리 모듈;

상기 음절 분리 모듈에 의해 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하는 임베딩 모듈; 및

상기 임베딩 모듈에 의해 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 결합 모듈을 포함할 수 있다.

더욱 바람직하게는, 상기 임베딩 모듈은,

상기 음절 분리 모듈에 의해 분리된 자음과 모음을 한 개 내지 세 개의 원-핫 벡터(one-hot vector)로 임베딩할 수 있다.

더더욱 바람직하게는, 상기 결합 모듈은,

상기 임베딩 모듈에 의해 임베딩된 한 개 내지 세 개의 원-핫 벡터(one-hot vector)를 하나의 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다.

본 발명에서 제안하고 있는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템에 따르면, 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합함으로써, 기존의 음절 기반 방법들보다 많은 수의 음절을 간결하게 표현할 수 있다.

또한, 본 발명에서 제안하고 있는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템에 따르면, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩이 가지는 간결함을 살리면서도, 음절 단위 임베딩이 가지는 음절 자체의 성질을 유지할 수 있다.

뿐만 아니라, 본 발명에서 제안하고 있는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템에 따르면, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩에서 구별하기 어려웠던 초성 또는 모음이 독립적으로 사용되는 경우도 포함하며, 별도의 벡터 사전(vector dictionary)이 필요하지 않아, 많은 디바이스에서 효율적으로 문장 또는 시퀀스를 수치화할 수 있다.

도 1은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 흐름도를 도시한 도면.
도 2는 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면.
도 3은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에서 하나의 원-핫 벡터(one-hot vector)가 67개의 차원으로 이루어진 것을 설명하기 위해 도시한 도면.
도 4는 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S210을 설명하기 위해 도시한 도면.
도 5는 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S220 및 단계 S230을 설명하기 위해 도시한 도면.
도 6은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S240을 설명하기 위해 도시한 도면.
도 7은 자소 기반 표현법, 음절 기반 표현법(Sparse), 음절 기반 표현법(Dense) 및 제안된 표현법(본 발명)의 표현, 특성, 차원 및 특징을 비교하기 위해 도시한 도면.
도 8은 자소 기반 표현법, 음절 기반 표현법(Sparse), 음절 기반 표현법(Dense) 및 제안된 표현법(본 발명)의 분류 성능을 측정한 결과를 도시한 도면.
도 9는 자소 기반 표현법, 음절 기반 표현법(Sparse), 음절 기반 표현법(Dense) 및 제안된 표현법(본 발명)의 계산 및 학습 시간을 비교하기 위해 도시한 도면.
도 10은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템의 구성을 도시한 도면.
도 11은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템에 있어서 임베딩부의 세부적인 구성을 도시한 도면.

이하에서는 첨부된 도면을 참조하여 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 바람직한 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예를 상세하게 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다. 또한, 유사한 기능 및 작용을 하는 부분에 대해서는 도면 전체에 걸쳐 동일 또는 유사한 부호를 사용한다.

덧붙여, 명세서 전체에서, 어떤 부분이 다른 부분과 ‘연결’되어 있다고 할 때, 이는 ‘직접적으로 연결’되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고 ‘간접적으로 연결’되어 있는 경우도 포함한다. 또한, 어떤 구성요소를 ‘포함’한다는 것은, 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.

도 1은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 흐름도를 도시한 도면이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법은, 멀티-핫 벡터(multi-hot vector) 임베딩 방법으로서, 문장을 수신하는 단계(S100), 단계 S100에서 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계(S200), 및 단계 S200에서 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 단계(S300)를 포함하여 구현될 수 있다.

이하에서는, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 각각의 단계에 대해 상세히 설명하도록 한다.

단계 S100에서는, 문장을 수신할 수 있다. 보다 구체적으로는, 단계 S100에서는, 자음과 모음으로 이루어진 음절을 포함하는 문장을 수신할 수 있다.

기존에 한글 음절을 임베딩하는 방법은 크게 자소분리 임베딩과 음절 원-핫 임베딩(one-hot embedding) 및 dense vector을 이용한 저차원 임베딩이 있다.

자소분리 임베딩이란, 자음과 모음을 67차원(초성 19차원, 중성 21차원, 종성 27차원)으로 이루어진 원-핫 벡터(one-hot vector)에 대응되게 각각 임베딩하는 것이다. 보다 구체적으로는, 음절을 구성하는 자음과 모음을 분리한 후, 각각의 자음과 모음을 모두 임베딩하는 것으로서, 예를 들어, “간”이란 음절의 ‘ㄱ’은 <100…000000…000000…000>으로, ‘ㅏ’는 <000…000100…000000…000>으로, ‘ㄴ’은 <000…000000…000010…000>으로 임베딩하는 것이다.

자소분리 임베딩은 원-핫 벡터(one-hot vector)로 이루어져 있어 직관적이지만, 음절 자체의 성질이 드러나지 않으며, 임베딩된 시퀀스(sequence)가 길어진다는 단점이 있다.

음절 원-핫 임베딩(one-hot embedding)이란, 자주 사용되는 2,500여개의 음절을 원-핫 벡터(one-hot vector)로 임베딩하여 고차원의 Sparse vector로 만드는 방법이다. 보다 구체적으로는, 원-핫 벡터(one-hot vector)는 1로 이루어진 1개의 차원과 0으로 이루어진 2,499개의 차원으로 구성되어 있어, 예를 들어, ‘각’을 <100…000…000>으로, ‘한’을 <000…001…000>으로 음절 자체를 임베딩하는 것이다.

음절 원-핫 임베딩(one-hot embedding)은 고차원의 Sparse vector로 만들기 때문에, 음절 자체의 성질이 드러나지만 계산량이 커지게 된다는 단점이 있다.

dense vector을 이용한 저차원 임베딩이란, word2vec의 방법론에 기반을 둔 fastText 등의 알고리즘으로 한글 음절을 일종의 subword로 취급하여 임베딩하는 것으로서, dense vector을 이용한 저차원 임베딩은 계산량을 효과적으로 줄일 수 있지만, 딥러닝 기반 텍스트 처리에서 보다 의미론적인 텍스트 처리에 적합하며, 별도의 벡터 사전(vector dictionary)이 필요하다는 단점이 있다.

따라서, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 경우에는, 기존의 자소분리 임베딩 및 한글 음절 임베딩 기법을 개량하여 수치화하여, 기존 자소분리 임베딩이 가지는 간결함을 살리면서도, 음절 단위 임베딩이 보존하는 음절 자체의 성질을 유지할 수 있다.

단계 S200에서는, 단계 S100에서 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다. 도 2는 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에서, 단계 S200의 세부적인 흐름을 도시한 도면이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S200은, 단계 S100에서 수신된 문장을 음절로 분리하는 단계(S210), 단계 S210에서 분리된 음절을 자음과 모음으로 분리하는 단계(S220), 단계 S220에서 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하는 단계(S230), 및 단계 S230에서 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계(S240)를 포함하여 구현될 수 있다.

도 3은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에서 하나의 원-핫 벡터(one-hot vector)가 67개의 차원으로 이루어진 것을 설명하기 위해 도시한 도면이다. 한글의 초성에 올 수 있는 자음은 19개, 중성에 올 수 있는 모음은 21개, 종성에 올 수 있는 자음은 27개이므로, 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 원-핫 벡터(one-hot vector)는 초성 19개, 중성 21개 및 종성 27개로 총 67개의 차원으로 이루어질 수 있다.

단계 S210에서는, 단계 S100에서 수신된 문장을 음절로 분리할 수 있다. 도 4는 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S210을 설명하기 위해 도시한 도면이다. 도 4에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S210에서는, 단계 S100에서 “나는 홍길동입니다”라는 문장을 수신하면, 수신된 “나는 홍길동입니다”라는 문장을 “나/는/홍/길/동/입/니/다”로 문장을 음절로 분리할 수 있다.

단계 S220에서는, 단계 S210에서 분리된 음절을 자음과 모음으로 분리하며, 단계 S230에서는, 단계 S220에서 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩할 수 있다. 보다 구체적으로는, 단계 S230에서는, 단계 S220에서 분리된 자음과 모음을 분리된 자음과 모음의 개수에 따라 한 개 내지 세 개의 원-핫 벡터(one-hot vector)로 임베딩할 수 있다.

도 5는 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S220 및 단계 S230을 설명하기 위해 도시한 도면이다. 도 5에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S220에서는, 단계 S210에서 음절로 분리된 “홍”을 “ㅎ/ㅗ/ㅇ”으로 분리할 수 있으며, 단계 S230에서는 단계 S220에서 분리된 자음과 모음 즉, “ㅎ”, “ㅗ” 및 “ㅇ”을 각각 원-핫 벡터(one-hot vector)로 임베딩할 수 있다.

단계 S220에서 분리된 자음과 모음을 각각 원-핫 벡터(one-hot vector)로 임베딩하는 것을 도 5를 참고하여 구체적으로 살펴보면, 초성의 “ㅎ”의 순서는 14번째이므로, 원-핫 벡터(one-hot vector)를 이루는 67개의 차원 중에 14번째 차원만 1이고 나머지 차원은 0이며, 중성의 “ㅗ”의 순서는 24번째(초성 19개와 중성의 5번째)이므로, 원-핫 벡터(one-hot vector)를 이루는 67개의 차원 중에 24번째 차원만 1이고 나머지 차원은 0이며, 및 종성의 “ㅇ”의 순서는 48번째(초성 19개, 중성 21개, 종성의 8번째)이므로, 원-핫 벡터(one-hot vector)를 이루는 67개의 차원 중에 48번째 차원만 1이고 나머지 차원은 0으로 임베딩되는 것을 확인할 수 있다.

단계 S240에서는, 단계 S230에서 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다. 보다 구체적으로는, 단계 S240에서는, 단계 S230에서 임베딩된 한 개 내지 세 개의 원-핫 벡터(one-hot vector)를 하나의 멀티-핫 벡터(multi-hot vector)로 결합할 수 있어, 기존의 음절기반 방법들보다 많은 수의 음절을 간결하게 표현할 수 있다. 즉, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법은, 67개 차원의 원-핫 벡터(one-hot vector)의 3연속 배열(67*3) 각각에서 1인 성분들을 가져와, 하나의 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다.

도 6은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S240을 설명하기 위해 도시한 도면이다. 도 6에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법의 단계 S240에서는, 단계 S230에서 임베딩된 “ㅎ”, “ㅗ” 및 “ㅇ”의 원-핫 벡터(one-hot vector)를 하나의 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다.

도 5에 도시된 예와 같이, 초성의 “ㅎ”은 14번째가 1인 성분이고, 중성의 “ㅗ”는 24번째가 1인 성분이며, 및 종성의 “ㅇ”은 48번째가 1인 성분이므로, 세 개의 원-핫 벡터(one-hot vector)를 결합하여, 도 6에 도시된 바와 같이, 14번째, 24번째 및 48번째 차원이 1이고 나머지 차원은 0인 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다.

본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법은, 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 각각 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합함으로써, 기존 자소분리 임베딩이 가지는 간결함을 살리면서도, 음절 단위 임베딩이 가지는 음절 자체의 성질을 유지할 수 있다.

또한, 기존의 자소분리 임베딩에서 구별하기 어려웠던 초성 및 모음이 독립적으로 사용되는 경우도 포함할 수 있으며, 음절 단위 임베딩에서 겪을 수 있는 사전에 없는 음절을 표현할 수 있고, 별도의 벡터 사전(vector dictionary)도 필요하지 않아, 많은 디바이스에서 효율적으로 문장 또는 단어 시퀀스를 수치화할 수 있다.

단계 S300에서는, 단계 S200에서 임베딩된 멀티-핫 벡터(multi-hot vector)를 출력할 수 있다. 단계 S300을 통해 출력된 멀티-핫 벡터(multi-hot vector)는 자연어처리의 텍스트 분류, 개체명 인식, 기계번역, 음성인식 등 다양한 분야에서 활용될 수 있다.

도 7은 자소 기반 표현법, 음절 기반 표현법(Sparse), 음절 기반 표현법(Dense) 및 제안된 표현법(본 발명)의 표현, 특성, 차원 및 특징을 비교하기 위해 도시한 도면이다. 도 7에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에 의해 제안된 표현법은 67개 차원으로서, 다른 표현법들에 비해 저차원이며 자소 기반 표현법과 그 차원의 개수는 같지만, 멀티-핫 벡터(multi-hot vector)로 이루어졌다는 점에서 음절 자체의 성질을 가질 수 있다는 장점이 있다.

도 8은 자소 기반 표현법, 음절 기반 표현법(Sparse), 음절 기반 표현법(Dense) 및 제안된 표현법(본 발명)의 분류 성능을 측정한 결과를 도시한 도면이다. 도 8에 도시된 바와 같이, 두 개의 open source dataset을 이용한 분류 실험에서, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에 의해 제안된 표현법은, 기존의 자소 기반 표현법, 음절 기반 표현법(Sparse), 및 음절 기반 표현법(Dense)에 비견되는 우수한 성능을 보이는 것을 확인할 수 있다.

도 9는 자소 기반 표현법, 음절 기반 표현법(Sparse), 음절 기반 표현법(Dense) 및 제안된 표현법(본 발명)의 계산 및 학습 시간을 비교하기 위해 도시한 도면이다. 도 9에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법에 의해 제안된 표현법은, 기존의 자소 기반 표현법, 음절 기반 표현법(Sparse), 및 음절 기반 표현법(Dense)에 비해, 계산 속도가 빠르며 계산 속도가 같은 경우 학습 시간이 더 짧은 것을 확인할 수 있다.

도 10은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)의 구성을 도시한 도면이다. 도 10에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)은, 멀티-핫 벡터(multi-hot vector) 임베딩 시스템(10)으로서, 문장을 수신하는 수신부(100), 수신부(100)에 의해 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 임베딩부(200), 및 임베딩부(200)에 의해 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 출력부(300)를 포함하여 구성될 수 있다.

수신부(100)는, 문장을 수신할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)의 수신부(100)는, 자음과 모음으로 이루어진 음절을 포함하는 문장을 수신할 수 있다.

임베딩부(200)는, 수신부(100)에 의해 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다. 도 11은 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)에 있어서 임베딩부(200)의 세부적인 구성을 도시한 도면이다. 도 11에 도시된 바와 같이, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)의 임베딩부(200)는, 수신부(100)에 의해 수신된 문장을 음절로 분리하는 문장 분리 모듈(210), 문장 분리 모듈(210)에 의해 분리된 음절을 자음과 모음으로 분리하는 음절 분리 모듈(220), 음절 분리 모듈(220)에 의해 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하는 임베딩 모듈(230), 및 임베딩 모듈(230)에 의해 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 결합 모듈(240)을 포함하여 구성될 수 있다.

문장 분리 모듈(210)은, 수신부(100)에 의해 수신된 문장을 음절로 분리할 수 있으며, 단계 S210을 처리할 수 있다. 보다 구체적으로, 수신부(100)에서 “나는 홍길동입니다”라는 문장을 수신하였다면, 문장 분리 모듈(210)에서는 수신된 “나는 홍길동입니다”라는 문장을 “나/는/홍/길/동/입/니/다”로 분리할 수 있다.

음절 분리 모듈(220)은, 문장 분리 모듈(210)에 의해 분리된 음절을 자음과 모음으로 분리할 수 있으며, 단계 S220을 처리할 수 있다. 보다 구체적으로, 문장 분리 모듈(210)에서 분리된 하나의 음절인 “홍”을 “ㅎ”, “ㅗ”, 및 “ㅇ”으로 분리할 수 있다.

임베딩 모듈(230)은, 음절 분리 모듈(220)에 의해 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩할 수 있으며, 단계 S230을 처리할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)의 원-핫 벡터(one-hot vector)는 초성 19개, 중성 21개 및 종성 27개로 총 67개 차원을 가지므로, 임베딩 모듈(230)에서는, 음절 분리 모듈(220)에 의해 분리된 자음과 모음을 각각 원-핫 벡터(one-hot vector)로 임베딩할 수 있다.

또한, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)의 임베딩 모듈(230)은, 음절 분리 모듈(220)에 의해 분리된 자음과 모음을 한 개 내지 세 개의 원-핫 벡터(one-hot vector)로 임베딩할 수 있다.

결합 모듈(240)은, 임베딩 모듈(230)에 의해 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합할 수 있으며, 단계 S240을 처리할 수 있다. 보다 구체적으로는, 본 발명의 일실시예에 따른 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템(10)의 결합 모듈(240)은, 임베딩 모듈(230)에 의해 임베딩된 한 개 내지 세 개의 원-핫 벡터(one-hot vector)를 하나의 멀티-핫 벡터(multi-hot vector)로 결합할 수 있다.

출력부(300)는, 임베딩부(200)에 의해 결합된 멀티-핫 벡터(multi-hot vector)를 출력할 수 있다. 출력부(300)를 통해 출력된 멀티-핫 벡터(multi-hot vector)는 자연어처리의 텍스트 분류, 개체명 인식, 기계번역, 음성인식 등 다양한 분야에서 활용될 수 있다.

전술한 바와 같이, 본 발명에서 제안하고 있는 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법 및 시스템(10)에 따르면, 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합함으로써, 기존의 음절 기반 방법들보다 많은 수의 음절을 간결하게 표현할 수 있다. 또한, 본 발명에 따르면, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩이 가지는 간결함을 살리면서도, 음절 단위 임베딩이 가지는 음절 자체의 성질을 유지할 수 있다. 뿐만 아니라, 본 발명에 따르면, 멀티-핫 벡터(multi-hot vector)로 결합하여 음절을 표현함으로써, 기존의 자소분리 임베딩에서 구별하기 어려웠던 초성 또는 모음이 독립적으로 사용되는 경우도 포함하며, 별도의 벡터 사전(vector dictionary)이 필요하지 않아, 많은 디바이스에서 효율적으로 문장 또는 시퀀스를 수치화할 수 있다.

이상 설명한 본 발명은 본 발명이 속한 기술분야에서 통상의 지식을 가진 자에 의하여 다양한 변형이나 응용이 가능하며, 본 발명에 따른 기술적 사상의 범위는 아래의 특허청구범위에 의하여 정해져야 할 것이다.

10: 멀티-핫 벡터(multi-hot vector) 임베딩 시스템
100: 수신부
200: 임베딩부
210: 문장 분리 모듈
220: 음절 분리 모듈
230: 임베딩 모듈
240: 결합 모듈
300: 출력부
S100: 문장을 수신하는 단계
S200: 단계 S100에서 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계
S210: 단계 S100에서 수신된 문장을 음절로 분리하는 단계
S220: 단계 S210에서 분리된 음절을 자음과 모음으로 분리하는 단계
S230: 단계 S220에서 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하는 단계
S240: 단계 S230에서 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계
S300: 단계 S200에서 임베딩된 멀티-핫 벡터(multi-hot vector)를 출력하는 단계

Claims

멀티-핫 벡터(multi-hot vector) 임베딩 방법으로서,
(1) 문장을 수신하는 단계;
(2) 상기 단계 (1)에서 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 상기 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계; 및
(3) 상기 단계 (2)에서 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 단계를 포함하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법.
제1항에 있어서, 상기 단계 (1)에서는,
자음과 모음으로 이루어진 음절을 포함하는 문장을 수신하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법.
제1항에 있어서, 상기 단계 (2)는,
(2-1) 상기 단계 (1)에서 수신된 문장을 음절로 분리하는 단계;
(2-2) 상기 단계 (2-1)에서 분리된 음절을 자음과 모음으로 분리하는 단계;
(2-3) 상기 단계 (2-2)에서 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하는 단계; 및
(2-4) 상기 단계 (2-3)에서 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 단계를 포함하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법.
제3항에 있어서, 상기 단계 (2-3)에서는,
상기 단계 (2-2)에서 분리된 자음과 모음을 한 개 내지 세 개의 원-핫 벡터(one-hot vector)로 임베딩하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법.
제4항에 있어서, 상기 단계 (2-4)에서는,
상기 단계 (2-3)에서 임베딩된 한 개 내지 세 개의 원-핫 벡터(one-hot vector)를 하나의 멀티-핫 벡터(multi-hot vector)로 결합하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 방법.
멀티-핫 벡터(multi-hot vector) 임베딩 시스템(10)으로서,
문장을 수신하는 수신부(100);
상기 수신부(100)에 의해 수신된 문장의 음절에 포함된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하고, 상기 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 임베딩부(200); 및
상기 임베딩부(200)에 의해 결합된 멀티-핫 벡터(multi-hot vector)를 출력하는 출력부(300)를 포함하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템.
제6항에 있어서, 상기 수신부(100)는,
자음과 모음으로 이루어진 음절을 포함하는 문장을 수신하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템.
제6항에 있어서, 상기 임베딩부(200)는,
상기 수신부(100)에 의해 수신된 문장을 음절로 분리하는 문장 분리 모듈(210);
상기 문장 분리 모듈(210)에 의해 분리된 음절을 자음과 모음으로 분리하는 음절 분리 모듈(220);
상기 음절 분리 모듈(220)에 의해 분리된 자음과 모음을 원-핫 벡터(one-hot vector)로 임베딩하는 임베딩 모듈(230); 및
상기 임베딩 모듈(230)에 의해 임베딩된 원-핫 벡터(one-hot vector)를 멀티-핫 벡터(multi-hot vector)로 결합하는 결합 모듈(240)을 포함하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템.
제8항에 있어서, 상기 임베딩 모듈(230)은,
상기 음절 분리 모듈(220)에 의해 분리된 자음과 모음을 한 개 내지 세 개의 원-핫 벡터(one-hot vector)로 임베딩하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템.
제9항에 있어서, 상기 결합 모듈(240)은,
상기 임베딩 모듈(230)에 의해 임베딩된 한 개 내지 세 개의 원-핫 벡터(one-hot vector)를 하나의 멀티-핫 벡터(multi-hot vector)로 결합하는 것을 특징으로 하는, 간결한 한글 음절 표현을 위한 멀티-핫 벡터 임베딩 시스템.