WO2020050706A1

WO2020050706A1 - 워드벡터 보정 방법

Info

Publication number: WO2020050706A1
Application number: PCT/KR2019/095025
Authority: WO
Inventors: 조휘열
Original assignee: 엘지전자 주식회사
Priority date: 2018-09-06
Filing date: 2019-05-31
Publication date: 2020-03-12

Abstract

본 발명은 워드 벡터를 보정하는 방법에 관한 것이다. 본 발명은 n차원을 갖는 워드벡터를 이용한 워드벡터 보정 방법에 관한 것으로서, n차원의 제 1 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제1 워드벡터를 생성하는 단계, 차원의 제2 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제2 워드벡터를 생성하는 단계, 기 특정된 동의어 정보에 기반하여, 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부를 판단하는 단계를 포함한다.

Description

워드벡터 보정 방법

본 발명은 워드 벡터를 보정하는 방법에 관한 것이다.

인공지능 기술이 발전함에 따라, 자연어 처리(natural language processing)의 필요성이 나날이 증대되고 있다. 자연어(natural language)란 우리가 일상 생활 속에서 사용하는 언어를 말하며, 자연어 처리(natural language processing)란 이러한 자연어를 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 의미한다.

이러한 자연어 처리의 주요 이슈 중 하나는 단어 또는 문서의 유사도를 파악하는 것으로서, 단어, 문서를 TDM, Word2Vec 등의 방식으로 수치화하여, 유클리디안 거리, 코사인 유사도 등 의 식으로 유사도를 계산할 수 있다.

예를 들어, 단어를 벡터를 이용하여 수치화한 것을 단어벡터 또는 워드벡터라고 명명할 수 있으며, 이러한 워드벡터는 벡터 공간에서 임의의 공간을 차지하도록 이루어진다. 단어들은, 유사도에 따라 벡터 공간에서 서로 가깝거나 멀게 위치하며, 서로 유사한 단어일수록 서로 가깝게 위치하는 특성을 갖는다.

본 발명은 벡터 공간에서 유사한 단어와 비유사한 단어 간의 구분을 보다 명확하게 할 수 있는 워드 벡터 보정 방법을 제안하기 위한 것이다.

본 발명은 n차원을 갖는 워드벡터를 이용한 워드벡터 보정 방법에 관한 것으로서, n차원의 제 1 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제1 워드벡터를 생성하는 단계, 차원의 제2 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제2 워드벡터를 생성하는 단계, 기 특정된 동의어 정보에 기반하여, 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부를 판단하는 단계, 상기 판단결과, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을 업데이트하는 단계 및 상기 업데이트된 n+1번째 원소 값을, 상기 n차원의 제1 및 제2 워드벡터 각각에 포함된 원소들에 반영하여, 상기 n차원의 제1 및 제2 워드벡터를 보정하는 단계를 포함하는 것을 특징으로 한다.

실시 예에 있어서, 상기 n차원의 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 n차원의 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부에 따라, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값의 업데이트 여부가 결정되는 것을 특징으로 한다.

실시 예에 있어서, 상기 업데이트하는 단계는, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소의 평균값을 산출하고, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경하는 것을 특징으로 한다.

실시 예에 있어서, 상기 판단결과, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 업데이트 되지 않는 것을 특징으로 한다.

실시 예에 있어서, 상기 n+1차원의 제1 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 원소들의 평균 값이고, 상기 n+1차원의 제2 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 원소들의 평균 값인 것을 특징으로 한다.

실시 예에 있어서, 상기 n+1차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값과 동일하고, 상기 n+1차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값과 동일한 것을 특징으로 한다.

실시 예에 있어서, 상기 보정하는 단계는, 상기 n+1차원의 제1 및 제2 워드벡터 각각에 LDA(Linear Discriminant Analysis) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터에 포함된 원소들에 각각 분산하는 것을 특징으로 한다.

실시 예에 있어서, 상기 n차원 상에서, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리의 거리와 다른 것을 특징으로 한다.

실시 예에 있어서, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 가까운 것을 특징으로 한다.

실시 예에 있어서, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 먼 것을 특징으로 한다.

위에서 살펴본 것과 같이, 본 발명은, 워드 벡터의 차원을 확장함으로써, 확장된 워드 벡터의 원소에 워드 벡터에 대응되는 단어들의 유사도를 반영할 수 있다. 따라서, 확장된 차원의 워드 벡터는 단어들의 유사도를 반영하도록 업데이트된다. 이러한 확장된 차원의 워드 벡터는 특정 기법에 의하여, 다시 원래의 차원으로 환산되며, 환산 결과, 벡터 공간 상에서 유사한 단어 간의 거리는 더욱 가까워지고, 비유사한 단어간의 거리는 더욱 멀어진다. 따라서, 본 발명에 따르면 유사 단어와 비유사 단어간의 구분이 명확해지며, 그 결과 유사 단어를 보다 정확하게 판단할 수 있다.

도 1는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 블록도이다.

도 2는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 흐름도이다.

도 3은 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 개념도들이다.

도 4a, 도 4b, 도 4c 및 도 4d는 본 발명에 따른 워드벡터 보정 방법과 관련된 대한 차원 확장 및 축소 방법을 설명하기 위한 개념도들이다.

도 5a 및 도 5b은 본 발명에 따른 워드벡터 보정 방법을 수행한 결과를 설명하기 위한 개념도들이다.

이하, 첨부된 도면을 참조하여 본 명세서에 개시된 실시 예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 이하의 설명에서 사용되는 구성요소에 대한 접미사 "모듈" 및 "부"는 명세서 작성의 용이함만이 고려되어 부여되거나 혼용되는 것으로서, 그 자체로 서로 구별되는 의미 또는 역할을 갖는 것은 아니다. 또한, 본 명세서에 개시된 실시 예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 명세서에 개시된 실시 예의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 명세서에 개시된 실시 예를 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 명세서에 개시된 기술적 사상이 제한되지 않으며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 출원에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

먼저, NLP(Natural Language Processing, 자연어 처리)는 컴퓨터가 인간이 사용하는 언어를 이해하고, 분석할 수 있도록 하기 위한 기술로서, 인공지능을 구현하기 위한 가장 핵심적인 기술이다.

자연어 처리는, 임의의 단어의 의미를 컴퓨터가 인지할 수 있도록, 컴퓨터가 처리 가능한 수치적인 방식으로 단어를 표현하는 것으로서, 그중 대표적인 방법은 단어를 벡터로 바꾸는 워드 임베딩 모델(word embedding modle)이다. 워드 임베딩 모델의 일 예로서, word2vec이 존재한다.

한편, 워드 임베딩 모델을 통하여, 단어를 벡터로 표현할 수 있으며, 이러한 벡터를 본 발명에서는 '워드벡터'라고 명명한다. 벡터로 표현된 단어는 벡터공간 내에서 해당 벡터에 대응되는 특정 좌표를 갖는다.

벡터공간 내에서의 단어들의 위치는, 단어들 간의 유사 또는 비유사 여부에 따라 상대적으로 가깝거나 멀게 위치한다.

예를 들어, 벡터 공간 내에서 '동물'이라는 단어와 '식물' 이라는 단어 간의 거리는, '동물'이라는 단어와 '사자'라는 단어 사이의 거리보다 더 멀 수 있다.

이와 같이, 단어마다 서로 다른 벡터로 표현이 되며, 자연어 처리에서는, 벡터로 표현된 단어를 이용하여, 해당 단어 및 단어들이 이루는 문장의 의미를 인지 및 이해한다.

한편, 위에서 살펴본 것과 같이, 각 단어들이 갖는 벡터가, 각 단어들 간의 유사도 정도를 보다 정확하게 나타내어질 수 있다면, 자연어 처리의 성능은 보다 향상될 수 있다.

이에, 본 발명에서는, 워드벡터를 보정하여, 워드벡터로 나타내어지는 단어들 간의 유사도를 보다 정확하게 나타낼 수 있는 방법에 대하여 제안한다. 이하에서는 첨부된 도면과 함께, 워드벡터를 보정하는 방법에 대하여 보다 구체적으로 살펴본다. 도 1는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 블록도이고, 도 2는 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 흐름도이다. 나아가, 도 3은 본 발명에 따른 워드벡터 보정 방법을 설명하기 위한 개념도들이고, 도 4a, 도 4b, 도 4c 및 도 4d는 본 발명에 따른 워드벡터 보정 방법과 관련된 대한 차원 확장 및 축소 방법을 설명하기 위한 개념도들이다. 도 5a 및 도 5b은 본 발명에 따른 워드벡터 보정 방법을 수행한 결과를 설명하기 위한 개념도들이다.

본 발명에 따른 워드벡터 보정 방법을 수행하기 위한 워드벡터 보정 시스템(100)은 임베딩부(110), 워드벡터 차원 확장부(120), 유사도 판단부(130), 유사도 반영부(140), 워드벡터 차원 축소부(150)를 포함할 수 있다.

여기에서, 임베딩부(110)는 '워드벡터 임베딩부'라고도 명명될 수 있으며, 단어를 수치화하여 워드벡터로 변환한다.

임베딩부(110)는 임의의 문서에 포함된 단어들을 수치화하여 각 단어마다 서로 다른 벡터 좌표를 갖는 워드벡터로 변환한다.

임베딩부(110)에서 변환된 워드벡터의 차원은, 워드벡터에 포함된 원소의 개수에 대응되며, 예를 들어, 10개의 원소로 이루어진 워드벡터는 '10차원의 워드벡터'라고 표현될 수 있다.

본 발명에서는, 워드벡터의 차원을 구체적으로 한정하지 않으며, 'n차원'이라고 임의로 명명하기로 한다.

본 발명에 따른 워드벡터 보정 방법은, 워드벡터의 차원 수에 한정되지 않고, 임의의 차원에 대하여 모두 공통적으로 적용될 수 있다.

다음으로, 워드벡터 차원 확장부(120)는, n차원의 워드벡터를 n차원보다 큰 차원의 워드벡터로 확장하는 것으로서, 예를 들어, n차원의 워드벡터를 n+1차원의 워드벡터로 확장한다,

워드벡터 차원 확장부(120)에서 n차원의 워드벡터를, n차원보다 한 차원 큰 n+1차원의 워드벡터로 변환하는 방법에 대하여 설명한다. 임베딩부(110)에서 워드 임베딩 결과, n 차원의 제1 및 제2 워드벡터가 존재한다고 가정하자.

워드벡터 차원 확장부(120)는, n차원의 제 1 워드벡터(W1)에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균 값을 이용하여, n+1차원의 제1 워드벡터(W1')를 생성한다. 보다 구체적으로, 워드벡터 차원 확장부(120)는, n+1 차원의 제1 워드벡터(W1')에서, 1에서 n번째까지의 원소는 n차원의 제1 워드벡터(W1)에 포함된 원소를 할당한다. 그리고, 워드벡터 차원 확장부(120)는 n차원의 제1 워드벡터(W1)에 포함된 1부터 n번째까지의 원소들의 평균값을 n+1차원의 제1 워드벡터(W1')에서, n+1번째 원소로서 할당한다.

마찬가지로, 워드벡터 차원 확장부(120)는, n차원의 제 2 워드벡터(W2)에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균 값을 이용하여, n+1차원의 제2 워드벡터(W2')를 생성한다. 보다 구체적으로서, 워드벡터 차원 확장부(120)는, n+1 차원의 제2 워드벡터(W2')에서, 1에서 n번째까지의 원소는 n차원의 제2 워드벡터(W2)에 포함된 원소를 할당한다. 그리고, 워드벡터 차원 확장부(120)는 n차원의 제2 워드벡터(W2)에 포함된 1부터 n번째까지의 원소들의 평균값을 n+1차원의 제2 워드벡터(W2')에서, n+1번째 원소로서 할당한다.

이와 같은 방식으로, 워드벡터 차원 확장부(120)는 각각의 워드벡터에 포함된 원소들을 이용하여, 각각의 워드벡터의 차원을 확장할 수 있다.

즉, n+1차원의 제1 워드벡터(W1')에 포함된 n+1번째 원소의 값은, 상기 n차원의 제1 워드벡터(W1)에 포함된 원소들의 평균 값이다. 그리고, 상기 n+1차원의 제2 워드벡터(W2')에 포함된 n+1번째 원소의 값은, 상기 n차원의 제2 워드벡터(W2)에 포함된 원소들의 평균 값이다.

나아가, 상기 n+1차원의 제1 워드벡터(W1')에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제1 워드벡터(W1)에 포함된 1부터 n번째 원소의 값과 동일하다. 마찬가지로, 상기 n+1차원의 제2 워드벡터(W2')에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제2 워드벡터(W2)에 포함된 1부터 n번째 원소의 값과 동일하다.

한편, 유사도 판단부(130)는, n차원의 워드벡터가, n+1차원의 워드벡터로 확장된 경우, 확장된 n+1차원의 워드벡터들 간의 유사도를 판단한다.

보다 구체적으로, 유사도 판단부(130)는 기 특정된 동의어 정보에 기반하여, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어 간의 유사 여부를 판단한다.

여기에서, 기 특정된 동의어 정보는, 단어들에 대한 유사어 정보를 포함하는 데이터 베이스로서, GloVe(Global Vectors) 같은 데이터를 의미할 수 있다.

유사도 판단부(130)는 이러한 기 특정된 동의어 정보에 기반하여, 유사 여부의 판단 대상이 되는 적어도 두개의 워드벡터들의 유사 여부를 판단한다.

유사도 반영부(140)는 유사도 판단부(130)에서 판단한 결과에 기반하여, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어가 유사 단어인 경우, 상기 n+1차원의 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값을 업데이트할 수 있다. 유사도 반영부(140)는 '업데이트부'라고도 명명될 수 있다.

유사도 반영부(140)는, 제1 워드벡터(W1 또는 W1')에 대응하는 제1 단어 및 상기 제2 워드벡터(W2 또는 W2')에 대응하는 제2 단어 유사여부에 따라, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값의 업데이트 여부를 결정한다.

보다 구체적으로, 유사도 반영부(140)는, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소의 평균값을 산출하고, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경한다.

따라서, 상기 제1 및 제2 단어가 유사단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2')는, n+1번째 원소 값이 변경된 n+1차원의 제1 및 제2 워드벡터(W1", W2")로 변경된다.

한편, 유사도 판단부(130)에서 판단 결과, 상기 제1 및 제2 단어가, 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 업데이트 되지 않는다.

즉, 유사도 반영부(140)는, 상기 제1 및 제2 단어가, 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 변경하지 않고 유지한다.

이와 같이, 본 발명에서는, 제1 및 제2 단어가 유사한 경우에만, n+1번째의 원소값을, 동일한 값으로 업데이트 함으로써, 제1 및 제2 워드벡터(W1, W1', W1", W2, W2', W2")간의 연관성을 부여한다.

제1 및 제2 워드벡터(W1, W1', W1", W2, W2', W2")에서, n+1번째의 원소값이 동일한 경우, n+1번째의 원소값이 동일하지 않은 경우보다, 벡터 공간에서 상호 더 가까운 거리를 유지할 수 있다.

한편, n+1번째 원소에 대한 업데이트가 완료되면, 워드벡터 차원 축소부(150)는, 상기 n+1차원의 워드벡터를 다시 n차원의 워드벡터로 차원을 축소한다.

워드벡터 차원 축소부(150)는, n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2")의 n+1번째 원소 값을, n차원의 제1 및 제2 워드벡터(W1, W2) 각각에 포함된 원소들에 반영하여, 상기 n차원의 제1 및 제2 워드벡터(W1, W2)를 보정한다.

워드벡터 차원 축소부(150)는 상기 n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2") 각각에 LDA(Linear Discriminant Analysis) 알고리즘을 적용하여, 상기 n+1차원의 제1 및 제2 워드벡터 (W1'또는 W1", W2' 또는 W2")를 n차원의 제1 및 제2 워드벡터(W1"', W2"')로 보정한다. 보정 결과, 보정 후의 n차원의 제1 및 제2 워드벡터(W1"', W2"')의 원소 값 중 적어도 하나는, 보정 전의 제1 및 제2 워드벡터(W1, W2)와 상이할 수 있다.

워드벡터 차원 축소부(150)는 상기 n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2") 각각에 LDA(Linear Discriminant Analysis, 도 3b 참조) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터(W1, W2)에 포함된 원소들에 각각 분산함으로써, 상기 n차원의 제1 및 제2 워드벡터(W1, W2)를 보정할 수 있다.

이상에서 살펴본 것과 같이, 보정 결과, 상기 n차원 상에서, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"', W2"') 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1, W2) 간의 거리의 거리와 다를 수 있다.

본 발명에 따르면, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"', W2"') 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1, W2) 간의 거리보다 더 가깝게 배치될 수 있다. 나아가, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"', W2"') 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1, W2) 간의 거리보다 더 멀게 배치될 수 있다. 본 발명은, 워드 벡터의 차원을 확장함으로써, 확장된 워드 벡터의 원소에 워드 벡터에 대응되는 단어들의 유사도를 반영할 수 있다. 따라서, 확장된 차원의 워드 벡터는 단어들의 유사도를 반영하도록 업데이트된다. 이러한 확장된 차원의 워드 벡터는 특정 기법에 의하여, 다시 원래의 차원으로 환산되며, 환산 결과, 벡터 공간 상에서 유사한 단어 간의 거리는 더욱 가까워지고, 비유사한 단어간의 거리는 더욱 멀어진다. 따라서, 따라서, 본 발명에 따르면 유사 단어와 비유사 단어간의 구분이 명확해지며, 그 결과 유사 단어를 보다 정확하게 판단할 수 있다.

위에서 살펴본 워드벡터 보정 시스템(100)의 설명을 참조하여, 워드 벡터 보정 방법에 대하여 보다 구체적으로 살펴보면, 먼저, 제1 및 제2 단어에 대한 임베딩을 수행하는 과정이 진행된다(S210).

보다 구체적으로, 임베딩 수행 과정은, 임베딩부(110)에 의하여 수행될 수 있으며, 임베딩 수행 과정에서는, 임의의 문서에 포함된 단어들이 수치화하여 각 단어마다 서로 다른 벡터 좌표를 갖는 워드벡터로 변환된다.

임베딩 수행 과정에서 변환된 워드벡터의 차원은, 워드벡터에 포함된 원소의 개수에 대응되며, 예를 들어, 10개의 원소로 이루어진 워드벡터는 '10차원의 워드벡터'라고 표현될 수 있다. 본 발명에서는, 워드벡터의 차원을 구체적으로 한정하지 않으며, 'n차원'이라고 임의로 명명하기로 한다.

임베딩 수행 과정(S210)을 통해, n차원의 워드벡터가 생성되며, 보다 구체적으로, n차원의 워드벡터는, 도 4a에 도시된 것과 같이, n개의 원소로 이루어진 복수의 워드벡터를 포함할 수 있다.

도 4a에 도시된 것과 같이, 복수의 워드벡터는, 제1 단어에 대응되는 n차원의 제1 워드벡터(W1) 및 제2 단어에 대응되는 n차원의 제2 워드벡터(W2)를 포함할 수 있다.

다음으로, n차원의 워드벡터를, n차원보다 한 차원 큰 n+1차원의 워드벡터로 변환하는 과정이 수행된다(S220).

워드벡터 차원 확장부(120)에서 n차원의 워드벡터를, n차원보다 한 차원 큰 n+1차원의 워드벡터로 변환하며, 도 4b에 도시된 것과 같이, 워드벡터 차원 확장부(120)는 제1 단어에 대응되는 n차원의 제1 워드벡터(W1)를 n+1차원의 제1 워드벡터(W1')로 변환하고, 제2 단어에 대응되는 n차원의 제2 워드벡터(W2)를 n+1차원의 제2 워드벡터(W2')로 변환한다.

워드벡터 차원을 확장하는 단계에서는, 도 4b에 도시된 것과 같이, n차원의 각각의 워드벡터에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균된 값을 n+1차원의 워드벡터의 n+1번째 원소의 값으로 할당한다. 그리고, n+1차원의 제1 부터 n번째의 원소들의 값을, n차원의 워드벡터의 원소들 값을 그대로 할당한다.

예를 들어, 워드벡터 차원 확장부(120)는, n차원의 제 1 워드벡터(W1)에 포함된 n개의 원소들의 값을 모두 합한 뒤, 이를 평균하고, 평균 값을 이용하여, n+1차원의 제1 워드벡터(W1')를 생성한다. 보다 구체적으로, 워드벡터 차원 확장부(120)는, n+1 차원의 제1 워드벡터(W1')에서, 1에서 n번째까지의 원소는 n차원의 제1 워드벡터(W1)에 포함된 원소를 할당한다. 그리고, 워드벡터 차원 확장부(120)는 n차원의 제1 워드벡터(W1)에 포함된 1부터 n번째까지의 원소들의 평균값을 n+1차원의 제1 워드벡터(W1')에서, n+1번째 원소로서 할당한다.

이와 같이, 워드벡터의 확장이 이루어지면, 확장된 차원의 워드벡터들 간의 유사도를 판단하는 과정을 수행한다(S230).

유사도 판단부(130)는, n차원의 워드벡터가, n+1차원의 워드벡터로 확장된 경우, 확장된 n+1차원의 워드벡터들 간의 유사도를 판단한다.

유사도 판단부(130)는 적어도 두개의 n+1차원의 워드벡터들 간의 유사도를 판단할 수 있다. 특정된 동의어 정보는, 적어도 두개의 단어 간의 유사도 정보를 포함할 수 있다.

여기에서, 기 특정된 동의어 정보는, 단어들에 대한 유사어 정보를 포함하는 데이터 베이스로서, GloVe(Global Vectors) 같은 데이터를 의미할 수 있다. 유사도 판단부(130)는 이러한 기 특정된 동의어 정보에 기반하여, 유사 여부의 판단 대상이 되는 적어도 두개의 워드벡터들의 유사 여부를 판단한다.

이와 같이, 유사도의 판단이 수행되면, 유사도 판단 결과를, 확장된 차원의 워드벡터에 반영하는 과정이 진행된다(S240).

보다 구체적으로, 도 4c에 도시된 것과 같이, 유사도 반영부(140)는, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소의 평균값(예를 들어, 도 4c에 도시된 것과 같이, 0.45로 산출됨)을 산출하고, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경한다.

즉, 유사도 반영부(140)는, 상기 제1 및 제2 단어가, 비유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2') 각각에 포함된 n+1번째 원소의 값은 변경하지 않고 유지한다. 이 경우, 도 4b에 도시된 것과 같이, 상기 n+1차원의 상기 제1 및 제2 워드벡터(W1', W2')의 원소값이 그대로 유지된다.

이와 같이, 유사도 판단 결과의 반영이 완료되면, 워드벡터의 차원을 축소하는 과정이 진행된다(S250).

즉, n+1번째 원소에 대한 업데이트가 완료되면, 워드벡터 차원 축소부(150)는, 상기 n+1차원의 워드벡터를 다시 n차원의 워드벡터로 차원을 축소한다.

워드벡터 차원 축소부(150)는 상기 n+1차원의 제1 및 제2 워드벡터(W1'또는 W1", W2' 또는 W2") 각각에 LDA(Linear Discriminant Analysis, 도 참조) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터(W1, W2)에 포함된 원소들에 각각 분산함으로써, 상기 n차원의 제1 및 제2 워드벡터(W1, W2)를 보정할 수 있다.

본 발명에 따르면, 상기 제1 및 제2 단어가 유사 단어인 경우, 도 5a 및 도 5b에 도시된 것과 같이, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"' (510"'), W2"'(520"')) 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1(510), W2 (520)) 간의 거리보다 더 가깝게 배치될 수 있다. 나아가, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터(W1"'(510"'), W2"' (520"')) 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1(510, W2(520) 간의 거리보다 더 멀게 배치될 수 있다.

한편, 도 5a 및 도 5b에 도시된 것과 같이, 제3 단어가 제1 및 제2 단어와 비유사 단어인 경우, 보정 전 제3 단어에 해당하는 n차원의 제3 워드벡터(W3(530))와, 보정 전 상기 n차원의 제1 및 제2 워드벡터(W1(510), W2(530)) 간의 거리는, 보정 후 더 멀어질 수 있다(도 5b의 510"', 520"', 530"' 참조).

이와 같이, 본 발명은, 워드 벡터의 차원을 확장함으로써, 확장된 워드 벡터의 원소에 워드 벡터에 대응되는 단어들의 유사도를 반영할 수 있다. 따라서, 확장된 차원의 워드 벡터는 단어들의 유사도를 반영하도록 업데이트된다.

이러한 확장된 차원의 워드 벡터는 특정 기법에 의하여, 다시 원래의 차원으로 환산되며, 환산 결과, 벡터 공간 상에서 유사한 단어 간의 거리는 더욱 가까워지고, 비유사한 단어간의 거리는 더욱 멀어진다. 따라서, 따라서, 본 발명에 따르면 유사 단어와 비유사 단어간의 구분이 명확해지며, 그 결과 유사 단어를 보다 정확하게 판단할 수 있다.

전술한 본 발명은, 프로그램이 기록된 매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 매체의 예로는, HDD(Hard Disk Drive), SSD(Solid State Disk), SDD(Silicon Disk Drive), ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광 데이터 저장 장치 등이 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한, 상기 컴퓨터는 단말기의 제어부(180)를 포함할 수도 있다. 따라서, 상기의 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적 해석에 의해 결정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

Claims

n차원을 갖는 워드벡터를 이용한 워드벡터 보정 방법에 관한 것으로서,

n차원의 제 1 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제1 워드벡터를 생성하는 단계;

n차원의 제2 워드벡터에 포함된 원소들의 평균 값을 이용하여, n+1차원의 제2 워드벡터를 생성하는 단계;

기 특정된 동의어 정보에 기반하여, 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부를 판단하는 단계;

상기 판단결과, 상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을 업데이트하는 단계; 및

상기 업데이트된 n+1번째 원소 값을, 상기 n차원의 제1 및 제2 워드벡터 각각에 포함된 원소들에 반영하여, 상기 n차원의 제1 및 제2 워드벡터를 보정하는 단계를 포함하는 것을 특징으로 하는 워드벡터 보정 방법.
제1항에 있어서,

상기 n차원의 상기 제1 워드벡터에 대응하는 제1 단어 및 상기 n차원의 제2 워드벡터에 대응하는 제2 단어 간의 유사 여부에 따라,

상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값의 업데이트 여부가 결정되는 것을 특징으로 하는 워드벡터 보정 방법.
제2항에 있어서,

상기 업데이트하는 단계는,

상기 제1 및 제2 단어가 유사 단어인 경우, 상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소의 평균값을 산출하고,

상기 n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1 번째 원소 값을, 상기 산출된 평균값으로 변경하는 것을 특징으로 하는 워드벡터 보정 방법.
제3항에 있어서,

상기 판단결과, 상기 제1 및 제2 단어가 비유사 단어인 경우, 상기n+1차원의 상기 제1 및 제2 워드벡터 각각에 포함된 n+1번째 원소의 값은 업데이트 되지 않는 것을 특징으로 하는 워드벡터 보정 방법.
제1항에 있어서,

상기 n+1차원의 상기 제1 워드벡터를 생성하는 단계에서, 상기 n+1차원의 제1 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 원소들의 평균 값이고,

상기 n+1차원의 상기 제1 워드벡터를 생성하는 단계에서, 상기 n+1차원의 제2 워드벡터에 포함된 n+1번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 원소들의 평균 값인 것을 특징으로 하는 워드벡터 보정 방법.
제5항에 있어서,

상기 n+1차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제1 워드벡터에 포함된 1부터 n번째 원소의 값과 동일하고,

상기 n+1차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값은, 상기 n차원의 제2 워드벡터에 포함된 1부터 n번째 원소의 값과 동일한 것을 특징으로 하는 워드벡터 보정 방법.
제1항에 있어서,

상기 보정하는 단계는,

상기 n+1차원의 제1 및 제2 워드벡터 각각에 LDA(Linear Discriminant Analysis) 알고리즘을 적용하여, 상기 n+1번째 원소 값을 상기 n차원의 제1 및 제2 워드벡터에 포함된 원소들에 각각 분산하는 것을 특징으로 하는 워드벡터 보정 방법.
제7항에 있어서,

상기 n차원 상에서,

상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는,

보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리의 거리와 다른 것을 특징으로 하는 워드벡터 보정 방법.
제8항에 있어서,

상기 제1 및 제2 단어가 유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 가까운 것을 특징으로 하는 워드벡터 보정 방법.
제9항에 있어서,

상기 제1 및 제2 단어가 비유사 단어인 경우, 상기 보정된 n차원의 제1 및 제2 워드벡터 간의 거리는, 보정 전 상기 n차원의 제1 및 제2 워드벡터 간의 거리보다 더 먼 것을 특징으로 하는 워드벡터 보정 방법.