KR20170094063A

KR20170094063A - 의미 기반 명사 유사도 계산 장치 및 방법

Info

Publication number: KR20170094063A
Application number: KR1020160064750A
Authority: KR
Inventors: 맹성현; 강준영; 김부근
Original assignee: 한국과학기술원
Priority date: 2016-02-05
Filing date: 2016-05-26
Publication date: 2017-08-17
Also published as: KR101841615B1

Abstract

문장 또는 문서로부터 추출한 복수의 명사구에 각각 포함되어 있는 복수의 형용사에 대한 속성 벡터 맵을 확인하고, 복수의 명사구에 각각 포함되어 있는 복수의 명사를 기준으로 복수의 제1 속성 벡터 집합을 생성한다. 생성한 복수의 제1 속성 벡터 집합을 확인한 속성 벡터 맵을 토대로 복수의 제2 속성 벡터 집합을 생성하고, 제2 속성 벡터 집합을 토대로 두 명사 각각에 대한 두 개의 제2 속성 벡터 집합을 이용하여 형용사 유사도를 계산한다. 그리고 형용사 유사도를 토대로 두 명사에 대한 의미 유사도를 계산한다.

Description

의미 기반 명사 유사도 계산 장치 및 방법{Apparatus and method for computing noun similarities using semantic contexts}

본 발명은 의미 기반 명사 유사도 계산 장치 및 방법에 관한 것이다.

웹 상의 텍스트 데이터가 증가함에 따라 많은 문서의 이해와 분석 기술들이 관심을 받고 있다. 이에 따라 텍스트 데이터에 대한 사전 연구나 기술들이 개발되고 있는데, 의미 유사도가 그 중 하나이다.

의미 유사도는 단어나 문장 등이 의미론적 실체의 형상을 나타내는데 사용되는 척도로, 특히 명사 간 의미 유사도는 두 명사 사이의 의미적인 거리를 나타내기 위한 척도이다. 의미 유사도는 자연어 처리, 정보 검색, 질문 응답 등에 이용될 수 있기 때문에, 이에 대한 연구가 활발히 진행되고 있다. 그리고 표절 인용 감지와 같이 텍스트로부터의 의미를 활용하는 분야에서, 다른 의미 엔티티(entity) 사이의 관계가 반드시 필요하기 때문에 의미 유사도는 매우 중요한 역할을 한다.

그러나 의미 유사도를 판단하기 위한 종래의 기술을 이용할 경우, 대상 단어가 대부분 명사이기 때문에 자연어 처리에 적용하기 어려운 단점이 있다. 따라서 의미 유사도의 효과를 향상시키기 위해 다양한 접근법이 연구되고 있으며, 더 나은 의미 유사도를 판단하기 위해 개체(object)를 충분히 설명해야 하고 중요한 기능을 파악해야만 한다.

그러나 현재 연구되고 있는 접근 방식으로는 의미 유사도 특히 명사 간 의미 유사도를 판단하기 위해서는 반드시 측정하고자 하는 두 명사가 직간접적으로 같이 등장해야만 한다. 또한, 문맥에 등장하는 불필요한 단어들 또한 유사도 측정 대상 명사의 의미를 나타내는 정보로 사용되기 때문에 정확한 의미 유사도를 판단하기 어렵다는 단점이 있다.

따라서, 본 발명은 의미 컨텍스트로서 형용사를 활용하여, 명사 유사도를 계산하는 장치 및 방법을 제공한다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 하나의 특징인 의미 기반으로 명사의 유사도를 계산하는 방법은,

문장 또는 문서로부터 추출한 복수의 명사구에 각각 포함되어 있는 복수의 형용사에 대한 속성 벡터 맵을 확인하는 단계; 상기 복수의 명사구에 각각 포함되어 있는 복수의 명사를 기준으로 복수의 제1 속성 벡터 집합을 생성하는 단계; 상기 생성한 복수의 제1 속성 벡터 집합을 상기 확인한 속성 벡터 맵을 토대로 복수의 제2 속성 벡터 집합을 생성하는 단계; 상기 생성한 제2 속성 벡터 집합을 토대로, 두 명사 각각에 대한 두 개의 제2 속성 벡터 집합을 이용하여 형용사 유사도를 계산하는 단계; 및 상기 계산한 형용사 유사도를 토대로 상기 두 명사에 대한 의미 유사도를 계산하는 단계를 포함한다.

상기 제1 속성 벡터 집합을 생성하는 단계는, 추출한 복수의 명사구에 포함되어 있는 명사를 기준으로, 임의의 명사를 수식하며 상기 복수의 명사구에 포함되어 있는 적어도 하나 이상의 형용사를 확인하는 단계; 및 하나 이상의 형용사들을 상기 임의의 명사에 대한 제1 속성 벡터 집합으로 생성하는 단계를 포함할 수 있다.

상기 제2 속성 벡터 집합을 생성하는 단계는, 제1 속성 벡터 집합에 포함되어 있는 적어도 하나 이상의 형용사들을, 상기 속성 벡터 맵을 토대로 형용사 각각에 대응하는 속성 벡터를 확인하는 단계; 및 상기 제1 속성 벡터 집합에 포함되어 있는 형용사들을 각각 확인한 속성 벡터로 변환하여 제2 속성 벡터 집합을 생성하는 단계를 포함할 수 있다.

상기 제2 속성 벡터 집합을 생성하는 단계 이후에, 상기 제2 속성 벡터 집합에 포함되어 있는 복수의 속성 벡터들 중, 미리 설정된 기준치 이상의 확률 값을 가지는 속성 벡터만 제2 속성 벡터 집합 내에 포함하도록 필터링하는 단계를 더 포함할 수 있다.

상기 제2 속성 벡터 집합을 생성하는 단계 이후에, 제2 속성 벡터 집합 내 속성 벡터들을 유사한 형태의 속성 벡터 군으로 분류하는 단계; 및 분류한 속성 벡터 군 중 많은 수의 속성 벡터들을 포함하는 속성 벡터 군을 선택하는 단계를 더 포함할 수 있다.

상기 형용사 유사도를 계산하는 단계는, 상기 두 명사 단어 각각에 대한 두 개의 제2 속성 벡터 집합 각각에 대해, 제2 속성 벡터 집합 내 복수의 속성 벡터가 동일한 값을 갖도록 제2 속성 벡터 집합을 형성하는 단계; 동일한 속성 벡터 값을 가지는 두 개의 제2 속성 벡터 집합의 크기가 같아지도록 하는 단계; 크기가 같은 두 개의 제2 속성 벡터 집합 내 속성 벡터간 일대 일 매칭하여 적어도 하나 이상의 속성 벡터 쌍을 생성하는 단계; 상기 적어도 하나 이상의 속성 벡터 쌍 사이의 유사도를 계산하는 단계; 및 상기 속성 벡터 쌍 사이의 유사도를 토대로 상기 두 개의 제2 속성 벡터 집합에 대한 속성 벡터 유사도를 계산하는 단계를 포함할 수 있다.

상기 속성 벡터가 동일한 값을 갖도록 제2 속성 벡터 집합을 형성하는 단계는, 제2 속성 벡터 집합 내에 동일한 속성 벡터가 반복하여 포함되어 있는지 확인하는 단계; 및 반복하여 포함되어 있는 속성 벡터가 있으면, 해당 속성 벡터를 하나만 포함되도록 설정하고 삭제된 수만큼 속성 벡터에 가중치를 부여하는 단계를 포함할 수 있다.

상기 두 개의 제2 속성 벡터 집합의 크기가 같아지도록 하는 단계는, 상기 제2 속성 벡터 집합의 크기는 제2 속성 벡터 집합에 포함된 속성 벡터 수로 하는 제1 속성 벡터 집합 크기와 제2 속성 벡터 집합 크기를 확인하는 단계; 제1 속성 벡터 집합 크기와 제2 속성 벡터 집합 크기가 상이하면, 속성 벡터 집합 크기가 큰 속성 제2 속성 벡터 집합을 크기가 작은 제2 속성 벡터 집합의 크기가 되도록 속성 벡터들을 병합하는 단계; 및 크기가 동일해진 제2 속성 벡터 집합 내 속성 벡터들을 가중치에 따라 정렬하는 단계를 포함할 수 있다.

상기 본 발명의 기술적 과제를 달성하기 위한 본 발명의 또 다른 특징인 의미 기반으로 명사의 유사도를 계산하는 장치는,

문장이나 문서로부터 형용사-명사로 이루어진 적어도 하나 이상의 명사구를 추출하는 명사구 추출부; 상기 명사구 추출부가 추출한 명사구 내에 포함되어 있는 복수의 형용사에 각각 해당하는 속성 벡터 맵을 미리 저장된 형용사들에 대한 속성 벡터 맵에서 확인하는 속성 벡터 저장부; 상기 하나 이상의 명사구에 대한 속성 벡터 집합을 생성하고, 의미 유사도 계산 대상인 두 명사 각각에 대한 두 개의 속성 벡터 집합을 이용하여 형용사 유사도를 계산하는 형용사 집합 유사도 계산부; 및 상기 형용사 집합 유사도 계산부가 계산한 형용사 유사도를 토대로 상기 두 명사에 대한 의미 유사도를 계산하는 의미 유사도 계산부를 포함한다.

본 발명에 따르면, 형용사가 대상 명사의 의미에 미치는 영향을 확인할 수 있기 때문에, 명사 의미 유사도를 계산하는 장치가 의미적 유사성을 결정하는데 더욱 나은 성능을 얻을 수 있다.

또한, 형용사를 사용함으로써, 측정하고자 하는 두 명사가 직간접적으로 동시에 등장하였는지에 상관없이, 컨텍스트 정보를 추출하여 효율적으로 활용할 수 있다.

도 1은 본 발명의 실시예에 따른 의미 기반 명사 유사도 계산 장치의 구조도이다.
도 2는 본 발명의 실시예에 따른 명사 유사도 계산 방법에 대한 흐름도이다.
도 3은 본 발명의 실시예에 따른 속성 벡터의 예시도이다.
도 4는 본 발명의 실시예에 따른 그룹화된 형용사 범주의 예시도이다.
도 5는 본 발명의 실시예에 따른 속성 유사도 계산 방법에 대한 흐름도이다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하 도면을 참조로 하여 본 발명의 실시예에 따른 의미 기반 명사 유사도 계산 장치 및 방법에 대해 설명한다.

도 1은 본 발명의 실시예에 따른 의미 기반 명사 유사도 계산 장치의 구조도이다.

도 1에 도시된 바와 같이, 유사도 계산 장치(100)는 명사구 추출부(110), 속성 벡터 저장부(120), 형용사 집합 유사도 계산부(130) 및 의미 유사도 계산부(140)를 포함한다.

명사구 추출부(110)는 입력되는 문장이나 문서로부터 명사구를 추출한다. 여기서 명사구는 형용사와 명사가 연달아 나타나는 단어 쌍 즉, 형용사가 명사를 수식하는 형태를 의미한다. 명사구 추출부(110)가 입력되는 문장 또는 문서에서 명사구를 추출하는 방법은 여러 방법을 통해 수행할 수 있으며, 본 발명의 실시예에서는 어느 하나의 방법으로 한정하지 않는다.

속성 벡터 저장부(120)는 모든 형용사들에 대해, 유사한 형용사들을 군으로 정의하는 형용사 범주와, 임의의 형용사가 특정 형용사 범주에 속할 확률 나타내는 속성 벡터 맵을 저장, 관리한다. 그리고 명사구 추출부(110)가 추출한 복수의 명사구 내에 포함되어 있는 복수의 형용사 각각 해당하는 속성 벡터 맵을 미리 저장되어 있는 속성 벡터 맵으로부터 확인한다.

본 발명의 실시예에서 속성 벡터 맵을 사용하는 것은. 직접 명사를 대상으로 형용사의 특정 속성 유형을 추론할 수 있기 때문이다. 그러나 반드시 형용사에 대한 속성 벡터 맵을 사용하는 것으로 한정하지 않으며, 형용사의 속성 유형을 추론할 수 있는 형태라면 어떤 형태도 가능하다. 여기서 속성 벡터 맵의 예에 대해 도 3을 참조로 먼저 설명한다.

도 3은 본 발명의 실시예에 따른 속성 벡터 맵의 예시도이다.

형용사들은 미리 임의의 분류 과정을 통해, 각각 그룹화된 형용사 범주로 분류된다. 그리고 분류 과정을 통해 각 그룹화된 형용사 범주에 형용사가 속할 확률을 각각 부여받게 된다. 임의의 형용사가 특정 형용사 범주에 속할 확률을 토대로 벡터가 생성되는데, 이를 '속성 벡터'라 지칭한다.

본 발명의 실시예에서는 속성 벡터에 대해, 형용사 범주가 13개 있을 때 각 형용사 범주(SuperSense)에 형용사가 속할 확률 값을 벡터 원소로 가지는 64차원의 벡터를 생성하는 것을 예로 하여 설명한다. 그리고 이를 형용사의 대표 벡터인 속성 벡터로 삼아 사용한다. 이때, 본 발명의 실시예에서는 하위 범주(subsense)를 포함하고 있는 하나의 단어인 형용사 범주를 GermaNet에서 제공하는 13개의 형용사 범주 카테고리에 해당하는 13개 범주로 나타내었으나, 형용사 범주의 수에 따라 속성 벡터에 포함되는 수가 변경될 수도 있다.

도 3에 도시된 속성 벡터 맵에 대한 표에서, 첫 번째 열은 형용사이고, 두 번째 열은 유형 분류 정확도가 top-4인 형용사 범주를 나타낸다. 형용사 범주는 시맨틱 클래스로 간주할 수 있기 때문에, 형용사 범주는 형용사 범주가 부착되어 있는 단어의 대단위 의미를 나타낼 수 있다.

여기서 top-4는 형용사 분류 훈련에 따라 도출된 유형 분류 정확도를 나타내는 것으로, top-k(k는 정수)에서 k=4인 top-k는 91%의 유형 분류 정확도를 나타내는 것이다. k=1인 top-1은 54%의 유형 분류 정확도를 나타내는 것이다. 유형 분류 정확도를 도출하는 형용사 분류 훈련은 이미 알려진 사항으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

그리고, 세 번째 열은 각 형용사 범주 클래스에 대한 확률 분포를 그래프로 나타낸 것이다. 형용사 범주에 대한 확률 분포를 구하는 방법은 여러 방법을 통해 얻을 수 있으므로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

나머지 4번째부터 16번째 열은 임의의 형용사가 형용사 범주에 실제로 있을 가능성에 대한 형용사 범주별 확률 값을 나타낸다. 예를 들어, 4번째 열의 형용사 'deaf'라는 단어를 예로 하면, deaf는 형용사 범주로 'BODY' 클래스에 있을 가능성이 크다. 이는, deaf가 형용사 범주 'BEHAVIOR' 클래스에 포함될 가능성은 0.02, 형용사 범주 'FEELING' 클래스에 있을 가능성이 0.106 등 확률 값이 계산되어 있기 때문이며, 13개의 형용사 범주 각각의 확률 값 중 가장 큰 값이 'BODY' 클래스에 대한 값이 0.652에 해당하기 때문이다. 이러한 13개의 확률 값들이 형용사에 대한 확률 벡터를 형성하는 원소가 된다.

그리고 속성 벡터 저장부(120)에 저장되어 있는 형용사 범주의 예에 대해 도 4를 참조로 먼저 설명한다.

도 4는 본 발명의 실시예에 따른 그룹화된 형용사 범주의 예시도이다.

본 발명의 실시예에 따른 형용사들은 GermaNet을 기반으로 하여 형용사 군들로 형성, 그룹화하는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다. 예를 들어 "날씨(WEATHER)"이라는 형용사 범주 내에는 rainy, balmy, foggy, hazy, humid 등의 하위 의미들이 다 포함되어 있다. 여기서 유사하다는 의미는, 형용사 단어의 의미가 유사한 것뿐만 아니라, 의미는 상반되더라도 해당 형용사가 부연 설명하는 명사의 특성이 일치하는 경우에도 형용사들이 유사하다고 가정한다.

예를 들어, 형용사 'beautiful'과 'pretty'는 의미가 유사하기 때문에 명사에 유사한 특성을 제공하게 된다. 또 다른 예로, 형용사 'fanged'와 'fascinated'는 의미상으로는 유사하지 않으나, 형용사가 묘사하는 외형적인 사실로부터 명사에 유사한 특성을 제공하기 때문에 유사하다고 가정한다. 또 다른 예로, 형용사 'hot'과 'cool'은 의미상으로는 정반대이지만, 두 형용사가 설명하는 대상 명사인 온도 특성을 설명하는 것이므로 유사하다고 가정한다.

한편, 도 1을 이어 설명하면, 형용사 집합 유사도 계산부(130)는 복수의 명사구에서, 동일한 명사를 수식하는 형용사들끼리 모아 복수의 제1 속성 벡터 집합을 생성한다. 그리고, 복수의 제1 속성 벡터 집합 내에 각각 포함되어 있는 형용사들을 속성 벡터 맵을 이용하여 13차원의 벡터 값을 가지도록 변경하여, 복수의 제2 속성 벡터 집합을 생성한다.

또한, 형용사 유사도 집합 계산부(130)는 제2 속성 벡터 집합 내에 포함된 형용사에 대한 필터링을 수행할 수도 있다. 즉, 제2 속성 벡터 집합 내 속성 벡터들 중, 미리 설정된 기준치 이상의 높은 확률 값을 가지는 속성 벡터들만이 제2 속성 벡터 집합 내에 포함되도록 필터링한다.

또는, 제2 속성 벡터 집합 내 형용사들을 유사한 형태의 형용사 군으로 분류하고, 분류한 형용사 군 중 많은 수의 형용사들을 포함하는 형용사 군을 선택하여 사용할 수도 있다. 이는 일부 명사들은 중의적 의미를 가지는 명사가 있을 수 있기 때문에 어느 하나의 의미를 가지도록 선택하기 위함이다. 형용사 유사도 집합 계산부(130)는 형용사 필터링은 반드시 수행되지 않아도 무방하다.

또한, 형용사 유사도 집합 계산부(130)는 제2 속성 벡터 집합 내 속성 벡터들이 동일한 값(value)을 갖도록 변경한다. 즉, 임의의 형용사에 대한 속성 벡터가 중복되어 제2 속성 벡터 집합에 포함되어 있다면, 중복된 속성 벡터는 한 번만 포함되도록 변경한다. 그리고 중복된 형용사에 대해서는 가중치를 중복된 수만큼 적용하여 설정한다.

예를 들어, 임의의 형용사가 제2 속성 벡터 집합 내에 한 번만 포함되어 있는 경우에는 형용사 유사도 집합 계산부(130)는 해당 형용사의 중복 제거 없이 가중치가 1이 되도록 설정한다. 그러나, 특정 형용사가 제2 속성 벡터 집합 내에 두 번 포함되어 있다고 가정하면, 형용사 유사도 집합 계산부(130)는 해당 형용사의 중복 제거를 수행하고 가중치가 2가 되도록 설정한다.

또한, 형용사 유사도 집합 계산부(130)는 명사 유사도 계산 대상인 두 명사에 대한 두 개의 제2 속성 벡터 집합을 동일한 크기를 가지는 두 개의 제2 속성 벡터 집합으로 생성한다. 여기서 제2 속성 벡터 집합의 크기는 속성 벡터 집합 내에 포함되어 있는 속성 벡터의 수로 결정되는 것을 예로 하여 설명한다.

만약, 첫 번째 명사에 대한 제2 속성 벡터 집합의 크기가 10이고, 두 번째 명사에 대한 제2 속성 벡터 집합의 크기가 5라고 가정한다. 그러면, 형용사 유사도 집합 계산부(130)는 서로 다른 크기를 나타내는 속성 벡터 집합을 어느 한 쪽의 크기가 되도록 맞춰준다. 본 발명의 실시예에서는 크기가 큰 속성 벡터 집합을 크기가 작은 속성 벡터 집합의 크기에 맞추는 것을 예로 하여 설명하며, 이는 이후 설명한다.

또한, 형용사 유사도 집합 계산부(130)는 적어도 하나 이상의 속성 벡터 쌍 사이의 유사도를 각각 계산한 후 평균을 구한다. 또한, 형용사 집합 유사도 계산부(130)는 이분 매칭 형태를 나타내는 속성 벡터 쌍만을 고려하여 두 개의 제2 속성 벡터 집합에 대한 속성 벡터 유사도를 계산한다.

이는, 본 발명의 실시예에서는 일대일로 매칭된 벡터 쌍 사이의 유사도만을 고려함을 나타내는 것이다. 예를 들어, 첫 번째 제2 속성 벡터 집합의 속성 벡터 a에 대해 두 번째 제2 속성 벡터 집합의 속성 벡터 k와 일대 일 매칭이 되었다고 가정한다. 그러면, a는 k와의 유사도만 계산할 뿐 두 번째 제2 속성 벡터 집합의 다른 속성 벡터와는 유사도 계산을 수행하지 않음을 의미한다.

의미 유사도 계산부(140)는 형용사 집합 유사도 계산부(130)가 계산한 두 개의 제2 속성 벡터 집합 사이의 속성 유사도를 토대로, 두 개의 명사 사이의 의미 유사도를 계산한다. 두 개의 명사간 의미 유사도를 계산할 때, 각 명사의 단어 표현간 유사도와 속성 벡터 집합 사이의 유사도를 고려하여 명사간 의미 유사도를 계산한다.

이상에서 설명한 의미 기반 명사 유사도 계산 장치(100)를 이용하여 두 명사간 유사도를 계산하는 방법에 대해 도 2를 참조로 설명한다.

도 2는 본 발명의 실시예에 따른 명사 유사도 계산 방법에 대한 흐름도이다.

도 2에 도시된 바와 같이, 명사구 추출부(110)가 입력된 문장 또는 문서로부터 (형용사, 명사) 형태를 나타내는 명사구를 추출한다(S100). 여러 단어 중, 명사구 추출부(110)는 형용사와 명사가 바로 인접하여 나타나는 경우를 명사구로 추출한다. 여기서 명사구는 하나의 문장이나 문서 내에서 한 개 또는 복수 개 포함될 수 있으므로 모든 명사구들을 명사구로 추출한다.

문장 또는 문서로부터 명사구를 추출하기 위하여, 명사구 추출부(110)는 먼저 문장 또는 문서에 포함되어 있는 모든 단어에 품사를 태깅한다. 그리고 태깅된 품사를 통해 형용사와 명사가 인접하여 나타나는 단어들을 명사구로 추출한다. 명사구를 추출하기 위한 방법은 이 외에도 여러 방법을 통해 수행할 수 있으므로, 본 발명의 실시예에서는 어느 하나의 방법으로 한정하여 설명하지 않는다.

S100 단계에서 명사구 추출부(110)가 복수 개의 명사구를 추출하면, 속성 벡터 저장부(120)는 이미 저장되어 있는 속성 벡터 맵 중 명사구에 포함되어 있는 형용사에 대응하는 속성 벡터 맵을 확인한다(S110). 속성 벡터 저장부(120)가 속성 벡터 맵을 확인하기 위하여, 본 발명의 실시예에서는 복수 개의 추출된 명사구 내에 포함된 형용사들에 대한 형용사 범주 태거(supersense tagger)의 분류 결과 즉, 도 3에 실시예로 언급한 속성 벡터가 각각의 형용사와 일대 일 매칭되는 속성 벡터 맵을 확인하는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다.

형용사 유사도 집합 계산부(130)는 "형용사-명사"로 이루어진 복수의 명사구에서, 동일한 명사를 수식하는 형용사들끼리 모아 명사를 기준으로 그룹을 형성하여 제1 속성 벡터 집합으로 생성한다(S120). 예를 들어, 임의의 문장 또는 문서 내에서 추출한 명사구에서 "obscurantism"이라는 명사를 "wild, religious, deliberate, religious, deliberate, religious"가 수식한 적이 있어 추출되었다고 가정한다면, 형용사 유사도 집합 계산부(130)는 각각의 형용사들을 원소로 삼는 집합을 obscurantism과 연결하여 (obscurantism-wild religious deliberate religious deliberate religious)와 같이 그룹핑하여 제1 속성 벡터 집합을 생성한다.

이와 같이 명사를 기준으로 제1 속성 벡터 집합을 생성한 뒤, 형용사 유사도 집합 계산부(130)는 제1 속성 벡터 집합 내 형용사들을 사용하기 위해 형용사들의 표현 방식을 변경한다. 본 발명의 실시예에서는 S110 단계에서 속성 벡터 저장부(120)가 확인한 속성 벡터 맵을 이용하여 형용사들의 표현 방식을 해당 형용사들에 상응하는 속성 벡터로 변환한다.

즉, 형용사들을 도 3에 일부 나타낸 속성 벡터 맵을 토대로, 형용사 각각에 대한 13차원의 속성 벡터로 변환한다. 그리고 속성 벡터로 변환된 형용사를 제1 속성 벡터 집합에 포함된 형용사들로 대체하여, 제2 속성 벡터 집합을 생성한다(S130).

S130 단계를 통해 제2 속성 벡터 집합이 생성되면, 형용사 유사도 집합 계산부(130)는 명사 단어의 중의성을 해결하기 위하여 제2 속성 벡터 집합에 포함되어 있는 복수의 형용사를 필터링하여, 필터링된 제2 속성 벡터 집합을 생성한다(S140). 단어 의미의 모호성은 단어 수준의 의미론적 유사성을 측정하는데 중요한 문제 중 하나임에도 불구하고, 종래에는 단어의 중의성을 고려하고 있지 않았다.

따라서, 본 발명의 실시예에서는 형용사 정보로 이 문제를 해결한다. 즉, 본 발명의 실시예에서는 형용사 유사도 집합 계산부(130)가 제2 속성 벡터 집합 내 속성 벡터들을 토대로 속성 벡터에 대응하는 형용사들을 필터링한다. 다시 말해, 미리 설정된 기준치 이상의 확률 값을 가지는 속성 벡터만이 제2 속성 벡터 집합 내에 포함되도록 필터링하여 사용한다.

또는, 제2 속성 벡터 집합 내 속성 벡터들을 유사한 형태의 형용사들로 분류한다. 그리고, 분류한 형용사군 중 많은 수의 형용사들을 포함하는 형용사군을 선택하여 사용할 수도 있다.

apple을 예로 하여 설명하면, apple에 대한 형용사로 sweet, red, green, sour, acid 등이 추출되었다고 가정한다. 그러면, 맛 군으로 묶을 수 있는 형용사와 색깔 군으로 묶을 수 있는 형용사가 분류된다. 이때, 경우에 따라 임의의 명사가 맛 군의 형용사와 색깔 군의 형용사 모두 수식 받을 수 있기 때문에, 더 빈번하게 나타난 맛 군의 형용사만을 추출하여 사용할 수도 있다.

형용사를 필터링하는 방법은 여러 방법으로 수행할 수 있으며, 본 발명의 실시예에서는 어느 하나의 방법으로 한정하지 않는다. 그리고 S140 단계에 대한 형용사 필터링 단계는 상황에 따라 형용사 필터링을 수행하지 않을 수도 있다.

이와 같이 S140 단계를 통해 형용사가 필터링된 복수의 제2 속성 벡터 집합이 생성되면, 형용사 집합 유사도 계산부(130)는 의미 유사도를 계산하기 위한 두 개의 명사 각각에 대한 두 개의 제2 속성 벡터 집합 사이의 속성 유사도를 계산한다(S150). 본 발명의 실시예에서는 13차원의 속성 벡터의 형태로 형용사를 다루고 있으므로, 두 제2 속성 벡터 집합 사이의 속성 유사도를 계산함으로써 명사의 특성을 판단할 수 있게 된다.

본 발명의 실시예에서는 제2 속성 벡터 집합 사이의 속성 유사도를 계산하기 위해 다음 절차들을 수행하며, 도 5를 참조로 먼저 설명한다.

도 5는 본 발명의 실시예에 따른 속성 유사도 계산 방법에 대한 흐름도이다.

도 5에 도시된 바와 같이, 먼저, 형용사 집합 유사도 계산부(130)는 두 개의 제2 속성 벡터 집합을 형성하기 위해 가중치를 갖는 하나의 속성 벡터를 통해 모든 속성 벡터가 동일한 값(value)을 갖도록 변경한다(S151). 가중치는 수집된 속성 벡터의 수로 결정되는 것을 예로 하여 설명한다.

예를 들어, 임의의 단어에 대한 형용사 집합이 {beautiful, pretty, long, short, short, pretty, heavy, small}이라고 가정하면, 두 번 반복된 pretty의 가중치는 2이나 다른 형용사들의 가중치는 1이 된다. 따라서 두 번 반복된 형용사들이 한 번만 나타나도록 조절하되, 가중치 값을 따로 설정한 후 {beautiful, pretty, long, short, heavy, small}로 형성하여 속성 벡터 집합을 형성한다.

두 개의 명사 각각에 대한 제2 속성 벡터 집합을 형성한 뒤, 형용사 집합 유사도 계산부(130)는 두 개의 제2 속성 벡터 집합을 동일한 크기를 가지는 두 개의 제2 속성 벡터 집합으로 생성한다(S152). 여기서 제2 속성 벡터 집합의 크기는 첫 번째 절차의 집합 형성 절차 후에 속성 벡터의 수로 결정된다.

첫 번째 단어의 제2 속성 벡터 집합의 속성 벡터들의 수와 두 번째 단어의 제2 속성 벡터 집합의 속성 벡터들의 수는 다를 수 있다. 따라서, 두 제2 속성 벡터 집합의 속성 벡터의 수에 대한 균형을 맞추어, 동일한 크기를 가지는 두 개의 제2 속성 벡터 집합을 생성한다.

본 발명의 실시예에서는 크기가 큰 제2 속성 벡터 집합을 크기가 작은 제2 속성 벡터 집합의 크기로 축소하는 것을 예로 하여 설명하나, 반드시 이와 같이 한정되는 것은 아니다. 즉, 첫 번째 단어의 제2 속성 벡터 집합 내 속성 벡터들이 10개가 있고, 두 번째 단어의 제2 속성 벡터 집합 내 속성 벡터들이 5개가 있다고 가정한다.

그러면, 본 발명의 실시예에서는 첫 번째 단어의 제2 속성 벡터 집합의 크기가 5가 되도록 조절한다. 이를 위해, 10개의 속성 벡터 중, 거리가 가까운 속성 벡터끼리 묶어 5개의 속성 벡터만이 남도록 한다. 여기서, 벡터 간 거리를 측정하는 방법이나, 가장 가까운 속성 벡터를 찾는 방법은 이미 알려진 사항으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

이와 같이 두 개의 제2 속성 벡터 집합을 크기가 동일하게 조절한 뒤, 형용사 집합 유사도 계산부(130)는 각 속성 벡터들의 가중치를 내림차순으로 정렬한다. 여기서, 하나로 합쳐진 속성 벡터 중에는 가중치가 1인 속성 벡터가 있을 수 있고 가중치가 2인 속성 벡터가 있을 수 있기 때문에, 두 개의 속성 벡터가 합쳐진 경우에는 가중치를 3으로 둔다고 가정한다. 5개의 속성 벡터들은 각각 가중치가 상이하게 설정될 수 있으므로, 속성 벡터들의 가중치 정렬을 통해 가장 높은 가중치를 갖는 속성 벡터를 구할 수 있다.

그리고, 형용사 집합 유사도 계산부(130)는 두 개의 제2 속성 벡터 집합 내 속성 벡터들을 일대 일로 매칭하여 적어도 하나 이상의 속성 벡터 쌍을 생성한다(S153). 본 발명의 실시예에서는 각각의 속성 집합을 그래프 상의 노드라고 가정하며, 다음 매칭 방법을 통해 두 속성 벡터 집합을 매칭한다.

먼저 두 개의 단어를 A와 B라고 가정한다. 그리고 A 단어에 대한 제2 속성 벡터 집합의 속성 벡터와 B 단어에 대한 제2 속성 벡터 집합의 속성 벡터가 모두 5개라고 가정한다.

가중치 정렬을 통해 단어 A의 첫 번째 속성 벡터는 가중치가 가장 높은 속성 벡터가 된다. 첫 번째 속성 벡터부터 시작하여, 단어 A의 첫 번째 속성 벡터와 유사한 속성 벡터를 단어 B의 속성 벡터들 중에서 확인한다. 그리고 유사한 속성 벡터가 단어 B의 속성 벡터들 중에 있으면, 두 속성 벡터를 연결한다. 이때, A 단어의 첫 번째 속성 벡터와의 유사한 속성 벡터를 B 단어에서 찾는 방법은 속성 벡터간의 거리를 측정하여 확인한다. 벡터 간 거리를 측정하는 방법이나, 가장 가까운 속성 벡터를 찾는 방법은 이미 알려진 사항으로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

이때, 두 단어 사이의 속성 벡터들끼리 연결되면, 일대 일 매칭을 위해 연결된 속성 벡터들에는 다른 속성 벡터가 연결되지 않도록 한다. 이와 같은 절차를 반복하여 A 단어와 B 단어 각각에 대한 속성 벡터를 연결하여 속성 벡터 쌍을 생성한 후, 속성 벡터 쌍의 가중치를 이용하여 단어 A와 B 사이의 속성 벡터 집합 사이의 유사도를 계산한다. 속성 벡터 집합 사이의 유사도는, 다음 수학식 1을 통해 계산된다.

여기서 sim_av(i,j)는 속성 벡터 i와 j 사이의 유사도를 나타낸다.

로 계산되는데, w_i와 w_j는 속성 벡터 i와 j에 대한 가중치를 나타낸다.

이와 같이 두 단어 사이에 속성 벡터들이 모두 일대 일로 연결되어 적어도 하나 이상의 속성 벡터 쌍이 형성되면, 일대 일로 연결된 복수개의 속성 벡터 쌍 사이의 유사도를 계산한 후 평균을 구한다(S154).

마지막으로 두 개의 제2 속성 벡터 집합 사이에 완전한 이분 매칭 형태를 나타내는 속성 벡터 쌍만을 고려하여, 두 개의 제2 속성 벡터 집합에 대한 속성 벡터 유사도를 계산한다(S155). S155 단계에서 속성 벡터 유사도를 계산하는 방법은 여러 방법을 통해 수행할 수 있으므로, 본 발명의 실시예에서는 상세한 설명을 생략한다.

한편, 상기 도 2를 이어 설명하면, S150 단계를 통해 두 개의 제2 속성 벡터 집합 사이의 속성 유사도가 계산되면, 의미 유사도 계산부(140)는 두 개의 명사 사이의 의미 유사도를 계산한다(S160). 두 명사간 의미 유사도를 계산할 때, 각 명사의 단어 표현(word embedding)간의 유사도 뿐만 아니라 속성 벡터 집합 사이의 유사도까지 고려하여 계산한다.

의미 유사도를 계산하기 위해, 의미 유사도 계산부(140)는 다음 수학식 2를 이용하여 의미 유사도를 계산한다.

여기서, sim_WE(A, B)는 벡터 공간 단어 표현상에서 단어 A와 B 사이의 코사인 유사도를 의미하고, α는 경험적으로 결정되는 계수를 의미한다.

이와 같이, 명사 간 의미 유사도를 측정하는데 형용사를 활용함으로써, 단어간 의미적 유사성을 결정하는데 보다 나은 성능을 얻을 수 있다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

Claims

의미 기반으로 명사의 유사도를 계산하는 방법에 있어서,
문장 또는 문서로부터 추출한 복수의 명사구에 각각 포함되어 있는 복수의 형용사에 대한 속성 벡터 맵을 확인하는 단계;
상기 복수의 명사구에 각각 포함되어 있는 복수의 명사를 기준으로 복수의 제1 속성 벡터 집합을 생성하는 단계;
상기 생성한 복수의 제1 속성 벡터 집합을 상기 확인한 속성 벡터 맵을 토대로 복수의 제2 속성 벡터 집합을 생성하는 단계;
상기 생성한 제2 속성 벡터 집합을 토대로, 두 명사 각각에 대한 두 개의 제2 속성 벡터 집합을 이용하여 형용사 유사도를 계산하는 단계; 및
상기 계산한 형용사 유사도를 토대로 상기 두 명사에 대한 의미 유사도를 계산하는 단계
를 포함하는 의미 기반 명사 유사도 계산 방법.
제1항에 있어서,
상기 제1 속성 벡터 집합을 생성하는 단계는,
추출한 복수의 명사구에 포함되어 있는 명사를 기준으로, 임의의 명사를 수식하며 상기 복수의 명사구에 포함되어 있는 적어도 하나 이상의 형용사를 확인하는 단계; 및
하나 이상의 형용사들을 상기 임의의 명사에 대한 제1 속성 벡터 집합으로 생성하는 단계
를 포함하는 의미 기반 명사 유사도 계산 방법.
제1항에 있어서,
상기 제2 속성 벡터 집합을 생성하는 단계는,
제1 속성 벡터 집합에 포함되어 있는 적어도 하나 이상의 형용사들을, 상기 속성 벡터 맵을 토대로 형용사 각각에 대응하는 속성 벡터를 확인하는 단계; 및
상기 제1 속성 벡터 집합에 포함되어 있는 형용사들을 각각 확인한 속성 벡터로 변환하여 제2 속성 벡터 집합을 생성하는 단계
를 포함하는 의미 기반 명사 유사도 계산 방법.
제3항에 있어서,
상기 속성 벡터 맵은 형용사, 상기 형용사에 대한 형용사 범주, 상기 형용사 범주에 대한 확률 분포 그래프 및 복수개의 확률 값을 포함하는 의미 기반 명사 유사도 계산 방법.
제4항에 있어서,
상기 복수개의 확률 값을 토대로 상기 형용사에 대한 벡터 값이 형성되는 의미 기반 명사 유사도 계산 방법.
제3항에 있어서,
상기 제2 속성 벡터 집합을 생성하는 단계 이후에,
상기 제2 속성 벡터 집합에 포함되어 있는 복수의 속성 벡터들 중, 미리 설정된 기준치 이상의 확률 값을 가지는 속성 벡터만 제2 속성 벡터 집합 내에 포함하도록 필터링하는 단계
를 더 포함하는 의미 기반 명사 유사도 계산 방법.
제6항에 있어서,
상기 제2 속성 벡터 집합을 생성하는 단계 이후에,
제2 속성 벡터 집합 내 속성 벡터들을 유사한 형태의 속성 벡터 군으로 분류하는 단계; 및
분류한 속성 벡터 군 중 많은 수의 속성 벡터들을 포함하는 속성 벡터 군을 선택하는 단계
를 더 포함하는 의미 기반 명사 유사도 계산 방법.
제1항에 있어서,
상기 형용사 유사도를 계산하는 단계는,
상기 두 명사 단어 각각에 대한 두 개의 제2 속성 벡터 집합 각각에 대해, 제2 속성 벡터 집합 내 복수의 속성 벡터가 동일한 값을 갖도록 제2 속성 벡터 집합을 형성하는 단계;
동일한 속성 벡터 값을 가지는 두 개의 제2 속성 벡터 집합의 크기가 같아지도록 하는 단계;
크기가 같은 두 개의 제2 속성 벡터 집합 내 속성 벡터간 일대 일 매칭하여 적어도 하나 이상의 속성 벡터 쌍을 생성하는 단계;
상기 적어도 하나 이상의 속성 벡터 쌍 사이의 유사도를 계산하는 단계; 및
상기 속성 벡터 쌍 사이의 유사도를 토대로 상기 두 개의 제2 속성 벡터 집합에 대한 속성 벡터 유사도를 계산하는 단계
를 포함하는 의미 기반 명사 유사도 계산 방법.
제8항에 있어서,
상기 속성 벡터가 동일한 값을 갖도록 제2 속성 벡터 집합을 형성하는 단계는,
제2 속성 벡터 집합 내에 동일한 속성 벡터가 반복하여 포함되어 있는지 확인하는 단계; 및
반복하여 포함되어 있는 속성 벡터가 있으면, 해당 속성 벡터를 하나만 포함되도록 설정하고 삭제된 수만큼 속성 벡터에 가중치를 부여하는 단계
를 포함하는 의미 기반 명사 유사도 계산 방법.
제9항에 있어서,
상기 두 개의 제2 속성 벡터 집합의 크기가 같아지도록 하는 단계는,
상기 제2 속성 벡터 집합의 크기는 제2 속성 벡터 집합에 포함된 속성 벡터 수로 하는 제1 속성 벡터 집합 크기와 제2 속성 벡터 집합 크기를 확인하는 단계;
제1 속성 벡터 집합 크기와 제2 속성 벡터 집합 크기가 상이하면, 속성 벡터 집합 크기가 큰 속성 제2 속성 벡터 집합을 크기가 작은 제2 속성 벡터 집합의 크기가 되도록 속성 벡터들을 병합하는 단계; 및
크기가 동일해진 제2 속성 벡터 집합 내 속성 벡터들을 가중치에 따라 정렬하는 단계
를 포함하는 의미 기반 명사 유사도 계산 방법.
제8항에 있어서,
상기 두 개의 제2 속성 벡터 집합에 대한 속성 벡터 유사도를 계산하는 단계는,

여기서 sim_av(i,j)는 속성 벡터 i와 j 사이의 유사도를 나타내고,
이며, w_i와 w_j는 속성 벡터 i와 j에 대한 가중치를 의미함
으로 계산되는 의미 기반 명사 유사도 계산 방법.
제1항에 있어서,
상기 두 명사에 대한 의미 유사도를 계산하는 단계는,
sim_word(A, B) = sim_WE(A, B)+α*sim_attr(A, B)
여기서, sim_WE(A, B)는 벡터 공간 단어 표현상에서 단어 A와 B 사이의 코사인 유사도를 의미하고, α는 경험적으로 결정되는 계수를 의미함
로 계산되는 의미 기반 명사 유사도 계산 방법.
의미 기반으로 명사의 유사도를 계산하는 장치에 있어서,
문장이나 문서로부터 형용사-명사로 이루어진 적어도 하나 이상의 명사구를 추출하는 명사구 추출부;
상기 명사구 추출부가 추출한 명사구 내에 포함되어 있는 복수의 형용사에 각각 해당하는 속성 벡터 맵을 미리 저장된 형용사들에 대한 속성 벡터 맵에서 확인하는 속성 벡터 저장부;
상기 하나 이상의 명사구에 대한 속성 벡터 집합을 생성하고, 의미 유사도 계산 대상인 두 명사 각각에 대한 두 개의 속성 벡터 집합을 이용하여 형용사 유사도를 계산하는 형용사 집합 유사도 계산부; 및
상기 형용사 집합 유사도 계산부가 계산한 형용사 유사도를 토대로 상기 두 명사에 대한 의미 유사도를 계산하는 의미 유사도 계산부
를 포함하는 의미 기반 명사 유사도 계산 장치.
제13항에 있어서,
상기 형용사 집합 유사도 계산부는,
상기 하나 이상의 명사구에서 동일한 명사를 수식하는 형용사들을 모아 제1 속성 벡터 집합을 생성하고, 제1 속성 벡터 집합의 형용사들을 상기 속성 벡터 저장부가 확인한 속성 벡터 맵에 따라 속성 벡터로 변경하여 상기 속성 벡터 집합을 생성하는 의미 기반 명사 유사도 계산 장치.
제14항에 있어서,
상기 형용사 집합 유사도 계산부는,
상기 속성 벡터 집합 내 형용사들 중, 속성 벡터에서 미리 설정된 기준치 이상의 확률 값을 가지는 속성 벡터만이 상기 속성 벡터 집합 내에 포함되도록 필터링하는 의미 기반 명사 유사도 계산 장치.
제14항에 있어서,
상기 형용사 집합 유사도 계산부는,
명사 유사도 계산 대상인 두 명사에 대한 두 개의 속성 벡터 집합 내에 속성 벡터들이 동일한 값을 가지도록 수정하여 속성 벡터들 각각에 대한 가중치를 설정하고, 가중치가 설정된 속성 벡터들을 가지는 두 개의 속성 벡터 집합을 동일한 크기를 가지는 두 개의 속성 벡터 집합으로 생성하며, 크기가 같은 두 개의 속성 벡터 집합 내 속성 벡터들을 매칭하여 적어도 하나 이상의 속성 벡터 쌍을 생성하는 의미 기반 명사 유사도 계산 장치.
제16항에 있어서,
상기 형용사 집합 유사도 계산부는,
상기 적어도 하나 이상의 속성 벡터 쌍 사이의 유사도를 각각 계산한 후 평균을 구하는 의미 기반 명사 유사도 계산 장치.
제16항에 있어서,
상기 두 개의 속성 벡터 집합에 대한 속성 벡터 유사도는,

여기서 sim_av(i,j)는 속성 벡터 i와 j 사이의 유사도를 나타내고,
이며, w_i와 w_j는 속성 벡터 i와 j에 대한 가중치를 의미함
으로 계산되는 의미 기반 명사 유사도 계산 장치.
제13항에 있어서,
상기 의미 유사도 계산부는,
sim_word(A, B) = sim_WE(A, B)+α*sim_attr(A, B)
여기서, sim_WE(A, B)는 벡터 공간 단어 표현상에서 단어 A와 B 사이의 코사인 유사도를 의미하고, α는 경험적으로 결정되는 계수를 의미함
으로 상기 두 명사에 대한 의미 유사도를 계산하는 의미 기반 명사 유사도 계산 장치.