KR20220134218A

KR20220134218A - 딥러닝 기반 spo 튜플 관계 인지 방법 및 장치

Info

Publication number: KR20220134218A
Application number: KR1020210039604A
Authority: KR
Inventors: 정준영
Original assignee: 한국전자통신연구원
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-10-05
Also published as: US12056451B2; US20220309241A1

Abstract

딥러닝 기반 SPO 튜플 관계 인지 방법이 제공된다. 상기 방법은 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소에 저장된 자연어 문장을 독출하는 단계; 상기 자연어 문장으로부터 의존구문 파싱을 수행하여 의존구문 관계 정보를 생성하는 단계; 상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하는 단계; 상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성하는 단계; 상기 의존구문 관계 정보를 대상으로 임베딩을 수행하는 단계; 상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계; 및 상기 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계를 포함한다.

Description

딥러닝 기반 SPO 튜플 관계 인지 방법 및 장치{METHOD AND APPARATUS FOR RECOGNIZING SPO TUPLE RELATIONSHIP BASED ON DEEP LEARNING}

본 발명은 딥러닝 기반 SPO 튜플 관계 인지 방법 및 장치 에 관한 것이다.

대규모의 지식 베이스는 수백만의 지식을 포함하며, 자연어 처리 분야에서 주요하게 사용되고 있다.

기존에 구축된 대규모의 지식 베이스는 새로운 지식을 포함할 수 있도록 확장될 필요성이 있다. 최근의 새로운 지식이 지식 베이스에 효율적으로 추가되기 위해서는, 수많은 최근의 데이터로부터 지식을 자동으로 추출하고, 추출된 지식이 지식 베이스에 추가되어야 한다.

한편, 정형 데이터는 실용적이고 유용한 정보를 포함하고 있으며, 정형화된 구조로 인해 지식을 추출하는데 효과적이다. 하지만, 새로운 수많은 데이터 중에서 많은 데이터가 비정형으로 존재한다. 그러므로, 새로운 지식을 추출하기 위해서는 비정형 형태인 자연어 데이터로부터 지식을 효과적으로 추출하는 것이 필요하다.

자연어 문장으로부터 자동으로 지식을 추출하기 위해서는 자연어 문장으로부터 SPO(Subject-Predicate-Object) 튜플 관계를 인지할 수 있어야 한다. 자연어 문장으로부터 SPO 튜플 관계 정보를 추출하기 위해 최근에는 딥러닝 모델을 이용하는 방법들이 제안되고 있다. 하지만, 자연어로부터 SPO 튜플 관계 추출의 정확성을 높인 딥러닝 모델은 많은 학습 데이터가 필요하고, 딥러닝 모델의 구조가 복잡하여 학습해야 하는 파라미터의 크기가 커서 딥러닝을 수행하는데 많은 비용이 소요되는 문제가 있다.

따라서, 적은 비용을 사용하여 자연어 문장으로부터 SPO 튜플 관계를 높은 정확도로 인지할 수 있는 기술이 필요한 실정이다.

공개특허공보 제10-2020-0072593호(2020.06.23)

본 발명이 해결하고자 하는 과제는 복잡하지 않은 딥러닝 모델을 이용하여, 높은 정확도로 자연어 문장으로부터 SPO 튜플 관계를 인지하기 위한, 딥러닝 기반 SPO 튜플 관계 인지 방법 및 장치를 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 딥러닝 기반 SPO 튜플 관계 인지 방법은 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소에 저장된 자연어 문장을 독출하는 단계; 상기 자연어 문장으로부터 의존구문 파싱을 수행하여 의존구문 관계 정보를 생성하는 단계; 상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하는 단계; 상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성하는 단계; 상기 의존구문 관계 정보를 대상으로 임베딩을 수행하는 단계; 상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계; 및 상기 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계를 포함한다.

또한, 본 발명의 제2 측면에 따른 딥러닝 기반 SPO 튜플 관계 인지 방법은 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소에 저장된 자연어 문장을 독출하는 단계; 상기 자연어 문장으로부터 의존구문 파싱을 수행하여 의존구문 관계 정보를 생성하는 단계; 상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하는 단계; 상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성하는 단계; 상기 의존구문 관계 정보와 상기 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장하는 단계; 상기 의존구문 관계 정보를 대상으로 임베딩을 수행하는 단계; 상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계; 및 상기 제2 저장소에 저장된 제1 SPO 튜플 관계 정보와 상기 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계를 포함한다.

또한, 본 발명의 제3 측면에 따른 딥러닝 기반의 SPO 튜플 관계 인지 장치는 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소와, 상기 SPO 튜플 관계를 인지하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 저장소에 저장된 자연어 문장을 독출하고 의존구문을 파싱하여 의존구문 관계 정보를 생성하고, 상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하여, 상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성한 후, 상기 의존구문 관계 정보를 대상으로 임베딩을 수행하고, 상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하고, 상기 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습한다.

상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 상기 딥러닝 기반 SPO 튜플 관계 인지 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.

본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

전술한 본 발명의 일 실시예에 의하면, 의존구문 기반으로 다계층 양방향 시계열 신경망 모델, 셀프 어텐션 과정, 셀프 디코딩 과정 및 SPO 튜플 관계 인지 과정을 사용하여 딥러닝 모델을 학습하여 자연어 문장의 SPO 튜플 관계를 인지함으로써, 적은 학습데이터 및 딥러닝 모델이 복잡하지 않은 경우에도 높은 정확도로 자연어 문장의 SPO 튜플 관계를 인지할 수 있다.

또한, 학습이 수행된 딥러닝 모델이 특정 도메인에 종속되지 않고 타 도메인에도 적용이 가능하다는 장점이 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 방법의 순서도이다.
도 2는 본 발명의 다른 실시예에 따른 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 방법의 순서도이다.
도 3은 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 장치의 블록도이다.
도 4 및 도 5는 본 발명의 일 실시예에 따른 딥러닝 기반의 SPO 튜플 관계 인지 방법 및 장치를 테스트한 결과를 도시한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

본 발명은 딥러닝 기반 SPO 튜플 관계 인지 방법 및 장치(100)에 관한 것으로, 보다 구체적으로는 딥러닝을 기반으로 자연어 문장으로부터 SPO(Subject-Predicate-Object) 튜플 관계를 인지하기 위한 것이다.

이하에서는 도 1을 참조하여 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 방법에 대하여 설명하도록 한다.

도 1은 본 발명의 일 실시예에 따른 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 방법의 순서도이다.

본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 방법은 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소에 저장된 자연어 문장을 독출하는 단계와, 상기 자연어 문장으로부터 의존구문 파싱을 수행하여 의존구문 관계 정보를 생성하는 단계와, 상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하는 단계와, 상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성하는 단계와, 상기 의존구문 관계 정보를 대상으로 임베딩을 수행하는 단계와, 상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계 및 상기 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계를 포함하여 수행된다.

한편, 도 1에 도시된 각 단계들은 후술하는 SPO 튜플 관계 인지 장치(100)에 의해 수행되는 것으로 이해될 수 있으나 반드시 이에 한정되는 것은 아니다.

본 발명의 일 실시예는 지도학습 방식으로 딥러닝 모델을 학습하기 위해 제1 저장소에는 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되어 있다.

이러한 제1 저장소로부터 자연어 문장을 독출하고(S105), 자연어 문장을 대상으로 의존구문 파싱을 수행하여(S110) 자연어 문장에 대한 의존구문 관계 정보를 생성한다(S115).

다음으로, 제1 저장소에 저장된 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하고(S120), SPO 튜플과 자연어 문장 및 의존구문 관계 정보를 기반으로 딥러닝 모델의 지도학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성한다(S125).

다음으로, 딥러닝 모델의 학습을 위해, S115 단계에서 생성된 의존구문 관계 정보를 전달받아 임베딩을 수행하고(S130), 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여(S135) 제2 SPO 튜플 관계 정보를 인지한다. 이때, 의존구문 관계 임베딩은 일 예로 Skip-gram과 같은 임베딩 방법을 이용할 수 있다.

한편, 다계층 양방향 시계열 신경망 모델은 LSTM(Long Short-Term Memory)을 기반으로 아래 식 1과 같이 모델링될 수 있다.

[식 1]

식 1에서

는 n 번째(여기에서, 1≤n≤N) 계층의 시간 스텝 t에서의 전방향 은닉 상태(forward hidden state)를 나타내고,

는 n 번째 계층의 시간 스텝 t에서의 후방향 은닉 상태(backward hidden state)를 나타낸다. 그리고

는 다계층 양방향 시계열 신경망 모델의 마지막 계층(N번째 계층)에서 시간 스텝 t에서의 전방향 은닉 상태(

)와 후방향 은닉 상태(

)를 통합한 은닉상태를 나타낸다.

제2 SPO 튜플 관계 정보를 인지하기 위해서는 셀프 어텐션(S140)과 셀프 디코딩 과정(S145)을 수행해야 한다.

일 실시예로, 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 어텐션을 아래 식 2에 기초하여 수행한다(S140).

[식 2]

셀프 어텐션 과정(S140)은 먼저, 시간 스텝 t에서의 어텐션 마스크(

) 및 다계층 양방향 시계열 모델의 마지막 계층의 은닉상태를 기반으로, 시간 스텝 t에서의 어텐션 점수(

)를 산출한다.

그 다음, 어텐션 점수(

) 및 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 기반으로 어텐션 가치(

)를 산출한다.

이와 같은 셀프 어텐션 과정이 수행되고 나면, 다음으로 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 디코딩을 수행한다(S145).

시간 스탭 t에서의 셀프 디코딩 과정은 셀프 어텐션 과정에서 산출된 어텐션 가치 및 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 통합하여 수행되며, 아래 식 3과 같이 모델링될 수 있다.

[식 3]

여기에서,

는 시간 스텝 t에서의 셀프 디코딩 벡터를 나타낸다.

셀프 어텐션 과정과 셀프 디코딩 과정이 완료되면, 제2 SPO 튜플 관계 정보를 인지한다(S150).

S150 단계에서는 식 4를 기반으로 하여, 셀프 디코딩 벡터를 대상으로 다계층 순방향 신경망(feed-forward neural network)과 완전 접속망(fully connected network)를 이용하여 SPO 튜플 관계 클래스의 점수를 산출한다. 그 다음, SPO 튜플 관계 클래스의 점수에 대한 소프트맥스(softmax)를 수행하여 제2 SPO 튜플 관계 정보로 각 SPO 튜플 관계 클래스에 대한 확률값을 생성하게 된다.

[식 4]

식 4를 참조하면,

는 다계층 순방향 신경망에서 k 번째 계층의 i 번째 활성함수(activation function) 결과를 나타내며,

는 완전 접속망에서 n 번째 활성함수 결과를 나타내며,

는 완전 접속망에서 n번째 값의 소프트맥스 결과를 나타낸다.

다음으로, 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습한다(S155).

S155 단계에서는 제2 SPO 튜플 관계 정보로 생성된 각 SPO 튜플 관계 클래스에 대한 확률값과 제1 SPO 튜플 관계 정보에 대한 원-핫(one-hot) 인코딩을 수행하여 SPO 튜플 관계 인지 정확도를 비교한다. 그리고 비교 결과에 기초하여 딥러닝 모델의 파라미터를 수정하여 딥러닝 모델에 적용시킨다.

도 2는 본 발명의 다른 실시예에 따른 SPO 튜플 관계 인지 방법에 대하여 설명하도록 한다.

도 2는 본 발명의 다른 실시예에 따른 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 방법의 순서도이다.

본 발명의 다른 실시예에 따른 SPO 튜플 관계 인지 방법은 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소에 저장된 자연어 문장을 독출하는 단계와, 상기 자연어 문장으로부터 의존구문 파싱을 수행하여 의존구문 관계 정보를 생성하는 단계와, 상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하는 단계와, 상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성하는 단계와, 상기 의존구문 관계 정보와 상기 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장하는 단계와, 상기 의존구문 관계 정보를 대상으로 임베딩을 수행하는 단계와, 상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계; 및 상기 제2 저장소에 저장된 제1 SPO 튜플 관계 정보와 상기 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계를 포함하여 수행된다.

이때, 도 2에서의 SPO 튜플 관계 인지 방법은 의존구문 관계 정보와 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장하는 과정을 추가적으로 수행한다는 점에서 도 1의 SPO 튜플 관계 인지 방법과 차이가 있으며, 이를 제외한 나머지 기술적 구성은 서로 공통되므로 중복되는 내용은 생략하도록 한다.

한편, 도 2에 도시된 각 단계들은 후술하는 SPO 튜플 관계 인지 장치(100)에 의해 수행되는 것으로 이해될 수 있으나 반드시 이에 한정되는 것은 아니다.

먼저, 지도학습 방식으로 딥러닝 모델을 학습하기 위해 제1 저장소에는 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되어 있으며, 제1 저장소로부터 자연어 문장을 독출하고(S205), 자연어 문장을 대상으로 의존구문 파싱을 수행하여(S210) 자연어 문장에 대한 의존구문 관계 정보를 생성한다(S215).

다음으로, 제1 저장소에 저장된 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하고(S220), SPO 튜플과 자연어 문장 및 의존구문 관계 정보를 기반으로 딥러닝 모델의 지도학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성한다(S225).

다음으로, 의존구문 관계 정보와 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장한다(S230). S230 단계에서는 S205 단계 내지 S225 단계를 반복적으로 수행하여, 제1 저장소에 저장된 모든 자연어 문장 및 SPO 튜플을 대상으로 수행한 결과에 따른 의존구문 관계 정보와 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장한다.

다음으로, 딥러닝 모델의 학습을 위해, S225 단계에서 생성된 의존구문 관계 정보를 전달받아 임베딩을 수행하고(S235), 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여(S240) 제2 SPO 튜플 관계 정보를 인지한다.

제2 SPO 튜플 관계 정보를 인지하기 위해서는 셀프 어텐션(S245)과 셀프 디코딩 과정(S250)을 수행해야 한다.

일 실시예로, 셀프 어텐션 과정은 먼저, 시간 스텝 t에서의 어텐션 마스크(

)를 산출한다.

그 다음, 어텐션 점수(

)를 산출한다.

이와 같은 셀프 어텐션 과정이 수행되고 나면, 다음으로 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 디코딩을 수행한다(S250).

시간 스탭 t에서의 셀프 디코딩 과정은 셀프 어텐션 과정에서 산출된 어텐션 가치 및 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 통합하여 수행된다.

셀프 어텐션 과정(S245)과 셀프 디코딩 과정(S250)이 완료되면, 제2 SPO 튜플 관계 정보를 인지한다(S255).

S255 단계에서는 전술한 식 4를 기반으로 하여, 셀프 디코딩 벡터를 대상으로 다계층 순방향 신경망(feed-forward neural network)과 완전 접속망(fully connected network)를 이용하여 SPO 튜플 관계 클래스의 점수를 산출한다. 그 다음, SPO 튜플 관계 클래스의 점수에 대한 소프트맥스(softmax)를 수행하여 제2 SPO 튜플 관계 정보로 각 SPO 튜플 관계 클래스에 대한 확률값을 생성하게 된다.

다음으로, 제2 저장소에 저장된 제1 SPO 튜플 관계 정보와 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습한다(S260).

S260 단계에서는 제2 SPO 튜플 관계 정보로 생성된 각 SPO 튜플 관계 클래스에 대한 확률값과 제2 저장소에 저장된 제1 SPO 튜플 관계 정보에 대한 원-핫(one-hot) 인코딩을 수행하여 SPO 튜플 관계 인지 정확도를 비교한다. 그리고 비교 결과에 기초하여 딥러닝 모델의 파라미터를 수정하여 딥러닝 모델에 적용시킨다.

한편, 상술한 설명에서, 단계 S105 내지 S260은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 2의 내용은 후술하는 도 3의 딥러닝 기반의 SPO 튜플 관계 인지 장치(100)에도 적용된다.

이하에서는 도 3을 참조하여 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 장치(100)를 설명하도록 한다.

도 3은 본 발명의 일 실시예에 따른 SPO 튜플 관계 인지 장치(100)의 블록도이다.

본 발명의 일 실시예에 따른 SPO 튜플 관계 인치 장치(100)는 메모리(110) 및 프로세서(120)를 포함하여 구성된다.

메모리(110)는 자연어 문장 및 SPO 튜플이 쌍으로 구성되어 있는 제1 저장소를 포함한다. 또한, 실시예에 따라 의존구문 관계 정보와 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 저장하는 제2 저장소를 포함할 수 있다. 이러한 메모리(110)에는 SPO 튜플 관계를 인지하기 위한 프로그램이 저장된다. 이때, 메모리(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.

예를 들어, 메모리(110)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.

프로세서(120)는 메모리(110)에 저장된 프로그램을 실행시킴에 따라, 제1 저장소에 저장된 자연어 문장을 독출하고 의존구문을 파싱하여 의존구문 관계 정보를 생성한다. 그리고 프로세서(120)는 제1 저장소에 저장된 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하여, SPO 튜플과 자연어 문장 및 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성한다.

이후, 프로세서(120)는 의존구문 관계 정보를 대상으로 임베딩을 수행하고, 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하고, 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습한다.

한편, 프로세서(120)는 실시예에 따르 제2 저장소를 이용할 수 있으며, 이 경우 의존구문 관계 정보와 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장하고, 제2 저장소에 저장된 제1 SPO 튜플 관계 정보와 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습할 수 있다.

도 4 및 도 5는 본 발명의 일 실시예에 따른 딥러닝 기반의 SPO 튜플 관계 인지 방법 및 장치(100)를 테스트한 결과를 도시한 도면이다.

본 발명의 일 실시예에 따른 딥러닝 기반의 SPO 튜플 관계 인지 방법 및 장치(100)를 기반으로 자연어 문장에 대한 SPO 튜플 관계 인지를 위한 딥러닝 지도학습을 수행한 후, 7,000개의 학습데이터를 이용하여 딥러닝 모델에 적용시킨 결과는 도 4에 도시된 바와 같다.

도 4를 참조하면, 적은 학습데이터에도 불구하고, 에폭(epoch)이 증가할수록 SPO 튜플 관계 인지에 대한 손실(loss)가 줄어드는 것을 확인할 수 있다.

또한, 학습 중인 딥러닝 모델을 기반으로 하여 3,000개의 평가 데이터를 이용하여 자연어 문장으로부터 추출한 SPO 튜플 관계의 정확도는 도 5에 도시된 바와 같다.

도 5를 참조하면, 적은 학습데이터로 학습을 수행한 후의 평가 테스트임에도 불구하고, 에폭이 증가할수록 SPO 튜플 관계 인지의 정확도도 증가하며, 높은 정확도를 가짐을 확인할 수 있다.

이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈(110)을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 이미지를 저장하는 매체가 아니라 반영구적으로 이미지를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 이미지 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 딥러닝 기반의 SPO 튜플 관계 인지 장치
110: 메모리
120: 프로세서

Claims

컴퓨터에 의해 수행되는 방법에 있어서,
자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소에 저장된 자연어 문장을 독출하는 단계;
상기 자연어 문장으로부터 의존구문 파싱을 수행하여 의존구문 관계 정보를 생성하는 단계;
상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하는 단계;
상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성하는 단계;
상기 의존구문 관계 정보를 대상으로 임베딩을 수행하는 단계;
상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계; 및
상기 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제1항에 있어서,
상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계는,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 어텐션을 수행하는 단계; 및
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 디코딩을 수행하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제2항에 있어서,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태는 n번째 계층 중 마지막 계층의 시간 스텝 t에서의 전방향 은닉상태 및 후방향 은닉상태를 통합한 은닉상태인 것인,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제3항에 있어서,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 어텐션을 수행하는 단계는,
상기 시간 스텝 t에서의 어텐션 마스크 및 상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 기반으로 어텐션 점수를 산출하는 단계; 및
상기 어텐션 점수 및 상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 기반으로 어텐션 가치를 산출하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제4항에 있어서,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 디코딩을 수행하는 단계는,
상기 어텐션 가치 및 상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 통합하여 상기 시간 스텝 t에서의 셀프 디코딩을 수행하는 것인,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제5항에 있어서,
상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계는,
상기 셀프 디코딩 결과에 따른 셀프 디코딩 벡터를 대상으로 다계층 순방향 신경망과 완전 접속망을 이용하여 SPO 튜플 관계 클래스의 점수를 산출하는 단계; 및
상기 SPO 튜플 관계 클래스의 점수에 대한 소프트맥스를 수행하여 상기 제2 SPO 튜플 관계 정보로 각 SPO 튜플 관계 클래스에 대한 확률값을 생성하는 단계를 포함하는
딥러닝 기반 SPO 튜플 관계 인지 방법.
제6항에 있어서,
상기 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계는,
상기 SPO 튜플 관계 클래스에 대한 확률값과 상기 제1 SPO 튜플 관계 정보를 이용하여 SPO 튜플 관계 인지 정확도를 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 딥러닝 모델의 파라미터를 수정 적용하여 학습하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
컴퓨터에 의해 수행되는 방법에 있어서,
자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소에 저장된 자연어 문장을 독출하는 단계;
상기 자연어 문장으로부터 의존구문 파싱을 수행하여 의존구문 관계 정보를 생성하는 단계;
상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하는 단계;
상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성하는 단계;
상기 의존구문 관계 정보와 상기 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장하는 단계;
상기 의존구문 관계 정보를 대상으로 임베딩을 수행하는 단계;
상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계; 및
상기 제2 저장소에 저장된 제1 SPO 튜플 관계 정보와 상기 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제8항에 있어서,
상기 의존구문 관계 정보와 상기 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 제2 저장소에 저장하는 단계는,
상기 제1 저장소에 저장된 모든 자연어 문장 및 SPO 튜플을 대상으로 수행한 결과에 따른 상기 의존구문 관계 정보와 상기 제1 SPO 튜플 관계 정보를 쌍으로 구성하여 상기 제2 저장소에 저장하는 것인,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제8항에 있어서,
상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계는,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 어텐션을 수행하는 단계; 및
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 디코딩을 수행하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제10항에 있어서,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태는 n번째 계층 중 마지막 계층의 시간 스텝 t에서의 전방향 은닉상태 및 후방향 은닉상태를 통합한 은닉상태인 것인,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제11항에 있어서,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 어텐션을 수행하는 단계는,
상기 시간 스텝 t에서의 어텐션 마스크 및 상기 상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 기반으로 어텐션 점수를 산출하는 단계; 및
상기 어텐션 점수 및 상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 기반으로 어텐션 가치를 산출하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제12항에 있어서,
상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태에 대한 셀프 디코딩을 수행하는 단계는,
상기 어텐션 가치 및 상기 다계층 양방향 시계열 신경망 모델의 마지막 계층의 은닉상태를 통합하여 상기 시간 스텝 t에서의 셀프 디코딩을 수행하는 것인,
딥러닝 기반 SPO 튜플 관계 인지 방법.
제13항에 있어서,
상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하는 단계는,
상기 셀프 디코딩 결과에 따른 셀프 디코딩 벡터를 대상으로 다계층 순방향 신경망과 완전 접속망을 이용하여 SPO 튜플 관계 클래스의 점수를 산출하는 단계; 및
상기 SPO 튜플 관계 클래스의 점수에 대한 소프트맥스를 수행하여 상기 제2 SPO 튜플 관계 정보로 각 SPO 튜플 관계 클래스에 대한 확률값을 생성하는 단계를 포함하는
딥러닝 기반 SPO 튜플 관계 인지 방법.
제14항에 있어서,
상기 제2 저장소에 저장된 제1 SPO 튜플 관계 정보와 상기 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 단계는,
상기 SPO 튜플 관계 클래스에 대한 확률값과 상기 제2 저장소에 저장된 제1 SPO 튜플 관계 정보를 이용하여 SPO 튜플 관계 인지 정확도를 비교하는 단계; 및
상기 비교 결과에 기초하여 상기 딥러닝 모델의 파라미터를 수정 적용하여 학습하는 단계를 포함하는,
딥러닝 기반 SPO 튜플 관계 인지 방법.
딥러닝 기반의 SPO 튜플 관계 인지 장치에 있어서,
자연어 문장 및 SPO 튜플이 쌍으로 구성되어 저장되는 제1 저장소와, 상기 SPO 튜플 관계를 인지하기 위한 프로그램이 저장된 메모리 및
상기 메모리에 저장된 프로그램을 프로세서를 포함하고,
상기 프로세서는 상기 프로그램을 실행시킴에 따라, 상기 제1 저장소에 저장된 자연어 문장을 독출하고 의존구문을 파싱하여 의존구문 관계 정보를 생성하고,
상기 제1 저장소에 저장된 상기 자연어 문장과 쌍을 이루는 SPO 튜플을 독출하여, 상기 SPO 튜플과 상기 자연어 문장 및 상기 의존구문 관계 정보를 기반으로 딥러닝 모델의 학습을 위한 의존구문 기반의 제1 SPO 튜플 관계 정보를 생성한 후,
상기 의존구문 관계 정보를 대상으로 임베딩을 수행하고, 상기 임베딩된 의존구문 관계 정보를 다계층 양방향 시계열 신경망 모델에 입력하여 제2 SPO 튜플 관계 정보를 인지하고, 상기 제1 및 제2 SPO 튜플 관계 정보를 비교하여 딥러닝 모델을 학습하는 것인,
딥러닝 기반의 SPO 튜플 관계 인지 장치.