KR20160058531A

KR20160058531A - 딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치

Info

Publication number: KR20160058531A
Application number: KR1020140160143A
Authority: KR
Inventors: 이근배; 송재윤; 구상준; 권순철; 류성한
Original assignee: 포항공과대학교 산학협력단
Priority date: 2014-11-17
Filing date: 2014-11-17
Publication date: 2016-05-25
Also published as: KR101627428B1

Abstract

구문 분석 모델 구축 방법 및 장치에 관한 기술이 개시된다. 구분 분석기 구축 방법은, 제1 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련하는 제1 훈련 단계 및 미리 구축된 깊은 인공 신경망 모델의 훈련 결과로써 추출된 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 제2 언어의 말뭉치에 저장된 정보를 변환함으로써 제1 언어의 말뭉치로 훈련된 미리 구축된 깊은 인공 신경망 모델을 제2 언어의 말뭉치를 이용하여 추가적으로 훈련하는 제2 훈련 단계를 포함한다. 따라서, 경제적이고 효율적으로 구문 분석 모델의 정확도 및 성능을 향상시킬 수 있다.

Description

딥 러닝을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치{METHOD FOR ESTABLISHING SYNTACTIC ANALYSIS MODEL USING DEEP LEARNING AND APPARATUS FOR PERFORING THE METHOD}

본 발명은 대화 처리 시스템에 관한 것으로, 더욱 상세하게는, 말뭉치에 포함된 언어 자료의 양이 충분하지 않은 언어에 대한 구문 분석 모델을 구축하기 위해 딥 러닝 기술을 이용하는 구문 분석 모델 구축 방법 및 이를 수행하는 장치에 관한 것이다.

최근 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant) 등과 같은 사용자 단말의 이용이 대중화되고 정보 처리 기술이 발달함에 따라 사용자 단말에서 사용자의 음성을 인식하여 사용자와 사용자 단말 간의 상호 작용을 제공하는 대화 처리 시스템이 상용화되고 있다.

대화 처리 시스템(Dialog Processing System)은 사용자 발화가 감지되면 말뭉치(corpus)를 이용하여 사용자 발화를 분석한 후 이에 적합한 응답(response)을 사용자에게 제공한다.

그리하여, 대화 처리 시스템은 사용자 발화에 상응하는 응답을 제공하기 위해 자연어로 발화된 사용자 발화를 처리하여 사용자 발화의 의도를 파악하는 언어 이해 기술이 필수적으로 요구된다.

언어 이해 기술은 사용자 발화의 의도를 파악하기 위해 사용자 발화에 대한 구문 구조를 분석하는 구문 분석 모델이 구축되어야 한다. 특히, 구문 분석 모델의 사용자 발화에 대한 분석 성능에 따라 대화 처리 시스템의 성능 및 정확도가 결정된다는 점에서 구문 분석 모델의 성능을 향상시키기 위한 구문 분석 모델 구축 방법에 대한 연구가 활발하게 진행되는 추세이다.

그리하여, 종래에는 구문 분석 모델을 구축하기 위해 구문 분석하고자 하는 언어에 대하여 미리 구축된 말뭉치(corpus)를 이용하였다.

다만, 구문 분석 모델을 구축하기 위한 말뭉치를 구축하기 위해서는 상당한 수준의 언어 지식을 가진 전문가에 의해 수만 문장의 구문이 미리 분석되어 저장되어야 한다는 점에서 경제성 및 효율성이 떨어진다는 문제가 있다.

특히, 구문 분석을 위한 언어 자료의 양이 충분히 포함되어 있지 않은 말뭉치를 이용하여 구문 분석 모델을 훈련하는 경우, 사용자 발화에 대한 구문 분석의 정확도가 떨어져 대화 처리 시스템의 전체 성능에 영향을 미칠 수 있다는 점에서 문제가 있다.

상기와 같은 문제점을 해결하기 위한 본 발명의 목적은, 다른 언어의 말뭉치에 포함된 언어 자료를 활용하는 언어 지식 전달 기법을 이용함으로써 경제적이고 효율적으로 구문 분석 모델을 구축할 수 있는 구문 분석 모델 구축 방법을 제공하는 데 있다.

또한, 본 발명의 다른 목적은, 구문 분석하고자 하는 언어의 말뭉치와 다른 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련함으로써 사용자 발화에 대한 구문 분석의 정확도 및 성능을 향상시킬 수 있는 구문 분석 모델 구축 장치를 제공하는 데 있다.

상기 목적을 달성하기 위한 본 발명의 일 측면에 따른 구문 분석 모델 구축 방법은, 구문 분석 모델 구축 장치에서 수행되며 제1 언어의 말뭉치(corpus)를 이용하여 미리 구축된 깊은 인공 신경망 모델(Deep Artificial Neural Network Model)을 훈련하는 제1 훈련 단계 및 미리 구축된 깊은 인공 신경망 모델의 훈련 결과로써 추출된 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 제2 언어의 말뭉치에 저장된 정보를 변환함으로써 제1 언어의 말뭉치로 훈련된 미리 구축된 깊은 인공 신경망 모델을 제2 언어의 말뭉치를 이용하여 추가적으로 훈련하는 제2 훈련 단계를 포함한다.

여기에서, 제1 언어는 제2 언어에 대한 구문 분석 모델의 구축을 위해 참조하는 언어로, 제1 언어의 말뭉치는 제2 언어의 말뭉치와 비교하여 많은 양의 언어 자료가 포함될 수 있다.

여기에서, 제1 훈련 단계는 제1 언어의 말뭉치에 포함된 단어 각각에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하는 단계, 제1 언어의 단어 각각에 대한 단어 표현 정보를 벡터(vector) 값으로 변환하는 단계 및 벡터 값 또는 벡터 값에 따른 클러스터링 값을 미리 구축된 깊은 인공 신경망 모델에 입력하는 단계를 포함할 수 있다.

여기에서, 벡터 값 또는 벡터 값에 따른 클러스터링 값을 RBM(Restricted Boltzmann Machine)을 기반으로 기계 학습함으로써 미리 구축된 깊은 인공 신경망 모델을 훈련할 수 있다.

여기에서, 제1 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련함에 따라 제1 언어의 말뭉치에 포함된 단어 각각에 대한 단어 표현 정보 및 단어 표현 정보에 상응하는 벡터 값이 포함된 제1 언어의 지식 정보를 추출할 수 있다.

여기에서, 제2 훈련 단계는 제2 언어의 말뭉치에 포함된 단어 중에서 제1 언어의 말뭉치에 포함된 단어와 의미가 동일한 제2 언어의 단어를 추출하고, 제2 언어의 단어에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하여 벡터 값으로 변환할 수 있다.

여기에서, 제2 훈련 단계는 제1 언어의 말뭉치에 포함된 단어에 대한 벡터 값을 제2 언어의 단어에 대한 벡터 값으로 변환하여 벡터 값 변환에 따른 오차 값을 산출할 수 있다.

여기에서, 제2 훈련 단계는 산출된 오차 값이 미리 설정된 임계값보다 작은 경우에 한하여 제2 언어의 단어에 대한 벡터 값을 제1 언어의 단어에 대한 벡터 값으로 변환하여 제2 언어의 말뭉치에 저장된 정보를 갱신하고, 제2 언어의 말뭉치를 기반으로 제1 언어의 말뭉치로 훈련된 미리 구축된 깊은 인공 신경망 모델을 추가적으로 훈련함으로써 제2 언어에 대한 구문 분석 모델을 구축할 수 있다.

또한, 상기 다른 목적을 달성하기 위한 본 발명의 일 측면에 따른 구문 분석 모델 구축 장치는, 제1 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련하는 제1 훈련부 및 미리 구축된 깊은 인공 신경망 모델의 훈련 결과로써 추출된 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 제2 언어의 말뭉치에 저장된 정보를 변환함으로써 제1 언어의 말뭉치로 훈련된 미리 구축된 깊은 인공 신경망 모델을 제2 언어의 말뭉치를 이용하여 추가적으로 훈련하는 제2 훈련부를 포함한다.

상술한 바와 같은 본 발명의 실시예에 따른 구문 분석 모델 구축 방법 및 이를 수행하는 장치에 따르면, 다른 언어의 말뭉치에 포함된 언어 자료를 활용하는 언어 지식 전달 기법을 이용함으로써 경제적이고 효율적으로 구문 분석 모델을 구축할 수 있다.

또한, 구문 분석하고자 하는 언어의 말뭉치와 다른 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련함으로써 사용자 발화에 대한 구문 분석의 정확도 및 성능을 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 구문 분석 모델 구축 방법을 설명하는 흐름도이다.
도 2는 본 발명의 실시예에 따른 미리 구축된 깊은 인공 신경망 모델의 구조를 설명하는 예시도이다.
도 3은 본 발명의 실시예에 따른 깊은 인공 신경망 모델을 훈련하여 구문 분석 모델을 구축하는 것을 설명하는 예시도이다.
도 4는 본 발명의 실시예에 따른 제1 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련하는 것을 설명하는 흐름도이다.
도 5는 본 발명의 실시예에 따른 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 제2 언어의 말뭉치에 저장된 정보를 변환하는 것을 설명하는 예시도이다.
도 6은 본 발명의 실시예에 따른 구문 분석 모델 구축 장치를 나타내는 블록도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 실시예에 따른 구문 분석 모델 구축 방법을 설명하는 흐름도이고, 도 2는 본 발명의 실시예에 따른 미리 구축된 깊은 인공 신경망 모델의 구조를 설명하는 예시도이다.

또한, 도 3은 본 발명의 실시예에 따른 깊은 인공 신경망 모델을 훈련하여 구문 분석 모델을 구축하는 것을 설명하는 예시도이고, 도 4는 본 발명의 실시예에 따른 제1 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련하는 것을 설명하는 흐름도이다.

도 5는 본 발명의 실시예에 따른 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 제2 언어의 말뭉치에 저장된 정보를 변환하는 것을 설명하는 예시도이다.

도 1을 참조하면, 구문 분석 모델 구축 방법은 구문 분석 모델 구축 장치에서 수행될 수 있다.

구문 분석 모델 구축 장치는 대용량의 메모리와 고속의 연산 처리 장치를 탑재하는 고성능 PC 또는 서버에 의해 구현될 수 있으나 이에 한정되는 것은 아니다.

사용자 단말은 구문 분석 모델을 이용하여 사용자의 발화를 분석함으로써 사용자에게 사용자 발화에 상응하는 응답을 제공할 수 있다. 여기에서, 사용자 단말은 스마트폰, 태블릿 PC, PDA(Personal Digital Assistant), 노트북, 컴퓨터, 스마트 가전 기기 및 시스템 로봇과 같은 정보 처리 장치를 의미할 수 있으나, 이에 한정되지 않고 사용자와 사용자 단말 간의 대화가 필요한 다양한 기기로 확장될 수 있다.

이와 같이 사용자 단말에서 사용자 발화에 상응하는 응답을 제공하기 위해서는 사용자 발화의 의도를 파악해야 하며, 사용자 발화의 의도를 파악하기 위해서는 자연어인 사용자 발화의 구문 구조를 분석하는 구문 분석 모델이 필수적으로 구축되어야 한다.

이에 따라, 종래에는 분석하고자 하는 목표 언어의 미리 구축된 말뭉치를 이용하여 목표 언어에 대한 구문 분석 모델을 구축하였다.

다만, 상술한 종래의 기술은 말뭉치를 구축하기 위한 시간, 인력 및 비용으로 인해 경제성 및 효율성이 떨어진다는 점에서 한계가 있다.

특히, 언어 자료의 양이 충분히 저장되어 있지 않은 말뭉치를 이용하여 구문 분석 모델을 구축하는 경우, 사용자 발화에 대한 구문 분석의 정확도가 떨어져 대화 처리 시스템 전체의 성능에 영향을 미칠 수 있다는 점에서 한계가 있다.

이에 따라, 본 발명은 말뭉치에 분석된 언어 자료가 부족한 언어에 대한 구문 분석 모델을 구축하기 위해 다른 언어의 말뭉치와 미리 구축된 깊은 인공 신경망 모델을 이용하는 것을 제안한다.

그리하여, 본 발명에 따른 구문 분석 모델 구축 방법은 제1 언어의 말뭉치를 이용하여 깊은 인공 신경망 모델을 훈련하는 제1 훈련 단계(S100) 및 제1 언어의 말뭉치로 훈련된 깊은 인공 신경망 모델을 제2 언어의 말뭉치를 이용하여 추가적으로 훈련하는 제2 훈련 단계(S200)를 포함할 수 있다.

먼저, 본 명세서에서 사용되는 용어를 구체적으로 설명하도록 한다.

말뭉치(corpus)는 언어 연구를 위해 컴퓨터가 읽을 수 있는 형태로 모아 놓은 언어 자료를 의미하며, 이를 위해 사용자에 의해 발화 가능한 다수의 문장이 포함될 수 있다.

이 때, 말뭉치는 다수의 문장을 분석하여 문장을 구성하는 단어 각각에 대한 형태소 정보 및 의존 구문 구조 정보 등이 저장될 수 있다. 여기에서, 의존 구문 구조 정보는 문장을 구성하는 단어 간 또는 어절 간의 의존 관계를 표현하는 정보로써 문장에서 단어의 품사 정보와 단어 간의 관계에 따라 주어, 목적어, 서술어 등과 같이 단어의 역할을 분류하는 정보를 의미할 수 있다.

제1 언어는 제2 언어에 대한 구문 분석 모델의 구축을 위해 참조하는 언어를 의미할 수 있다. 이 때, 제2 언어는 구문 분석 모델의 구축이 필요한 목표 언어로써, 말뭉치에 구문 분석 모델을 구축하기 위한 언어 자료가 충분히 저장되어 있지 않은 언어를 의미할 수 있다.

따라서, 말뭉치에 저장된 언어 자료의 양이 적은 제2 언어에 대한 구문 분석 모델을 구축하기 위해 제2 언어의 말뭉치와 비교하여 말뭉치에 저장된 언어 자료의 양이 많은 제1 언어가 참조될 수 있다. 예컨대, 제1 언어는 영어, 독일어 등과 같이 사용자가 비교적 많은 원천 언어를 의미할 수 있으나 이에 한정되는 것은 아니다.

상술한 바와 같이 제1 언어의 언어 지식을 제2 언어에서 사용할 수 있도록 제공하는 기술을 언어지식 전달(Linguistic Knowledge Transfer)이라 명명한다.

제2 언어에 대한 구문 분석 모델을 구축하기 위해서는 언어지식 전달이 가능하도록 미리 구축된 깊은 인공 신경망 모델(Deep Artificial Neural Network Model)이 이용될 수 있다.

여기에서, 깊은 인공 신경망 모델은 도 2에 도시된 바와 같이 입력층(input layer)(21), 출력층(output layer)(25) 및 입력층(21)과 출력층(25) 사이에 위치하는 다수의 은닉층(hidden layer)(23)으로 구성될 수 있다.

이 때, 입력층(21), 다수의 은닉층(23) 및 출력층(25) 각각은 적어도 하나의 뉴런(Neuron)을 포함할 수 있다. 여기에서, 뉴런 각각은 이전 층의 뉴런에 의한 출력 데이터를 입력 데이터로 수신하며, 이를 시그모이드(Sigmoid), 하이퍼볼릭 탄젠트(Hyperbolic tangent) 등의 역전파 알고리즘을 이용하여 언어의 구문 구조를 분석하는 연산을 수행할 수 있다.

깊은 인공 신경망 모델은 하나의 은닉층(23)을 포함하는 인공 신경망 모델과 달리 구축할 구문 분석 모델에 특화되도록 입력층(21), 은닉층(23) 및 출력층(25) 각각의 크기와 은닉층(23)의 수를 조절할 수 있다.

그리하여, 본 발명에서 이용되는 깊은 인공 신경망 모델은 다수의 은닉층(23)을 포함할 수 있다. 이는 은닉층(23)의 수가 많을수록 보다 복잡한 언어의 구문 구조를 분석할 수 있기 때문이다. 다만, 은닉층(23)의 수가 많아질수록 깊은 인공 신경망 모델을 훈련하기 위한 연산량이 증가하여 훈련 시간이 증가될 수 있다는 문제가 있다.

따라서, 본 발명은 훈련 시간을 절약하기 위해 각 층 간의 연결에 제약을 주도록 구현된 RBM(Restricted Boltzmann Machine)(27)을 이용하는 DBN(Deep Belief Network)(29) 구조의 깊은 인공 신경망 모델을 이용할 수 있다.

여기에서, DBN 구조의 깊은 인공 신경망 모델은 RBM을 기반으로 입력층(21)부터 다수의 은닉층(23)까지를 훈련하는 과정과, 출력층에서 전 층을 함께 훈련하는 과정으로 구분되어 훈련될 수 있다.

그리하여, 본 발명에 따른 구문 분석 모델 구축 방법은 도 3에 도시된 바와 같이 DBN 구조의 깊은 인공 신경망 모델을 제1 훈련 단계(A)와 제2 훈련 단계(B)로 이분화하여 훈련할 수 있다.

제1 훈련 단계(A)는 제1 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련할 수 있다(S100).

즉, 제1 훈련 단계(A)는 도 3에 도시된 바와 같이 입력층(21)으로부터 은닉층(23)까지를 RBM을 기반으로 훈련할 수 있다.

보다 구체적으로, 제 1 훈련 단계(A)는 도 4에 도시된 바와 같이 제1 언어의 말뭉치에 포함된 단어 각각에 대한 단어 표현 정보를 추출하는 단계(S110), 단어 표현 정보를 벡터 값으로 변환하는 단계(S120), 벡터 값 또는 벡터 값에 따른 클러스터링 값을 미리 구축된 깊은 인공 신경망 모델에 입력하는 단계(S130) 및 벡터 값 또는 벡터 값에 따른 클러스터링 값을 기계 학습하는 단계(S140)를 포함할 수 있다.

여기에서, 제1 언어의 말뭉치에 포함된 단어 각각에 대한 단어 표현 정보는 품사 정보, 의존 관계 정보 및 역할 정보는 포함할 수 있다. 품사 정보는 단어를 기능, 형태, 의미에 따라 분류한 정보로써 예를 들어, 영어의 경우 명사, 대명사, 동사, 형용사, 부사, 접속사, 전치사, 감탄사로 분류되는 정보를 의미할 수 있다. 의존 관계 정보는 문장을 구성하는 단어 간 또는 어절 간의 의존 관계에 따라 주어, 서술어, 목적어, 보어, 수식어와 같이 분류한 정보를 의미할 수 있으며, 역할 정보는 문장에서 단어가 등장하는 문맥을 기반으로 단어의 의미상 및 구조상의 역할을 나타낸 정보를 의미할 수 있다.

다만, 깊은 인공 신경망 모델의 훈련 시간을 절약하기 위해서는 깊은 인공 신경망 모델에 입력하는 데이터의 차원을 줄일 필요가 있다.

따라서, 제1 언어의 단어 각각에 대한 단어 표현 정보를 벡터 값으로 변환할 수 있다(S120).

이 때, 단어 표현 정보가 비슷한 제1 언어의 단어에 대한 벡터 값은 비슷한 방향으로 변환될 수 있다. 그리하여, 벡터 값을 클러스터링하여 벡터 값에 따른 클러스터링 값을 산출할 수 있다.

그리하여, 벡터 값 또는 벡터 값에 따른 클러스터링 값을 미리 구축된 깊은 인공 신경망 모델에 입력할 수 있다(S130).

벡터 값 또는 벡터 값에 따른 클러스터링 값을 깊은 인공 신경망 모델의 입력 데이터로 사용함으로써 차원을 대략 20만 이상에서 100 정도로 크게 줄여줄 수 있다. 또한, 벡터 값은 제1 언어의 말뭉치에 포함된 단어의 단어 표현 정보를 변환한 값임에 따라 단어에 대한 다양한 정보가 포함될 수 있다.

특히, 제2 언어의 말뭉치에 포함되지 않은 단어도 제1 언어의 단어에 대한 벡터 값을 기반으로 분석될 수 있다는 점에서 벡터 값을 이용한 입력이 필요하다.

깊은 인공 신경망 모델에 입력된 벡터 값 또는 벡터 값에 따른 클러스터링 값을 RBM(Restricted Boltzmann Machine)에 기반하여 기계 학습할 수 있다(S140).

이와 같이 제1 언어의 말뭉치를 이용하여 미리 구축된 깊은 인공 신경망 모델을 훈련함에 따라 제1 언어의 말뭉치에 포함된 단어 각각에 대한 단어 표현 정보 및 상기 단어 표현 정보에 상응하는 벡터 값이 포함된 제1 언어의 지식 정보가 추출될 수 있다.

추출된 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 제2 언어의 말뭉치에 저장된 정보를 변환함으로써 제1 언어의 말뭉치로 훈련된 미리 구축된 깊은 인공 신경망 모델을 제2 언어의 말뭉치를 이용하여 추가적으로 훈련하는 제2 훈련 단계를 수행할 수 있다(S200).

즉, 제2 훈련 단계(B)는 도 3에 도시된 바와 같이 제1 훈련 단계(A)가 수행된 이후에 제1 훈련 단계(A)를 통해 제1 언어의 지식 정보가 추출됨에 따라 출력층에서 훈련을 수행할 수 있다.

만약, 제1 언어가 영어이고 제2 언어가 한국어인 경우, 제1 훈련 단계(A)를 통해 추출된 제1 언어 ‘airplane’에 대한 지식 정보를 제2 언어 ‘비행기’의 훈련에 사용할 수 있도록 언어지식 전달 기법이 적용되어야 할 것이다.

그리하여, 제2 훈련 단계(B)는 언어지식 전달 기법이 적용될 수 있도록 제2 언어의 말뭉치에 저장된 정보를 변환함으로써 제1 언어의 말뭉치로 훈련된 미리 구축된 깊은 인공 신경망 모델을 제2 언어의 말뭉치를 이용하여 추가적으로 훈련할 수 있다.

구체적으로 예를 들어, 제1 훈련 단계(A)를 통해 도 5 (a)와 같이 제1 언어의 말뭉치에 포함된 단어에 상응하는 의미 정보와 벡터 값이 포함된 제1 언어의 지식 정보가 추출되면, 도 5 (b)에 도시된 바와 같이 제2 언어의 말뭉치에 포함된 단어 중에서 제1 언어의 말뭉치에 포함된 단어 A₁, A₂, A₃ … A_n 각각의 의미 정보 M₁, M₂, M₃, M₄… M_n과 매칭되는 제2 언어의 단어 B₁, B₂, B₃, B₄… B_m이 추출될 수 있다.

그리하여, 제2 언어의 단어 각각에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하여 벡터 값 BV₁, BV₂, BV₃, BV₄ … BV_m으로 변환할 수 있다.

제1 언어의 말뭉치에 포함된 단어에 대한 벡터 값 AV₁, AV₂, AV₃, AV₄ … AV_n을 제2 언어의 단어에 대한 벡터 값 BV₁, BV₂, BV₃, BV₄ … BV_m으로 변환하여 벡터 값 변환에 따른 오차 값을 산출할 수 있다.

이 때, 오차 값은 제1 언어의 말뭉치에 포함된 단어에 대한 벡터 값이 제2 언어의 말뭉치에 포함된 단어의 벡터 값과 비슷한 방향을 가지는 경우 작게 나타날 수 있다.

산출된 오차 값이 미리 설정된 임계값보다 작은 경우에 한하여 제2 언어의 단어에 대한 벡터 값을 제1 언어의 단어에 대한 벡터 값으로 변환하여 제2 언어의 말뭉치에 저장된 정보를 갱신할 수 있다.

즉, 오차 값이 미리 설정된 임계값보다 작게 산출된 B₁, B₃, B₄에 대한 벡터 값 BV₁, BV₃, BV₄ 각각을 이와 매칭되는 제1 언어의 말뭉치에 포함된 단어의 벡터 값 AV₁, AV₃, AV₄으로 변환함으로써 제2 언어의 말뭉치에 저장된 정보를 갱신할 수 있다.

이와 같이, 정보가 갱신된 제2 언어의 말뭉치를 이용하여 제1 언어의 말뭉치로 훈련된 깊은 인공 신경망 모델을 훈련함으로써 제1 언어의 지식 정보가 전달된 제2 언어에 대한 구문 분석 모델을 구축할 수 있다.

도 6은 본 발명의 실시예에 따른 구문 분석 모델 구축 장치를 나타내는 블록도이다.

도 6을 참조하면, 구문 분석 모델 구축 장치(100)는 제1 훈련부(110) 및 제2 훈련부(120)를 포함할 수 있다.

여기에서, 구문 분석 모델 구축 장치(100)는 대용량의 메모리와 고속의 연산 처리 장치를 탑재하는 고성능 PC 또는 서버에 의해 구현될 수 있으나 이에 한정되는 것은 아니다.

제1 훈련부(110)는 제1 언어의 말뭉치(111)를 이용하여 미리 구축된 깊은 인공 신경망 모델(130)을 훈련할 수 있다.

구체적으로, 제1 훈련부(110)는 제1 언어의 말뭉치(111)에 포함된 단어 각각에 대한 단어 표현 정보를 추출하고, 단어 표현 정보를 벡터 값으로 변환하여 벡터 값 또는 벡터 값에 따른 클러스터링 값을 미리 구축된 깊은 인공 신경망 모델(130)에 입력할 수 있다.

그리하여, 깊은 인공 신경망 모델에 입력된 벡터 값 또는 벡터 값에 따른 클러스터링 값을 RBM에 기반하여 기계 학습함으로써 제1 언어의 말뭉치에 포함된 단어 각각에 대한 단어 표현 정보 및 상기 단어 표현 정보에 상응하는 벡터 값이 포함된 제1 언어의 지식 정보가 추출될 수 있다.

여기에서, 제1 언어의 말뭉치(111)는 제1 언어에 대한 다수의 문장을 분석하여 문장을 구성하는 단어 각각에 대한 형태소 정보 및 의존 구문 구조 정보 등이 저장될 수 있다.

또한, 미리 구축된 깊은 인공 신경망 모델(130)은 RBM(Restricted Boltzmann Machine)을 이용하는 DBN(Deep Belief Network) 구조를 이용할 수 있다. 이 때, DBN 구조의 깊은 인공 신경망 모델은 RBM을 기반으로 입력층부터 다수의 은닉층까지를 훈련하는 과정과, 출력층에서 전 층을 함께 훈련하는 과정으로 구분되어 훈련될 수 있다.

그리하여, 제1 훈련부(110)는 DBN 구조에서 입력층부터 다수의 은닉층까지를 훈련하는 과정에 해당될 수 있다.

제2 훈련부(120)는 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 제2 언어의 말뭉치(121)에 저장된 정보를 변환함으로써 제1 훈련부에서 훈련된 미리 구축된 깊은 인공 신경망 모델(130)을 제2 언어의 말뭉치(121)를 이용하여 추가적으로 훈련할 수 있다.

여기에서, 제2 언어의 말뭉치(121)는 제2 언어에 대한 다수의 문장을 분석하여 문장을 구성하는 단어 각각에 대한 형태소 정보 및 의존 구문 구조 정보 등이 저장될 수 있다.

보다 구체적으로, 제2 훈련부(120)는 제2 언어의 말뭉치(121)에 포함된 단어 중에서 제1 언어의 말뭉치(111)에 포함된 단어와 의미가 동일한 제2 언어의 단어를 추출하고, 추출된 제2 언어의 단어에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하여 벡터 값으로 변환할 수 있다.

제1 언어의 말뭉치(111)에 포함된 단어에 대한 벡터 값을 제2 언어의 단어에 대한 벡터 값으로 변환하여 벡터 값 변환에 따른 오차 값을 산출한 후, 산출된 오차 값이 미리 설정된 임계값보다 작은 경우에 한하여 제2 언어의 단어에 대한 벡터 값을 제1 언어의 단어에 대한 벡터 값으로 변환하여 제2 언어의 말뭉치(121)에 저장된 정보를 갱신할 수 있다.

따라서, 제2 훈련부(120)는 DBN 구조의 출력층에서 전 층을 함께 훈련하는 과정을 의미할 수 있다.

이와 같이 정보가 갱신된 제2 언어의 말뭉치(121)를 이용하여 제1 언어의 말뭉치(111)로 훈련된 깊은 인공 신경망 모델을 추가적으로 훈련함으로써 제1 언어의 지식 정보가 전달된 제2 언어에 대한 구문 분석 모델을 구축할 수 있다.

그리하여, 사용자 단말은 구축된 구문 분석 모델을 이용하여 사용자의 발화를 분석함으로써 사용자에게 사용자 발화에 상응하는 응답을 제공할 수 있다.

상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

21: 입력층 23: 은닉층
25: 출력층 27: RBM
29: DBN 100: 구문 분석 모델 구축 장치
110: 제1 훈련부 111: 제1 언어의 말뭉치
120: 제2 훈련부 121: 제2 언어의 말뭉치
130: 깊은 인공 신경망 모델

Claims

구문 분석 모델 구축 장치에서 수행되는 구문 분석 모델 구축 방법에 있어서,
제1 언어의 말뭉치(corpus)를 이용하여 미리 구축된 깊은 인공 신경망 모델(Deep Artificial Neural Network Model)을 훈련하는 제1 훈련 단계; 및
상기 미리 구축된 깊은 인공 신경망 모델의 훈련 결과로써 추출된 상기 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 상기 제2 언어의 말뭉치에 저장된 정보를 변환함으로써 상기 제1 언어의 말뭉치로 훈련된 상기 미리 구축된 깊은 인공 신경망 모델을 상기 제2 언어의 말뭉치를 이용하여 추가적으로 훈련하는 제2 훈련 단계를 포함하는 구문 분석 모델 구축 방법.
청구항 1에 있어서,
상기 제1 언어는,
상기 제2 언어에 대한 구문 분석 모델의 구축을 위해 참조하는 언어로, 상기 제1 언어의 말뭉치는 상기 제2 언어의 말뭉치와 비교하여 많은 양의 언어 자료가 포함되는 것을 특징으로 하는 구문 분석 모델 구축 방법.
청구항 1에 있어서,
상기 제1 훈련 단계는,
상기 제1 언어의 말뭉치에 포함된 단어 각각에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하는 단계;
상기 제1 언어의 단어 각각에 대한 단어 표현 정보를 벡터(vector) 값으로 변환하는 단계; 및
상기 벡터 값 또는 상기 벡터 값에 따른 클러스터링 값을 상기 미리 구축된 깊은 인공 신경망 모델에 입력하는 단계를 포함하는 것을 특징으로 하는 구문 분석 모델 구축 방법.
청구항 3에 있어서,
상기 제1 훈련 단계는,
상기 벡터 값 또는 상기 벡터 값에 따른 클러스터링 값을 RBM(Restricted Boltzmann Machine)을 기반으로 기계 학습함으로써 상기 미리 구축된 깊은 인공 신경망 모델을 훈련하는 것을 특징으로 하는 구문 분석 모델 구축 방법.
청구항 4에 있어서,
상기 제1 훈련 단계는,
상기 제1 언어의 말뭉치를 이용하여 상기 미리 구축된 깊은 인공 신경망 모델을 훈련함에 따라 상기 제1 언어의 말뭉치에 포함된 단어 각각에 대한 단어 표현 정보 및 상기 단어 표현 정보에 상응하는 상기 벡터 값이 포함된 상기 제1 언어의 지식 정보를 추출하는 것을 특징으로 하는 구문 분석 모델 구축 방법.
청구항 5에 있어서,
상기 제2 훈련 단계는,
상기 제2 언어의 말뭉치에 포함된 단어 중에서 상기 제1 언어의 말뭉치에 포함된 단어와 의미가 동일한 제2 언어의 단어를 추출하고, 상기 제2 언어의 단어에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하여 벡터 값으로 변환하는 것을 특징으로 하는 구문 분석 모델 구축 방법.
청구항 6에 있어서,
상기 제2 훈련 단계는,
상기 제1 언어의 말뭉치에 포함된 단어에 대한 벡터 값을 상기 추출된 제2 언어의 단어에 대한 벡터 값으로 변환하여 벡터 값 변환에 따른 오차 값을 산출하는 것을 특징으로 하는 구문 분석 모델 구축 방법.
청구항 7에 있어서,
상기 제2 훈련 단계는,
상기 산출된 오차 값이 미리 설정된 임계값보다 작은 경우에 한하여 상기 제2 언어의 단어에 대한 벡터 값을 상기 제1 언어의 단어에 대한 벡터 값으로 변환하여 상기 제2 언어의 말뭉치에 저장된 정보를 갱신하고, 상기 제2 언어의 말뭉치를 기반으로 상기 제1 언어의 말뭉치로 훈련된 상기 미리 구축된 깊은 인공 신경망 모델을 훈련함으로써 상기 제2 언어에 대한 구문 분석 모델을 구축하는 것을 특징으로 하는 구문 분석 모델 구축 방법.
구문 분석 모델 구축 장치에 있어서,
제1 언어의 말뭉치(corpus)를 이용하여 미리 구축된 깊은 인공 신경망 모델(Deep Artificial Neural Network Model)을 훈련하는 제1 훈련부; 및
상기 미리 구축된 깊은 인공 신경망 모델의 훈련 결과로써 추출된 상기 제1 언어의 지식 정보가 제2 언어의 말뭉치에서 사용될 수 있도록 상기 제2 언어의 말뭉치에 저장된 정보를 변환함으로써 상기 제1 언어의 말뭉치로 훈련된 상기 미리 구축된 깊은 인공 신경망 모델을 상기 제2 언어의 말뭉치를 이용하여 추가적으로 훈련하는 제2 훈련부를 포함하는 구문 분석 모델 구축 장치.
청구항 9에 있어서,
상기 제1 훈련부는,
상기 제1 언어의 말뭉치에 포함된 단어 각각에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하고,
상기 제1 언어의 단어 각각에 대한 단어 표현 정보를 벡터(vector) 값으로 변환하여, 상기 벡터 값 또는 상기 벡터 값에 따른 클러스터링 값을 상기 미리 구축된 깊은 인공 신경망 모델에 입력하는 것을 특징으로 하는 구문 분석 모델 구축 장치.
청구항 10에 있어서,
상기 제1 훈련부는,
상기 벡터 값 또는 상기 벡터 값에 따른 클러스터링 값을 RBM(Restricted Boltzmann Machine)을 기반으로 기계 학습함으로써 상기 미리 구축된 깊은 인공 신경망 모델을 훈련하는 것을 특징으로 하는 구문 분석 모델 구축 장치.
청구항 11에 있어서,
상기 제1 훈련부는,
상기 제1 언어의 말뭉치를 이용하여 상기 미리 구축된 깊은 인공 신경망 모델을 훈련함에 따라 상기 제1 언어의 말뭉치에 포함된 단어 각각에 대한 단어 표현 정보 및 상기 단어 표현 정보에 상응하는 상기 벡터 값이 포함된 상기 제1 언어의 지식 정보를 추출하는 것을 특징으로 하는 구문 분석 모델 구축 장치.
청구항 12에 있어서,
상기 제2 훈련부는,
상기 제2 언어의 말뭉치에 포함된 단어 중에서 상기 제1 언어의 말뭉치에 포함된 단어와 의미가 동일한 제2 언어의 단어를 추출하고, 상기 제2 언어의 단어에 대한 품사 정보, 의존 관계 정보 및 역할 정보 중 적어도 하나를 포함하는 단어 표현 정보를 추출하여 벡터 값으로 변환하는 것을 특징으로 하는 구문 분석 모델 구축 장치.
청구항 13에 있어서,
상기 제2 훈련부는,
상기 제1 언어의 말뭉치에 포함된 단어에 대한 벡터 값을 상기 추출된 제2 언어의 단어에 대한 벡터 값으로 변환하여 벡터 값 변환에 따른 오차 값을 산출하는 것을 특징으로 하는 구문 분석 모델 구축 장치.
청구항 14에 있어서,
상기 제2 훈련부는,
상기 산출된 오차 값이 미리 설정된 임계값보다 작은 경우에 한하여 상기 제2 언어의 단어에 대한 벡터 값을 상기 제1 언어의 단어에 대한 벡터 값으로 변환하여 상기 제2 언어의 말뭉치에 저장된 정보를 갱신하고, 상기 제2 언어의 말뭉치를 기반으로 상기 제1 언어의 말뭉치로 훈련된 상기 미리 구축된 깊은 인공 신경망 모델을 훈련함으로써 상기 제2 언어에 대한 구문 분석 모델을 구축하는 것을 특징으로 하는 구문 분석 모델 구축 장치.