WO2019216551A1

WO2019216551A1 - 대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법

Info

Publication number: WO2019216551A1
Application number: PCT/KR2019/003759
Authority: WO
Inventors: 이민호; 강동현
Original assignee: 경북대학교 산학협력단
Priority date: 2018-05-11
Filing date: 2019-04-01
Publication date: 2019-11-14
Also published as: KR102069076B1; KR20190129490A

Abstract

대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법이 개시된다. 대화문장 생성 장치는 사용자로부터 제1 대화문장을 입력 받는 입력부, 상기 제1 대화문장을 인코딩하여 입력벡터를 생성하고, DNC(Differentiable Neural Computer)의 쓰기 또는 삭제 알고리즘에 따라 외부 메모리에 상기 입력벡터의 쓰기 또는 삭제 동작을 수행하며, DNC의 읽기 알고리즘에 따라 상기 외부 메모리에서 읽기 동작을 수행하여 출력벡터를 생성하는 문장 처리부 및 상기 출력벡터를 LSTM(Long Short Term Memory)의 입력 파라미터로 설정하여 제2 대화문장을 출력하는 출력부를 포함한다.

Description

대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법

본 발명은 대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법에 관한 것으로, 보다 상세하게는 사용자로부터 입력 받는 문장에 응답하여 문장을 생성하는 대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법에 관한 것이다.

멀지 않은 장래에 가정이나 사무실 마다 지능형 로봇이 보편적으로 보급될 것으로 기대된다. 이러한 지능형 로봇의 예로서 인간을 대신하거나 보조하는 가사 로봇, 비서 로봇, 엔터테인먼트 로봇 등이 있으며, 인간과 대화할 수 있는 기능을 갖추고 있는 점에서 대화로봇이라 한다. 이러한 대화로봇의 구현 방법은 사전에 정의된 특정한 입력신호가 로봇으로 들어오면 입력신호와 일 대 일로 매핑된 행동을 출력하는 방법이 주를 이룬다.

대화로봇 기술은 사용자와 로봇 간의 상호작용을 추구한다. 그러나, 실상은 사용자의 특정 입력에 로봇의 출력을 사전에 정의하기 때문에, 사용자와 대화하는 것이 아니라 단순 작업이 이루어지는 것에 불과하다.

최근에는 특정한 입력신호에 따라 정해진 출력만을 단순히 표현하는 것이 아닌, 특정 입력에 대해서 여러 개의 유사 출력을 발생시키기 위해 랜덤방식을 활용한 출력 방법이나, 확률을 이용한 출력방법 또한 제안된바 있다. 그러나 여전히 사용자와 대화하는 것이 아니라 단순 매핑 작업이 이루어지는 것에 불과하며 문맥에 따른 유연한 대화는 불가능한 실정이다.

본 발명의 일측면은 외부 메모리로부터 특정 벡터를 생성하고, 이를 디코더의 초기 스테이트로 설정 하여 대화문장을 생성하는 대화문장 생성 장치, 이를 포함하는 대화로봇 및 대화문장 생성 방법을 제공한다.

상기 과제를 해결하기 위한 본 발명의 일측면에 따른 대화문장 생성 장치는 사용자로부터 제1 대화문장을 입력 받는 입력부, 상기 제1 대화문장을 인코딩하여 입력벡터를 생성하고, DNC(Differentiable Neural Computer)의 쓰기 또는 삭제 알고리즘에 따라 외부 메모리에 상기 입력벡터의 쓰기 또는 삭제 동작을 수행하며, DNC의 읽기 알고리즘에 따라 상기 외부 메모리에서 읽기 동작을 수행하여 출력벡터를 생성하는 문장 처리부 및 상기 출력벡터를 LSTM(Long Short Term Memory)의 입력 파라미터로 설정하여 제2 대화문장을 출력하는 출력부를 포함한다.

한편, 상기 문장 처리부는, 복수 개 마련되어 복수의 출력벡터를 생성하고, 상기 출력부는, 복수의 출력벡터를 각각 LSTM의 입력 파라미터로 설정하여 복수의 제2 대화문장을 생성할 수 있다.

또한, 시간대 별로 미리 설정되는 기준에 따라 상기 복수의 제2 대화문장 중 어느 하나의 대화문장을 선택하고, 선택한 대화문장이 출력되도록 상기 출력부를 제어하는 제어부를 더 포함할 수 있다.

또한, 상기 제어부는, 상기 사용자의 이용 시간을 측정하고, 상기 사용자의 이용 시간이 미리 설정된 시간을 초과하면 상기 복수의 제2 대화문장 중 어느 하나의 대화문장을 선택하는 기준을 변경할 수 있다.

또한, 상기 제1 대화문장을 분석하여 상기 사용자의 연령을 예측하는 제어부를 더 포함할 수 있다.

또한, 상기 제어부는, 예측한 상기 사용자의 연령에 따라 높임말로 이루어지는 상기 제2 대화문장이 낮춤말로 수정되어 출력되도록 상기 출력부를 제어할 수 있다.

또한, 상기 문장 처리부는, 최초 랜덤으로 설정되며, 상기 제2 대화문장을 이용한 역전파 알고리즘이 적용되어 업데이트되는 읽기 가중치에 따라 NxW 행렬의 상기 외부 메모리에서 읽기 동작을 수행할 위치를 설정하고, 상기 외부 메모리의 해당 위치에서 정보를 읽어 상기 출력벡터를 생성하는 외부 메모리 제어 모듈을 포함할 수 있다.

또한, 상기 문장 처리부는, 상기 제1 대화문장을 단어 단위로 구분하고, LSTM을 통해 인코딩하여 상기 입력벡터를 생성하는 인코더를 포함할 수 있다.

또한, 대화문장 생성 장치를 포함하는 대화로봇일 수 있다.

한편, 본 발명의 일 측면에 따른 대화문장 생성 방법은 사용자로부터 제1 대화문장을 입력 받는 단계, 상기 제1 대화문장을 인코딩하여 입력벡터를 생성하는 단계, DNC(Differentiable Neural Computer)의 쓰기 또는 삭제 알고리즘에 따라 외부 메모리에 상기 입력벡터의 쓰기 또는 삭제 동작을 수행하고, DNC의 읽기 알고리즘에 따라 상기 외부 메모리에서 읽기 동작을 수행하여 출력벡터를 생성하는 단계 및 상기 출력벡터를 LSTM(Long Short Term Memory)의 입력 파라미터로 설정하여 제2 대화문장을 출력하는 단계를 포함한다.

또한, 상기 출력벡터를 생성하는 단계는, 복수의 외부 메모리에 각각 상기 입력벡터의 쓰기 또는 삭제 동작과 읽기 동작을 수행하여 복수의 출력벡터를 생성하거나, 하나의 외부 메모리에 상기 입력벡터의 쓰기 또는 삭제 동작과 읽기 동작을 반복 수행하여 복수의 출력벡터를 생성하는 단계를 포함할 수 있다.

또한, 상기 제2 대화문장을 출력하는 단계는, 상기 복수의 출력벡터를 각각 LSTM의 입력 파라미터로 설정하여 복수의 제2 대화문장을 생성하는 단계를 포함할 수 있다.

또한, 상기 제2 대화문장을 출력하는 단계는, 시간대 별로 미리 설정되는 기준에 따라 상기 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택하는 단계 및 선택한 제2 대화문장을 출력하는 단계를 포함할 수 있다.

또한, 시간대 별로 미리 설정되는 기준에 따라 상기 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택하는 단계는, 상기 사용자의 이용 시간을 측정하고, 상기 사용자의 이용 시간이 미리 설정된 시간을 초과하면 상기 복수의 제2 대화문장 중 어느 하나의 대화문장을 선택하는 기준을 변경하는 단계를 포함할 수 있다.

또한, 상기 제1 대화문장을 분석하여 상기 사용자의 연령을 예측하는 단계를 더 포함할 수 있다.

또한, 상기 제2 대화문장을 출력하는 단계는, 예측한 상기 사용자의 연령에 따라 높임말로 이루어지는 상기 제2 대화문장을 낮춤말로 수정하는 단계를 포함할 수 있다.

또한, 상기 제1 대화문장을 인코딩하여 입력벡터를 생성하는 단계는, 상기 제1 대화문장을 단어 단위로 구분하고, LSTM을 통해 인코딩하여 상기 입력벡터를 생성하는 단계일 수 있다.

또한, 상기 출력벡터를 생성하는 단계는, 최초 랜덤으로 설정되는 읽기 가중치에 따라 NxW 행렬의 상기 외부 메모리에서 읽기 동작을 수행할 위치를 설정하는 단계 및 상기 외부 메모리의 해당 위치에서 정보를 읽어 상기 출력벡터를 생성하는 단계를 포함할 수 있다.

또한, 최초 랜덤으로 설정되는 읽기 가중치에 따라 NxW 행렬의 상기 외부 메모리에서 읽기 동작을 수행할 위치를 설정하는 단계는, 상기 제2 대화문장을 이용한 역전파 알고리즘을 적용하여 상기 읽기 가중치를 업데이트하는 단계를 포함할 수 있다.

본 발명에 따르면, 디코더 내부의 정보만을 이용하여 대화문장을 생성 및 학습하는 종래의 방식에 비해 넓은 저장용량을 가짐으로써 문맥의 이해가 가능하고, 보다 긴 문장에 대한 학습이 가능하여 자연스러운 대화문장을 생성할 수 있다.

도 1은 본 발명의 일 실시예에 따른 대화문장 생성 장치가 적용된 대화로봇의 일 예를 도시한 도면이다.

도 2는 본 발명의 일 실시예에 따른 대화문장 생성 장치에서의 데이터 흐름을 나타낸 도면이다.

도 3은 본 발명의 일 실시예에 따른 대화문장 생성 장치의 블록도이다.

도 4는 도 3에 도시된 출력부에서의 대화문장 출력을 설명하기 위한 개념도이다.

도 5는 본 발명의 일 실시예에 따른 대화문장 생성 방법의 순서도이다.

도 6은 본 발명의 다른 실시예에 따른 대화문장 생성 방법의 순서도이다.

도 7은 본 발명의 또 다른 실시예에 따른 대화문장 생성 방법의 순서도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1을 참조하면, 대화문장 생성 장치(100)는 대화로봇(1)의 일측에 설치될 수 있다. 대화문장 생성 장치(100)는 사용자로부터 입력되는 제1 대화문장에 대한 응답으로 제2 대화문장을 생성할 수 있다. 대화로봇(1)은 이러한 대화문장 생성 장치(100)를 포함하여, 사용자와의 커뮤니케이션 기능을 구현할 수 있으며, 이로부터 오락, 교육, 안내 등의 다양한 서비스를 제공할 수 있다.

대화문장 생성 장치(100)는 도 1에 도시된 바와 같이 대화로봇(1)의 일부 모듈을 구성하거나, 또는, 별도의 장치를 구성할 수 있다. 대화문장 생성 장치(100)는 컴퓨터(computer), 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), MT(mobile terminal), UT(user terminal), SS(subscriber station), 무선기기(wireless device), PDA(personal digital assistant), 무선 모뎀(wireless modem), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

도 2를 참조하면, 대화문장 생성 장치(100)는 딥러닝 기술 기반의 문장 생성 장치로, 사용자의 제1 대화문장(13)에 응답하여 제2 대화문장(18)을 출력할 수 있다.

대화문장 생성 장치(100)는 인공 신경망(Neural Network)으로 구성되는 인코더(encoder) 및 디코더(decoder)를 포함할 수 있다. 인코더는 제1 대화문장(13)을 인코딩하여 특징벡터를 생성하고, 디코더는 특징벡터를 디코딩하여 제2 대화문장(18)을 생성할 수 있다.

대화문장 생성 장치(100)는 디코더로 입력되는 특징벡터를 외부 메모리(10)를 통해 업데이트할 수 있다. 즉, 대화문장 생성 장치(100)는 제1 대화문장(13)을 인코딩하여 외부 메모리(10)에 저장할 수 있다. 그리고, 대화문장 생성 장치(100)는 외부 메모리(10)의 특정 위치에서 값을 읽어들여 디코더의 초기 스테이트(15)로 설정할 수 있다.

이와 같이, 본 발명의 일 실시예에 따른 대화문장 생성 장치(100)는 디코더의 입력단에 외부 메모리(10)가 연결되어, 외부 메모리(10)를 통해 디코더의 입력 값을 업데이트할 수 있으며, 디코더로부터 외부 메모리(10) 사용 및 제1 대화문장(13) 입력단 까지 역전파 방식에 따른 학습이 가능하다. 따라서, 대화문장 생성 장치(100)는 디코더 내부의 정보만을 이용하여 대화문장을 생성 및 학습하는 종래의 방식에 비해 넓은 저장용량을 가짐으로써 문맥의 이해가 가능하고, 보다 긴 문장에 대한 학습이 가능하여 자연스러운 대화문장을 생성할 수 있다.

이하, 도 3을 참조하여 본 발명의 일 실시예에 따른 대화문장 생성 장치(100)의 각 구성에 대하여 구체적으로 설명한다.

도 3을 참조하면, 본 발명의 일 실시예에 따른 대화문장 생성 장치(100)는 입력부(110), 문장 처리부(130) 및 출력부(150)를 포함할 수 있다.

입력부(110)는 사용자로부터 제1 대화문장을 입력 받을 수 있다. 이를 위해, 입력부(110)는 음성 신호 획득을 위한 마이크로폰 등을 포함하여 구현될 수 있다. 입력부(110)는 공지된 음성 문자화 기술을 적용하여 음성 신호 형태의 제1 대화문장을 텍스트의 형태로 읽어 후술하는 문장 처리부(130)로 전달할 수 있다.

문장 처리부(130)는 제1 대화문장으로부터 특징벡터를 생성하고, DNC(Differentiable Neural Computer)의 쓰기, 삭제 및 읽기 알고리즘에 따라 외부 메모리(10)에서의 쓰기, 삭제 또는 읽기 동작을 수행할 수 있다. 이를 위해, 문장 처리부(130)는 인코더(131) 및 외부 메모리 제어 모듈(133)을 포함할 수 있다.

인코더(131)는 인공 신경망(Neural Network)으로 구성될 수 있다. 예를 들어, 인코더(131)는 LSTM(Long Short Term Memory) 모델로 구현될 수 있다. LSTM 모델은 이전 프레임의 신호를 현재 프레임에 반영하여 시간적으로 연속하는 데이터를 처리하는 딥러닝 모델이다.

인코더(131)는 제1 대화문장을 LSTM을 통해 인코딩하여 제1 대화문장에 대응하는 특징벡터를 생성할 수 있다. 특징벡터는 제1 대화문장을 나타내는 추상화된 정보라 할 수 있으며, 이하의 설명에서 인코더(131)에서 생성하는 특징벡터를 입력벡터로 정의한다. 인코더(131)는 제1 대화문장을 단어 단위로 구분하고, 순차적으로 LSTM의 각 프레임에 입력할 수 있다. 인코더(131)는 제1 대화문장의 입력이 완료되면, 인코딩을 실행하여 입력벡터를 생성할 수 있다.

외부 메모리 제어 모듈(133)은 외부 메모리(10)에서 입력벡터를 이용한 쓰기 또는 삭제 동작을 수행한 뒤, 읽기 동작을 수행하여 제2 대화문장 생성을 위한 초기 값인 출력벡터를 생성할 수 있다.

외부 메모리 제어 모듈(133)은 구글 사에서 배포한 인공지능 학습 모델인 DNC의 쓰기, 삭제 및 읽기 알고리즘에 따라 외부 메모리(10)에서의 쓰기, 삭제 또는 읽기 동작을 수행할 수 있다. DNC의 쓰기, 삭제 및 읽기 알고리즘에 대해 간략히 설명하면 다음과 같다.

먼저, 외부 메모리(10)는 NxW 크기의 행렬로 각 열에 정보를 저장할 수 있다. 외부 메모리 제어 모듈(133)은 외부 메모리(10)에 정보를 쓰거나 삭제하는 쓰기 모듈 및 외부 메모리(10)에 저장된 정보를 읽는 읽기 모듈을 포함할 수 있다.

쓰기 모듈은 쓰기 가중치(w^w) 및 쓰기 키(write key)를 이용하여 외부 메모리(10)에서 쓰기 또는 삭제 동작을 수행할 위치를 지정할 수 있다. 쓰기 가중치(w^w)는 최초 랜덤으로 설정되며, 후술하는 출력부(150)의 출력 데이터인 제2 대화문장을 이용한 역전파 알고리즘이 적용되어 업데이트될 수 있다. 쓰기 키(write key)는 외부 메모리(10)에서 이전에 수정된 위치를 찾는 데 사용될 수 있다.

읽기 모듈은 읽기 가중치(w^r)를 이용하여 외부 메모리(10)에서 읽기 동작을 수행할 위치를 지정할 수 있다. 읽기 가중치(w^r)는 최초 랜덤으로 설정되며, 후술하는 출력부(150)의 출력 데이터인 제2 대화문장을 이용한 역전파 알고리즘이 적용되어 업데이트될 수 있다. 읽기 모듈은 아래 수학식 1에 따라 외부 메모리(10)에서 쓰기 동작을 수행할 위치를 설정하고, 해당 위치에서 읽기 동작을 수행하여 출력벡터를 읽어 올 수 있다.

이처럼, 외부 메모리 제어 모듈(133)은 외부 메모리(10)에서 제2 대화문장 생성을 위한 초기 값인 출력벡터를 생성할 수 있다. 외부 메모리 제어 모듈(133)은 외부 메모리(10)에서 softmax를 취하기 이전의 낮은 레벨의 출력 단을 찾아 출력부(150)와 연결시킴으로써, 출력부(150)로부터 외부 메모리(10) 사용 및 제1 대화문장(13) 입력단 까지 역전파 방식에 따른 학습을 가능하게 한다.

출력부(150)는 출력벡터를 자연어로 변환할 수 있다. 즉, 출력부(150)는 출력벡터를 디코딩하여 제1 대화문장에 대한 응답인 제2 대화문장을 생성할 수 있다. 이를 위해, 출력부(150)는 인공 신경망(Neural Network)으로 구성되는 디코더를 포함하여 구현될 수 있다. 예를 들어, 출력부(150)는 LSTM(Long Short Term Memory) 모델로 구현될 수 있다. LSTM 모델은 이전 프레임의 신호를 현재 프레임에 반영하여 시간적으로 연속하는 데이터를 처리하는 딥러닝 모델이다. 출력부(150)는 출력벡터를 LSTM의 입력 파라미터로 설정하여 제2 대화문장을 생성할 수 있다. 이와 관련하여 도 4를 참조하여 설명한다.

도 4를 참조하면, 출력부(150)는 외부 메모리(10)로부터 읽어 온 정보인 출력벡터(y_T)를 LSTM의 초기 스테이트로 입력할 수 있다. 이를 위해, 외부 메모리 제어 모듈(133)은 외부 메모리(10)에서 softmax를 취하기 이전의 낮은 레벨의 출력 단을 찾아 LSTM의 입력 차원에 맞는 출력벡터를 생성할 수 있다. 출력부(150)는 출력벡터를 LSTM의 초기 스테이트로 하고, 디코딩을 실행하여 LSTM의 각 프레임별로 단어를 생성할 수 있으며, LSTM의 각 프레임에서 생성한 단어들로부터 제2 대화문장을 생성할 수 있다.

출력부(150)는 제2 대화문장을 외부로 출력할 수 있다. 이를 위해, 출력부(150)는 음성 신호 출력을 위한 스피커 등을 포함하여 구현될 수 있다.

한편, 본 발명의 다른 실시예에 따르면, 대화문장 생성 장치(100)는 도 3에 도시된 구성에 제어부를 더 포함할 수 있다. 본 발명의 다른 실시예에 따르면, 출력부(150)는 복수의 제2 대화문장을 생성하도록 구현될 수 있다. 이와 같은 경우, 제어부는 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택하고, 선택한 제2 대화문장이 출력되도록 출력부(150)를 제어하는 역할을 수행할 수 있다.

구체적으로는, 문장 처리부(130)는 복수 개 마련되어 각각 복수의 외부 메모리(10)로부터 복수의 출력벡터를 생성하도록 구현될 수 있다. 또는, 문장 처리부(130)는 하나의 외부 메모리(10)로부터 출력벡터를 생성하는 단계를 반복 수행하여, 복수의 출력벡터를 생성하도록 구현될 수 있다. 출력부(150)는 복수의 출력벡터를 각각 LSTM의 입력 파라미터로 설정하여 복수의 제2 대화문장을 생성할 수 있다.

제어부는 시간대 별로 미리 설정되는 기준에 따라 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택할 수 있다. 예를 들어, 대화문장 생성 장치(100)의 사용을 자제하는 것이 바람직한 새벽 시간대(am1:00~am6:00)에는 제2 대화문장 선택 기준이 문장 길이가 짧은 순으로 설정될 수 있다.

또한, 제어부는 사용자의 이용 시간을 측정하고, 사용자의 이용 시간이 미리 설정된 시간을 초과하면, 대화문장 선택 기준을 변경할 수 있다. 예를 들어, 새벽 시간대(am1:00~am6:00)에 사용자의 이용 시간이 30분을 초과하면, 제2 대화문장 선택 기준이 문장 길이가 긴 순으로 변경될 수 있다.

이처럼, 제어부는 시간대 별로 미리 설정되는 기준에 따라 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택하되, 사용자의 상황에 맞추어 유연한 선택을 도모할 수 있다.

제어부는 시간대 별로 미리 설정되는 기준에 따라 복수의 제2 대화문장 중 둘 이상의 제2 대화문장이 선택되면, 랜덤으로 어느 하나의 제2 대화문장을 최종 선택할 수 있다.

한편, 본 발명의 또 다른 실시예에 다르면, 제어부는 제1 대화문장을 분석하여 사용자의 연령을 예측하고, 예측한 사용자의 연령에 따라 제2 대화문장이 수정되어 출력되도록 출력부(150)를 제어하는 역할을 수행할 수 있다.

구체적으로는, 제어부는 입력부(110)로부터 텍스트 형태의 제1 대화문장을 전달 받을 수 있다. 제어부는 제1 대화문장을 단어 단위로 구분할 수 있다. 제어부는 제1 대화문장의 각 단어와 미리 저장된 연령 별 단어 정보를 비교하여, 제1 대화문장의 각 단어 별로 연령을 산정할 수 있다. 제어부는 제1 대화문장을 구성하는 각 단어 별로 산정된 연령을 평균 내어 사용자의 연령으로 예측할 수 있다.

제어부는 예측한 사용자의 연령에 따라 사용자를 어른 또는 어린이로 나눌 수 있다. 이때, 출력부(150)는 최초 설계 시 높임말로 이루어지는 제2 대화문장을 생성하도록 설정될 수 있다. 따라서, 제어부는 사용자가 어른으로 구분되면 출력부(150)에서 높임말로 이루어지는 제2 대화문장이 그대로 출력되도록 제어할 수 있다. 제어부는 사용자가 어린이로 구분되면 출력부(150)에서 제2 대화문장이 낮춤말로 수정되어 출력되도록 제어할 수 있다. 예를 들면, 제어부는 출력부(150)의 LSTM에서 출력되어 제2 대화문장을 구성하는 각 단어 중, 어미에 해당하는 단어를 미리 저장된 어미 변환 정보(예컨대, 합시다→하자)에 따라 낮춤 단어로 수정할 수 있다. 또는, 제어부는 출력부(150)의 LSTM에서 출력되어 제2 대화문장을 구성하는 각 단어 중 미리 저장된 높임-낮춤 변환 정보(예컨대, 식사→밥)에 따라 낮춤 단어로 수정 가능한 단어를 검색하여 낮춤 단어로 수정할 수 있다.

이처럼, 제어부는 사용자의 연령에 따라 높임말 또는 낮춤말로 이루어지는 제2 대화문장이 출력되도록 제어함으로써, 특히, 어린이 사용자에게 친근감을 주어 실제 사람과 대화하는 듯한 인터렉션을 기대할 수 있다.

이하에서는, 본 발명의 일 실시예에 따른 대화문장 생성 방법에 대하여 설명하기로 한다. 본 발명의 일 실시예에 따른 대화문장 생성 방법은 도 3에 도시된 대화문장 생성 장치(100)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 3의 대화문장 생성 장치(100)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략하기로 한다.

도 5를 참조하면, 입력부(110)는 사용자로부터 제1 대화문장을 입력 받을 수 있다(500). 입력부(110)는 음성 신호 형태의 제1 대화문장을 텍스트의 형태로 읽어 후술하는 문장 처리부(130)로 전달할 수 있다.

인코더(131)는 제1 대화문장으로부터 입력벡터를 생성할 수 있다(510). 인코더(131)는 LSTM 모델로 구현되며, 제1 대화문장을 단어 단위로 구분하고, 순차적으로 LSTM의 각 프레임에 입력한 뒤, 인코딩을 실행하여 입력벡터를 생성할 수 있다.

외부 메모리 제어 모듈(133)은 외부 메모리(10)에서 입력벡터 쓰기 또는 삭제 동작을 수행하고, 외부 메모리(10)에서 읽기 동작을 수행하여 출력벡터를 생성할 수 있다(520, 530). 외부 메모리 제어 모듈(133)은 구글 사에서 배포한 인공지능 학습 모델인 DNC의 쓰기, 삭제 및 읽기 알고리즘에 따라 외부 메모리(10)에서의 쓰기, 삭제 또는 읽기 동작을 수행할 수 있다. 예를 들어, 외부 메모리 제어 모듈(133)은 쓰기 가중치(w^w)를 이용하여 외부 메모리(10)에서 쓰기 또는 삭제 동작을 수행할 위치를 지정하고, 해당 위치에서 쓰기 또는 삭제 동작을 수행할 수 있다. 또한, 외부 메모리 제어 모듈(133)은 읽기 가중치(w^r)를 이용하여 외부 메모리(10)에서 읽기 동작을 수행할 위치를 지정하고, 해당 위치에서 읽기 동작을 수행하여 출력벡터를 읽어 올 수 있다. 쓰기 가중치(w^w) 또는 읽기 가중치(w^r)는 각각 최초 랜덤으로 설정되며, 출력부(150)의 출력 데이터인 제2 대화문장을 이용한 역전파 알고리즘이 적용되어 업데이트될 수 있다.

출력부(150)는 출력벡터로부터 제2 대화문장을 생성하고, 제2 대화문장을 출력할 수 있다(540, 550). 출력부(150)는 LSTM 모델로 구현되며, 출력벡터를 LSTM의 초기 스테이트로 하고, 디코딩을 실행하여 LSTM의 각 프레임별로 단어를 생성할 수 있다. 그리고, 출력부(150)는 LSTM의 각 프레임에서 생성한 단어들로부터 제2 대화문장을 생성하여 출력할 수 있다.

한편, 도 6은 본 발명의 다른 실시예에 따른 대화문장 생성 방법의 순서도이다.

도 6을 참조하면, 입력부(110)는 사용자로부터 제1 대화문장을 입력 받을 수 있다(600).

인코더(131)는 제1 대화문장으로부터 입력벡터를 생성할 수 있다(610).

외부 메모리 제어 모듈(133)은 외부 메모리(10)에서 입력벡터 쓰기 또는 삭제 동작을 수행하고, 외부 메모리(10)에서 읽기 동작을 수행하여 출력벡터를 생성할 수 있다(620, 630).

외부 메모리 제어 모듈(133)은 하나의 외부 메모리(10) 또는 복수의 외부 메모리(10)에 대해 위와 같은 단계를 반복하여 복수의 출력벡터를 생성할 수 있다(640).

출력부(150)는 복수의 출력벡터로부터 복수의 제2 대화문장을 생성할 수 있다(650).

제어부는 현재 시간대 및 이용 시간에 따른 제2 대화문장 선택 기준을 설정하고, 제2 대화문장 선택 기준에 따라 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택할 수 있다(660, 670). 제어부는 시간대 별로 미리 설정되는 기준에 따라 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택하되, 사용자의 이용 시간을 측정하고, 사용자의 이용 시간이 미리 설정된 시간을 초과하면, 대화문장 선택 기준을 변경하여 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택할 수 있다.

출력부(150)는 제어부에서 선택한 제2 대화문장을 출력할 수 있다(680).

도 7을 참조하면, 입력부(110)는 사용자로부터 제1 대화문장을 입력 받을 수 있다(700).

인코더(131)는 제1 대화문장으로부터 입력벡터를 생성할 수 있다(710).

외부 메모리 제어 모듈(133)은 외부 메모리(10)에서 입력벡터 쓰기 또는 삭제 동작을 수행하고, 외부 메모리(10)에서 읽기 동작을 수행하여 출력벡터를 생성할 수 있다(720, 730).

출력부(150)는 출력벡터로부터 제2 대화문장을 생성할 수 있다(740).

제어부는 사용자 연령을 예측하여, 사용자가 어린이인지를 구분할 수 있다(750, 760) 제어부는 입력부(110)로부터 텍스트 형태의 제1 대화문장을 전달 받고, 제1 대화문장의 각 단어와 미리 저장된 연령 별 단어 정보를 비교하여, 제1 대화문장의 각 단어 별로 연령을 산정할 수 있다. 제어부는 제1 대화문장을 구성하는 각 단어 별로 산정된 연령을 평균 내어 사용자의 연령으로 예측할 수 있다. 제어부는 예측한 사용자의 연령에 따라 사용자를 어른 또는 어린이로 나눌 수 있다.

제어부는 사용자가 어린이로 구분되면, 제2 대화문장을 낮춤말로 수정할 수 있다(770). 제어부는 출력부(150)의 LSTM에서 출력되어 제2 대화문장을 구성하는 각 단어 중, 어미에 해당하는 단어를 미리 저장된 어미 변환 정보(예컨대, 합시다→하자)에 따라 낮춤 단어로 수정할 수 있다. 또는, 제어부는 출력부(150)의 LSTM에서 출력되어 제2 대화문장을 구성하는 각 단어 중 미리 저장된 높임-낮춤 변환 정보(예컨대, 식사→밥)에 따라 낮춤 단어로 수정 가능한 단어를 검색하여 낮춤 단어로 수정할 수 있다.

출력부(150)는 제어부에 의해 수정된 제2 대화문장을 출력할 수 있다(780).

제어부에 의해 사용자가 어른으로 구분되면, 출력부(150)는 제2 대화문장을 출력할 수 있다(790).

이와 같은, 본 발명의 실시예에 따른 대화문장 생성 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

사용자로부터 제1 대화문장을 입력 받는 입력부;

상기 제1 대화문장을 인코딩하여 입력벡터를 생성하고, DNC(Differentiable Neural Computer)의 쓰기 또는 삭제 알고리즘에 따라 외부 메모리에 상기 입력벡터의 쓰기 또는 삭제 동작을 수행하며, DNC의 읽기 알고리즘에 따라 상기 외부 메모리에서 읽기 동작을 수행하여 출력벡터를 생성하는 문장 처리부; 및

상기 출력벡터를 LSTM(Long Short Term Memory)의 입력 파라미터로 설정하여 제2 대화문장을 출력하는 출력부를 포함하는 대화문장 생성 장치.
제1항에 있어서,

상기 문장 처리부는,

복수 개 마련되어 복수의 출력벡터를 생성하고,

상기 출력부는,

복수의 출력벡터를 각각 LSTM의 입력 파라미터로 설정하여 복수의 제2 대화문장을 생성하는 대화문장 생성 장치.
제2항에 있어서,

시간대 별로 미리 설정되는 기준에 따라 상기 복수의 제2 대화문장 중 어느 하나의 대화문장을 선택하고, 선택한 대화문장이 출력되도록 상기 출력부를 제어하는 제어부를 더 포함하는 대화문장 생성 장치.
제3항에 있어서,

상기 제어부는,

상기 사용자의 이용 시간을 측정하고, 상기 사용자의 이용 시간이 미리 설정된 시간을 초과하면 상기 복수의 제2 대화문장 중 어느 하나의 대화문장을 선택하는 기준을 변경하는 대화문장 생성 장치.
제1항에 있어서,

상기 제1 대화문장을 분석하여 상기 사용자의 연령을 예측하는 제어부를 더 포함하는 대화문장 생성 장치.
제5항에 있어서,

상기 제어부는,

예측한 상기 사용자의 연령에 따라 높임말로 이루어지는 상기 제2 대화문장이 낮춤말로 수정되어 출력되도록 상기 출력부를 제어하는 대화문장 생성 장치.
제1항에 있어서,

상기 문장 처리부는,

최초 랜덤으로 설정되며, 상기 제2 대화문장을 이용한 역전파 알고리즘이 적용되어 업데이트되는 읽기 가중치에 따라 NxW 행렬의 상기 외부 메모리에서 읽기 동작을 수행할 위치를 설정하고, 상기 외부 메모리의 해당 위치에서 정보를 읽어 상기 출력벡터를 생성하는 외부 메모리 제어 모듈을 포함하는 대화문장 생성 장치.
제1항에 있어서,

상기 문장 처리부는,

상기 제1 대화문장을 단어 단위로 구분하고, LSTM을 통해 인코딩하여 상기 입력벡터를 생성하는 인코더를 포함하는 대화문장 생성 장치.
제1항 내지 제8항 중 어느 하나의 항에 따른 대화문장 생성 장치를 포함하는 대화로봇.
사용자로부터 제1 대화문장을 입력 받는 단계;

상기 제1 대화문장을 인코딩하여 입력벡터를 생성하는 단계;

DNC(Differentiable Neural Computer)의 쓰기 또는 삭제 알고리즘에 따라 외부 메모리에 상기 입력벡터의 쓰기 또는 삭제 동작을 수행하고, DNC의 읽기 알고리즘에 따라 상기 외부 메모리에서 읽기 동작을 수행하여 출력벡터를 생성하는 단계; 및

상기 출력벡터를 LSTM(Long Short Term Memory)의 입력 파라미터로 설정하여 제2 대화문장을 출력하는 단계를 포함하는 대화문장 생성 방법.
제10항에 있어서,

상기 출력벡터를 생성하는 단계는,

복수의 외부 메모리에 각각 상기 입력벡터의 쓰기 또는 삭제 동작과 읽기 동작을 수행하여 복수의 출력벡터를 생성하거나, 하나의 외부 메모리에 상기 입력벡터의 쓰기 또는 삭제 동작과 읽기 동작을 반복 수행하여 복수의 출력벡터를 생성하는 단계를 포함하는 대화문장 생성 방법.
제11항에 있어서,

상기 제2 대화문장을 출력하는 단계는,

상기 복수의 출력벡터를 각각 LSTM의 입력 파라미터로 설정하여 복수의 제2 대화문장을 생성하는 단계를 포함하는 대화문장 생성 방법.
제12항에 있어서,

상기 제2 대화문장을 출력하는 단계는,

시간대 별로 미리 설정되는 기준에 따라 상기 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택하는 단계; 및

선택한 제2 대화문장을 출력하는 단계를 포함하는 대화문장 생성 방법.
제13항에 있어서,

시간대 별로 미리 설정되는 기준에 따라 상기 복수의 제2 대화문장 중 어느 하나의 제2 대화문장을 선택하는 단계는,

상기 사용자의 이용 시간을 측정하고, 상기 사용자의 이용 시간이 미리 설정된 시간을 초과하면 상기 복수의 제2 대화문장 중 어느 하나의 대화문장을 선택하는 기준을 변경하는 단계를 포함하는 대화문장 생성 방법.
제10항에 있어서,

상기 제1 대화문장을 분석하여 상기 사용자의 연령을 예측하는 단계를 더 포함하는 대화문장 생성 방법.
제15항에 있어서,

상기 제2 대화문장을 출력하는 단계는,

예측한 상기 사용자의 연령에 따라 높임말로 이루어지는 상기 제2 대화문장을 낮춤말로 수정하는 단계를 포함하는 대화문장 생성 방법.
제10항에 있어서,

상기 제1 대화문장을 인코딩하여 입력벡터를 생성하는 단계는,

상기 제1 대화문장을 단어 단위로 구분하고, LSTM을 통해 인코딩하여 상기 입력벡터를 생성하는 단계인 대화문장 생성 방법.
제10항에 있어서,

상기 출력벡터를 생성하는 단계는,

최초 랜덤으로 설정되는 읽기 가중치에 따라 NxW 행렬의 상기 외부 메모리에서 읽기 동작을 수행할 위치를 설정하는 단계; 및

상기 외부 메모리의 해당 위치에서 정보를 읽어 상기 출력벡터를 생성하는 단계를 포함하는 대화문장 생성 방법.
제18항에 있어서,

최초 랜덤으로 설정되는 읽기 가중치에 따라 NxW 행렬의 상기 외부 메모리에서 읽기 동작을 수행할 위치를 설정하는 단계는,

상기 제2 대화문장을 이용한 역전파 알고리즘을 적용하여 상기 읽기 가중치를 업데이트하는 단계를 포함하는 대화문장 생성 방법.