KR20210056071A

KR20210056071A - 심층 영상 이해를 이용한 영상 기반 대화 시스템

Info

Publication number: KR20210056071A
Application number: KR1020190142709A
Authority: KR
Inventors: 김인철; 조영수
Original assignee: 경기대학교 산학협력단
Priority date: 2019-11-08
Filing date: 2019-11-08
Publication date: 2021-05-18
Also published as: KR102352128B1

Abstract

심층 영상 이해를 이용한 영상 기반 대화 시스템이 개시된다. 이 시스템은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택한다.

Description

심층 영상 이해를 이용한 영상 기반 대화 시스템{System for visual dialog using deep visual understanding}

본 발명은 심층 신경망(deep neural network) 모델에 관한 것으로, 특히 영상에 관한 질문과 답변으로 진행되는 영상 기반 대화(visual dialog)를 위한 심층 신경망 모델에 관한 것이다.

최근 들어 컴퓨터 비전(computer vision) 기술과 자연어 처리(natural language processing) 기술이 발달함에 따라, 이 두 가지 기술들이 함께 요구되는 영상/비디오 캡션 생성(image/video captioning), 영상 기반 질문-응답(visula question answering, VQA), 영상 기반 대화(visual dialog) 등과 같은 복합 지능 문제들에 관한 연구들이 활발해졌다. 일반적으로 영상 기반 질문-응답(VQA)에서는 입력 영상에 관해 질문과 답변을 주고받되, 질문들 간에는 서로 독립성이 있다고 가정한다. 이에 반해, 영상 기반 질문-응답(VQA)을 확장한 영상 기반 대화는 하나의 영상에 관해 지속적으로 질문과 답변을 주고받는 작업을 말하며, 질문들 간에는 직간접적으로 상호 의존성이 존재할 수 있다고 가정한다.

국내등록특허공보 제10-1804632호 (2017년 12월 4일 공고)

본 발명은 영상 기반 대화를 위한 답변자 에이전트의 성능 향상을 위한 기술적 방안을 제공함을 목적으로 한다.

일 양상에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택할 수 있다.

입력 처리부는 입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리부, 입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리부, 및 최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 맥락 생성부를 포함하며, 답변 선택부는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택할 수 있다.

영상 처리부는 입력 영상 전체에 대한 시각 특징을 추출하는 시각 특징 추출부, 입력 영상에서 객체를 탐지하는 객체 탐지부, 탐지 객체의 속성 정보를 인식하는 속성 인식부, 및 시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 최종 시각 특징 생성부를 포함할 수 있다.

영상 처리부는 언어 특징을 사용하여 시각 특징에 주의 집중(attention)을 적용하는 시각 주의 집중부를 더 포함하며, 최종 시각 특징 생성부는 주의 집중된 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성할 수 있다.

언어 처리부는 영상에 대한 현재 질문으로부터 질문 특징을 추출하는 질문 특징 추출부, 영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 대화 특징 추출부, 및 질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 언어 특징 생성부를 포함할 수 있다.

언어 특징 생성부는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 언어 주의 집중부를 포함할 수 있다.

답변 선택부는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출하고, 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력할 수 있다.

답변 선택부는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 답변 특징을 추출할 수 있다.

한편, 일 양상에 따른 심층 영상 이해를 이용한 영상 기반 대화 방법은 입력 영상 내 객체의 속성 정보를 인식하는 입력 처리 단계, 및 입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택 단계를 포함할 수 있다.

본 발명은 영상 기반 대화에 있어서 주어진 영상에 포함된 객체를 탐지하고 그 속성을 인식한 후에 그 정보를 질문자의 질문에 대한 답변을 생성하는데 추가적으로 이용함으로써, 답변자 에이전트의 성능을 향상시키는 효과를 창출한다.

도 1은 일 실시예에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템 블록도이다.
도 2는 영상 기반 대화(Visual Dialog)의 예를 나타낸다.
도 3은 일 실시예에 따른 인코더 구조도이다.
도 4는 일 실시예에 따른 디코더 구조도이다.

전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 당업자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.

도 1은 일 실시예에 따른 심층 영상 이해를 이용한 영상 기반 대화 시스템 블록도이다. 본 시스템은 컴퓨팅 가능한 전자 기기에 탑재 가능한 것으로, 전자 기기에는 제한이 없다. 예를 들어, 휴대 가능한 스마트폰이나 스마트패드와 같은 모바일 단말은 물론 고정 설치된 컴퓨팅 장비나 고정 혹은 이동 가능한 대화형 로봇 등이 될 수 있다. 도 1에 도시된 바와 같이, 본 시스템은 입력 처리부(100)와 답변 선택부(500)를 포함한다. 이들은 소프트웨어적으로 구현될 수 있으며, 하드웨어적으로 하나 이상의 프로세서에 의해 실행되어 해당 프로세스를 수행한다. 입력 처리부(100)는 영상 기반 대화를 위해 입력으로 주어진 영상에서 객체를 탐지하고 그 탐지된 객체의 속성 정보를 인식한다. 그리고 답변 선택부(500)는 입력 영상과 관련한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 적절한 답변을 선택하는데, 이때 입력 처리부(100)에서 인식된 객체의 속성 정보를 고려하여 답변을 선택한다.

입력 처리부(100)는 영상 처리부(200)와 언어 처리부(300) 및 맥락 생성부(400)를 포함할 수 있다. 영상 처리부(200)는 입력 영상의 시각 특징을 추출하고 그 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성한다. 언어 처리부(300)는 입력 영상에 대한 질문자의 질문으로부터 추출된 질문 특징과 입력 영상에 대한 과거의 대화 이력으로부터 추출된 하나 이상의 대화 특징을 융합하여 언어 특징을 생성한다. 시각 특징과 질문 특징 및 대화 특징 추출을 위해 딥러닝 알고리즘이 이용될 수 있다. 맥락 생성부(400)는 영상 처리부(200)의 최종 시각 특징과 언어 처리부(300)의 언어 특징을 융합하여 맥락 특징을 생성한다. 이 맥락 특징은 질문자의 질문에 대한 답변 선택을 위해 이용된다. 즉, 답변 선택부(500)는 맥락 생성부(400)에 의해 생성된 맥락 특징에 기초하여 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 가장 적절한 답변을 선택한다.

영상 처리부(200)는 시각 특징 추출부(210)와 객체 탐지부(220)와 속성 인식부(230) 및 최종 시각 특징 생성부(240)를 포함할 수 있다. 시각 특징 추출부(210)는 입력 영상에 대한 시각 특징을 추출하는데, 합성곱 신경망(Convolutional Newral Network, CNN) 알고리즘을 이용하여 시각 특징을 추출할 수 있다. 일 실시예에 있어서, 시각 특징 추출부(210)에서 사용되는 합성곱 신경망은 VGG16이다. 객체 탐지부(220)는 입력 영상에 속한 객체를 탐지한다. 탐지 대상 객체는 사람으로 제한될 수 있다. 일 실시예에 있어서, 객체 탐지부(220)는 단-단계 탐지기(single-phase detector)인 YOLO(You Only Look Once)를 사용하여 영상에 존재하는 객체를 탐지한다. 구체적으로, YOLO v3가 사용될 수 있다. 그리고 객체 탐지를 위해 사용되는 YOLO는 MO COCO 데이터 집합에서 사람을 탐지하도록 미리 학습된 것일 수 있다.

속성 인식부(230)는 탐지된 객체의 속성 정보를 인식한다. 일 실시예에 있어서, 속성 인식부는 DeepMAR에 기반하여 객체의 속성을 인식한다. DeepMAR보행자 데이터 집합인 PETA로 미리 학습된 것일 수 있다. 그리고 속성 정보에는 성별(gender), 연령(age), 의복 스타일(concept) 중에서 적어도 일부가 포함될 수 있는데, 속성 인식부(230)는 DeepMAR을 변형하여 PETA 데이터셋에서 정의된 속성들 중에서도 사람에 대해 가장 많이 나오는 속성인 성별, 연령, 의복 스타일을 인식한다.

최종 시각 특징 생성부(240)는 시각 특징 추출부(210)에 의해 추출된 시각 특징과 속성 인식부(230)에 의해 인식된 속성 정보를 융합하여 최종 시각 특징을 생성한다. 최종 시각 특징을 생성하는데 이용되는 시각 특징은 언어 특징을 이용하여 주의 집중된 것일 수 있다. 이를 위해, 영상 처리부(200)는 시각 주의 집중부(250)를 더 포함하는데, 시각 주의 집중부(250)는 언어 특징을 사용하여 어텐션 기법(예를 들어, soft-attention)을 통해 시각 특징에 주의 집중을 적용한다.

언어 처리부(300)는 질문 특징 추출부(310)와 대화 특징 추출부(320) 및 언어 특징 생성부(330)를 포함할 수 있다. 질문 특징 추출부(310)는 입력 영상에 대해 자연어로 구성된 질문으로부터 질문 특징을 추출한다. 일 실시예에 있어서, 질문 특징 추출부(310)는 질문자의 질문에 대해 순환신경망(recurrent neural network)인 LSTM(Long Short-Term Memory)에 기초하여 특징을 추출한다. 대화 특징 추출부(320)는 입력 영상에 대해 자연어로 구성된 과거 대화 이력(이전 대화 이력)으로부터 대화 특징을 추출한다. 일 실시예에 있어서, 대화 특징 추출부(320)는 과거 대화 이력을 구성하는 각 라운드의 질문과 답변 쌍에 대해 LSTM 신경망에 기초하여 특징을 추출을 추출한다. 여기서, 과거 대화 이력은 입력 영상에 대해 현재 질문 이전에 이루어진 각 라운드의 질문과 답변 쌍을 포함하여 구성되는데, 입력 영상에 대한 짧은 설명문인 캡션(caption)도 포함될 수 있다. 참고로, 라운드라 함은 질문 순번(횟수)을 의미하는 것으로, 현재 질문이 10번째 질문일 경우에는 10라운드가 되며, 과거 대화 이력에는 총 9개의 질문-답변 쌍이 포함된다.

언어 특징 생성부(330)는 추출된 질문 특징과 대화 특징을 융합하여 언어 특징을 생성한다. 이때, 언어 특징은 주의 집중이 적용된 것일 수 있다. 이를 위해, 언어 특징 생성부(330)는 언어 주의 집중부(331)를 포함한다. 언어 주의 집중부(331)는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 현재 질문과 연관도가 높은 대화 특징에 주의 집중한다.

한편, 답변 선택부(500)는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출한다. 일 실시예에 있어서, 답변 선택부(500)는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩함에 의해 후보 답변별로 답변 특징을 추출한다. 답변 특징 추출이 완료되면, 답변 선택부(500)는 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력한다.

이하에서는 심층 영상 이해를 이용한 영상 기반 대화 방법에 대해 보다 구체적으로 설명한다. 본 시스템은 인코더-디코더 구조(encoder-decoder framework)로 이루어질 수 있다. 즉, 답변자 에이전트는 인코더-디코더 구조로 설계될 수 있다. 인코더-디코더 구조에서 인코더는 입력(영상, 질문, 과거 대화 이력)들의 특징을 추출한 후 이를 융합하는 과정을 진행하고, 디코더는 융합된 특징을 입력으로 사용하여 후보 답변 리스트에서 가장 적절한 답변을 선택한다. 도 1에서 입력 처리부(100)는 인코더에 해당하며, 답변 선택부(500)는 디코더에 해당한다.

도 2와 같이 답변자 에이전트에게는 하나의 영상과 이 영상에 관한 캡션(caption) 문장이 주어질 수 있다. 질문자가 매번 영상에 관한 질문을 던지면, 답변자 에이전트가 에이전트가 적절한 답변을 생성함으로써 대화가 진행된다. 따라서 답변자 에이전트 인코더의 입력으로는 주어진 영상(Image

), 현재 라운드의 질문(Question

), 그리고 캡션을 포함한 이전 라운드까지의 대화 이력(History)

이 주어진다. 인코더에서 입력들은 각각의 네트워크를 거쳐 특징들이 추출된다. 추출된 특징들을 결합시켜 최종 인코딩된 특징(Encoded Features

)인 맥락 특징을 얻는다. 디코더는 인코더의 출력

와 현재 질문에 해당하는 100개의 후보 답변 리스트(

)를 받는다. 디코더는 후보 답변 리스트에서 가장 적절한 답변(

)을 선택한다.

인코더에 대해 설명한다. 인코더는 대화 이력

와 현재의 질문

로부터 언어 특징(linguistic features) 벡터

을 추출한다. 언어 특징 벡터와 입력 영상으로부터 추출된 시각적 특징 벡터를 최종 인코딩된 특징 벡터를 생성하는데 사용된다. 도 2에 인코더의 구조가 도시되어 있다. 대화 이력

과 현재의 질문

는 모두 자연어 텍스트이다. 따라서 영상 캡션

, 각 라운드의 질문과 답변 쌍

, 그리고 현재의 질문

는 각각 단어 임베딩(Word Embedding)과 순환 신경망(Recurrent Neural Network, RNN)인 LSTM(Long-Short Term Memory) 계층을 통해 특징을 인코딩한다. 다음 단계에서는 과거 대화 이력

에서 현재의 질문

과 연관성이 높은 질문과 답변 쌍

에 주의 집중(attention)한다. 현재의 질문

의 특징 벡터와 대화 이력

를 구성하는 각각의 질문-답변 쌍

의 특징 벡터들과 내적(Inner Product) 연산을 통해 연관성을 계산한다. 이렇게 계산된 현재 질문

과의 연관도는 대화 이력

를 구성하는 각 질문-답변 쌍

에 대한 가중치(weight)로 사용된다. 그리고 이 가중치들을 기초로 질문-답변 쌍

들에 대한 가중 합(Weighted Sum)을 계산함으로써, 대화 이력

에 대한 최종 특징 벡터를 구한다. 이렇게 구해진 대화 이력

의 특징 벡터는 다시 현재 질문

의 특징 벡터와 단순 결합(Concatenation)된 후, 완전 연결 층(Fully-Connected Layer)을 거쳐 하나의 언어 특징(linguistic features) 벡터

을 생성한다.

인코더에서는 입력 영상 안에 존재하는 사람들에 대한 속성 정보(attribute)를 추출해낸다. 또한, 인코더는 언어 특징 벡터를 사용하여 전체 이미지에서 가장 관련 있는 영역에 주의 집중한다. 우선, 입력 영상

으로부터 대표적인 합성곱 신경망(convolutional neural network, CNN)인 VGG16을 통해 영상 전체에 관한 시각 특징을 추출한다. 이어서 MS COCO 데이터 집합에서 사람을 탐지하도록 미리 학습시킨 YOLO v3를 사람 탐지기(Person Detector)로 사용한다. YOLO v3를 통해 영상 특징 맵(visual feature map)에서 각각의 사람 영역을 탐지해낸다(Person Detection). 이와 같은 사람 탐지 단계(person detection stage)를 통해 얻는 각 사람 영역의 시각 특징(Cropped Regions)들은 사람 속성 인식(Person Attribute Recognition) 단계를 거친다. 보행자 데이터 집합인 PETA로 학습된 DeepMAR을 사람 속성 인식기(Person Attribute Recognizer)로 사용한다.

본 시스템에서는 DeepMAR을 변형하여, 각 사람마다 성별(gender), 연령(age), 의복 스타일(clothes concept) 속성들을 추출해낸다. 이때, 성별 속성은 여성(female), 남성(male)과 같이 2가지 중 하나의 값을 가질 수 있으며, 연령 속성은 30세 미만(less than 30), 30세 이상 44세 이하(30 to 44), 45세 이상 59세 이하(45 to 59) 그리고 60세 이상(60 and above) 과 같이 4가지 값 중 하나의 값을 가질 수 있다. 또한, 연령 속성은 추가적으로 30세 이하는 젊다(young), 나머지는 늙었다(old)와 같이 2가지 중 하나의 값을 가질 수도 있다. 마지막으로, 의복 스타일은 평상복(casual), 정복(formal)과 같이 2가지 중 하나의 값을 가질 수 있다.

인코더는 주의 집중 메커니즘을 사용하여 입력 영상에서 현재 질문

와 대화 이력

와 관련 있는 영역을 알아낸다. 전체 영상에 관한 시각 특징 벡터와 언어 특징 벡터 사이의 상관 관계는 내적을 통해 계산된다. 이후, 계산된 내적 값은 소프트맥스(Softmax) 계층을 통해 가중치 값으로 사용된다. 이 가중치를 전체 영상에 관한 시각 특징에 적용하여 주의 집중된 시각 특징 벡터를 구한다. 추출된 사람의 속성들과 주의 집중이 적용된 영상 전체에 관한 시각 특징은 단순 결합(Concatenation)과 완전 연결 층(Fully-Connected Layer)을 거치면서 하나로 결합된다. 결합된 특징은 최종적인 시각 특징 벡터

와 언어 특징 벡터

을 단순 결합한 후, 완전 연결 층을 거쳐 최종 인코딩된 특징(final encoded features) 벡터

를 생성한다.

디코더에 대해 설명한다. 본 시스템의 식별 디코더(Discriminative Decoder)는 인코더로부터 얻은 융합된 특징 정보인

를 기반으로 답변 리스트(

)에서 가장 적절한 답변을 선택한다. 도 3에 식별 디코더의 구조가 도시되어 있다. 식별 디코더는 입력으로 들어오는 답변 리스트(

)의 각 후보 답변

들을 단어 임베딩(Word Embedding)을 시킨 이후에 LSTM을 사용하여 인코딩한다. 인코딩된 각각의 답변 특징 벡터는 인코더의 출력인

와 내적(Dot Product)을 구해, 둘 사이의 연관성을 계산한다. 그리고 각각의 내적값들은 Softmax를 통과하면서 각 후보 답변의 점수

로 변환되어 점수 리스트(

)에 저장된다. 디코더를 학습할 때는 정답 답변의 색인과 점수 리스트를 사용하여 교차 엔트로피 오차(Cross Entropy Error)가 최소화되도록 학습한다. 학습된 디코더를 이용해 주어진 질문에 대한 답변을 선택할 때는 점수 리스트를 참조하여 점수가 가장 높은 답변을 선택하여 출력한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

100 : 입력 처리부 200 : 영상 처리부
210 : 시각 특징 추출부 220 : 객체 탐지부
230 : 속성 인식부 240 : 최종 시각 특징 생성부
250 : 시각 주의 집중부 300 : 언어 처리부
310 : 질문 특징 추출부 320 : 대화 특징 추출부
330 : 언어 특징 생성부 331 : 언어 주의 집중부
400 : 맥락 생성부 500 : 답변 선택부

Claims

입력 영상 내 객체의 속성 정보를 인식하는 입력 처리부; 및
입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되, 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 1 항에 있어서, 입력 처리부는 :
입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리부;
입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리부; 및
최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 맥락 생성부;를 포함하며,
답변 선택부는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 2 항에 있어서, 영상 처리부는 :
입력 영상 전체에 대한 시각 특징을 추출하는 시각 특징 추출부;
입력 영상에서 객체를 탐지하는 객체 탐지부;
탐지 객체의 속성 정보를 인식하는 속성 인식부; 및
시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 최종 시각 특징 생성부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 3 항에 있어서, 영상 처리부는 :
언어 특징을 사용하여 시각 특징에 주의 집중(attention)을 적용하는 시각 주의 집중부;를 더 포함하며,
최종 시각 특징 생성부는 주의 집중된 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 3 항에 있어서,
객체 탐지부는 YOLO(You Only Look Once)를 사용하여 영상에 존재하는 객체를 탐지하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 3 항에 있어서,
속성 인식부는 DeepMAR을 사용하여 객체의 속성을 인식하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 4 항에 있어서, 언어 처리부는 :
영상에 대한 현재 질문으로부터 질문 특징을 추출하는 질문 특징 추출부;
영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 대화 특징 추출부; 및
질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 언어 특징 생성부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 7 항에 있어서, 언어 특징 생성부는 :
현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 언어 주의 집중부;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
객체는 사람이며 속성 정보에는 성별, 연령, 의복 스타일 중에서 적어도 일부가 포함된 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 2 항 내지 제 8 항 중 어느 한 항에 있어서,
답변 선택부는 답변 리스트에 속한 후보 답변마다 답변 특징을 추출하고, 맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하며, 변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
제 10 항에 있어서,
답변 선택부는 후보 답변들을 각각 단어 임베딩(Word Embedding)시킨 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 답변 특징을 추출하는 심층 영상 이해를 이용한 영상 기반 대화 시스템.
입력 영상 내 객체의 속성 정보를 인식하는 입력 처리 단계; 및
입력 영상에 관한 질문자의 질문에 대해 답변 리스트에 속한 후보 답변들 중에서 답변을 선택하되, 객체의 속성 정보를 고려하여 답변을 선택하는 답변 선택 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
제 12 항에 있어서, 입력 처리 단계는 :
입력 영상에 대한 시각 특징과 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 영상 처리 단계;
입력 영상에 대한 질문자의 질문 특징과 과거 대화 특징을 융합하여 언어 특징을 생성하는 언어 처리 단계; 및
최종 시각 특징과 언어 특징을 융합하여 맥락 특징을 생성하는 단계;를 포함하며,
답변 선택 단계는 맥락 특징을 기반으로 답변 리스트에 속한 후보 답변들 중에서 질문에 대한 답변을 선택하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
제 13 항에 있어서, 영상 처리 단계는 :
입력 영상 전체에 대한 시각 특징을 추출하는 단계;
입력 영상 내 객체를 탐지하는 단계;
탐지 객체의 속성 정보를 인식하는 단계;
언어 특징을 사용하여 시각 특징에 주의 집중을 적용하는 단계; 및
주의 집중된 시각 특징과 탐지 객체의 속성 정보를 융합하여 최종 시각 특징을 생성하는 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
제 14 항에 있어서, 언어 처리 단계는 :
영상에 대한 현재 질문으로부터 질문 특징을 추출하는 단계;
영상에 대해 질문-대답 쌍으로 이루어진 과거 대화 이력으로부터 질문-대답 쌍별로 대화 특징을 추출하는 단계; 및
질문 특징과 대화 특징을 융합하여 언어 특징을 생성하는 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
제 15 항에 있어서,
언어 특징 생성 단계는 현재 질문 특징과 각각의 대화 특징을 내적 연산(Inner Product)한 후에 상대적으로 연관도가 높은 대화 특징에 주의 집중하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
제 13 항 내지 제 16 항 중 어느 한 항에 있어서, 답변 선택 단계는 :
답변 리스트에 속한 후보 답변마다 답변 특징을 추출하는 단계;
맥락 특징과 각각의 답변 특징을 내적 연산하여 내적값을 구한 후에 해당 후보 답변의 점수로 변환하는 단계; 및
변환된 점수들 중에서 상대적으로 높은 점수의 후보 답변을 질문에 대한 답변으로 선택 출력하는 단계;
를 포함하는 심층 영상 이해를 이용한 영상 기반 대화 방법.
제 17 항에 있어서,
답변 특징을 추출하는 단계는 후보 답변들을 각각 단어 임베딩(Word Embedding)한 후에 LSTM(Long-Short Term Memory)을 통해 인코딩하여 각각의 답변 특징을 추출하는 심층 영상 이해를 이용한 영상 기반 대화 방법.