KR20240058676A - 시각적 질의응답 장치 및 방법 - Google Patents

시각적 질의응답 장치 및 방법 Download PDF

Info

Publication number
KR20240058676A
KR20240058676A KR1020220139655A KR20220139655A KR20240058676A KR 20240058676 A KR20240058676 A KR 20240058676A KR 1020220139655 A KR1020220139655 A KR 1020220139655A KR 20220139655 A KR20220139655 A KR 20220139655A KR 20240058676 A KR20240058676 A KR 20240058676A
Authority
KR
South Korea
Prior art keywords
question
vector
sentence
feature
image
Prior art date
Application number
KR1020220139655A
Other languages
English (en)
Inventor
한보형
김단일
추상혁
김지호
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020220139655A priority Critical patent/KR20240058676A/ko
Publication of KR20240058676A publication Critical patent/KR20240058676A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/434Query formulation using image data, e.g. images, photos, pictures taken by a user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 목적은 시각적 질의응답 모델의 예측 중간 과정을 자연어 형태의 설명 문장으로 생성하고, 생성된 설명 문장을 응답 예측 분류기의 입력으로 인가하여 응답 예측의 전체적인 과정을 추적할 수 있도록 하는 시각적 질의응답 장치 및 방법을 제공함에 있다.
상기 목적을 달성하기 위해, 본 발명은 이미지를 입력받아 이미지의 주요 영역을 제안하고, 각 영역의 특징 벡터를 추출하는 이미지 특징 추출부; 질문 문장을 입력받아 질문 문장의 특징 벡터를 추출하는 질문 문장 특징 추출부; 상기 이미지의 특징 벡터와 상기 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성하는 제1통합 벡터 생성부; 상기 제1통합 벡터를 입력받아 설명 문장을 생성하는 설명 문장 생성부; 상기 설명 문장의 특징 벡터를 추출하고, 이를 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 제2통합 벡터 생성부; 및 제2통합 벡터를 입력받아 질문에 대한 응답을 예측하는 응답 예측 분류부;를 포함하는 것을 특징으로 한다.

Description

시각적 질의응답 장치 및 방법{APPARATUS AND METHOD FOR VISUAL QUESTION ANSWERING}
본 발명은 시각적 질의응답 장치 및 방법에 관한 것으로, 더욱 상세하게는 시각적 질의응답 모델의 예측 중간 과정을 자연어 형태의 설명 문장으로 생성하여 제공하는 시각적 질의응답 장치 및 방법에 관한 것이다.
시각적 질의응답(Visual Question Answering, VQA) 모델 연구는 주어진 이미지와 이미지 내용과 연관된 자연어 문장 형태의 질문이 입력으로 주어졌을 때, 자연어 형태의 응답을 출력하는 인공지능 에이전트를 개발하는 연구로서, 사람이 보기에 적절한 응답을 출력하도록 하는 것이 주된 목표이다.
최근의 많은 시각적 질의응답 모델은 질문을 이용하여 이미지 영역에 대한 주의(attention) 가중치를 계산할 수 있도록 하여 질문과 이미지의 의미를 연결 짓도록 하고 있다.
이러한 시각적 질의응답 모델은 데이터 기반으로 학습되기 때문에 학습된 모델이 질의응답에 필요한 추론 과정을 적절히 하고 있는지 여부를 검증하기 어렵고, 실제로 학습 데이터에 편향된(biased) 결과를 내놓는다는 문제가 있다.
따라서 데이터 편향을 극복하고 인간의 추론 과정을 모델에게 부여하기 위해, 시각적 질의응답 모델에서는 모델의 예측 과정을 사람이 이해할 수 있는 범위로 해석하려는 시도가 진행되고 있다.
질문이 주어졌을 때 모델이 응답 예측을 위해 이미지의 어떤 영역을 보는지 시각화하고, 형태와 정답이 다양한 질문들에 대한 실험을 했을 때 모델이 어떤 행동을 보이는지 추적하는 방법들이 있다.
일 예로, 시각적 질의응답의 예측 중간 과정을 자연어 형태의 설명 문장으로 생성하여 제공하는 방법이 있다.
도 1 및 도 2는 종래 기술에 따른 시각적 질의응답 장치에서의 설명 문장 생성 과정을 설명하기 위한 도면으로, 종래에는 응답 예측 과정 전체를 반영하여 시각적 질의응답에 대한 설명 문장을 생성하는 것이 아니라, 응답 예측을 위해 이미지와 질문의 특징 정보를 통합하는 단계까지의 정보만을 이용하여 설명 문장을 생성한다.
따라서, 응답 예측의 전체 과정을 추적할 수 없게 되는 문제점이 있다.
등록특허공보 제10-2039397호(공고일 2019.11.01.)
본 발명은 상기한 바와 같은 종래의 문제점을 해결하기 위해 안출된 것으로, 시각적 질의응답 모델의 예측 중간 과정을 자연어 형태의 설명 문장으로 생성하고, 생성된 설명 문장을 응답 예측 분류기의 입력으로 인가하여 응답 예측의 전체적인 과정을 추적할 수 있도록 하는 시각적 질의응답 장치 및 방법을 제공함에 그 목적이 있다.
전술한 목적을 달성하기 위한 본 발명에 따른 시각적 질의응답 장치는, 이미지를 입력받아 이미지의 주요 영역을 제안하고, 각 영역의 특징 벡터를 추출하는 이미지 특징 추출부; 질문 문장을 입력받아 질문 문장의 특징 벡터를 추출하는 질문 문장 특징 추출부; 상기 이미지의 특징 벡터와 상기 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성하는 제1통합 벡터 생성부; 상기 제1통합 벡터를 입력받아 설명 문장을 생성하는 설명 문장 생성부; 상기 설명 문장의 특징 벡터를 추출하고, 이를 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 제2통합 벡터 생성부; 및 제2통합 벡터를 입력받아 질문에 대한 응답을 예측하는 응답 예측 분류부;를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 장치에서, 상기 이미지 특징 추출부는, Faster R-CNN 모델을 이용하여, 입력된 이미지 내에서 객체 인식을 할 후보 영역을 제안하고, 각 영역의 특징 벡터를 추출하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 장치에서, 상기 질문 문장 특징 추출부는, 워드 임베딩과 RNN 모델을 이용하여, 입력받은 질문 문장의 특징 벡터를 추출하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 장치에서, 상기 제1통합 벡터 생성부는, 상기 질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터를 생성하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 장치에서, 상기 설명 문장 생성부는, LSTM(Long Short Term Memory) 구조의 RNN 모델을 이용하여, 상기 제1통합 벡터로부터 자연어 형태의 설명 문장을 생성하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 장치에서, 제2통합 벡터 생성부는, RNN 모델을 이용하여, 상기 설명 문장의 특징 벡터를 추출하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 장치에서, 상기 응답 예측 분류부는, 상기 제2통합 벡터와 상기 제1통합 벡터를 기반으로 질문에 대한 응답을 예측하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 장치에서, 상기 시각적 질의응답 장치는, 모든 데이터에 대해서는 상기 응답 예측 분류부에서의 손실을 이용하여 설명 문장 생성부까지 그라디언트 계산 및 학습을 진행하고, 설명 문장 정답이 존재하는 데이터에 대해서는 상기 설명 문장 생성부 후단에 문장 생성을 위한 NLL(Negative Log-Likelihood))을 추가하여 그라디언트 학습을 진행하는 것을 특징으로 한다.
또한, 전술한 목적을 달성하기 위한 본 발명에 따른 시각적 질의응답 방법은, 프로세서에 의해 수행되는 시각적 질의응답 방법에 있어서, 입력받은 이미지 내에서 이미지의 주요 영역을 제안하고, 각 영역의 특징 벡터를 추출하는 이미지 특징 추출 단계; 입력받은 질문 문장의 특징 벡터를 추출하는 질문 문장 특징 추출 단계; 상기 이미지의 특징 벡터와 상기 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성하는 제1통합 벡터 생성 단계; 상기 제1통합 벡터를 기반으로 설명 문장을 생성하는 설명 문장 생성 단계; 상기 설명 문장의 특징 벡터를 추출하고, 이를 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 제2통합 벡터 생성 단계; 및 상기 제2통합 벡터를 기반으로 질문에 대한 응답을 예측하는 응답 예측 단계;를 포함하는 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 방법에서, 상기 제1통합 벡터 생성 단계는, 질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터를 생성하는 단계인 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 방법에서, 제2통합 벡터 생성 단계는, 상기 설명 문장 생성 단계에서 생성된 설명 문장에서 특징 벡터를 추출한 후, 이를 상기 제1통합 벡터 생성 단계에서 생성된 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 단계인 것을 특징으로 한다.
또한, 본 발명에 따른 시각적 질의응답 방법에서, 상기 응답 예측 단계는, 상기 제2통합 벡터와 상기 제1통합 벡터를 기반으로 질문에 대한 응답을 예측하는 단계인 것을 특징으로 한다.
기타 실시 예의 구체적인 사항은 "발명을 실시하기 위한 구체적인 내용" 및 첨부 "도면"에 포함되어 있다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 각종 실시 예를 참조하면 명확해질 것이다.
그러나 본 발명은 이하에서 개시되는 각 실시 예의 구성만으로 한정되는 것이 아니라 서로 다른 다양한 형태로도 구현될 수도 있으며, 단지 본 명세서에서 개시한 각각의 실시 예는 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구범위의 각 청구항의 범주에 의해 정의될 뿐임을 알아야 한다.
본 발명에 의하면, 시각적 질의응답 모델의 예측 중간 과정을 자연어 형태의 설명 문장으로 생성하고, 생성된 설명 문장을 응답 예측 분류기의 입력으로 인가하여 응답 예측의 전체적인 과정을 추적할 수 있게 된다.
도 1 및 도 2는 종래 기술에 따른 시각적 질의응답 장치에서의 설명 문장 생성 과정을 설명하기 위한 도면이다.
도 3은 본 발명에 따른 시각적 질의응답 장치의 구성을 개략적으로 보인 도면이다.
도 4 및 도 5는 본 발명에 따른 시각적 질의응답 장치의 학습 알고리즘을 개략적으로 보인 도면이다.
도 6은 본 발명에 따른 시각적 질의응답 방법을 설명하기 위한 처리도이다.
본 발명을 상세하게 설명하기 전에, 본 명세서에서 사용된 용어나 단어는 통상적이거나 사전적인 의미로 무조건 한정하여 해석되어서는 아니 되며, 본 발명의 발명자가 자신의 발명을 가장 최선의 방법으로 설명하기 위해서 각종 용어의 개념을 적절하게 정의하여 사용할 수 있고, 더 나아가 이들 용어나 단어는 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 함을 알아야 한다.
즉, 본 명세서에서 사용된 용어는 본 발명의 바람직한 실시 예를 설명하기 위해서 사용되는 것일 뿐이고, 본 발명의 내용을 구체적으로 한정하려는 의도로 사용된 것이 아니며, 이들 용어는 본 발명의 여러 가지 가능성을 고려하여 정의된 용어임을 알아야 한다.
또한, 본 명세서에 있어서, 단수의 표현은 문맥상 명확하게 다른 의미로 지시하지 않는 이상, 복수의 표현을 포함할 수 있으며, 유사하게 복수로 표현되어 있다고 하더라도 단수의 의미를 포함할 수 있음을 알아야 한다.
본 명세서의 전체에 걸쳐서 어떤 구성 요소가 다른 구성 요소를 "포함"한다고 기재하는 경우에는, 특별히 반대되는 의미의 기재가 없는 한 임의의 다른 구성 요소를 제외하는 것이 아니라 임의의 다른 구성 요소를 더 포함할 수도 있다는 것을 의미할 수 있다.
더 나아가서, 어떤 구성 요소가 다른 구성 요소의 "내부에 존재하거나, 연결되어 설치된다"고 기재한 경우에는, 이 구성 요소가 다른 구성 요소와 직접적으로 연결되어 있거나 접촉하여 설치되어 있을 수 있고, 일정한 거리를 두고 이격되어 설치되어 있을 수도 있으며, 일정한 거리를 두고 이격되어 설치되어 있는 경우에 대해서는 해당 구성 요소를 다른 구성 요소에 고정 내지 연결시키기 위한 제 3의 구성 요소 또는 수단이 존재할 수 있으며, 이 제 3의 구성 요소 또는 수단에 대한 설명은 생략될 수도 있음을 알아야 한다.
반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결"되어 있다거나, 또는 "직접 접속"되어 있다고 기재되는 경우에는, 제 3의 구성 요소 또는 수단이 존재하지 않는 것으로 이해하여야 한다.
마찬가지로, 각 구성 요소 간의 관계를 설명하는 다른 표현들, 즉 " ~ 사이에"와 "바로 ~ 사이에", 또는 " ~ 에 이웃하는"과 " ~ 에 직접 이웃하는" 등도 마찬가지의 취지를 가지고 있는 것으로 해석되어야 한다.
또한, 본 명세서에 있어서 "일면", "타면", "일측", "타측", "제 1", "제 2" 등의 용어는, 사용된다면, 하나의 구성 요소에 대해서 이 하나의 구성 요소가 다른 구성 요소로부터 명확하게 구별될 수 있도록 하기 위해서 사용되며, 이와 같은 용어에 의해서 해당 구성 요소의 의미가 제한적으로 사용되는 것은 아님을 알아야 한다.
또한, 본 명세서에서 "상", "하", "좌", "우" 등의 위치와 관련된 용어는, 사용된다면, 해당 구성 요소에 대해서 해당 도면에서의 상대적인 위치를 나타내고 있는 것으로 이해하여야 하며, 이들의 위치에 대해서 절대적인 위치를 특정하지 않는 이상은, 이들 위치 관련 용어가 절대적인 위치를 언급하고 있는 것으로 이해하여서는 아니된다.
더욱이, 본 발명의 명세서에서는, "…부", "…기", "모듈", "장치" 등의 용어는, 사용된다면, 하나 이상의 기능이나 동작을 처리할 수 있는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어, 또는 하드웨어와 소프트웨어의 결합으로 구현될 수 있음을 알아야 한다.
또한, 본 명세서에서는 각 도면의 각 구성 요소에 대해서 그 도면 부호를 명기함에 있어서, 동일한 구성 요소에 대해서는 이 구성 요소가 비록 다른 도면에 표시되더라도 동일한 도면 부호를 가지고 있도록, 즉 명세서 전체에 걸쳐 동일한 참조 부호는 동일한 구성 요소를 지시하고 있다.
본 명세서에 첨부된 도면에서 본 발명을 구성하는 각 구성 요소의 크기, 위치, 결합 관계 등은 본 발명의 사상을 충분히 명확하게 전달할 수 있도록 하기 위해서 또는 설명의 편의를 위해서 일부 과장 또는 축소되거나 생략되어 기술되어 있을 수 있고, 따라서 그 비례나 축척은 엄밀하지 않을 수 있다.
또한, 이하에서, 본 발명을 설명함에 있어서, 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 구성, 예를 들어, 종래 기술을 포함하는 공지 기술에 대한 상세한 설명은 생략될 수도 있다.
이하에서는 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예에 따른 시각적 질의응답 장치 및 방법에 대해서 상세하게 설명하기로 한다.
도 3은 본 발명의 일 실시예에 따른 시각적 질의응답 장치의 구성을 개략적으로 보인 도면이다.
도 3에 도시하는 바와 같이, 본 발명의 일 실시예에 따른 시각적 질의응답 장치(100)는 이미지 특징 추출부(110), 질문 문장 특징 추출부(120), 제1통합 벡터 생성부(130), 설명 문장 생성부(140), 제2통합 벡터 생성부(150), 응답 예측 분류부(160) 등을 포함하여 이루어질 수 있다.
이와 같은 구성에 있어서, 이미지 특징 추출부(110)는 이미지를 입력받아 이미지의 주요 영역을 제안하고, 각 영역의 특징을 추출할 수 있다.
이미지 특징 추출부(110)는 입력받은 이미지 내에서 객체 인식을 할 후보 영역을 직사각형 형태로 정해진 개수만큼 제안하고, 각 영역들의 특징을 이미지 특징 추출 모델을 이용하여 추출할 수 있다
이미지 특징 추출부(110)는 Faster R-CNN(Regions with Convolutional Neural Network) 모델을 이용하여 이미지 특징 벡터를 추출할 수 있다.
Faster R-CNN 모델은 RPN(Region Proposal Network)이라는 후보 영역 제안 신경망과 객체 인식기인 Fast R-CNN의 결합을 통해 빠른 속도와 높은 성능의 객체 인식을 가능케 한 모델로, 입력받은 이미지 안에서 물체가 존재할 만한 후보 영역(Region of Interest, ROI)을 제안해 주고, 제안된 영역의 박스 영역 회기(bounding box regression), 물체 클래스 분류(object classification) 두 가지에 대한 손실을 이용하여 학습한 객체 인식 모델이다.
Faster R-CNN 모델에서 제안된 영역(ROI)에 있는 물체의 속성(attribute)을 판별하는 분류기를 추가하여 학습함으로써, 최종적으로 한 이미지 내에서 주요 물체를 둘러싸는 직사각형 형태의 후보 영역과 그 물체가 가진 속성의 강도를 함께 제시할 수 있다.
이를 이용하여 가장 강한 속성을 지닌 지정된 개수의 후보 영역(ROI)들을 추출할 수 있다.
추출된 후보 영역들은 각각 ImageNet 데이터셋에서 물체 분류를 위해 학습해 놓은 ResNet-101 모델의 Conv5 블록까지를 특징 추출기로 이용하여 특징 벡터를 추출할 수 있다. 추출된 영역 특징들은 제1통합 벡터 생성부(130)의 입력으로 인가될 수 있다.
질문 문장 특징 추출부(120)는 질문 문장을 입력받아 질문 문장의 특징을 추출할 수 있다.
질문 문장 특징 추출부(120)는 워드 임베딩(word embedding)과 RNN 모델을 이용하여, 입력받은 질문 문장의 특징 벡터를 추출할 수 있다.
질문 문장 특징 추출부(120)는 입력받은 질문 문장으로부터 의미를 추출하기 위해서, 질문 내 단어들 각각의 의미를 미리 학습된 GloVe(Global Vectors for Word Representation) 특징 벡터로 표현할 수 있다.
단어 벡터들은 문장 내 순서대로 GRU(Gated Recurrent Unit)를 통해서 임베딩하여 질문 문장의 특징 벡터를 추출할 수 있다.
질문 문장을 정해진 최대 단어 길이까지 문장의 앞에서부터 고려하여 입력하고, 길이가 최대 단어 길이 미만인 문장은 문장 앞부분을 패딩(padding)하여 정해진 최대 단어 길이로 맞추는 것이 바람직하다.
제1통합 벡터 생성부(130)는 이미지 특징 추출부(110)에서 추출된 이미지의 특징 벡터와 질문 문장 특징 추출부(120)에서 추출된 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성할 수 있다.
제1통합 벡터 생성부(130)는 질문 문장 특징 추출부(120)가 RNN(GRU) 모델을 이용하여 추출한 질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터(멀티모달 표현)를 생성할 수 있다.
앞서 설명한 바와 같이, 제1통합 벡터 생성부(130)는 질문 문장 특징 추출부(120)가 RNN(GRU) 모델을 이용하여 추출한 질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치를 계산할 수 있다.
구체적으로 각 영역마다 이미지의 특징 벡터를 FC층(Fully Connected Layer) 하나에 통과시킨 것과, 질문의 특징 벡터를 다른 FC층 하나에 통과시킨 결과가 같은 차원을 갖도록 두 FC의 출력 뉴런 개수를 맞추고, 두 출력을 각각 ReLU를 통과시킨 뒤 두 벡터를 성분곱한다. 그리고 이 결과를 다시 FC층 하나를 통해 단일 스칼라(scalar) 값을 가지도록 한다. 모든 영역에 대해 이 과정을 적용시켜 값을 얻고, 이 값들에 대하여 softmax 함수를 취해주면, 각 영역마다 0 내지 1 사이의 주의 가중치 값(attention weight)이 부여되고, 주의 가중치 값은 모든 영역에 대해 더했을 때 1이 된다.
최종적으로 각 영역 특징과 해당 중요도 값이 곱해진 뒤 전체 영역에 대해 더해져 하나의 요약된 전체 이미지 특징 벡터가 된다.
합해진 전체 이미지 특징 벡터와 질문 문장 특징 추출부(120)에서 추출된 질문의 특징 벡터는 각각 서로 다른 FC층 하나와 ReLU를 통과한 후, 벡터 성분곱을 통하여 합쳐져, 이미지와 질문 두 가지 정보가 통합된다.
제1통합 벡터 생성부(130)에서 통합된 제1통합 벡터는 전체 응답 후보들 가운데에 정답을 가려내는 응답 예측 분류부(160)를 지나 최종 응답을 예측하게 된다.
설명 문장 생성부(140)는 제1통합 벡터 생성부(130)로부터 제1통합 벡터를 입력받아 설명 문장을 생성할 수 있다.
설명 문장 생성부(140)는 LSTM(Long Short Term Memory) 구조의 RNN 모델을 이용하여, 제1통합 벡터 생성부(130)로부터 입력받은 제1통합 벡터로부터 자연어 형태의 설명 문장을 생성할 수 있다.
설명 문장은 이미지마다 존재하는 5개의 설명 문장(Caption) 중에서 질문과 정답과 관련된 정보를 잘 포괄하고 있는지 사람의 검증을 거쳐 선택되어 설명 목적에 맞게 구조가 개조된 문장으로, 전체 이미지, 질문 쌍에 대해서 기준을 통과한 약 40%의 쌍에 대해서만 존재한다.
여기서 설명 문장을 생성하는 과정은 샘플링으로써 미분 불가능한 연산이므로, Gumbel trick을 이용하여 학습 시에 그라디언트(gradient)가 뒤로 이어지도록 할 수 있다.
이는 샘플된 결과들이 종래 시각적 질의응답 모델의 파라미터들로 표현되도록 재변수화(reparametrization)시키는 방식으로, 샘플 결과는 유지한 상태로 그라디언트를 통한 학습만 가능하도록 한다.
전술한 바와 같이, 설명 문장 정답이 존재하는 약 40%의 이미지, 질문 쌍 데이터에 대해서는 설명 문장 생성부(140)와 응답 예측 분류부(160)에서 계산된 손실을 더하여 해당 그라디언트를 그 이하의 모든 파라미터들에 대해 계산하고 업데이트해 준다. 두 손실에 대한 그라디언트를 모두 구할 수 있는 멀티모달 표현 이하 부분에 대해서는, 두 그라디언트를 더하여 모델 파라미터를 업데이트 한다.
설명 문장 정답이 존재하지 않는 나머지 데이터에 대해서는 응답 예측 분류부(160) 이전 부분만 학습하도록 한다.
제2통합 벡터 생성부(150)는 설명 문장 생성부(140)에서 생성된 설명 문장의 특징을 추출한 후, 이를 다시 제1통합 벡터와 통합시켜 제2통합 벡터를 생성할 수 있다.
제2통합 벡터 생성부(150)는 응답 예측 분류부(160)가 설명 문장 생성부(140)에서 생성된 설명 문장을 반영하여 정답을 예측할 수 있도록 RNN 모델을 이용하여, 설명 문장 생성부(140)에서 생성된 설명 문장의 특징 벡터를 추출한 후, 추출된 특징 벡터와 제1통합 벡터 생성부(130)로부터 인가받은 제1통합 벡터를 통합시켜 제2통합 벡터를 생성할 수 있다.
응답 예측 분류부(160)는 제2통합 벡터 생성부(150)로부터 제2통합 벡터를 입력받아 질문에 대한 응답을 예측할 수 있다.
전술한 바와 같이 제1통합 벡터는 제2통합 벡터 생성부(150)를 통해 응답 예측 분류부(160)로 바로 전달되는 경로와 설명 문장 생성부(140)를 거쳐 전달되는 경로 2가지로 나눠지게 되는데, 이는 이미지와 질문 두 가지 정보가 통합된 제1통합 벡터(멀티모달 표현)이 응답 예측과 설명 생성에 의한 필요한 의미를 동시에 학습 가능하도록 하기 위함이다.
또한 설명 문장 생성부(140)에서 생성된 설명 문장은 제2통합 벡터 생성부(150)에서 RNN 모델을 통해 설명 문장의 특징 벡터가 추출되어 응답 예측 분류부(160)로 전달되는데, 설명 문장 생성부(140)를 포함한 그 이전 단(설명 문장 생성부, 제1통합 벡터 생성부)은 파라미터를 고정시키고, 설명 문장 생성부(140)에서 생성된 문장의 특징을 추출하는 RNN과 그 이후 단(제2통합 벡터 생성부)을 응답 예측 분류부(160) 끝까지 학습시킨다.
학습 시에는 주어진 정답들을 이용하여 일반적인 분류기 손실(loss)인 크로스-엔트로피(cross-entropy, XE)를 사용하여 학습시킨다.
이후, 학습된 설명 문장 생성부(140)와 제2통합 벡터 생성부(150)의 특징 벡터 추출 부분이 부드럽게 이어지도록 설명 문장 생성부(140)와 그 이후에 오는 제2통합 벡터 생성부(150)의 특징 벡터 추출 부분을 동시에 학습시킨다.
설명 문장 생성부(140)에서 문장을 생성하는 것은 단어별 생성 점수를 기반으로 argmax 샘플링하면서 그때까지의 모델의 파라미터 정보가 소실되어 모델 뒷부분에서부터 역 전파되는 그라디언트가 더 이상 전파되지 못하고 끊어지게 된다.
따라서 end-to-end 학습을 위해서는 샘플링 기법을 유지한 채 뒤에서 오는 그라디언트가 흐를 수 있도록 Gumbel 재변수화 기술을 사용한다.
모든 데이터에 대해서는 응답 예측 분류부(160)에서의 크로스-엔트로피 손실(Xe Loss)을 이용하여 설명 문장 생성부(140)까지 그라이언트 계산 및 학습을 진행하고, 설명 문장 정답이 존재하는 약 40%의 데이터의 경우에만 설명 문장 생성부(140) 후단에 문장 생성을 위한 NLL(Negative Log-Likelihood)를 추가해서 그라디언트 학습을 진행할 수 있다(도 4 및 도 5 참고).
본 발명의 다른 실시예로, 응답 예측 분류부(160)는 제2통합 벡터 생성부(150)로부터 입력받은 제2통합 벡터와 제2통합 벡터 생성부(150)를 통해 제1통합 벡터 생성부(130)로부터 입력받은 제1통합 벡터를 이용하여 질문에 대한 응답을 예측할 수 있다.
구체적으로, 응답 예측 분류부(160)는 제2통합 벡터를 이용하여 응답을 예측하고, 제1통합 벡터를 이용하여 응답을 예측한 후, 제2통합 벡터를 이용하여 예측한 응답과 제1통합 벡터를 이용하여 예측한 응답 두 가지를 평균내어 최종 응답을 예측할 수 있다.
응답 예측 분류부(160)는 응답 예측 정확도가 떨어지는 것을 방지하고, 학습의 안정성을 향상시키기 위해 제2통합 벡터와 제1통합 벡터 두 가지를 모두 학습 과정에서 이용할 수 있다.
구체적으로, 제2통합 벡터를 이용하여 예측한 응답을 이용해 크로스-엔트로피 손실 함수를 계산하고, 제1통합 벡터를 이용하여 예측한 응답을 이용해 크로스-엔트로피 손실 함수를 계산한 뒤, 두 손실 함수를 더해 최종 손실 함수 값을 얻는다.
그리고 이 최종 손실 함수 값을 이용해 전체 시각적 질의응답 장치를 업데이트한다. 즉, 최종 손실 함수 값을 이용하여 그라디언트를 생성하고, 시각적 질의응답 모델의 파라미터를 업데이트한다.
본 발명에 따른 시각적 질의응답 장치는 VQA v2 데이터셋, VQA-E 데이터셋 등을 통해 학습 및 검증을 수행할 수 있다.
VQA v2 데이터셋은 이전 VQA 데이터셋에 존재하는 각각의 이미지, 질문, 정답 쌍에 대해서 비슷한 이미지이지고, 질문은 동일하나 정답은 다른 이미지, 질문, 정답 쌍을 추가한 데이터셋으로, 시각적 질의응답 장치가 이를 학습 데이터로 이용하여 학습할 때 응답 예측 시 특정 이미지와 질문의 모양에 따른 편견(bias)을 극복하고, 질문과 이미지에 대한 이해도를 높일 수 있게 된다.
VQA-E 데이터셋은 VQA v2 데이터셋의 이미지, 질문, 정답 쌍에 대하여 이미지에 해당하는 5개의 MSCOCO 주석(caption)과 질문, 정답과의 유사도를 계산하여 1개를 선택하고, 선택된 주석 문장을 질문, 정답과 혼합하여 사람의 검증을 거쳐 설명문장 레이블로 사용한다. 여기서 사람의 검증 기준은 질문과의 관련성, 설명 문장으로 정답 유추 가능 여부, 이미지 내용과의 관련성 등으로, 각각을 정량화하여 정해진 기준치를 통과한 설명 문장들을 채택하여 이미지, 질문, 정답, 그리고 채택된 설명 문장으로 VQA-E 데이터셋을 구성한다. 결과적으로 전체 VQA v2 샘플 중에서 기준을 통과한 설명들을 포함한 40%의 샘플들만 VQA-E 데이터셋에 포함된다.
설명 문장 생성부(140)를 학습시킬 때 VQA-E 데이터셋에 있는 설명 레이블을 학습하고, 정답 레이블도 응답 예측 분류부(160)를 동시에 학습할 때 사용한다.
도 6은 본 발명의 일 실시예에 따른 시각적 질의응답 방법을 설명하기 위한 처리도로, 본 발명의 일 실시예에 따른 시각적 질의응답 방법은 프로세서를 포함한 컴퓨팅 장치에 의해 수행될 수 있다.
우선, 단계 S10에서 이미지 특징 추출부(110)는 입력받은 이미지 내에서 이미지의 주요 영역을 제안하고, 각 영역의 특징을 추출할 수 있다.
상기한 단계 S10에서 이미지 특징 추출부(110)는 입력받은 이미지 내에서 객체 인식을 할 후보 영역을 직사각형 형태로 정해진 개수만큼 제안하고, 각 영역들의 특징을 이미지 특징 추출 모델을 이용하여 추출할 수 있다
상기한 단계 S10에서 이미지 특징 추출부(110)는 Faster R-CNN 모델(알고리즘)을 이용하여, 입력받은 이미지 안에서 물체가 존재할 만한 직사각형 형태의 후보 영역(ROI)을 제안하고, 각 영역들의 특징 벡터를 추출할 수 있다.
단계 S20에서 질문 문장 특징 추출부(120)는 입력받은 질문 문장의 특징을 추출할 수 있다.
단계 S20에서 질문 문장 특징 추출부(120)는 워드 임베딩과 RNN 모델을 이용하여, 입력받은 질문 문장의 특징 벡터를 추출할 수 있다.
단계 S30에서 제1통합 벡터 생성부(130)는 상기한 단계 S10을 통해 이미지 특징 추출부(110)에서 추출된 이미지의 특징 벡터와 상기한 단계 S20을 통해 질문 문장 특징 추출부(120)에서 추출된 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성할 수 있다.
단계 S30에서 제1통합 벡터 생성부(130)는 상기한 단계 S20에서 추출된 질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터(멀티모달 표현)를 생성할 수 있다.
단계 S40에서 설명 문장 생성부(140)는 상기한 단계 S30을 통해 제1통합 벡터 생성부(130)에서 생성된 제1통합 벡터를 입력받아 설명 문장을 생성할 수 있다.
단계 S40에서 설명 문장 생성부(140)는 RNN 모델을 이용하여, 상기한 단계 S30을 통해 제1통합 벡터 생성부(130)에서 생성된 제1통합 벡터로부터 자연어 형태의 설명 문장을 생성할 수 있다.
단계 S50에서 제2통합 벡터 생성부(150)는 상기한 단계 S40을 통해 설명 문장 생성부(140)에서 생성된 설명 문장의 특징을 추출한 후, 이를 다시 상기한 단계 S30에서 생성된 제1통합 벡터와 통합시켜 제2통합 벡터를 생성할 수 있다.
단계 S50에서 제2통합 벡터 생성부(150)는 응답 예측 분류부(160)가 상기한 단계 S40을 통해 설명 문장 생성부(140)에서 생성된 설명 문장을 반영하여 정답을 예측할 수 있도록 RNN 모델을 이용하여, 설명 문장 생성부(140)에서 생성된 설명 문장의 특징 벡터를 추출한 후, 이를 상기한 단계 S30을 통해 제1통합 벡터 생성부(130)에서 생성된 제1통합 벡터와 통합시켜 제2통합 벡터를 생성할 수 있다.
단계 S60에서 응답 예측 분류부(160)는 상기한 단계 S50을 통해 제2통합 벡터 생성부(150)에서 생성된 제2통합 벡터를 입력받아 질문에 대한 응답을 예측할 수 있다.
본 발명의 다른 실시예로, 상기한 단계 S60에서 응답 예측 분류부(160)는 상기한 단계 S50을 통해 제2통합 벡터 생성부(150)로부터 입력받은 제2통합 벡터와, 제2통합 벡터 생성부(150)를 통해 제1통합 벡터 생성부(130)로부터 입력받은 제1통합 벡터를 이용하여 질문에 대한 응답을 예측할 수 있다.
구체적으로, 상기한 단계 S60에서 응답 예측 분류부(160)는 제2통합 벡터를 이용하여 응답을 예측하고, 제1통합 벡터를 이용하여 응답을 예측한 후, 제2통합 벡터를 이용하여 예측한 응답과 제1통합 벡터를 이용하여 예측한 응답 두 가지를 평균내어 최종 응답을 예측할 수 있다.
본 발명에 따른 시각적 질의응답 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다.
이와 같이 본 발명에 의하면, 시각적 질의응답 모델의 예측 중간 과정을 자연어 형태의 설명 문장으로 생성하고, 생성된 설명 문장을 응답 예측 분류기의 입력으로 인가하여 응답 예측의 전체적인 과정을 추적할 수 있게 된다.
이상, 일부 예를 들어서 본 발명의 바람직한 여러 가지 실시 예에 대해서 설명하였지만, 본 "발명을 실시하기 위한 구체적인 내용" 항목에 기재된 여러 가지 다양한 실시 예에 관한 설명은 예시적인 것에 불과한 것이며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 이상의 설명으로부터 본 발명을 다양하게 변형하여 실시하거나 본 발명과 균등한 실시를 행할 수 있다는 점을 잘 이해하고 있을 것이다.
또한, 본 발명은 다른 다양한 형태로 구현될 수 있기 때문에 본 발명은 상술한 설명에 의해서 한정되는 것이 아니며, 이상의 설명은 본 발명의 개시 내용이 완전해지도록 하기 위한 것으로 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이며, 본 발명은 청구범위의 각 청구항에 의해서 정의될 뿐임을 알아야 한다.
110. 이미지 특징 추출부,
120. 질문 문장 특징 추출부,
130. 제1통합 벡터 생성부,
140. 설명 문장 생성부,
150. 제2통합 벡터 생성부,
160. 응답 예측 분류부

Claims (13)

  1. 이미지를 입력받아 이미지의 주요 영역을 제안하고, 각 영역의 특징 벡터를 추출하는 이미지 특징 추출부;
    질문 문장을 입력받아 질문 문장의 특징 벡터를 추출하는 질문 문장 특징 추출부;
    상기 이미지의 특징 벡터와 상기 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성하는 제1통합 벡터 생성부;
    상기 제1통합 벡터를 입력받아 설명 문장을 생성하는 설명 문장 생성부;
    상기 설명 문장의 특징 벡터를 추출하고, 이를 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 제2통합 벡터 생성부; 및
    제2통합 벡터를 입력받아 질문에 대한 응답을 예측하는 응답 예측 분류부;를 포함하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  2. 제1항에 있어서,
    상기 이미지 특징 추출부는,
    Faster R-CNN 모델을 이용하여, 입력된 이미지 내에서 객체 인식을 할 후보 영역을 제안하고, 각 영역의 특징 벡터를 추출하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  3. 제1항에 있어서,
    상기 질문 문장 특징 추출부는,
    워드 임베딩과 RNN 모델을 이용하여, 입력받은 질문 문장의 특징 벡터를 추출하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  4. 제1항에 있어서,
    상기 제1통합 벡터 생성부는,
    상기 질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터를 생성하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  5. 제1항에 있어서,
    상기 설명 문장 생성부는,
    LSTM(Long Short Term Memory) 구조의 RNN 모델을 이용하여, 상기 제1통합 벡터로부터 자연어 형태의 설명 문장을 생성하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  6. 제1항에 있어서,
    제2통합 벡터 생성부는,
    RNN 모델을 이용하여, 상기 설명 문장의 특징 벡터를 추출하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  7. 제1항에 있어서,
    상기 응답 예측 분류부는,
    상기 제2통합 벡터와 상기 제1통합 벡터를 기반으로 질문에 대한 응답을 예측하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  8. 제1항에 있어서,
    상기 시각적 질의응답 장치는,
    모든 데이터에 대해서는 상기 응답 예측 분류부에서의 손실을 이용하여 설명 문장 생성부까지 그라디언트 계산 및 학습을 진행하고,
    설명 문장 정답이 존재하는 데이터에 대해서는 상기 설명 문장 생성부 후단에 문장 생성을 위한 NLL(Negative Log-Likelihood))을 추가하여 그라디언트 학습을 진행하는 것을 특징으로 하는,
    시각적 질의응답 장치.
  9. 프로세서에 의해 수행되는 시각적 질의응답 방법에 있어서,
    입력받은 이미지 내에서 이미지의 주요 영역을 제안하고, 각 영역의 특징 벡터를 추출하는 이미지 특징 추출 단계;
    입력받은 질문 문장의 특징 벡터를 추출하는 질문 문장 특징 추출 단계;
    상기 이미지의 특징 벡터와 상기 질문의 특징 벡터를 통합시켜 제1통합 벡터를 생성하는 제1통합 벡터 생성 단계;
    상기 제1통합 벡터를 기반으로 설명 문장을 생성하는 설명 문장 생성 단계;
    상기 설명 문장의 특징 벡터를 추출하고, 이를 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 제2통합 벡터 생성 단계; 및
    상기 제2통합 벡터를 기반으로 질문에 대한 응답을 예측하는 응답 예측 단계;를 포함하는 것을 특징으로 하는,
    시각적 질의응답 방법.
  10. 제9항에 있어서,
    상기 제1통합 벡터 생성 단계는,
    질문의 특징 벡터를 이용하여 이미지 각 영역에 대한 주의 가중치 값을 계산하여 질문의 특징 벡터와 이미지의 특징 벡터를 연결시키고, 이를 질문의 특징 벡터와 통합시켜 제1통합 벡터를 생성하는 단계인 것을 특징으로 하는,
    시각적 질의응답 방법.
  11. 제9항에 있어서,
    제2통합 벡터 생성 단계는,
    상기 설명 문장 생성 단계에서 생성된 설명 문장에서 특징 벡터를 추출한 후, 이를 상기 제1통합 벡터 생성 단계에서 생성된 상기 제1통합 벡터와 통합시켜 제2통합 벡터를 생성하는 단계인 것을 특징으로 하는,
    시각적 질의응답 방법.
  12. 제9항에 있어서,
    상기 응답 예측 단계는,
    상기 제2통합 벡터와 상기 제1통합 벡터를 기반으로 질문에 대한 응답을 예측하는 단계인 것을 특징으로 하는,
    시각적 질의응답 방법.
  13. 제 9항 내지 제 12항 중 어느 하나의 항에 따른 시각적 질의응답 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
KR1020220139655A 2022-10-26 2022-10-26 시각적 질의응답 장치 및 방법 KR20240058676A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220139655A KR20240058676A (ko) 2022-10-26 2022-10-26 시각적 질의응답 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220139655A KR20240058676A (ko) 2022-10-26 2022-10-26 시각적 질의응답 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20240058676A true KR20240058676A (ko) 2024-05-07

Family

ID=91078294

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220139655A KR20240058676A (ko) 2022-10-26 2022-10-26 시각적 질의응답 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20240058676A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102039397B1 (ko) 2018-01-30 2019-11-01 연세대학교 산학협력단 추론 과정 설명이 가능한 시각 질의 응답 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102039397B1 (ko) 2018-01-30 2019-11-01 연세대학교 산학협력단 추론 과정 설명이 가능한 시각 질의 응답 장치 및 방법

Similar Documents

Publication Publication Date Title
US11030414B2 (en) System and methods for performing NLP related tasks using contextualized word representations
US11568240B2 (en) Method and apparatus for classifying class, to which sentence belongs, using deep neural network
US11861307B2 (en) Request paraphrasing system, request paraphrasing model and request determining model training method, and dialogue system
US20120221339A1 (en) Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis
CN113448477B (zh) 交互式图像编辑方法、装置、可读存储介质及电子设备
Brahman et al. Learning to rationalize for nonmonotonic reasoning with distant supervision
Hu et al. Safe navigation with human instructions in complex scenes
Khin et al. Question answering based university chatbot using sequence to sequence model
Ororbia et al. Like a baby: Visually situated neural language acquisition
Derici et al. Question analysis for a closed domain question answering system
KR20240049526A (ko) 페러프레이저 모델을 이용한 질의 응답 검색 방법 및 검색 장치
Zaman et al. A multilingual perspective towards the evaluation of attribution methods in natural language inference
US11288265B2 (en) Method and apparatus for building a paraphrasing model for question-answering
Yoon Short answer grading using one-shot prompting and text similarity scoring model
KR20220037059A (ko) 질의 벡터에 대한 다중 유사도 판단을 이용한 검색 방법 및 검색 장치
US20210165833A1 (en) Method and apparatus for question-answering using a database consist of query vectors
KR20240058676A (ko) 시각적 질의응답 장치 및 방법
KR102508656B1 (ko) 인공지능을 통한 문제 분석 기반 사용자 맞춤형 언어 능력 테스트 학습 서비스 제공 방법, 장치 및 시스템
KR20200114919A (ko) 문단내 순차적 정보를 사용하는 강화학습 기반의 관계추출 방법 및 장치
CN114882488A (zh) 基于深度学习与注意力机制的多源遥感图像信息处理方法
Huang et al. Flexible entity marks and a fine-grained style control for knowledge based natural answer generation
CN112200268A (zh) 一种基于编码器-解码器框架的图像描述方法
KR20220037060A (ko) 질의 벡터로 구성된 데이터베이스를 이용한 검색 방법 및 검색 장치
Memon et al. Content-aware Urdu handwriting generation
Madanagopal et al. Bias Neutralization in Non-Parallel Texts: A Cyclic Approach with Auxiliary Guidance