KR20180038937A - 시각 문답을 위한 시스템 및 방법 - Google Patents

시각 문답을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20180038937A
KR20180038937A KR1020160145584A KR20160145584A KR20180038937A KR 20180038937 A KR20180038937 A KR 20180038937A KR 1020160145584 A KR1020160145584 A KR 1020160145584A KR 20160145584 A KR20160145584 A KR 20160145584A KR 20180038937 A KR20180038937 A KR 20180038937A
Authority
KR
South Korea
Prior art keywords
question
image feature
feature map
map
attention
Prior art date
Application number
KR1020160145584A
Other languages
English (en)
Other versions
KR101865102B1 (ko
Inventor
칸 첸
지앙 왕
웨이 쉬
Original Assignee
바이두 유에스에이 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 유에스에이 엘엘씨 filed Critical 바이두 유에스에이 엘엘씨
Publication of KR20180038937A publication Critical patent/KR20180038937A/ko
Application granted granted Critical
Publication of KR101865102B1 publication Critical patent/KR101865102B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • G06F17/30277
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/60Memory management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Library & Information Science (AREA)
  • Neurology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 시각 문답 태스크(VQA)를 위한 주의에 기반하는 심층 학습 구조를 생성하고 사용하여 이미지(정지 이미지 또는 영상 이미지) 관련 질문에 대해 자동적으로 응답을 생성하기 위한 시스템 및 방법을 개시한다. 정확한 응답을 생성하기 위하여 모델의 주의가 질문에 따라 이미지 중의 관련 영역에 집중되는 것은 매우 중요하다. 이는 상이한 질문은 상이한 이미지 영역의 속성에만 질문할 수 있기 때문이다. 실시예에 있어서, 이러한 질문-가이드된 주의는 구성 가능한 컨볼루션 신경망(ABC-CNN)을 이용하여 학습한다. ABC-CNN 모델의 실시예는 이미지 특징맵과 질문 시맨틱을 통해 결정된 구성 가능한 컨볼루션 커널을 컨볼루션하여 주의맵을 결정한다. 실시예에 있어서, 질문-가이드된 주의맵은 질문과 관련되는 영역에 집중되고, 관련되지 않는 영역 중의 노이즈는 필터링된다.

Description

시각 문답을 위한 시스템 및 방법{SYSTEMS AND METHODS FOR VISUAL QUESTION ANSWERING}
본 발명은 대체적으로 컴퓨팅 기술에 관한 것으로서, 더욱 구체적으로는 이미지 관련 질문에 대한 문답 태스크를 자동적으로 진행하고 인간 컴퓨터 인터페이싱을 개선하는 시스템 및 방법에 관한 것이다.
어떻게 이미지와 관련되는 질문을 자동적으로 응답할 것인지에 대한 문제가 존재하고 있다. 비록 이미 심층 학습 방식을 이용하여 질문을 응답하는 과정을 자동적으로 진행하도록 시도하였으나, 여전히 현저하게 향상시킬 필요가 존재하고 있다.
따라서, 더욱 효율적이고 더욱 정확한 방식으로 이미지와 관련되는 질문을 자동적으로 응답하는 시스템 및 방법에 대한 요구가 대두되고 있다.
본 출원은 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법, 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법, 및 질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기를 제공한다.
본 출원의 일 양태에 있어서, 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법을 제공하며 ,상기질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법은, 이미지 입력를 수신하는 단계; 상기 이미지 입력과 관련되는 상기 질문 입력을 수신하는 단계; 상기 질문 입력과 상기 이미지 입력을 주의 기반의 구성 가능한 컨볼루션 신경망(Attention-Based Configurable Convolutional Neural Networks, ABC-CNN) 프레임워크에 입력하여 응답을 생성하는 단계를 포함하되, 상기 ABC-CNN 프레임워크는, 상기 이미지 입력에서 이미지 특징맵을 추출하는 CNN 을 포함하는 이미지 특징맵 추출 부재; 상기 질문 입력에서 질문 임베딩(embeddings)을 획득하는 시맨틱 질문 임베딩 부재; 상기 이미지 특징맵과 상기 질문 임베딩을 수신하고, 상기 질문 입력에서 문의되는 하나 또는 다수의 영역에 집중되는 질문-가이드된 주의맵을 획득하는 질문-가이드된 주의맵 생성 부재; 및 상기 질문-가이드된 주의맵을 이용하여 이미지 특징맵에 대해 가중을 진행하여 주의 가중된(attention weighted) 이미지 특징맵을 획득하고, 상기 이미지 특징맵, 상기 질문 임베딩과 상기 주의 가중된 이미지 특징맵의 융합에 기반하여 응답을 생성하는 응답 생성 부재를 포함한다.
본 출원의 다른 일 양태에 있어서, 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법을 제공하며, 상기이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법은, 심층 컨볼루션 신경망을 사용하여 다수의 픽셀을 포함하는 입력 이미지에서 이미지 특징맵을 추출하는 단계; 장-단기 메모리(LSTM)층을 사용하여 상기 입력 이미지와 관련되는 입력 질문에서 조밀(dense) 질문 임베딩을 획득하는 단계; 상기 조밀 질문 임베딩을 시맨틱 공간으로부터 시각적 공간에 프로젝팅하여 질문에 의해 배치되는 다수의 커널을 생성하는 단계; 상기 질문에 의해 배치되는 커널과 상기 이미지 특징맵을 컨볼루션하여 질문-가이드된 주의맵을 생성하는 단계; 상기 질문-가이드된 주의맵을 이용하여 상기 이미지 특징맵에 대해 공간적 가중을 진행하여 멀티-클래스 분류 장치(classifier)에서 상기 입력 질문과 관련되지 않는 영역의 가중을 저감시키는 주의 가중된 이미지 특징맵을 획득하는 단계; 및 상기 이미지 특징맵, 상기 조밀 질문 임베딩 및 상기 주의 가중된 이미지 특징맵의 융합에 기반하여 상기 입력 질문에 대해 응답을 생성하는 단계를 포함한다.
본 출원의 또 다른 일 양태에 있어서, 질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기를 제공하며, 상기질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기는, 질문 입력의 수신에 응답하여 상기 질문 입력의 조밀 질문 임베딩을 추출하는 장치; 상기 질문 입력과 관련되는 이미지 입력의 수신에 응답하여 이미지 특징맵을 생성하는 장치; 적어도 상기 이미지 특징맵과 상기 조밀 질문 임베딩에 기반하여, 상기 질문 입력에서 문의되는 영역에 선택적으로 집중되는 질문-가이드된 주의맵을 생성하는 장치; 상기 질문-가이드된 주의맵을 이용하여 상기 이미지 특징맵에 대해 공간적 가중을 진행하여 주의 가중된 이미지 특징맵을 획득하는 장치; 및 시맨틱 정보, 상기 이미지 특징맵 및 상기 주의 가중된 이미지 특징맵을 융합하여 상기 질문 입력에 대해 응답을 생성하는 장치;를 포함한다.
본 출원은 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법, 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법, 및 질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기를 제공할 수 있다.
본 발명의 실시예를 참조하기로 하며, 이러한 실시예들의 예시는 첨부된 도면에 도시될 수 있다. 이러한 도면은 오직 예시적인 것일 뿐, 한정적인 것이 아니다. 비록 이러한 실시예들의 맥락에서 본 발명을 대체적으로 서술하였으나, 본 발명의 범위는 이러한 특정된 실시예들에 한정되지 않음을 반드시 이해해야 한다. 도면 중의 부재들은 비례에 따라 도시된 것이 아니다.
도1은 본 발명의 실시예에 따른 시각 문답 중의 주의 질문을 도시한다.
도2는 본 발명의 실시예에 따른 예시적인 흐름 또는 프레임워크를 도시한다.
도3은 본 발명의 실시예에 따른 문의 처리를 위한 LSTM 프레임워크의 실시예의 세부사항을 도시한다.
도4는 본 발명의 실시예에 따른 주의 가중 이미지(attention weighted image)에 기반하여 응답을 생성하는 예시적인 흐름도이다.
도5는 본 발명의 실시예에 따른 주의 가중 이미지를 생성하기 위한 예시적인 흐름도를 도시한다.
도6은 본 발명의 실시예에 따른 일련의 예시적인 이미지 및 대응되는 QA 쌍을 도시하며, 각 이미지 및 그 상응한 데이터 세트의 번호를 도시한다.
도7은 본 발명의 실시예에 따른 이미지 관련 질문과 Toronto COCO-QA 데이터 세트 중 ABC-CNN을 통해 생성된 질문-가이드된 주의맵을 구비하는 선택된 이미지를 도시한다.
도8은 본 발명의 실시예에 따른 컴퓨팅 기기/정보 처리 시스템의 간략된 블록도를 도시한다.
아래의 설명에서는 해석의 목적으로, 본 발명에 대한 이해를 제공하도록 특정의 세부사항들을 설명한다. 그러나, 본 기술분야의 통상의 지식을 가진 자는 이러한 세부사항들이 없이 본 발명을 실시할 수 있음을 자명할 것이다. 이 밖에, 본 기술분야의 통상의 지식을 가진 자는 아래에 기재된 본 발명의 실시예들은 여러가지 방식(예를 들면, 과정, 장치, 시스템, 기기 또는 방법)으로 비일시적 컴퓨터 판독 가능한 매체에서 실시될 수 있을 자명할 것이다.
도면에 도시된 부재 또는 모듈은 본 발명 실시예의 예시적인 설명이고, 본 발명을 모호하게 하는 것 방지하고자 한다. 본 명세서 전반을 걸쳐, 부재는 독립적인 기능 유닛(서브 유닛을 포함)으로 설명될 수 있으나, 본 기술분야의 통상의 지식을 가진 자는 여러가지 부재 또는 그의 일부분이 독립적인 부재로 분할되거나 함께 병합(단일의 시스템 또는 부재에 병합되는 것을 포함)될 수 있음을 자명할 것이다. 본 명세서에서 설명하는 기능 또는 작동은 부재로 실시될 수 있음을 반드시 상기해야 한다. 부재는 소프트웨어, 하드웨어, 또는 이들의 조합으로 실시될 수 있다.
이 밖에, 도면 내의 부재 또는 시스템들 사이의 연결은 직접적인 연결에 한정되지 않는다. 반대로, 이러한 부재들 사이의 데이터는 중간 부재로 보정, 리포멧 또는 기타 방식으로 개변될 수 있다. 이외에, 별도의 또는 더욱 적은 연결을 사용할 수 있다. 전문 용어 "커플링”, "연결”, 또는 "통신적으로 연결”은 직접적인 연결, 하나 또는 다수의 중간 기기를 통해 진행되는 간접적인 연결 및 무선 연결을 포함하는 것으로 이해해야 한다.
명세서에 있어서, "하나의 실시예”, "바람직한 실시예”, "실시예", "다수의 실시예”의 언급은 실시예를 결부하여 서술되는 구체적인 특징, 구조, 특성 또는 기능이 본 발명의 적어도 하나의 실시예에 포함되는 것을 표시한다. 이외에, 본 명세서의 각 부분에서 상기와 같이 언급된 문구는 모두 동일한 실시예 또는 다수의 동일한 실시예를 의미하는 것은 아니다.
본 명세서 전반을 걸쳐, 일부 용어들은 설명의 목적으로 사용되는 것으로서, 한정하는 것으로 이해해서는 아니된다. 서비스, 기능 또는 자원은 단일 서비스, 단일 기능 또는 단일 자원에 한정되지 않는다. 이러한 전문 용어들의 사용은 관련 서비스, 기능 또는 자원의 가능한 분포 또는 집합의 분조를 지칭할 수 있다. 용어 "포함한다", "포함하는", "구비한다", "구비하는"은 개방형 용어로서, 그들 앞에 나열된 임의의 내용들은 모두 예시일 뿐, 나열된 아이템들에 한정되지 않음을 이해하여야 한다. 용어 "이미지”는 정지상태의 이미지 또는 영상 이미지로 이해해야 한다. 본문에서 임의의 과제들은 단지 조직적인 목적으로 사용되며, 명세서 또는 특허 청구 범위를 한정하기 위한 것은 않는다. 본 특허 문서에서 언급되는 각 참고 문헌들의 전문은 참조로서 본문에 원용된다.
이 밖에, 본 기술분야의 통상의 지식을 가진 자는, (1) 일부 단계들이 선택적으로 수행되고, (2) 단계들이 본문에 서술된 특정의 순서에 한정되지 않으며, (3) 일부 단계들이 상이한 순서로 수행되고, (4) 일부 단계들이 동시에 수행될 수 있음을 자명할 것이다.
A. 소개
시각 문답(VQA)은 컴퓨터 시각화, 자연 언어 처리 및 기계 학습의 학제간의 적극적인 연구 분야에 해당된다. 이미지 및 이미지와 관련되는 자연 언어 질문이 제공되면, VQA는 자연 언어를 사용하여 질문에 응답한다. VQA는 인공 지능을 구축하는 기본 단계일뿐만 아니라, 수많은 어플리케이션(예를 들면 이미지 검색, 맹인 내비게이션 및 어린이 조기 교육)에 대해서도 매우 중요하다. VQA는 이미지에 대해 심층 이해를 진행하도록 복잡한 산출 시각 기술을 요구하며, 질문 의미를 추출하도록 선진적인 자연 언어 처리 기술을 요구하며, 시각 정보 및 시맨틱 정보를 효과적으로 병합하도록 통일된 프레임워크을 요구하기 때문에, 이는 하나의 도전적인 태스크이다.
현재, 대부분의 선행기술 중의 VQA 모델은 시각 부분, 자연 언어 부분 및 응답 생성부분을 포함한다. 시각 부분은 심층 컨볼루션 신경망(CNN)[예를 들면 Y·A·러춘(Y. A. LeCun), L·버트(L. Bottou), G·B·오르(G. B. Orr) 및 K·R·뮐러(K. R. Muller), "효과적인 BackProp"(Efficient Backprop), 《신경망: 테크닉》(Neural networks: Tricks of the trade)), 제9-48페이지, 스프링거 출판사(Springer), 2012 참조] 또는 기존의 시각 특징 엑스트랙터를 사용하여 입력 이미지에서 시각 특징을 추출한다. 자연 언어 부분은 Bag-of-Word 모델 또는 순환형 신경망(RNN)[예를 들면 S·호치레이터(S. Hochreiter) 및 J·슈미트후버(J. Schmidhuber), "장-단기 메모리(Long short-term memory)", 《신경 계산》(Neural computation), 9(8):1735-1780, 1997] 모델 학습 조밀 질문 임베딩(dense question embedding)을 사용하여 질문 시맨틱을 인코딩한다. 응답 생성부분은 시각 특징 및 질문 임베딩이 제공될 경우 응답을 생성한다. 응답은 멀티-클래스 분류 장치를 통해 생성된 단일 문자 응답이거나, 별도의 RNN 디코더를 통해 생성된 완전한 문장일 수 있다. 전체적인 시각 특징 및 조밀적인 질문 임베딩은 선형/비선형의 조인트 프로젝션을 통해 통합된다. 이러한 통합은 통상적으로 시각 부분 및 질문 이해 부분 사이의 관계를 충분하게 이용하기에 부족하다.
본 명세서에서는 통일된 프레임워크로서 VQA의 시각 정보 및 시맨틱 정보를 통합하는 새로운 주의 기반의 구성 가능한 컨볼루션 신경망(ABC-CNN)의 실시예를 보여준다. 이미지와 관련되는 질문에 응답하도록 시도할 경우, 사람들은 응답을 제공하기 전에 질문 의도에 따른 정보 영역에 집중하게 된다. 예를 들면 , 도1 중 "코트가 무슨 색상인가"는 질문에 있어서, 사람들은 코트 색상을 판단하여 질문에 응답하기 전에 코트 영역을 찾는다. 이러한 영역을 찾아내는 메커니즘을 질문-가이드된 주의라고 칭하는 바, 이는 이러한 영역은 이미지 및 이미지와 관련되는 질문 양자에 의해 결정되기 때문이다.
이미지 및 이미지와 관련되는 질문이 제공될 경우, 제출한 프레임워크는 자연 언어 응답을 생성할 뿐만 아니라, 질문에 응답하는 중요한 증거로서 질문-가이드된 주의 정보를 더 제공한다. 실시예에 있어서, VQA 태스크는 단일 문자 응답을 고려한다. 그러나, 실시예는 예컨데 RNN 디코더를 사용하여 완전한 문장을 생성하는 것으로 확장될 수 있다.
이러한 문제를 처리하기 위해, 주의 기반의 구성 가능한 컨볼루션 신경망(ABC-CNN)을 제출한다. 본 발명의 일부 실시예에 따른 예시적인 ABC-CNN 프레임워크(200)는 도2에 도시된다. ABC-CNN 프레임워크는 시각 부분(이미지 특징맵 추출 부분이라고도 칭함), 질문 이해 부분 , 응답 생성 부분 및 주의 추출 부분을 포함한다. 설명되는 실시예에 있어서, 블록(205)은 시각 부분 또는 시각 부재를 가리킨다. 블록(210)은 질문 이해 부분 또는 질문 이해 부재를 가리킨다. 블록(215)은 구성 가능한 컨볼루션을 구비하는 주의 추출 부분 또는 주의 추출 부재를 표시한다. 블록(220)은 주의 가중된 이미지 특징맵(222)에 대해 멀티-클래스로 분류된 응답 생성 부분 또는 응답 생성 부재를 사용하는 것이다.
실시예에 있어서, 컨볼루션 신경망(CNN)(207)은 시각 부분에서 시각 특징을 추출하기 위한 것이다. 단일의 전체적인 시각 특징을 추출하는 대신, 공간 특징맵은 슬라이딩 윈도우에서 CNN을 적용하거나 완전한 컨볼루션 신경망을 이용하여 추춤됨으로써 중요한 공간 정보를 보류한다. 실시예에 있어서, 장-단기 메모리(LSTM) 모델(214)은 질문 이해 부분에서 질문 임베딩(212)을 획득하고, 멀티 클래스 분류 장치는 응답 생성부분에서 응답을 생성하기 위한 것이다. 시각 부분 및 질문 이해 부분은 질문-가이드된 주의를 통해 통합된다.
실시예에 있어서, 질문-가이드된 주의 정보는 주의 추출 부분(215)에서 질문-가이드된 주의맵(218)으로 표시되고, 주의 추출 부분(215)은 ABC-CNN 프레임워크의 핵심이다. 구성 가능한 컨볼루션 신경망을 거쳐 실현되고, 여기서 컨볼루션 커널(216)은 질문 임베딩을 시맨틱 공간으로부터 시각적 공간에 프로젝팅함으로써 생성된다. 구성 가능한 컨볼루션 커널은 질문 의미에 따라 결정된 시각 정보에 대응된다. 예를 들면 , 도1에 있어서, 질문 "우산은 무슨 색상인가”는 "우산” 이라는 시각 특징과 대응되는 컨볼루션 커널을 생성해야 한다. 구성 가능한 컨볼루션 커널과 이미지 특징맵의 컨볼루션은 각 영역이 제출된 질문을 응담함에 있어서의 중요성을 질문-가이드된 주의맵(218)으로 순응적으로 표시한다. 질문-가이드된 주의맵(218)은 시각 특징맵에 대해 공간적 가중을 진행하여 노이즈 및 관련 없는 정보를 필터링한다. 실시예에 있어서, ABC-CNN은 이미지 중의 주의 영역에 대한 아무런 인공 표기가 필요없이 이미지 및 언어 이해를 효과적으로 통합하고 단대단 방식으로 트레이닝을 진행하는 통일적인 프레임워크이다.
실험에 있어서, 본 발명에 따른 ABC-CNN 구조의 실시예는 하기 3개 기준 VQA데이터 세트에 대해 평가를 진행한다. Toronto COCOQA[M·렌(M. Ren), R·키로스(R. Kiros) 및 R·제멜(R. Zemel), "이미지 문답을 위한 모델 및 데이터의 탐색법”(Exploring models and data for image question answering), arXiv: 1505.02074.2015]; DAQUAR[M·말리노프스키(M. Malinowski) 및 M·프리츠(M. Fritz), "불확실한 입력에 기반한 실세계 정경의 문답의 멀티 월드 방안”(A multi-world approach to question answering about real-world scenes based on uncertain input), 《신경 정보 처리 시스템의 발전》(Advances in Neural Information Processing Systems), 제1682-1690페이지, 2014 참조]; 및 VQA [S·안톨(S. Antol), A·아그라왈(A. Agrawal), J·루(J. Lu), M·미첼(M. Mitchell), D·바트라(D. Batra), C·L·지트닉(C.L.Zitnick) 및 D·파리크(D. Parikh), "VQA: 시각 문답”(VQA: Visual question answering), arXiv 견본 인쇄 arXiv:1505.00468, 2015 참조]. 실험에 따르면, ABC-CNN 프레임워크는 선행 방법과 비하여 현저히 훌륭하다. 시각화는 ABC-CNN 구조가 질문 문의를 훌륭하게 반영하는 영역의 주의맵을 생성할 수 있다는 것을 증명하였다.
결론적으로 말하자면, 통일적인 ABC-CNN 프레임워크는 질문-가이드된 주의를 거쳐 효과적으로 시각 정보와 시맨틱 정보를 통합하여 VQA에 응용한다. 질문-가이드된 주의는 VQA 시스템 성능을 현저하게 개선할뿐만 아니라, 문답 과정에 대한 이해에 편의를 돕는다.
B. 관련 작업
VQA 및 이미지에 대한 설명: 이러한 두가지 문제는개 시각 내용을 추리하여 및 자연 언어로를 추리하는 결과를 표시하는 방면에서 유사점들이 존재한하다. VQA 및 이미지에 대한 설명을 추가하는 방면에 관한의 현재의 선행기술 방법은 CNN을 적용하여 추출 시각 특징을 추출하고 또한 LSTM 모델을 디코더로서 적용하여 디코딩함으로써 응답 또는 설명을 생성하였다. 일부 방법은 LSTM 디코더 중의 생성 기간에은 멀티 모델층을 적용하여 조인트 프로젝션 조합을 통해 시각 특징과 글자문자 임베딩 벡터를 조합할볼 수 있다. 적어도 하나의 기타 방법[P·세르마넷(P. Sermanet), A·프롬(A. Frome) 및 E·리얼(E. Real), "정밀한 분류를 위한 주의”(Attention for fine-grained categorization), arXiv 견본 인쇄 Xiv:1412.7054, 2014를 참조바람]은 프로젝팅된 이미지 특징을 이용하여 LSTM 디코더의 초기 상태로서 적용하며, 이는 시퀀스 대 시퀀스(Sequence to sequence) 학습[I·수츠케바(I.Sutskever), O·비냘스(O. Vinyals) 및 Q·V·리(Q. V. Le), "신경망을 이용한 시퀀스 대 시퀀스 학습”(Sequence to sequence learning with neural networks), 《신경 정보 처리 시스템의 발전》(Advances in neural information processing systems), 제3104-3112페이지, 2014를 참조] 중의 인코더-디코더 프레임워크와 유사하다. 이미지 특징을 전체적인 시각 특징으로 처리할 경우, 이들은 질문 중의 유용한 정보를 발굴하여 이들의 주의를 이미지 중의 대응되는 영역에 집중시키지 않았다.
주의 모델: 주의 모델은 수많은 컴퓨터 시각 태스크에 성공적으로 사용되었는 바, 대상 검출, 정밀한 이미지 분류, 정밀한 시각 인식 및 이미지에 설명을 추가하는 것을 포함한다. 주의 정보는 이미지 중의 주의 영역 시퀀스로 모델링될 수 있다. 순환형 신경망은 현재 주의 영역의 위치 및 시각 특징에 기반하여 바로 다음의 주의 영역을 예측한다. 일부 사람들은 상기 프레임워크를 각각 대상 인식, 대상 검출 및 정밀한 대상 인식에 사용한다. 다른 일부 사람들은 이미지에 설명을 추가하는 주의 기반의 모델을 발명하였고, 상기 모델은 순환형 신경망을 생성 장치로 사용함으로써, 모델이 문장 중의 상이한 문자를 생성할 경우 그의 주의를 상이한 이미지 영역에 집중시키도록 하였다. 상기 모델은 각 이미지 중의 한 세트의 건의 영역을 추출하고, 주의 가중은 LSTM 생성 장치의 히든 상태 및 각 건의 영역에서 추출된 시각 특징을 이용하여 학습한다. 일부의 경우[T·Y·린(T.Y. Lin), A·로이·초두리(A. Roy Chowdhury) 및 S·마지(S. Maji), "정밀 시각 인식을 위한 바이리니어 CNN 모델”(Bilinear CNN models for fine-grained visual recognition), arXiv견본 인쇄 arXiv:1504.07889, 2015 참조], 바이리니어 CNN 구조는 정밀한 이미지 분류를 위한 위치 및 내용을 조합도록 제안되었다. ABC-CNN은 이러한 시각 태스크들 상의 성공적인 어플리케이션로부터 영감을 받았고, 질문-가이드된 주의를 이용하여 VQA 성능을 개선하였다.
구성 가능한 컨볼루션 신경망: 이미 작은 범위 기상 예측을 위한 동적 컨볼루션 층 구조[B·클레인(B. Klein), L·울프(L. Wolf) 및 Y·아페크(Y. Afek), "소범위 기상 예측을 위한 동적 컨볼루션 층 구조”(A dynamic convolutional layer for short range weather prediction), 《IEEE컴퓨터 시각 및 패턴 인식 컨퍼런스》(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition) 제4840-4848페이지, 2015를 참조바람]가 제출되었다. 동적 컨볼루션층 중의 컨볼루션 커널은 신경망을 통해 이전 타임 스텝 중 기상 이미지 정보 코드에 의해 결정된다. VQA에 있어서, 주의 영역을 경정하는 가장 중요한 단서는 질문이다. 따라서, ABC-CNN 프레임워크의 실시예 중의 구성 가능한 컨볼루션 커널은 질문 임베딩을 통해 결정된다.
C. 주의 기반의 구성 가능한 CNN
도2는 ABC-CNN 프레임워크의 실시예를 도시하였다. 실시예에 있어서, 단일 문자 응답을 구비하는 QA 쌍은 본문 중의 중점 예시인 바, 태스크를 멀티-클래스 분류의 질문으로 간주할 수 있으므로, 이는 평가 메트릭을 간소화시키고 질문-가이드된 주의 모델의 개발에 집중하는 것을 허용한다. 그러나, 주의 모델의 실시예는 LSTM 디코더로 멀티-클래스 분류 모델을 대체하여 다문자의 문장을 응답으로서 생성하도록 용이하게 확장될 수 있다.
도2에 도시된 바와 같이, 설명되는 ABC-CNN 실시예는 이미지 특징 추출 부분(205), 질문 이해 부분(210), 주의 추출 부분(215) 및 응답 생성 부분(220) 등 4개 부재를 포함한다. 이미지 특징 추출 부분(205)에서, 실시예에 있어서, 심층 컨볼루션 신경망(207)은 각 이미지에 대하여 이미지 표현으로서 이미지 특징맵I(208)을 추출하기 위한 것이다. 실시예에 있어서, 1000클래스의 ImageNet 분류 챌린지 2012데이터 세트[J·덩(J. Deng), W·동(W. Dong), R·소셔(R. Socher), L·J·리(L.-J. Li), K·리(K. Li) 및 리페이페이(L.Fei-Fei), "이미지 네트워크: 대규모 계급 이미지 데이터 베이스”(A large-scale hierarchical image database), 《IEEE컴퓨터 시각 및 패턴 인식2009 CVPR2009컨퍼런스》(Computer Vision and Pattern Recognition, 2009.CVPR2009. IEEE Conference on), 제248-255페이지, IEEE, 2009를 참조]에서 예비 트레이닝된 VGG-19심층 컨볼루션 신경망[K·시모냔(K. Simonyan) 및 A·지서만(A. Zisserman, "대규모 이미지 인식을 위한 극심층 컨볼루션 네트워크”(A very deep convolutional networks for large-scale image recognition), arXiv견본 인쇄)arXiv:1409.1556, 2014를 참조], 및 PASCAL 2007 세그먼트 데이터 세트에서 예비 트레이닝된 완전 컨볼루션 세그먼트 신경망[L·C·첸(L.C. Chen), G·파판드레우(G. Papandreou), I·코키노스(I. Kokkinos), A·K·머피(K. Murphy) 및 A·L·유일(A. L. Yuille), "심층 컨볼루션 네트워크 및 전체 연결의 CRFS를 이용하는 시맨틱 이미지 세그먼트”(Semantic image segmentation with deep convolutional nets and fully connected CRFS), arXiv견본 인쇄 arXiv:1412.7062, 2014를 참조]을 사용하였다. 실시예에 있어서, 질문 이해 부분(210)은 LSTM층(214)을 사용하여 조밀 질문 임베딩(213)을 학습하고, 이미지 관련 질문의 시맨틱 정보를 인코딩한다. 실시예에 있어서, ABC-CNN 프레임워크의 핵심 부재는 주의 추출 부분(215)이다. 실시예에 있어서, 주의 추출 부분은 조밀 질문 임베딩에 따라 한 세트의 컨볼루션 커널(216)을 구성한다. 질문에서 질문되는 대상의 시각 특징을 특징화하는 컨볼루션 커널(216)은 이미지 특징맵(208)에 적용되어 질문-가이드된 주의맵(218)을 생성한다. 실시예에 있어서, 이미지 특징맵I(208), 주의 가중된 이미지 특징맵(222) 및 조밀 질문 임베딩(213)의 융합의 개선에 기반하여, 응답 생성부(220)는 멀티-클래스 분류 장치를 사용하여 질문에 응답한다. 본 부분의 나머지 부분은 ABC-CNN 프레임워크의 각 부재의 실시예에 대한 더욱 상세한 설명을 진행하기로 한다.
1. 주의 추출
실시예에 있어서, 질문-가이드된 주의맵( m )(질문에 의해 문의되는 이미지 영역을 반영하였음)은 구성 가능한 컨볼루션 신경망을 사용하여 각 이미지-질문 쌍에서 생성된다. 구성 가능한 컨볼루션 신경망 중의 컨볼루션 커널은 조밀 질문 임베딩( s )에 따라 조밀 질문 임베딩( s )을 시맨틱 공간으로부터 시각적 공간으로 프로젝팅함으로써 구성될 수 있다.
Figure pat00001
(1)
여기서 σ(.)는 sigmoid 함수이다.
실시예에 있어서, 조밀 질문 표현( s )은 질문에서 문의한 시맨틱 대상 정보를 인코딩한다. 실시예에 있어서, 프로젝션은 시맨틱 정보를 대응되는 시각 정보로 전환하여 질문에 의해 배치되는 커널로 간주하고, 이는 이미지 특징맵(I)과 동일한 개수의 채널을 구비한다. 예를 들면 , 만약 질문이 "우산이 무슨 색상인가"이면, 질문에 의해 배치되는 커널( k )는 우산의 시각 특징이여야 한다.
실시예에 있어서, 질문-가이드된 주의맵은 질문에 의해 배치되는 커널( k )을 이미지 특징맵(I)에 적용함으로써 생성된다.
Figure pat00002
(2)
여기서 m ij 는 위치(i, j) 부분의 질문-가이드된 주의 소자이고, 부호 *는 컨볼루션 연산을 표시한다. 실시예에 있어서, Softmax 정규화는 질문-가이드된 맵으로서 공간 주의 분포를 생성한다. 실시예에 있어서, 컨볼루션은 주의맵( m )이 이미지 특징맵(I)과 동일한 크기를 확보하도록 충진된다. 질문-가이드된 주의맵은 질문에 의해 문의된는 영역에 집중된다. 예를 들면, "우산이 무슨 색상인가"는 질문은 이미지 중의 우산 영역 상에 집중되는 주의맵을 생성할 수 있으며, 컨볼루션 커널은 질문에 따라 자동차 시각 특징으로 구성될 수 있다.
주의맵( m )을 이용할 경우, 아래와 같은 이유들로 의해 네가지 질문 모두에 대한 문답 정확도를 개선할 수 있다.
·카운팅 질문, 예컨데 "대상물 중에 몇대의 차량이 존재하는가"에 있어서, 주의맵은 관련 없는 영역을 필터링함으로써 대상물로 하여금 더욱 용이하게 이미지 중의 대상물의 개수를 더욱 용이하게 추론하게 하였다.
·색상 질문, 예컨데 "코트는 무슨 색상인가?"에 있어서, 특정 대상의 색상은 관련 대상에 집중시킴으로써 더욱 효과적으로 응답된다.
·대상물 질문, 예컨데 "탁자 위에 놓여져 있는 것은 무엇인가?"에 있어서, 주의맵은 배경과 같은 별로 관련 없는 영역을 필터링하고, 공간 관계에 따라 대상물을 찾기위한 더욱 적합한 위치를 추론한다.
·위치 질문, 예컨데 "이미지 중의 버스는 어디에 있는가?"에 있어서, 주의맵은 정확한 응답을 생성함에 있어서 매우 중요한 바, 이는 대상물이 이미지 중의 어느 위치에 있는 지를 명확히 설명하기 때문이다.
2. 질문 이해
질문 이해는 시각 문답에 있어서 매우 중요하다. 질문 시맨틱 의미는 응답 생성에 대해 중요한 단서를 제공할 뿐만 아니라, 주의맵으로서 구성 가능한 컨볼루션 커널을 결정할 수 있다.
최근, 장-단기 메모리(LSTM) 모델은 이미 언어 이해의 방면에서의 작업이 훌륭하다는 것이 밝혀졌다. 실시예에 있어서, LSTM 모델은 조밀 질문 임베딩을 생성하여 질문 시맨틱 의미를 특징화하기 위해 이용된다. 실시예에 있어서, 질문( q )는 우선 문자 시퀀스{ v t }로 분류된다. 실시예에 있어서, 모든 대문자는 소문자로 전환되고, 모든 구두점들(punctuation)은 삭제된다. 트레이닝 세트에서 나타났지만 테스트 세트에서 나타나지 않은 문자는 특수 부호, 예컨데 #OOV#로 대체하고, 특수 부호 #B# 및 #E#는 시퀀스 헤드 및 시퀀스 엔드에 추가된다. 질문 사전에 따라, 각 문자는 조밀 문자 임베딩 벡터로 표시될 수 있다. 실시예에 있어서, LSTM은 메모리 게이트(memory gate)( c t ) 및 잊음 게이트(forget gate)( f t )를 이용하여 각 벡터( v t )로부터 히든 상태( h t )(등식3, 하기에 도시됨)를 생성하도록 문자 임베딩 시퀀스에 적용된다.
Figure pat00003
Figure pat00004
Figure pat00005
Figure pat00006
Figure pat00007
Figure pat00008
(3)
여기서, φ 는 쌍곡선 탄젠트 함수이고, ⊙는 두개 벡터 사이의 소자당 곱셈을 표시한다. 도3에서는 문의 과정을 위한 LSTM 프레임워크의 실시예의 세부사항을 도시한다. 입력 질문( q )의 시맨틱 정보(s)는 모든 타임 스텝에서 LSTM 상태{ h t }의 평균값을 구함으로써 획득된다.
3. 이미지 특징 추출
실시예에 있어서, 각 이미지 중의 시각 정보는 N × N × D인 이미지 특징맵으로 표시된다. 특징맵은 이미지를 N × N인 그리드로 나누고 그리드 중의 각 유닛에서 추출한 D차원 특징 벡터( f )로 추출된다. 실시예에 있어서, 원시 이미지 및 좌우 회전 이미지의 각 유닛 중의 중심, 좌상측 코너, 우상측 코너, 좌하측 코너 및 우하측 코너에서 다섯개(5개)의 윈도우를 추출함으로써, 각 유닛에 대하여 총으로 열개(10개) 윈도우를 생성한다. 실시예에 있어서, VGG-19 심층 컨볼루션 신경망은 각 윈도우에 대해 D차원 특징을 추출한다. 실시예에 있어서, 각 유닛의 D차원 특징 벡터는 모든 열개(10개)의 D차원 특징 벡터의 평균이다. 최종 N × N × D 이미지 특징맵은 N × N × D 차원의 특징 벡터의 직렬 연결이다.
이미지 특징맵은 완전 컨볼루션 신경망 구조를 이용하여 더욱 효과적으로 추출될 수도 있다. 실시예에 있어서, PASCAL 2007 세그먼트 데이터 세트에서 예비 트레이닝된 세그먼트 모델 [L·C·첸(L.C. Chen), G·파판드레우(G. Papandreou), I·코키노스(I. Kokkinos), A·K·머피(K. Murphy) 및 A·L·유일(A. L. Yuille), "심층 컨볼루션 네트워크 및 전체 연결의 CRFS를 이용하는 시맨틱 이미지 세그먼트”(Semantic image segmentation with deep convolutional nets and fully connected CRFS), arXiv견본 인쇄 arXiv:1412.7062, 2014]가 사용되고, 비교적 양호한 성능을 나타냈다.
4. 응답 생성
실시예에 있어서, 응답 생성부는 원 이미지 특징맵, 조밀 질문 임베딩 및 주의 가중된 이미지 특징맵을 위한 멀티-클래스 분류 장치이다. 실시예에 있어서, 주의맵은 이미지 특징맵(I)에 대해 공간적 가중을 진행하기 위한 것이다. 가중된 이미지 특징맵은 질문과 대응되는 대상물에 집중된다. 실시예에 있어서, 공간적 가중은 이미지 특징맵 및 주의맵의 각 채널 사이의 소자당 곱셈을 통해 실현된다.
Figure pat00009
(4)
상기 식에서 ⊙는 소자당 곱셈을 표시하고,
Figure pat00010
Figure pat00011
는 각각 주의 가중된 이미지 특징맵(
Figure pat00012
)과 원 이미지 특징맵(
Figure pat00013
)의 제i채널을 표시한다. 주의 가중된 이미지 특징맵은 질문과 관련 없는 영역의 가중치를 감소시킨다. 실시예에 있어서, 오버피팅을 방지하기 위해, 1 × 1 컨볼루션은 채널 개수를 감소시키도록 주의 가중된 이미지 특징맵에 적용되어, 감소된 특징맵I r 을 획득한다. 실시예에 있어서, 질문 또는 문의한 시맨틱 정보, 이미지 특징맵I 및 감소된 특징맵I r 은 비선형 프로젝션을 통해 융합된다.
Figure pat00014
(5)
상기 식에서 h는 최종 프로젝션 특징을 표시하고, 또한 g(.)는 소자당 하나씩 규정되는 쌍곡선 탄젠트 함수:
Figure pat00015
이다. 상기 함수는 기울기가 값의 가장 비선형적인 범위에 진입하도록 하고, 더욱 높은 트레이닝 속도를 실현한다.
실시예에 있어서, Softmax활성화를 구비하는 멀티-클래스 분류 장치는 최종 프로젝션 특징( h )에서 트레이닝된다. 응답 id는 응답 사전에서 지정할 수 있다. ABC-CNN에 의해 생성된 응답은 최대 확률을 갖는 문자이다.
Figure pat00016
(6)
여기서,
Figure pat00017
는 응답 사전 중의 모든 문자의 집합이다.
실시예에 있어서, 질문 및 응답을 위한 사전은 공유되지 않음을 유의해야 한다. 이는 동일한 문자에 대한 표현이 질문 및 응답에 대해 상이할 가능성이 존재한다는 것을 의미한다.
도4는 본 발명의 실시예에 따른 ABC-CNN 구조를 사용하여 응답을 생성하기 위한 예시적인 흐름도이다. 실시예에 있어서, ABC-CNN 구조는 단계 405에서 심층 컨볼루션 신경망 다수의 픽셀을 포함하는 입력 이미지에서 이미지 특징맵을 추출하고, 단계 410에서 장-단기 메모리(LSTM)층을 사용하여 입력 이미지와 관련되는 입력 질문에서 조밀 질문 임베딩을 획득한다. 단계 415에서, 조밀 질문 임베딩을 시맨틱 공간으로부터 시각적 공간에 프로젝팅하여 질문에 의해 배치되는 다수의 커널을 생성한다. 단계 420에서, 질문에 의해 배치되는 커널과 이미지 특징맵에 대해 컨볼루션을 진행하여 질문-가이드된 주의맵을 생성한다. 단계 425에서, 질문-가이드된 주의맵을 이용하여 이미지 특징맵에 대해 공간적 가중을 진행하여 멀티-클래스 분류 장치가 위치한 곳에서 주의 가중된 이미지 특징맵을 획득한다. 주의 가중된 이미지 특징맵은 질문과 관련 없는 영역의 가중치를 감소시키거나, 질문과 관련되는 영역에 집중시킨다. 실시예에 있어서, 공간적 가중은 이미지 특징맵 및 질문-가이드된 주의맵의 각 채널 사이의 소자당 곱셈을 통해 실현된다. 마지막으로, 단계 430에서, 이미지 특징맵, 심층 질문 임베딩 및 주의 가중된 이미지 특징맵의 융합에 기반하여 질문의 응답을 생성한다.
도5는 본 발명의 실시예에 따른 ABC-CNN 구조를 사용하여 질문-가이드된 주의맵을 생성하기 위한 예시적인 흐름도를 묘사한다. 실시예에 있어서, 주의맵 생성부는 단계 505에서 이미지 입력에서 추출한 이미지 특징맵을 수신하고, 단계 510에서, LSTM을 사용하여 질문 입력에서 획득한 조밀 질문 임베딩을 수신한다. 단계 515에서, 질문 임베딩을 시맨틱 공간으로부터 시각적 공간에 프로젝팅하여 한 세트의 구성 가능한 컨볼루션 커널을 생성한다. 단계 520에서, 공간 상의 주의 분포는 질문에 의해 배치되는 커널 및 이미지 특징맵 사이의 컨볼루션 연산을 통해 생성된다. 실시예에 있어서, ABC-CNN 프레임워크는 초기 가중치를 구비하고, 상기 초기 가중치는 예비 트레이닝 기간에 ABC-CNN 프레임워크 내의 모든 층(CNN 층 및 LSTM층 등을 포함함)의 각 차원의 활성화가 0의 평균값과 하나의 표준 유도를 구비하는 것을 확보하도록 랜덤으로 조절된다. 단계 525에서, Softmax 정규화를 공간상의 주의 분포에 적용시켜 질문-가이드된 주의맵을 생성한다.
5. 트레이닝 및 테스트
실시예에 있어서, 전체 프레임워크는 확률 기울기 하강 및 adadelta[M·D·자일러, "Adadelta : 순응적 학습 속도 방법”(Adadelta: An adaptive learning rate method), arXiv 견본 인쇄 arXiv:1212.5701, 2012 참조] 알고리즘의 단대단 방식을 이용하여 트레이닝된다. 각 확률 기울기는 독립 랜덤 샘플을 64개 이미지 질문로 하강시키고, 백 프로퍼케이션은 ABC-CNN 구조의 모든 가중치를 학습하도록 적용될 수 있다. 실시예에 있어서, 모든 층의 초기 가중치는 모든 층의 각 차원의 활성화가 0의 평균값 및 하나의 표준 유도를 구비하는 것을 확보하도록 랜덤으로 조절될 수 있다. 실시예에 있어서, 초기 학습 속도를 0.1로 설정한다. 실험에 있어서, ABC-CNN 실시예에서 단대단 방식으로 모든 가중치를 트레이닝하는 것이 가능할 수 있으나, 이미지 특징 추출 부분 중의 가중치는 더욱 신속한 트레이닝 속도를 허용하도록 고정될 수 있다.
테스트 단계 과정에서, 실시예에 있어서, 각 이미지에 대하여 이미지 특징맵을 추출한다. 실시예에 있어서, 질문을 제공받을 경우, 상기 질문의 조밀 질문 임베딩을 생성하고, 질문 임베딩은 컨볼루션 커널을 구성하도록 이용됨으로써, 주의맵을 생성한다. 실시예에 있어서, 멀티-클래스 분류 장치는 원 특징맵, 질문 임베딩 및 주의 가중된 이미지 특징맵의 융합을 이용하여 응답을 생성한다.
D. 실험
본 모델의 실시예는 하기의 데이터 세트에서 평가를 진행한다. 즉, Toronto COCOQA 데이터 세트[M·렌(M. Ren), R·키로스(R. Kiros) 및 R·제멜(R. Zemel), "이미지 문답을 위한 모델 및 데이터의 탐색법”(Exploring models and data for image question answering), arXiv: 1505.02074.2015]; DAQUAR 데이터 세트[M·말리노프스키(M. Malinowski) 및 M·프리츠(M. Fritz), "불확실한 입력에 기반한 실세계 정경의 문답의 멀티 월드 방법”(A multi-world approach to question answering about real-world scenes based on uncertain input), 《신경 정보 처리 시스템의 발전》(Advances in Neural Information Processing Systems), 제1682-1690페이지, 2014]; 및 VQA 데이터 세트 [S·안톨(S. Antol), A·아그라왈(A. Agrawal), J·루(J. Lu), M·미첼(M. Mitchell), D·바트라(D. Batra), C·L·지트닉(C.L.Zitnick) 및 D·파리크(D. Parikh), "VQA: 시각 문답”(VQA: Visual question answering), arXiv 견본 인쇄 arXiv:1505.00468, 2015]에서 평가를 진행한다. 실시예는 단일 문자 응답을 구비하는 QA 쌍에 대한 평가를 진행하는 바, 각각 Toronto-QA 데이터 세트, VQA 데이터 세트 및 DAQUAR데이터 세트(100%, 85%, 90%)를 고려한다. 이는 M·렌(M. Ren), R·키로스(R. Kiros) 및 R·제멜(R. Zemel), "이미지 문답을 위한 모델 및 데이터의 탐색법”(Exploring models and data for image question answering)(arXiv: 1505.02074.2015) 중의 평가에 부합된다. 이 밖에도, ABC-CNN 프레임워크의 실시예는 RNN 디코더를 이용하여 응답으로서 완전한 문장을 생성하는 것으로 용이하게 확장될 수 있다.
본 특허 문헌에서 인용하는 실험 및 결과는 (본 부분 또는 임의의 기타 부분에서) 설명의 방식으로 제공되고, 하나 또는 다수의 구체적인 실시예를 이용하여 구체적인 조건하에서 수행되며, 따라서, 이러한 실험 또는 그 결과는 본 특허 문선이 공개된 범위를 한정하기 위한 것이 아님을 이해하여야한다.
1. 구현의 세부 사항
실험에 있어서, 이미지 특징맵 및 주의맵 양자의 해상도는 3×3으로 선택되고, ATT-SEG-HSV 모델 외에, 상기 ATT-SEG-HSV 모델은 완전한 컨볼루션 세그먼트 네트워크에서 추출된 특징(16×16)을 이용한다. 각 이미지 유닛은 예비 트레이닝된 VGG 네트워크[K·챗필드, K·시모냔, A·베달디 및 A·지서만, "골칫거리는 세부사항에 존재: 컨볼루션 네트워크를 심도 깊게 탐구”(Return of the devil in the details: Delving deep into convolutional nets), arXiv견본 인쇄 arXiv:1405.3531, 2014를 참조]를 이용하여 4096차원 이미지 특징 벡터를 생성한다. 모든 이미지 유닛으로부터의 이미지 특징 벡터는 4096×3×3차원을 구비하는 이미지 특징맵을 구성한다. 오버피팅을 방지하기 위해, 특징맵의 차원은 1×1 컨볼루션을 사용하여 256×3×3으로 감소시킨다. 조밀 질문 임베딩의 차원은 256이다. 이외에, HSV 색상 특징맵은 이미지 특징맵(ATT-HSV)에 추가된다. 각 유닛 중의 색상 특징은 상기 각 유닛 중 픽셀의 HSV 히스토그램으로 인코딩된다. PASCAL 2007 세그먼트 데이터 세트에서 예비 트레이닝된 완전한 컨볼루션 신경망[L·C·첸(L.C. Chen), G·파판드레우(G. Papandreou), I·코키노스(I. Kokkinos), A·K·머피(K. Murphy) 및 A·L·유일(A. L. Yuille), "심층 컨볼루션 네트워크 및 전체 연결의 CRFS를 이용하는 시맨틱 이미지 세그먼트”(Semantic image segmentation with deep convolutional nets and fully connected CRFS), arXiv 견본 인쇄 arXiv:1412.7062, 2014을 참조]도 16×16×1024 특징맵의 생성에 이용되며, 이를 이미지 특징맵(ATT-SEG-HSV)으로서 HSV 색상 특징맵으로 직렬 연결된다. 4개의 K40 Nvidia GPU를 이용하여 Toronto COCO-QA 데이터 세트에서 네트워크 ATT- HSV를 트레이닝하기에는 약 24시간이 소요된다. 시스템은 단일 K40 GPU에서 질문 당 9.89 ms의 속도로 응답을 생성할 수 있다.
2. 데이터 세트
본 발명의 모델에 따른 실시예는 DAQUAR, Toronto COCO-QA 및 VQA 3개 데이터 세트에서 평가를 진행한다.
DAQUAR 데이터 세트는 풀 데이터 세트(DQ-Full) 및 축소 데이터 세트(DQ-Reduced) 두가지 버전을 구비한다. DQ-Reduced는 37개 대상 클래스의 질문 응답 쌍을 구비하고, 이는 894개 대상 클래스를 구비하는 DQ-Full 데이터 세트의 서브 세트이다. 두가지 버전은 NYU-Depth V2 데이터 세트[N·실버맨, D·호이엄, P·콜리 및 R·퍼거스, RGBD 이미지의 인도어 세그먼트 및 지원 추측(Indoor segmentation and support inference from RGBD images), 컴퓨터 시각―ECCV 2012, 제746-760페이지, 스프링거 출판사, 2012(Computer Vision-ECCV 2012, pages 746-760. Springer, 2012)]로부터의 인도어 정경 이미지를 이용한다. DQ-Full 데이터 세트는 6794개 QA쌍을 구비하는 795개 트레이닝 이미지 및 5674개 QA쌍을 구비하는 654개 테스트 이미지를 포함한다. DQ-Reduced 데이터 세트는 3825개 QA쌍을 구비하는 781개 트레이닝 이미지 및 286개 QA쌍을 구비하는 25개 테스트 이미지를 포함한다. 실험에 있어서, DAQUAR데이터 세트는 단지 단일 문자 응답을 구비하는 QA쌍에 대하여 테스트하고 트레이닝하며, 이는 렌(Ren) 등 사람들 [M·렌(M. Ren), R·키로스(R. Kiros) 및 R·제멜(R. Zemel), "이미지 문답을 위한 모델 및 데이터의 탐색법”(Exploring models and data for image question answering), arXiv: 1505.02074. 2015을 참조]이 진행한 평가에 부합된다. 이러한 QA쌍은 각각 DQ-Full 데이터 세트 및 DQ-Reduced 데이터 세트의 트레이닝 세트 및 측정 세트 중의(90.6%, 89.5%) 및(98.7%, 97.6%)을 구성한다.
Toronto COCO-QA 데이터 세트는 Microsoft COCO 데이터 세트(MS-COCO)로부터의 이미지를 이용한다. 이의 QA쌍은 단지 단일 문자 응답만 포함한다. 이의 기본 통계는 표1에 총결된다.
Toronto COCO-QA질문 유형 분해[P·세르마넷(P. Sermanet), A·프롬(A. Frome) 및 E·리얼(E. Real), "정밀한 분류를 위한 주의”(Attention for fine-grained categorization), arXiv 견본 인쇄 Xiv:1412.7054, 2014 참조].
분류 트레이닝 % 테스트 %
대상 54992 69.84 27206 69.85
개수 5885 7.47 2755 7.07
색상 13059 16.59 6509 16.71
위치 4800 6.10 2478 6.36
총계 78736 100.00 38948 100.00
VQA데이터 세트는 최근 수집한 데이터 세트이고, 이는 MS-COCO 데이터 세트 중의 이미지를 이용하여 구축된다. VQA 데이터 세트 중의 VQA 리얼 이미지(개방형) 태스크에 대한 제안 모델에 대한 평가가 진행된다. 이는 82783개의 트레이닝 이미지, 40504개의 검증 이미지 및 81434개의 테스트 이미지를 포함한다. MS-COCO 데이터 세트 중의 각 이미지에는 세개(3개)의 질문이 주석되고, 각 질문은 열개(10개)의 후보 응답을 구비한다. 트레이닝, 테스트 및 검증을 위한 QA쌍의 총수는 각각 248349, 121512, 244302이다. 본 모델의 실시예는 VQA 데이터 세트 중의 단일 문자 응답 QA쌍에 대하여 평가를 진행하고, 단일 문자 응답 QA쌍은 데이터 세트 중의 총 QA쌍의 86.88%를 구성한다. 도6은 세개 데이터 세트로부터의 일부 샘플을 도시한다.
3. 평가 메트릭
VQA모델의 성능은 "응답의 정확도” 및 "우-파마 유사성 측정 세트(Wu-Palmer similarity measure Set)(WUPS)"의 평점으로 평가를 진행한다. 응답의 정확도(ACC)는 참고 응답에 정확하게 매칭되어 생성된 응답의 백분율을 산출한다. WUPS 평점은 우-파마(WUP) 유사성[Z·吳(Z. Wu) 및 M·마파(M. Palmer), "동사 시맨틱 및 어휘 선택”(Verbs semantics and lexical selection), 《컴퓨터 언어 제32기 연차 총회 컨퍼런스》(Proceedings of the 32nd annual meeting on Association for Computational Linguistics), 제133-138페이지, 컴퓨터 언어 협회 출판, 1994를 참조]에서 얻어지고, 그 값은 [0, 1]의 범위 내에 있다. WUP 유사성은 두개 문자가 분류 트리 중의 최저 공동 선조의 깊이에 기반하여 두개 문자의 유사성을 측정한다. 역치를 구비하는 WUP 평점은 모든 생성된 응답 및 참조 응답의 하향 가중된 WUPS 평점에 대한 평균값이다. 두개 문자의 WUPS평점 Swups이 역치보다 낮으면, 하향 가중된 WUPS 평점은 0.1 Swups이다. 아니면, 그의 하향 가중된 WUPS은 Swups이다. 실험에 있어서, 역치 0.0 및 0.9을 구비하는 WUPS 평점이 사용된다.
4. 베이스라인 방법
본 방법의 실시예와 상이한 기준 방법을 비교한다. 모든 베이스라인 모델을 나열하면 아래와 같다.
1. VIS+LSTM(VL): 이는 렌(Ren) 등 사람이 제출한 프레임워크[M·렌(M. Ren), R·키로스(R. Kiros) 및 R·제멜(R. Zemel), "이미지 문답을 위한 모델 및 데이터의 탐색법”(Exploring models and data for image question answering), arXiv: 1505.02074.2015 참조]이고, 상기 프레임워크는 이미지 특징을 추출하는 CNN을 구비하며, 상기 CNN의 뒤를 잇는 것은 차원 감소층이다. 그리고, 이미지 특징은 질문 LSTM의 입력으로서 질문 문자 임베딩 시퀀스 헤드가 삽입된다.
2. 2-VIS+BLSTM( 2VB ): 이미지 특징은 문자 임베딩 시퀀스의 헤드(head) 및 엔드(end )에서 인코딩된다. 이외에도, 렌(Ren) 등 사람이 제출한 프레임워크 중의 LSTM는 전방 및 후방을 향해 행진하는 것으로 설정된다.
3. IMG+BOW(IB): 렌(Ren) 등 사람은 Bag-of-Words 특징을 사용하여 조밀 질문 임베딩을 생성한다.
4. IMG: 단지 이미지 특징은 질문 응답에 이용된다. 이는 "디프(deaf)" 모델이라 지칭된다.
5. LSTM: 단지 LTM으로부터의 조밀 질문 임베딩만 이용하여 응답을 생성한다. 이는 "블라인드” 모델이라 지칭된다.
6. ENSEMBLE: 렌(Ren) 등 사람은 상기 방법 조합을 사용하여 모델 융합에 대해 평가한다.
7. Q+I: 안톨(Antol) 등 사람[S·안톨(S. Antol), A·아그라왈(A. Agrawal), J·루(J. Lu), M·미첼(M. Mitchell), D·바트라(D. Batra), C·L·지트닉(C.L.Zitnick) 및 D·파리크(D. Parikh), "VQA: 시각 문답”(VQA: Visual question answering), arXiv견본 인쇄 arXiv:1505.00468, 2015 참조]은 조밀 질문 임베딩 및 이미지 특징 양자 트레이닝멀티-클래스 분류 장치를 이용하여 문답을 실현한다.
8. Q+I+C: Q+I 모델과 유사하게, Q+I+C 모델은 표기된 이미지로 설명된 조밀 임베딩를 부가 입력으로 이용한다.
9. ASK: 말리노프스키(Malinowski) 등 사람[M·말리노프스키(M. Malinowski) 및 M·프리츠(M. Fritz), "당신의 뉴런에 대한 문의: 이미지에 관한 질문에 응답하기 위한 신경에 기반한 방법(Ask your neurons: A neural-based approach to answering questions about images), arXiv견본 인쇄 arXiv:1505.01121, 2014] 는 LSTM 디코더에서 CNN 특징 및 질문 임베딩을 선형 조합하여 응답을 생성한다.
5. 결과 및 분석
표2, 4 및 5는 상이한 모델이 각각 Toronto COCO-QA데이터 세트, DQ-Reduced 데이터 세트 및 DQ-Full데이터 세트에서의 성능을 총결하였다. 표3은 각 분류중의 상이한 방법이 Toronto COCO-QA데이터 세트에서의 성능을 분해하였다.
표2에 있어서, 단지 VGG 특징맵(AYY)을 사용하는 ABC-CNN은 렌(Ren) 등 사람[M·렌(M. Ren), R·키로스(R. Kiros) 및 R·제멜(R. Zemel), "이미지 문답을 위한 모델 및 데이터의 탐색법”(Exploring models and data for image question answering), arXiv: 1505.02074.2015 참조]의 단일 모델 중의 대다수보다 우수하다. HSV 특징맵과 VGG특징맵(ATT-HSV)을 조합하는 것을 통해, ABC-CNN 의 성능은 모든 베이스라인 모델을 초월한다. 비록 단일 모델만 사용하였으나, ABC-CNN은 심지어 응답 정확도에서 ENSEMBLE모델보다 0.2% 높다. ABC-CNN "대상”, "개수” 및 "위치” 분류에서 베이스라인 방법보다 우수한 바, 이는 질문-가이드된 주의가 질문 시맨틱 및 이미지 중의 정경 정보를 발굴하여 질문에 응답하기 때문이다. ABC-CNN의 정확도는 "색상” 분류에서 IB 및 ENSEMBLE 모델보다 조금 낮다.
또한, 완전 컨볼루션 모델 ATT-SEG-HSV의 성능은 VGG모델 ATT-HSV보다 조금 양호하나, 완전 컨볼루션 신경망을 이용하여 특징맵을 추출하는 것보다 더욱 신속하다. VGG, SEG 및 HSV 특징을 이용하여(ATT-VGG-SEG-HSV) 최적한 성능을 얻는다. 구체적으로, 완전 컨볼루션 모델의 추가는 위치 질문을 정확하게 응답하기 위한 것이다. ABC-CNN 중의 주의(NO-ATT)도 소거 실험(ablative experiment)으로 간주되기 위해 제거되고, 이는 각각 정확도에서 1.34%, 0.85% 및 0.35%의 손실의 WUPS 0.9 및 WUPS 0.0의 평점을 발생한다.
표4에 있어서, ABC-CNN 모델과 베이스라인 모델을 DQ-Reduced 데이터 세트에서 비교한다. ABC-CNN 모델의 성능은 모든 메트릭스에서 모든 단일 모델보다 높다. WUPS 0.9 측정에 있어서, ABC-CNN 모델은 ENSEMBLE모델보다 단지 0.53% 낮다.
DQ-Full 및 VQA 데이터 세트에서, ABC-CNN는 표5 및 6의 데이터 세트에서 기존의 해결수단보다 우수하다. DQ-Full데이터 세트에서, ABC-CNN 모델과 Toronto COCO-QA 데이터 세트 및 DQ-Reduced 데이터 세트에서의 모델은 동일하다. VQA 데이터 세트에서, 공평한 평가를 위해서, 안톨(Antol) 등 사람[S·안톨(S. Antol), A·아그라왈(A. Agrawal), J·루(J. Lu), M·미첼(M. Mitchell), D·바트라(D. Batra), C·L·지트닉(C.L.Zitnick) 및 D·파리크(D. Parikh), "VQA: 시각 문답”(VQA: Visual question answering), arXiv견본 인쇄 arXiv:1505.00468, 2015]과 동일하게 1000개 가장 빈번한 응답(ATT 1000)을 포함한 응답 사전을 사용한다. ABC-CNN 모델은 모든 응답(ATT Full)을 포함하는 응답 사전을 사용하여 평가하기도 한다.
도7은 생성된 질문-가이드된 주의맵 및 그에 대응되는 이미지 및 질문의 일부를 도시한다. 이로부터 관찰할 수 있는 바, 질문-가이드된 주의맵은 상이한 주의 영역을 구비하는 상이한 질문의 의향을 성공적으로 캡쳐하였다. 이러한 주의맵을 이용하여, 그의 주의를 중요한 영역에 집충시키고 관련 없는 정보를 필터링시킴으로써, ABC-CNN는 더욱 정확한 응답을 생성할 수 있다. 원 특징맵이 응답을 예측할 경우데고 제공되기 때문에, 문의 대상이 단지 이미지 중의 대상(예를 들면 "언덕 풀밭에 누워 있는 것은 무엇인가")일 경우, ABC-CNN는 주의맵을 사용하지 않는 정황하에서 질문을 응답할 수 있다.
각 카테고리의 Toronto COCO-QA 정확도
모델 대상 개수 색상 위치
IMG 0.4073 0.2926 0.4268 0.4419
IB 0.5866 0.4410 0.5196 0.4939
VL 0.5653 0.4610 0.4587 0.4552
2VB 0.5(817) 0.4479 0.4953 0.4734
ENSEMBLE 0.6108 0.4766 0.5148 0.5028
NO-ATT 0.5882 0.4319 0.4168 0.4762
ATT 0.5977 0.4693 0.4359 0.4911
ATT-HSV 0.6217 0.4799 0.4727 0.5194
ATT-SEG-HSV 0.6238 0.4617 0.4694 0.5278
ATT-SEG-VGG-HSV 0.6246 0.4570 0.4681 0.5367
DAQUAR-Reduce데이터 세트에 관한 결과
모델 ACC. WUPS 0.9 WUPS 0.0
LSTM 0.3273 0.4350 0.8162
IMG+BOW 0.3417 0.4499 0.(814)8
VIS+LSTM 0.3441 0.4605 0.8223
2-VIS+BLSTM 0.3578 0.4683 0.8215
ENSEMBLE 0.3694 0.4815 0.8268
NO-ATT 0.3931 0.4445 0.8230
ATT 0.4276 0.4762 0.8304
HUMAN 0.6027 0.6104 0.7896
DAQUAR-Full데이터 세트에 관한 결과
모델 ACC. WUPS 0.9 WUPS 0.0
ASK 0.1943 0.2528 0.6200
ATT 0.2537 0.3135 0.6589
HUMAN 0.5020 0.5082 0.6727
상이한 모델의 VQA데이터 세트에서의 성능
모델 Q+I Q+I+C ATT 1000 ATT Full
ACC. 0.2678 0.2939 0.4838 0.4651
E. 시스템 실시예
실시예에 있어서, 본 특허문서의 각 측면들은 정보 처리 시스템/컴퓨팅 시스템에 관한 것이거나 정보 처리 시스템/컴퓨팅 시스템을 이용하여 구현될 수 있다. 본 개시를 목적으로, 컴퓨팅 시스템은 상업, 과학, 제어 또는 기타 목적으로 임의의 형식의 정보, 기밀 정보 또는 데이터를 컴퓨팅, 연산, 분류, 처리, 전송, 수신, 검색, 발생, 라우팅, 전환, 저장, 표시, 통신, 표출, 감지, 기록, 복사, 핸들링 또는 이용하는 임의의 장치 또는 장치의 집합일 수 있다. 예를 들어, 컴퓨팅 시스템은 개인용 컴퓨터(예를 들어, 랩톱 컴퓨터), 태블릿 컴퓨터, 태블릿 핸드폰, 개인 휴대 정보 단말기(PDA), 스마트 폰, 스마트 시계, 스마트 포장, 서버(예를 들어, 고밀도 서버 또는 랙 서버), 네트워크 저장 장치, 또는 임의의 기타 적합한 장치일 수 있고, 크기, 형태, 성능, 기능 및 가격 상 상이할 수 있다. 컴퓨팅 시스템은 랜덤 액세스 메모리 장치(RAM), 하나 또는 다수의 처리 자원(예를 들어, 중앙 처리 유닛(CPU) 또는 하드웨어 또는 소프트웨어 제어 로직), ROM 및/또는 기타 유형의 메모리 장치를 포함할 수 있다. 컴퓨팅 시스템의 기타 부재들은 하나 또는 다수의 디스크 드라이브, 외부 기기와 통신하기 위한 하나 또는 다수의 네트워크 포트, 및 키보드, 마우스, 터치스크린 및/또는 영상 표시 장치와 같은 각종 입력 및 출력(I/O) 장치를 포함할 수 있다. 컴퓨팅 시스템은 각종 하드웨어 부재 사이에서 통신을 전달하도록 작동될 수 있는 하나 또는 다수의 버스라인을 더 포함할 수 있다.
도 8은 본 개시의 실시예에 따른 컴퓨팅 기기/정보 처리 시스템(또는 컴퓨팅 시스템)의 간략된 블록도를 나타낸다. 비록 정보 처리 시스템이 상이한 구성을 가질 수 있고, 상이한 부재들을 포함할 수 있으나, 시스템(800)에 도시된 기능들이 정보 체리 시스템의 각 실시예들을 지원하도록 작동될 수 있음을 이해할 것이다.
도 8에 도시된 바와 같이, 시스템(800)은 컴퓨팅 자원을 제공하고 컴퓨터를 제어하는 하나 또는 다수의 중앙 처리 유닛(CPU; 801)를 포함한다. CPU(801)는 마이크로프로세서 등을 이용하여 구현될 수 있고, 하나 또는 다수의 그래픽 처리 유닛(GPU; 817) 및/또는 수학적 계산을 위한 부동 소수 보조 프로세서를 더 포함할 수 있다. 시스템(800)은 시스템 메모리 장치(802)를 포함할 수도 있고, 시스템 메모리 장치(802)는 랜덤 액세스 메모리 장치(RAM) 또는 읽기 전용 메모리 장치(ROM)의 형태를 구비하거나, RAM과 ROM의 형태를 동시에 구비할 수도 있다.
도 8에 도시된 바와 같이, 다수의 제어 장치 및 주변 장치가 더 제공될 수 있다. 입력 제어 장치(803)는 키보드, 마우스 또는 스타일러스와 같은 각종 입력 장치(804)에 통하는 인터페이스를 표시한다. 스캐너(806)와 통신하는 스캐너 제어 장치(805)가 더 구비될 수 있다. 시스템(800)은 하나 또는 다수의 저장 장치(808)와 상호 작용하기 위한 메모리 제어 장치(807)를 더 포함할 수 있고, 하나 또는 다수의 저장 장치(808) 중 각각은 자기 테이프 또는 디스크와 같은 저장 매체 또는 운영 체제, 실용 프로그램 및 응용의 명령 프로그램에 대한 기록에 사용될 수 있는 광학 매체를 포함할 수 있으며, 여기서 응용은 본 발명의 각 측면들을 구현하는 프로그램의 실시예들을 포함할 수 있다. 본 발명에 따르면, 저장 장치(808)는 이미 처리된 데이터 또는 처리될 데이터를 저장하도록 더 구성될 수 있다. 시스템(800)은 표시 장치(811)에 인터페이스를 제공하기 위한 표시 제어 장치(809)를 더 포함할 수 있고, 표시 장치(811)는 음극 선관(CRT), 박막 트랜지스터(TFT) 모니터, 또는 기타 유형의 모니터일 수 있다. 컴퓨팅 시스템(800)은 프린터(813)와 통신하기 위한 프린터 제어 장치(812)를 더 포함할 수 있다. 통신 제어 장치(814)는 하나 또는 다수의 통신 장치(815)와 상호 작용할 수 있고, 통신 장치(815)는 시스템(800)이 인터넷, 클라우드 자원 (예컨데, 이더넷 클라우드, 이더넷 상의 파이버 채널(FCoE)/데이터 센터 브리징(DCB) 클라우드 등), 근거리 통신망(LAN), 광역 통신망(WAN), 저장 영역 네트워크(SAN)를 포함한 다양한 네트워크 중의 임의의 네트워크, 또는 적외선 신호를 포함한 임의의 적합한 전자기 캐리어 신호를 통해 원격 장치에 연결되도록 할 수 있다.
도시된 시스템에서, 모든 메이저 시스템 부재들은 하나 이상의 물리적 버스라인을 표시할 수 있는 버스라인(916)에 연결될 수 있다. 그러나, 각종 시스템 부재들은 물리적으로 근접할 수도 있고, 근접하지 않을 수도 있다. 예를 들어, 입력 데이터 및/또는 출력 데이터는 일 물리적 위치에서 다른 일 물리적 위치에 원격으로 전송될 수 있다. 또한, 본 발명의 각 측면들을 구현하는 프로그램들은 네트워크 상에서 원격 위치(예를 들어, 서버)로부터 방문될 수 있다. 해당 데이터 및/또는 프로그램은 다양한 기계 판독 가능한 매체 중의 임의의 매체를 통해 전송될 수 있고, 기계 판독 가능한 매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 홀로그래픽 장치와 같은 광학 매체, 광 자기 매체, 및 프로그램 코드를 저장하거나 저장 및 실행하도록 특별히 구성된 예를 들어 응용 주문형 집적 회로(ASIC), 프로그램 가능 논리 소자(PLD), 플래시 메모리 장치 및 ROM 및 RAM장치와 같은 하드웨어 장치를 포함하나 이에 한정되지 않는다.
본 발명의 실시예는 각 단계를 수행하도록 하나 또는 다수의 프로세서 또는 처리 유닛에 대한 명령을 이용하여 하나 또는 다수의 비휘발성 컴퓨터 판독 가능한 매체에 코딩될 수 있다. 하나 또는 다수의 비휘발성 컴퓨터 판독 가능한 매체는 휘발성 및 비휘발성 메모리 장치를 포함해야 함을 유의해야 한다. 하드웨어 구현방식 또는 소프트웨어/하드웨어 구현방식을 포함한 대체 가능한 실시예도 가능함을 유의해야 한다. 하드웨어로 구현되는 기능은 ASIC, 프로그램 가능 배열, 디지털 신호 처리 등을 이용하여 실현될 수 있다. 따라서, 임의의 청구항에 있어서, 용어 "장치"는 소프트웨어 구현방식과 하드웨어 구현방식을 모두 포함하는 것을 목적으로 한다. 마찬가지로, 본 명세서에 사용되는 용어 "컴퓨터 판독 가능한 매체"는 각자 상에서 실행되는 명령 프로그램을 구비한 소프트웨어 및/또는 하드웨어, 또는 소프트웨어와 하드웨어의 조합을 포함한다. 이러한 실시예들의 대체 방안에 관하여, 첨부된 도면 및 그에 따른 설명에는 해당 기술분야의 통상의 지식을 가진 자가 프로그램 코드(즉, 소프트웨어)의 작성 및/또는 회로(즉, 하드웨어)의 제조에 필요한 처리를 수행함에 있어서 필요되는 기능성 정보가 제공된다.
본 발명의 실시예는 다양한 컴퓨터 실행 조작을 수행하기 위한 컴퓨터 코드를 포함한 비휘발성 유형(tangible) 컴퓨터 판독 가능한 매체를 구비한 컴퓨터 제품에 관한 것일 수도 있음을 유의해야 한다. 매체 및 컴퓨터 코드는 본 발명을 목적으로 특별히 디자인 및 구성된 매체 및 컴퓨터 코드일 수 있거나, 또는 관련 분야의 기술자들에게 알려진 또는 이들이 획득할 수 있는 유형일 수 있다. 유형 컴퓨터 판독 가능한 매체의 예시로는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 홀로그래픽 장치와 같은 광학 매체, 광 자기 매체, 및 프로그램 코드를 저장하거나 저장 및 실행하도록 특별히 구성된, 예를 들어 응용 주문형 집적 회로(ASIC), 프로그램 가능 논리 소자(PLD), 플래시 메모리 장치 및 ROM 및 RAM장치와 같은 하드웨어 장치를 포함하나 이에 한정되지 않는다. 컴퓨터 코드의 예시로는 컴파일러로 생성된 기계 코드, 및 컴퓨터가 인터프리터를 이용하여 실행한 고차원 코드를 포함한 파일을 포함한다. 본 발명의 실시예는 전체적으로 또는 부분적으로 처리 유닛로 실행되는 프로그램 모듈에 위치할 수 있는 기계 실행 가능한 명령어로 구현될 수 있다. 프로그램 모듈의 예시로는 라이브러리, 프로그램, 루틴, 대상, 부재 및 데이터 구조를 포함한다. 분산형 컴퓨팅 환경에서, 프로그램 모듈은 물리적으로 로컬, 리모트 또는 로컬과 리모트를 겸비한 설정속에 위치될 수 있다.
해당 기술분야의 통상의 지식을 가진 자는 어떠한 컴퓨팅 시스템 또는 프로그래밍 언어도 본 발명의 실시에 대해 결정적인 것이 아님을 인정할 것이다. 해당 기술분야의 통상의 지식을 가진 자는 상기한 여러 요소들이 물리적으로 및/또는 기능적으로 서브 모듈로 분리될 수 있거나 또는 함께 조합될 수 있다는 것도 이해할 것이다.
전술한 예시, 실시예 및 실험예들은 예시적으로서, 명확성과 이해를 돕기위한 목적으로 이용될 뿐, 본 발명의 범위를 한정하는 것이 아님을 이해할 것이다. 이는 명세서에 대한 열독과 첨부 도면에 대한 연구를 거쳐 해당 기술분야에서 통상의 지식을 가진 자에게 명확한 모든 대체, 치환, 보강, 균등, 조합 및 그에 대한 개선들이 본 발명의 범위에 포함되도록 하는데 목적이 있다. 따라서, 본 발명의 청구범위에서 명확히 기재하지 않은 한, 본 발명의 참된 정신과 범위 내에 포함되는 이러한 대체, 치환, 보강, 균등, 조합 및 그에 대한 개선들은 본 발명의 청구범위에 포함되도록 하는데 목적이 있다. 청구범위 중의 요소들은 다수의 의존성, 구성 및 조합을 포함하여 상이하게 배치될 수 있음을 유의하여야 한다. 예를 들어, 실시예에 있어서, 각 청구항의 주제는 기타 청구항들과 조합될 수 있음을 유의하여야 한다.

Claims (20)

  1. 이미지 입력과 관련되는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법에 있어서,
    상기 이미지 입력를 수신하는 단계;
    상기 이미지 입력과 관련되는 상기 질문 입력을 수신하는 단계;
    상기 질문 입력과 상기 이미지 입력을 주의 기반의 구성 가능한 컨볼루션 신경망(Attention-Based Configurable Convolutional Neural Networks, ABC-CNN) 프레임워크에 입력하여 응답을 생성하는 단계를 포함하되,
    상기 ABC-CNN 프레임워크는,
    상기 이미지 입력에서 이미지 특징맵을 추출하는 CNN 을 포함하는 이미지 특징맵 추출 부재;
    상기 질문 입력에서 질문 임베딩(embeddings)을 획득하는 시맨틱 질문 임베딩 부재;
    상기 이미지 특징맵과 상기 질문 임베딩을 수신하고, 상기 질문 입력에서 문의되는 하나 또는 다수의 영역에 집중되는 질문-가이드된 주의맵을 획득하는 질문-가이드된 주의맵 생성 부재; 및
    상기 질문-가이드된 주의맵을 이용하여 이미지 특징맵에 대해 가중을 진행하여 주의 가중된(attention weighted) 이미지 특징맵을 획득하고, 상기 이미지 특징맵, 상기 질문 임베딩과 상기 주의 가중된 이미지 특징맵의 융합에 기반하여 응답을 생성하는 응답 생성 부재를 포함하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  2. 제1항에 있어서,
    상기 시맨틱 질문 임베딩 부재는,
    상기 질문 임베딩을 생성하여 상기 질문 입력의 시맨틱 의미를 특징화시키도록 장-단기 메모리(LSTM)층을 포함하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  3. 제1항에 있어서,
    상기 질문-가이드된 주의맵 생성 부재는,
    상기 질문 임베딩을 시맨틱 공간으로부터 시각적 공간에 프로젝팅하여 생성되며, 상기 이미지 특징맵과 컨볼루션되어(convolve) 상기 질문-가이드된 주의맵을 생성하는 구성 가능한 컨볼루션 커널(kernel)을 포함하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  4. 제3항에 있어서,
    상기 컨볼루션 커널은 상기 이미지 특징맵과 동일한 개수의 채널을 구비하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  5. 제3항에 있어서,
    상기 질문-가이드된 주의맵은 상기 이미지 특징맵과 동일한 크기를 구비하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  6. 제1항에 있어서,
    상기 이미지 특징맵은, 상기 이미지 입력을 다수의 그리드로 나누고 상기 그리드의 각 유닛에서 D차원(D-dimension) 특징 벡터를 추출하는 것을 통해 추출되는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  7. 제1항에 있어서,
    상기 이미지 특징맵은 주의 가중된 이미지 특징맵을 획득하도록 상기 질문-가이드된 주의맵에 의해 공간적 가중(spatially weighted)되는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  8. 제7항에 있어서,
    상기 공간적 가중은 상기 이미지 특징맵과 상기 질문-가이드된 주의맵의 각 채널 사이의 소자당(element-wise) 곱셈을 통해 실현되는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  9. 제8항에 있어서,
    상기 공간적 가중은 공간적 주의 분포를 위한 Softmax 정규화를 통해 더 한정되는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  10. 제1항에 있어서,
    상기 ABC-CNN 프레임워크는 확률 기울기 하강(stochastic gradient descent)을 이용하여 단대단(end-to-end) 방식으로 예비 트레이닝(pre-training)을 진행하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  11. 제10항에 있어서,
    상기 ABC-CNN 프레임워크는,
    예비 트레이닝 기간에 상기 ABC-CNN 프레임워크 내의 모든 층의 활성화의 각 차원이 0평균값 및 하나의 표준 유도(standard derivation)를 구비하는 것을 확보하도록 랜덤으로 조절되는 초기 가중치를 구비하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 컴퓨터 구현 방법.
  12. 심층 컨볼루션 신경망을 사용하여 다수의 픽셀을 포함하는 입력 이미지에서 이미지 특징맵을 추출하는 단계;
    장-단기 메모리(LSTM)층을 사용하여 상기 입력 이미지와 관련되는 입력 질문에서 조밀(dense) 질문 임베딩을 획득하는 단계;
    상기 조밀 질문 임베딩을 시맨틱 공간으로부터 시각적 공간에 프로젝팅하여 질문에 의해 배치되는 다수의 커널을 생성하는 단계;
    상기 질문에 의해 배치되는 커널과 상기 이미지 특징맵을 컨볼루션하여 질문-가이드된 주의맵을 생성하는 단계;
    상기 질문-가이드된 주의맵을 이용하여 상기 이미지 특징맵에 대해 공간적 가중을 진행하여 멀티-클래스 분류 장치(classifier)에서 상기 입력 질문과 관련되지 않는 영역의 가중을 저감시키는 주의 가중된 이미지 특징맵을 획득하는 단계; 및
    상기 이미지 특징맵, 상기 조밀 질문 임베딩 및 상기 주의 가중된 이미지 특징맵의 융합에 기반하여 상기 입력 질문에 대해 응답을 생성하는 단계를 포함하는 것을 특징으로 하는 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법.
  13. 제12항에 있어서,
    상기 공간적 가중은 상기 이미지 특징맵 및 상기 질문-가이드된 주의맵의 각 채널 사이의 소자당 곱셈을 통해 실현되는 것을 특징으로 하는 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법.
  14. 제12항에 있어서,
    상기 질문-가이드된 주의맵은 상기 입력 질문에 따라 각 픽셀의 관심도를 순응적으로 표시하는 것을 특징으로 하는 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법.
  15. 제12항에 있어서,
    상기 질문-가이드된 주의맵은, 상기 질문에 의해 배치되는 커널을 상기 이미지 특징맵에 적용하여 획득되는 것을 특징으로 하는 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법.
  16. 제12항에 있어서,
    상기 이미지 특징맵, 상기 조밀 질문 임베딩 및 상기 주의 가중된 이미지 특징맵은 비선형 프로젝션을 통해 융합되는 것을 특징으로 하는 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법.
  17. 제16항에 있어서,
    상기 비선형 프로젝션은 소자당 하나씩 규정되는 쌍곡선 탄젠트 함수인 것을 특징으로 하는 이미지와 관련되는 질문에 대한 응답을 생성하는 컴퓨터 구현 방법.
  18. 질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기에 있어서,
    질문 입력의 수신에 응답하여 상기 질문 입력의 조밀 질문 임베딩을 추출하는 장치;
    상기 질문 입력과 관련되는 이미지 입력의 수신에 응답하여 이미지 특징맵을 생성하는 장치;
    적어도 상기 이미지 특징맵과 상기 조밀 질문 임베딩에 기반하여, 상기 질문 입력에서 문의되는 영역에 선택적으로 집중되는 질문-가이드된 주의맵을 생성하는 장치;
    상기 질문-가이드된 주의맵을 이용하여 상기 이미지 특징맵에 대해 공간적 가중을 진행하여 주의 가중된 이미지 특징맵을 획득하는 장치; 및
    시맨틱 정보, 상기 이미지 특징맵 및 상기 주의 가중된 이미지 특징맵을 융합하여 상기 질문 입력에 대해 응답을 생성하는 장치;를 포함하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기.
  19. 제18항에 있어서,
    질문-가이드된 주의맵을 생성하는 장치는,
    상기 주의맵의 공간적 주의 분포에 대해 Softmax 정규화를 진행하도록 더 구성되는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기.
  20. 제19항에 있어서,
    질문-가이드된 주의맵을 생성하는 장치는,
    상기 조밀 질문 임베딩에 따라 한 세트의 컨볼루션 커널을 구성하고, 상기 컨볼루션 커널을 상기 이미지 특징맵에 적용하여 상기 질문-가이드된 주의맵을 생성하도록 구성되는 단계를 포함하는 것을 특징으로 하는 질문 입력에 대해 생성한 응답의 정확도를 개선하는 기기.
KR1020160145584A 2015-11-03 2016-11-03 시각 문답을 위한 시스템 및 방법 KR101865102B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562250260P 2015-11-03 2015-11-03
US62/250,260 2015-11-03
US15/184,991 US9965705B2 (en) 2015-11-03 2016-06-16 Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US15/184,991 2016-06-16

Publications (2)

Publication Number Publication Date
KR20180038937A true KR20180038937A (ko) 2018-04-17
KR101865102B1 KR101865102B1 (ko) 2018-06-07

Family

ID=57281007

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160145584A KR101865102B1 (ko) 2015-11-03 2016-11-03 시각 문답을 위한 시스템 및 방법

Country Status (5)

Country Link
US (1) US9965705B2 (ko)
EP (1) EP3166049B1 (ko)
JP (1) JP6351689B2 (ko)
KR (1) KR101865102B1 (ko)
CN (1) CN106649542B (ko)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102073323B1 (ko) * 2018-09-02 2020-02-03 주식회사 뉴로다임 인공지능 기반의 구조물 건전성 관리 시스템
KR20200092492A (ko) * 2019-01-11 2020-08-04 연세대학교 산학협력단 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
KR20200098379A (ko) * 2019-02-12 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
KR102148607B1 (ko) * 2019-07-26 2020-08-26 연세대학교 산학협력단 오디오-비디오 정합 영역 탐지 장치 및 방법
KR20220002067A (ko) * 2020-06-30 2022-01-06 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
KR20220141537A (ko) 2021-04-13 2022-10-20 한국원자력연구원 피드백 데이터 기반 자가 학습 장치 및 방법
US20220383031A1 (en) * 2021-05-28 2022-12-01 Adobe Inc. Decompositional learning for color attribute prediction
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Families Citing this family (217)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858524B2 (en) * 2014-11-14 2018-01-02 Google Inc. Generating natural language descriptions of images
US10013640B1 (en) * 2015-12-21 2018-07-03 Google Llc Object recognition from videos using recurrent neural networks
US9830709B2 (en) * 2016-03-11 2017-11-28 Qualcomm Incorporated Video analysis with convolutional attention recurrent neural networks
US11409791B2 (en) * 2016-06-10 2022-08-09 Disney Enterprises, Inc. Joint heterogeneous language-vision embeddings for video tagging and search
US20180068330A1 (en) * 2016-09-07 2018-03-08 International Business Machines Corporation Deep Learning Based Unsupervised Event Learning for Economic Indicator Predictions
US10339167B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10339168B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10552968B1 (en) * 2016-09-23 2020-02-04 Snap Inc. Dense feature scale detection for image matching
US10402658B2 (en) * 2016-11-03 2019-09-03 Nec Corporation Video retrieval system using adaptive spatiotemporal convolution feature representation with dynamic abstraction for video to language translation
US10699184B2 (en) * 2016-12-29 2020-06-30 Facebook, Inc. Updating predictions for a deep-learning model
JP7221203B2 (ja) * 2017-01-23 2023-02-13 オックスフォード ユニヴァーシティ イノヴェーション リミテッド モバイル装置の位置特定方法
US10339421B2 (en) * 2017-03-30 2019-07-02 Toyota Motor Engineering & Manufacturing North America, Inc. RGB-D scene labeling with multimodal recurrent neural networks
US10489287B2 (en) 2017-05-15 2019-11-26 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
US10223248B2 (en) 2017-05-15 2019-03-05 Bank Of America Corporation Conducting automated software testing using centralized controller and distributed test host servers
US11501154B2 (en) 2017-05-17 2022-11-15 Samsung Electronics Co., Ltd. Sensor transformation attention network (STAN) model
EP4156032A1 (en) * 2017-05-23 2023-03-29 Google LLC Attention-based sequence transduction neural networks
WO2018217828A1 (en) * 2017-05-23 2018-11-29 Intel Corporation Methods and apparatus for discriminative semantic transfer and physics-inspired optimization of features in deep learning
US11417235B2 (en) * 2017-05-25 2022-08-16 Baidu Usa Llc Listen, interact, and talk: learning to speak via interaction
JP6923362B2 (ja) * 2017-05-30 2021-08-18 株式会社Soken 操舵角決定装置、自動運転車
CN116957055A (zh) * 2017-06-05 2023-10-27 渊慧科技有限公司 使用多模态输入选择动作
US11645508B2 (en) 2017-06-09 2023-05-09 Korea Advanced Institute Of Science And Technology Electronic apparatus and method for generating trained model
KR102419136B1 (ko) * 2017-06-15 2022-07-08 삼성전자주식회사 다채널 특징맵을 이용하는 영상 처리 장치 및 방법
CN107463609B (zh) * 2017-06-27 2020-06-19 浙江大学 一种使用分层时空注意力编解码器网络机制解决视频问答的方法
CN107688821B (zh) * 2017-07-11 2021-08-06 西安电子科技大学 基于视觉显著性与语义属性跨模态图像自然语言描述方法
KR20190007816A (ko) 2017-07-13 2019-01-23 삼성전자주식회사 동영상 분류를 위한 전자 장치 및 그의 동작 방법
CN107480206B (zh) * 2017-07-25 2020-06-12 杭州电子科技大学 一种基于多模态低秩双线性池化的图像内容问答方法
US20190034497A1 (en) * 2017-07-27 2019-01-31 Nec Laboratories America, Inc. Data2Data: Deep Learning for Time Series Representation and Retrieval
CN109426776A (zh) 2017-08-25 2019-03-05 微软技术许可有限责任公司 基于深度神经网络的对象检测
KR101986307B1 (ko) * 2017-08-29 2019-06-05 서울대학교산학협력단 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
US10679075B2 (en) * 2017-08-31 2020-06-09 Nec Corporation Dense correspondence estimation with multi-level metric learning and hierarchical matching
US10366166B2 (en) * 2017-09-07 2019-07-30 Baidu Usa Llc Deep compositional frameworks for human-like language acquisition in virtual environments
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN107679582A (zh) * 2017-10-20 2018-02-09 深圳市唯特视科技有限公司 一种基于多模态分解模型进行可视问答的方法
US10671918B2 (en) 2017-10-24 2020-06-02 International Business Machines Corporation Attention based sequential image processing
WO2019081623A1 (en) * 2017-10-25 2019-05-02 Deepmind Technologies Limited SELF-REGRESSIVE NEURAL NETWORK SYSTEMS INCLUDING A SOFTWARE ATTENTION MECHANISM USING SUPPORT DATA CORRECTIVES
GB2568233A (en) * 2017-10-27 2019-05-15 Babylon Partners Ltd A computer implemented determination method and system
US10592767B2 (en) * 2017-10-27 2020-03-17 Salesforce.Com, Inc. Interpretable counting in visual question answering
US10410350B2 (en) 2017-10-30 2019-09-10 Rakuten, Inc. Skip architecture neural network machine and method for improved semantic segmentation
US10395147B2 (en) * 2017-10-30 2019-08-27 Rakuten, Inc. Method and apparatus for improved segmentation and recognition of images
CN108228703B (zh) * 2017-10-31 2020-05-08 北京市商汤科技开发有限公司 图像问答方法、装置、系统和存储介质
CN108875751B (zh) * 2017-11-02 2021-03-02 北京旷视科技有限公司 图像处理方法和装置、神经网络的训练方法、存储介质
CN107862058B (zh) * 2017-11-10 2021-10-22 北京百度网讯科技有限公司 用于生成信息的方法和装置
US10542270B2 (en) * 2017-11-15 2020-01-21 Salesforce.Com, Inc. Dense video captioning
CN108022012A (zh) * 2017-12-01 2018-05-11 兰州大学 基于深度学习的车辆位置预测方法
CN108154235A (zh) * 2017-12-04 2018-06-12 盈盛资讯科技有限公司 一种图像问答推理方法、系统及装置
CN107909115B (zh) * 2017-12-04 2022-02-15 上海师范大学 一种图像中文字幕生成方法
EP3495992A1 (en) * 2017-12-07 2019-06-12 IMRA Europe SAS Danger ranking using end to end deep neural network
CN108021897B (zh) * 2017-12-11 2021-06-15 北京小米移动软件有限公司 图片问答方法及装置
KR102421856B1 (ko) * 2017-12-20 2022-07-18 삼성전자주식회사 영상의 상호작용 처리 방법 및 장치
US10754851B2 (en) * 2017-12-22 2020-08-25 Adobe Inc. Question answering for data visualizations
CN108153876B (zh) * 2017-12-26 2021-07-23 爱因互动科技发展(北京)有限公司 智能问答方法及系统
CN108108771A (zh) * 2018-01-03 2018-06-01 华南理工大学 基于多尺度深度学习的图像问答方法
CN108230413B (zh) * 2018-01-23 2021-07-06 北京市商汤科技开发有限公司 图像描述方法和装置、电子设备、计算机存储介质
CN108229477B (zh) * 2018-01-25 2020-10-09 深圳市商汤科技有限公司 针对图像的视觉关联性识别方法、装置、设备及存储介质
CN108319909B (zh) * 2018-01-29 2021-11-30 清华大学 一种驾驶行为分析方法及系统
US11663249B2 (en) 2018-01-30 2023-05-30 Intel Corporation Visual question answering using visual knowledge bases
CN108491421B (zh) * 2018-02-07 2021-04-16 北京百度网讯科技有限公司 一种生成问答的方法、装置、设备和计算存储介质
JP6992590B2 (ja) * 2018-02-23 2022-01-13 日本電信電話株式会社 特徴表現装置、特徴表現方法、およびプログラム
US11507800B2 (en) 2018-03-06 2022-11-22 Adobe Inc. Semantic class localization digital environment
US11287894B2 (en) 2018-03-09 2022-03-29 Adobe Inc. Utilizing a touchpoint attribution attention neural network to identify significant touchpoints and measure touchpoint contribution in multichannel, multi-touch digital content campaigns
CN110362809B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362810B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110362808B (zh) * 2018-03-26 2022-06-14 阿里巴巴(中国)有限公司 文本分析方法及装置
CN110555104B (zh) * 2018-03-26 2022-06-17 阿里巴巴(中国)有限公司 文本分析方法及装置
CN108921811B (zh) * 2018-04-03 2020-06-30 阿里巴巴集团控股有限公司 检测物品损伤的方法和装置、物品损伤检测器
CN108614996A (zh) * 2018-04-04 2018-10-02 杭州电子科技大学 一种基于深度学习的军船、民船自动识别方法
CN108647573A (zh) * 2018-04-04 2018-10-12 杭州电子科技大学 一种基于深度学习的军事目标识别方法
US11074829B2 (en) * 2018-04-12 2021-07-27 Baidu Usa Llc Systems and methods for interactive language acquisition with one-shot visual concept learning through a conversational game
US11321618B2 (en) 2018-04-25 2022-05-03 Om Digital Solutions Corporation Learning device, image pickup apparatus, image processing device, learning method, non-transient computer-readable recording medium for recording learning program, display control method and inference model manufacturing method
US10621990B2 (en) * 2018-04-30 2020-04-14 International Business Machines Corporation Cognitive print speaker modeler
US20210240931A1 (en) * 2018-04-30 2021-08-05 Koninklijke Philips N.V. Visual question answering using on-image annotations
CN112119412A (zh) * 2018-05-18 2020-12-22 伯耐沃伦人工智能科技有限公司 具有注意力的图神经网络
CN108829756B (zh) * 2018-05-25 2021-10-22 杭州一知智能科技有限公司 一种利用分层注意力上下文网络解决多轮视频问答的方法
CN108776779B (zh) * 2018-05-25 2022-09-23 西安电子科技大学 基于卷积循环网络的sar序列图像目标识别方法
US10769307B2 (en) 2018-05-30 2020-09-08 Bank Of America Corporation Processing system using natural language processing for performing dataset filtering and sanitization
JP2019211969A (ja) * 2018-06-04 2019-12-12 オリンパス株式会社 学習管理装置、学習管理サーバ、および学習管理方法
CN109086892B (zh) * 2018-06-15 2022-02-18 中山大学 一种基于一般依赖树的视觉问题推理模型及系统
US10885395B2 (en) 2018-06-17 2021-01-05 Pensa Systems Method for scaling fine-grained object recognition of consumer packaged goods
KR102120751B1 (ko) * 2018-06-21 2020-06-10 주식회사 머니브레인 대화 이해 ai 시스템에 의하여, 머신러닝을 대화 관리 기술에 적용한 하이브리드 계층적 대화 흐름 모델을 기초로 답변을 제공하는 방법 및 컴퓨터 판독가능 기록 매체
CN108875034A (zh) * 2018-06-25 2018-11-23 湖南丹尼尔智能科技有限公司 一种基于层次化长短期记忆网络的中文文本分类方法
CN108920587B (zh) * 2018-06-26 2021-09-24 清华大学 融合外部知识的开放域视觉问答方法及装置
US20200019603A1 (en) * 2018-07-13 2020-01-16 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved table identification using a neural network
CN109255012B (zh) * 2018-07-23 2021-04-30 深思考人工智能机器人科技(北京)有限公司 机器阅读理解以及减少候选数据集规模的方法、装置
US10721190B2 (en) * 2018-07-31 2020-07-21 Microsoft Technology Licensing, Llc Sequence to sequence to classification model for generating recommended messages
CN109086405B (zh) * 2018-08-01 2021-09-14 武汉大学 基于显著性和卷积神经网络的遥感图像检索方法及系统
US10740536B2 (en) * 2018-08-06 2020-08-11 International Business Machines Corporation Dynamic survey generation and verification
CN109145970B (zh) * 2018-08-06 2021-01-12 北京市商汤科技开发有限公司 基于图像的问答处理方法和装置、电子设备及存储介质
US10832084B2 (en) * 2018-08-17 2020-11-10 Nec Corporation Dense three-dimensional correspondence estimation with multi-level metric learning and hierarchical matching
CN109145816B (zh) * 2018-08-21 2021-01-26 北京京东尚科信息技术有限公司 商品识别方法和系统
CN109410158B (zh) * 2018-08-21 2020-10-02 西安电子科技大学 一种基于卷积神经网络的多焦点图像融合方法
US11010559B2 (en) 2018-08-30 2021-05-18 International Business Machines Corporation Multi-aspect sentiment analysis by collaborative attention allocation
JP7172351B2 (ja) * 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 文字列認識装置及び文字列認識プログラム
US11645535B2 (en) 2018-09-24 2023-05-09 Samsung Electronics Co., Ltd. Normalization method for training deep neural networks
US20220003894A1 (en) * 2018-09-26 2022-01-06 Sofar Ocean Technologies, Inc. Ocean weather forecasting system
CN109241267B (zh) * 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质
CN110019749B (zh) * 2018-09-28 2021-06-15 北京百度网讯科技有限公司 生成vqa训练数据的方法、装置、设备和计算机可读介质
US10799182B2 (en) 2018-10-19 2020-10-13 Microsoft Technology Licensing, Llc Video-based physiological measurement using neural networks
US11250299B2 (en) * 2018-11-01 2022-02-15 Nec Corporation Learning representations of generalized cross-modal entailment tasks
CN111971670A (zh) * 2018-11-02 2020-11-20 微软技术许可有限责任公司 在对话中生成响应
CN109712108B (zh) * 2018-11-05 2021-02-02 杭州电子科技大学 一种基于多样鉴别性候选框生成网络的针对视觉定位方法
CN111177328B (zh) * 2018-11-12 2023-04-28 阿里巴巴集团控股有限公司 问答匹配系统和方法及问答处理设备和介质
CN111175681B (zh) 2018-11-13 2022-08-30 西门子(深圳)磁共振有限公司 基于刀锋序列的磁共振成像方法、装置及其存储介质
US10755099B2 (en) * 2018-11-13 2020-08-25 Adobe Inc. Object detection in images
US10929392B1 (en) * 2018-11-16 2021-02-23 Amazon Technologies, Inc. Artificial intelligence system for automated generation of realistic question and answer pairs
CN109670576B (zh) * 2018-11-29 2022-09-13 中山大学 一种多尺度视觉关注图像描述方法
US11573991B2 (en) * 2018-11-30 2023-02-07 Samsung Electronics Co., Ltd. Deep reinforcement learning-based multi-step question answering systems
CN109685115B (zh) * 2018-11-30 2022-10-14 西北大学 一种双线性特征融合的细粒度概念模型及学习方法
CN109614613B (zh) 2018-11-30 2020-07-31 北京市商汤科技开发有限公司 图像的描述语句定位方法及装置、电子设备和存储介质
CN109635926B (zh) * 2018-11-30 2021-11-05 深圳市商汤科技有限公司 用于神经网络的注意力特征获取方法、装置及存储介质
CN109784163A (zh) * 2018-12-12 2019-05-21 中国科学院深圳先进技术研究院 一种轻量视觉问答系统及方法
CN109740515B (zh) * 2018-12-29 2021-08-17 科大讯飞股份有限公司 一种评阅方法及装置
US11120062B2 (en) 2019-01-07 2021-09-14 International Business Machines Corporation Framework for analyzing graphical data by question answering systems
CN109800294B (zh) * 2019-01-08 2020-10-13 中国科学院自动化研究所 基于物理环境博弈的自主进化智能对话方法、系统、装置
US10325179B1 (en) * 2019-01-23 2019-06-18 StradVision, Inc. Learning method and learning device for pooling ROI by using masking parameters to be used for mobile devices or compact networks via hardware optimization, and testing method and testing device using the same
US10311578B1 (en) * 2019-01-23 2019-06-04 StradVision, Inc. Learning method and learning device for segmenting an image having one or more lanes by using embedding loss to support collaboration with HD maps required to satisfy level 4 of autonomous vehicles and softmax loss, and testing method and testing device using the same
US10373025B1 (en) * 2019-01-28 2019-08-06 StradVision, Inc. Method and device for verifying integrity of parameters of CNN by using test pattern to enhance fault tolerance and fluctuation robustness in extreme situations for functional safety
CN109871457A (zh) 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
US10373027B1 (en) * 2019-01-30 2019-08-06 StradVision, Inc. Method for acquiring sample images for inspecting label among auto-labeled images to be used for learning of neural network and sample image acquiring device using the same
CN111507141B (zh) * 2019-01-31 2023-04-18 阿里巴巴集团控股有限公司 图片识别方法、服务界面显示方法、系统及设备
CN111598117B (zh) * 2019-02-21 2023-06-30 成都通甲优博科技有限责任公司 图像识别方法及装置
CN111666006B (zh) * 2019-03-05 2022-01-14 京东方科技集团股份有限公司 画作问答方法及装置、画作问答系统、可读存储介质
CN109902164B (zh) * 2019-03-06 2020-12-18 杭州一知智能科技有限公司 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN109902166A (zh) * 2019-03-12 2019-06-18 北京百度网讯科技有限公司 视觉问答模型、电子设备及存储介质
CN109903314A (zh) * 2019-03-13 2019-06-18 腾讯科技(深圳)有限公司 一种图像区域定位的方法、模型训练的方法及相关装置
US10956474B2 (en) 2019-03-14 2021-03-23 Microsoft Technology Licensing, Llc Determination of best set of suggested responses
US11568247B2 (en) 2019-03-22 2023-01-31 Nec Corporation Efficient and fine-grained video retrieval
US10997374B2 (en) * 2019-03-22 2021-05-04 Fortia Financial Solutions Generation of natural language text from structured data using a fusion model
CN110047076B (zh) * 2019-03-29 2021-03-23 腾讯科技(深圳)有限公司 一种图像信息的处理方法、装置及存储介质
CN111753600B (zh) * 2019-03-29 2024-05-17 北京市商汤科技开发有限公司 文本识别方法、装置及存储介质
EP3719745A1 (en) * 2019-04-01 2020-10-07 Siemens Healthcare GmbH Processing a medical image
US11494377B2 (en) * 2019-04-01 2022-11-08 Nec Corporation Multi-detector probabilistic reasoning for natural language queries
CN110032632A (zh) * 2019-04-04 2019-07-19 平安科技(深圳)有限公司 基于文本相似度的智能客服问答方法、装置及存储介质
CN110070224A (zh) * 2019-04-20 2019-07-30 北京工业大学 一种基于多步骤递归预测的空气质量预测方法
CN110097617B (zh) * 2019-04-25 2020-09-15 北京理工大学 基于卷积神经网络与显著性权重的图像融合方法
CN110134774B (zh) * 2019-04-29 2021-02-09 华中科技大学 一种基于注意力决策的图像视觉问答模型、方法和系统
US10949718B2 (en) 2019-05-08 2021-03-16 Accenture Global Solutions Limited Multi-modal visual question answering system
US11494616B2 (en) * 2019-05-09 2022-11-08 Shenzhen Malong Technologies Co., Ltd. Decoupling category-wise independence and relevance with self-attention for multi-label image classification
CN110263912B (zh) * 2019-05-14 2021-02-26 杭州电子科技大学 一种基于多目标关联深度推理的图像问答方法
US11875252B2 (en) 2019-05-17 2024-01-16 Robert Bosch Gmbh Neural network including a neural network projection layer configured for a summing parameter
CN110175229B (zh) * 2019-05-27 2021-07-06 言图科技有限公司 一种基于自然语言进行在线培训的方法和系统
CN110197307B (zh) * 2019-06-03 2023-07-25 上海海洋大学 一种结合注意力机制的区域型海表面温度预测方法
CN110209823B (zh) * 2019-06-12 2021-04-13 齐鲁工业大学 一种多标签文本分类方法及系统
CN110377710B (zh) * 2019-06-17 2022-04-01 杭州电子科技大学 一种基于多模态融合的视觉问答融合增强方法
CN110225368B (zh) * 2019-06-27 2020-07-10 腾讯科技(深圳)有限公司 一种视频定位方法、装置及电子设备
US11874882B2 (en) 2019-07-02 2024-01-16 Microsoft Technology Licensing, Llc Extracting key phrase candidates from documents and producing topical authority ranking
US11250214B2 (en) * 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
CN110321864A (zh) * 2019-07-09 2019-10-11 西北工业大学 基于多尺度裁剪机制的遥感图像文字说明生成方法
CN110321565B (zh) * 2019-07-09 2024-02-23 广东工业大学 基于深度学习的实时文本情感分析方法、装置及设备
CN110348535B (zh) * 2019-07-17 2022-05-31 北京金山数字娱乐科技有限公司 一种视觉问答模型训练方法及装置
CN110414684A (zh) * 2019-07-23 2019-11-05 清华大学 基于知识感知的模块化视觉推理方法及装置
CN110472642B (zh) * 2019-08-19 2022-02-01 齐鲁工业大学 基于多级注意力的细粒度图像描述方法及系统
CN110516791B (zh) * 2019-08-20 2022-04-22 北京影谱科技股份有限公司 一种基于多重注意力的视觉问答方法及系统
WO2021045434A1 (ko) * 2019-09-05 2021-03-11 삼성전자주식회사 전자 장치 및 이의 제어 방법
CN110704668B (zh) * 2019-09-23 2022-11-04 北京影谱科技股份有限公司 基于网格的协同注意力vqa方法和装置
US11423678B2 (en) 2019-09-23 2022-08-23 Proscia Inc. Automated whole-slide image classification using deep learning
EP4007975A1 (en) * 2019-09-25 2022-06-08 DeepMind Technologies Limited Gated attention neural networks
CN110717431B (zh) * 2019-09-27 2023-03-24 华侨大学 一种结合多视角注意力机制的细粒度视觉问答方法
CN110727824B (zh) * 2019-10-11 2022-04-01 浙江大学 利用多重交互注意力机制解决视频中对象关系问答任务的方法
KR20210044056A (ko) 2019-10-14 2021-04-22 삼성전자주식회사 중복 토큰 임베딩을 이용한 자연어 처리 방법 및 장치
US11157554B2 (en) 2019-11-05 2021-10-26 International Business Machines Corporation Video response generation and modification
CN110851760B (zh) * 2019-11-12 2022-12-27 电子科技大学 在web3D环境融入视觉问答的人机交互系统
CN110990630B (zh) * 2019-11-29 2022-06-24 清华大学 一种基于图建模视觉信息的利用问题指导的视频问答方法
CN110929013A (zh) * 2019-12-04 2020-03-27 成都中科云集信息技术有限公司 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN111598118B (zh) * 2019-12-10 2023-07-07 中山大学 一种视觉问答任务实现方法及系统
CN111160140B (zh) * 2019-12-13 2023-04-18 浙江大华技术股份有限公司 一种图像检测方法及装置
CN111126258B (zh) * 2019-12-23 2023-06-23 深圳市华尊科技股份有限公司 图像识别方法及相关装置
CN111080729B (zh) * 2019-12-24 2023-06-13 山东浪潮科学研究院有限公司 基于Attention机制的训练图片压缩网络的构建方法及系统
CN111147396B (zh) * 2019-12-26 2023-03-21 哈尔滨工程大学 一种基于序列特征的加密流量分类方法
EP4094194A1 (en) 2020-01-23 2022-11-30 Umnai Limited An explainable neural net architecture for multidimensional data
CN113296152A (zh) * 2020-02-21 2021-08-24 中国石油天然气集团有限公司 断层检测方法及装置
CN111325751B (zh) * 2020-03-18 2022-05-27 重庆理工大学 基于注意力卷积神经网络的ct图像分割系统
CN111489334B (zh) * 2020-04-02 2023-08-08 暖屋信息科技(苏州)有限公司 一种基于卷积注意力神经网络的缺陷工件图像识别方法
CN111488887B (zh) * 2020-04-09 2023-04-18 腾讯科技(深圳)有限公司 基于人工智能的图像处理方法、装置
CN111539884B (zh) * 2020-04-21 2023-08-15 温州大学 一种基于多注意力机制融合的神经网络视频去模糊方法
CN113553855A (zh) * 2020-04-26 2021-10-26 阿里巴巴集团控股有限公司 观点角色标注方法、装置、计算机设备和介质
US11526678B2 (en) * 2020-05-14 2022-12-13 Naver Corporation Attention over common-sense network for natural language inference
CN111563513B (zh) * 2020-05-15 2022-06-24 电子科技大学 基于注意力机制的散焦模糊检测方法
CN111737512B (zh) * 2020-06-04 2021-11-12 东华大学 基于深度特征区域融合的丝绸文物图像检索方法
CN111612103B (zh) * 2020-06-23 2023-07-11 中国人民解放军国防科技大学 结合抽象语义表示的图像描述生成方法、系统及介质
CN111858882B (zh) * 2020-06-24 2022-08-09 贵州大学 一种基于概念交互和关联语义的文本视觉问答系统及方法
CN113837212B (zh) * 2020-06-24 2023-09-26 四川大学 一种基于多模态双向导向注意力的视觉问答方法
CN111767379B (zh) * 2020-06-29 2023-06-27 北京百度网讯科技有限公司 图像问答方法、装置、设备以及存储介质
CN111782840B (zh) 2020-06-30 2023-08-22 北京百度网讯科技有限公司 图像问答方法、装置、计算机设备和介质
CN111859005B (zh) * 2020-07-01 2022-03-29 江西理工大学 一种跨层多模型特征融合与基于卷积解码的图像描述方法
CN111783697A (zh) * 2020-07-06 2020-10-16 周书田 一种基于卷积神经网络的错题检测及靶向推荐系统和方法
CN111949824B (zh) * 2020-07-08 2023-11-03 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
US11622117B2 (en) * 2020-07-21 2023-04-04 Tencent America LLC Method and apparatus for rate-adaptive neural image compression with adversarial generators
CN112036276B (zh) * 2020-08-19 2023-04-07 北京航空航天大学 一种人工智能视频问答方法
AU2021349226C1 (en) * 2020-09-23 2023-08-24 Proscia Inc. Critical component detection using deep learning and attention
JP7481995B2 (ja) * 2020-10-28 2024-05-13 株式会社東芝 状態判定装置、方法およびプログラム
CN112511172B (zh) * 2020-11-11 2023-03-24 山东云海国创云计算装备产业创新中心有限公司 一种译码方法、装置、设备及存储介质
CN112365340A (zh) * 2020-11-20 2021-02-12 无锡锡商银行股份有限公司 一种多模态个人贷款风险预测方法
US11769018B2 (en) * 2020-11-24 2023-09-26 Openstream Inc. System and method for temporal attention behavioral analysis of multi-modal conversations in a question and answer system
CN112527993B (zh) * 2020-12-17 2022-08-05 浙江财经大学东方学院 一种跨媒体层次化深度视频问答推理框架
CN112488055B (zh) * 2020-12-18 2022-09-06 贵州大学 一种基于渐进图注意力网络的视频问答方法
CN112800191B (zh) * 2020-12-31 2023-01-17 科大讯飞股份有限公司 一种基于图片的问答方法、设备及计算机可读存储介质
CN112712092A (zh) * 2021-01-07 2021-04-27 泰康保险集团股份有限公司 采集图像特征的方法、装置、设备和计算机可读介质
CN112750082B (zh) * 2021-01-21 2023-05-16 武汉工程大学 基于融合注意力机制的人脸超分辨率方法及系统
CN112990213B (zh) * 2021-02-07 2023-10-10 西北大学 一种基于深度学习的数字万用表字符识别系统和方法
CN113065576A (zh) * 2021-02-26 2021-07-02 华为技术有限公司 一种特征提取的方法以及装置
CN113010712B (zh) * 2021-03-04 2022-12-02 天津大学 一种基于多图融合的视觉问答方法
CN113011332A (zh) * 2021-03-19 2021-06-22 中国科学技术大学 基于多区域注意力机制的人脸伪造检测方法
CN113128415B (zh) * 2021-04-22 2023-09-29 合肥工业大学 一种环境辨别方法、系统、设备及存储介质
CN112949841B (zh) * 2021-05-13 2022-08-16 德鲁动力科技(成都)有限公司 一种基于Attention的CNN神经网络的行人重识别方法
CN113222026B (zh) * 2021-05-18 2022-11-11 合肥工业大学 一种机务段场景视觉问答方法、系统及服务器
CN113298151A (zh) * 2021-05-26 2021-08-24 中国电子科技集团公司第五十四研究所 一种基于多级特征融合的遥感图像语义描述方法
CN113420833B (zh) * 2021-07-21 2023-12-26 南京大学 一种基于问题语义映射的视觉问答方法及装置
CN113313091B (zh) * 2021-07-29 2021-11-02 山东建筑大学 仓储物流下的基于多重注意力和拓扑约束的密度估计方法
CN113626662A (zh) * 2021-07-29 2021-11-09 山东新一代信息产业技术研究院有限公司 一种实现灾后图像视觉问答的方法
WO2023143995A1 (en) 2022-01-26 2023-08-03 Bayer Aktiengesellschaft Disease detection, identification and/or characterization using multiple representations of audio data
WO2023157265A1 (ja) * 2022-02-18 2023-08-24 日本電信電話株式会社 応答生成装置、応答生成方法および応答生成プログラム
CN114661874B (zh) * 2022-03-07 2024-04-30 浙江理工大学 基于多角度语义理解与自适应双通道的视觉问答方法
KR20240023928A (ko) 2022-08-16 2024-02-23 김찬우 이미지 기반 자동 문제 생성 장치 및 방법
WO2024056439A1 (de) 2022-09-14 2024-03-21 Bayer Aktiengesellschaft Ermittlung der stabilität von verpackten formulierungen
EP4350701A1 (en) 2022-10-07 2024-04-10 SIVA Health AG Classifying individuals suffering from chronic cough
CN116543146B (zh) * 2023-07-06 2023-09-26 贵州大学 一种基于窗口自注意与多尺度机制的图像密集描述方法
CN117393921A (zh) * 2023-10-17 2024-01-12 浙江博时新能源技术有限公司 分布式储能设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4532915B2 (ja) * 2004-01-29 2010-08-25 キヤノン株式会社 パターン認識用学習方法、パターン認識用学習装置、画像入力装置、コンピュータプログラム、及びコンピュータ読み取り可能な記録媒体
US9002773B2 (en) * 2010-09-24 2015-04-07 International Business Machines Corporation Decision-support application and system for problem solving using a question-answering system
WO2012047530A1 (en) * 2010-09-28 2012-04-12 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
US10510018B2 (en) * 2013-09-30 2019-12-17 Manyworlds, Inc. Method, system, and apparatus for selecting syntactical elements from information as a focus of attention and performing actions to reduce uncertainty
CN104573731B (zh) * 2015-02-06 2018-03-23 厦门大学 基于卷积神经网络的快速目标检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Antol, Stanislaw, et al. Vqa: Visual question answering." arXiv preprint arXiv:1505.00468v1. 2015.5., 인터넷: <url: https://arxiv.org/abs/1505.00468v1> *
Ren, Mengye, Ryan Kiros, and Richard Zemel. Exploring models and data for image question answering. arXiv preprint arXiv:1505.02074v3. 2015.6., 인터넷: <url: https://arxiv.org/abs/1505.02074v3> *
Yu, Licheng, et al. Visual Madlibs: Fill in the blank Image Generation and Question Answering. arXiv preprint arXiv:1506.00278. 2015.5., 인터넷: <url: https://arxiv.org/abs/1506.00278> *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102073323B1 (ko) * 2018-09-02 2020-02-03 주식회사 뉴로다임 인공지능 기반의 구조물 건전성 관리 시스템
KR20200092492A (ko) * 2019-01-11 2020-08-04 연세대학교 산학협력단 의미 인식 기반의 이미지 보정 방법 및 그를 위한 장치
KR20200098379A (ko) * 2019-02-12 2020-08-20 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 이미지 기반의 데이터 처리 방법, 장치, 기기 및 판독 가능 저장 매체
US11151406B2 (en) 2019-02-12 2021-10-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method, apparatus, device and readable storage medium for image-based data processing
KR102148607B1 (ko) * 2019-07-26 2020-08-26 연세대학교 산학협력단 오디오-비디오 정합 영역 탐지 장치 및 방법
KR20220002067A (ko) * 2020-06-30 2022-01-06 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드 이미지 문답 방법, 장치, 컴퓨터 장비, 컴퓨터 판독가능 저장 매체 및 컴퓨터 프로그램
KR20220141537A (ko) 2021-04-13 2022-10-20 한국원자력연구원 피드백 데이터 기반 자가 학습 장치 및 방법
US20220383031A1 (en) * 2021-05-28 2022-12-01 Adobe Inc. Decompositional learning for color attribute prediction
US11967128B2 (en) * 2021-05-28 2024-04-23 Adobe Inc. Decompositional learning for color attribute prediction
CN115905591A (zh) * 2023-02-22 2023-04-04 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质
CN115905591B (zh) * 2023-02-22 2023-05-30 浪潮电子信息产业股份有限公司 一种视觉问答方法、系统、设备及可读存储介质

Also Published As

Publication number Publication date
CN106649542B (zh) 2020-06-16
EP3166049B1 (en) 2020-09-02
US9965705B2 (en) 2018-05-08
KR101865102B1 (ko) 2018-06-07
JP6351689B2 (ja) 2018-07-04
EP3166049A1 (en) 2017-05-10
CN106649542A (zh) 2017-05-10
JP2017091525A (ja) 2017-05-25
US20170124432A1 (en) 2017-05-04

Similar Documents

Publication Publication Date Title
KR101865102B1 (ko) 시각 문답을 위한 시스템 및 방법
Altwaijry et al. Arabic handwriting recognition system using convolutional neural network
CN111291181B (zh) 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
RU2691214C1 (ru) Распознавание текста с использованием искусственного интеллекта
RU2699687C1 (ru) Обнаружение текстовых полей с использованием нейронных сетей
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
Yang et al. Show, attend, and translate: Unsupervised image translation with self-regularization and attention
Masood et al. American sign language character recognition using convolution neural network
Latif et al. An automatic Arabic sign language recognition system based on deep CNN: an assistive system for the deaf and hard of hearing
JP2018513507A (ja) 人工ニューラルネットワークの関連性スコア割当て
CN111582409A (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
Rabby et al. Bangla handwritten digit recognition using convolutional neural network
EP4302234A1 (en) Cross-modal processing for vision and language
CN114419351A (zh) 图文预训练模型训练、图文预测模型训练方法和装置
Jedoui et al. Deep Bayesian active learning for multiple correct outputs
CN116385937A (zh) 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统
Hong et al. Exploiting hierarchical visual features for visual question answering
Rawf et al. A comparative technique using 2D CNN and transfer learning to detect and classify Arabic-script-based sign language
Li et al. ReNAP: Relation network with adaptiveprototypical learning for few-shot classification
Xue et al. Rt-swinir: An improved digital wallchart image super-resolution with attention-based learned text loss
Li Special character recognition using deep learning
Chang et al. Re-Attention is all you need: Memory-efficient scene text detection via re-attention on uncertain regions
Ramkumar et al. Sign language recognition using depth data and CNN
Rawat et al. Indian Sign Language Recognition System for Interrogative Words Using Deep Learning

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right