KR102261977B1 - Vqa 시스템의 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 매체 - Google Patents

Vqa 시스템의 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 매체 Download PDF

Info

Publication number
KR102261977B1
KR102261977B1 KR1020190109836A KR20190109836A KR102261977B1 KR 102261977 B1 KR102261977 B1 KR 102261977B1 KR 1020190109836 A KR1020190109836 A KR 1020190109836A KR 20190109836 A KR20190109836 A KR 20190109836A KR 102261977 B1 KR102261977 B1 KR 102261977B1
Authority
KR
South Korea
Prior art keywords
training data
question
generating
image
information
Prior art date
Application number
KR1020190109836A
Other languages
English (en)
Other versions
KR20200036741A (ko
Inventor
핑핑 황
민 챠오
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20200036741A publication Critical patent/KR20200036741A/ko
Application granted granted Critical
Publication of KR102261977B1 publication Critical patent/KR102261977B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 개시의 실시예는 시각적 질문 응답(VQA) 시스템의 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체에 관한 것이다. VQA 시스템의 트레이닝 데이터를 생성하기 위한 방법은, VQA 시스템의 제1 그룹 트레이닝 데이터를 획득하는 단계 - 제1 그룹 트레이닝 데이터는 VQA 시스템 중의 이미지에 대한 제1 질문과 상기 제1 질문에 대응되는 제1 답변을 포함함 - ;당해 이미지에 관련되는 정보를 획득하는 단계; 당해 정보에 따라 제1 답변에 대응되는 제2 질문을 생성하여, VQA 시스템 중의 당해 이미지에 대한 제2 그룹 트레이닝 데이터를 획득하는 단계 - 제2 그룹 트레이닝 데이터는 제2 질문과 제1 답변을 포함함 - ;를 포함한다. 본 개시의 실시예는 VQA 시스템에 사용되는 대량의 트레이닝 데이터를 자동적으로 저렴한 비용으로 고효율로 획득하여, 모델 트레이닝의 효율을 향상시킬 수 있다. 이 외에, 획득된 트레이닝 데이터에는 이미지에 대한 추론적 질문이 포함하므로, VQA 시스템이 이미지에 대한 이해력을 향상시킬 수 있다.

Description

VQA 시스템의 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 매체{METHOD AND APPARATUS FOR GENERATING TRAINING DATA FOR VQA SYSTEM, AND MEDIUM}
본 개시의 실시예는 컴퓨터 분야에 관한 것이고, 더 구체적으로 시각적 질문 응답(VQA) 시스템의 트레이닝 데이터를 생성하기 위한 방법, 장치, 전자 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
VQA 시스템은 컴퓨터 시각, 자연어 처리 및 지식 표현(KR) 등 많은 분야에 관련되고, 현재 이미 인공 지능 연구의 핫 포인트로 되어있다. 주어진 이미지에 있어서, VQA 시스템은 당해 이미지를 둘러싼 질문에 대하여 답할 수 있다. 말인즉, VQA 시스템은 이미지를 수신하고 당해 이미지에 대한 질문을 입력으로 하고, 당해 질문에 대한 자연어의 답변을 생성하여 출력으로 한다. 현재 VQA 시스템은 통상적으로 지도 기계 학습 방법을 기반으로 구현되는바, 대량의 트레이닝 이미지 및 트레이닝 이미지를 둘러싼 질문과 답변을 트레이닝 데이터로 이용함으로써, 트레이닝된 모델이 이미지 컨텐츠에 따라 질문에 대하여 답할 수 있도록 한다. 이러한 트레이닝 방법의 효과는 트레이닝 데이터의 양에 직접 의존한다.
현재, VQA 시스템에 사용되는 트레이닝 데이터는 통상적으로 수동 주석에 의하여 획득된다. 예를 들어, 주어진 트레이닝 이미지에 있어서, 주석하는 인원에 의하여 당해 이미지에 대하여 질문을 제기하고 대응되는 답변을 주석한다. 이러한 방식은 비용이 높고 속도가 늦으며 트레이닝 데이터 양이 유한하다. 이 외에, 주석하는 인원은 통상적으로 직접 이미지 중의 목표 대상을 둘러싸고 질문하는바, 트레이닝 데이터 중의 질문은 형식이 간단하고, 목표 대상에 대한 더욱 복잡한 설명과 추론에 관련되지 않는다. 때문에, 트레이닝된 모델은 통상적으로 이미지 컨텐츠에 대한 심층 이해를 구현할 수 없고, 따라서 이미지에 대한 복잡한 추론적인 질문에 답할 수가 없다.
본 개시의 예시적 실시예에 따르면, VQA 시스템의 트레이닝 데이터를 생성하기 위한 방안이 제공된다.
본 개시의 제1 측면에는, VQA 시스템의 트레이닝 데이터를 생성하기 위한 방법이 제공된다. 당해 방법은, VQA 시스템의 제1 그룹 트레이닝 데이터를 획득하는 단계 - 제1 그룹 트레이닝 데이터는 VQA 시스템 중의 이미지에 대한 제1 질문과 상기 제1 질문에 대응되는 제1 답변을 포함함 - ;당해 이미지에 관련되는 정보를 획득하는 단계; 및 당해 정보에 따라 제1 답변에 대응되는 제2 질문을 생성하여, VQA 시스템 중의 당해 이미지에 대한 제2 그룹 트레이닝 데이터를 획득하는 단계 - 제2 그룹 트레이닝 데이터는 제2 질문과 제1 답변을 포함함 - 를 포함한다.
본 개시의 제2 측면에는, VQA 시스템 중의 트레이닝 데이터를 생성하기 위한 장치가 제공된다. 당해 장치는, VQA 시스템의 제1 그룹 트레이닝 데이터를 획득하도록 구성되는 제1 획득 모듈 - 제1 그룹 트레이닝 데이터는 VQA 시스템 중의 이미지에 대한 제1 질문과 상기 제1 질문에 대응되는 제1 답변을 포함함 - ;당해 이미지에 관련되는 정보를 획득하도록 구성되는 제2 획득 모듈; 및 당해 정보에 따라 제1 답변에 대응되는 제2 질문을 생성하여 VQA 시스템 중의 당해 이미지에 대한 제2 그룹 트레이닝 데이터를 획득하도록 구성되는 질문 생성 모듈 - 제2 그룹 트레이닝 데이터는 제2 질문과 제1 답변을 포함함 - ;을 포함한다.
본 개시의 제3 측면으로, 전자 기기가 제공된다. 당해 전자 기기는, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함하고, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 시, 상기 하나 또는 복수의 프로세서가 본 개시의 제1 측면의 방법을 구현한다.
본 개시의 제4 측면에는, 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체가 제공되고, 당해 프로그램이 프로세서에 의해 실행될 시, 본 개시의 제1 측면의 방법이 구현된다.
발명 내용 부분에서 설명하는 내용은 본 개시의 실시예의 핵심 또는 중요 특징을 한정하기 위한 것이 아니며 본 개시의 범위를 제한하기 위한 것도 아님을 이해하여야 한다. 본 개시의 기타 특징은 이하의 설명을 통하여 이해하기 쉽게 될 것이다.
첨부 도면을 결부하고 이하 상세한 설명을 참조하면, 본 개시의 각 실시예의 상술한 및 기타의 특징, 이점 및 측면은 더욱 분명해질 것이다. 첨부 도면에서, 동일 또는 유사한 도면 부호는 동일 또는 유사한 요소를 표시하는바, 여기서:
도1은 본 개시의 실시예가 구현될 수 있는 예시 환경의 개략도를 도시한다.
도2는 본 개시의 실시예에 따른 VQA 시스템의 트레이닝 데이터를 생성하기 위한 방법의 흐름도를 도시한다.
도3은 본 개시의 실시예에 따른 예시 트레이닝 데이터의 개략도를 도시한다.
도4는 본 개시의 실시예에 따른 추론적 질문을 생성하기 위한 방법의 흐름도를 도시한다.
도5는 본 개시의 실시예에 따른 VQA 시스템의 트레이닝 데이터를 생성하기 위한 장치의 블록도를 도시한다.
도6은 본 개시의 실시예를 구현 가능한 컴퓨팅 기기의 블록도를 도시한다.
이하, 첨부 도면을 참조하여 본 개시의 실시예에 대해 더 상세하게 설명하고자 한다. 비록 첨부 도면에 본 개시의 어떤 실시예가 도시되었지만, 본 개시는 여러 가지 형식으로 구현 가능한 것으로, 여기서 서술하는 실시예에 한정되는 것으로 해석되어서는 안되고, 반대로, 이러한 실시예를 제공하는 것은 본 개시를 더욱 투철하게 그리고 완전하게 이해시키기 위한 것임을 이해하여야 한다. 본 개시의 첨부 도면 및 실시예는 예시적 작용을 위한 것으로, 본 개시의 보호 범위를 제한하기 위한 것이 아님을 이해하여야 한다.
본 개시의 실시예의 설명에서, 전문 용어 '포함' 및 그 유사 용어는 개방적 포괄, 즉, '포함하나 이에 한정되지 않음'으로 이해하여야 한다. 전문 용어 '기반하여'는 '적어도 부분적으로 기반하여'로 이해하여야 한다. 전문 용어 '하나의 실시예' 또는 '당해 실시예'는 '적어도 하나의 실시예'로 이해하여야 한다. 전문 용어 '제1', '제2' 등은 부동한 또는 동일한 대상을 지칭할 수 있다. 후술은 또한, 기타의 명확한 및 묵시적인 정의를 포함할 수 있다.
상술한 바와 같이, 종래 방안에서, VQA 시스템에 사용되는 트레이닝 데이터는 통상적으로 수동 주석에 의하여 획득된다. 예를 들어, 주어진 트레이닝 이미지에 대하여 주석하는 인원에 의하여 당해 이미지에 대하여 질문을 제기하고 대응되는 답변을 주석한다. 이러한 방식은 비용이 높고 속도가 늦으며 트레이닝 데이터 양이 유한하다. 이 외에, 주석하는 인원은 통상적으로 직접 이미지 중의 목표 대상을 둘러싸고 질문하는바, 트레이닝 데이터 중의 질문은 형식이 간단하고, 목표 대상에 대한 더욱 복잡한 설명과 추론에 관련되지 않는다. 때문에, 트레이닝된 모델은 통상적으로 이미지 컨텐츠에 대한 심층 이해를 구현할 수 없고, 따라서 이미지에 대한 복잡한 추론적인 질문에 답할 수가 없다.
본 개시의 실시예에 따르면, VQA 시스템의 트레이닝 데이터를 생성하기 위한 방안이 제공된다. 당해 방안은 트레이닝 이미지에 대하여 미리 주석된 물체 관계와 물체 속성 등 정보를 이용하여, 기존의 트레이닝 데이터 집합에서 수동 주석된 간단한 질문을 구비하는 트레이닝 데이터에 따라, 추론적 질문을 구비하는 트레이닝 데이터를 자동 생성한다. 이러한 방식으로, 당해 방안은 VQA 시스템에 사용되는 대량의 트레이닝 데이터를 자동적으로 저렴한 비용으로 고효율로 획득하여, 모델 트레이닝의 효율을 향상시킬 수 있다. 이 외에, 획득된 트레이닝 데이터에는 이미지에 대한 추론적 질문이 포함되므로, VQA 시스템이 이미지에 대한 이해력을 향상시킬 수 있다. 따라서 트레이닝된 VQA 시스템은 이미지에 대한 더욱 복잡한 추론적인 질문을 답할 수 있다.
이하, 첨부 도면을 참조하여 본 개시의 실시예를 구체적으로 설명하고자 한다. 도1은 본 개시의 실시예가 구현될 수 있는 예시 환경(100)의 개략도를 도시한다. 예시 환경(100)은 VQA 시스템의 모델('VQA 모델'이라고도 호칭됨)에 사용되는 트레이닝 과정을 도시한다. 본 개시에서, 전문 용어 '모델'은 트레이닝 데이터로부터 대응되는 입력과 출력 사이의 연관을 학습하고, 트레이닝 완료 후 주어진 입력에 대하여 대응되는 출력을 생성할 수 있다. 도1은 단지 예시적인 목적으로 환경(100)의 구조와 기능을 설명하는 것으로, 본 개시의 범위에 대한 어떠한 제한을 암시하는 것도 아님을 이해하여야 한다. 본 개시의 실시예는 또한 부동한 구조 및/또는 기능을 구비하는 환경에 응용될 수 있다.
도1에 도시한 바와 같이, 예시 환경(100)은 전반적으로는 트레이닝 데이터 확장 장치(110)와 모델 트레이닝 장치(120)를 포함할 수 있다. 일부 실시예에서, 트레이닝 데이터 확장 장치(110)와 모델 트레이닝 장치(120)는 동일한 기기에 구현될 수 있다. 대안적으로, 다른 일부 실시예에서, 트레이닝 데이터 확장 장치(110)와 모델 트레이닝 장치(120)는 각각 부동한 기기에 구현될 수 있다.
일부 실시예에서, 트레이닝 데이터 확장 장치(110)은 미리 주석된, VQA 시스템에 대한 트레이닝 데이터 집합(101)을 획득할 수 있다. 예를 들어, 트레이닝 데이터 확장 장치(110)는 기존의 Visual Genome 데이터 집합으로부터 트레이닝 데이터 집합(101)을 획득할 수 있다. 트레이닝 데이터 집합(101)은 복수 그룹의 트레이닝 데이터를 포함할 수 있다. 예를 들어, 트레이닝 데이터 집합(101) 중의 제1 그룹 트레이닝 데이터는 특정 트레이닝 이미지에 대한 질문(이하 '제1 질문'으로 호칭되기도 함)과 당해 질문의 답변(이하 '제1 답변'으로 호칭되기도 함)을 포함할 수 있다.
일부 실시예에서, 트레이닝 데이터 확장 장치(110)는 트레이닝 데이터 집합(101)에 따라 다른 한 트레이닝 데이터 집합(102)을 생성할 수 있다. 예를 들어, 트레이닝 데이터 확장 장치(110)는 트레이닝 데이터 집합(101) 중의 제1 그룹 트레이닝 데이터에 따라 이에 대응되는 제2 그룹 트레이닝 데이터를 생성할 수 있다. 제2그룹 트레이닝 데이터는 제1 질문에 따라 생성된 추론적 질문(이하 '제2 질문'으로 호칭되기도 함)과 당해 추론적 질문의 답변을 포함할 수도 있다. 예를 들어, 당해 추론적 질문과 제1 질문는 동일한 답변을 가질수 있다.
일부 실시예에서, 도1에 도시한 바와 같이, 트레이닝 데이터 집합(101)과 트레이닝 데이터 집합(102) 양자는 모델 트레이닝 장치(120)에 제공되어 VQA 모델(103)을 트레이닝하는데 사용될 수 있다. 부가적으로 또는 대안적으로, 일부 실시예에서, 단지 모델 트레이닝 장치(120)에 트레이닝 데이터 집합(102)을 제공하여 VQA 모델(103)의 트레이닝에 사용할 수 있다. 트레이닝된 VQA 모델(103)은 입력 이미지에 대하여 제기되는 질문을 답하는데 사용될 수 있다.
도2는 본 개시의 실시예에 따른 VQA 시스템의 트레이닝 데이터를 생성하기 위한 방법(200)의 흐름도를 도시한다. 예를 들어, 방법(200)은 도1에 도시한 바와 같은 트레이닝 데이터 확장 장치(110)에 의하여 실행될 수 있다. 이하 도1에 결부하여 방법(200)에 대하여 상세히 설명하고자 한다. 방법(200) 또한 미도시된 부가 단계를 포함할 수가 있고 및/또는 도시된 단계가 생략될 수도 있음을 이해하여야 한다. 본 개시의 범위는 이러한 측면에서 제한을 받지 않는다.
도2에 도시한 바와 같이, 단계210에서, 트레이닝 데이터 확장 장치(110)는 VQA 시스템의 제1 그룹 트레이닝 데이터를 획득한다. 제1 그룹 트레이닝 데이터는 VQA 시스템에 사용되는 트레이닝 이미지에 대한 제1 질문과 제1 질문에 대응되는 제1 답변을 포함할 수 있다.
일부 실시예에서, 제1 그룹 트레이닝 데이터 중의 제1 질문과 제1 답변은 임의 자연어로 표달될 수 있다. 자연어의 예시는 중국어, 영어, 독일어, 스페인어, 불어 등을 포함하나 이에 한정되지 않는다. 이하 설명에서, 중국어와 영어를 자연어의 예시로 한다. 그러나 이는 단지 예시적 목적을 위한 것일 뿐, 본 개시의 범위를 제한하고자 하는 것이 아님을 이해하여야 한다. 본 개시의 실시예는 여러 가지 부동한 자연어에 적용 가능하다.
일부 실시예에서, 트레이닝 데이터 확장 장치(110)는 미리 주석된 트레이닝 데이터 집합(101)으로부터 제1 그룹 트레이닝 데이터를 획득한다. 도3은 본 개시의 실시예에 따른 예시 트레이닝 데이터의 개략도를 도시한다. 도3은 트레이닝 이미지(310)를 도시하는바, 노란색의 소화전, 당해 소화전을 뛰어넘는 남자 및 반바지를 입고 남자의 위에 서있는 여자가 포함된다. 도3은 또한, 당해 트레이닝 이미지(310)에 있어서 미리 주석된 트레이닝 데이터 집합(101)을 예시적으로 도시하는바, 이는 질문(311)과 질문(311)에 대응되는 답변(312), 및 질문(321)과 질문(321)에 대응되는 답변(322)을 포함한다. 도3에 도시한 바와 같이, 질문(311)은 '여자는 무슨 물건 옆에 서있는가(What is the woman standing next to)?'이고, 그 답변(312)은 '그녀의 소지품(Her belongings)'이다. 질문(321)은 '소화전은 무슨 색갈인가(What color is the fire hydrant)?'이고, 그 답변(322)은 '노란색(Yellow)'이다. 도3이 도시하는 바와 같은 질문(311)과 답변(312)의 조합, 또는 질문(321)과 답변(322)의 조합은 제1 그룹 트레이닝 데이터의 예시로 할 수 있다.
단계220에서, 트레이닝 데이터 확장 장치(110)는 당해 트레이닝 이미지에 관련되는 정보를 획득한다.
일부 실시예에서, 트레이닝 데이터 확장 장치(110)는 당해 이미지에 있어서 미리 주석된 이하, 당해 이미지 중의 하나 또는 복수의 대상을 식별하는 제1 정보; 하나 또는 복수의 대상 사이의 관계를 식별하는 제2 정보; 및 하나 또는 복수의 대상의 대응되는 속성을 식별하는 제3 정보; 중의 적어도 하나를 획득할 수 있다.
일부 실시예에서, 이러한 이미지에 있어서 미리 주석된 정보(즉, 대상, 관계 및 속성)는 소정의 의미 사전(예를 들어, wordNet의미 사전)에 정렬될 수 있다. 즉, 대상, 관계 및 속성을 묘사하기 위한 단어가 당해 소정의 의미 사전에서 획득되어 다른 해석이 존재하지 않도록 보장한다.
도3이 도시하는 바와 같은 이미지(310)를 예로 들면. 일부 실시예에서, 이미지(310)에 관련되는 정보는 이미지(310) 중의 대상, 예를 들어 남자, 여자 및 소화전을 식별할 수 있다. 부가적으로 또는 대안적으로, 이미지(310)에 관련되는 정보는 또한 이미지(310) 중의 부동한 대상 사이의 관계, 예를 들어 여자는 남자의 뒤에 있다(예를 들어, 당해 관계는 is_behind(woman, man)로 표시될 수 있음), 남자가 소화전을 뛰어넘는다(예를 들어, 당해 관계는 jumping_over(man, fire hydrant)로 표시될 수 있음) 등을 식별할 수 있다. 부가적으로 또는 대안적으로, 이미지(310)에 관련되는 정보는 또한 이미지(310) 중의 부동한 대상의 대응되는 속성, 예를 들어 소화전은 노란색이다(예를 들어, color(fire hydrant, yellow)로 표시됨), 소화전의 재질은 금속이다(예를 들어, material(fire hydrant, metal)로 표시됨) 등을 식별할 수 있다.
단계230에서, 트레이닝 데이터 확장 장치(110)는 획득한 정보에 따라 제1 답변에 대응되는 추론적 질문(즉, 제2 질문)을 생성하여, VQA 시스템에 사용되는 트레이닝 이미지에 대한 제2 그룹 트레이닝 데이터를 획득한다. 제2 그룹 트레이닝 데이터는 제2 질문과 제1 답변을 포함할 수 있다.
도4는 본 개시의 실시예에 따른 추론적 질문을 생성하기 위한 방법(400)의 흐름도를 도시한다. 방법(400)은 도2가 도시하는 바와 같은 단계230의 예시적 구현으로 할 수 있다. 예를 들어, 방법(400)은 도1에 도시한 바와 같은 트레이닝 데이터 확장 장치(110)에 의하여 실행될 수 있다. 방법(400)은 또한 미도시된 부가 단계를 포함할 수 있고 및/또는 도시된 단계를 생략할 수도 있음을 이해하여야 한다. 본 개시의 범위는 이러한 측면에서 제한을 받지 않는다.
단계410에서, 트레이닝 데이터 확장 장치(110)는 제1 질문에서 이미지 중의 대상을 묘사하기 위한 키워드를 결정한다. 도3이 도시하는 바와 같은 질문(311)을 예로 들면, 예를 들어 질문(311) 중의 키워드는 '여자(the woman)'일 수 있다. 도3이 도시하는 바와 같은 질문(321)을 예로 들면, 예를 들어 질문(321) 중의 키워드는 '소화전(the fire hydrant)'일 수 있다.
단계420에서, 트레이닝 데이터 확장 장치(110)는 당해 키워드의 상위어를 결정한다. 일부 실시예에서, 트레이닝 데이터 확장 장치(110)는 소정의 의미 사전(예를 들어, wordNet의미 사전)을 조회하여 키워드의 상위어를 결정할 수 있다. 도3이 도시하는 바와 같은 질문(311)을 예로 들면, 예를 들어 키워드 '여자(the woman)'의 상위어는 '사람(person)'일 수 있다. 도3이 도시하는 바와 같은 질문(321)을 예로 들면, 예를 들어 키워드 '소화전(the fire hydrant)'의 상위어는 '물건(thing)'일 수 있다.
단계430에서, 트레이닝 데이터 확장 장치(110)는 상위어를 한정하기 위한 하나 또는 복수의 구속 조건을 생성하여, 당해 하나 또는 복수의 구속 조건에 의해 한정된 상위어에 의해, 이미지 중의 당해 대상을 유일하게 식별할 수 있도록 한다.
일부 실시예에서, 상위어를 한정하기 위한 구속 조건은 대상 사이의 관계에 따라 생성될 수 있다. 도3이 도시하는 바와 같은 질문(311)을 예로 들면, 키워드 '여자(the woman)'의 상위어는 '사람(person)'이다. 이미지(310)에서 남자 뒤의 유일한 사람은 이미지(310) 중의 여자이므로 관계 is_behind(woman,man)가 당해 상위어를 한정하는데 사용되어 이미지(310) 중의 여자를 유일하게 표시할 수 있다.
일부 실시예에서, 상위어를 한정하기 위한 구속 조건은 대상의 속성에 따라 생성될 수 있다. 도3이 도시하는 바와 같은 질문(312)을 예로 들면, 키워드 '소화전(the fire hydrant)'의 상위어는 '물건(thing)'이다. 가령 이미지(310)에서 소화전만이 금속 재질이라면, 속성 material(fire hydrant, metal)을 이용하여 상위어 '물건(thing)'을 한정함으로써 소화전에 대하여 유일하게 식별할 수 있다.
일부 실시예에서, 만약 하나의 구속 조건을 이용하여 구속되는 상위어가 이미지 중의 당해 대상에 대하여 유일하게 식별이 불가능할 시, 복수의 구속 조건에 의해 한정된 상위어가 이미지 중의 당해 대상에 대하여 유일하게 식별이 가능할 때까지, 구속 조건의 수량을 증가할 수 있다. 예를 들어, 당해 복수의 구속 조건은 대상 관계에 따라 생성된 구속 조건 및/또는 대상 속성에 따라 생성된 구속 조건을 포함할 수 있다.
부가적으로 또는 대안적으로, 일부 실시예에서, 상위어를 한정하기 위한 구속 조건의 최대 수량을 선설정하여, 생성된 구속 조건의 수량이 당해 최대 수량을 초과하지 않도록 보장할 수 있다. 이로써 생성된 추론적 질문이 과도하게 복잡하지 않도록 보장할 수 있다. 예를 들어, 설정한 구속 조건의 최대 수량이 K(여기서 K는 자연수)라고 가정한다. 일부 실시예에서, 트레이닝 데이터 확장 장치(110)가 반드시 K개를 초과하는 구속 조건을 사용하여 상위어를 한정하여야만 이미지 중의 어느 한 대상에 대하여 유일하게 식별할 수 있다고 결정할 시, 구속 조건의 생성 및 후속의 당해 대상을 묘사하는 키워드에 대한 치환을 포기할 수 있다.
단계440에서, 트레이닝 데이터 확장 장치(110)는 상위어와 하나 또는 복수의 구속 조건에 따라 제1 질문을 제2 질문으로 변환한다. 일부 실시예에서, 트레이닝 데이터 확장 장치(110)는 당해 하나 또는 복수의 구속 조건에 의해 한정된 상위어로 제1 질문 중의 키워드를 치환하여, 제2 질문을 획득할 수 있다.
예를 들어, 도3은 예시 트레이닝 데이터 집합(101)에 따라 생성된 예시 트레이닝 데이터 집합(102)을 도시하는바, 이는 질문(311)으로부터 변환된 추론적 질문(331)인 '남자 뒤의 사람은 무슨 물건 옆에 서있는가(What is the person that is behind the man standing next to)?'를 포함하고, 여기서 '남자 뒤의 사람(the person that is behind the man)'을 이용하여 질문(311) 중의 '여자(the woman)'를 치환한다. 예를 들어, 질문(331)의 답변은 여전히 답변(312)인 '그녀의 소지품'이다. 트레이닝 데이터 집합(102)은 또한, 질문(321)으로부터 변환된 추론적 질문(341)인 '금속으로 만들어진 물건은 무슨 색갈인가(What color is the thing that is made of metal)?'를 포함하고, 여기서 '금속으로 만들어진 물건(the thing that is made of metal)'을 이용하여 질문(321) 중의 '소화전(the fire hydrant)'을 치환한다. 예를 들어, 질문(341)의 답변은 여전히 답변(322), 즉 '노란색'이다.
이상의 설명에서 알 수 있는바, 본 개시의 실시예는 트레이닝 이미지에 대하여 미리 주석된 물체 관계와 물체 속성 등 정보를 이용하여, 기존의 트레이닝 데이터 집합에서 간단한 질문을 구비하는 트레이닝 데이터에 따라 추론적 질문을 구비하는 트레이닝 데이터를 자동 생성한다. 이러한 방식으로, 본 개시의 실시예는 VQA 시스템에 사용되는 대량의 트레이닝 데이터를 자동적으로 저렴한 비용으로 고효율로 획득하여 모델 트레이닝의 효율을 향상시킬 수 있다. 이 외에, 획득된 트레이닝 데이터에는 이미지에 대한 추론적 질문이 포함되므로, VQA 시스템이 이미지에 대한 이해력을 향상시킬 수 있다. 따라서 트레이닝된 VQA 시스템은 이미지에 대한 더욱 복잡한 추론적인 질문을 답할 수 있다.
본 개시의 실시예는 또한 상술한 방법 또는 과정을 구현하기 위한 대응한 장치를 제공한다. 도5는 본 개시의 실시예에 따른 VQA 시스템의 트레이닝 데이터를 생성하기 위한 장치(500)의 개략적 블록도를 도시한다. 당해 장치(500)는 예를 들어 도1 중의 트레이닝 데이터 확장 장치(110)에서 구현될 수 있다. 도5에 도시한 바와 같이, 장치(500)는 제1 획득 모듈(510), 제2 획득 모듈(520) 및 질문 생성 모듈(530)을 포함할 수 있다.
일부 실시예에서, 제1 획득 모듈(510)은 시각적 질문 응답 시스템의 제1 그룹 트레이닝 데이터를 획득하도록 구성되고, 제1 그룹 트레이닝 데이터는 시각적 질문 응답 시스템 중의 이미지에 대한 제1 질문과 제1 질문에 대응되는 제1 답변을 포함함한다.
일부 실시예에서, 제1 획득 모듈(510)은 미리 주석된, 시각적 질문 응답 시스템에 대한 기존 트레이닝 데이터 집합으로부터 제1 그룹 트레이닝 데이터를 획득하도록 구성된다.
일부 실시예에서, 제2 획득 모듈(520)은 이미지와 관련되는 정보를 획득하도록 구성된다.
일부 실시예에서, 제2 획득 모듈(520)은, 당해 이미지에 대해 미리 주석된, 당해 이미지 중의 하나 또는 복수의 대상을 식별하는 제1 정보; 하나 또는 복수의 대상 사이의 관계를 식별하는 제2 정보; 및 하나 또는 복수의 대상의 대응되는 속성을 식별하는 제3 정보; 중의 적어도 하나를 획득하도록 구성된다.
일부 실시예에서, 질문 생성 모듈(530)은 당해 정보에 따라 제1 답변에 대응되는 제2 질문을 생성하여, 시각적 질문 응답 시스템 중의 이미지에 대한 제2 그룹 트레이닝 데이터를 획득하도록 구성되고, 제2 그룹 트레이닝 데이터는 제2 질문과 제1 답변을 포함한다.
일부 실시예에서, 질문 생성 모듈(530)은, 제1 질문에서 이미지 중의 대상을 묘사하기 위한 키워드를 결정하도록 구성되는 제1 결정 유닛; 당해 키워드의 상위어를 결정하도록 구성되는 제2 결정 유닛; 당해 정보에 따라 상위어를 한정하기 위한 하나 또는 복수의 구속 조건을 생성하여, 하나 또는 복수의 구속 조건에 의해 한정된 상위어에 의해, 이미지 중의 당해 대상을 유일하게 식별하도록 구성되는 생성 유닛; 및 상위어와 하나 또는 복수의 구속 조건에 따라 제1 질문을 제2 질문으로 변환하도록 구성되는 변환 유닛; 을 포함한다.
일부 실시예에서, 제2 결정 유닛은 의미 사전을 조회하여 키워드의 상위어를 결정하도록 구성된다.
일부 실시예에서, 획득한 정보는 당해 대상과 이미지 중의 기타 대상 사이의 관계를 식별하고, 생성 유닛은 당해 관계에 따라 하나 또는 복수의 구속 조건 중의 적어도 하나의 구속 조건을 생성하도록 구성된다.
일부 실시예에서, 획득한 정보는 당해 대상의 속성을 식별하고, 생성 유닛은 당해 속성에 따라 하나 또는 복수의 구속 조건 중의 적어도 하나의 구속 조건을 생성하도록 구성된다.
일부 실시예에서, 생성 유닛은 당해 정보에 따라 하나 또는 복수의 구속 조건을 생성하여, 하나 또는 복수의 구속 조건의 수량이 소정의 역치보다 작도록 하게 구성된다.
일부 실시예에서, 변환 유닛은 하나 또는 복수의 구속 조건에 의해 한정된 상위어로 제1 질문 중의 키워드를 치환하여, 제2 질문을 획득하도록 구성된다.
장치(500)에 기재되는 매개 유닛은 각각 도2-4를 참조하여 설명되는 방법(200 및 400) 중의 매개 단계에 대응됨을 이해하여야 한다. 그리고, 장치(500) 및 그에 포함되는 유닛의 조작과 특징은 모두 전술에서 도2-4를 결부하여 설명하는 조작과 특징에 대응되고 동일한 효과를 갖는바, 구체 디테일에 대하여 더 설명하지 않기로 한다.
장치(500)에 포함되는 유닛은 여러 가지 방식을 이용하여 구현할 수 있는바, 소프트웨어, 하드웨어, 펌웨어 또는 이들의 임의 조합이 포함된다. 일부 실시예에서, 하나 또는 복수의 유닛은 소프트웨어 및/또는 펌웨어를 사용하여 구현할 수 있는바, 예를 들어 저장 매체에 저장되는 기계 실행 가능 명령어이다. 기계 실행 가능 명령어 이외에 또는 그 대안으로, 장치(500) 중의 일부 또는 전부의 유닛은 적어도 부분적으로 하나 또는 복수의 하드웨어 논리 컴포넌트로 구현될 수 있다. 제한이 아닌 예시로서, 사용 가능한 시범 유형의 하드웨어 논리 컴포넌트는 필드 프로그램 가능 게이트 어레이(FPGA), 주문형 반도체(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 디바이스(CPLD) 등을 포함한다.
도5에 도시한 이러한 유닛은 일부 또는 전부가 하드웨어 모듈, 소프트웨어 모듈, 펌웨어 모듈 또는 이들의 임의 조합으로 구현될 수 있다. 특별히, 어떤 실시예에서, 전술에서 설명된 흐름, 방법 또는 과정은 저장 시스템 또는 저장 시스템에 대응되는 호스트 컴퓨터 또는 저장 시스템으로부터 독립되는 기타 컴퓨팅 기기 중의 하드웨어에 의해 구현될 수 있다.
도6은 본 개시의 실시예를 구현할 수 있는 예시 기기(600)의 개략적 블록도를 도시한다. 기기(600)는 도1에 도시한 바와 같은 트레이닝 데이터 확장 장치(110) 및/또는 모델 트레이닝 장치(120)를 구현할 수 있다. 도시한 바와 같이, 기기(600)는 중앙 처리 유닛(CPU)(601)을 포함하는바, 이는 읽기 전용 메모리(ROM)(602)에 저장된 컴퓨터 프로그램 명령어 또는 저장 유닛(608)으로부터 랜덤 액세스 메모리(RAM)(603)에 로딩된 컴퓨터 프로그램 명령어에 따라 여러 가지 적당한 동작과 처리를 실행할 수 있다. RAM(603)에는, 또한 기기(600) 조작에 필요한 여러 가지 프로그램과 데이터가 저장될 수 있다. CPU(601), ROM(602) 및 RAM(603)은 버스(604)를 통하여 서로 연결된다. 입력/출력(I/O) 인터페이스((605))도 버스(604)에 연결된다.
기기(600) 중의 복수의 부품은 I/O 인터페이스(605)에 연결되는바, 입력 유닛(606), 예를 들어 키보드, 마우스 등; 출력 유닛(607), 예를 들어 여러 가지 유형의 디스플레이, 스피커 등; 저장 유닛(608), 예를 들어 자기 디스크, 광디스크 등; 및 통신 유닛(609), 예를 들어 네트워크 카드, 모뎀, 무선 통신 송수신기 등을 포함한다. 통신 유닛(609)은 기기(600)가 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전기 통신 네트워크를 통하여 기타 기기와 정보/데이터를 교환하도록 허용한다.
처리 유닛(601)은 전술에서 설명된 각각의 방법 및 처리를 실행하는바, 예를 들어 방법(200 및/또는 400). 예를 들어, 일부 실시예에서, 방법(200 및/또는 400)은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있는바, 이는 기계 판독 가능 매체, 예를 들어 저장 유닛(608)에 유형적으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부가 ROM(602) 및/또는 통신 유닛(609)을 통하여 기기(600)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(603)에 로딩되어 CPU(601)에 의하여 실행될 시, 전술에서 설명된 방법(200 및/또는 400)의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 기타 실시예에서, CPU(601)는 기타 임의의 적당한 방식을 통해(예를 들어, 펌웨어의 도움으로) 방법(200 및/또는 400)을 실행하도록 구성될 수 있다.
본 개시에서, 이상에서 설명된 기능은 적어도 부분적으로 하나 또는 복수의 하드웨어 논리 부품에 의해 실행될 수 있다. 예를 들어, 무제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부품은 필드 프로그램 가능 게이트 어레이(FPGA), 주문형 반도체(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD) 등을 포함한다 .
본 개시의 방법을 구현하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어 프로그램 코드가 프로세서 또는 제어기에 의해 실행될 시 흐름도 및/또는 블록도에 규정한 기능/조작이 구현되도록 할 수 있다. 프로그램 코드는 기계에서 전부 실행되거나, 기계에서 일부 실행되거나, 독립적인 소프트웨어 패키지로서 일부는 기계에서 실행되고 일부는 원격 기계에서 실행되거나, 혹은 원격 기계 또는 서버에서 전부 실행될 수 있다.
본 개시의 전반 서술에서, 기계 판독 가능 매체는 유형의 매체일 수 있는바, 이는, 명령어 실행 시스템, 장치 또는 기기에 사용하기 위한, 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자의, 자성의, 광학의, 전자기의, 적외선의 또는 반도체의 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함할 수 있으나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선에 기반하는 전기 연결, 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함하게 된다.
이 외에, 비록 각 조작을 묘사함에 있어서 특정 순서를 적용하였지만, 이러한 조작이 도시된 특정 순서로 또는 순차적 순서로 실행되어야 하거나, 또는 모든 도시한 조작이 실행되어야 하는 것으로, 이로써 기대하는 결과를 취득하기 위한 것임을 이해하여야 한다. 일정한 환경에서는, 다중 태스크 및 병렬 처리가 유익할 수 있다. 마찬가지로, 비록 위의 서술에는 약간의 구체 구현 디테일이 포함되지만, 이러한 것은 본 개시의 범위에 대한 제한으로 해석되어서는 안된다. 단독의 실시예의 전반 서술에서 설명되는 어떤 특징 또한, 조합 가능하게 하나의 구현에 구현될 수 있다. 반대로, 하나의 구현의 전반 서술에서 설명되는 여러 가지 특징도 단독으로 또는 임의의 적합한 서브조합의 방식으로 복수 개 조합하여 구현될 수 있다.
비록 이미 구조적 특징 및/또는 방법론적 동작에 특정된 언어를 적용하여 본 주제에 대해 설명하였지만, 첨부된 특허청구범위가 한정하는 주제는 위에서 설명한 특정 특징 또는 동작에 한정되는 것이 아님을 이해하여야 한다. 반대로, 위에서 설명한 특정 특징 및 동작은 단지 특허청구범위의 예시 형식을 구현하는 것일 뿐이다.

Claims (20)

  1. 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법에 있어서,
    상기 시각적 질문 응답 시스템의 제1 그룹 트레이닝 데이터를 획득하는 단계 - 상기 제1 그룹 트레이닝 데이터는 상기 시각적 질문 응답 시스템 중의 이미지에 대한 제1 질문과 상기 제1 질문에 대응되는 제1 답변을 포함함 - ;
    상기 이미지에 관련되는 정보를 획득하는 단계 - 상기 정보는 이미지에 있어서 미리 주석된 대상 정보, 관계 정보 및 속성 정보를 포함함 -; 및
    대상 정보 중의 키워드와 키워드의 상위어를 결정하고, 관계 정보와 속성 정보에 따라 상위어를 한정하는 구속 조건을 생성하고, 구속 조건에 의해 한정된 상위어를 사용하여 제1 질문 중의 대상 정보의 키워드를 치환하여, 상기 제1 답변에 대응되는 제2 질문을 생성하여, 상기 시각적 질문 응답 시스템 중의 상기 이미지에 대한 제2 그룹 트레이닝 데이터를 획득하는 단계 - 상기 제2 그룹 트레이닝 데이터는 상기 제2 질문과 상기 제1 답변을 포함함 - ; 를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  2. 제1항에 있어서,
    상기 제1 그룹 트레이닝 데이터를 획득하는 단계는,
    미리 주석된, 상기 시각적 질문 응답 시스템에 대한 기존 트레이닝 데이터 집합으로부터 상기 제1 그룹 트레이닝 데이터를 획득하는 단계를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  3. 제1항에 있어서,
    상기 정보를 획득하는 단계는,
    상기 이미지에 대해 미리 주석된,
    상기 이미지 중의 하나 또는 복수의 대상을 식별하는 제1 정보;
    상기 하나 또는 복수의 대상 사이의 관계를 식별하는 제2 정보; 및
    상기 하나 또는 복수의 대상의 대응되는 속성을 식별하는 제3 정보; 중의 적어도 하나를 획득하는 단계를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  4. 제1항에 있어서,
    상기 제2 질문을 생성하는 단계는,
    상기 제1 질문에서 상기 이미지 중의 대상을 묘사하기 위한 키워드를 결정하는 단계;
    상기 키워드의 상위어를 결정하는 단계;
    하나 또는 복수의 상기 구속 조건을 생성하여, 상기 하나 또는 복수의 구속 조건에 의해 한정된 상기 상위어에 의해, 상기 이미지 중의 상기 대상을 유일하게 식별하도록 하는 단계; 및
    상기 상위어와 상기 하나 또는 복수의 구속 조건에 따라 상기 제1 질문을 상기 제2 질문으로 변환하는 단계; 를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  5. 제4항에 있어서,
    상기 상위어를 결정하는 단계는,
    의미 사전을 조회하여 상기 키워드의 상기 상위어를 결정하는 단계를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  6. 제4항에 있어서,
    상기 정보가 상기 대상과 상기 이미지 중의 기타 대상 사이의 관계를 식별하고,
    상기 하나 또는 복수의 구속 조건을 생성하는 단계는,
    상기 관계에 따라 상기 하나 또는 복수의 구속 조건 중의 적어도 하나의 구속 조건을 생성하는 단계를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  7. 제4항에 있어서,
    상기 정보가 상기 대상의 속성을 식별하고,
    상기 하나 또는 복수의 구속 조건을 생성하는 단계는,
    상기 속성에 따라 상기 하나 또는 복수의 구속 조건 중의 적어도 하나의 구속 조건을 생성하는 단계를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  8. 제4항에 있어서,
    상기 하나 또는 복수의 구속 조건을 생성하는 단계는,
    상기 정보에 따라 상기 하나 또는 복수의 구속 조건을 생성하여, 상기 하나 또는 복수의 구속 조건의 수량이 소정의 역치보다 작도록 하는 단계를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  9. 제4항에 있어서,
    상기 제1 질문을 상기 제2 질문으로 변환하는 단계는,
    상기 하나 또는 복수의 구속 조건에 의해 한정된 상기 상위어로 상기 제1 질문 중의 상기 키워드를 치환하여, 상기 제2 질문을 획득하는 단계를 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 방법.
  10. 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치에 있어서,
    상기 시각적 질문 응답 시스템의 제1 그룹 트레이닝 데이터를 획득하도록 구성되는 제1 획득 모듈 - 상기 제1 그룹 트레이닝 데이터는 상기 시각적 질문 응답 시스템 중의 이미지에 대한 제1 질문과 상기 제1 질문에 대응되는 제1 답변을 포함함 - ;
    상기 이미지에 관련되는 정보를 획득하도록 구성되는 제2 획득 모듈- 상기 정보는 이미지에 있어서 미리 주석된 대상 정보, 관계 정보 및 속성 정보를 포함함 -; 및
    대상 정보 중의 키워드와 키워드의 상위어를 결정하고, 관계 정보와 속성 정보에 따라 상위어를 한정하는 구속 조건을 생성하고, 구속 조건에 의해 한정된 상위어를 사용하여 제1 질문 중의 대상 정보의 키워드를 치환하여, 상기 제1 답변에 대응되는 제2 질문을 생성하여, 상기 시각적 질문 응답 시스템 중의 상기 이미지에 대한 제2 그룹 트레이닝 데이터를 획득하도록 구성되는 질문 생성 모듈 - 상기 제2 그룹 트레이닝 데이터는 상기 제2 질문과 상기 제1 답변을 포함함 -을 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  11. 제10항에 있어서,
    상기 제1 획득 모듈은
    미리 주석된, 상기 시각적 질문 응답 시스템에 대한 기존 트레이닝 데이터 집합으로부터 상기 제1 그룹 트레이닝 데이터를 획득하도록 구성되는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  12. 제10항에 있어서,
    상기 제2 획득 모듈은
    상기 이미지에 대해 미리 주석된,
    상기 이미지 중의 하나 또는 복수의 대상을 식별하는 제1 정보;
    상기 하나 또는 복수의 대상 사이의 관계를 식별하는 제2 정보; 및
    상기 하나 또는 복수의 대상의 대응되는 속성을 식별하는 제3 정보; 중의 적어도 하나를 획득하도록 구성되는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  13. 제10항에 있어서,
    상기 질문 생성 모듈은,
    상기 제1 질문에서 상기 이미지 중의 대상을 묘사하기 위한 키워드를 결정하도록 구성되는 제1 결정 유닛;
    상기 키워드의 상위어를 결정하도록 구성되는 제2 결정 유닛;
    하나 또는 복수의 상기 구속 조건을 생성하여, 상기 하나 또는 복수의 구속 조건에 의해 한정된 상기 상위어에 의해, 상기 이미지 중의 상기 대상을 유일하게 식별하도록 구성되는 생성 유닛; 및
    상기 상위어와 상기 하나 또는 복수의 구속 조건에 따라 상기 제1 질문을 상기 제2 질문으로 변환하도록 구성되는 변환 유닛; 을 포함하는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  14. 제13항에 있어서,
    상기 제2 결정 유닛은,
    의미 사전을 조회하여 상기 키워드의 상기 상위어를 결정하도록 구성되는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  15. 제13항에 있어서,
    상기 정보가 상기 대상과 상기 이미지 중의 기타 대상 사이의 관계를 식별하고,
    상기 생성 유닛은,
    상기 관계에 따라 상기 하나 또는 복수의 구속 조건 중의 적어도 하나의 구속 조건을 생성하도록 구성되는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  16. 제13항에 있어서,
    상기 정보는 상기 대상의 속성을 식별하고,
    상기 생성 유닛은,
    상기 속성에 따라 상기 하나 또는 복수의 구속 조건 중의 적어도 하나의 구속 조건을 생성하도록 구성되는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  17. 제13항에 있어서,
    상기 생성 유닛은,
    상기 정보에 따라 상기 하나 또는 복수의 구속 조건을 생성하여, 상기 하나 또는 복수의 구속 조건의 수량이 소정의 역치보다 작도록 하게 구성되는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  18. 제13항에 있어서,
    상기 변환 유닛은,
    상기 하나 또는 복수의 구속 조건에 의해 한정된 상기 상위어로 상기 제1 질문 중의 상기 키워드를 치환하여, 상기 제2 질문을 획득하도록 구성되는,
    것을 특징으로 하는 시각적 질문 응답 시스템의 트레이닝 데이터를 생성하기 위한 장치.
  19. 전자 기기에 있어서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하기 위한 저장 장치; 를 포함하고,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 시, 상기 하나 또는 복수의 프로세서가 제1항 내지 제9항 중 어느 한 항의 방법을 구현하는,
    것을 특징으로 하는 전자 기기.
  20. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 프로그램이 프로세서에 의해 실행될 시, 제1항 내지 제9항 중 어느 한 항의 방법이 구현되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.

KR1020190109836A 2018-09-27 2019-09-05 Vqa 시스템의 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 매체 KR102261977B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811134016.6A CN109241267B (zh) 2018-09-27 2018-09-27 生成vqa系统的训练数据的方法、装置、设备和介质
CN201811134016.6 2018-09-27

Publications (2)

Publication Number Publication Date
KR20200036741A KR20200036741A (ko) 2020-04-07
KR102261977B1 true KR102261977B1 (ko) 2021-06-08

Family

ID=65057316

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190109836A KR102261977B1 (ko) 2018-09-27 2019-09-05 Vqa 시스템의 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 매체

Country Status (5)

Country Link
US (1) US11521118B2 (ko)
EP (1) EP3629253A1 (ko)
JP (1) JP6975752B2 (ko)
KR (1) KR102261977B1 (ko)
CN (1) CN109241267B (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871457A (zh) 2019-01-30 2019-06-11 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、电子设备和存储介质
CN109858555B (zh) * 2019-02-12 2022-05-17 北京百度网讯科技有限公司 基于图像的数据处理方法、装置、设备及可读存储介质
CN111949824B (zh) * 2020-07-08 2023-11-03 合肥工业大学 基于语义对齐的视觉问答方法和系统、存储介质
CN112651403B (zh) * 2020-12-02 2022-09-06 浙江大学 基于语义嵌入的零样本视觉问答方法
WO2023153082A1 (ja) * 2022-02-08 2023-08-17 ソニーグループ株式会社 情報処理装置、情報処理方法、及びプログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178623A1 (en) 2013-12-23 2015-06-25 International Business Machines Corporation Automatically Generating Test/Training Questions and Answers Through Pattern Based Analysis and Natural Language Processing Techniques on the Given Corpus for Quick Domain Adaptation

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572998B (zh) * 2015-01-07 2017-09-01 北京云知声信息技术有限公司 用于自动问答系统的问答排序模型更新方法及装置
US9910886B2 (en) * 2015-04-17 2018-03-06 International Business Machines Corporation Visual representation of question quality
US10909329B2 (en) * 2015-05-21 2021-02-02 Baidu Usa Llc Multilingual image question answering
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
CN105630887B (zh) * 2015-12-18 2017-06-16 北京中科汇联科技股份有限公司 中文问答系统
CN106339756B (zh) * 2016-08-25 2019-04-02 北京百度网讯科技有限公司 训练数据的生成方法、搜索方法以及装置
KR102017853B1 (ko) 2016-09-06 2019-09-03 주식회사 카카오 검색 방법 및 장치
EP3593262A4 (en) * 2017-03-10 2020-12-09 Eduworks Corporation AUTOMATED TOOL FOR GENERATING QUESTIONS
CN108090169A (zh) * 2017-12-14 2018-05-29 上海智臻智能网络科技股份有限公司 问句扩展方法及装置、存储介质、终端

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150178623A1 (en) 2013-12-23 2015-06-25 International Business Machines Corporation Automatically Generating Test/Training Questions and Answers Through Pattern Based Analysis and Natural Language Processing Techniques on the Given Corpus for Quick Domain Adaptation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Stanislaw Antol et al., VQA: Visual Question Answering. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015, pp. 2425-2433.
Yikang Li et al., Visual Question Generation as Dual Task of Visual Question Answering, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018.06.23., pp. 6116-6124. 1부.*

Also Published As

Publication number Publication date
CN109241267A (zh) 2019-01-18
US11521118B2 (en) 2022-12-06
KR20200036741A (ko) 2020-04-07
US20200104742A1 (en) 2020-04-02
JP6975752B2 (ja) 2021-12-01
JP2020053018A (ja) 2020-04-02
EP3629253A1 (en) 2020-04-01
CN109241267B (zh) 2022-07-01

Similar Documents

Publication Publication Date Title
KR102261977B1 (ko) Vqa 시스템의 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 매체
US20220350965A1 (en) Method for generating pre-trained language model, electronic device and storage medium
US20220004714A1 (en) Event extraction method and apparatus, and storage medium
CN112507040B (zh) 多元关系生成模型的训练方法、装置、电子设备及介质
KR102316063B1 (ko) 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체
Grefenstette et al. A deep architecture for semantic parsing
CN104361127B (zh) 基于领域本体和模板逻辑的多语种问答接口快速构成方法
Al-Zubaide et al. Ontbot: Ontology based chatbot
KR102329242B1 (ko) Vqa 트레이닝 데이터를 생성하는 방법, 장치, 기기 및 컴퓨터 판독 가능 매체
US10346751B2 (en) Extraction of inference rules from heterogeneous graphs
KR102299744B1 (ko) 지식 그래프 중의 데이터 모델을 획득하는 방법, 장치, 기기 및 저장 매체
Liang et al. A tag-based English math word problem solver with understanding, reasoning and explanation
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN112883198A (zh) 一种知识图谱构建方法、装置、存储介质以及计算机设备
Alatrish et al. Building ontologies for different natural languages
CN113553411B (zh) 查询语句的生成方法、装置、电子设备和存储介质
CN109977194B (zh) 基于无监督学习的文本相似度计算方法、系统、设备及介质
KR102206742B1 (ko) 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치
CN115756610A (zh) 一种自然语言指令信息的处理方法、装置、设备及介质
US20220300836A1 (en) Machine Learning Techniques for Generating Visualization Recommendations
Diprose End user robot programming via visual languages
CN114281940B (zh) 一种基于语义工程和案例学习的计算机认知方法及系统
CN116226478B (zh) 信息处理方法、模型训练方法、装置、设备及存储介质
Wang et al. A Hybrid Pattern Knowledge Graph-Based API Recommendation Approach
Sudhi et al. Natural Language Processing for Requirements Formalization: How to Derive New Approaches?

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant