KR102533140B1 - 심층 신경망을 이용한 장면 그래프 생성 시스템 - Google Patents

심층 신경망을 이용한 장면 그래프 생성 시스템 Download PDF

Info

Publication number
KR102533140B1
KR102533140B1 KR1020200106363A KR20200106363A KR102533140B1 KR 102533140 B1 KR102533140 B1 KR 102533140B1 KR 1020200106363 A KR1020200106363 A KR 1020200106363A KR 20200106363 A KR20200106363 A KR 20200106363A KR 102533140 B1 KR102533140 B1 KR 102533140B1
Authority
KR
South Korea
Prior art keywords
node
graph
neural network
visual
nodes
Prior art date
Application number
KR1020200106363A
Other languages
English (en)
Other versions
KR20220025524A (ko
Inventor
김인철
정가영
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020200106363A priority Critical patent/KR102533140B1/ko
Priority to PCT/KR2021/006634 priority patent/WO2022045531A1/ko
Publication of KR20220025524A publication Critical patent/KR20220025524A/ko
Application granted granted Critical
Publication of KR102533140B1 publication Critical patent/KR102533140B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

심층 신경망을 이용한 장면 그래프 생성 시스템이 개시된다. 이 시스템은 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지부, 추론된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지부, 및 물체 및 관계 탐지부의 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성부를 포함한다.

Description

심층 신경망을 이용한 장면 그래프 생성 시스템{System for generating scene graph using deep neural network}
본 발명은 장면 그래프 생성 기술에 관한 것으로, 특히 영상에서 물체를 인식하고 그들 간의 관계를 파악하여 그래프 형태로 표현하는 기술에 관한 것이다.
심층 영상 이해(Deep Image Understanding)를 요구하는 대표적인 인공지능 및 컴퓨터 비전 문제 중 하나로, 장면 그래프 생성(Scene Graph Generation) 문제가 있다. 장면 그래프는 한 영상에 담긴 장면을 그래프 형태로 표현한 것으로서, 그래프를 구성하는 각 노드(node)는 영상 속의 물체(object)를 나타내며, 각 간선(edge)은 물체들 간의 관계(relationship)를 나타낸다. 따라서 <주어 물체(subject)-관계 서술자(relationship predicate)-목적어 물체(object)> 형태의 사실 집합(fact set)으로 볼 수 있다. 즉 장면 그래프 생성 문제는 입력 영상에 관한 심층 이해의 결과로 해당 영상의 장면을 표현하는 하나의 지식 그래프(knowledge graph)를 생성하는 문제이다.
도 1은 일반적인 장명 그래프 생성 과정을 보여주고 있다. 장면 그래프 생성을 위해서는 영상 속 물체 탐지(object detection)뿐만 아니라, 물체들 간의 관계 탐지(relationship detection)도 필수적으로 요구된다. 물체 탐지는 종래의 컴퓨터 비전 분야에서 많이 연구된 문제이나, 관계 탐지나 최근에 와서야 관심을 모으고 있는 문제로서 아직은 연구의 초기 단계에 머물고 있다. 영상 속의 두 물체들 간에 가질 수 있는 관계들은 매우 다양하다. 일반적으로 장면 그래프 생성 연구에서 많이 다루어지는 물체들 간의 관계에는 공간 관계(spatial relationship)와 의미적 관계(semantic relationship)가 있다. 공간 관계는 ‘on’, ‘next to’, ‘in front of’와 같이 영상 안에 놓인 물체들 간의 상대적 위치 관계를 나타낸다. 반면에, 의미적 관계는 ‘wearing’, ‘eating’, ‘holding’과 같이 한 물체가 다른 물체에 행하는 행위와 연관된 관계이다.
합성곱 신경망(Convolutional Neural Network, CNN)을 이용한 물체 탐지 기술은 현재 높은 수준에 도달해 있으나, 아직은 물체 식별과 영역 탐지에 오류가 있을 수 있다. 이는 곧 관계 탐지에 기초가 되는 두 물체의 식별에 불확실성과 오류가 있을 수 있다는 것을 의미한다. 비록 관계를 맺는 두 물체의 식별이 매우 분명하다고 하더라도, 두 물체 간에 가능한 관계의 수 또한 많기 때문에 물체 간의 관계를 정확히 판별하는 일은 결코 쉬운 일이 아니다. 더욱이 일반적으로 특정 관계와 그 관계를 맺을 수 있는 두 물체의 유형에는 다양한 의미적 제약이 존재한다. 도 1을 예로 들면, <man-wearing-shoes>의 관계는 가능하지만, <man-wearing-racket>이나 <shoes-wearing-man>과 같은 관계는 불가능하다는 것을 인간은 상식적으로 잘 알고 있다. 따라서, 이러한 문제의 특성을 잘 고려하여 영상으로부터 정확한 장면 그래프를 효과적으로 생성할 수 있어야 한다.
국내공개특허공보 제10-2017-0134158호 (2017년 12월 6일 공개)
본 발명은 영상에 대한 적절한 장면 그래프를 생성할 수 있는 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 심층 신경망을 이용한 장면 그래프 생성 시스템은 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지부, 추론된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지부, 및 물체 및 관계 탐지부의 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성부를 포함할 수 있다.
물체 영역 탐지부는 Faster R-CNN(Region of Convolutional Neural Network)을 이용하여 입력 영상에서 물체 영역들을 탐지할 수 있다.
물체 및 관계 탐지부는 추론된 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여하는 그래프 초기화부, 그래프 초기화부로부터 얻어진 각 노드의 초기 특징값들을 토대로 이웃한 노드들 사이에 맥락 정보를 교환하여 각 노드의 특징값을 갱신하는 그래프 추론부, 그래프 추론부를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)하는 그래프 레이블링부를 포함할 수 있다.
그래프 초기화부는 각각의 물체 영역별로 물체 노드를 생성하며 그 생성된 물체 노드에 초기 특징값을 할당하는 물체 노드 초기화부, 및 물체 영역들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며 그 생성된 관계 노드에 초기 특징값을 할당하되, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당하는 관계 노드 초기화부를 포함할 수 있다.
물체 노드 초기화부는 각각의 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당할 수 있다.
언어 맥락 특징은 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 임베딩한 특징으로 이루어지는 구성 요소들을 포함할 수 있다.
시각 맥락 특징은 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보를 포함할 수 있다.
관계 노드 초기화부는 언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩할 수 있다.
그래프 추론부는 주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영할 수 있다.
그래프 추론부는 주의 집중 그래프 합성 곱 신경망 기반의 시각적 추론 계층과 주의 집중 그래프 합성 곱 신경망 기반의 의미적 추론 계층으로 구성되며, 시각적 추론 계층의 결과인 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 계층의 초기 입력값으로 제공될 수 있다.
한편, 일 양상에 따른 심층 신경망을 이용한 장면 그래프 생성 방법은 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지 단계, 탐지된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지 단계, 및 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성 단계를 포함할 수 있다.
본 발명은 입력 영상에 대한 적절한 장면 그래프를 생성하는 것을 가능하게 하는 효과를 창출한다.
도 1은 장면 그래프 생성 예시도이다.
도 2는 일 실시예에 따른 심층 신경망을 이용한 장면 그래프 생성 시스템 블록도이다.
도 3은 일 실시예에 따른 심층 신경망을 이용한 장면 그래프 생성 모델 구조도이다.
도 4는 일 실시예에 따른 양방향 순환 신경망 기반의 언어 맥락 특징 임베딩 과정을 나타낸 도면이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 2는 일 실시예에 따른 심층 신경망을 이용한 장면 그래프 생성 시스템 블록도이다. 장면 그래프 생성 시스템은 물체 영역 탐지부(100)와 물체 및 관계 탐지부(200) 및 그래프 생성부(600)를 포함한다. 물체 영역 탐지부(100)는 입력으로 주어지는 영상에서 복수의 물체 영역을 탐지한다. 일 실시예에 있어서, 물체 영역 탐지부(100)는 Faster R-CNN(Region of Convolutional Neural Network)을 이용하여 물체 영역들을 탐지한다. 이때, 탐지되는 영역은 최대 64개일 수 있다. 그리고 각 물체 영역은 합성곱 신경망(CNN)의 시각적 특징과 위치 및 클래스 확률 분포의 값들을 가진다. 이러한 특징값들은 물체 영역 추론 과정에서 얻어져 이후 물체 노드와 관계 노드의 값을 초기화하기 위해 사용된다.
물체 및 관계 탐지부(200)는 탐지된 물체 영역들을 기초로 입력 영상 내 물체들 및 그들 간의 관계를 탐지한다. 일 실시예에 있어서, 물체 및 관계 탐지부(200)는 합성 곱 신경망(Convolutional Neural Network, CNN) 기반의 시각 맥락 특징 외에 언어 맥락 특징도 포함하는 멀티 맥락 정보를 이용하여 물체 및 관계를 탐지한다. 구체적으로, 물체 및 관계 탐지부(200)는 물체 영역 탐지부(100)의 의해 탐지된 각각의 물체 영역을 물체 노드로 그들 간의 물체 쌍을 관계 노드로 표현하고 각각의 노드를 초기화시킨다. 물체 및 관계 탐지부(200)는 그래프 합성 곱 신경망(Graph Convolution Neural Network, GCN)을 이용하여 이웃한 노드들끼리 맥락 정보를 교환하여 해당 노드의 특징값을 갱신하며, 최종적으로 얻어진 특징값을 바탕으로 각 물체 노드와 관계 노드를 분류한다. 그리고 그래프 생성부(600)는 물체 및 관계 탐지부(200)의 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는데, 물체 및 관계 탐지부(200)에 의해 분류된 물체 노드와 관계 노드를 바탕으로 장면 그래프를 생성한다.
물체 및 관계 탐지부(200)는 그래프 초기화부(300)와 그래프 추론부(400) 및 그래프 레이블링부(500)를 포함할 수 있다. 그래프 초기화부(300)는 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여한다. 도 2에 도시된 바와 같이, 그래프 초기화부(300)는 물체 노드 초기화부(310)와 관계 노드 초기화부(320)를 포함할 수 있으며, 관계 노드 초기화부(320)는 언어 맥락 특징 임베딩부(321)를 포함할 수 있다. 물체 노드 초기화부(310)는 물체 영역별로 물체 노드를 생성하며, 그 생성된 물체 노드에 초기 특징값을 할당한다. 이때, 물체 노드 초기화부(310)는 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 물체 노드의 초기 특징값으로 할당할 수 있다. 그리고 관계 노드 초기화부(320)는 물체 노드들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며, 그 생성된 관계 노드에 초기 특징값을 할당하는데, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징도 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당한다.
시각 맥락 특징에는 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보가 포함될 수 있으며, 언어 맥락 특징에는 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 임베딩한 특징으로 이루어지는 구성 요소들이 포함될 수 있다. 그리고 언어 맥락 특징 임베딩부(321)는 언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩할 수 있다.
그래프 추론부(400)는 그래프 초기화부(300)로부터 얻어진 각각의 노드의 초기 특징값들을 토대로 이웃한 노드들 간에 맥락 정보를 교환하여 각 노드의 특징값들을 갱신한다. 일 실시예에 있어서, 그래프 추론부(400)는 주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영한다. 주의 집중 그래프 합성 곱 신경망을 이용하여 물체 노드의 특징값을 갱신할 때는 주어 물체 노드와 목적어 물체 노드 사이, 주어 물체 노드와 관계 노드 사이, 목적어 물체 노드와 관계 노드 사이에 맥락 정보 교환이 이루어진다. 반면에 관계 노드의 특징값을 갱신할 때는 관계 노드와 주어 물체 노드 사이, 관계 노드와 목적어 물체 노드 사이에 맥락 정보 교환이 일어난다.
도 2에 도시된 바와 같이, 그래프 추론부(400)는 시각적 추론부(410)와 의미적 추론부(420)를 포함할 수 있다. 시각적 추론부(410)는 시각적 추론을 위한 그래프 합성 곱 신경망 계층을 나타내며, 의미적 추론부(420)는 의미적 추론을 위한 그래프 합성 곱 신경망 계층을 나타낸다. 각각의 계층에서는 그래프 초기화부(300)를 통해 부여된 각 노드의 초기 특징값들을 토대로 그래프의 이웃한 노드들 사이에 맥락 정보를 서로 교환함으로써, 각 노드의 특징값 갱신 과정이 각각 수행된다. 이때, 시각적 추론부(410)로부터 얻어진 각 노드의 물체 및 관계 클래스 확률 분포는 의미적 추론부(420)의 초기 노드 입력으로 제공될 수 있다.
그래프 레이블링부(500)는 그래프 추론부(400)를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)한다. 의미적 추론부(420)에서 최종적으로 얻어진 각 노드의 특징값은 소프트맥스(softmax) 함수를 거쳐 가장 큰 값을 가지는 카테고리로 분류된다. 그래프 레이블링부(500)의 물체 노드 분류부(510)는 물체 클래스 확률 분포에서 가장 큰 값으로 물체 노드를 레이블링하며, 관계 노드 분류부(520)도 동일한 과정을 통해 관계 노드를 레이블링한다. 이를 통해, <주어-서술자-목적어> 형태의 정형화된 결과물이 얻어진다.
이하에서는 상술한 시스템에 따른 장면 그래프 생성 방법에 대해 보다 구체적으로 설명한다. 도 3은 장면 그래프 생성을 위한 신경망 구조 모델을 예시한 도면이다. 본 모델은 물체 영역 탐지(region proposals, RP), 물체 및 관계 탐지(object & relationship detection, ORD), 그리고 그래프 생성(graph generation, GG)의 3단계로 이루어진다. 물체 영역 탐지(RP) 단계에서는 대표적인 물체 탐지 모듈인 Faster R-CNN을 이용하며, 입력 영상의 각 물체 후보 영역별 ResNet101 시각 특징 벡터, 바운딩 박스(bounding box)의 위치와 크기, 물체 범주별 확률 분포(object class distribution) 등을 구해낸다.
물체 및 관계 탐지(ORD) 단계는 다시 그래프 초기화(graph initialization), 그래프 추론(graph reasoning), 그래프 레이블링(graph labelling)의 세부 단계들로 구성된다. 그래프 초기화 단계에서는 물체 영역 탐지(RP) 과정을 통해 얻어진 입력 영상 내 각 물체 영역들을 기초로 장면 그래프를 구성할 물체 노드 및 관계 노드들을 생성하고, 이들 노드에 초기값을 부여한다. 그래프 추론 단계에서는 그래프 합성 곱 신경망(Graph Convolution Neural Network, GCN)을 이용하여, 그래프 내 이웃한 물체 노드 및 관계 노드들 사이에 서로 맥락 정보를 교환하며 각 노드의 특징값을 갱신한다. 그래프 레이블링 단계에서는 각 노드의 최종 특징값을 바탕으로 물체(object) 및 관계(relationship)를 분류(node classification)한다. 마지막으로 그래프 생성 단계에서는 분류된 각 노드들을 토대로 하나의 장면 그래프를 완성한다.
본 모델의 그래프 초기화 단계에서는 영상에서 탐지된 각 물체 영역별로 그래프 내에 하나의 물체 노드(object node)를 생성하고, 해당 노드에 초기 특징값을 부여한다. 본 모델에서는 대표적인 물체 탐지 모듈인 Faster R-CNN을 입력 영상에 적용하여, 각 물체 후보 영역별로 추출한 시각 특징 벡터와 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당한다. 이 초기 특징값은 추후 그래프 신경망을 통해 이웃 노드들의 풍부한 맥락 정보가 결합된 후, 물체 노드의 분류에 사용된다. 따라서 본 모델에서 최종 판별하는 각 노드의 물체 범주는 Faster R-CNN이 추측한 초기 물체 범주와는 달라질 수도 있다.
● 물체 시각 특징(object visual feature)
-
Figure 112020088825063-pat00001
: 해당 물체 영역의 합성 곱(CNN) 시각 특징
● 클래스 확률 분포(class probability distribution)
-
Figure 112020088825063-pat00002
: 해당 물체 영역의 물체 클래스 확률 분포
따라서 각 물체 노드의 초기 특징 벡터
Figure 112020088825063-pat00003
는 수학식 1과 같다.
Figure 112020088825063-pat00004
수학식 1의
Figure 112020088825063-pat00005
은 연결 연산(concatenate)을 나타낸다.
그래프 초기화 단계에서는 물체 노드의 초기화 이외에, 관계 노드의 초기화도 수행한다. 즉 영상에서 탐지된 물체 영역들의 각 쌍(pair)에 대해 그래프 내에 하나의 관계 노드를 생성하고, 해당 노드에 초기 특징값을 부여한다. 본 모델에서는 효과적인 관계 탐지를 위해 영상 기반의 시각 맥락 특징(visual context feature)들 외에 텍스트 기반의 언어 맥락 특징(linguistic context feature)들로 포함하는 풍부한 멀티 모달 맥락 정보를 관계 노드의 초기 특징값으로 할당한다. 관계 노드를 위한 시각 맥락 특징 집합과 언어 맥락 특징 집합의 구성은 다음과 같다.
● 시각 맥락 특징 집합(visual context feature set)
-
Figure 112020088825063-pat00006
: 입력 영상 전체의 합성 곱 시각 특징
-
Figure 112020088825063-pat00007
: 하나의 관계(relationship)를 맺을 수 있는 주어 물체(subject) 영역과 목적어 물체(object) 영역을 둘러싸는 영상 영역(union box)의 합성 곱 시각 특징
-
Figure 112020088825063-pat00008
: 주어 물체와 목적어 물체를 둘러싸는 영역(union box)의 위치 정보
Figure 112020088825063-pat00009
수학식 2의
Figure 112020088825063-pat00010
는 각각 물체 영역의 중심 좌표와 너비, 높이를 의미하며,
Figure 112020088825063-pat00011
는 union box의 너비와 높이를 각각 나타낸다. 한편, 수학식 3의
Figure 112020088825063-pat00012
은 union box의 왼쪽 상단 모서리 좌표를,
Figure 112020088825063-pat00013
은 오른쪽 하단 모서리 좌표를 각각 나타낸다.
● 언어 맥락 특징 집합(linguistic context feature set)
-
Figure 112020088825063-pat00014
: 주어 물체의 예상 범주명(object category)을 다층 퍼셉트론(Multi-layer Perception, MLP)으로 임베딩한 특징
-
Figure 112020088825063-pat00015
: 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보
-
Figure 112020088825063-pat00016
: 목적어 물체의 예상 범주명을 다층 퍼셉트론으로 임베딩한 특징
여기서,
Figure 112020088825063-pat00017
는 수학식 3과 같다.
Figure 112020088825063-pat00018
한편, 하나의 관계를 표현하기 위한 언어 맥락 특징 벡터
Figure 112020088825063-pat00019
는 앞서 소개한
Figure 112020088825063-pat00020
등 3가지 구성 요소들을 단순 연결(concatenate), 단방향 순환신경망(RNN), 양방향 순환신경망(biRNN) 등 다양한 결합 방식으로 구할 수 있다. 일반적으로 두 물체 간의 관계는 <주어-관계 서술자-목적어>와 같이 3가지 언어 구성 요소 각각의 위치와 순서, 그리고 역할을 고려하여 하나의 시퀀스(sequence)로 표현하는 것이 바람직하다. 이 점에 착안하여, 본 모델에서는 3가지 언어 구성 요소들
Figure 112020088825063-pat00021
을 양방향 순환신경망(bidirectional Recurrent Neural Network, biRNN)을 이용해 순차적으로 결합함으로써, 언어 맥락 특징 벡터
Figure 112020088825063-pat00022
를 생성해낸다. 특히, 언어의 개념적 관계에 기초하여 해당 관계를 맺을 수 있는 가능한 주어 물체 유형과 목적어 물체 유형 간의 쌍방향 제약(bidirectional constraint)을 특징 벡터
Figure 112020088825063-pat00023
에 효과적으로 담아내기 위해, 본 모델에서는 양방향 순환신경망(biRNN)으로 언어 맥락 시퀀스
Figure 112020088825063-pat00024
를 임베딩한다. 도 4는 biRNN 기반의 언어 맥락 특징값 임베딩 과정을 나타내며, 수학식 4는 해당 과정을 수식으로 나타낸다.
Figure 112020088825063-pat00025
Figure 112020088825063-pat00026
는 학습 파라미터,
Figure 112020088825063-pat00027
는 순방향에서의 은닉상태(hidden state),
Figure 112020088825063-pat00028
는 역방향에서의 은닉상태를 의미한다. 본 모델에서 각 관계 노드의 초기 특징값은 시각 맥락 특징 벡터와 biRNN으로 임베딩된 언어 맥락 특징 벡터를 결합하여 수학식 5와 같이 주어진다.
Figure 112020088825063-pat00029
본 모델의 그래프 추론(Graph Reasoning) 과정은 각각 시각적 추론 단계(visual level)와 의미적 추론 단계(semantic level)를 나타내는 그래프 합성 곱 신경망(Graph Convolutional Network)의 2개 계층으로 구성된다. 각 계층에서는 그래프 초기화 단계에서 부여된 각 노드의 초기 특징값들을 토대로 그래프의 이웃한 노드들 사이에 맥락 정보를 서로 교환함으로써, 각 노드의 특징값을 새롭게 갱신한다. 특히, 본 모델에서는 주의 집중 그래프 합성 곱 신경망(attentional GCN)을 사용함으로써, 이웃 노드들 중 집중해야 할 노드와 그렇지 않은 노드를 구별하여 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영한다. 각 노드의 주의 집중 값
Figure 112020088825063-pat00030
는 수학식 6 및 수학식 7과 같이, 두 노드의 특징값
Figure 112020088825063-pat00031
Figure 112020088825063-pat00032
를 토대로 예측한다.
Figure 112020088825063-pat00033
Figure 112020088825063-pat00034
수학식 6과 수학식 7에서
Figure 112020088825063-pat00035
는 2개 계층 퍼셉트론(MLP)을,
Figure 112020088825063-pat00036
Figure 112020088825063-pat00037
는 학습용 파라미터를 각각 나타낸다.
주의 집중 그래프 신경망을 이용하여 물체 노드의 특징값을 갱신할 때는 주어 물체 노드 <-> 목적어 물체 노드, 주어 물체 노드 <-> 관계 노드, 목적어 물체 노드 <-> 관계 노드 간에 맥락 정보 교환이 이루어진다. 반면에 관계 노드의 특징값을 갱신할 때는 관계 노드 <-> 주어 물체 노드, 관계 노드 <-> 목적어 물체 노드 간에 맥락 정보 교환이 일어난다. 따라서 그래프 내 각 물체 노드의 특징값 갱신은 수학식 8과 같고, 반면에 관계 노드의 특징값 갱신은 수학식 9와 같다.
Figure 112020088825063-pat00038
Figure 112020088825063-pat00039
수학식 8과 수학식 9에서
Figure 112020088825063-pat00040
는 주어 물체(subject) 노드, 관계(relationship) 노드, 목적어 물체(object) 노드를 각각 나타낸다. 시각적 추론 단계와 의미적 추론 단계로 구성되는 2개의 주의 집중 그래프 신경망 계층에서는 이와 같은 노드 특징값 갱신 과정이 각각 수행된다. 대신 시각적 추론 단계의 결과인 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 단계의 초기 노드 입력으로 제공된다.
마지막으로, 그래프 레이블링(Graph Labelling) 단계에서는 의미적 추론 단계에서 얻어진 각 노드의 최종 특징값을 바탕으로, 물체 및 관계를 분류해낸다. 물체 노드는 물체 클래스 확률 분포에서 가장 큰 값으로 레이블링한다. 관계 노드 또한 같은 과정을 거쳐 레이블링이 이루어진다. 이를 통해 <주어-서술자-목적어> 형태의 정형화된 결과물을 얻는다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 물체 영역 탐지부 200 : 물체 및 관계 탐지부
300 : 그래프 초기화부 310 : 물체 노드 초기화부
320 : 관계 노드 초기화부 321 : 언어 맥락 특징 임베딩부
400 : 그래프 추론부 410 : 시각적 추론부
420 : 의미적 추론부 500 : 그래프 레이블링부
510 : 물체 노드 분류부 520 : 관계 노드 분류부
600 : 그래프 생성부

Claims (18)

  1. 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지부;
    입력 영상에서 탐지된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지부; 및
    물체 및 관계 탐지부의 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성부;를 포함하고,
    물체 및 관계 탐지부는 :
    입력 영상에서 탐지된 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여하는 그래프 초기화부;
    그래프 초기화부로부터 얻어진 각 노드의 초기 특징값들을 토대로 이웃한 노드들 사이에 맥락 정보를 교환하여 각 노드의 특징값을 갱신하되, 주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영하는 그래프 추론부; 및
    그래프 추론부를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)하는 그래프 레이블링부;를 포함하고,
    그래프 추론부는 주의 집중 그래프 합성 곱 신경망 기반의 시각적 추론 계층과 주의 집중 그래프 합성 곱 신경망 기반의 의미적 추론 계층으로 구성되고, 시각적 추론 계층의 결과인 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 계층의 초기 입력값으로 제공되며,
    그래프 초기화부는 :
    각각의 물체 영역별로 물체 노드를 생성하며 그 생성된 물체 노드에 초기 특징값을 할당하는 물체 노드 초기화부; 및
    물체 영역들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며 그 생성된 관계 노드에 초기 특징값을 할당하되, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당하는 관계 노드 초기화부;를 포함하되,
    관계 노드 초기화부는 :
    언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩하는 언어 맥락 특징 임베딩부;를 포함하며,
    언어 맥락 특징은 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 다층 퍼셉트론으로 임베딩한 특징으로 이루어지는 구성 요소들을 포함한 심층 신경망을 이용한 장면 그래프 생성 시스템.
  2. 제 1 항에 있어서,
    물체 영역 탐지부는 Faster R-CNN(Region of Convolutional Neural Network)을 이용하여 입력 영상에서 물체 영역들을 탐지하는 심층 신경망을 이용한 장면 그래프 생성 시스템.
  3. 제 1 항에 있어서,
    물체 노드 초기화부는 각각의 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당하는 심층 신경망을 이용한 장면 그래프 생성 시스템.
  4. 제 1 항에 있어서,
    시각 맥락 특징은 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보를 포함한 심층 신경망을 이용한 장면 그래프 생성 시스템.
  5. 물체 영역 탐지부와 물체 및 관계 탐지부와 그래프 생성부를 포함하는 심층 신경망을 이용한 장면 그래프 생성 시스템에 의해 수행되는 심층 신경망을 이용한 장면 그래프 생성 방법에 있어서,
    물체 영역 탐지부가 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지 단계;
    물체 및 관계 탐지부가 입력 영상에서 탐지된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지 단계; 및
    그래프 생성부가 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성 단계;를 포함하고,
    물체 및 관계 탐지 단계는 :
    입력 영상에서 탐지된 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여하는 그래프 초기화 단계;
    각 노드의 초기 특징값들을 토대로 이웃한 노드들 사이에 맥락 정보를 교환하여 각 노드의 특징값을 갱신하되, 주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영하는 그래프 추론 단계; 및
    그래프 추론 단계를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)하는 그래프 레이블링 단계;를 포함하고,
    그래프 추론 단계는 :
    그래프 초기화 단계에서 부여된 각 노드의 초기 특징값들을 토대로 시각적 추론을 위한 주의 집중 그래프 합성 곱 신경망을 이용하여 이웃한 노드들 사이의 맥락 정보 교환을 통해 각 노드의 특징값을 갱신하는 시각적 추론 단계; 및
    그래프 초기화 단계에서 부여된 각 노드의 초기 특징값들을 토대로 의미적 추론을 위한 주의 집중 그래프 합성 곱 신경망을 이용하여 이웃한 노드들 사이의 맥락 정보 교환을 통해 각 노드의 특징값을 갱신하는 의미적 추론 단계;를 포함하고, 시각적 추론 단계를 통해 얻어진 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 단계의 초기 노드 입력으로 제공되며,
    그래프 초기화 단계는 :
    각각의 물체 영역별로 물체 노드를 생성하며 그 생성된 물체 노드에 초기 특징값을 할당하는 물체 노드 초기화 단계; 및
    물체 영역들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며 그 생성된 관계 노드에 초기 특징값을 할당하되, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당하는 관계 노드 초기화 단계;를 포함하되,
    관계 노드 초기화 단계는 언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩하며,
    언어 맥락 특징은 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 다층 퍼셉트론으로 임베딩한 특징으로 이루어지는 구성 요소들을 포함한 심층 신경망을 이용한 장면 그래프 생성 방법.
  6. 제 5 항에 있어서,
    시각 맥락 특징은 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보를 포함한 심층 신경망을 이용한 장면 그래프 생성 방법.
  7. 제 5 항에 있어서,
    물체 노드 초기화 단계는 각각의 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당하는 심층 신경망을 이용한 장면 그래프 생성 방법.
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
KR1020200106363A 2020-08-24 2020-08-24 심층 신경망을 이용한 장면 그래프 생성 시스템 KR102533140B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200106363A KR102533140B1 (ko) 2020-08-24 2020-08-24 심층 신경망을 이용한 장면 그래프 생성 시스템
PCT/KR2021/006634 WO2022045531A1 (ko) 2020-08-24 2021-05-28 심층 신경망을 이용한 장면 그래프 생성 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200106363A KR102533140B1 (ko) 2020-08-24 2020-08-24 심층 신경망을 이용한 장면 그래프 생성 시스템

Publications (2)

Publication Number Publication Date
KR20220025524A KR20220025524A (ko) 2022-03-03
KR102533140B1 true KR102533140B1 (ko) 2023-05-17

Family

ID=80353420

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200106363A KR102533140B1 (ko) 2020-08-24 2020-08-24 심층 신경망을 이용한 장면 그래프 생성 시스템

Country Status (2)

Country Link
KR (1) KR102533140B1 (ko)
WO (1) WO2022045531A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546589B (zh) * 2022-11-29 2023-04-07 浙江大学 一种基于图神经网络的图像生成方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110249867A1 (en) 2010-04-13 2011-10-13 International Business Machines Corporation Detection of objects in digital images

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410096B2 (en) * 2015-07-09 2019-09-10 Qualcomm Incorporated Context-based priors for object detection in images
US9881234B2 (en) * 2015-11-25 2018-01-30 Baidu Usa Llc. Systems and methods for end-to-end object detection
US10032067B2 (en) 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110249867A1 (en) 2010-04-13 2011-10-13 International Business Machines Corporation Detection of objects in digital images

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"COBE: Contextualized Object Embeddings from Narrated Instructional Video", arXiv:2007.07306v1(pp. 1-14), 2020.07.*
"Graph R-CNN for Scene Graph Generation", the European Conference on Computer Vision(ECCV)(pp. 1-16), 2018.*

Also Published As

Publication number Publication date
KR20220025524A (ko) 2022-03-03
WO2022045531A1 (ko) 2022-03-03

Similar Documents

Publication Publication Date Title
JP7128022B2 (ja) 完全教師あり学習用のデータセットの形成
Asif et al. GraspNet: An Efficient Convolutional Neural Network for Real-time Grasp Detection for Low-powered Devices.
Demirel et al. Zero-shot object detection by hybrid region embedding
Pronobis et al. Large-scale semantic mapping and reasoning with heterogeneous modalities
US8630965B2 (en) Framework of hierarchical sensory grammars for inferring behaviors using distributed sensors
CN111275026B (zh) 一种三维点云联合语义和实例分割的方法
EP3985552A1 (en) System for detection and management of uncertainty in perception systems
Suhail et al. Convolutional neural network based object detection: A review
CN112347838A (zh) 道路地图融合
Sami et al. Waste management using machine learning and deep learning algorithms
Soumya et al. Emotion recognition from partially occluded facial images using prototypical networks
Gupta et al. Corridor segmentation for automatic robot navigation in indoor environment using edge devices
KR102533140B1 (ko) 심층 신경망을 이용한 장면 그래프 생성 시스템
Srinivas et al. Facial Expression Detection Model of Seven Expression Types Using Hybrid Feature Selection and Deep CNN
CN112241758A (zh) 用于评估显著性图确定器的设备和方法
Zhu et al. Affective video content analysis via multimodal deep quality embedding network
Devi et al. Deep learning based audio assistive system for visually impaired people
Ding et al. Human activity recognition and location based on temporal analysis
Harsha et al. Distinctly trained multi-source cnn for multi-camera based vehicle tracking system
Brezani et al. Smart extensions to regular cameras in the industrial environment
Meena et al. Hybrid Neural Network Architecture for Multi-Label Object Recognition using Feature Fusion
Kalirajan et al. Deep Learning for Moving Object Detection and Tracking
Augustauskas et al. Aggregation of pixel-wise U-Net deep neural networks for road pavement defects detection
Kim et al. Crowd activity recognition using optical flow orientation distribution
Muench et al. Generalized Hough transform based time invariant action recognition with 3D pose information

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right