WO2022045531A1 - Scene graph generation system using deep neural network - Google Patents

Scene graph generation system using deep neural network Download PDF

Info

Publication number
WO2022045531A1
WO2022045531A1 PCT/KR2021/006634 KR2021006634W WO2022045531A1 WO 2022045531 A1 WO2022045531 A1 WO 2022045531A1 KR 2021006634 W KR2021006634 W KR 2021006634W WO 2022045531 A1 WO2022045531 A1 WO 2022045531A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
graph
neural network
visual
feature
Prior art date
Application number
PCT/KR2021/006634
Other languages
French (fr)
Korean (ko)
Inventor
김인철
정가영
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Publication of WO2022045531A1 publication Critical patent/WO2022045531A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Abstract

A scene graph generation system using a deep neural network is disclosed. The system comprises: an object area detection unit for detecting a plurality of object areas from an input image; an object and relationship detection unit which detects objects and relationships within the image on the basis of the inferred object areas, and which detects the objects and relationships by using multi-modal contextual information including linguistic contextual features, in addition to visual contextual features; and a graph generation unit generating a scene graph for the input image according to the detection results of the object and relationship detection unit.

Description

심층 신경망을 이용한 장면 그래프 생성 시스템Scene graph generation system using deep neural network
본 발명은 장면 그래프 생성 기술에 관한 것으로, 특히 영상에서 물체를 인식하고 그들 간의 관계를 파악하여 그래프 형태로 표현하는 기술에 관한 것이다.The present invention relates to a technique for generating a scene graph, and more particularly, to a technique for recognizing an object in an image, grasping a relationship between them, and expressing it in a graph form.
심층 영상 이해(Deep Image Understanding)를 요구하는 대표적인 인공지능 및 컴퓨터 비전 문제 중 하나로, 장면 그래프 생성(Scene Graph Generation) 문제가 있다. 장면 그래프는 한 영상에 담긴 장면을 그래프 형태로 표현한 것으로서, 그래프를 구성하는 각 노드(node)는 영상 속의 물체(object)를 나타내며, 각 간선(edge)은 물체들 간의 관계(relationship)를 나타낸다. 따라서 <주어 물체(subject)-관계 서술자(relationship predicate)-목적어 물체(object)> 형태의 사실 집합(fact set)으로 볼 수 있다. 즉 장면 그래프 생성 문제는 입력 영상에 관한 심층 이해의 결과로 해당 영상의 장면을 표현하는 하나의 지식 그래프(knowledge graph)를 생성하는 문제이다.As one of the representative artificial intelligence and computer vision problems that require deep image understanding, there is a scene graph generation problem. A scene graph expresses a scene contained in an image in the form of a graph. Each node constituting the graph represents an object in the image, and each edge represents a relationship between the objects. Therefore, it can be seen as a fact set in the form of <subject-relationship predicate-object>. That is, the scene graph generation problem is a problem of generating a knowledge graph representing the scene of the corresponding image as a result of in-depth understanding of the input image.
도 1은 일반적인 장명 그래프 생성 과정을 보여주고 있다. 장면 그래프 생성을 위해서는 영상 속 물체 탐지(object detection)뿐만 아니라, 물체들 간의 관계 탐지(relationship detection)도 필수적으로 요구된다. 물체 탐지는 종래의 컴퓨터 비전 분야에서 많이 연구된 문제이나, 관계 탐지나 최근에 와서야 관심을 모으고 있는 문제로서 아직은 연구의 초기 단계에 머물고 있다. 영상 속의 두 물체들 간에 가질 수 있는 관계들은 매우 다양하다. 일반적으로 장면 그래프 생성 연구에서 많이 다루어지는 물체들 간의 관계에는 공간 관계(spatial relationship)와 의미적 관계(semantic relationship)가 있다. 공간 관계는 ‘on’, ‘next to’, ‘in front of’와 같이 영상 안에 놓인 물체들 간의 상대적 위치 관계를 나타낸다. 반면에, 의미적 관계는 ‘wearing’, ‘eating’, ‘holding’과 같이 한 물체가 다른 물체에 행하는 행위와 연관된 관계이다.1 shows a general longevity graph generation process. In order to generate a scene graph, not only object detection in an image but also relationship detection between objects is essential. Object detection is a problem that has been studied a lot in the conventional computer vision field, but it is still in the early stages of research as a problem that has only recently been attracting attention in relation detection or in the field of relationship detection. The possible relationships between the two objects in the image are very diverse. In general, there are spatial relationships and semantic relationships between objects, which are often dealt with in the study of scene graph generation. Spatial relationship represents the relative positional relationship between objects placed in the image, such as ‘on’, ‘next to’, and ‘in front of’. On the other hand, semantic relationships are those related to the actions of one object to another, such as ‘wearing’, ‘eating’, and ‘holding’.
합성곱 신경망(Convolutional Neural Network, CNN)을 이용한 물체 탐지 기술은 현재 높은 수준에 도달해 있으나, 아직은 물체 식별과 영역 탐지에 오류가 있을 수 있다. 이는 곧 관계 탐지에 기초가 되는 두 물체의 식별에 불확실성과 오류가 있을 수 있다는 것을 의미한다. 비록 관계를 맺는 두 물체의 식별이 매우 분명하다고 하더라도, 두 물체 간에 가능한 관계의 수 또한 많기 때문에 물체 간의 관계를 정확히 판별하는 일은 결코 쉬운 일이 아니다. 더욱이 일반적으로 특정 관계와 그 관계를 맺을 수 있는 두 물체의 유형에는 다양한 의미적 제약이 존재한다. 도 1을 예로 들면, <man-wearing-shoes>의 관계는 가능하지만, <man-wearing-racket>이나 <shoes-wearing-man>과 같은 관계는 불가능하다는 것을 인간은 상식적으로 잘 알고 있다. 따라서, 이러한 문제의 특성을 잘 고려하여 영상으로부터 정확한 장면 그래프를 효과적으로 생성할 수 있어야 한다.Object detection technology using a convolutional neural network (CNN) has reached a high level at present, but there may still be errors in object identification and area detection. This means that there may be uncertainties and errors in the identification of two objects that are the basis for relationship detection. Although the identification of two objects forming a relationship is very clear, since the number of possible relationships between two objects is also large, it is by no means easy to accurately determine the relationship between objects. Moreover, in general, there are various semantic restrictions on a specific relationship and the types of two objects that can have the relationship. Referring to FIG. 1 as an example, although the relationship of <man-wearing-shoes> is possible, the human common sense is well aware that the relationship such as <man-wearing-racket> or <shoes-wearing-man> is impossible. Therefore, it should be possible to effectively generate an accurate scene graph from an image in consideration of the characteristics of this problem.
본 발명은 영상에 대한 적절한 장면 그래프를 생성할 수 있는 기술적 방안을 제공함을 목적으로 한다.An object of the present invention is to provide a technical method capable of generating an appropriate scene graph for an image.
일 양상에 따른 심층 신경망을 이용한 장면 그래프 생성 시스템은 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지부, 추론된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지부, 및 물체 및 관계 탐지부의 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성부를 포함할 수 있다.A scene graph generating system using a deep neural network according to an aspect detects an object and a relationship in an image based on an object region detector that detects a plurality of object regions in an input image, and inferred object regions, but uses a convolutional neural network Network)-based visual context features, as well as an object and relationship detector that detects objects and relationships using multi-modal context information including language context features, and a scene graph for the input image according to the detection results of the object and relationship detector It may include a graph generator for generating the graph.
물체 영역 탐지부는 Faster R-CNN(Region of Convolutional Neural Network)을 이용하여 입력 영상에서 물체 영역들을 탐지할 수 있다.The object region detector may detect object regions in the input image by using a Faster Region of Convolutional Neural Network (R-CNN).
물체 및 관계 탐지부는 추론된 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여하는 그래프 초기화부, 그래프 초기화부로부터 얻어진 각 노드의 초기 특징값들을 토대로 이웃한 노드들 사이에 맥락 정보를 교환하여 각 노드의 특징값을 갱신하는 그래프 추론부, 그래프 추론부를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)하는 그래프 레이블링부를 포함할 수 있다.The object and relationship detector generates object nodes and relationship nodes to compose a graph based on the inferred object regions, and provides an initial feature value for each generated node. A graph reasoning unit that updates the feature value of each node by exchanging context information between neighboring nodes based on the feature values, and classifies objects and relationships based on the final feature value of each node updated through the graph reasoning unit (node classification) ) may include a graph labeling unit.
그래프 초기화부는 각각의 물체 영역별로 물체 노드를 생성하며 그 생성된 물체 노드에 초기 특징값을 할당하는 물체 노드 초기화부, 및 물체 영역들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며 그 생성된 관계 노드에 초기 특징값을 할당하되, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당하는 관계 노드 초기화부를 포함할 수 있다.The graph initializer creates an object node for each object region and assigns an initial feature value to the created object node, and creates one relation node for each pair of object regions It may include a relation node initializer for allocating an initial feature value to the relation node, but assigning multi-modal context information including a text-based linguistic context feature in addition to an image-based visual context feature as an initial feature value.
물체 노드 초기화부는 각각의 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당할 수 있다.The object node initializer may allocate a visual feature and an object class probability distribution of each object region as initial feature values of each object node.
언어 맥락 특징은 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 임베딩한 특징으로 이루어지는 구성 요소들을 포함할 수 있다.The linguistic context feature includes a feature in which the expected object category of the subject object is embedded, location information in the image of the subject-object region and the object-object region, and a feature in which the expected category name of the object is embedded. can do.
시각 맥락 특징은 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보를 포함할 수 있다.The visual context feature includes the visual feature of the entire input image, the visual feature of the image region surrounding the subject object region and the object object region that can form a relationship, and location information of the region surrounding the subject object and the object object. can do.
관계 노드 초기화부는 언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩할 수 있다.The relationship node initializer may embed the components of the language context feature using a bidirectional recurrent neural network.
그래프 추론부는 주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영할 수 있다.The graph reasoning unit can use an attentional graph convolution neural network to identify a node to focus on among neighboring nodes, and differentially reflect the information of the neighboring nodes in updating the feature values of each node.
그래프 추론부는 주의 집중 그래프 합성 곱 신경망 기반의 시각적 추론 계층과 주의 집중 그래프 합성 곱 신경망 기반의 의미적 추론 계층으로 구성되며, 시각적 추론 계층의 결과인 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 계층의 초기 입력값으로 제공될 수 있다.The graph reasoning unit is composed of a visual inference layer based on the attention graph convolutional product neural network and a semantic reasoning layer based on the attention graph convolutional product neural network, and the object and relationship class probability distribution of each node as a result of the visual reasoning layer is semantic inference It may be provided as an initial input value of the layer.
한편, 일 양상에 따른 심층 신경망을 이용한 장면 그래프 생성 방법은 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지 단계, 탐지된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지 단계, 및 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성 단계를 포함할 수 있다.On the other hand, the method for generating a scene graph using a deep neural network according to an aspect includes an object region detection step of detecting a plurality of object regions in an input image, an object and a relationship in an image based on the detected object regions, and a convolutional product neural network ( A graph that generates a scene graph for an input image according to the object and relationship detection step of detecting objects and relationships using multi-modal context information including language context features in addition to visual context features based on Convolutional Neural Network), and the detection results It may include a generating step.
본 발명은 입력 영상에 대한 적절한 장면 그래프를 생성하는 것을 가능하게 하는 효과를 창출한다.The present invention creates an effect that makes it possible to generate an appropriate scene graph for an input image.
도 1은 장면 그래프 생성 예시도이다.1 is an exemplary diagram of scene graph generation.
도 2는 일 실시예에 따른 심층 신경망을 이용한 장면 그래프 생성 시스템 블록도이다.2 is a block diagram of a scene graph generation system using a deep neural network according to an embodiment.
도 3a 내지 도 3c는 일 실시예에 따른 심층 신경망을 이용한 장면 그래프 생성 모델 구조도이다.3A to 3C are structural diagrams of a scene graph generation model using a deep neural network according to an embodiment.
도 4는 일 실시예에 따른 양방향 순환 신경망 기반의 언어 맥락 특징 임베딩 과정을 나타낸 도면이다.4 is a diagram illustrating a language context feature embedding process based on a bidirectional recurrent neural network according to an embodiment.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.The foregoing and further aspects of the present invention will become more apparent through preferred embodiments described with reference to the accompanying drawings. Hereinafter, the present invention will be described in detail so that those skilled in the art can easily understand and reproduce it through these examples.
도 2는 일 실시예에 따른 심층 신경망을 이용한 장면 그래프 생성 시스템 블록도이다. 장면 그래프 생성 시스템은 물체 영역 탐지부(100)와 물체 및 관계 탐지부(200) 및 그래프 생성부(600)를 포함한다. 물체 영역 탐지부(100)는 입력으로 주어지는 영상에서 복수의 물체 영역을 탐지한다. 일 실시예에 있어서, 물체 영역 탐지부(100)는 Faster R-CNN(Region of Convolutional Neural Network)을 이용하여 물체 영역들을 탐지한다. 이때, 탐지되는 영역은 최대 64개일 수 있다. 그리고 각 물체 영역은 합성곱 신경망(CNN)의 시각적 특징과 위치 및 클래스 확률 분포의 값들을 가진다. 이러한 특징값들은 물체 영역 추론 과정에서 얻어져 이후 물체 노드와 관계 노드의 값을 초기화하기 위해 사용된다.2 is a block diagram of a scene graph generation system using a deep neural network according to an embodiment. The scene graph generation system includes an object region detection unit 100 , an object and relationship detection unit 200 , and a graph generation unit 600 . The object region detector 100 detects a plurality of object regions in an image given as an input. In an embodiment, the object region detector 100 detects object regions using a Faster Region of Convolutional Neural Network (R-CNN). In this case, the number of detected areas may be up to 64. And each object region has the values of the visual characteristics of the convolutional neural network (CNN) and the position and class probability distribution. These feature values are obtained in the object domain reasoning process and then used to initialize the values of object nodes and relation nodes.
물체 및 관계 탐지부(200)는 탐지된 물체 영역들을 기초로 입력 영상 내 물체들 및 그들 간의 관계를 탐지한다. 일 실시예에 있어서, 물체 및 관계 탐지부(200)는 합성 곱 신경망(Convolutional Neural Network, CNN) 기반의 시각 맥락 특징 외에 언어 맥락 특징도 포함하는 멀티 맥락 정보를 이용하여 물체 및 관계를 탐지한다. 구체적으로, 물체 및 관계 탐지부(200)는 물체 영역 탐지부(100)의 의해 탐지된 각각의 물체 영역을 물체 노드로 그들 간의 물체 쌍을 관계 노드로 표현하고 각각의 노드를 초기화시킨다. 물체 및 관계 탐지부(200)는 그래프 합성 곱 신경망(Graph Convolution Neural Network, GCN)을 이용하여 이웃한 노드들끼리 맥락 정보를 교환하여 해당 노드의 특징값을 갱신하며, 최종적으로 얻어진 특징값을 바탕으로 각 물체 노드와 관계 노드를 분류한다. 그리고 그래프 생성부(600)는 물체 및 관계 탐지부(200)의 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는데, 물체 및 관계 탐지부(200)에 의해 분류된 물체 노드와 관계 노드를 바탕으로 장면 그래프를 생성한다.The object and relationship detector 200 detects objects in the input image and a relationship therebetween based on the detected object regions. In an embodiment, the object and relationship detection unit 200 detects an object and a relationship using multi-context information including language context features in addition to visual context features based on a convolutional neural network (CNN). Specifically, the object and relationship detection unit 200 represents each object zone detected by the object zone detection unit 100 as an object node, and an object pair between them as a relationship node, and initializes each node. The object and relationship detector 200 updates the feature value of the node by exchanging context information between neighboring nodes using a Graph Convolution Neural Network (GCN), and based on the finally obtained feature value to classify each object node and relation node. And the graph generating unit 600 generates a scene graph for the input image according to the detection result of the object and relation detecting unit 200, based on the object nodes and relation nodes classified by the object and relation detecting unit 200 to create a scene graph.
물체 및 관계 탐지부(200)는 그래프 초기화부(300)와 그래프 추론부(400) 및 그래프 레이블링부(500)를 포함할 수 있다. 그래프 초기화부(300)는 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여한다. 도 2에 도시된 바와 같이, 그래프 초기화부(300)는 물체 노드 초기화부(310)와 관계 노드 초기화부(320)를 포함할 수 있으며, 관계 노드 초기화부(320)는 언어 맥락 특징 임베딩부(321)를 포함할 수 있다. 물체 노드 초기화부(310)는 물체 영역별로 물체 노드를 생성하며, 그 생성된 물체 노드에 초기 특징값을 할당한다. 이때, 물체 노드 초기화부(310)는 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 물체 노드의 초기 특징값으로 할당할 수 있다. 그리고 관계 노드 초기화부(320)는 물체 노드들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며, 그 생성된 관계 노드에 초기 특징값을 할당하는데, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징도 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당한다.The object and relationship detection unit 200 may include a graph initialization unit 300 , a graph reasoning unit 400 , and a graph labeling unit 500 . The graph initialization unit 300 generates object nodes and relational nodes to construct the graph based on the object regions, and gives initial feature values to each generated node. As shown in FIG. 2 , the graph initializer 300 may include an object node initializer 310 and a relation node initializer 320 , and the relation node initializer 320 includes a language context feature embedding unit ( 321) may be included. The object node initialization unit 310 creates an object node for each object area, and assigns an initial feature value to the created object node. In this case, the object node initialization unit 310 may allocate the visual feature and object class probability distribution of the object region as initial feature values of the object node. In addition, the relationship node initialization unit 320 creates one relationship node for each pair of object nodes, and assigns an initial feature value to the created relationship node. In addition to the image-based visual context feature, text-based Multi-modal context information including language context features is assigned as initial feature values.
시각 맥락 특징에는 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보가 포함될 수 있으며, 언어 맥락 특징에는 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 임베딩한 특징으로 이루어지는 구성 요소들이 포함될 수 있다. 그리고 언어 맥락 특징 임베딩부(321)는 언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩할 수 있다.The visual context feature includes visual features of the entire input image, visual features of the image region surrounding the subject object region and the object object region that can form a relationship, and location information of the region surrounding the subject and object objects. The linguistic context feature consists of a feature in which the expected object category of the subject object is embedded, location information in the image of the subject object region and the object object region, and a feature in which the expected category name of the object object is embedded. elements may be included. In addition, the language context feature embedding unit 321 may embed the components of the language context feature using a bidirectional recurrent neural network.
그래프 추론부(400)는 그래프 초기화부(300)로부터 얻어진 각각의 노드의 초기 특징값들을 토대로 이웃한 노드들 간에 맥락 정보를 교환하여 각 노드의 특징값들을 갱신한다. 일 실시예에 있어서, 그래프 추론부(400)는 주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영한다. 주의 집중 그래프 합성 곱 신경망을 이용하여 물체 노드의 특징값을 갱신할 때는 주어 물체 노드와 목적어 물체 노드 사이, 주어 물체 노드와 관계 노드 사이, 목적어 물체 노드와 관계 노드 사이에 맥락 정보 교환이 이루어진다. 반면에 관계 노드의 특징값을 갱신할 때는 관계 노드와 주어 물체 노드 사이, 관계 노드와 목적어 물체 노드 사이에 맥락 정보 교환이 일어난다.The graph inference unit 400 updates the characteristic values of each node by exchanging context information between neighboring nodes based on the initial characteristic values of each node obtained from the graph initialization unit 300 . In one embodiment, the graph reasoning unit 400 uses an attentional graph convolution neural network to identify a node to be focused on among neighboring nodes, and information of neighboring nodes to update feature values of each node differentially reflects the When the feature value of an object node is updated using the attention-grabbing convolutional neural network, contextual information is exchanged between the subject object node and the object object node, between the subject object node and the relationship node, and between the object object node and the relationship node. On the other hand, when the feature value of a relational node is updated, contextual information exchange occurs between the relational node and the subject object node, and between the relational node and the object object node.
도 2에 도시된 바와 같이, 그래프 추론부(400)는 시각적 추론부(410)와 의미적 추론부(420)를 포함할 수 있다. 시각적 추론부(410)는 시각적 추론을 위한 그래프 합성 곱 신경망 계층을 나타내며, 의미적 추론부(420)는 의미적 추론을 위한 그래프 합성 곱 신경망 계층을 나타낸다. 각각의 계층에서는 그래프 초기화부(300)를 통해 부여된 각 노드의 초기 특징값들을 토대로 그래프의 이웃한 노드들 사이에 맥락 정보를 서로 교환함으로써, 각 노드의 특징값 갱신 과정이 각각 수행된다. 이때, 시각적 추론부(410)로부터 얻어진 각 노드의 물체 및 관계 클래스 확률 분포는 의미적 추론부(420)의 초기 노드 입력으로 제공될 수 있다.As shown in FIG. 2 , the graph reasoning unit 400 may include a visual reasoning unit 410 and a semantic reasoning unit 420 . The visual reasoning unit 410 represents a graph synthesis product neural network layer for visual reasoning, and the semantic reasoning unit 420 represents a graph synthesis product neural network layer for semantic reasoning. In each layer, the feature value update process of each node is performed by exchanging context information between neighboring nodes of the graph based on the initial feature values of each node given through the graph initializer 300 . In this case, the object and relation class probability distribution of each node obtained from the visual reasoning unit 410 may be provided as an initial node input of the semantic reasoning unit 420 .
그래프 레이블링부(500)는 그래프 추론부(400)를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)한다. 의미적 추론부(420)에서 최종적으로 얻어진 각 노드의 특징값은 소프트맥스(softmax) 함수를 거쳐 가장 큰 값을 가지는 카테고리로 분류된다. 그래프 레이블링부(500)의 물체 노드 분류부(510)는 물체 클래스 확률 분포에서 가장 큰 값으로 물체 노드를 레이블링하며, 관계 노드 분류부(520)도 동일한 과정을 통해 관계 노드를 레이블링한다. 이를 통해, <주어-서술자-목적어> 형태의 정형화된 결과물이 얻어진다.The graph labeling unit 500 classifies objects and relationships based on the final feature values of each node updated through the graph inference unit 400 . The feature value of each node finally obtained by the semantic inference unit 420 is classified into a category having the largest value through a softmax function. The object node classifying unit 510 of the graph labeling unit 500 labels the object node with the largest value in the object class probability distribution, and the relational node classifying unit 520 labels the relational node through the same process. Through this, a standardized result in the form of <subject-descriptor-object> is obtained.
이하에서는 상술한 시스템에 따른 장면 그래프 생성 방법에 대해 보다 구체적으로 설명한다. 도 3a 내지 도 3c는 장면 그래프 생성을 위한 신경망 구조 모델을 예시한 도면이다. 본 모델은 도 3a의 물체 영역 탐지(region proposals, RP), 도 3b의 물체 및 관계 탐지(object & relationship detection, ORD), 그리고 도 3c의 그래프 생성(graph generation, GG)의 3단계로 이루어진다. 물체 영역 탐지(RP) 단계에서는 대표적인 물체 탐지 모듈인 Faster R-CNN을 이용하며, 입력 영상의 각 물체 후보 영역별 ResNet101 시각 특징 벡터, 바운딩 박스(bounding box)의 위치와 크기, 물체 범주별 확률 분포(object class distribution) 등을 구해낸다.Hereinafter, a method for generating a scene graph according to the above-described system will be described in more detail. 3A to 3C are diagrams illustrating a neural network structure model for generating a scene graph. This model consists of three steps: region proposals (RP) of FIG. 3A , object & relationship detection (ORD) of FIG. 3B , and graph generation (GG) of FIG. 3C . In the object area detection (RP) stage, Faster R-CNN, a representative object detection module, is used, and the ResNet101 visual feature vector for each object candidate area of the input image, the location and size of the bounding box, and probability distribution by object category (object class distribution), etc.
물체 및 관계 탐지(ORD) 단계는 다시 그래프 초기화(graph initialization), 그래프 추론(graph reasoning), 그래프 레이블링(graph labelling)의 세부 단계들로 구성된다. 그래프 초기화 단계에서는 물체 영역 탐지(RP) 과정을 통해 얻어진 입력 영상 내 각 물체 영역들을 기초로 장면 그래프를 구성할 물체 노드 및 관계 노드들을 생성하고, 이들 노드에 초기값을 부여한다. 그래프 추론 단계에서는 그래프 합성 곱 신경망(Graph Convolution Neural Network, GCN)을 이용하여, 그래프 내 이웃한 물체 노드 및 관계 노드들 사이에 서로 맥락 정보를 교환하며 각 노드의 특징값을 갱신한다. 그래프 레이블링 단계에서는 각 노드의 최종 특징값을 바탕으로 물체(object) 및 관계(relationship)를 분류(node classification)한다. 마지막으로 그래프 생성 단계에서는 분류된 각 노드들을 토대로 하나의 장면 그래프를 완성한다.The object and relationship detection (ORD) stage again consists of detailed stages of graph initialization, graph reasoning, and graph labeling. In the graph initialization step, object nodes and relational nodes to compose a scene graph are generated based on each object region in the input image obtained through the object region detection (RP) process, and initial values are assigned to these nodes. In the graph reasoning step, using a graph convolutional neural network (GCN), context information is exchanged between neighboring object nodes and relational nodes in the graph, and feature values of each node are updated. In the graph labeling step, an object and a relationship are classified based on the final feature value of each node. Finally, in the graph generation stage, one scene graph is completed based on each classified node.
본 모델의 그래프 초기화 단계에서는 영상에서 탐지된 각 물체 영역별로 그래프 내에 하나의 물체 노드(object node)를 생성하고, 해당 노드에 초기 특징값을 부여한다. 본 모델에서는 대표적인 물체 탐지 모듈인 Faster R-CNN을 입력 영상에 적용하여, 각 물체 후보 영역별로 추출한 시각 특징 벡터와 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당한다. 이 초기 특징값은 추후 그래프 신경망을 통해 이웃 노드들의 풍부한 맥락 정보가 결합된 후, 물체 노드의 분류에 사용된다. 따라서 본 모델에서 최종 판별하는 각 노드의 물체 범주는 Faster R-CNN이 추측한 초기 물체 범주와는 달라질 수도 있다.In the graph initialization step of this model, one object node is created in the graph for each object area detected in the image, and an initial feature value is assigned to the corresponding node. In this model, Faster R-CNN, a representative object detection module, is applied to the input image, and the visual feature vector and object class probability distribution extracted for each object candidate area are assigned as initial feature values of each object node. This initial feature value is then used for classification of object nodes after rich contextual information of neighboring nodes is combined through a graph neural network. Therefore, the object category of each node finally determined in this model may be different from the initial object category estimated by Faster R-CNN.
● 물체 시각 특징(object visual feature)● object visual feature
-
Figure PCTKR2021006634-appb-img-000001
: 해당 물체 영역의 합성 곱(CNN) 시각 특징
-
Figure PCTKR2021006634-appb-img-000001
: Convolutional product (CNN) visual characteristics of the object area
● 클래스 확률 분포(class probability distribution)● class probability distribution
-
Figure PCTKR2021006634-appb-img-000002
: 해당 물체 영역의 물체 클래스 확률 분포
-
Figure PCTKR2021006634-appb-img-000002
: object class probability distribution of the object area
따라서 각 물체 노드의 초기 특징 벡터
Figure PCTKR2021006634-appb-img-000003
는 수학식 1과 같다.
Therefore, the initial feature vector of each object node
Figure PCTKR2021006634-appb-img-000003
is the same as in Equation 1.
Figure PCTKR2021006634-appb-img-000004
Figure PCTKR2021006634-appb-img-000004
수학식 1의
Figure PCTKR2021006634-appb-img-000005
은 연결 연산(concatenate)을 나타낸다.
of Equation 1
Figure PCTKR2021006634-appb-img-000005
represents a concatenate operation.
그래프 초기화 단계에서는 물체 노드의 초기화 이외에, 관계 노드의 초기화도 수행한다. 즉 영상에서 탐지된 물체 영역들의 각 쌍(pair)에 대해 그래프 내에 하나의 관계 노드를 생성하고, 해당 노드에 초기 특징값을 부여한다. 본 모델에서는 효과적인 관계 탐지를 위해 영상 기반의 시각 맥락 특징(visual context feature)들 외에 텍스트 기반의 언어 맥락 특징(linguistic context feature)들로 포함하는 풍부한 멀티 모달 맥락 정보를 관계 노드의 초기 특징값으로 할당한다. 관계 노드를 위한 시각 맥락 특징 집합과 언어 맥락 특징 집합의 구성은 다음과 같다.In the graph initialization step, in addition to initialization of object nodes, initialization of relation nodes is also performed. That is, one relational node is created in the graph for each pair of object regions detected in the image, and an initial feature value is assigned to the corresponding node. In this model, for effective relationship detection, rich multi-modal context information including text-based linguistic context features in addition to image-based visual context features is assigned as initial feature values of relationship nodes. do. The composition of the visual context feature set and the linguistic context feature set for the relation node is as follows.
● 시각 맥락 특징 집합(visual context feature set)● visual context feature set
-
Figure PCTKR2021006634-appb-img-000006
: 입력 영상 전체의 합성 곱 시각 특징
-
Figure PCTKR2021006634-appb-img-000006
: Synthetic product visual characteristics of the entire input image
-
Figure PCTKR2021006634-appb-img-000007
: 하나의 관계(relationship)를 맺을 수 있는 주어 물체(subject) 영역과 목적어 물체(object) 영역을 둘러싸는 영상 영역(union box)의 합성 곱 시각 특징
-
Figure PCTKR2021006634-appb-img-000007
: Convolutional product visual feature of the image region (union box) surrounding the subject and object regions that can form a relationship
-
Figure PCTKR2021006634-appb-img-000008
: 주어 물체와 목적어 물체를 둘러싸는 영역(union box)의 위치 정보
-
Figure PCTKR2021006634-appb-img-000008
: Location information of the union box surrounding the subject and object objects
Figure PCTKR2021006634-appb-img-000009
Figure PCTKR2021006634-appb-img-000009
수학식 2의
Figure PCTKR2021006634-appb-img-000010
는 각각 물체 영역의 중심 좌표와 너비, 높이를 의미하며,
Figure PCTKR2021006634-appb-img-000011
는 union box의 너비와 높이를 각각 나타낸다. 한편, 수학식 3의
Figure PCTKR2021006634-appb-img-000012
은 union box의 왼쪽 상단 모서리 좌표를,
Figure PCTKR2021006634-appb-img-000013
은 오른쪽 하단 모서리 좌표를 각각 나타낸다.
of Equation 2
Figure PCTKR2021006634-appb-img-000010
are the center coordinates, width, and height of the object area, respectively,
Figure PCTKR2021006634-appb-img-000011
represents the width and height of the union box, respectively. On the other hand, in Equation 3
Figure PCTKR2021006634-appb-img-000012
is the coordinates of the upper left corner of the union box,
Figure PCTKR2021006634-appb-img-000013
represents the coordinates of the lower right corner, respectively.
● 언어 맥락 특징 집합(linguistic context feature set)● linguistic context feature set
-
Figure PCTKR2021006634-appb-img-000014
: 주어 물체의 예상 범주명(object category)을 다층 퍼셉트론(Multi-layer Perception, MLP)으로 임베딩한 특징
-
Figure PCTKR2021006634-appb-img-000014
: The feature of embedding the expected object category of the subject object as a multi-layer perceptron (MLP)
-
Figure PCTKR2021006634-appb-img-000015
: 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보
-
Figure PCTKR2021006634-appb-img-000015
: Location information of the subject object area and the object object area in the image
-
Figure PCTKR2021006634-appb-img-000016
: 목적어 물체의 예상 범주명을 다층 퍼셉트론으로 임베딩한 특징
-
Figure PCTKR2021006634-appb-img-000016
: Characteristic of embedding the expected category name of the object as a multi-layer perceptron
여기서,
Figure PCTKR2021006634-appb-img-000017
는 수학식 3과 같다.
here,
Figure PCTKR2021006634-appb-img-000017
is the same as in Equation 3.
Figure PCTKR2021006634-appb-img-000018
Figure PCTKR2021006634-appb-img-000018
한편, 하나의 관계를 표현하기 위한 언어 맥락 특징 벡터
Figure PCTKR2021006634-appb-img-000019
는 앞서 소개한
Figure PCTKR2021006634-appb-img-000020
등 3가지 구성 요소들을 단순 연결(concatenate), 단방향 순환신경망(RNN), 양방향 순환신경망(biRNN) 등 다양한 결합 방식으로 구할 수 있다. 일반적으로 두 물체 간의 관계는 <주어-관계 서술자-목적어>와 같이 3가지 언어 구성 요소 각각의 위치와 순서, 그리고 역할을 고려하여 하나의 시퀀스(sequence)로 표현하는 것이 바람직하다. 이 점에 착안하여, 본 모델에서는 3가지 언어 구성 요소들
Figure PCTKR2021006634-appb-img-000021
을 양방향 순환신경망(bidirectional Recurrent Neural Network, biRNN)을 이용해 순차적으로 결합함으로써, 언어 맥락 특징 벡터
Figure PCTKR2021006634-appb-img-000022
를 생성해낸다. 특히, 언어의 개념적 관계에 기초하여 해당 관계를 맺을 수 있는 가능한 주어 물체 유형과 목적어 물체 유형 간의 쌍방향 제약(bidirectional constraint)을 특징 벡터
Figure PCTKR2021006634-appb-img-000023
에 효과적으로 담아내기 위해, 본 모델에서는 양방향 순환신경망(biRNN)으로 언어 맥락 시퀀스
Figure PCTKR2021006634-appb-img-000024
를 임베딩한다. 도 4는 biRNN 기반의 언어 맥락 특징값 임베딩 과정을 나타내며, 수학식 4는 해당 과정을 수식으로 나타낸다.
On the other hand, a language context feature vector for expressing a relationship
Figure PCTKR2021006634-appb-img-000019
is the previously introduced
Figure PCTKR2021006634-appb-img-000020
The three components such as simple concatenation (concatenate), one-way recurrent neural network (RNN), and two-way recurrent neural network (biRNN) can be obtained by various coupling methods. In general, it is desirable to express the relationship between two objects as a sequence, considering the position, order, and role of each of the three language components, such as <subject-relational descriptor-object>. With this in mind, in this model, the three language components are
Figure PCTKR2021006634-appb-img-000021
is sequentially combined using a bidirectional Recurrent Neural Network (biRNN),
Figure PCTKR2021006634-appb-img-000022
creates In particular, based on the conceptual relationship of a language, a bidirectional constraint between a possible subject object type and an object object type that can establish a corresponding relationship is a feature vector.
Figure PCTKR2021006634-appb-img-000023
In order to effectively capture the linguistic context sequence in
Figure PCTKR2021006634-appb-img-000024
to embed 4 shows a biRNN-based language context feature value embedding process, and Equation 4 represents the process as an equation.
Figure PCTKR2021006634-appb-img-000025
Figure PCTKR2021006634-appb-img-000025
Figure PCTKR2021006634-appb-img-000026
는 학습 파라미터,
Figure PCTKR2021006634-appb-img-000027
는 순방향에서의 은닉상태(hidden state),
Figure PCTKR2021006634-appb-img-000028
는 역방향에서의 은닉상태를 의미한다. 본 모델에서 각 관계 노드의 초기 특징값은 시각 맥락 특징 벡터와 biRNN으로 임베딩된 언어 맥락 특징 벡터를 결합하여 수학식 5와 같이 주어진다.
Figure PCTKR2021006634-appb-img-000026
is the learning parameter,
Figure PCTKR2021006634-appb-img-000027
is the hidden state in the forward direction,
Figure PCTKR2021006634-appb-img-000028
is the hidden state in the reverse direction. In this model, the initial feature value of each relational node is given as in Equation 5 by combining the visual context feature vector and the language context feature vector embedded in biRNN.
Figure PCTKR2021006634-appb-img-000029
Figure PCTKR2021006634-appb-img-000029
본 모델의 그래프 추론(Graph Reasoning) 과정은 각각 시각적 추론 단계(visual level)와 의미적 추론 단계(semantic level)를 나타내는 그래프 합성 곱 신경망(Graph Convolutional Network)의 2개 계층으로 구성된다. 각 계층에서는 그래프 초기화 단계에서 부여된 각 노드의 초기 특징값들을 토대로 그래프의 이웃한 노드들 사이에 맥락 정보를 서로 교환함으로써, 각 노드의 특징값을 새롭게 갱신한다. 특히, 본 모델에서는 주의 집중 그래프 합성 곱 신경망(attentional GCN)을 사용함으로써, 이웃 노드들 중 집중해야 할 노드와 그렇지 않은 노드를 구별하여 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영한다. 각 노드의 주의 집중 값
Figure PCTKR2021006634-appb-img-000030
는 수학식 6 및 수학식 7과 같이, 두 노드의 특징값
Figure PCTKR2021006634-appb-img-000031
Figure PCTKR2021006634-appb-img-000032
를 토대로 예측한다.
The graph reasoning process of this model consists of two layers: a graph convolutional network representing a visual level and a semantic level, respectively. In each layer, the feature values of each node are newly updated by exchanging context information between neighboring nodes of the graph based on the initial feature values of each node given in the graph initialization step. In particular, by using an attentional graph convolutional neural network (attentional GCN) in this model, the information of the neighboring nodes is differentially reflected in the feature value update of each node by distinguishing the node to be focused from among the neighboring nodes and the node not to be focused. do. attention value of each node
Figure PCTKR2021006634-appb-img-000030
is the feature value of the two nodes, as shown in Equations 6 and 7
Figure PCTKR2021006634-appb-img-000031
Wow
Figure PCTKR2021006634-appb-img-000032
predicted based on
Figure PCTKR2021006634-appb-img-000033
Figure PCTKR2021006634-appb-img-000033
Figure PCTKR2021006634-appb-img-000034
Figure PCTKR2021006634-appb-img-000034
수학식 6과 수학식 7에서
Figure PCTKR2021006634-appb-img-000035
는 2개 계층 퍼셉트론(MLP)을,
Figure PCTKR2021006634-appb-img-000036
Figure PCTKR2021006634-appb-img-000037
는 학습용 파라미터를 각각 나타낸다.
In Equation 6 and Equation 7
Figure PCTKR2021006634-appb-img-000035
is a two-layer perceptron (MLP),
Figure PCTKR2021006634-appb-img-000036
Wow
Figure PCTKR2021006634-appb-img-000037
represents the parameters for learning, respectively.
주의 집중 그래프 신경망을 이용하여 물체 노드의 특징값을 갱신할 때는 주어 물체 노드 <-> 목적어 물체 노드, 주어 물체 노드 <-> 관계 노드, 목적어 물체 노드 <-> 관계 노드 간에 맥락 정보 교환이 이루어진다. 반면에 관계 노드의 특징값을 갱신할 때는 관계 노드 <-> 주어 물체 노드, 관계 노드 <-> 목적어 물체 노드 간에 맥락 정보 교환이 일어난다. 따라서 그래프 내 각 물체 노드의 특징값 갱신은 수학식 8과 같고, 반면에 관계 노드의 특징값 갱신은 수학식 9와 같다.When the feature value of an object node is updated using the attentional graph neural network, contextual information is exchanged between the subject object node <-> object object node, the subject object node <-> relation node, and the object object node <-> relation node. On the other hand, when the feature value of a relation node is updated, contextual information exchange occurs between the relation node <-> subject object node and the relation node <-> object object node. Therefore, the update of the feature value of each object node in the graph is the same as Equation 8, whereas the update of the feature value of the relation node is the same as Equation 9.
Figure PCTKR2021006634-appb-img-000038
Figure PCTKR2021006634-appb-img-000038
Figure PCTKR2021006634-appb-img-000039
Figure PCTKR2021006634-appb-img-000039
수학식 8과 수학식 9에서
Figure PCTKR2021006634-appb-img-000040
는 주어 물체(subject) 노드, 관계(relationship) 노드, 목적어 물체(object) 노드를 각각 나타낸다. 시각적 추론 단계와 의미적 추론 단계로 구성되는 2개의 주의 집중 그래프 신경망 계층에서는 이와 같은 노드 특징값 갱신 과정이 각각 수행된다. 대신 시각적 추론 단계의 결과인 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 단계의 초기 노드 입력으로 제공된다.
In Equation 8 and Equation 9
Figure PCTKR2021006634-appb-img-000040
denotes a subject node, a relationship node, and an object node, respectively. In the two attention-grabbing graph neural network layers composed of a visual reasoning step and a semantic reasoning step, such a node feature value update process is performed, respectively. Instead, the object and relation class probability distribution of each node, the result of the visual reasoning step, is provided as the initial node input of the semantic reasoning step.
마지막으로, 그래프 레이블링(Graph Labelling) 단계에서는 의미적 추론 단계에서 얻어진 각 노드의 최종 특징값을 바탕으로, 물체 및 관계를 분류해낸다. 물체 노드는 물체 클래스 확률 분포에서 가장 큰 값으로 레이블링한다. 관계 노드 또한 같은 과정을 거쳐 레이블링이 이루어진다. 이를 통해 <주어-서술자-목적어> 형태의 정형화된 결과물을 얻는다.Finally, in the graph labeling stage, objects and relationships are classified based on the final feature values of each node obtained in the semantic inference stage. Object nodes are labeled with the largest value in the object class probability distribution. Relational nodes are also labeled through the same process. Through this, a standardized result in the form of <subject-descriptor-object> is obtained.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far, the present invention has been looked at with respect to preferred embodiments thereof. Those of ordinary skill in the art to which the present invention pertains will understand that the present invention can be implemented in a modified form without departing from the essential characteristics of the present invention. Therefore, the disclosed embodiments are to be considered in an illustrative rather than a restrictive sense. The scope of the present invention is indicated in the claims rather than the foregoing description, and all differences within the scope equivalent thereto should be construed as being included in the present invention.

Claims (18)

  1. 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지부;an object region detector configured to detect a plurality of object regions in the input image;
    추론된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지부; 및An object that detects objects and relationships in an image based on inferred object regions, but detects objects and relationships using multi-modal context information including language context features in addition to visual context features based on a convolutional neural network and a relationship detection unit; and
    물체 및 관계 탐지부의 탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성부;a graph generating unit for generating a scene graph for the input image according to the detection result of the object and relation detecting unit;
    를 포함하는 심층 신경망을 이용한 장면 그래프 생성 시스템.A scene graph generation system using a deep neural network, including
  2. 제 1 항에 있어서,The method of claim 1,
    물체 영역 탐지부는 Faster R-CNN(Region of Convolutional Neural Network)을 이용하여 입력 영상에서 물체 영역들을 탐지하는 심층 신경망을 이용한 장면 그래프 생성 시스템.The object region detector is a scene graph generation system using a deep neural network that detects object regions in an input image using Faster R-CNN (Region of Convolutional Neural Network).
  3. 제 1 항에 있어서, 물체 및 관계 탐지부는 :The method of claim 1, wherein the object and relationship detection unit comprises:
    추론된 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여하는 그래프 초기화부;a graph initializer that generates object nodes and relational nodes to construct a graph based on the inferred object regions, and assigns initial feature values to each generated node;
    그래프 초기화부로부터 얻어진 각 노드의 초기 특징값들을 토대로 이웃한 노드들 사이에 맥락 정보를 교환하여 각 노드의 특징값을 갱신하는 그래프 추론부;a graph inference unit that updates the characteristic values of each node by exchanging context information between neighboring nodes based on the initial characteristic values of each node obtained from the graph initialization unit;
    그래프 추론부를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)하는 그래프 레이블링부;a graph labeling unit for classifying objects and relationships based on the final feature value of each node updated through the graph inference unit;
    를 포함하는 심층 신경망을 이용한 장면 그래프 생성 시스템.A scene graph generation system using a deep neural network, including
  4. 제 3 항에 있어서, 그래프 초기화부는 :The method of claim 3, wherein the graph initialization unit:
    각각의 물체 영역별로 물체 노드를 생성하며 그 생성된 물체 노드에 초기 특징값을 할당하는 물체 노드 초기화부; 및an object node initialization unit that creates an object node for each object region and assigns an initial feature value to the created object node; and
    물체 영역들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며 그 생성된 관계 노드에 초기 특징값을 할당하되, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당하는 관계 노드 초기화부;Multi-modal context information including a text-based linguistic context feature in addition to an image-based visual context feature in which one relationship node is generated for each pair of object regions and an initial feature value is assigned to the generated relationship node a relation node initializer for allocating as initial feature values;
    를 포함하는 심층 신경망을 이용한 장면 그래프 생성 시스템.A scene graph generation system using a deep neural network, including
  5. 제 4 항에 있어서,5. The method of claim 4,
    물체 노드 초기화부는 각각의 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당하는 심층 신경망을 이용한 장면 그래프 생성 시스템.The object node initializer is a scene graph generation system using a deep neural network that allocates the visual features and object class probability distributions of each object region as initial feature values of each object node.
  6. 제 4 항에 있어서,5. The method of claim 4,
    언어 맥락 특징은 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 임베딩한 특징으로 이루어지는 구성 요소들을 포함한 심층 신경망을 이용한 장면 그래프 생성 시스템.The linguistic context feature includes a feature in which the expected object category of the subject object is embedded, location information in the image of the subject-object region and the object-object region, and a feature in which the expected category name of the object is embedded. A scene graph generation system using deep neural networks.
  7. 제 6 항에 있어서,7. The method of claim 6,
    시각 맥락 특징은 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보를 포함한 심층 신경망을 이용한 장면 그래프 생성 시스템.The visual context characteristic includes the visual characteristics of the entire input image, the visual characteristics of the image region surrounding the subject object region and the object object region that can form a relationship, and location information of the region surrounding the subject object and the object object. A scene graph generation system using deep neural networks.
  8. 제 6 항에 있어서, 관계 노드 초기화부는 :The method of claim 6, wherein the relationship node initialization unit:
    언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩하는 언어 맥락 특징심층 신경망을 이용한 장면 그래프 생성 시스템.A scene graph generation system using a linguistic context feature deep neural network that embeds the components of a linguistic context feature using a bidirectional recurrent neural network.
  9. 제 3 항에 있어서,4. The method of claim 3,
    그래프 추론부는 주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영하는 심층 신경망을 이용한 장면 그래프 생성 시스템.The graph reasoning unit uses the Attentional Graph Convolution Neural Network to identify the node to focus on among the neighboring nodes, and uses a deep neural network that differentially reflects the information of the neighboring nodes to update the feature value of each node. Scenegraph generation system.
  10. 제 9 항에 있어서,10. The method of claim 9,
    그래프 추론부는 주의 집중 그래프 합성 곱 신경망 기반의 시각적 추론 계층과 주의 집중 그래프 합성 곱 신경망 기반의 의미적 추론 계층으로 구성되며, 시각적 추론 계층의 결과인 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 계층의 초기 입력값으로 제공되는 심층 신경망을 이용한 장면 그래프 생성 시스템.The graph reasoning unit is composed of a visual inference layer based on the attention graph convolutional product neural network and a semantic reasoning layer based on the attention graph convolutional product neural network, and the object and relationship class probability distribution of each node as a result of the visual reasoning layer is semantic inference A scene graph generation system using a deep neural network provided as an initial input for the layer.
  11. 입력 영상에서 복수의 물체 영역을 탐지하는 물체 영역 탐지 단계;an object region detection step of detecting a plurality of object regions in the input image;
    탐지된 물체 영역들을 기초로 영상 내 물체 및 관계를 탐지하되, 합성 곱 신경망(Convolutional Neural Network) 기반의 시각 맥락 특징 외에 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 이용하여 물체 및 관계를 탐지하는 물체 및 관계 탐지 단계; 및Objects and relationships are detected in an image based on the detected object regions, but objects and relationships are detected using multi-modal context information including language context features in addition to visual context features based on a convolutional neural network and relationship detection; and
    탐지 결과에 따라 입력 영상에 대한 장면 그래프를 생성하는 그래프 생성 단계;a graph generating step of generating a scene graph for the input image according to the detection result;
    를 포함하는 심층 신경망을 이용한 장면 그래프 생성 방법.A scene graph generation method using a deep neural network, including
  12. 제 11 항에 있어서, 물체 및 관계 탐지 단계는 :12. The method of claim 11, wherein detecting objects and relationships comprises:
    탐지된 물체 영역들에 기반하여 그래프를 구성할 물체 노드들과 관계 노드들을 생성하며, 생성된 노드마다 초기 특징값을 부여하는 그래프 초기화 단계;a graph initialization step of generating object nodes and relational nodes to construct a graph based on the detected object regions, and assigning initial feature values to each created node;
    각 노드의 초기 특징값들을 토대로 이웃한 노드들 사이에 맥락 정보를 교환하여 각 노드의 특징값을 갱신하는 그래프 추론 단계; 및a graph inference step of updating the feature values of each node by exchanging context information between neighboring nodes based on the initial feature values of each node; and
    그래프 추론 단계를 통해 갱신된 각 노드의 최종 특징값을 바탕으로 물체 및 관계를 분류(node classification)하는 그래프 레이블링 단계;a graph labeling step of classifying objects and relationships based on the final feature values of each node updated through the graph inference step;
    를 포함하는 심층 신경망을 이용한 장면 그래프 생성 방법.A scene graph generation method using a deep neural network, including
  13. 제 12 항에 있어서, 그래프 초기화 단계는 :13. The method of claim 12, wherein the graph initialization step comprises:
    각각의 물체 영역별로 물체 노드를 생성하며 그 생성된 물체 노드에 초기 특징값을 할당하는 물체 노드 초기화 단계; 및an object node initialization step of creating an object node for each object region and assigning an initial feature value to the created object node; and
    물체 영역들의 각 쌍(pair)에 대해 하나의 관계 노드를 생성하며 그 생성된 관계 노드에 초기 특징값을 할당하되, 영상 기반의 시각 맥락 특징 외에 텍스트 기반의 언어 맥락 특징을 포함하는 멀티 모달 맥락 정보를 초기 특징값으로 할당하는 관계 노드 초기화 단계;Multi-modal context information including a text-based linguistic context feature in addition to an image-based visual context feature in which one relationship node is generated for each pair of object regions and an initial feature value is assigned to the generated relationship node a relation node initialization step of allocating as an initial feature value;
    를 심층 신경망을 이용한 장면 그래프 생성 방법.A method of creating a scene graph using a deep neural network.
  14. 제 13 항에 있어서,14. The method of claim 13,
    관계 노드 초기화 단계에서의 언어 맥락 특징은 언어 맥락 특징은 주어 물체의 예상 범주명(object category)을 임베딩한 특징과, 주어 물체 영역과 목적어 물체 영역의 영상 내 위치 정보, 및 목적어 물체의 예상 범주명을 임베딩한 특징으로 이루어지는 구성 요소들을 포함하며, 시각 맥락 특징은 입력 영상 전체의 시각 특징과, 하나의 관계를 맺을 수 있는 주어 물체 영역과 목적어 물체 영역을 둘러싸는 영상 영역의 시각 특징, 및 주어 물체와 목적어 물체를 둘러싸는 영역의 위치 정보를 포함한 심층 신경망을 이용한 장면 그래프 생성 방법.The linguistic context feature in the relation node initialization stage is the linguistic context feature embedding the expected object category of the subject object, location information of the subject object region and the object object region in the image, and the expected category name of the object object The visual context feature includes the visual features of the entire input image, the visual features of the subject object region and the image region surrounding the object object region that can form a relationship, and the subject object A method for creating a scene graph using a deep neural network including location information of a region surrounding an object and an object.
  15. 제 14 항에 있어서,15. The method of claim 14,
    관계 노드 초기화 단계는 언어 맥락 특징의 구성 요소들에 대해 양방향 순환신경망(bidirectional Recurrent Neural Network)을 이용하여 임베딩하는 심층 신경망을 이용한 장면 그래프 생성 방법.The relation node initialization step is a scene graph generation method using a deep neural network that embeds components of language context features using a bidirectional recurrent neural network.
  16. 제 14 항에 있어서,15. The method of claim 14,
    물체 노드 초기화 단계는 각각의 물체 영역의 시각 특징 및 물체 클래스 확률 분포를 각 물체 노드의 초기 특징값으로 할당하는 심층 신경망을 이용한 장면 그래프 생성 방법.The object node initialization step is a scene graph generation method using a deep neural network that assigns visual features and object class probability distributions of each object region as initial feature values of each object node.
  17. 제 12 항에 있어서,13. The method of claim 12,
    주의 집중 그래프 합성 곱 신경망(Attentional Graph Convolution Neural Network)을 이용하여 이웃 노드들 중에서 집중해야 할 노드를 파악해 각 노드의 특징값 갱신에 이웃 노드의 정보를 차등적으로 반영하는 심층 신경망을 이용한 장면 그래프 생성 방법.Using Attentional Graph Convolution Neural Network to identify the node to focus on among neighboring nodes, and to create a scene graph using a deep neural network that differentially reflects the information of neighboring nodes in updating feature values of each node method.
  18. 제 17 항에 있어서, 그래프 추론 단계는 :18. The method of claim 17, wherein the graph inference step comprises:
    그래프 초기화 단계에서 부여된 각 노드의 초기 특징값들을 토대로 시각적 추론을 위한 주의 집중 그래프 합성 곱 신경망을 이용하여 이웃한 노드들 사이의 맥락 정보 교환을 통해 각 노드의 특징값을 갱신하는 시각적 추론 단계; 및A visual inference step of updating the feature values of each node through the exchange of contextual information between neighboring nodes using an attention-grabbing graph convolutional product neural network for visual inference based on the initial feature values of each node given in the graph initialization step; and
    그래프 초기화 단계에서 부여된 각 노드의 초기 특징값들을 토대로 시각적 추론을 위한 주의 집중 그래프 합성 곱 신경망을 이용하여 이웃한 노드들 사이의 맥락 정보 교환을 통해 각 노드의 특징값을 갱신하는 의미적 추론 단계;를 포함하되,A semantic reasoning step in which the feature value of each node is updated by exchanging contextual information between neighboring nodes using an attention-focused graph convolutional product neural network for visual inference based on the initial feature values of each node given in the graph initialization step including;
    시각적 추론 단계를 통해 얻어진 각 노드의 물체 및 관계 클래스 확률 분포가 의미적 추론 단계의 초기 노드 입력으로 제공되는 심층 신경망을 이용한 장면 그래프 생성 방법.A scene graph generation method using a deep neural network in which the object and relation class probability distribution of each node obtained through the visual reasoning step is provided as an initial node input in the semantic reasoning step.
PCT/KR2021/006634 2020-08-24 2021-05-28 Scene graph generation system using deep neural network WO2022045531A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0106363 2020-08-24
KR1020200106363A KR102533140B1 (en) 2020-08-24 2020-08-24 System for generating scene graph using deep neural network

Publications (1)

Publication Number Publication Date
WO2022045531A1 true WO2022045531A1 (en) 2022-03-03

Family

ID=80353420

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/006634 WO2022045531A1 (en) 2020-08-24 2021-05-28 Scene graph generation system using deep neural network

Country Status (2)

Country Link
KR (1) KR102533140B1 (en)
WO (1) WO2022045531A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546589A (en) * 2022-11-29 2022-12-30 浙江大学 Image generation method based on graph neural network

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110249867A1 (en) * 2010-04-13 2011-10-13 International Business Machines Corporation Detection of objects in digital images
US20170011281A1 (en) * 2015-07-09 2017-01-12 Qualcomm Incorporated Context-based priors for object detection in images
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10032067B2 (en) 2016-05-28 2018-07-24 Samsung Electronics Co., Ltd. System and method for a unified architecture multi-task deep learning machine for object recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110249867A1 (en) * 2010-04-13 2011-10-13 International Business Machines Corporation Detection of objects in digital images
US20170011281A1 (en) * 2015-07-09 2017-01-12 Qualcomm Incorporated Context-based priors for object detection in images
US20170147905A1 (en) * 2015-11-25 2017-05-25 Baidu Usa Llc Systems and methods for end-to-end object detection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
GEDAS BERTASIUS; LORENZO TORRESANI: "COBE: Contextualized Object Embeddings from Narrated Instructional Video", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 14 July 2020 (2020-07-14), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081722788 *
JIANWEI YANG; JIASEN LU; STEFAN LEE; DHRUV BATRA; DEVI PARIKH: "Graph R-CNN for Scene Graph Generation", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 1 August 2018 (2018-08-01), 201 Olin Library Cornell University Ithaca, NY 14853 , XP081262519 *
JUNG GA-YOUNG, KIM INCHEOL: "Scene Graph Generation with Graph Neural Network and Multimodal Context", PROCEEDINGS OF THE KOREA INFORMATION PROCESSING SOCIETY CONFERENCE, KOREA INFORMATION PROCESSING SOCIETY CONFERENCE, KOREA, 29 May 2020 (2020-05-29), Korea , pages 555 - 558, XP055907000, ISSN: 2005-0011, DOI: 10.3745/PKIPS.y2020m05a.555 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115546589A (en) * 2022-11-29 2022-12-30 浙江大学 Image generation method based on graph neural network

Also Published As

Publication number Publication date
KR20220025524A (en) 2022-03-03
KR102533140B1 (en) 2023-05-17

Similar Documents

Publication Publication Date Title
WO2019107614A1 (en) Machine vision-based quality inspection method and system utilizing deep learning in manufacturing process
CN109359564B (en) Image scene graph generation method and device
WO2018217019A1 (en) Device for detecting variant malicious code on basis of neural network learning, method therefor, and computer-readable recording medium in which program for executing same method is recorded
Binaghi et al. A fuzzy set-based accuracy assessment of soft classification
CN111462282A (en) Scene graph generation method
EP3461290A1 (en) Learning model for salient facial region detection
WO2022005091A1 (en) Method and apparatus for reading bone age
WO2022045531A1 (en) Scene graph generation system using deep neural network
Suhail et al. Convolutional neural network based object detection: A review
Xie et al. Temporal‐enhanced graph convolution network for skeleton‐based action recognition
WO2023063486A1 (en) Method for creating machine learning model, and device thereof
Ishikawa et al. Target-dependent uniter: A transformer-based multimodal language comprehension model for domestic service robots
WO2020141907A1 (en) Image generation apparatus for generating image on basis of keyword and image generation method
Cheng et al. Automatic detection of arrow annotation overlays in biomedical images
Touazi et al. A k-nearest neighbor approach to improve change detection from remote sensing: Application to optical aerial images
Klusek et al. Supporting the Process of Sewer Pipes Inspection Using Machine Learning on Embedded Devices
WO2022092672A1 (en) Method for adding prediction results as training data using ai prediction model
CN114913368A (en) Fusion remote sensing image classification method based on self-walking bidirectional counterwork learning
WO2022114363A1 (en) Unsupervised learning-based method and apparatus for generating supervised learning model, and method and apparatus for analyzing unsupervised learning model using same
Biswas et al. Component labeling in pyramid architecture
WO2022114364A1 (en) Method and apparatus for applying user intent in unsupervised learning
WO2022250481A1 (en) Defect detection device
WO2023128026A1 (en) Image data labeling guide method and automatic labeling device
WO2022191366A1 (en) Electronic device and method of controlling same
WO2024019373A1 (en) Method and device for updating three-dimensional map

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21861832

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21861832

Country of ref document: EP

Kind code of ref document: A1