KR102254768B1 - 씬 그래프 생성장치 - Google Patents

씬 그래프 생성장치 Download PDF

Info

Publication number
KR102254768B1
KR102254768B1 KR1020200109333A KR20200109333A KR102254768B1 KR 102254768 B1 KR102254768 B1 KR 102254768B1 KR 1020200109333 A KR1020200109333 A KR 1020200109333A KR 20200109333 A KR20200109333 A KR 20200109333A KR 102254768 B1 KR102254768 B1 KR 102254768B1
Authority
KR
South Korea
Prior art keywords
unit
scene graph
node pairs
scene
interact
Prior art date
Application number
KR1020200109333A
Other languages
English (en)
Inventor
우상민
김강일
Original Assignee
광주과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 광주과학기술원 filed Critical 광주과학기술원
Priority to KR1020200109333A priority Critical patent/KR102254768B1/ko
Application granted granted Critical
Publication of KR102254768B1 publication Critical patent/KR102254768B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/206Drawing of charts or graphs
    • G06K9/00624
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/12Edge-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명에 따른 씬 그래프 생성장치에는, 상호 관련성이 낮은 노드쌍을 가지치기 하는 절단부; 주체와 객체와 배경에 대하여 개별적인 특징 풀(feature pool)을 제공하는 스플릿부; 및 노드쌍을 서로 연관시켜 씬 그래프를 제공하는 인터랙트부가 포함된다.

Description

씬 그래프 생성장치{Scene Graph Generation apparatus}
본 발명은 씬그래프 생성장치에 대한 것이다.
종래 씬 그래프 생성장치로는 US9342991호, 'Systems and methods for generating a high-level visual vocabulary'가 제안된 바가 있다.
상기 종래기술은, 이미지 정보를 이용하여 시각적 단어(visual word)를 벡터 공간에 매핑한다. 상기 매핑과정에서 시각적 단어 간의 관계(relationship)를 유추하고, 이를 그래프 형태로 모델링하는 기술을 개시한다.
US9342991호, 'Systems and methods for generating a high-level visual vocabulary'
상기 종래기술은 장면내의 객체 간의 관계를 고려하지 않는 문제점이 있다.
본 발명에 따른 씬 그래프 생성장치에는, 상호 관련성이 낮은 노드쌍을 가지치기 하는 절단부; 주체와 객체와 배경에 대하여 개별적인 특징 풀(feature pool)을 제공하는 스플릿부; 및 노드쌍을 서로 연관시켜 씬 그래프를 제공하는 인터랙트부가 포함된다.
본 발명에 따르면, 장면에 있는 주체, 객체, 및 그 관계를 정확히 파악하여 성능이 높은 씬 그래프를 제공할 수 있다.
도 1은 실시예의 씬 그래프 생성장치의 동작 및 작용을 설명하는 도면이다.
도 2와 도 3을 참조하면, a는 장면이고, b는 베이스라인의 씬 그래프이고, c는 실시예의 씬 그래프의 비교도면.
도 4는 다양한 씬 그래프 생성장치와의 비교도면.
씬 그래프를 생성하는 것은, 장면의 노드와, 상기 노드 들의 관계를 가지는 각 장면을 그래프로 표현하는 것을 말한다. 예를 들어, 사람이 반려견에게 먹이를 주는 장면은, 사람과 반려견이 객체(object)로서 각각의 노드(node)로 정의할 수 있다. 상기 사람이 반려견에게 먹이는 주는 것은 객체간의 관계(relationship)로서, 에지(edge)로 정의할 수 있다. 여기서, 노드와 에지는 씬 그래프에서 사용하는 개념일 수 있다. 이하에서 노드라고 말하는 경우에는 객체를 지칭할 수 있고, 에지라고 말하는 경우에는 객체간의 관계를 지칭할 수 있다.
종래 씬 그래프를 생성하는 장치는 다음과 같은 문제점이 있다.
첫째, 에지가 희소한 것을 반영하지 못하였다. 예를 들어, 각 이미지는 평균적으로 6개의 에지를 가짐에도 불구하고, 각 노드 들의 관계를 지나치게 많이 상정하여 씬 그래프를 생성하였다.
둘째, 각 장면은, 상기 에지들을 기술하기 위하여, 인터글래스 시각분산(inter-class visual variance)는 낮고, 인트라클래스 시각분산(intra-class visual variance)는 높은 문제점이 있다.
셋째, 주제와 객체가 뒤바뀌어도 공통의 특징을 추출하기 때문에 에지의 방향성을 학습하기가 어렵다. 예를 들어, 각 장면에서 노드는 비대칭관계가 절대 다수를 차지할 수 있다.
넷째, 문맥추출(contextual reasoning)은 에지를 예측하는 어려움을 해결하는데 있어서 중요하지만, 그 정보를 고려하지 못하였다.
본 발명은 상기되는 배경하에서 제안되는 것으로서, 씬 그래프를 생성하는 장치를 제안한다. 상기 장치에는 위 각 문제점을 해결하기 위하여 개별적인 구성을 가지고 있다. 상기 개별적인 구성으로서, 본 발명은 위 첫째문제를 해결하는 절단부(cut)(1)를 포함한다. 본 발명은 위 둘째문제를 해결하는 스플릿부(split)(2)를 포함한다. 본 발명은 위 셋째 및 넷째 문제를 해결하는 인터랙트부(interact)(3)를 포함할 수 있다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에 포함되는 다른 실시예를 구성요소의 부가, 변경, 삭제, 및 추가 등에 의해서 용이하게 제안할 수 있을 것이나, 이 또한 본 발명 사상의 범위 내에 포함된다고 할 것이다.
도 1은 실시예의 씬 그래프 생성장치의 동작 및 작용을 설명하는 도면이다.
도 1을 참조하면, 상기 절단부(1)는 상호 관련이 없거나 작은 노드쌍을 가지치기 한다. 가지치기를 하기 위하여 노드쌍들에 대한 점수를 매긴다. 먼저 하기 수학식 1과 같이 스코어를 매긴다.
Figure 112020091019848-pat00001
상기 스코어는 노드쌍의 점수를 의미한다. 상기 파이는 주체(subject)에 대한 투사함수이고, 상기 프사이는 객체(object)에 대한 투사함수이다. 여기서, 투사함수는 예를 들어, 2-layer MLPs를 사용할 수 있다.
여기서, c는 의미론적 정보(semantic)를 의미할 수 있다.
실시예는 씬에서, n개의 노드를 고려할 수 있다. 상기 스코어를 더 정확하게 산출하기 위하여, 바운딩박스(b)와 시각적특징(fROI)을 더 반영할 수 있다. 상기 바운딩박스는 노드에 대응하여 제공할 수 있다. 상기 시각적특징은 시각적 특징정보를 반영할 수 있다.
위 의미론적정보(semantic information), 바운딩박스를 이용하는 공간적정보(spatial information), 및 시각적특징을 반영하는 시각적정보(visual information)를 모두 반영하여 상기 수학식 1을 다시 정리할 수 있다.
Figure 112020091019848-pat00002
여기서 avgpool은 글로벌 평균 풀링 오퍼레이션(global average pooling operation)을 의미할 수 있다. 여기서 쉼표는 연결연산을 의미할 수 있다. 여기서, 파이와 프사이의 임베딩함수는
Figure 112020091019848-pat00003
로 세팅할 수 있다.
상기 스코어 함수의 구체적인 동작은 [Yang, J., J. Lu, S. Lee, et al. Graph R-CNN for Scene Graph Generation. In Proceedings of the European Conference on Computer Vision (ECCV), pages 670-685. 2018.]를 이용할 수 있다.
상기 바운딩박스의 적용은 [Ren, S., K. He, R. Girshick, et al. Faster R-CNN: Towards Real-Time Object Detection With Region Proposal Networks. In Advances in Neural Information Processing Systems (NeurIPS), pages 91-99. 2015.]를 이용할 수 있다.
상기 시각적특징은 [He, K., G. Gkioxari, P. Doll, et al. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision (CVPR), pages 2961-2969. 2017.]를 이용할 수 있다.
상기 수학식 2를 통하여 스코어를 구하고, 대상이 되는 노드쌍들을 취할 수 있다. 대상이 되는 노드쌍의 수(M)은 원래의 수(N2)에 비하여 극도로 적어질 수 있다. 결국, 인접하는 노드만이 추출될 수 있다. 인접하는 노드는 연결성이 높은 노드쌍을 의미할 수 있다.
상기 절단부(1)를 통하여 대상이 되는 노드쌍의 개수를 M개로 선정한 다음에는, 상기 스플릿부(2)에서 스플릿동작을 수행할 수 있다.
이후에는, 상기 노드쌍은 주체(subject)-객체(object)의 쌍을 의미할 수 있다.
상기 스플릿부(2)는 공통특징에 대하여 어텐셔널 마스킹(attention masking)을 수행할 수 있다.
상기 어텐셔널 마스킹은 수학식 3으로 구현할 수 있다.
Figure 112020091019848-pat00004
여기서, z는 중간 마스킹 특징을 나타내고, x는 최종 특징을 나타고, s는 subject를 의미하고, o는 object를 의미하고, bg는 background를 의미하고, MASK는 마스킹동작을 의미하고, m은 마스크를 의미하고, coord는 정규화된 절대좌표로서 14*14 그리드를 예시할 수 있고, ATT는 어텐셔널 함수를 나타낸다.
위 스플릿부(2)의 동작에 의해서, 주체, 객체, 및 배경에 대한 개별적인 특징 풀을 제공할 수 있다.
이후에는 인터랙트부(3)를 이용하여 에지를 구한다. 상기 인터랙트부는 바텀 인터랙트부(31)와 업인터랙트부(32)를 포함한다.
상기 바텀 인터랙트부는 하기 수학식 4와 같이 동작할 수 있다.
Figure 112020091019848-pat00005
여기서, 알파와 베타는 임베드된 함수로서,
Figure 112020091019848-pat00006
이다. 상기 알파와 베타는 2-layer MLPs이고, 에지특징을 제공할 수 있다. 여기서, X는 특징집합을 의미하고, pred는 에지, 즉 노드쌍의 관계, 또는 술부(predicate)인 것을 의미하고, f는 특징을 의미한다.
따라서, s가 o의 앞에 있는 것을 제한조건으로 하여 bg는 각각 다른 위치에 놓일 수 있다.
상기 수학식 4에 따르면, 주체가 객체에 비하여 선행하는 조건으로 특징 집합을 얻을 수 있다. 상기 집합은 노드쌍과 에지의 개별단위로서, 씬 그래프를 작성하는 개별단위가 될 수 있다.
상기 집합들은 업 인터랙트부(32)의 고차원 관계추론을 통하여 씬 그래프를 완성할 수 있다.
수학식 5와 6에 의해서 그래프 컨벌루션 동작을 수행할 수 있다.
Figure 112020091019848-pat00007
Figure 112020091019848-pat00008
여기서, W는 그래프 컨벌루션 층들을 위한 웨이트이고,
Figure 112020091019848-pat00009
는 안접 메트릭스로서, 상기 절단부(1)에서 얻어지는 노드 간의 인접도를 나타내는 매트릭스이고, e는 노드를 의미하고, p는 에지를 의미할 수 있다. 따라서, Ap-e는 에지로부터 노드로 가는 인접 매트릭스를 의미한다. V(0)는 초기 특징 매트릭스로서, 노드와 에지가 배열할 수 있다. 상기 특징 매트릭스는 노드의 특징과 에지의 특징의 열방향 컨케터네이션일 수 있다. 상기 노드의 특징은 수학식 7로 주어질 수 있다.
Figure 112020091019848-pat00010
상기 소문자 파이는 이미지에 있는 세가지 요소의 혼합하기 위하여 임베드된 함수이다.
수학식 5 내지 7의 결과 도출되는 특징 메트릭스에서 상위에 놓이는 N개의 열을 선정하여 씬 그래프를 생성할 수 있다.
상기 그래프 컨벌루션의 구체적인 방법은 Kipf, T. N., M. Welling. Semi-Supervised Classification With Graph Convolutional Networks. arXiv preprint arXiv:1609.02907, 2016.를 적용할 수 있다.
상기 과정을 통하여 씬 그래프를 제작할 수 있다.
본 실시예로 생성된 씬 그래프와, 절단부/스플릿부/인터랙트부가 없는 baseline를 비교하였다.
도 2와 도 3을 참조하면, a는 장면이고, b는 베이스라인의 씬 그래프이고, c는 실시예의 씬 그래프이다. 실시예가 더 다양하고 정확한 씬 그래프의 제작이 가능한 것을 볼 수 있다.
도 4를 참조하면, 다양한 씬 그래프 생성장치와 비교할 때, 본 발명의 성능이 우수한 것을 확인할 수 있다.
본 발명에 따르면, 씬 그래프를 더 정확하게 제공할 수 있다.

Claims (5)

  1. 노드쌍들에 대한 스코어를 매기고, 상호 관련성이 낮은 노드쌍을 가지치기 하여 인접하는 노드쌍을 추출하는 절단부;
    주체와 객체와 배경에 대하여 개별적인 특징 풀(feature pool)을 제공하는 스플릿부; 및
    상기 인접하는 노드쌍을 서로 연관시켜 씬 그래프를 제공하는 인터랙트부가 포함되고,
    상기 인터랙트부에는, 상기 인접하는 노드쌍과 상기 인접하는 노드쌍의 에지가 모인 집합을 제공하는 바텀 인터랙트부와, 상기 바텀 인터랙트부에서 제공되는 집합 들에 대하여 그래프 컨벌루션을 적용하여 씬 그래프를 제공하는 업 인터랙트부가 포함되고,
    상기 바텀 인터랙트부는, 상기 주체가 상기 객체에 비하여 선행하는 조건으로 상기 집합을 구성하는 씬 그래프 생성장치.
  2. 제 1 항에 있어서,
    상기 절단부는 의미론적정보를 적어도 포함하고, 바운딩박스를 이용하는 공간적정보, 및 시각적 특징을 반영하는 시각적정보 중의 적어도 하나를 포함하여 상기 스코어를 매겨, 일정 점수 이상의 인접하는 노드쌍 외에는 가지치기 하는 씬 그래프 생성장치.
  3. 삭제
  4. 삭제
  5. 삭제
KR1020200109333A 2020-08-28 2020-08-28 씬 그래프 생성장치 KR102254768B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200109333A KR102254768B1 (ko) 2020-08-28 2020-08-28 씬 그래프 생성장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200109333A KR102254768B1 (ko) 2020-08-28 2020-08-28 씬 그래프 생성장치

Publications (1)

Publication Number Publication Date
KR102254768B1 true KR102254768B1 (ko) 2021-05-24

Family

ID=76153236

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200109333A KR102254768B1 (ko) 2020-08-28 2020-08-28 씬 그래프 생성장치

Country Status (1)

Country Link
KR (1) KR102254768B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963081A (zh) * 2021-10-11 2022-01-21 华东师范大学 一种基于图卷积网络的图像图表智能合成方法
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
KR20230095505A (ko) * 2021-12-22 2023-06-29 경기대학교 산학협력단 동영상 관계 탐지 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020066495A (ko) * 2001-02-12 2002-08-19 한국전자통신연구원 3차원 복합 지리정보 가시화 시스템 및 객체지향적 운용방법
KR20080107577A (ko) * 2007-06-07 2008-12-11 엘지전자 주식회사 장면 제어 방법 및 장면 제어 장치
JP2010521737A (ja) * 2007-03-15 2010-06-24 トムソン ライセンシング シーングラフ中のパラメータのアクセス性および制御のための方法およびシステム
JP5101648B2 (ja) * 2003-03-27 2012-12-19 マイクロソフト コーポレーション ビジュアルおよびシーングラフインタフェース
KR20200083903A (ko) * 2018-12-28 2020-07-09 인텔 코포레이션 클라우드 기반 실시간 광선 트레이싱

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020066495A (ko) * 2001-02-12 2002-08-19 한국전자통신연구원 3차원 복합 지리정보 가시화 시스템 및 객체지향적 운용방법
JP5101648B2 (ja) * 2003-03-27 2012-12-19 マイクロソフト コーポレーション ビジュアルおよびシーングラフインタフェース
JP2010521737A (ja) * 2007-03-15 2010-06-24 トムソン ライセンシング シーングラフ中のパラメータのアクセス性および制御のための方法およびシステム
KR20080107577A (ko) * 2007-06-07 2008-12-11 엘지전자 주식회사 장면 제어 방법 및 장면 제어 장치
KR20200083903A (ko) * 2018-12-28 2020-07-09 인텔 코포레이션 클라우드 기반 실시간 광선 트레이싱

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
US9342991호, 'Systems and methods for generating a high-level visual vocabulary'
Wentong Liao et al. "Target-Tailored Source-Transformation for Scene Graph Generation" arXiv:1904.02104v2 [cs.CV] (2020.05.27.)* *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113963081A (zh) * 2021-10-11 2022-01-21 华东师范大学 一种基于图卷积网络的图像图表智能合成方法
CN113963081B (zh) * 2021-10-11 2024-05-17 华东师范大学 一种基于图卷积网络的图像图表智能合成方法
KR20230095505A (ko) * 2021-12-22 2023-06-29 경기대학교 산학협력단 동영상 관계 탐지 시스템
KR102672722B1 (ko) 2021-12-22 2024-06-05 경기대학교 산학협력단 동영상 관계 탐지 시스템
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114708472B (zh) * 2022-06-06 2022-09-09 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备

Similar Documents

Publication Publication Date Title
KR102254768B1 (ko) 씬 그래프 생성장치
CN110660062B (zh) 一种基于PointNet的点云实例分割方法及系统
Kae et al. Augmenting CRFs with Boltzmann machine shape priors for image labeling
CN106203432B (zh) 一种基于卷积神经网显著性图谱的感兴趣区域的定位系统
Liu et al. Partition level constrained clustering
CN112132197B (zh) 模型训练、图像处理方法、装置、计算机设备和存储介质
US20130080369A1 (en) Methods and Systems for Applications for Z-numbers
KR102124466B1 (ko) 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법
EP3120300A2 (en) Methods and apparatus for autonomous robotic control
CN112016601B (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
Liu et al. Towards mediating shared perceptual basis in situated dialogue
CN109086768A (zh) 卷积神经网络的语义图像分割方法
Modi Review article on deep learning approaches
US12086989B2 (en) Medical image segmentation method based on U-network
Shi et al. A benchmark and baseline for language-driven image editing
CN104008177B (zh) 面向图像语义标注的规则库结构优化与生成方法及系统
US10191921B1 (en) System for expanding image search using attributes and associations
CN117275040A (zh) 一种基于决策网络和细化特征的高效人体姿态估计方法
Kitaev et al. Where is misty? interpreting spatial descriptors by modeling regions in space
Li et al. 3D scene reconstruction using a texture probabilistic grammar
Hussain et al. Image retrieval based on color and texture feature using artificial neural network
CN113688864B (zh) 一种基于分裂注意力的人-物交互关系分类方法
Brixey et al. A system for automated image editing from natural language commands
Liang et al. A semantic‐driven generation of 3D Chinese opera performance scenes
Cheng et al. An interactive scene generation using natural language

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant