KR102672722B1 - 동영상 관계 탐지 시스템 - Google Patents

동영상 관계 탐지 시스템 Download PDF

Info

Publication number
KR102672722B1
KR102672722B1 KR1020210185065A KR20210185065A KR102672722B1 KR 102672722 B1 KR102672722 B1 KR 102672722B1 KR 1020210185065 A KR1020210185065 A KR 1020210185065A KR 20210185065 A KR20210185065 A KR 20210185065A KR 102672722 B1 KR102672722 B1 KR 102672722B1
Authority
KR
South Korea
Prior art keywords
context
graph
segment
video
relationship detection
Prior art date
Application number
KR1020210185065A
Other languages
English (en)
Other versions
KR20230095505A (ko
Inventor
김인철
이종훈
Original Assignee
경기대학교 산학협력단
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Priority to KR1020210185065A priority Critical patent/KR102672722B1/ko
Priority to PCT/KR2022/017385 priority patent/WO2023120969A1/ko
Publication of KR20230095505A publication Critical patent/KR20230095505A/ko
Application granted granted Critical
Publication of KR102672722B1 publication Critical patent/KR102672722B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/23Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/421Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern

Abstract

동영상 관계 탐지 시스템이 개시된다. 이 시스템은 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 시스템은 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 그래프 생성부, 및 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지부를 포함하되, 관계 탐지부는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측한다.

Description

동영상 관계 탐지 시스템{Video visual relation detection system}
본 발명은 비디오 장면 그래프 생성에 관한 것으로, 특히 비디오 장면 그래프 생성을 위한 비디오 관계 탐지 기술에 관한 것이다.
비디오 장면 그래프 생성(Video Scene Graph Generation, VidSGG)은 비디오에 등장하는 모든 사물들과 시간에 따라 변화하는 그들 간의 관계들을 탐지해내어 여러 장면 그래프들의 시퀀스로 표현해내는 작업이다. 이 작업은 비디오에 담긴 모든 물체 트랙들과 그들 간의 관계들을 찾아내는 비디오 관계 탐지(Video Relation Detection, VidVRD)를 요구한다. 그런데 VidVRD는 단 한 장의 영상에서 물체들 간의 관계를 탐지하는 것보다 기술적으로 훨씬 더 어렵다. 동영상에서 물체 관계는 가변적이며 동시간에 여러 관계가 존재하는 것이 가능하기 때문이다.
구체적으로, 첫 번째는 동영상 물체 탐지의 어려움이다. 동영상 물체 탐지는 관계 탐지에 앞서 먼저 이루어져야 하며, 동영상의 물체가 가려지는 현상(occulsion)이 발생하는 경우 물체의 경로가 끊기거나 다른 물체의 경로로 바뀌는 문제가 발생한다. 두 번째는 물체들의 관계가 시간적인 정보를 고려해야 정확한 예측이 가능하다는 점이다. 동영상의 물체 관계를 예측하는 경우 관계를 예측하는 현재의 시간 정보 이외의 다른 시간 정보도 추가로 사용하는 것이 예측에 유리하다. 동영상에서 사람과 공 사이에서 발생할 수 있는 킥(kick)의 경우 사람이 공을 차기 이전이나 이후의 정보가 kick을 예측하는데 도움이 된다. 예컨대, 공을 차기 이전에 사람이 공에게 접근하는 것을 볼 수 있으며, 공을 찬 이후에는 공이 사람으로부터 멀어지는 정보를 얻을 수 있다.
이러한 기술적 어려움을 해소하기 위한 방안으로 세그먼트 기반 접근법(segment-based approach)이 잘 알려져 있다. 세그먼트 기반 접근법은 가변적인 관계를 예측하기 위해 동영상을 동일한 크기를 가지는 세그먼트(segment)로 나눈 뒤 관계를 예측하는 것으로, 관계 탐지에 앞서 물체 트랙 탐지(object tracklet detection)를 수행한다. 물체 트랙 탐지 단계에서는 관계 탐지의 대상이 되는 동영상 물체(video object)들을 동영상의 프레임 단위로 추적을 한다. 그리고 관계 탐지(relation detection) 단계에서는 세그먼트 단위로 나누어진 동영상의 물체들을 대상으로 관계들을 예측하며, 이후 나누어진 관계들이 인접한 세그먼트 간 동일하다고 판단되면 관계를 연결시키는 관계 연관(relatioin association) 단계가 이루어진다. 그런데 이 같은 종래의 세그먼트 기반 접근법은 한정된 시간 구간의 정보만을 사용해서 관계를 예측한다는 문제점이 존재한다. 만약 예측 대상이 되는 관계가 세그먼트의 구간보다 큰 경우 관계 탐지의 정확성이 떨어진다는 것이다.
본 발명은 동영상 관계 탐지를 개선할 수 있는 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 시스템은 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 그래프 생성부, 및 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지부를 포함하되, 관계 탐지부는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측할 수 있다.
그래프 생성부는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화하며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화할 수 있다.
관계 탐지부는 현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 물체 트랙 단위로 메모리에 저장하여 직전 세그먼트 외의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 저장되어 있는 메모리를 갱신하는 장기 맥락 갱신부, 및 현재 세그먼트의 초기 그래프와 장기 맥락 갱신부에 의해 갱신된 메모리로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 시공간 맥락 생성부를 포함할 수 있다.
장기 맥락 갱신부는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성할 수 있다.
장기 맥락 갱신부는 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 물체 트랙 단위별 맥락 정보를 갱신할 수 있다.
시공간 맥락 생성부는 현재 세그먼트의 초기 그래프와 메모리에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성할 수 있다.
시공간 맥락 생성부는 완전 연결 신경망(fully connected neural network)을 이용해 시간 특징 임베딩을 수행할 수 있다.
한편, 일 양상에 따른 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 방법은 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 초기 그래프 생성 단계, 및 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지 단계를 포함하되, 관계 탐지 단계는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측할 수 있다.
본 발명은 동영상에서 효과적인 관계 탐지를 위한 시공간적 맥락 정보를 생성할 수 있게 함으로써, 동영상 관계 탐지 개선을 가능하게 하는 효과를 창출한다.
도 1은 일 실시예에 따른 동영상 관계 탐지 시스템 블록도이다.
도 2는 일 실시예에 따른 동영상 관계 탐지 모델 구조도이다.
도 3은 일 실시예에 따른 시공간 맥락 네트워크 모델 구조도이다.
도 4는 일 실시예에 따른 공간 특징 임베딩 과정을 나타낸 도면이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 동영상 관계 탐지 시스템 블록도이다. 설명에 앞서, 동영상 관계 탐지 시스템은 도 1에 도시된 구성들을 모두 포함하거나 일부만을 포함할 수 있다. 그리고 물체 트랙 탐지부(100)와 그래프 생성부(200) 및 관계 탐지부(300)는 모두 소프트웨어적으로 구현 가능한 구성들로서, 하나 이상의 프로세서에 의해 실행되어 해당 동작을 수행할 수 있다. 즉, 동영상 관계 탐지 시스템은 하나 이상의 컴퓨팅 디바이스로 구성되는 컴퓨터 시스템에 소프트웨어적으로 구축 가능한 시스템이다. 이 같은 동영상 관계 탐지 시스템은 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 탐지하는데, 동영상이 세그먼트 단위로 입력될 때마다 과거 세그먼트들의 정보를 사용해서 현재 입력된 세그먼트(현재 세그먼트)의 물체 관계를 탐지한다.
물체 트랙 탐지부(100)는 세그먼트(예를 들어, 30 프레임) 단위로 나뉜 동영상에서 물체 트랙을 탐지한다. 물체 트랙 탐지(object tracklet detection)는 잘 알려진 방식대로 수행될 수 있다. 그래프 생성부(200)는 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 각각 하나의 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성한다. 이때, 그래프 생성부(200)는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화할 수 있으며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화할 수 있다.
관계 탐지부(300)는 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 동영상의 물체와 관계를 예측(탐지)한다. 이때, 관계 탐지부(300)는 현재 세그먼트의 초기 그래프와 현재 세그먼트 이전의 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 그 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측한다.
도 1에 도시된 바와 같이, 관계 탐지부(300)는 장기 맥락 갱신부(310)와 시공간 맥락 생성부(320)를 포함할 수 있다. 장기 맥락 갱신부(310)는 현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 물체 트랙 단위로 메모리(400)에 저장하여 메모리(400)를 갱신한다. 메모리(400)에는 직전 세그먼트 이전의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 이미 저장되어 있으며, 현재 세그먼트가 입력으로 주어지면 장기 맥락 갱신부(310)에 의해 직전 세그먼트의 맥락 정보가 물체 트랙 단위로 메모리(400)에 반영되어 메모리(400)에 저장된 물체 트랙 단위별 맥락 정보가 갱신되는 것이다.
일 실시예에 있어서, 장기 맥락 갱신부(310)는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성하는데, 공간 특징 임베딩(spatial feature embedding)을 수행하여 직전 세그먼트의 공간 맥락 정보를 생성할 수 있다. 그리고 장기 맥락 갱신부(310)는 직전 세그먼트의 공간 맥락 정보로 메모리(400)를 갱신하는데, 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 메모리(400)의 물체 트랙 단위별 맥락 정보를 갱신할 수 있다.
시공간 맥락 생성부(320)는 현재 세그먼트의 초기 그래프와 장기 맥락 갱신부(310)에 의해 갱신된 메모리(400)로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성한다. 즉, 시공간 맥락 생성부(320)는 현재 세그먼트의 초기 그래프와 그 초기 그래프의 각각의 노드에 해당하는 메모리(400)에 저장된 맥락 정보를 가지고 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성할 수 있다. 일 실시예에 있어서, 시공간 맥락 생성부(320)는 현재 세그먼트의 초기 그래프와 메모리(400)에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성한다. 여기서 시간 특징 임베딩은 완전 연결 신경망(fully connected neural network)을 이용해 수행될 수 있다.
이하에서는 동영상 관계 탐지 방법에 대해 도 2 내지 도 4를 참조하여 보다 구체적으로 설명한다. 도 2는 일 실시예에 따른 동영상 관계 탐지 모델 구조도이다. 관계 탐지 모델인 시공간 맥락 네트워크(ST Context Net)는 세그먼트 단위로 과거 정보를 저장하는 장기 맥락 업데이트(Long-term Context Update) 단계와 과거와 현재 물체 트랙(object tracklet)들로부터 시공간 맥락 정보를 생성(refine)하는 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계로 구성된다.
먼저 물체 트랙 탐지(object tracklet detection) 단계를 거쳐서 비디오 구간 전체의 물체 트랙을 생성한다. 세그먼트 단위의 동영상과 탐지된 물체 트랙(object tracklet)은 그래프 생성(Graph Generation) 단계를 거쳐서 초기 그래프 Gc(t)를 생성한다. 초기 그래프 Gc(t)는 t 세그먼트를 그래프 형태로 표현하기 위해 물체 트랙(object tracklet)을 노드로 구성하는데, 이 초기 그래프는 모든 노드 간의 연결이 가능한 완전 연결 그래프(complete graph)이다. 초기 그래프 Gc(t)의 노드와 간선은 초기 특징 값을 가지고 있다. 노드는 물체 트랙의 시각적인 정보와 물체 트랙 탐지 결과에 의해 초기화되며, 간선은 물체 트랙 쌍의 상대적인 특징(relative feature) 값으로 초기화된다.
관계 탐지(relation detection) 단계에서 물체들의 과거 정보를 사용하는 경우 현재 관계를 예측하려는 세그먼트와 다른 시간 세그먼트의 물체 트랙(object tracklet) 정보를 사용한다. 도 2의 시공간 맥락 네트워크(ST Context Net)는 동적으로 변하는 동영상에서 장기적인 시공간 맥락 정보를 생성하기 위해 물체 트랙 단위의 맥락 정보를 동영상 맥락 메모리(Video Context Memory)(400)에 저장한다. ST Context Net은 장기 맥락 갱신(Long-term Context Update) 단계에서 이전 세그먼트의 물체와 물체 쌍으로부터 맥락 정보를 생성한다. 생성된 맥락 정보는 물체 트랙 단위로 동영상 맥락 메모리(400)에 저장된다. 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계에서 동영상 맥락 메모리(Video Context Memory)와 현재 세그먼트로부터 시공간 맥락 정보를 생성 후 물체와 관계 종류를 예측한다.
관계 탐지 단계에 대해 보다 상세히 설명한다. 관계 탐지 단계에서는 물체들의 시공간적 맥락 정보를 사용해서 관계를 예측해야 하는데, 동영상의 물체는 동적으로 변하기 때문에 물체 트랙 단위(object tracklet)의 맥락 정보 추출을 어렵게 한다. 이에 본 ST Context Net은 장기간 맥락 갱신(Long-term Context Update) 단계와 시공간 맥락 생성 단계(Spatio-temporal Context Refinement)를 거쳐서 현재 세그먼트의 관계를 예측한다. ST Context Net은 도 3과 같이 구성이 되며, 세그먼트 단위로 구성된 초기 그래프 Gc를 세그먼트의 시간 순서대로 입력으로 받는다.
현재 세그먼트의 관계를 예측할 때 먼저 도 3의 장기간 맥락 갱신(Long-term Context Update) 단계를 거쳐서 이전 세그먼트의 정보는 동영상 맥락 메모리(Video Context Memory)에 저장이 된다. 이에 따르면, 시간 순서대로 세그먼트가 입력됨에 따라 동영상 맥락 메모리(Video Context Memory)에는 모든 과거 세그먼트의 정보가 저장되도록 갱신이 이루어진다. 부연하면, 현재 세그먼트가 입력으로 주어질 시에는 직전 세그먼트 이전의 모든 과거 세그먼트의 정보가 이미 저장되어 있으며, 장기간 맥락 갱신(Long-term Context Update) 단계를 통해 이전 세그먼트의 정보로 동영상 맥락 메모리(Video Context Memory)의 갱신이 이루어진다. 그리고 ST Context Net은 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계에서 현재 세그먼트와 동영상 맥락 메모리(Video Context Memory)로부터 현재 세그먼트의 맥락 정보를 생성하며, 그 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측한다.
ST Context Net의 장기간 맥락 갱신(Long-term Context Update) 단계는 관계 예측이 이루어질 때마다 물체들의 과거 정보를 동영상 맥락 메모리(Video Context Memory)에 저장한다. 물체들의 과거 정보를 저장하는 경우 물체 외의 다른 물체들의 정보를 고려해서 맥락 정보를 생성한다. 과거 세그먼트로부터 맥락 정보를 생성하는 과정은 Long-term Context Update의 Spatial feature embedding 과정에서 이루어진다. Spatial feature emdedding은 도 4와 같다.
Spatial feature embedding은 물체 정보를 가지는 노드와 물체 쌍 정보를 가지는 간선으로부터 맥락 정보를 생성하며, 맥락 정보를 생성시 Graph Attention Network(GAT)의 구조를 사용해서 노드 간의 연관성을 고려한다. Spatial feature embedding의 어텐션(attention)은 그래프 값에 의해서 학습이 되는 어텐션(trainable attention)과 물체들의 공간적인 거리에 의해 계산되는 어텐션(geometric attention)으로 구성된다. 공간적 어텐션(geometric attention)은 두 물체 간의 거리가 가까울수록 연관성이 높다고 가정하며, 두 물체의 거리가 매우 근접한 경우 두 물체의 관계가 발생한 경우가 많다.
수학식 1은 Spatial feature embedding의 어텐션을 구하는 식을 나타낸다. 학습이 되는 어텐션(trainable attention)
Figure 112021148724025-pat00001
는 물체와 물체 쌍의 정보를 입력으로 완전 연결 계층(fully connected layer)이 연관성을 계산하며, 공간적 어텐션(geometric attention)
Figure 112021148724025-pat00002
는 수학식 1에 의해 공간적으로 가까울수록 값이 커지도록 계산이 된다.
수학식 2는 두 어텐션 값을 이용해서 현재 세그먼트의 공간적인 맥락 정보를 생성하는 식을 나타낸다. ST Context Net은 물체와 물체 쌍의 정보를 그래프에 반영해서 동영상 세그먼트의 모든 정보를 반영해서 맥락 정보를 생성할 수 있다. 수학식 2는 그래프 간선의 정보를 갱신하며 간선은 간선과 연결된 물체들과 간선이 가지는 물체 쌍 정보로부터 특징 값을 갱신한다. 이후 두 어텐션 값으로 이웃 노드의 가중치를 고려해서 맥락 정보를 생성한다.
ST Context Net은 직전 세그먼트의 맥락 정보를 생성 후 동영상 맥락 메모리에 물체 트랙(object tracklet) 단위의 맥락 정보를 저장하는데, 직전 세그먼트의 맥락 정보와 메모리에 이미 저장되어 있는 직전 세그먼트 이전의 모든 세그먼트의 맥락 정보를 수학식 3의 게이트 순환 유닛(Gated Recurrent Units, GRU)을 사용해서 정보를 갱신하며 이를 동영상 맥락 메모리에 저장한다. 물체 트랙(object tracklet)이 처음 등장한 경우에는 맥락 정보를 동영상 맥락 메모리에 그대로 저장한다.
ST Context Net의 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계는 현재 세그먼트의 물체 트랙(object tracklet)의 현재 정보와 과거 정보를 임베딩하는 temporal feature embedding 과정을 거친다. Temporal feature embedding은 수학식 3와 같이 현재 정보와 과거 정보를 일정 비율로 임베딩을 진행하며, 이를 통해 물체 트랙(object tracklet)은 과거의 맥락 정보를 가질 수 있다.
시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계는 temporal feature embedding 과정 이후 그래프 노드에 과거 정보가 반영된 그래프를 생성하며, 해당 그래프를 사용해서 맥락 정보를 생성한다. 맥락 정보 생성 과정은 수학식 2의 spatial feature embedding 과정과 동일하며, ST Context Net은 맥락 그래프
Figure 112021148724025-pat00007
의 노드 및 간선 특징 값에서 물체와 관계를 예측한다. 관계 예측은 수학식 5와 같이 간선과 간선에 연결된 노드의 정보를 받아 예측을 한다. 물체는 소프트맥스(softmax) 함수를 사용해서 가장 신뢰도가 높은 물체 종류를 정답으로 예측하며, 관계를 시그모이드(sigmoid) 함수를 적용해서 신뢰도가 일정 임계값(threshold) 이상인 관계 종류들을 정답으로 예측한다.
한편, 상술한 동영상 관계 탐지 방법은 컴퓨터 프로그램으로 작성이 가능하다. 이 같은 프로그램을 구성하는 코드들 및/또는 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 이 같은 프로그램은 컴퓨터가 읽을 수 있는 기록매체에 저장되고, PC에 의하여 읽혀지고 실행됨으로써 동영상 관계 탐지 방법이 구현될 수 있다. 그리고 기록매체는 자기 기록매체, 광 기록매체 등일 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100 : 물체 트랙 탐지부 200 : 그래프 생성부
300 : 관계 탐지부 310 : 장기 맥락 갱신부
320 : 시공간 맥락 생성부 400 : 메모리

Claims (13)

  1. 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 시스템에 있어서,
    세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 그래프 생성부; 및
    세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지부;를 포함하되,
    관계 탐지부는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측하는 동영상 관계 탐지 시스템.
  2. 제 1 항에 있어서,
    그래프 생성부는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화하며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화하는 동영상 관계 탐지 시스템.
  3. 제 2 항에 있어서, 관계 탐지부는 :
    현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 물체 트랙 단위로 메모리에 저장하여 직전 세그먼트 외의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 저장되어 있는 메모리를 갱신하는 장기 맥락 갱신부; 및
    현재 세그먼트의 초기 그래프와 장기 맥락 갱신부에 의해 갱신된 메모리로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 시공간 맥락 생성부;
    를 포함하는 동영상 관계 탐지 시스템.
  4. 제 3 항에 있어서,
    장기 맥락 갱신부는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성하는 동영상 관계 탐지 시스템.
  5. 제 4 항에 있어서,
    장기 맥락 갱신부는 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 물체 트랙 단위별 맥락 정보를 갱신하는 동영상 관계 탐지 시스템.
  6. 제 3 항에 있어서,
    시공간 맥락 생성부는 현재 세그먼트의 초기 그래프와 메모리에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 동영상 관계 탐지 시스템.
  7. 제 6 항에 있어서,
    시공간 맥락 생성부는 완전 연결 신경망(fully connected neural network)을 이용해 시간 특징 임베딩을 수행하는 동영상 관계 탐지 시스템.
  8. 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 시스템의 하나 이상의 프로세서에 의해 수행되는 동영상 관계 탐지 방법에 있어서,
    세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 초기 그래프 생성 단계; 및
    세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지 단계;를 포함하되,
    관계 탐지 단계는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측하는 동영상 관계 탐지 방법.
  9. 제 8 항에 있어서,
    초기 그래프 생성 단계는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화하며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화하는 동영상 관계 탐지 방법.
  10. 제 9 항에 있어서, 관계 탐지 단계는 :
    현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 생성하고 물체 트랙 단위로 메모리에 저장하여 직전 세그먼트 외의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 저장되어 있는 메모리를 갱신하는 단계; 및
    현재 세그먼트의 초기 그래프와 갱신된 메모리로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 단계;
    를 포함하는 동영상 관계 탐지 방법.
  11. 제 10 항에 있어서,
    메모리 갱신 단계는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성하며, 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 물체 트랙 단위별 맥락 정보를 갱신하는 동영상 관계 탐지 방법.
  12. 제 10 항에 있어서,
    맥락 그래프 생성 단계는 현재 세그먼트의 초기 그래프와 메모리에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 동영상 관계 탐지 방법.
  13. 제 8 항 내지 제 12 항 중 어느 한 항에 따른 동영상 관계 탐지 방법을 컴퓨터에 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 프로그램.
KR1020210185065A 2021-12-22 2021-12-22 동영상 관계 탐지 시스템 KR102672722B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210185065A KR102672722B1 (ko) 2021-12-22 동영상 관계 탐지 시스템
PCT/KR2022/017385 WO2023120969A1 (ko) 2021-12-22 2022-11-08 동영상 관계 탐지 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210185065A KR102672722B1 (ko) 2021-12-22 동영상 관계 탐지 시스템

Publications (2)

Publication Number Publication Date
KR20230095505A KR20230095505A (ko) 2023-06-29
KR102672722B1 true KR102672722B1 (ko) 2024-06-05

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102185777B1 (ko) 2020-06-18 2020-12-02 호서대학교 산학협력단 컴퓨터를 이용한 딥러닝과 plsi 기반 이미지객체의 의미관계 인식방법
KR102254768B1 (ko) 2020-08-28 2021-05-24 광주과학기술원 씬 그래프 생성장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102185777B1 (ko) 2020-06-18 2020-12-02 호서대학교 산학협력단 컴퓨터를 이용한 딥러닝과 plsi 기반 이미지객체의 의미관계 인식방법
KR102254768B1 (ko) 2020-08-28 2021-05-24 광주과학기술원 씬 그래프 생성장치

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
G. Jung et al., ‘Tracklet Pair Proposal and Context Reasoning for Video Scene Graph Generation,’ Sensors 2021, 21, 3164 (2021.05.02.) 1부.*
W. Wang et al., ‘Zero-Shot Video Object Segmentation via Attentive Graph Neural Networks,’ arXiv:2001.06807v1 [cs.CV] 19 Jan 2020 (2020.01.19.)
Y. Gong et al., ‘Spatial-Temporal Transformer for Dynamic Scene Graph Generation,’ arXiv:2107.12309v2 [cs.CV] 8 Aug 2021 (2021.08.08.)

Similar Documents

Publication Publication Date Title
Lin et al. Generating animated videos of human activities from natural language descriptions
Xi et al. Salient object detection with spatiotemporal background priors for video
Ma et al. Customized multi-person tracker
US20170262996A1 (en) Action localization in sequential data with attention proposals from a recurrent network
Wen et al. Multi-camera multi-target tracking with space-time-view hyper-graph
Howe Silhouette lookup for automatic pose tracking
KR101720781B1 (ko) 객체에 대한 이상 행동 예측 장치 및 이를 이용한 이상 행동 예측 방법
Liu et al. Counting people by estimating people flows
US11954579B2 (en) Synaptic weight training method, target identification method, electronic device and medium
Tesfaye et al. Multi‐object tracking using dominant sets
Jie et al. Anytime recognition with routing convolutional networks
Pavel et al. Object class segmentation of RGB-D video using recurrent convolutional neural networks
Cetintas et al. Unifying short and long-term tracking with graph hierarchies
KR101959436B1 (ko) 배경인식을 이용한 물체 추적시스템
Usmani et al. A reinforcement learning based adaptive ROI generation for video object segmentation
KR20210130072A (ko) 영상 처리 방법 및 장치
CN115035158A (zh) 目标跟踪的方法及装置、电子设备和存储介质
KR102672722B1 (ko) 동영상 관계 탐지 시스템
Song et al. Video Anomaly Detection Based on Optical Flow Feature Enhanced Spatio–Temporal Feature Network FusionNet-LSTM-G
Kumar et al. Crowd behavior recognition using hybrid tracking model and genetic algorithm enabled neural network
CN117173607A (zh) 多层级融合多目标跟踪方法、系统及计算机可读存储介质
Gao et al. Beyond group: Multiple person tracking via minimal topology-energy-variation
KR20230095505A (ko) 동영상 관계 탐지 시스템
KR102323671B1 (ko) 동영상내의 이상 물체 탐지 방법 및 그 장치
Messoussi et al. Vehicle detection and tracking from surveillance cameras in urban scenes