WO2023120969A1 - 동영상 관계 탐지 시스템 - Google Patents

동영상 관계 탐지 시스템 Download PDF

Info

Publication number
WO2023120969A1
WO2023120969A1 PCT/KR2022/017385 KR2022017385W WO2023120969A1 WO 2023120969 A1 WO2023120969 A1 WO 2023120969A1 KR 2022017385 W KR2022017385 W KR 2022017385W WO 2023120969 A1 WO2023120969 A1 WO 2023120969A1
Authority
WO
WIPO (PCT)
Prior art keywords
context
segment
graph
video
context information
Prior art date
Application number
PCT/KR2022/017385
Other languages
English (en)
French (fr)
Inventor
김인철
이종훈
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Publication of WO2023120969A1 publication Critical patent/WO2023120969A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/421Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation by analysing segments intersecting the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Definitions

  • the present invention relates to video scene graph generation, and more particularly to a video relationship detection technique for video scene graph generation.
  • Video Scene Graph Generation is a task that detects all objects appearing in a video and their relationships that change over time and expresses them as a sequence of several scene graphs. This task requires Video Relation Detection (VidVRD) to find all object tracks in a video and their relationships.
  • VidVRD Video Relation Detection
  • VidVRD is technically much more difficult than detecting the relationship between objects in a single image. This is because the object relationship in a video is variable, and it is possible for several relationships to exist at the same time.
  • the first is the difficulty of detecting moving objects.
  • Video object detection must be performed prior to relationship detection, and if an object in the video is occluded, the object's path is cut off or changed to another object's path.
  • the second is that the relationship between objects can be accurately predicted considering temporal information.
  • information before or after the person kicks the ball is helpful in predicting the kick. For example, it is possible to see a person approaching the ball before kicking the ball, and to obtain information about the ball moving away from the person after kicking the ball.
  • a segment-based approach predicts a relationship after dividing a video into segments having the same size in order to predict a variable relationship, and object tracklet detection is performed prior to relationship detection.
  • object track detection step video objects that are targets of relationship detection are tracked in units of video frames.
  • relationship detection step relationships are predicted for objects in the video divided into segments, and if it is determined that the divided relationships are the same between adjacent segments, a relationship association step is performed to connect the relationships.
  • a conventional segment-based approach has a problem of predicting a relationship using only information of a limited time interval. If the relationship to be predicted is larger than the segment interval, the accuracy of relationship detection is reduced.
  • An object of the present invention is to provide a technical solution capable of improving video relationship detection.
  • a video relationship detection system for predicting relationships for objects in a video divided into segments configures all object tracks detected in a video in segment units as nodes, and connects the nodes with edges to form one complete connection.
  • a context graph expressing the context information of the current segment is created from the object track unit context information related to the nodes of the current segment in all past segments, and objects and relationships can be predicted from the nodes and edges of the created context graph.
  • the graph generator may initialize nodes with visual information of object tracks and object track detection results, and may initialize edges with spatial information of object track pairs.
  • the relationship detection unit stores the context information of the previous segment with respect to the current segment in the memory in units of object tracks, and updates the memory in which context information of all past segments other than the previous segment is stored in units of object tracks; and a current segment and a spatio-temporal context generation unit that generates a context graph representing spatio-temporal context information of the current segment from the initial graph of and the memory updated by the long-term context updating unit.
  • the long-term context update unit may generate context information of the previous segment using a graph neural network (GNN).
  • GNN graph neural network
  • the long-term context updater may update context information for each object track unit using gated recurrent units (GRUs).
  • GRUs gated recurrent units
  • the spatio-temporal context generation unit performs temporal feature embedding with context information related to nodes of the initial graph among the initial graph of the current segment and context information stored in memory, and then performs spatial feature embedding to generate the segment.
  • a context graph expressing spatio-temporal context information may be created.
  • the spatio-temporal context generation unit may perform temporal feature embedding using a fully connected neural network.
  • a video relationship detection method for predicting a relationship between objects in a video divided into segments configures all object tracks detected in a video in segment units as nodes, and connects the nodes with trunk lines to form a single
  • a context graph expressing the context information of the current segment is created from the initial graph of the current segment and context information in object track units related to nodes of the current segment in all past segments, and objects and relationships are predicted from the nodes and edges of the generated context graph.
  • the present invention creates an effect of enabling improvement in video relationship detection by enabling creation of spatio-temporal context information for effective relationship detection in a video.
  • FIG. 1 is a block diagram of a video relationship detection system according to an embodiment.
  • FIG. 2 is a structural diagram of a video relationship detection model according to an embodiment.
  • FIG. 3 is a structural diagram of a spatio-temporal context network model according to an embodiment.
  • FIG. 4 is a diagram illustrating a spatial feature embedding process according to an embodiment.
  • FIG. 1 is a block diagram of a video relationship detection system according to an embodiment.
  • the video relationship detection system may include all or only some of the components shown in FIG. 1 .
  • the object track detection unit 100, the graph generation unit 200, and the relationship detection unit 300 are components that can all be implemented in software, and may be executed by one or more processors to perform corresponding operations. That is, the video relationship detection system is a system that can be built in terms of software in a computer system composed of one or more computing devices. This video relationship detection system detects relationships between objects in a video divided into segments. detect
  • the object track detection unit 100 detects an object track in a video divided into segments (eg, 30 frames). Object tracklet detection can be performed in a well known manner.
  • the graph generator 200 configures all object tracks detected in the segment-based video as one node, and connects the nodes with trunk lines to create an initial graph that is a fully connected graph. In this case, the graph generator 200 may initialize nodes with visual information of the object track and a result of detecting the object track, and may initialize trunk lines with spatial information of a pair of object tracks.
  • the relationship detection unit 300 receives the initial graph generated for each segment in the chronological order of the segment, and predicts (detects) the object and relationship of the video on a segment-by-segment basis. At this time, the relationship detection unit 300 generates a context graph expressing context information of the current segment from the initial graph of the current segment and context information in object track units related to nodes of the current segment in all past segments prior to the current segment. Objects and relationships are predicted from the nodes and edges of the created context graph.
  • the relationship detector 300 may include a long-term context updater 310 and a spatiotemporal context generator 320 .
  • the long-term context updater 310 updates the memory 400 by storing the context information of the previous segment to the current segment in the memory 400 in units of object tracks.
  • context information of all past segments prior to the previous segment is already stored in object track units, and when the current segment is given as an input, the long-term context updater 310 converts the context information of the previous segment into object track units. This is reflected in the raw memory 400 and the context information for each object track unit stored in the memory 400 is updated.
  • the long-term context updater 310 generates context information of the previous segment using a graph neural network (GNN), and performs spatial feature embedding to spatial context of the previous segment. information can be generated.
  • the long-term context updater 310 updates the memory 400 with the spatial context information of the previous segment, and updates the context information for each object track unit in the memory 400 using gated recurrent units (GRUs). can do.
  • GRUs gated recurrent units
  • the spatio-temporal context generator 320 generates a context graph expressing spatio-temporal context information of the current segment from the initial graph of the current segment and the memory 400 updated by the long-term context updater 310 . That is, the spatiotemporal context generation unit 320 may generate a context graph expressing the spatiotemporal context information of the current segment using the initial graph of the current segment and the context information stored in the memory 400 corresponding to each node of the initial graph. there is.
  • the spatio-temporal context generation unit 320 performs temporal feature embedding with context information related to nodes of the initial graph among the initial graph of the current segment and context information stored in the memory 400, and then A context graph expressing the spatio-temporal context information of the segment is created by performing spatial feature embedding.
  • temporal feature embedding may be performed using a fully connected neural network.
  • the spatio-temporal context network which is a relationship detection model, includes a long-term context update step of storing past information in segments and generating spatio-temporal context information from past and current object tracklets ( It consists of a step of spatio-temporal context refinement (Spatio-Temporal Context Refinement).
  • an object tracklet detection step is performed to generate an object track for the entire video section.
  • the video in segment units and the detected object tracklet go through a graph generation step to generate an initial graph G c (t).
  • an object tracklet is composed of nodes to express the t segment in a graph form, and this initial graph is a complete graph in which all nodes can be connected.
  • the nodes and edges of the initial graph G c (t) have initial feature values. Nodes are initialized by visual information of object tracks and object track detection results, and edges are initialized by relative feature values of object track pairs.
  • the space-time context network (ST Context Net) of FIG. 2 stores context information in units of object tracks in a video context memory 400 in order to generate long-term space-time context information in a dynamically changing video.
  • ST Context Net generates context information from objects and object pairs in the previous segment in the long-term context update phase.
  • the generated context information is stored in the video context memory 400 in units of object tracks.
  • spatio-temporal context information is generated from video context memory and the current segment, and object and relationship types are predicted.
  • the relationship detection step will be described in more detail.
  • relationships must be predicted using spatio-temporal context information of objects.
  • objects in a video dynamically change it is difficult to extract context information in object tracklets.
  • this ST Context Net predicts the relationship of the current segment through a long-term context update step and a spatio-temporal context refinement step.
  • the ST Context Net is configured as shown in FIG. 3, and receives the initial graph G c configured in segments in the chronological order of the segments as input.
  • the information of the previous segment is stored in the video context memory through the long-term context update step of FIG. 3 first.
  • the video context memory is updated so that information of all past segments is stored.
  • the video context memory Video Context Memory
  • ST Context Net creates context information of the current segment from the current segment and video context memory in the Spatio-Temporal Context Refinement step, and creates objects and objects from nodes and edges of the created context graph. predict the relationship.
  • past information of objects is stored in the video context memory whenever a relationship prediction is made.
  • context information is created by considering information of objects other than objects.
  • the process of generating context information from past segments is performed in the Spatial feature embedding process of Long-term Context Update. Spatial feature emdedding is shown in FIG. 4 .
  • Spatial feature embedding creates context information from nodes with object information and edges with object pair information.
  • the relationship between nodes is considered using the structure of Graph Attention Network (GAT).
  • GAT Graph Attention Network
  • the attention of spatial feature embedding consists of trainable attention, which is learned by graph values, and geometric attention, which is calculated by spatial distances of objects. Spatial attention assumes that the closer the distance between two objects is, the higher the correlation is, and when the distance between two objects is very close, a relationship between the two objects often occurs.
  • Equation 1 represents an expression for obtaining attention of spatial feature embedding. trainable attention As inputs of object and object pair information, a fully connected layer calculates the association, and spatial attention Is calculated by Equation 1 so that the closer it is spatially, the larger the value.
  • Equation 2 represents an equation for generating spatial context information of the current segment using two attention values.
  • ST Context Net can create contextual information by reflecting all information of a video segment by reflecting object and object pair information in a graph. Equation 2 updates the information of the graph edge, and the edge updates the feature value from object pair information of objects connected to the edge and the edge. Then, context information is created by considering the weights of neighboring nodes with the two attention values.
  • ST Context Net After ST Context Net creates the context information of the previous segment, it stores the context information of the object track unit in the video context memory. Information is updated using the gated recurrent units (GRUs) of Equation 3 and stored in the video context memory. When an object tracklet appears for the first time, context information is stored in the video context memory as it is.
  • GRUs gated recurrent units
  • the Spatio-Temporal Context Refinement step of ST Context Net goes through a temporal feature embedding process of embedding current information and past information of an object tracklet of a current segment.
  • Temporal feature embedding proceeds by embedding current information and past information at a constant ratio as shown in Equation 4, and through this, an object tracklet may have past context information.
  • the Spatio-Temporal Context Refinement step after the temporal feature embedding process, a graph in which past information is reflected in graph nodes is created, and context information is created using the corresponding graph.
  • the context information generation process is the same as the spatial feature embedding process in Equation 2, and the ST Context Net is a context graph Predict objects and relationships from node and edge feature values of As shown in Equation 5, relational prediction is performed by receiving information on the edge and the node connected to the edge. For objects, the object type with the highest reliability is predicted as the correct answer using the softmax function, and the relationship types whose reliability is higher than a certain threshold are predicted as the correct answer by applying the sigmoid function to the relationship. do.
  • the above-described video relationship detection method can be written as a computer program. Codes and/or code segments constituting such a program can be easily inferred by a computer programmer in the art.
  • such a program can be stored in a computer-readable recording medium, read and executed by a PC, thereby realizing a video relationship detection method.
  • the recording medium may be a magnetic recording medium or an optical recording medium.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Image Analysis (AREA)

Abstract

동영상 관계 탐지 시스템이 개시된다. 이 시스템은 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 시스템은 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 그래프 생성부, 및 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지부를 포함하되, 관계 탐지부는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측한다.

Description

동영상 관계 탐지 시스템
본 발명은 비디오 장면 그래프 생성에 관한 것으로, 특히 비디오 장면 그래프 생성을 위한 비디오 관계 탐지 기술에 관한 것이다.
비디오 장면 그래프 생성(Video Scene Graph Generation, VidSGG)은 비디오에 등장하는 모든 사물들과 시간에 따라 변화하는 그들 간의 관계들을 탐지해내어 여러 장면 그래프들의 시퀀스로 표현해내는 작업이다. 이 작업은 비디오에 담긴 모든 물체 트랙들과 그들 간의 관계들을 찾아내는 비디오 관계 탐지(Video Relation Detection, VidVRD)를 요구한다. 그런데 VidVRD는 단 한 장의 영상에서 물체들 간의 관계를 탐지하는 것보다 기술적으로 훨씬 더 어렵다. 동영상에서 물체 관계는 가변적이며 동시간에 여러 관계가 존재하는 것이 가능하기 때문이다.
구체적으로, 첫 번째는 동영상 물체 탐지의 어려움이다. 동영상 물체 탐지는 관계 탐지에 앞서 먼저 이루어져야 하며, 동영상의 물체가 가려지는 현상(occulsion)이 발생하는 경우 물체의 경로가 끊기거나 다른 물체의 경로로 바뀌는 문제가 발생한다. 두 번째는 물체들의 관계가 시간적인 정보를 고려해야 정확한 예측이 가능하다는 점이다. 동영상의 물체 관계를 예측하는 경우 관계를 예측하는 현재의 시간 정보 이외의 다른 시간 정보도 추가로 사용하는 것이 예측에 유리하다. 동영상에서 사람과 공 사이에서 발생할 수 있는 킥(kick)의 경우 사람이 공을 차기 이전이나 이후의 정보가 kick을 예측하는데 도움이 된다. 예컨대, 공을 차기 이전에 사람이 공에게 접근하는 것을 볼 수 있으며, 공을 찬 이후에는 공이 사람으로부터 멀어지는 정보를 얻을 수 있다.
이러한 기술적 어려움을 해소하기 위한 방안으로 세그먼트 기반 접근법(segment-based approach)이 잘 알려져 있다. 세그먼트 기반 접근법은 가변적인 관계를 예측하기 위해 동영상을 동일한 크기를 가지는 세그먼트(segment)로 나눈 뒤 관계를 예측하는 것으로, 관계 탐지에 앞서 물체 트랙 탐지(object tracklet detection)를 수행한다. 물체 트랙 탐지 단계에서는 관계 탐지의 대상이 되는 동영상 물체(video object)들을 동영상의 프레임 단위로 추적을 한다. 그리고 관계 탐지(relation detection) 단계에서는 세그먼트 단위로 나누어진 동영상의 물체들을 대상으로 관계들을 예측하며, 이후 나누어진 관계들이 인접한 세그먼트 간 동일하다고 판단되면 관계를 연결시키는 관계 연관(relatioin association) 단계가 이루어진다. 그런데 이 같은 종래의 세그먼트 기반 접근법은 한정된 시간 구간의 정보만을 사용해서 관계를 예측한다는 문제점이 존재한다. 만약 예측 대상이 되는 관계가 세그먼트의 구간보다 큰 경우 관계 탐지의 정확성이 떨어진다는 것이다.
본 발명은 동영상 관계 탐지를 개선할 수 있는 기술적 방안을 제공함을 목적으로 한다.
일 양상에 따른 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 시스템은 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 그래프 생성부, 및 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지부를 포함하되, 관계 탐지부는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측할 수 있다.
그래프 생성부는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화하며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화할 수 있다.
관계 탐지부는 현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 물체 트랙 단위로 메모리에 저장하여 직전 세그먼트 외의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 저장되어 있는 메모리를 갱신하는 장기 맥락 갱신부, 및 현재 세그먼트의 초기 그래프와 장기 맥락 갱신부에 의해 갱신된 메모리로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 시공간 맥락 생성부를 포함할 수 있다.
장기 맥락 갱신부는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성할 수 있다.
장기 맥락 갱신부는 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 물체 트랙 단위별 맥락 정보를 갱신할 수 있다.
시공간 맥락 생성부는 현재 세그먼트의 초기 그래프와 메모리에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성할 수 있다.
시공간 맥락 생성부는 완전 연결 신경망(fully connected neural network)을 이용해 시간 특징 임베딩을 수행할 수 있다.
한편, 일 양상에 따른 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 방법은 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 초기 그래프 생성 단계, 및 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지 단계를 포함하되, 관계 탐지 단계는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측할 수 있다.
본 발명은 동영상에서 효과적인 관계 탐지를 위한 시공간적 맥락 정보를 생성할 수 있게 함으로써, 동영상 관계 탐지 개선을 가능하게 하는 효과를 창출한다.
도 1은 일 실시예에 따른 동영상 관계 탐지 시스템 블록도이다.
도 2는 일 실시예에 따른 동영상 관계 탐지 모델 구조도이다.
도 3은 일 실시예에 따른 시공간 맥락 네트워크 모델 구조도이다.
도 4는 일 실시예에 따른 공간 특징 임베딩 과정을 나타낸 도면이다.
전술한, 그리고 추가적인 본 발명의 양상들은 첨부된 도면을 참조하여 설명되는 바람직한 실시예들을 통하여 더욱 명백해질 것이다. 이하에서는 본 발명을 이러한 실시예를 통해 통상의 기술자가 용이하게 이해하고 재현할 수 있도록 상세히 설명하기로 한다.
도 1은 일 실시예에 따른 동영상 관계 탐지 시스템 블록도이다. 설명에 앞서, 동영상 관계 탐지 시스템은 도 1에 도시된 구성들을 모두 포함하거나 일부만을 포함할 수 있다. 그리고 물체 트랙 탐지부(100)와 그래프 생성부(200) 및 관계 탐지부(300)는 모두 소프트웨어적으로 구현 가능한 구성들로서, 하나 이상의 프로세서에 의해 실행되어 해당 동작을 수행할 수 있다. 즉, 동영상 관계 탐지 시스템은 하나 이상의 컴퓨팅 디바이스로 구성되는 컴퓨터 시스템에 소프트웨어적으로 구축 가능한 시스템이다. 이 같은 동영상 관계 탐지 시스템은 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 탐지하는데, 동영상이 세그먼트 단위로 입력될 때마다 과거 세그먼트들의 정보를 사용해서 현재 입력된 세그먼트(현재 세그먼트)의 물체 관계를 탐지한다.
물체 트랙 탐지부(100)는 세그먼트(예를 들어, 30 프레임) 단위로 나뉜 동영상에서 물체 트랙을 탐지한다. 물체 트랙 탐지(object tracklet detection)는 잘 알려진 방식대로 수행될 수 있다. 그래프 생성부(200)는 세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 각각 하나의 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성한다. 이때, 그래프 생성부(200)는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화할 수 있으며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화할 수 있다.
관계 탐지부(300)는 세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 동영상의 물체와 관계를 예측(탐지)한다. 이때, 관계 탐지부(300)는 현재 세그먼트의 초기 그래프와 현재 세그먼트 이전의 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 그 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측한다.
도 1에 도시된 바와 같이, 관계 탐지부(300)는 장기 맥락 갱신부(310)와 시공간 맥락 생성부(320)를 포함할 수 있다. 장기 맥락 갱신부(310)는 현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 물체 트랙 단위로 메모리(400)에 저장하여 메모리(400)를 갱신한다. 메모리(400)에는 직전 세그먼트 이전의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 이미 저장되어 있으며, 현재 세그먼트가 입력으로 주어지면 장기 맥락 갱신부(310)에 의해 직전 세그먼트의 맥락 정보가 물체 트랙 단위로 메모리(400)에 반영되어 메모리(400)에 저장된 물체 트랙 단위별 맥락 정보가 갱신되는 것이다.
일 실시예에 있어서, 장기 맥락 갱신부(310)는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성하는데, 공간 특징 임베딩(spatial feature embedding)을 수행하여 직전 세그먼트의 공간 맥락 정보를 생성할 수 있다. 그리고 장기 맥락 갱신부(310)는 직전 세그먼트의 공간 맥락 정보로 메모리(400)를 갱신하는데, 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 메모리(400)의 물체 트랙 단위별 맥락 정보를 갱신할 수 있다.
시공간 맥락 생성부(320)는 현재 세그먼트의 초기 그래프와 장기 맥락 갱신부(310)에 의해 갱신된 메모리(400)로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성한다. 즉, 시공간 맥락 생성부(320)는 현재 세그먼트의 초기 그래프와 그 초기 그래프의 각각의 노드에 해당하는 메모리(400)에 저장된 맥락 정보를 가지고 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성할 수 있다. 일 실시예에 있어서, 시공간 맥락 생성부(320)는 현재 세그먼트의 초기 그래프와 메모리(400)에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성한다. 여기서 시간 특징 임베딩은 완전 연결 신경망(fully connected neural network)을 이용해 수행될 수 있다.
이하에서는 동영상 관계 탐지 방법에 대해 도 2 내지 도 4를 참조하여 보다 구체적으로 설명한다. 도 2는 일 실시예에 따른 동영상 관계 탐지 모델 구조도이다. 관계 탐지 모델인 시공간 맥락 네트워크(ST Context Net)는 세그먼트 단위로 과거 정보를 저장하는 장기 맥락 업데이트(Long-term Context Update) 단계와 과거와 현재 물체 트랙(object tracklet)들로부터 시공간 맥락 정보를 생성(refine)하는 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계로 구성된다.
먼저 물체 트랙 탐지(object tracklet detection) 단계를 거쳐서 비디오 구간 전체의 물체 트랙을 생성한다. 세그먼트 단위의 동영상과 탐지된 물체 트랙(object tracklet)은 그래프 생성(Graph Generation) 단계를 거쳐서 초기 그래프 Gc(t)를 생성한다. 초기 그래프 Gc(t)는 t 세그먼트를 그래프 형태로 표현하기 위해 물체 트랙(object tracklet)을 노드로 구성하는데, 이 초기 그래프는 모든 노드 간의 연결이 가능한 완전 연결 그래프(complete graph)이다. 초기 그래프 Gc(t)의 노드와 간선은 초기 특징 값을 가지고 있다. 노드는 물체 트랙의 시각적인 정보와 물체 트랙 탐지 결과에 의해 초기화되며, 간선은 물체 트랙 쌍의 상대적인 특징(relative feature) 값으로 초기화된다.
관계 탐지(relation detection) 단계에서 물체들의 과거 정보를 사용하는 경우 현재 관계를 예측하려는 세그먼트와 다른 시간 세그먼트의 물체 트랙(object tracklet) 정보를 사용한다. 도 2의 시공간 맥락 네트워크(ST Context Net)는 동적으로 변하는 동영상에서 장기적인 시공간 맥락 정보를 생성하기 위해 물체 트랙 단위의 맥락 정보를 동영상 맥락 메모리(Video Context Memory)(400)에 저장한다. ST Context Net은 장기 맥락 갱신(Long-term Context Update) 단계에서 이전 세그먼트의 물체와 물체 쌍으로부터 맥락 정보를 생성한다. 생성된 맥락 정보는 물체 트랙 단위로 동영상 맥락 메모리(400)에 저장된다. 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계에서 동영상 맥락 메모리(Video Context Memory)와 현재 세그먼트로부터 시공간 맥락 정보를 생성 후 물체와 관계 종류를 예측한다.
관계 탐지 단계에 대해 보다 상세히 설명한다. 관계 탐지 단계에서는 물체들의 시공간적 맥락 정보를 사용해서 관계를 예측해야 하는데, 동영상의 물체는 동적으로 변하기 때문에 물체 트랙 단위(object tracklet)의 맥락 정보 추출을 어렵게 한다. 이에 본 ST Context Net은 장기간 맥락 갱신(Long-term Context Update) 단계와 시공간 맥락 생성 단계(Spatio-temporal Context Refinement)를 거쳐서 현재 세그먼트의 관계를 예측한다. ST Context Net은 도 3과 같이 구성이 되며, 세그먼트 단위로 구성된 초기 그래프 Gc를 세그먼트의 시간 순서대로 입력으로 받는다.
현재 세그먼트의 관계를 예측할 때 먼저 도 3의 장기간 맥락 갱신(Long-term Context Update) 단계를 거쳐서 이전 세그먼트의 정보는 동영상 맥락 메모리(Video Context Memory)에 저장이 된다. 이에 따르면, 시간 순서대로 세그먼트가 입력됨에 따라 동영상 맥락 메모리(Video Context Memory)에는 모든 과거 세그먼트의 정보가 저장되도록 갱신이 이루어진다. 부연하면, 현재 세그먼트가 입력으로 주어질 시에는 직전 세그먼트 이전의 모든 과거 세그먼트의 정보가 이미 저장되어 있으며, 장기간 맥락 갱신(Long-term Context Update) 단계를 통해 이전 세그먼트의 정보로 동영상 맥락 메모리(Video Context Memory)의 갱신이 이루어진다. 그리고 ST Context Net은 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계에서 현재 세그먼트와 동영상 맥락 메모리(Video Context Memory)로부터 현재 세그먼트의 맥락 정보를 생성하며, 그 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측한다.
ST Context Net의 장기간 맥락 갱신(Long-term Context Update) 단계는 관계 예측이 이루어질 때마다 물체들의 과거 정보를 동영상 맥락 메모리(Video Context Memory)에 저장한다. 물체들의 과거 정보를 저장하는 경우 물체 외의 다른 물체들의 정보를 고려해서 맥락 정보를 생성한다. 과거 세그먼트로부터 맥락 정보를 생성하는 과정은 Long-term Context Update의 Spatial feature embedding 과정에서 이루어진다. Spatial feature emdedding은 도 4와 같다.
Spatial feature embedding은 물체 정보를 가지는 노드와 물체 쌍 정보를 가지는 간선으로부터 맥락 정보를 생성하며, 맥락 정보를 생성시 Graph Attention Network(GAT)의 구조를 사용해서 노드 간의 연관성을 고려한다. Spatial feature embedding의 어텐션(attention)은 그래프 값에 의해서 학습이 되는 어텐션(trainable attention)과 물체들의 공간적인 거리에 의해 계산되는 어텐션(geometric attention)으로 구성된다. 공간적 어텐션(geometric attention)은 두 물체 간의 거리가 가까울수록 연관성이 높다고 가정하며, 두 물체의 거리가 매우 근접한 경우 두 물체의 관계가 발생한 경우가 많다.
수학식 1은 Spatial feature embedding의 어텐션을 구하는 식을 나타낸다. 학습이 되는 어텐션(trainable attention)
Figure PCTKR2022017385-appb-img-000001
는 물체와 물체 쌍의 정보를 입력으로 완전 연결 계층(fully connected layer)이 연관성을 계산하며, 공간적 어텐션(geometric attention)
Figure PCTKR2022017385-appb-img-000002
는 수학식 1에 의해 공간적으로 가까울수록 값이 커지도록 계산이 된다.
Figure PCTKR2022017385-appb-img-000003
수학식 2는 두 어텐션 값을 이용해서 현재 세그먼트의 공간적인 맥락 정보를 생성하는 식을 나타낸다. ST Context Net은 물체와 물체 쌍의 정보를 그래프에 반영해서 동영상 세그먼트의 모든 정보를 반영해서 맥락 정보를 생성할 수 있다. 수학식 2는 그래프 간선의 정보를 갱신하며 간선은 간선과 연결된 물체들과 간선이 가지는 물체 쌍 정보로부터 특징 값을 갱신한다. 이후 두 어텐션 값으로 이웃 노드의 가중치를 고려해서 맥락 정보를 생성한다.
Figure PCTKR2022017385-appb-img-000004
ST Context Net은 직전 세그먼트의 맥락 정보를 생성 후 동영상 맥락 메모리에 물체 트랙(object tracklet) 단위의 맥락 정보를 저장하는데, 직전 세그먼트의 맥락 정보와 메모리에 이미 저장되어 있는 직전 세그먼트 이전의 모든 세그먼트의 맥락 정보를 수학식 3의 게이트 순환 유닛(Gated Recurrent Units, GRU)을 사용해서 정보를 갱신하며 이를 동영상 맥락 메모리에 저장한다. 물체 트랙(object tracklet)이 처음 등장한 경우에는 맥락 정보를 동영상 맥락 메모리에 그대로 저장한다.
Figure PCTKR2022017385-appb-img-000005
ST Context Net의 시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계는 현재 세그먼트의 물체 트랙(object tracklet)의 현재 정보와 과거 정보를 임베딩하는 temporal feature embedding 과정을 거친다. Temporal feature embedding은 수학식 4와 같이 현재 정보와 과거 정보를 일정 비율로 임베딩을 진행하며, 이를 통해 물체 트랙(object tracklet)은 과거의 맥락 정보를 가질 수 있다.
Figure PCTKR2022017385-appb-img-000006
시공간 맥락 생성(Spatio-Temporal Context Refinement) 단계는 temporal feature embedding 과정 이후 그래프 노드에 과거 정보가 반영된 그래프를 생성하며, 해당 그래프를 사용해서 맥락 정보를 생성한다. 맥락 정보 생성 과정은 수학식 2의 spatial feature embedding 과정과 동일하며, ST Context Net은 맥락 그래프
Figure PCTKR2022017385-appb-img-000007
의 노드 및 간선 특징 값에서 물체와 관계를 예측한다. 관계 예측은 수학식 5와 같이 간선과 간선에 연결된 노드의 정보를 받아 예측을 한다. 물체는 소프트맥스(softmax) 함수를 사용해서 가장 신뢰도가 높은 물체 종류를 정답으로 예측하며, 관계를 시그모이드(sigmoid) 함수를 적용해서 신뢰도가 일정 임계값(threshold) 이상인 관계 종류들을 정답으로 예측한다.
Figure PCTKR2022017385-appb-img-000008
한편, 상술한 동영상 관계 탐지 방법은 컴퓨터 프로그램으로 작성이 가능하다. 이 같은 프로그램을 구성하는 코드들 및/또는 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 이 같은 프로그램은 컴퓨터가 읽을 수 있는 기록매체에 저장되고, PC에 의하여 읽혀지고 실행됨으로써 동영상 관계 탐지 방법이 구현될 수 있다. 그리고 기록매체는 자기 기록매체, 광 기록매체 등일 수 있다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims (13)

  1. 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 시스템에 있어서,
    세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 그래프 생성부; 및
    세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지부;를 포함하되,
    관계 탐지부는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측하는 동영상 관계 탐지 시스템.
  2. 제 1 항에 있어서,
    그래프 생성부는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화하며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화하는 동영상 관계 탐지 시스템.
  3. 제 2 항에 있어서, 관계 탐지부는 :
    현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 물체 트랙 단위로 메모리에 저장하여 직전 세그먼트 외의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 저장되어 있는 메모리를 갱신하는 장기 맥락 갱신부; 및
    현재 세그먼트의 초기 그래프와 장기 맥락 갱신부에 의해 갱신된 메모리로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 시공간 맥락 생성부;
    를 포함하는 동영상 관계 탐지 시스템.
  4. 제 3 항에 있어서,
    장기 맥락 갱신부는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성하는 동영상 관계 탐지 시스템.
  5. 제 4 항에 있어서,
    장기 맥락 갱신부는 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 물체 트랙 단위별 맥락 정보를 갱신하는 동영상 관계 탐지 시스템.
  6. 제 3 항에 있어서,
    시공간 맥락 생성부는 현재 세그먼트의 초기 그래프와 메모리에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 동영상 관계 탐지 시스템.
  7. 제 6 항에 있어서,
    시공간 맥락 생성부는 완전 연결 신경망(fully connected neural network)을 이용해 시간 특징 임베딩을 수행하는 동영상 관계 탐지 시스템.
  8. 세그먼트 단위로 나뉜 동영상의 물체들을 대상으로 관계를 예측하는 동영상 관계 탐지 방법에 있어서,
    세그먼트 단위의 동영상에서 탐지된 모든 물체 트랙을 노드로 구성하며, 노드들을 간선들로 연결하여 하나의 완전 연결 그래프인 초기 그래프를 생성하는 초기 그래프 생성 단계; 및
    세그먼트 단위마다 생성된 초기 그래프를 세그먼트의 시간 순서대로 입력받아 세그먼트 단위로 물체와 관계를 예측하는 관계 탐지 단계;를 포함하되,
    관계 탐지 단계는 현재 세그먼트의 초기 그래프와 모든 과거 세그먼트에서 현재 세그먼트의 노드와 관련된 물체 트랙 단위의 맥락 정보로부터 현재 세그먼트의 맥락 정보를 표현한 맥락 그래프를 생성하며, 생성된 맥락 그래프의 노드와 간선으로부터 물체와 관계를 예측하는 동영상 관계 탐지 방법.
  9. 제 8 항에 있어서,
    초기 그래프 생성 단계는 물체 트랙의 시각적 정보와 물체 트랙 탐지 결과로 노드를 초기화하며, 물체 트랙 쌍의 공간적 정보로 간선을 초기화하는 동영상 관계 탐지 방법.
  10. 제 9 항에 있어서, 관계 탐지 단계는 :
    현재 세그먼트에 대한 직전 세그먼트의 맥락 정보를 생성하고 물체 트랙 단위로 메모리에 저장하여 직전 세그먼트 외의 모든 과거 세그먼트의 맥락 정보가 물체 트랙 단위로 저장되어 있는 메모리를 갱신하는 단계; 및
    현재 세그먼트의 초기 그래프와 갱신된 메모리로부터 현재 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 단계;
    를 포함하는 동영상 관계 탐지 방법.
  11. 제 10 항에 있어서,
    메모리 갱신 단계는 그래프 신경망(Graph Neural Network, GNN)을 이용해 직전 세그먼트의 맥락 정보를 생성하며, 게이트 순환 유닛(Gated Recurrent Units, GRU)을 이용하여 물체 트랙 단위별 맥락 정보를 갱신하는 동영상 관계 탐지 방법.
  12. 제 10 항에 있어서,
    맥락 그래프 생성 단계는 현재 세그먼트의 초기 그래프와 메모리에 저장된 맥락 정보 중에서 초기 그래프의 노드와 관련된 맥락 정보로 시간 특징 임베딩(temporal feature embedding)을 수행한 후에 공간 특징 임베딩(spatial feature embedding)을 수행하여 세그먼트의 시공간 맥락 정보를 표현한 맥락 그래프를 생성하는 동영상 관계 탐지 방법.
  13. 제 8 항에 따른 동영상 관계 탐지 방법을 컴퓨터에 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 프로그램.
PCT/KR2022/017385 2021-12-22 2022-11-08 동영상 관계 탐지 시스템 WO2023120969A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210185065A KR102672722B1 (ko) 2021-12-22 2021-12-22 동영상 관계 탐지 시스템
KR10-2021-0185065 2021-12-22

Publications (1)

Publication Number Publication Date
WO2023120969A1 true WO2023120969A1 (ko) 2023-06-29

Family

ID=86902942

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/017385 WO2023120969A1 (ko) 2021-12-22 2022-11-08 동영상 관계 탐지 시스템

Country Status (2)

Country Link
KR (1) KR102672722B1 (ko)
WO (1) WO2023120969A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150115876A (ko) * 2013-02-01 2015-10-14 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 동적 시각화를 사용한 애플리케이션 추적의 제어
KR20190039384A (ko) * 2017-10-03 2019-04-11 주식회사 스트라드비젼 마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치
KR20200119391A (ko) * 2019-03-27 2020-10-20 연세대학교 산학협력단 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법
KR102197364B1 (ko) * 2013-10-21 2020-12-31 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 모바일 비디오 서치 기법
KR20210035269A (ko) * 2018-07-30 2021-03-31 옵티멈 세미컨덕터 테크놀로지스 인코포레이티드 서로 다른 이미지 필드들에 대해 훈련된 다중 신경망을 사용한 오브젝트 검출

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102185777B1 (ko) 2020-06-18 2020-12-02 호서대학교 산학협력단 컴퓨터를 이용한 딥러닝과 plsi 기반 이미지객체의 의미관계 인식방법
KR102254768B1 (ko) 2020-08-28 2021-05-24 광주과학기술원 씬 그래프 생성장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150115876A (ko) * 2013-02-01 2015-10-14 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 동적 시각화를 사용한 애플리케이션 추적의 제어
KR102197364B1 (ko) * 2013-10-21 2020-12-31 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 모바일 비디오 서치 기법
KR20190039384A (ko) * 2017-10-03 2019-04-11 주식회사 스트라드비젼 마코프체인을 사용하여 이미지 상 대상 객체를 추적, 분할하는 방법 및 장치
KR20210035269A (ko) * 2018-07-30 2021-03-31 옵티멈 세미컨덕터 테크놀로지스 인코포레이티드 서로 다른 이미지 필드들에 대해 훈련된 다중 신경망을 사용한 오브젝트 검출
KR20200119391A (ko) * 2019-03-27 2020-10-20 연세대학교 산학협력단 비디오 행동 인식 및 행동 구간 탐지 장치 및 방법

Also Published As

Publication number Publication date
KR20230095505A (ko) 2023-06-29
KR102672722B1 (ko) 2024-06-05

Similar Documents

Publication Publication Date Title
CN107545582B (zh) 基于模糊逻辑的视频多目标跟踪方法及装置
Pan et al. Additive neural network for forest fire detection
US20220254157A1 (en) Video 2D Multi-Person Pose Estimation Using Multi-Frame Refinement and Optimization
Cheng et al. Implicit motion handling for video camouflaged object detection
US20210295541A1 (en) Multi-spatial scale analytics
CN107423686B (zh) 视频多目标模糊数据关联方法及装置
EP1949339A2 (en) Tracking using an elastic cluster of trackers
CN110807410B (zh) 关键点定位方法、装置、电子设备和存储介质
WO2022059955A1 (ko) 레이더 포인트 클라우드 기반 자세 판단 시스템
Erdem et al. Visual tracking by fusing multiple cues with context-sensitive reliabilities
Pavel et al. Object class segmentation of RGB-D video using recurrent convolutional neural networks
CN111899285B (zh) 目标对象的跟踪轨迹的确定方法和装置、存储介质
Jie et al. Anytime recognition with routing convolutional networks
Ramasamy et al. An improved deep bagging convolutional neural network classifier for efficient intrusion detection system
Zhou et al. A survey of multi-object video tracking algorithms
CN115035158A (zh) 目标跟踪的方法及装置、电子设备和存储介质
WO2023120969A1 (ko) 동영상 관계 탐지 시스템
KR102465437B1 (ko) 인공지능 기반 객체 추적 장치 및 방법
Veenman et al. Motion tracking as a constrained optimization problem
Huang et al. Bioinspired approach-sensitive neural network for collision detection in cluttered and dynamic backgrounds
Messoussi et al. Vehicle detection and tracking from surveillance cameras in urban scenes
CN114743262A (zh) 行为检测方法、装置、电子设备及存储介质
Al Najjar et al. A hybrid adaptive scheme based on selective Gaussian modeling for real-time object detection
WO2020101063A1 (ko) 강화학습 기반 ptz 카메라 제어 시스템 및 방법
WO2020013395A1 (ko) 비디오 영상에서의 물체 추적 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22911607

Country of ref document: EP

Kind code of ref document: A1