KR20230077586A - System and method for storing video-objects contextualization data - Google Patents

System and method for storing video-objects contextualization data Download PDF

Info

Publication number
KR20230077586A
KR20230077586A KR1020220013702A KR20220013702A KR20230077586A KR 20230077586 A KR20230077586 A KR 20230077586A KR 1020220013702 A KR1020220013702 A KR 1020220013702A KR 20220013702 A KR20220013702 A KR 20220013702A KR 20230077586 A KR20230077586 A KR 20230077586A
Authority
KR
South Korea
Prior art keywords
contextualization
frame
clip
data
logical
Prior art date
Application number
KR1020220013702A
Other languages
Korean (ko)
Inventor
김광훈
팜딘람
Original Assignee
경기대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경기대학교 산학협력단 filed Critical 경기대학교 산학협력단
Publication of KR20230077586A publication Critical patent/KR20230077586A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Signal Processing (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명의 일 양상에 따르는 객체 맥락화 데이터 저장 시스템은 하나 이상의 영상 파일에 대하여 검출한 객체와 객체의 속성 정보를 프레임 별로 맥락화한 객체 맥락화 데이터를 텍스트 파일 형태로 빅데이터 저장소에 저장하되, 추가적으로 영상 파일 단위 또는 설정된 논리적 클립 단위로도 저장한다.An object contextualization data storage system according to an aspect of the present invention stores object contextualization data obtained by contextualizing an object detected for one or more image files and object attribute information for each frame in the form of a text file in a big data storage, and additionally stores the image file It is also saved as a unit or set logical clip unit.

Description

객체 맥락화 데이터 저장 시스템 및 방법 { SYSTEM AND METHOD FOR STORING VIDEO-OBJECTS CONTEXTUALIZATION DATA }Object contextualization data storage system and method { SYSTEM AND METHOD FOR STORING VIDEO-OBJECTS CONTEXTUALIZATION DATA }

본 발명은 컴퓨터 비전 기술에 관한 것으로, 동영상에서 검출되는 객체들을 맥락화하여 텍스트 형태로 저장하는 기술에 관한 것이다.The present invention relates to computer vision technology, and relates to a technology for contextualizing objects detected in a video and storing them in text form.

최근 CCTV, 블랙박스, 스마트폰 등으로부터 수집되는 동영상 데이터와 페이스북 등의 소셜 미디어로부터 생산되는 비정형데이터가 급격하게 증가하고 있으며, 그 증가속도 역시 급격히 빨라지고 있다. 이에 따라 동영상 및 소셜 미디어의 비정형 콘텐츠 빅데이터와 딥러닝 등의 인공지능 기술과의 융합적 접근방법과 이를 기반으로 하는 다양한 활용방안에 대한 관심이 크게 확산되고 있다. 특히, 비정형 콘텐츠의 동영상과 소셜 미디어 빅데이터를 학습 및 훈련데이터로 활용하는 딥러닝 등의 인공지능 공개 엔진들과 이들을 활용하는 서비스 플랫폼의 연구개발 및 상용화가 각광을 받기 시작하면서 대표적인 비정형 콘텐츠 빅데이터 응용서비스인 동영상 검색 시스템에 딥러닝 등의 인공지능 기술을 적용하는 연구개발에 대한 관심이 높아지고 있다. Recently, video data collected from CCTVs, black boxes, smartphones, etc., and unstructured data produced from social media such as Facebook are rapidly increasing, and the rate of increase is also rapidly accelerating. Accordingly, interest in the convergence approach between unstructured content big data of videos and social media and artificial intelligence technologies such as deep learning and various utilization methods based on this is greatly spreading. In particular, as R&D and commercialization of artificial intelligence disclosure engines such as deep learning that utilize video and social media big data of unstructured content as learning and training data, and service platforms that utilize them, have begun to draw attention, representative unstructured content big data Interest in research and development that applies artificial intelligence technologies such as deep learning to video search systems, which are application services, is increasing.

동영상 프레임의 물리적 내용과 의미적 객체들을 기반으로 하는 종래기술의 동영상 검색 시스템들은 프레임의 인덱스를 구성하거나 핵심 특징을 추출하는데 충분한 성능을 보이지 못하고 있으며, 일부 접근방법들은 상대적으로 우수한 성능을 보이더라도 추출된 특징의 차원이 너무 높거나 해당 알고리즘의 구현이 매우 어렵다는 문제점을 가지고 있다. 동영상 검색 접근방법들과 시스템들에서의 가장 중요한 단계는 최소한의 서술자로 해당 동영상을 묘사하기 위한 특징 추출 단계이며, 가장 기본적인 시각 특징으로서 주로 색상과 질감이 고려대상이 되고 있는데, 최근에는 다양한 질감 표현방법에 따른 패턴인식과 컴퓨터 비전을 기반으로 하는 영상 객체 기반 동영상 검색 접근방법들과 내용 기반 동영상 검색 접근방법들에 관한 연구개발이 크게 증가하는 추세이다.Conventional video retrieval systems based on physical contents and semantic objects of video frames do not show sufficient performance in constructing frame indexes or extracting core features, and some approaches extract even if they show relatively good performance. It has a problem that the dimension of the feature is too high or the implementation of the corresponding algorithm is very difficult. The most important step in video search approaches and systems is the feature extraction step to describe the video with the minimum descriptor, and as the most basic visual features, color and texture are considered. Recently, various texture expressions are being considered. Research and development on video object-based video search approaches and content-based video search approaches based on pattern recognition and computer vision according to the method are on the rise.

이러한 동영상 검색 접근방법들은 특히, 지속적으로 동영상 데이터를 생성하는 CCTV 영상을 분석에 사용되는 경우 동영상 자체를 저장하고 분석하는데 있어 컴퓨팅 자원을 많이 요구한다.These video search approaches require a lot of computing resources to store and analyze the video itself, especially when CCTV images that continuously generate video data are used for analysis.

본 발명은 동영상을 내용 기반으로 검색하는 동영상 검색 시스템들이 빠르고 적은 컴퓨팅 파워로 영상을 검색할 수 있도록 영상에 등장하는 객체와 그 속성을 프레임 단위로 맥락화하여 텍스트 형태로 저장하는 시스템을 제공하는 것을 목적으로 한다.An object of the present invention is to provide a system that contextualizes objects appearing in a video and their properties in frame units and stores them in text form so that video search systems that search video based on content can search for video quickly and with little computing power. to be

본 발명의 일 양상에 따르는 객체 맥락화 데이터 저장 시스템은 입력 영상 처리부와, 객체 검출부와, 프레임 맥락화부와, 객체 맥락화부와, 클립 지정부와, 맥락화 저장부를 포함한다.An object contextualization data storage system according to an aspect of the present invention includes an input image processing unit, an object detection unit, a frame contextualization unit, an object contextualization unit, a clip designation unit, and a contextualization storage unit.

입력 영상 처리부는 입력된 하나 이상의 영상 파일 각각의 프레임에 대하여 연속된 프레임 식별자를 할당하여 입력 영상 데이터를 생성한다.The input image processor generates input image data by assigning consecutive frame identifiers to each frame of one or more input image files.

객체 검출부는 딥러닝 모델을 사용하여 입력 영상 데이터에서 프레임 별로 복수의 객체를 검출하여 객체의 종류를 분류하고, 객체의 종류와 객체의 위치 정보를 포함하는 객체 속성 정보를 생성한다.The object detector detects a plurality of objects for each frame in the input image data using a deep learning model, classifies the type of object, and generates object attribute information including the type of object and location information of the object.

프레임 맥락화부는 객체가 검출된 프레임 별로 검출된 프레임 정보, 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 프레임 맥락화 데이터를 생성한다.The frame contextualization unit generates frame contextualization data including detected frame information for each frame in which an object is detected, the type and number of objects, and object property information of each object.

객체 맥락화부는 입력 영상 데이터에 대하여 검출된 객체들의 리스트와 프레임 별 상기 프레임 맥락화 데이터를 포함하는 객체 맥락화 데이터를 생성한다.The object contextualizer generates object contextualization data including a list of objects detected for the input image data and the frame contextualization data for each frame.

클립 지정부는 설정된 클립 구성 정보에 기초하여 논리적 클립을 구성하여 객체 맥락화 데이터에 추가한다.The clip specifying unit constructs a logical clip based on the set clip configuration information and adds it to the object contextualization data.

맥락화 저장부는 입력 영상 데이터에 대한 객체 맥락화 데이터를 텍스트 파일로 빅데이터 저장소에 저장한다.The contextualization storage unit stores the object contextualization data of the input image data as a text file in the big data storage.

본 발명의 일 실시 예에 따르는 객체 맥락화 데이터 저장 방법은 입력 영상 처리 단계와, 객체 검출 단계와, 객체 속성 정보 생성 단계와, 프레임 맥락화 단계와, 객체 맥락화 단계와, 클립 지정 단계와, 맥락화 데이터 저장 단계를 포함한다.A method for storing object contextualization data according to an embodiment of the present invention includes processing an input image, detecting an object, generating object property information, contextualizing a frame, contextualizing an object, specifying a clip, and storing contextualization data. Include steps.

입력 영상 처리 단계는 입력된 하나 이상의 영상 파일 각각의 프레임에 대하여 연속된 프레임 식별자를 할당하여 하나의 입력 영상 데이터를 생성한다.In the input image processing step, one input image data is generated by assigning consecutive frame identifiers to each frame of one or more input image files.

객체 검출 단계는 딥러닝 모델을 사용하여 입력 영상 데이터에서 프레임 별로 하나 이상의 객체를 검출하여 객체의 종류를 분류한다.In the object detection step, one or more objects are detected for each frame in the input image data using a deep learning model, and the object type is classified.

객체 속성 정보 생성 단계는 검출된 각각의 객체에 대하여 객체의 종류와 객체의 위치 정보를 포함하는 객체 속성 정보를 생성한다.The object property information generating step generates object property information including object type and object location information for each detected object.

프레임 맥락화 단계는 객체가 검출된 프레임 별로 검출된 프레임 정보, 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 프레임 맥락화 데이터를 생성한다.The frame contextualization step generates frame contextualization data including detected frame information for each frame in which an object is detected, the type and number of objects, and object property information of each object.

객체 맥락화 단계는 입력 영상 데이터에서 검출된 객체들의 리스트와 프레임 별 상기 프레임 맥락화 데이터를 포함하는 객체 맥락화 데이터를 생성한다.The object contextualization step generates object contextualization data including a list of objects detected in the input image data and the frame contextualization data for each frame.

클립 지정 단계는 설정된 클립 구성 정보에 기초하여 논리적 클립을 구성하여 객체 맥락화 데이터에 추가한다.The clip designation step configures a logical clip based on set clip configuration information and adds it to object contextualization data.

맥락화 데이터 저장 단계는 입력 영상 데이터에 대한 객체 맥락화 데이터를 텍스트 파일로 빅데이터 저장소에 저장한다.In the step of storing contextualization data, object contextualization data of the input image data is stored in a big data storage as a text file.

본 발명에 의하면 동영상 검색 시스템들이 영상에 등장하는 객체와 그 속성들이 맥락화되어 저장된 텍스트 파일을 대상으로 빠르고 적은 컴퓨팅 파워로 영상을 검색할 수 있다.According to the present invention, video retrieval systems can quickly and with little computing power target a text file in which objects appearing in a video and their attributes are contextualized and stored.

도 1은 본 발명의 객체 맥락화 데이터 저장 시스템의 블록도이다.
도 2는 본 발명의 객체 맥락화 데이터 저장 시스템이 객체를 맥락화하는 개념을 도시한 것이다.
도 3은 본 발명의 객체 맥락화 데이터 저장 시스템이 하나의 프레임에 대하여 구조화한 프레임 맥락화의 예를 도시한 것이다.
도 4는 본 발명의 객체 맥락화 데이터 저장 시스템이 하나 이상의 영상 파일에 대하여 객체 맥락화를 수행한 예를 도시한 것이다.
도 5는 본 발명의 객체 맥락화 데이터 저장 시스템의 논리적 클립 설정의 예를 도시한 것이다.
도 6은 본 발명의 객체 맥락화 데이터 저장 방법의 절차도이다.
1 is a block diagram of the object contextualization data storage system of the present invention.
2 illustrates the concept of contextualizing an object in the object contextualization data storage system of the present invention.
3 illustrates an example of frame contextualization structured for one frame by the object contextualization data storage system of the present invention.
4 illustrates an example in which the object contextualization data storage system of the present invention performs object contextualization on one or more image files.
5 shows an example of logical clip setting in the object contextualization data storage system of the present invention.
6 is a flowchart of a method for storing object contextualization data according to the present invention.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.The foregoing and additional aspects are embodied through embodiments described with reference to the accompanying drawings. It is understood that the components of each embodiment are possible in various combinations within an embodiment unless otherwise stated or contradictory to each other. Each block in the block diagram may represent a physical component in one case, but in another case, it may be a logical representation of a function of a portion of a function of one physical component or a function across multiple physical components. Sometimes the substance of a block or part thereof may be a set of program instructions. All or part of these blocks may be implemented by hardware, software, or a combination thereof.

도 1은 본 발명의 객체 맥락화 데이터 저장 시스템의 블록도이다. 본 발명의 일 양상에 따르는 객체 맥락화 데이터 저장 시스템(10)은 입력 영상 처리부(100)와, 객체 검출부(110)와, 프레임 맥락화부(120)와, 객체 맥락화부(130)와, 클립 지정부(140)와, 맥락화 저장부(150)를 포함한다.1 is a block diagram of the object contextualization data storage system of the present invention. An object contextualization data storage system 10 according to an aspect of the present invention includes an input image processing unit 100, an object detection unit 110, a frame contextualization unit 120, an object contextualization unit 130, and a clip designation unit. (140) and a contextualization store (150).

본 발명의 일 양상에 따르는 객체 맥락화 데이터 저장 시스템(10)은 하나의 컴퓨팅 장치로 구성되거나 또는 네트워크로 연결된 복수의 컴퓨팅 장치들로 구성될 수 있다. 일 예로 객체 맥락화 데이터 저장 시스템(10)의 입력 영상 처리부(100)와, 객체 검출부(110)와, 프레임 맥락화부(120)와, 객체 맥락화부(130)와, 클립 지정부(140)와, 맥락화 저장부(150)는 하나의 컴퓨팅 장치에 포함되어 구성될 수 있고, 또 다른 예로 객체 맥락화 데이터 저장 시스템(10)의 입력 영상 처리부(100)와, 객체 검출부(110)와, 프레임 맥락화부(120)와, 객체 맥락화부(130)와, 클립 지정부(140)와, 맥락화 저장부(150)는 각각 다른 컴퓨팅 장치로 구성될 수 있다. 이에 제한되는 것은 아니며 기능 블록들이 조합되어 둘 이상의 컴퓨팅 장치로 구성될 수 있다.The object contextualization data storage system 10 according to one aspect of the present invention may consist of one computing device or a plurality of computing devices connected by a network. For example, the input image processing unit 100 of the object contextualization data storage system 10, the object detection unit 110, the frame contextualization unit 120, the object contextualization unit 130, the clip designation unit 140, The contextualization storage unit 150 may be included in one computing device, and as another example, the input image processing unit 100 of the object contextualization data storage system 10, the object detection unit 110, and the frame contextualization unit ( 120), the object contextualization unit 130, the clip designation unit 140, and the contextualization storage unit 150 may be composed of different computing devices. It is not limited thereto, and functional blocks may be combined to form two or more computing devices.

본 발명의 객체 맥락화 데이터 저장 시스템(10)을 구성하는 컴퓨팅 장치는 프로세서와, 프로세서와 연결되고 프로세서에 의해 실행 가능한 프로그램 명령어들을 포함하는 메모리를 포함하는 장치이다. 본 발명의 객체 맥락화 데이터 저장 시스템(10)을 구성하는 컴퓨팅 장치는 프로세서와, 메모리 외에 추가적으로 저장 장치, 디스플레이, 입력 장치 등을 더 포함하는 컴퓨터 장치일 수 있다. 프로세서는 객체 맥락화 데이터 저장 시스템(10)의 기능 블록들을 구현하는 프로그램 명령어들을 실행하는 프로세서이고, 메모리는 프로세서와 연결되고 프로세서에 의해 실행 가능한 프로그램 명령어들과 프로세서가 연산에 사용할 데이터와 프로세서에 의해 처리된 데이터 등을 저장한다.A computing device constituting the object contextualized data storage system 10 of the present invention is a device including a processor and a memory connected to the processor and including program instructions executable by the processor. A computing device constituting the object contextualization data storage system 10 of the present invention may be a computer device that further includes a storage device, a display, an input device, and the like in addition to a processor and a memory. The processor is a processor that executes program instructions that implement the functional blocks of the object contextualized data storage system 10, and the memory is connected to the processor and includes program instructions executable by the processor and data to be used for operation by the processor and processed by the processor. stored data, etc.

도 2는 본 발명의 객체 맥락화 데이터 저장 시스템이 객체를 맥락화하는 개념을 도시한 것이다. 도 2를 참조하여 객체 맥락화의 개념을 설명하면, 객체 맥락화 데이터 저장 시스템(10)은 하나 이상의 CCTV 영상 등의 영상 파일을 입력 받아 처리할 수 있다. 2 illustrates the concept of contextualizing an object in the object contextualization data storage system of the present invention. Referring to the concept of object contextualization with reference to FIG. 2 , the object contextualization data storage system 10 may receive and process one or more image files such as CCTV images.

도 2의 예에서 4개의 영상 파일이 입력된다. 4개의 영상 파일은 관련이 있는 영상 파일일 수 있다. 예를 들어, 4개의 영상 파일은 하나의 CCTV 카메라에서 연속적으로 촬영되어 저장된 영상 파일이거나 같은 지역에 위치하는 4개의 CCTV 카메라에서 유사한 시간대에 촬영되어 저장된 영상 파일일 수 있다. In the example of FIG. 2 , four image files are input. The four video files may be related video files. For example, the four video files may be video files that are continuously photographed and stored by one CCTV camera or video files that are photographed and stored by four CCTV cameras located in the same area at similar times.

도 2의 예에서 객체 맥락화 데이터 저장 시스템(10)은 입력된 4개의 영상 파일을 입력된 순서대로 나열한 후 전체 영상 파일들에 대하여 새로운 프레임 식별자(ID)를 할당(FRAME1부터 FRAMEn)하여 하나의 입력 영상 데이터를 생성한다. 객체 맥락화 데이터 저장 시스템(10)은 입력 영상 데이터의 전체 프레임에 대하여 프레임 별로 객체를 검출한다. 프레임 별로 검출된 객체 정보(객체의 종류 및 객체의 속성 정보)를 구조화하여 프레임 맥락화 데이터를 생성한다. 도 2의 예에서 프레임 맥락화 데이터는 Object로 속성은 Item으로 구조화되었다. 객체 맥락화 데이터 저장 시스템(10)은 프레임 별로 구조화된 객체 맥락화 데이터를 결합하여 입력 영상 데이터에 대한 객체 맥락화 데이터를 생성한다.In the example of FIG. 2 , the object contextualization data storage system 10 arranges the four input image files in the input order and then allocates new frame identifiers (IDs) to all the image files (FRAME 1 to FRAME n ) to form one of the input image data. The object contextualization data storage system 10 detects objects frame by frame for all frames of input image data. Frame contextualization data is created by structuring the detected object information (object type and object attribute information) for each frame. In the example of FIG. 2, the frame contextualization data is structured as Object and the attribute as Item. The object contextualization data storage system 10 combines object contextualization data structured for each frame to generate object contextualization data for input image data.

또한, 객체 맥락화 데이터 저장 시스템(10)은 입력 영상 데이터의 프레임에 대하여 설정된 클립 구성 정보에 따라 논리적 클립을 구성하고, 구성 결과를 객체 맥락화 데이터에 추가한 후 이를 텍스트 파일 형태로 저장한다. 도 2의 예에 총 3개의 논리적 클립이 구성되어 있으며, CLIP1은 FILE1의 일부 프레임이 지정되었고, CLIP2는 FILE1과 FILE2에 걸쳐 연속적으로 지정되었고, CLIP3은 FILE3과 FILE4에 분리되어 지정되어 있다.In addition, the object contextualization data storage system 10 configures a logical clip according to clip configuration information set for a frame of input image data, adds the configuration result to object contextualization data, and then stores it in the form of a text file. In the example of FIG. 2, a total of three logical clips are configured, CLIP 1 is designated as a part of the frame of FILE 1 , CLIP 2 is consecutively designated across FILE 1 and FILE 2 , and CLIP 3 is designated as FILE 3 and FILE 4 are separately designated.

입력 영상 처리부(100)와, 객체 검출부(110)와, 프레임 맥락화부(120)와, 객체 맥락화부(130)와, 클립 지정부(140)와, 맥락화 저장부(150)는 적어도 그 기능의 일부가 메모리에 저장되어 프로세서에서 실행되는 컴퓨터 프로그램 명령어들로 구현된다.The input image processing unit 100, the object detection unit 110, the frame contextualization unit 120, the object contextualization unit 130, the clip designation unit 140, and the contextualization storage unit 150 have at least one of their functions. It is implemented as computer program instructions, some of which are stored in memory and executed on a processor.

입력 영상 처리부(100)는 입력된 하나 이상의 영상 파일 각각의 프레임에 대하여 연속된 프레임 식별자를 할당하여 입력 영상 데이터를 생성한다. 입력 영상 처리부(100)는 입력된 하나 이상의 영상 파일을 입력된 순서대로 나열한 후 전체 영상 파일들에 대하여 새로운 프레임 식별자(ID)를 순차적으로 할당하여 입력된 하나 이상의 영상 파일을 하나의 입력 영상 데이터로 생성한다.The input image processing unit 100 generates input image data by assigning consecutive frame identifiers to each frame of one or more input image files. The input image processing unit 100 arranges one or more input image files in the input order and then sequentially assigns new frame identifiers (IDs) to all the image files to convert the one or more input image files into one input image data. create

객체 검출부(110)는 영상에서 객체를 검출하도록 학습된 딥러닝 모델을 사용하여 입력 영상 데이터에서 프레임 별로 객체를 검출한다. 객체 검출부(110)는 매 프레임마다 복수의 객체를 한번에 검출한다. 객체 검출부(110)가 사용하는 딥러닝 모델은 COCO 데이터셋과 같이 공지된 데이터 세트를 사용하여 학습될 수 있다.The object detector 110 detects objects frame by frame from the input image data using a deep learning model learned to detect objects in the image. The object detection unit 110 detects a plurality of objects at once in every frame. The deep learning model used by the object detection unit 110 may be trained using a known data set such as the COCO data set.

객체 검출부(110)는 검출된 객체를 분류하여 객체의 종류를 예측하고 객체의 영상 내에서의 위치 정보를 경계상자를 이용하여 예측한다. The object detector 110 classifies the detected object, predicts the type of the object, and predicts the location information of the object in the image using a bounding box.

또한, 객체 검출부(110)는 프레임 별로 분류된 객체의 종류와 해당 객체의 영상 내에서의 위치 정보를 포함하는 객체 속성 정보를 생성한다. 객체 검출부(110)가 생성하는 객체 속성 정보는 객체의 위치 정보 즉, 경계상자 좌표로부터 산출되는 객체 크기 정보, 객체의 분류 정확도(confidence), 객체의 색상(예, 객체가 자동차인 경우 자동차의 색) 등의 정보를 포함할 수 있다. 일 예로 검출된 객체가 사람이고 성별이 인식되는 경우 객체 검출부(110)는 사람의 성별을 객체 속성으로 추가하여 생성할 수 있다. 객체 검출부(110)가 생성하는 객체 속성은 앞서 언급한 것으로 제한되지 않으며 필요에 따라 영상에서 인식할 수 있는 속성에 따라 다양하게 추가될 수 있다.In addition, the object detection unit 110 generates object property information including the type of object classified for each frame and the location information of the corresponding object in the image. The object attribute information generated by the object detection unit 110 includes object location information, that is, object size information calculated from bounding box coordinates, object classification accuracy, object color (eg, car color if the object is a car). ) may include information such as For example, when the detected object is a human and the gender is recognized, the object detection unit 110 may create the object by adding the human gender as an object attribute. The object properties generated by the object detection unit 110 are not limited to those mentioned above and may be added in various ways according to properties recognizable from the image as needed.

객체 검출부(110)가 객체 검출을 위하여 사용하는 딥러닝 모델은 선택 가능하도록 구성된다. 객체 맥락화 데이터 저장 시스템(10)이 제공하는 사용자 인터페이스를 통해 사용자가 객체 검출 딥러닝 모델을 선택할 수 있다. 객체 맥락화 데이터 저장 시스템(10)은 사용자 인터페이스를 제공하는 프론트 엔드부(미도시)를 더 포함할 수 있다. 다만, 해당 딥러닝 모델은 객체 검출부(110)가 객체 검출 결과를 이용할 수 있도록 미리 약속된 포맷으로 결과를 출력할 수 있어야 한다.The deep learning model used by the object detector 110 to detect objects is configured to be selectable. A user may select an object detection deep learning model through a user interface provided by the object contextualization data storage system 10 . The object contextualization data storage system 10 may further include a front end unit (not shown) providing a user interface. However, the corresponding deep learning model must be able to output a result in a prearranged format so that the object detection unit 110 can use the object detection result.

객체 검출부(110)가 객체를 검출하는데 사용되는 딥러닝 모델은 단일 단계 방식 알고리즘을 사용하는 딥러닝 모델일 수 있다. 단일 단계 방식을 사용하는 딥러닝 모델은 YOLO 모델, SSD 모델, RetinaNet 모델 등이 있으며, 특히 YOLO 모델을 사용하는 것이 바람직하다. 단일 단계 방식 알고리즘은 속도 측면에서는 이단계 방식 알고리즘보다 좋은 성능을 내는 것으로 알려져 있다.A deep learning model used by the object detector 110 to detect an object may be a deep learning model using a single-step algorithm. Deep learning models that use a single-step method include YOLO models, SSD models, and RetinaNet models, and it is particularly desirable to use YOLO models. The single-pass algorithm is known to outperform the two-pass algorithm in terms of speed.

YOLO(You Only Look Once) 모델은 객체 검출 분야에서 가장 대중적으로 사용되는 실시간 객체 검출 모델로 공지된 기술로 간략하게 설명한다. YOLO 모델은 카메라 영상에서 각 개체의 절대적인 크기와 위치를 좌표의 형태로 추출한다. YOLO 모델은 카메라 영상에서 2차원 이미지 데이터를 입력 받아 컨볼루션 계층(Convolution Layer)을 이용하여 객체의 절대적인 크기와 위치를 좌표의 형태로 추출하고 객체의 종류를 판별할 수 있다. 일반적으로 YOLO는 다수의 컨볼루션 계층과 완전 연결층(Fully Connected Layer)으로 구성되어 이미지의 특징을 추출한다. 완전 연결층은 추출된 결과로부터 객체의 위치와 종류를 판별한다. A You Only Look Once (YOLO) model is a real-time object detection model that is most popularly used in the field of object detection and will be briefly described as a known technique. The YOLO model extracts the absolute size and position of each object in the form of coordinates from the camera image. The YOLO model receives 2D image data from camera images, uses a convolution layer to extract the absolute size and position of an object in the form of coordinates, and can determine the type of object. In general, YOLO consists of multiple convolutional layers and fully connected layers to extract features of an image. The fully connected layer determines the location and type of an object from the extracted results.

SSD(Single Shot Multibox Detector) 모델 또한 공지된 기술로 간략하게 설명한다. SSD 모델은 VGG-16을 백본으로 사용하되 일부 컨볼루션 계층만 사용하여 특징을 추출하며 추출된 특징은 여러 보조 검출기들을 거치며 객체 검출을 수행한다. YOLO는 최종 특징맵에만 경계상자와 분류 정보가 있는데 비해 SSD는 여러 히든 레이어에 정보가 분산되어 있다. SSD는 크기가 다른 특징맵에 해당하는 레이어가 6개 있으며 큰 특징맵은 작은 객체를 검출하고 작은 특징맵은 큰 객체를 검출할 수 있다. SSD는 한 개의 객체에 대하여 다양한 크기의 경계상자를 이용하여 예측하는 알고리즘이다.A single shot multibox detector (SSD) model is also briefly described as a known technique. The SSD model uses VGG-16 as a backbone, but extracts features using only some convolution layers, and the extracted features perform object detection by passing through several auxiliary detectors. YOLO has bounding box and classification information only in the final feature map, whereas SSD has information distributed in several hidden layers. The SSD has 6 layers corresponding to feature maps of different sizes. The large feature map can detect small objects and the small feature map can detect large objects. SSD is an algorithm that predicts a single object using bounding boxes of various sizes.

RetinaNet 모델 또한 공지된 기술로 간략하게 설명한다. RetinaNet 모델은 크로스 엔트로피 손실함수에서 변형된 초점 손실(Focal loss) 함수를 사용한다. RetinaNet 모델은 ResNet을 백본으로 사용하며, FPN(Feature Pyramid Networks)을 적용한다. 백본 네트워크인 ResNet은 입력된 전체 이미지에 대해서 특징맵을 계산하는 역할을 수행한다. RetinaNet 모델은 두 개의 서브네트워크를 포함하며, 첫번째 서브네트워크는 ResNet의 결과에서 객체 분류를 수행하며, 두번째 서브네트워크는 경계상자 회귀(bounding box regression)를 수행한다.The RetinaNet model is also briefly described as a well-known technique. The RetinaNet model uses a focal loss function transformed from the cross entropy loss function. The RetinaNet model uses ResNet as a backbone and applies FPN (Feature Pyramid Networks). ResNet, a backbone network, plays a role in calculating feature maps for all input images. The RetinaNet model includes two subnetworks, the first subnetwork performs object classification on the results of ResNet, and the second subnetwork performs bounding box regression.

객체 검출부(110)가 객체를 검출하는데 사용되는 딥러닝 모델은 이단계 방식 알고리즘을 사용하는 딥러닝 모델일 수 있다. 이단계 방식을 사용하는 딥러닝 모델은 Faster R-CNN 모델, R-FCN 모델 등이 있으며, 특히 Faster R-CNN 모델을 사용하는 것이 바람직하다. 이단계 방식 알고리즘은 정확도 측면에서 단일 단계 방식 알고리즘보다 좋은 성능을 내는 것으로 알려져 있다.A deep learning model used by the object detector 110 to detect an object may be a deep learning model using a two-step algorithm. Deep learning models using the two-step method include the Faster R-CNN model and the R-FCN model, and it is particularly desirable to use the Faster R-CNN model. Two-pass algorithms are known to outperform single-pass algorithms in terms of accuracy.

Faster R-CNN 모델, R-FCN 모델은 공지된 기술로 간단하게 설명한다.The Faster R-CNN model and the R-FCN model are simply described as known techniques.

Faster R-CNN 모델은 후보 영역 추출을 위해 사용되는 선택적 검색(Selective Search) 알고리즘으로 인해 발생하는 병목현상을 해결하고자 후보 영역 추출 작업을 수행하는 RPN(Region Proposal Network)을 추가한 구조이다. Faster R-CNN은 RPN과 Fast R-CNN이 합쳐진 모델이다. Faster R-CNN 모델은 원본 이미지를 사전 학습된 CNN 모델에 입력하여 특징 맵을 얻고, 특징 맵을 RPN에 전달되어 적절한 후보 영역을 산출(region proposals)한다. 후보 영역 산출 과정과 CNN 모델을 통해 얻은 특징 맵에 대하여 RoI 풀링(Pooling)을 수행하여 고정된 크기의 특징 맵을 얻은 후 Fast R-CNN 모델에 고정된 크기의 특징 맵을 입력하여 객체 분류와 경계상자 예측을 수행한다. The Faster R-CNN model is a structure in which RPN (Region Proposal Network), which performs candidate region extraction, is added to solve the bottleneck caused by the selective search algorithm used for candidate region extraction. Faster R-CNN is a combination of RPN and Fast R-CNN. The Faster R-CNN model obtains a feature map by inputting an original image to a pre-trained CNN model, and passes the feature map to RPN to generate appropriate candidate regions (region proposals). After obtaining a feature map with a fixed size by performing RoI pooling on the feature map obtained through the candidate region calculation process and the CNN model, object classification and boundary are input to the Fast R-CNN model. Perform box prediction.

R-FCN 모델은 RPN을 통해 추출한 관심 영역(RoI)끼리 연산을 공유하며 위치에 대한 정보를 포함하는 특징 맵을 사용하는 구조를 갖는다. R-FCN 모델은 Faster R-CNN 모델에서 RPN 이후 단계의 서브 네트워크를 FCN(Fully Convolutional Network)으로 수정하여 사용한다. The R-FCN model has a structure in which operations are shared between regions of interest (RoIs) extracted through RPN and feature maps including location information are used. The R-FCN model is used by modifying the subnetwork at the post-RPN stage in the Faster R-CNN model into a Fully Convolutional Network (FCN).

발명의 추가적 양상에 따르면, 객체 검출부(110)가 생성하는 객체 속성 정보는 해당 프레임에서의 객체 이미지를 더 포함할 수 있다. 객체 검출부(110)에서 검출된 객체는 경계상자로 표시된다. 객체 검출부(110)는 경계상자 내의 객체 이미지를 추출하여 객체 속성 정보에 포함시킬 수 있다. 객체 검출부(110)가 객체 속성 정보에 포함시킨 객체 이미지는 별도의 저장 위치에 저장된 후 저장 경로가 객체 속성 정보에 포함될 수 있고, 객체 이미지가 텍스트 형태로 인코딩되어 객체 속성 정보에 포함될 수 있다. 객체 속성 정보에 포함된 객체 이미지는 후술할 객체 맥락화 데이터에 포함된다.According to an additional aspect of the present invention, the object property information generated by the object detector 110 may further include an object image in a corresponding frame. An object detected by the object detection unit 110 is displayed as a bounding box. The object detection unit 110 may extract an object image within the bounding box and include it in object property information. After the object image included in the object property information by the object detector 110 is stored in a separate storage location, the storage path may be included in the object property information, and the object image may be encoded in text form and included in the object property information. The object image included in object attribute information is included in object contextualization data to be described later.

객체 맥락화 데이터에 포함된 객체 이미지는 영상 검색 시스템이 객체 맥락화 데이터를 이용하여 텍스트 기반으로 영상을 검색하였으나 검색된 영상의 보존기한이 경과하여 영상을 재생할 수 없을 때 객체 맥락화 데이터에 포함된 객체 이미지들을 객체 위치 정보를 고려하여 표시하여 배경 부분이 제거된 프레임 이미지를 복원하고, 복원된 프레임들을 모아 배경이 제거된 영상을 재생하는데 이용될 수 있다.The object images included in the object contextualization data are the object images included in the object contextualization data when the image retrieval system searches text-based images using the object contextualization data, but cannot play the images because the retention period of the searched images has elapsed. It can be used to restore a frame image from which the background part is removed by displaying it in consideration of location information, and collect the restored frames to reproduce an image from which the background part has been removed.

프레임 맥락화부(120)는 객체가 검출된 프레임 별로 검출된 프레임 정보, 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 프레임 맥락화 데이터를 생성한다. 프레임 맥락화부(120)는 영상 프레임 데이터에서 검출되어 분류된 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 정보를 구조화하여 프레임 별로 프레임 맥락화 데이터를 생성한다. The frame contextualization unit 120 generates frame contextualization data including detected frame information for each frame in which an object is detected, the type and number of objects, and object property information of each object. The frame contextualization unit 120 creates frame contextualization data for each frame by structuring information including the type and number of detected and classified objects in the image frame data and object property information of each object.

도 3은 본 발명의 객체 맥락화 데이터 저장 시스템이 하나의 프레임에 대하여 구조화한 프레임 맥락화의 예를 도시한 것이다. 도 3에 도시된 예는 10번 프레임에 대한 프레임 맥락화 데이터를 가정한 것으로, 해당 프레임 맥락화 데이터는 프레임 식별자(ID)와, 프레임에서 검출된 객체의 종류 및 그 수(DetectedObjsDict)와 개별 객체의 객체 속성 정보(object_#)를 포함하여 구조화하고 있다. 도 3의 예에서 입력 영상 데이터 내에서 프레임을 구분하는 프레임 식별자는 10이며 해당 프레임에서 검출된 객체의 종류는 사람(person)과 자동차(car)이며 사람은 13명 등장하고 자동차는 1대 등장하는 것으로 DetectedObjsDict 항목에 구조화되어 있고, 해당 프레임 맥락화 데이터에 포함된 객체 각각은 object_1 항목부터 object_14 항목까지 구조화되어 있으며, object_8 항목으로 구조화된 객체는 자동차로 분류된 객체이며 객체 속성 정보로 분류 정확도(confidence)와 객체 위치 정보(location)가 포함되어 프레임 맥락화 데이터로 생성되어 있다. 도 3에 도시된 예는 하나의 예시로 객체 속성 정보는 객체의 종류에 따라 다양하게 추가될 수 있다.3 illustrates an example of frame contextualization structured for one frame by the object contextualization data storage system of the present invention. The example shown in FIG. 3 assumes frame contextualization data for frame 10, and the frame contextualization data includes the frame identifier (ID), the type and number of objects detected in the frame (DetectedObjsDict), and the objects of individual objects. It is structured including attribute information (object_#). In the example of FIG. 3, the frame identifier for distinguishing frames in the input image data is 10, and the types of objects detected in the frame are person and car, and 13 people and 1 car appear. It is structured in the DetectedObjsDict item, and each object included in the frame contextualization data is structured from object_1 item to object_14 item, and the object structured in object_8 item is an object classified as a car, and classification accuracy (confidence) as object property information. and object location information (location) are included to create frame contextualization data. The example shown in FIG. 3 is one example, and object property information may be added in various ways according to the type of object.

발명의 양상에 따라서는 프레임 맥락화부(120)가 설정된 프레임 간격으로 샘플링된 프레임에 대하여 프레임 맥락화 데이터를 생성할 수 있다. 일 예로, 설정된 프레임 간격이 5이면, 프레임 맥락화부(120)는 5번째 프레임, 10번째 프레임, 15번째 프레임 등 설정된 프레임 간격에 해당하는 프레임 들에 대해서만 프레임 맥락화 데이터를 생성할 수 있다.According to an aspect of the invention, the frame contextualization unit 120 may generate frame contextualization data for frames sampled at set frame intervals. For example, if the set frame interval is 5, the frame contextualization unit 120 may generate frame contextualization data only for frames corresponding to the set frame interval, such as the 5th frame, the 10th frame, and the 15th frame.

발명의 또 다른 양상에 따르면, 프레임 맥락화부(120)는 현재 프레임에 대하여 검출된 객체의 종류와 수가 이전에 프레임 맥락화 데이터를 생성했던 프레임에 대하여 검출된 객체의 종류와 수와 동일한 경우에는 현재 프레임에 대하여는 프레임 맥락화 데이터를 생성하지 않을 수 있다. 즉, 프레임 맥락화부(120)는 현재 프레임에 대하여 검출된 객체의 종류와 수가 이전 프레임에 대하여 검출된 객체의 종류와 수와 달라지는 경우에 현재 프레임에 대하여 프레임 맥락화 데이터를 생성할 수 있다.According to another aspect of the present invention, the frame contextualization unit 120 may, if the type and number of objects detected for the current frame are the same as the types and number of objects detected for frames in which frame contextualization data was previously generated, the current frame. Frame contextualization data may not be generated for . That is, the frame contextualization unit 120 may generate frame contextualization data for the current frame when the type and number of objects detected for the current frame are different from the types and number of objects detected for the previous frame.

객체 맥락화부(130)는 입력 영상 데이터에 대하여 검출된 객체들의 리스트와 프레임 별 상기 프레임 맥락화 데이터를 포함하는 객체 맥락화 데이터를 생성한다. 객체 맥락화부(130)는 입력 영상 데이터의 적어도 어느 하나의 프레임에서 검출된 모든 객체들의 리스트를 생성하여 객체가 검출된 프레임들의 프레임 맥락화 데이터들과 함께 결합하여 구조화한다.The object contextualization unit 130 generates object contextualization data including a list of objects detected with respect to the input image data and the frame contextualization data for each frame. The object contextualization unit 130 generates a list of all objects detected in at least one frame of the input image data, combines them with frame contextualization data of frames in which objects are detected, and structures the list.

도 4는 본 발명의 객체 맥락화 데이터 저장 시스템이 하나 이상의 영상 파일에 대하여 객체 맥락화를 수행한 예를 도시한 것으로, 도 5에 도시된 예는 입력 영상 데이터에 대하여 객체 맥락화가 수행된 결과로 객체 맥락화 데이터의 구조화 예이다. 객체 맥락화 데이터는 해당 영상에서 검출된 객체들의 리스트 정보(obj_to_detect)와 객체가 검출된 프레임 별 프레임 맥락화 데이터를 포함하고 있다.4 shows an example in which the object contextualization data storage system of the present invention performs object contextualization on one or more image files. The example shown in FIG. 5 shows object contextualization as a result of performing object contextualization on input image data. This is an example of data structure. The object contextualization data includes list information (obj_to_detect) of objects detected in a corresponding image and frame contextualization data for each frame in which an object is detected.

클립 지정부(140)는 설정된 클립 구성 정보에 기초하여 입력 영상 데이터에 대하여 논리적 클립을 구성하여 해당 정보를 객체 맥락화 데이터에 추가한다. 클립 지정부(140)는 입력 영상 데이터의 전체 프레임 또는 일부 프레임에 논리적 클립을 구성하고, 논리적 클립으로 구성된 프레임의 객체 맥락화 데이터에 논리적 클립 구성 정보 즉, 논리적 클립 식별자를 추가한다. 하나의 논리적 클립에 속하는 프레임은 다른 논리적 클립에도 속할 수 있다. 즉, 하나의 프레임은 다수의 논리적 클립에 속할 수 있다. The clip designator 140 constructs a logical clip for the input image data based on set clip configuration information and adds the corresponding information to the object contextualization data. The clip designator 140 constructs a logical clip in all or some frames of the input image data, and adds logical clip composition information, that is, a logical clip identifier, to object contextualization data of the frame composed of the logical clips. Frames belonging to one logical clip may also belong to another logical clip. That is, one frame may belong to multiple logical clips.

클립 구성 정보는 논리적 클립을 구성하는 프레임 수를 포함하는 정보일 수 있다. 이 경우 클립 지정부(140)는 입력 영상 데이터의 전체 프레임을 대상으로 클립 구성 정보에 포함된 프레임 수에 해당하는 연속된 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가한다. 예를 들어, 클립 구성 정보에 포함된 프레임 수가 20이면, 입력 영상 데이터의 전체 프레임에 대하여 20개 프레임 마다 분할하여 논리적 클립을 생성하고, 모든 프레임의 객체 맥락화 데이터에 해당 프레임이 속하는 논리적 클립 식별자를 추가한다.Clip composition information may be information including the number of frames constituting a logical clip. In this case, the clip designator 140 organizes consecutive frames corresponding to the number of frames included in the clip composition information into logical clips for all frames of the input image data, and adds them to the object contextualization data. For example, if the number of frames included in the clip configuration information is 20, a logical clip is created by dividing all frames of the input image data every 20 frames, and a logical clip identifier to which the corresponding frame belongs is assigned to the object contextualization data of all frames. Add.

또한, 클립 구성 정보는 시작 프레임 식별자와 마지막 프레임 식별자로 구분되는 논리적 클립 리스트를 포함하는 정보일 수 있다. 이 경우 클립 지정부(140)는 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가한다. 예를 들어, 클립 구성 정보에 포함된 논리적 클립 리스트가 클립1(20, 40), 클립2(70, 100)이면, 클립1은 프레임 20번부터 40번까지이며, 클립2는 프레임 70번부터 100번까지로 구성되며 해당 논리적 클립들에 포함되는 프레임의 객체 맥락화 데이터에 해당 프레임이 속하는 논리적 클립 식별자를 추가한다.Also, the clip configuration information may be information including a logical clip list divided into a start frame identifier and an end frame identifier. In this case, the clip designator 140 configures frames corresponding to the logical clip list included in the clip configuration information into logical clips and adds them to the object contextualization data. For example, if the logical clip list included in the clip configuration information is clip 1 (20, 40) and clip 2 (70, 100), clip 1 is from frame 20 to 40, and clip 2 is from frame 70. It consists of up to number 100 and adds a logical clip identifier to which the corresponding frame belongs to the object contextualization data of the frame included in the corresponding logical clips.

클립 구성 정보에 포함되는 논리적 클립 리스트는 사용자가 임의로 설정하는 것으로 관련 있는 영상 프레임들이 논리적 클립으로 지정되는 것이 바람직하다. 논리적 클립은 영상을 분석하여 관련성 있는 프레임들을 구분하는 별도의 딥러닝 모델이나 영상 분석 도구를 사용하여 생성할 수도 있다.The logical clip list included in the clip composition information is arbitrarily set by the user, and it is preferable that related video frames are designated as logical clips. Logical clips can also be created using separate deep learning models or video analysis tools that analyze the video to identify relevant frames.

또한, 클립 구성 정보는 시작 시간과 종료 시간으로 구분되는 논리적 클립 리스트를 포함하는 정보일 수 있다. 본 발명의 객체 맥락화 데이터 저장 시스템(10)에 입력되는 영상 파일은 영상 촬영 시간 정보를 포함할 수 있다. 이 경우 클립 지정부(140)는 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 영상 촬영 시간의 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가한다. 예를 들어, 클립 구성 정보에 포함된 논리적 클립 리스트가 클립1(시작 시간1, 종료 시간1), 클립2(시작 시간2, 종료 시간2)이면, 클립1은 촬영된 시간이 시작 시간1과 종료 시간1 사이에 해당하는 프레임들로 구성되고 클립2는 촬영된 시간이 시작 시간2와 종료 시간2 사이에 해당하는 프레임들로 구성되며 해당 논리적 클립들에 포함되는 프레임의 객체 맥락화 데이터에 해당 프레임이 속하는 논리적 클립 식별자를 추가한다.Also, the clip configuration information may be information including a logical clip list divided into a start time and an end time. An image file input to the object contextualization data storage system 10 of the present invention may include image capture time information. In this case, the clip assigning unit 140 organizes frames of video capture time corresponding to the logical clip list included in the clip composition information into logical clips and adds them to the object contextualization data. For example, if the logical clip list included in the clip composition information is clip 1 (start time 1, end time 1) and clip 2 (start time 2, end time 2), then clip 1 has the start time 1 and end time It is composed of frames corresponding to end time 1 and clip 2 is composed of frames whose captured times are between start time 2 and end time 2, and object contextualization data of frames included in corresponding logical clips corresponds to the frame. Adds the logical clip identifier to which it belongs.

도 5는 본 발명의 객체 맥락화 데이터 저장 시스템의 논리적 클립 설정의 예를 도시한 것이다. 5 shows an example of logical clip setting in the object contextualization data storage system of the present invention.

도 5에 도시된 (a)예는 클립 구성 정보가 프레임 수를 포함하는 경우로 해당 프레임 수만큼 분할하여 전체 프레임에 대하여 논리적 클립을 CLIP1부터 CLIPm까지 생성한 예이고, (b)예는 클립 구성 정보가 시작 프레임 식별자와 마지막 프레임 식별자로 구분되는 4개의 논리적 클립 리스트를 포함하는 경우로 지정된 프레임에 대하여 CLIP1부터 CLIP4까지 생성한 예이고, (c)예는 클립 구성 정보는 시작 시간과 종료 시간으로 구분되는 논리적 클립 리스트를 포함하는 경우로 각 영상 파일에서 프레임의 촬영된 시간이 클립 구성 정보의 시작 시간과 종료 시간 사이에 속하는 프레임들을 논리적 클립 CLIP1로 구성한 예(논리적 클립 리스트가 하나의 논리적 클립만 포함한 예이다)이다.(a) shown in FIG. 5 is an example in which the clip composition information includes the number of frames, and logical clips are created from CLIP 1 to CLIP m for all frames by dividing them by the number of frames, and example (b) is This is an example in which CLIP 1 to CLIP 4 are created for the designated frame in the case where the clip configuration information includes 4 logical clip lists divided by the start frame identifier and the last frame identifier, and (c) example shows that the clip configuration information is the start time This is a case of including a logical clip list divided by and an end time, and an example in which frames in which the captured time of a frame in each video file falls between the start time and end time of the clip composition information are configured as logical clip CLIP 1 (the logical clip list is example with only one logical clip).

맥락화 저장부(150)는 입력 영상 데이터에 대한 객체 맥락화 데이터를 텍스트 파일로 빅데이터 저장소에 저장한다. 맥락화 저장부(150)는 영상에 대하여 생성된 객체 맥락화 데이터를 저장한 텍스트 파일을 장치 내부의 빅데이터 저장소에 저장하거나 클라우드 기반의 빅데이터 저장소에 전송하여 저장한다. 빅데이터 저장소는 일 예로 하둡 분산 파일 시스템을 이용하는 저장소이거나 NoSQL(Not-Only SQL)을 이용하는 저장소 일 수 있다.The contextualization storage unit 150 stores object contextualization data of the input image data as a text file in a big data storage. The contextualization storage unit 150 stores a text file in which object contextualization data generated for an image is stored in a big data storage inside the device or transmitted to and stored in a cloud-based big data storage. The big data storage may be, for example, a storage using a Hadoop distributed file system or a storage using NoSQL (Not-Only SQL).

발명의 양상에 따라서는 맥락화 저장부(150)는 검출된 객체들의 리스트와 프레임 별 객체 맥락화 데이터를 JSON 파일 형태의 텍스트 파일로 저장할 수 있다. JSON 파일은 자바스크립트 오브젝트 표기법으로 클라이언트와 서버간 데이터를 교환을 손쉽게 할 수 있는 장점이 있는 포맷이며, 널리 사용되고 있는 포맷이므로 상세한 설명은 생략한다.According to an aspect of the invention, the contextualization storage unit 150 may store a list of detected objects and object contextualization data for each frame as a text file in the form of a JSON file. A JSON file is a format that has the advantage of easily exchanging data between a client and a server using JavaScript object notation, and since it is a widely used format, a detailed description will be omitted.

발명의 양상에 따라서는 맥락화 저장부(150)는 검출된 객체들의 리스트와 프레임 별 객체 맥락화 데이터를 XML 파일 형태의 텍스트 파일로 저장할 수 있다. XML은 eXtensible Markup Language의 약어로 태그를 이용하여 데이터의 구조를 기술하는 언어로 자유로운 태그 정의 즉, 태그 확장이 가능하다. XML 파일도 데이터 교환에 널리 사용되고 있는 포맷이므로 상세한 설명은 생략한다.According to an aspect of the invention, the contextualization storage unit 150 may store a list of detected objects and object contextualization data for each frame as a text file in the form of an XML file. XML is an abbreviation of eXtensible Markup Language. It is a language that describes the structure of data using tags, and free tag definition, that is, tag extension is possible. Since the XML file is also a widely used format for data exchange, a detailed description thereof will be omitted.

발명의 추가적 양상에 따르면, 맥락화 저장부(150)는 추가적으로 객체 맥락화 데이터를 영상 파일 별로 각각 구분하여 텍스트 파일 형태로 저장할 수 있다. 즉, 도 2의 예에서 맥락화 저장부(150)는 FILE1, FILE2, FILE3, FILE4에 대하여 각각의 영상 파일에 속하는 프레임에 대한 객체 맥락화 데이터를 추가적으로 저장할 수 있다.According to an additional aspect of the present invention, the contextualization storage unit 150 may additionally classify object contextualization data for each image file and store them in the form of a text file. That is, in the example of FIG. 2 , the contextualization storage unit 150 may additionally store object contextualization data for frames belonging to respective image files for FILE 1 , FILE 2 , FILE 3 , and FILE 4 .

발명의 추가적 양상에 따르면, 맥락화 저장부(150)는 추가적으로 객체 맥락화 데이터를 논리적 클립 별로 각각 구분하여 텍스트 파일 형태로 저장할 수 있다. 즉, 도 2의 예에서 맥락화 저장부(150)는 CLIP1, CLIP2, CLIP3 에 대하여 각각의 논리적 클립에 속하는 프레임에 대한 객체 맥락화 데이터를 추가적으로 저장할 수 있다.According to an additional aspect of the present invention, the contextualization storage unit 150 may additionally classify object contextualization data for each logical clip and store them in the form of a text file. That is, in the example of FIG. 2 , the contextualization storage unit 150 may additionally store object contextualization data for frames belonging to respective logical clips for CLIP 1 , CLIP 2 , and CLIP 3 .

본 발명의 일 실시 예에 따르는 객체 맥락화 데이터 저장 시스템(10)이 객체를 맥락화한 맥락화 데이터를 저장하는 방법은 입력 영상 처리 단계와, 객체 검출 단계와, 객체 속성 정보 생성 단계와, 프레임 맥락화 단계와, 객체 맥락화 단계와, 클립 지정 단계와, 맥락화 데이터 저장 단계를 포함한다.A method of storing contextualization data in which an object is contextualized by the object contextualization data storage system 10 according to an embodiment of the present invention includes processing an input image, detecting an object, generating object attribute information, and contextualizing a frame. , object contextualization step, clip designation step, and contextualization data storage step.

본 발명의 객체 맥락화 데이터 저장 시스템(10)이 객체 맥락화 데이터 저장 방법을 수행하는 각 단계는 적어도 그 기능의 일부가 메모리에 저장되어 프로세서에서 실행되는 컴퓨터 프로그램 명령어들로 구현된다.Each step in which the object contextualization data storage system 10 of the present invention performs the object contextualization data storage method is implemented as computer program instructions, at least a part of which is stored in a memory and executed in a processor.

입력 영상 처리 단계는 객체 맥락화 데이터 저장 시스템(10)이 입력된 하나 이상의 영상 파일 각각의 프레임에 대하여 연속된 프레임 식별자를 할당하여 입력 영상 데이터를 생성하는 단계이다. 객체 맥락화 데이터 저장 시스템(10)은 입력 영상 처리 단계에서 입력된 하나 이상의 영상 파일을 입력된 순서대로 나열한 후 전체 영상 파일들에 대하여 새로운 프레임 식별자(ID)를 순차적으로 할당하여 입력된 하나 이상의 영상 파일을 하나의 입력 영상 데이터로 생성한다.The input image processing step is a step in which the object contextualization data storage system 10 generates input image data by assigning consecutive frame identifiers to each frame of one or more input image files. The object contextualization data storage system 10 arranges one or more image files inputted in the input image processing step in the input order, and then sequentially allocates new frame identifiers (IDs) to all image files to one or more input image files. is generated as one input image data.

객체 검출 단계는 객체 맥락화 데이터 저장 시스템(10)이 영상에서 객체를 검출하도록 학습된 딥러닝 모델을 사용하여 입력된 영상에서 프레임 별로 객체를 검출하는 단계이다. 객체 맥락화 데이터 저장 시스템(10)은 객체 검출 단계에서 매 프레임마다 복수의 객체를 한번에 검출한다. 객체 검출 단계에서 사용하는 딥러닝 모델은 COCO 데이터셋과 같이 공지된 데이터 세트를 사용하여 학습될 수 있다.The object detection step is a step in which the object contextualization data storage system 10 detects an object frame by frame from an input image using a deep learning model learned to detect an object from the image. The object contextualization data storage system 10 detects a plurality of objects at once in every frame in the object detection step. The deep learning model used in the object detection step may be trained using a known data set such as the COCO data set.

객체 맥락화 데이터 저장 시스템(10)은 객체 검출 단계에서 검출된 객체를 분류하여 객체의 종류를 예측하고 객체의 영상 내에서의 위치 정보를 경계상자를 이용하여 예측한다.The object contextualization data storage system 10 classifies the object detected in the object detection step, predicts the type of the object, and predicts the location information of the object in the image using a bounding box.

객체 검출 단계에서 객체 검출을 위하여 사용되는 딥러닝 모델은 선택 가능하도록 구성된다. 객체 맥락화 데이터 저장 시스템(10)이 제공하는 사용자 인터페이스를 통해 사용자가 객체 검출 딥러닝 모델을 선택할 수 있다. 다만, 해당 딥러닝 모델은 객체 맥락화 데이터 저장 시스템(10)이 객체 검출 단계에서 객체 검출 결과를 이용할 수 있도록 미리 약속된 포맷으로 결과를 출력할 수 있어야 한다.In the object detection step, a deep learning model used for object detection is configured to be selectable. A user may select an object detection deep learning model through a user interface provided by the object contextualization data storage system 10 . However, the corresponding deep learning model must be able to output a result in a prearranged format so that the object contextualization data storage system 10 can use the object detection result in the object detection step.

객체 검출 단계에서 객체를 검출하는데 사용되는 딥러닝 모델은 단일 단계 방식 알고리즘을 사용하는 딥러닝 모델일 수 있다. 단일 단계 방식을 사용하는 딥러닝 모델은 YOLO 모델, SSD 모델, RetinaNet 모델 등이 있으며, 특히 YOLO 모델을 사용하는 것이 바람직하다. 단일 단계 방식 알고리즘은 속도 측면에서는 이단계 방식 알고리즘보다 좋은 성능을 내는 것으로 알려져 있다.The deep learning model used to detect the object in the object detection step may be a deep learning model using a single step method algorithm. Deep learning models that use a single-step method include YOLO models, SSD models, and RetinaNet models, and it is particularly desirable to use YOLO models. The single-pass algorithm is known to outperform the two-pass algorithm in terms of speed.

객체 검출 단계에서 객체를 검출하는데 사용되는 딥러닝 모델은 이단계 방식 알고리즘을 사용하는 딥러닝 모델일 수 있다. 이단계 방식을 사용하는 딥러닝 모델은 Faster R-CNN 모델, R-FCN 모델 등이 있으며, 특히 Faster R-CNN 모델을 사용하는 것이 바람직하다. 이단계 방식 알고리즘은 정확도 측면에서 단일 단계 방식 알고리즘보다 좋은 성능을 내는 것으로 알려져 있다.The deep learning model used to detect the object in the object detection step may be a deep learning model using a two-step method algorithm. Deep learning models using the two-step method include the Faster R-CNN model and the R-FCN model, and it is particularly desirable to use the Faster R-CNN model. Two-pass algorithms are known to outperform single-pass algorithms in terms of accuracy.

객체 속성 정보 생성 단계는 객체 맥락화 데이터 저장 시스템(10)이 검출된 각각의 객체에 대하여 객체의 종류와 객체의 위치 정보를 포함하는 객체 속성 정보를 생성하는 단계이다. 객체 맥락화 데이터 저장 시스템(10)은 객체 속성 정보 생성 단계에서 프레임 별로 분류된 객체의 종류와 해당 객체의 영상 내에서의 위치 정보를 포함하는 객체 속성 정보를 생성한다. 객체 속성 정보 생성 단계에서 생성되는 객체 속성 정보는 객체의 위치 정보 즉, 경계상자 좌표로부터 산출되는 객체 크기 정보, 객체의 분류 정확도(confidence), 객체의 색상(예, 객체가 자동차인 경우 자동차의 색) 등의 정보를 포함할 수 있다. 일 예로 검출된 객체가 사람이고 성별이 인식되는 경우 객체 맥락화 데이터 저장 시스템(10)은 객체 속성 정보 생성 단계에서 사람의 성별을 객체 속성으로 추가하여 생성할 수 있다.The object property information generation step is a step in which the object contextualization data storage system 10 generates object property information including object type and object location information for each detected object. The object contextualization data storage system 10 generates object property information including the type of object classified for each frame and the location information of the corresponding object in the image in the object property information generation step. The object property information generated in the object property information generation step includes object location information, that is, object size information calculated from bounding box coordinates, object classification confidence, and object color (e.g., car color if the object is a car). ) may include information such as For example, when the detected object is a human and the gender is recognized, the object contextualization data storage system 10 may create the object by adding the human gender as an object attribute in the object property information generation step.

발명의 또 다른 실시 예에 따르면, 객체 속성 정보 생성 단계에서 생성되는 객체 속성 정보는 해당 프레임에서의 객체 이미지를 더 포함할 수 있다. 객체 검출 단계에서 검출된 객체는 경계상자로 표시된다. 객체 맥락화 데이터 저장 시스템(10)은 객체 속성 정보 생성 단계에서 경계상자 내의 객체 이미지를 추출하여 객체 속성 정보에 포함시킬 수 있다. 객체 속성 정보 생성 단계에서 객체 속성 정보에 포함시킨 객체 이미지는 별도의 저장 위치에 저장된 후 저장 경로가 객체 속성 정보에 포함될 수 있고, 객체 이미지가 텍스트 형태로 인코딩되어 객체 속성 정보에 포함될 수 있다. 객체 속성 정보에 포함된 객체 이미지는 객체 맥락화 데이터에 포함될 수 있다.According to another embodiment of the present invention, the object property information generated in the object property information generating step may further include an object image in a corresponding frame. Objects detected in the object detection step are displayed as bounding boxes. The object contextualization data storage system 10 may extract the object image within the bounding box and include it in the object attribute information in the object attribute information generation step. In the object property information generation step, the object image included in the object property information is stored in a separate storage location, the storage path may be included in the object property information, and the object image may be encoded in text form and included in the object property information. An object image included in object attribute information may be included in object contextualization data.

프레임 맥락화 단계는 객체 맥락화 데이터 저장 시스템(10)이 객체가 검출된 프레임 별로 검출된 프레임 정보, 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 프레임 맥락화 데이터를 생성하는 단계이다. 객체 맥락화 데이터 저장 시스템(10)은 프레임 맥락화 단계에서 영상 프레임 데이터로부터 검출되어 분류된 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 정보를 구조화하여 프레임 별로 프레임 맥락화 데이터를 생성한다. The frame contextualization step is a step in which the object contextualization data storage system 10 generates frame contextualization data including detected frame information for each frame in which an object is detected, the type and number of objects, and object property information of each object. The object contextualization data storage system 10 creates frame contextualization data for each frame by structuring information including the type and number of objects detected and classified from image frame data in the frame contextualization step, and object property information of each object.

프레임 맥락화 단계에서 수행하는 프레임 맥락화의 예는 도 3에 도시되어 있으며 해당 예는 앞서 설명하였다.An example of frame contextualization performed in the frame contextualization step is shown in FIG. 3 and the example has been described above.

발명의 실시 예에 따라서는, 객체 맥락화 데이터 저장 시스템(10)은 프레임 맥락화 단계에서 설정된 프레임 간격으로 샘플링된 프레임에 대하여 프레임 맥락화 데이터를 생성할 수 있다. 일 예로, 설정된 프레임 간격이 5이면, 프레임 맥락화 단계는 5번째 프레임, 10번째 프레임, 15번째 프레임 등 설정된 프레임 간격에 해당하는 프레임 들에 대해서만 프레임 맥락화 데이터를 생성할 수 있다.According to an embodiment of the present invention, the object contextualization data storage system 10 may generate frame contextualization data for frames sampled at set frame intervals in the frame contextualization step. For example, if the set frame interval is 5, the frame contextualization step may generate frame contextualization data only for frames corresponding to the set frame interval, such as the 5th frame, the 10th frame, and the 15th frame.

발명의 실시 예에 따라서는, 객체 맥락화 데이터 저장 시스템(10)은 프레임 맥락화 단계에서 현재 프레임에 대하여 검출된 객체의 종류와 수가 이전에 프레임 맥락화 데이터를 생성했던 프레임에 대하여 검출된 객체의 종류와 수와 동일한 경우에는 현재 프레임에 대하여는 프레임 맥락화 데이터를 생성하지 않을 수 있다. 즉, 프레임 맥락화 단계는 현재 프레임에 대하여 검출된 객체의 종류와 수가 이전 프레임에 대하여 검출된 객체의 종류와 수와 달라지는 경우에 현재 프레임에 대하여 프레임 맥락화 데이터를 생성할 수 있다.According to an embodiment of the present invention, the object contextualization data storage system 10 provides the type and number of objects detected for the current frame in the frame contextualization step, the type and number of objects detected for the frame in which frame contextualization data was previously generated. In the case of the same, frame contextualization data may not be generated for the current frame. That is, the frame contextualization step may generate frame contextualization data for the current frame when the type and number of objects detected for the current frame are different from the types and number of objects detected for the previous frame.

객체 맥락화 단계는 객체 맥락화 데이터 저장 시스템(10)이 입력 영상 데이터에 대하여 검출된 객체들의 리스트와 프레임 별 상기 프레임 맥락화 데이터를 포함하는 객체 맥락화 데이터를 생성하는 단계이다. 객체 맥락화 데이터 저장 시스템(10)은 객체 맥락화 단계에서 입력 영상 데이터의 적어도 어느 하나의 프레임에서 검출된 모든 객체들의 리스트를 생성하여 객체가 검출된 프레임들의 프레임 맥락화 데이터들과 함께 결합하여 구조화한다.The object contextualization step is a step in which the object contextualization data storage system 10 generates object contextualization data including a list of objects detected with respect to the input image data and the frame contextualization data for each frame. In the object contextualization step, the object contextualization data storage system 10 generates a list of all objects detected in at least one frame of input image data, combines them with frame contextualization data of frames in which objects are detected, and structures the list.

객체 맥락화 단계에서 수행하는 객체 맥락화의 예는 도 4에 도시되어 있으며 해당 예는 앞서 설명하였다.An example of object contextualization performed in the object contextualization step is shown in FIG. 4 and the example has been described above.

클립 지정 단계는 객체 맥락화 데이터 저장 시스템(10)이 설정된 클립 구성 정보에 기초하여 입력 영상 데이터에 대하여 논리적 클립을 구성하여 해당 정보를 객체 맥락화 데이터에 추가하는 단계이다. 객체 맥락화 데이터 저장 시스템(10)은 클립 지정 단계에서 입력 영상 데이터의 전체 프레임 또는 일부 프레임에 논리적 클립을 구성하고, 논리적 클립으로 구성된 프레임의 객체 맥락화 데이터에 논리적 클립 구성 정보 즉, 논리적 클립 식별자를 추가한다. 하나의 논리적 클립에 속하는 프레임은 다른 논리적 클립에도 속할 수 있다. 즉, 하나의 프레임은 다수의 논리적 클립에 속할 수 있다. The clip designation step is a step in which the object contextualization data storage system 10 configures a logical clip for the input image data based on set clip configuration information and adds the corresponding information to the object contextualization data. In the clip designation step, the object contextualization data storage system 10 constructs a logical clip in all or some frames of the input image data, and adds logical clip configuration information, that is, a logical clip identifier, to the object contextualization data of the frame composed of the logical clips. do. Frames belonging to one logical clip may also belong to another logical clip. That is, one frame may belong to multiple logical clips.

클립 구성 정보는 논리적 클립을 구성하는 프레임 수를 포함하는 정보일 수 있다. 이 경우 객체 맥락화 데이터 저장 시스템(10)은 클립 지정 단계에서 입력 영상 데이터의 전체 프레임을 대상으로 클립 구성 정보에 포함된 프레임 수에 해당하는 연속된 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가한다. Clip composition information may be information including the number of frames constituting a logical clip. In this case, the object contextualization data storage system 10 organizes consecutive frames corresponding to the number of frames included in the clip configuration information into logical clips for all frames of the input image data in the clip designation step and adds them to the object contextualization data. do.

또한, 클립 구성 정보는 시작 프레임 식별자와 마지막 프레임 식별자로 구분되는 논리적 클립 리스트를 포함하는 정보일 수 있다. 이 경우 객체 맥락화 데이터 저장 시스템(10)은 클립 지정 단계에서 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가한다.Also, the clip configuration information may be information including a logical clip list divided into a start frame identifier and an end frame identifier. In this case, the object contextualization data storage system 10 organizes frames corresponding to the logical clip list included in the clip configuration information into logical clips in the clip designation step and adds them to the object contextualization data.

클립 구성 정보에 포함되는 논리적 클립 리스트는 사용자가 임의로 설정하는 것으로 관련 있는 영상 프레임들이 논리적 클립으로 지정되는 것이 바람직하다. 논리적 클립은 영상을 분석하여 관련성 있는 프레임들을 구분하는 별도의 딥러닝 모델이나 영상 분석 도구를 사용하여 생성할 수도 있다.The logical clip list included in the clip composition information is arbitrarily set by the user, and it is preferable that related video frames are designated as logical clips. Logical clips can also be created using separate deep learning models or video analysis tools that analyze the video to identify relevant frames.

또한, 클립 구성 정보는 시작 시간과 종료 시간으로 구분되는 논리적 클립 리스트를 포함하는 정보일 수 있다. 본 발명의 객체 맥락화 데이터 저장 시스템(10)에 입력되는 영상 파일은 영상 촬영 시간 정보를 포함할 수 있다. 이 경우 객체 맥락화 데이터 저장 시스템(10)은 클립 지정 단계에서 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 영상 촬영 시간의 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가한다. Also, the clip configuration information may be information including a logical clip list divided into a start time and an end time. An image file input to the object contextualization data storage system 10 of the present invention may include image capture time information. In this case, in the clip designation step, the object contextualization data storage system 10 organizes frames corresponding to the logical clip list included in the clip configuration information into logical clips and adds them to the object contextualization data.

맥락화 저장 단계는 객체 맥락화 데이터 저장 시스템(10)이 입력 영상 데이터에 대한 객체 맥락화 데이터를 텍스트 파일로 빅데이터 저장소에 저장하는 단계이다. 객체 맥락화 데이터 저장 시스템(10)은 맥락화 저장 단계에서 영상에 대하여 생성된 객체 맥락화 데이터를 저장한 텍스트 파일을 장치 내부의 빅데이터 저장소에 저장하거나 클라우드 기반의 빅데이터 저장소에 전송하여 저장한다. 빅데이터 저장소는 일 예로 하둡 분산 파일 시스템을 이용하는 저장소이거나 NoSQL(Not-Only SQL)을 이용하는 저장소 일 수 있다.The contextualization storage step is a step in which the object contextualization data storage system 10 stores the object contextualization data of the input image data as a text file in the big data storage. The object contextualization data storage system 10 stores the text file in which the object contextualization data generated for the image is stored in the contextualization storage step is stored in a big data storage inside the device or transmitted to and stored in a cloud-based big data storage. The big data storage may be, for example, a storage using a Hadoop distributed file system or a storage using NoSQL (Not-Only SQL).

발명의 실시 예에 따라서는 맥락화 저장 단계는 검출된 객체들의 리스트와 프레임 별 객체 맥락화 데이터를 JSON 파일 형태의 텍스트 파일로 저장할 수 있다. JSON 파일은 자바스크립트 오브젝트 표기법으로 클라이언트와 서버간 데이터를 교환을 손쉽게 할 수 있는 장점이 있는 포맷이며, 널리 사용되고 있는 포맷이므로 상세한 설명은 생략한다.According to an embodiment of the present invention, the step of storing contextualization may store a list of detected objects and object contextualization data for each frame as a text file in the form of a JSON file. A JSON file is a format that has the advantage of easily exchanging data between a client and a server using JavaScript object notation, and since it is a widely used format, a detailed description will be omitted.

발명의 실시 예에 따라서는 맥락화 저장 단계는 검출된 객체들의 리스트와 프레임 별 객체 맥락화 데이터를 XML 파일 형태의 텍스트 파일로 저장할 수 있다. XML은 eXtensible Markup Language의 약어로 태그를 이용하여 데이터의 구조를 기술하는 언어로 자유로운 태그 정의 즉, 태그 확장이 가능하다. XML 파일도 데이터 교환에 널리 사용되고 있는 포맷이므로 상세한 설명은 생략한다.According to an embodiment of the present invention, the step of saving contextualization may store a list of detected objects and object contextualization data for each frame as a text file in the form of an XML file. XML is an abbreviation of eXtensible Markup Language. It is a language that describes the structure of data using tags, and free tag definition, that is, tag extension is possible. Since the XML file is also a widely used format for data exchange, a detailed description thereof will be omitted.

발명의 또 다른 실시 예에 따르면, 객체 맥락화 데이터 저장 시스템(10)은 맥락화 저장 단계에서 추가적으로 객체 맥락화 데이터를 영상 파일 별로 각각 구분하여 텍스트 파일 형태로 저장할 수 있다. 즉, 도 2의 예에서 객체 맥락화 데이터 저장 시스템(10)은 FILE1, FILE2, FILE3, FILE4에 대하여 각각의 영상 파일에 속하는 프레임에 대한 객체 맥락화 데이터를 추가적으로 저장할 수 있다.According to another embodiment of the present invention, the object contextualization data storage system 10 may additionally classify object contextualization data for each image file and store them in the form of a text file in the contextualization storage step. That is, in the example of FIG. 2 , the object contextualization data storage system 10 may additionally store object contextualization data for frames belonging to respective image files for FILE 1 , FILE 2 , FILE 3 , and FILE 4 .

발명의 또 다른 실시 예에 따르면, 객체 맥락화 데이터 저장 시스템(10)은 맥락화 저장 단계에서 추가적으로 객체 맥락화 데이터를 논리적 클립 별로 각각 구분하여 텍스트 파일 형태로 저장할 수 있다. 즉, 도 2의 예에서 객체 맥락화 데이터 저장 시스템(10)은 CLIP1, CLIP2, CLIP3 에 대하여 각각의 논리적 클립에 속하는 프레임에 대한 객체 맥락화 데이터를 추가적으로 저장할 수 있다.According to another embodiment of the present invention, the object contextualization data storage system 10 may additionally classify object contextualization data for each logical clip and store them in the form of a text file in the contextualization storage step. That is, in the example of FIG. 2 , the object contextualization data storage system 10 may additionally store object contextualization data for frames belonging to respective logical clips for CLIP 1 , CLIP 2 , and CLIP 3 .

도 6은 본 발명의 객체 맥락화 데이터 저장 방법의 절차도이다. 도 6을 참조하여 객체 맥락화 데이터 저장 방법의 절차를 설명한다.6 is a flowchart of a method for storing object contextualization data according to the present invention. A procedure of a method for storing object contextualization data will be described with reference to FIG. 6 .

객체 맥락화 데이터 저장 시스템(10)은 입력된 하나 이상의 영상 파일을 입력된 순서대로 나열한 후 전체 영상 파일들에 대하여 연속된 새로운 프레임 식별자(ID)를 순차적으로 할당하여 입력된 하나 이상의 영상 파일을 하나의 입력 영상 데이터로 생성한다(S1000).The object contextualization data storage system 10 arranges one or more input image files in the input order and then sequentially assigns new frame identifiers (IDs) consecutive to all the image files to combine one or more input image files into one single image file. It is created with input image data (S1000).

객체 맥락화 데이터 저장 시스템(10)은 객체를 검출하도록 학습된 딥러닝 모델을 사용하여 입력된 영상에서 프레임 별로 객체를 검출하여 객체의 종류를 분류한다(S1020). 이때, 객체 맥락화 데이터 저장 시스템(10)은 검출된 객체를 분류하여 객체의 종류를 예측하고 객체의 영상 내에서의 위치 정보를 경계상자를 이용하여 예측한다.The object contextualization data storage system 10 classifies the type of the object by detecting the object for each frame in the input image using the deep learning model learned to detect the object (S1020). At this time, the object contextualization data storage system 10 classifies the detected object, predicts the type of the object, and predicts the location information of the object in the image using a bounding box.

객체 맥락화 데이터 저장 시스템(10)은 프레임 별로 검출된 각각의 객체에 대하여 객체의 종류와 해당 객체의 영상 내에서의 위치 정보를 포함하는 객체 속성 정보를 생성한다(S1040).The object contextualization data storage system 10 generates object property information including the type of the object and location information of the corresponding object in the image for each object detected for each frame (S1040).

객체 맥락화 데이터 저장 시스템(10)이 검출된 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 정보를 구조화하여 프레임 별로 프레임 맥락화 데이터를 생성한다(S1060). The object contextualization data storage system 10 generates frame contextualization data for each frame by structuring information including the type and number of detected objects and object property information of each object (S1060).

객체 맥락화 데이터 저장 시스템(10)은 입력된 영상에서 검출된 객체들의 리스트와 프레임 별 프레임 맥락화 데이터를 포함하는 정보를 구조화하여 입력 영상 데이터에 대한 객체 맥락화 데이터를 생성한다(S1080).The object contextualization data storage system 10 creates object contextualization data for the input image data by structuring information including a list of objects detected in the input image and frame-by-frame contextualization data (S1080).

객체 맥락화 데이터 저장 시스템(10)은 설정된 클립 구성 정보에 기초하여 입력 영상 데이터에 대하여 논리적 클립을 구성하여 해당 정보를 객체 맥락화 데이터에 추가한다(S1100). 즉, 객체 맥락화 데이터 저장 시스템(10)은 입력 영상 데이터의 전체 프레임 또는 일부 프레임에 논리적 클립을 구성하고, 논리적 클립으로 구성된 프레임의 객체 맥락화 데이터에 논리적 클립 구성 정보 즉, 논리적 클립 식별자를 추가한다.The object contextualization data storage system 10 configures a logical clip for the input image data based on the set clip configuration information and adds the corresponding information to the object contextualization data (S1100). That is, the object contextualization data storage system 10 configures a logical clip in all or some frames of the input image data, and adds logical clip configuration information, that is, a logical clip identifier, to the object contextualization data of the frame composed of the logical clips.

객체 맥락화 데이터 저장 시스템(10)은 입력 영상에 대한 객체 맥락화 데이터를 텍스트 파일로 생성하여 빅데이터 저장소에 저장한다(S1120).The object contextualization data storage system 10 generates object contextualization data for an input image as a text file and stores it in a big data storage (S1120).

이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다. In the above, the present invention has been described through embodiments with reference to the accompanying drawings, but is not limited thereto, and should be interpreted to cover various modifications that can be obviously derived by those skilled in the art. The claims are intended to cover such variations.

10 : 객체 맥락화 데이터 저장 시스템
100 : 입력 영상 처리부
110 : 객체 검출부
120 : 프레임 맥락화부
130 : 객체 맥락화부
140 : 클립 지정부
150 : 맥락화 저장부
10: Object Contextualized Data Storage System
100: input image processing unit
110: object detection unit
120: frame contextualization unit
130: object contextualization unit
140: clip designation unit
150: context storage unit

Claims (14)

하나 이상의 영상 파일 각각의 프레임에 대하여 연속된 프레임 식별자를 할당하여 입력 영상 데이터를 생성하는 입력 영상 처리부;
딥러닝 모델을 사용하여 입력 영상 데이터에서 프레임 별로 복수의 객체를 검출하여 객체의 종류를 분류하고, 객체의 종류와 객체의 위치 정보를 포함하는 객체 속성 정보를 생성하는 객체 검출부;
객체가 검출된 프레임 별로 검출된 프레임 정보, 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 프레임 맥락화 데이터를 생성하는 프레임 맥락화부;
검출된 객체들의 리스트와 프레임 별 상기 프레임 맥락화 데이터를 포함하는 객체 맥락화 데이터를 생성하는 객체 맥락화부;
설정된 클립 구성 정보에 기초하여 논리적 클립을 구성하여 객체 맥락화 데이터에 추가하는 클립 지정부; 및
객체 맥락화 데이터를 텍스트 파일로 빅데이터 저장소에 저장하는 맥락화 저장부;
를 포함하는 객체 맥락화 데이터 저장 시스템.
an input image processor generating input image data by allocating consecutive frame identifiers to each frame of one or more image files;
an object detection unit that detects a plurality of objects for each frame in input image data using a deep learning model, classifies the type of the object, and generates object attribute information including the type of object and location information of the object;
a frame contextualization unit generating frame contextualization data including detected frame information for each frame in which an object is detected, the type and number of objects, and object property information of each object;
an object contextualization unit generating object contextualization data including a list of detected objects and the frame contextualization data for each frame;
a clip assignment unit configured to configure a logical clip based on the set clip configuration information and add it to object contextualization data; and
a contextualization storage unit that stores object contextualization data as a text file in a big data storage;
Object contextualization data storage system comprising a.
제 1 항에 있어서,
클립 구성 정보는 논리적 클립을 구성하는 프레임 수를 포함하고,
클립 지정부는 입력 영상 데이터의 전체 프레임을 대상으로 클립 구성 정보에 포함된 프레임 수에 해당하는 연속된 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가하는 객체 맥락화 데이터 저장 시스템.
According to claim 1,
The clip composition information includes the number of frames constituting the logical clip;
An object contextualization data storage system in which the clip designator organizes consecutive frames corresponding to the number of frames included in the clip configuration information from all frames of the input image data into logical clips and adds them to the object contextualization data.
제 1 항에 있어서,
클립 구성 정보는 시작 프레임 식별자와 마지막 프레임 식별자로 구분되는 논리적 클립 리스트를 포함하고,
클립 지정부는 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가하는 객체 맥락화 데이터 저장 시스템.
According to claim 1,
The clip configuration information includes a logical clip list divided into a start frame identifier and an end frame identifier;
The object contextualization data storage system that configures frames corresponding to the logical clip list included in the clip configuration information as logical clips and adds them to the object contextualization data.
제 1 항에 있어서,
클립 구성 정보는 시작 시간과 종료 시간으로 구분되는 논리적 클립 리스트를 포함하고,
클립 지정부는 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 영상 촬영 시간의 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가하는 객체 맥락화 데이터 저장 시스템.
According to claim 1,
The clip composition information includes a logical clip list divided by a start time and an end time;
The object contextualization data storage system that configures frames of video capture time corresponding to the logical clip list included in the clip configuration information into logical clips and adds them to the object contextualization data.
제 1 항에 있어서,
객체 검출부가 생성하는 객체 속성 정보는 해당 프레임에서의 객체 이미지를 더 포함하는 객체 맥락화 데이터 저장 시스템.
According to claim 1,
The object contextualization data storage system of claim 1 , wherein the object attribute information generated by the object detection unit further includes an object image in a corresponding frame.
제 1 항에 있어서,
맥락화 저장부는 추가적으로 객체 맥락화 데이터를 영상 파일 별로 각각 구분하여 저장하는 객체 맥락화 데이터 저장 시스템.
According to claim 1,
The object contextualization data storage system, wherein the contextualization storage unit additionally classifies and stores object contextualization data for each image file.
제 1 항에 있어서,
맥락화 저장부는 추가적으로 객체 맥락화 데이터를 논리적 클립 별로 각각 구분하여 저장하는 객체 맥락화 데이터 저장 시스템.
According to claim 1,
The contextualization storage unit additionally classifies and stores object contextualization data for each logical clip. Object contextualization data storage system.
객체 맥락화 데이터 저장 시스템이 영상에서 검출한 객체를 맥락화 데이터로 생성하여 저장하는 방법에 있어서,
하나 이상의 영상 파일 각각의 프레임에 대하여 연속된 프레임 식별자를 할당하여 입력 영상 데이터를 생성하는 입력 영상 처리 단계;
딥러닝 모델을 사용하여 입력 영상 데이터에서 프레임 별로 하나 이상의 객체를 검출하여 객체의 종류를 분류하는 객체 검출 단계;
검출된 각각의 객체에 대하여 객체의 종류와 객체의 위치 정보를 포함하는 객체 속성 정보를 생성하는 객체 속성 정보 생성 단계;
객체가 검출된 프레임 별로 검출된 프레임 정보, 객체의 종류와 수, 각 객체의 객체 속성 정보를 포함하는 프레임 맥락화 데이터를 생성하는 프레임 맥락화 단계;
검출된 객체들의 리스트와 프레임 별 상기 프레임 맥락화 데이터를 포함하는 객체 맥락화 데이터를 생성하는 객체 맥락화 단계;
설정된 클립 구성 정보에 기초하여 논리적 클립을 구성하여 객체 맥락화 데이터에 추가하는 클립 지정 단계; 및
객체 맥락화 데이터를 텍스트 파일로 빅데이터 저장소에 저장하는 맥락화 데이터 저장 단계;
를 포함하는 객체 맥락화 데이터 저장 방법.
A method for generating and storing an object detected in an image by an object contextualization data storage system as contextualization data, the method comprising:
an input image processing step of generating input image data by allocating consecutive frame identifiers to each frame of one or more image files;
An object detection step of classifying object types by detecting one or more objects for each frame from input image data using a deep learning model;
object property information generation step of generating object property information including object type and object location information for each detected object;
a frame contextualization step of generating frame contextualization data including detected frame information for each frame in which objects are detected, types and numbers of objects, and object property information of each object;
an object contextualization step of generating object contextualization data including a list of detected objects and the frame contextualization data for each frame;
a clip designation step of constructing a logical clip based on set clip configuration information and adding it to object contextualization data; and
A contextualization data storage step of storing the object contextualization data as a text file in a big data repository;
Object contextualization data storage method comprising a.
제 8 항에 있어서,
클립 구성 정보는 논리적 클립을 구성하는 프레임 수를 포함하고,
클립 지정 단계는 프레임 입력 영상 데이터의 전체 프레임을 대상으로 클립 구성 정보에 포함된 프레임 수에 해당하는 연속된 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가하는 단계인 객체 맥락화 데이터 저장 방법.
According to claim 8,
The clip composition information includes the number of frames constituting the logical clip;
The clip designation step is a step of composing continuous frames corresponding to the number of frames included in the clip configuration information from all frames of the frame input image data into logical clips and adding them to the object contextualization data.
제 8 항에 있어서,
클립 구성 정보는 시작 프레임 식별자와 마지막 프레임 식별자로 구분되는 논리적 클립 리스트를 포함하고,
클립 지정 단계는 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가하는 단계인 객체 맥락화 데이터 저장 방법.
According to claim 8,
The clip configuration information includes a logical clip list divided into a start frame identifier and an end frame identifier;
The clip designation step is a step of composing frames corresponding to a logical clip list included in clip configuration information into logical clips and adding them to object contextualization data.
제 8 항에 있어서,
클립 구성 정보는 시작 시간과 종료 시간으로 구분되는 논리적 클립 리스트를 포함하고,
클립 지정 단계는 클립 구성 정보에 포함된 논리적 클립 리스트에 해당하는 영상 촬영 시간의 프레임들을 논리적 클립들로 구성하여 객체 맥락화 데이터에 추가하는 객체 맥락화 데이터 저장 시스템.
According to claim 8,
The clip composition information includes a logical clip list divided by a start time and an end time;
The object contextualization data storage system of claim 1 , wherein the clip designation step configures frames of video capture time corresponding to a logical clip list included in clip configuration information into logical clips and adds them to object contextualization data.
제 8 항에 있어서,
객체 속성 정보 생성 단계에서 생성되는 객체 속성 정보는 해당 프레임에서의 객체 이미지를 더 포함하는 객체 맥락화 데이터 저장 방법.
According to claim 8,
The object contextualization data storage method of claim 1 , wherein the object property information generated in the object property information generating step further includes an object image in a corresponding frame.
제 1 항에 있어서,
맥락화 데이터 저장 단계는 객체 맥락화 데이터를 영상 파일 별로 각각 구분하여 저장하는 단계를 포함하는 객체 맥락화 데이터 저장 방법.
According to claim 1,
The method of storing the object contextualization data comprising the step of storing the object contextualization data separately for each image file.
제 1 항에 있어서,
맥락화 데이터 저장 단계는 객체 맥락화 데이터를 논리적 클립 별로 각각 구분하여 저장하는 단계를 포함하는 객체 맥락화 데이터 저장 방법.
According to claim 1,
The step of storing the contextualization data includes the step of dividing and storing the object contextualization data for each logical clip.
KR1020220013702A 2021-11-24 2022-01-28 System and method for storing video-objects contextualization data KR20230077586A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210162866 2021-11-24
KR1020210162866 2021-11-24

Publications (1)

Publication Number Publication Date
KR20230077586A true KR20230077586A (en) 2023-06-01

Family

ID=86771086

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220013702A KR20230077586A (en) 2021-11-24 2022-01-28 System and method for storing video-objects contextualization data

Country Status (1)

Country Link
KR (1) KR20230077586A (en)

Similar Documents

Publication Publication Date Title
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
US9251425B2 (en) Object retrieval in video data using complementary detectors
Jiang et al. Recognizing human actions by learning and matching shape-motion prototype trees
KR102374776B1 (en) System and method for re-identifying target object based on location information of cctv and movement information of object
US20180247126A1 (en) Method and system for detecting and segmenting primary video objects with neighborhood reversibility
CN110235138A (en) System and method for appearance search
CN111241345A (en) Video retrieval method and device, electronic equipment and storage medium
KR101930940B1 (en) Apparatus and method for analyzing image
Motiian et al. Online human interaction detection and recognition with multiple cameras
Zhang et al. Fast face detection on mobile devices by leveraging global and local facial characteristics
CN107977592B (en) Image text detection method and system, user terminal and server
CN107992937B (en) Unstructured data judgment method and device based on deep learning
KR102028930B1 (en) method of providing categorized video processing for moving objects based on AI learning using moving information of objects
CN108198202A (en) A kind of video content detection method based on light stream and neural network
Zhenhua et al. FTCF: Full temporal cross fusion network for violence detection in videos
CN112101154B (en) Video classification method, apparatus, computer device and storage medium
CN113822134A (en) Instance tracking method, device, equipment and storage medium based on video
CN112712051A (en) Object tracking method and device, computer equipment and storage medium
KR20230077586A (en) System and method for storing video-objects contextualization data
CN114329050A (en) Visual media data deduplication processing method, device, equipment and storage medium
CN114332599A (en) Image recognition method, image recognition device, computer equipment, storage medium and product
KR20230076716A (en) Video search system using object contextualization
KR20230076712A (en) Video-objects contextualization system and method
CN112258575A (en) Method for quickly identifying object in synchronous positioning and map construction
CN117156078B (en) Video data processing method and device, electronic equipment and storage medium