KR102411278B1 - 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법 - Google Patents

멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법 Download PDF

Info

Publication number
KR102411278B1
KR102411278B1 KR1020210193393A KR20210193393A KR102411278B1 KR 102411278 B1 KR102411278 B1 KR 102411278B1 KR 1020210193393 A KR1020210193393 A KR 1020210193393A KR 20210193393 A KR20210193393 A KR 20210193393A KR 102411278 B1 KR102411278 B1 KR 102411278B1
Authority
KR
South Korea
Prior art keywords
vision
attention
vector
video
unit
Prior art date
Application number
KR1020210193393A
Other languages
English (en)
Inventor
김세은
박동찬
오재호
Original Assignee
주식회사 파일러
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 파일러 filed Critical 주식회사 파일러
Priority to KR1020210193393A priority Critical patent/KR102411278B1/ko
Priority to KR1020220073183A priority patent/KR20230103890A/ko
Application granted granted Critical
Publication of KR102411278B1 publication Critical patent/KR102411278B1/ko
Priority to PCT/KR2022/016300 priority patent/WO2023128186A1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B13/00Burglar, theft or intruder alarms
    • G08B13/18Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength
    • G08B13/189Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems
    • G08B13/194Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems
    • G08B13/196Actuation by interference with heat, light, or radiation of shorter wavelength; Actuation by intruding sources of heat, light, or radiation of shorter wavelength using passive radiation detection systems using image scanning and comparing systems using television cameras
    • G08B13/19602Image analysis to detect motion of the intruder, e.g. by frame subtraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Alarm Systems (AREA)

Abstract

멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning) 기반의 비디오 내 광범위한 맥락 분석을 통해 비디오 내 비젼, 오디오 정보를 바탕으로 객체의 행동을 검출하여 자동으로 영상 상황 인지 정보를 제공하는 영상 보안 시스템 및 방법이 개시된다. 본 발명의 실시예에 따른 영상 보안 방법은 비디오 캡션부에 의해, 비디오 데이터를 구성하는 시계열 순의 영상 프레임들을 포함하는 비젼 데이터로부터 상기 비젼 데이터의 시계열 구간별로 상기 비젼 데이터 내 객체의 행동과 관련된 비디오 캡션을 생성하는 단계; 및 행동 분석부에 의해, 상기 비디오 캡션이 기 설정된 위험 행동과 관련되는지 판단하고, 상기 객체의 행동이 상기 위험 행동과 관련되는 경우, 위험 상황을 알리는 알람을 발생하는 단계;를 포함한다.

Description

멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법{VIDEO SURVEILLANCE SYSTEM BASED ON MULTI-MODAL VIDEO CAPTIONING AND METHOD OF THE SAME}
본 발명은 CCTV 등을 활용한 영상 보안 시스템 및 방법에 관한 것으로, 보다 상세하게는 멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning)을 이용한 영상 보안 시스템 및 방법에 관한 것이다.
영상 보안 시스템으로 CCTV가 널리 활용되고 있다. CCTV로 촬영되는 영상은 별도의 기록매체에 저장되므로 사건 발행 후에 확인이 가능하나, 사건이 발생한 즉시 혹은 발생하기 직전에 선제적으로 이를 인식하고 대응하기 위해서는 CCTV 화면에 문제 행위가 포착되는 즉시 실시간으로 해당 문제 행위를 인지하고 대응할 필요가 있다. 이로 인해 상시 감시가 필요한 지역의 경우 해당 지역을 감지하는 사람이 24시간 동안 계속 CCTV 화면을 보고 있어야 하며, 이는 현실적으로 한계가 있다. 또한 CCTV 개수가 기하급수적으로 늘어나면서 수천 대에 달하는 CCTV를 모두 감시하기 위해서는 적지 않은 인원이 요구된다. 실제로 많은 시 단위에서 5000 ~ 6000여 대의 카메라를 도입하고 있지만, 이를 관리하는 관제 요원은 수십여 명에 불과하다.
이에 따라 최근에 지능형 CCTV를 도입하면서 인공지능의 딥러닝 기술을 활용하여 객체 검출(object detection) 기술과, 이미지 분류(Image Classification) 기술을 통해 실시간 감시를 수행하는 방안이 연구되고 있다. 이러한 종래의 인공지능 기반 감시 방법은 관심 대상 검출(Object Detection), 관심 영역 검출(Region Localization), 객체 인식 및 추적(Object Identification and Tracking), 추적 물체 분류(Object Classification), 위험 탐지, 경고 발생 등의 순으로 구현될 수 있다.
하지만 인공지능 모델이 특정 대상을 검출하기 위해서는 일정 수준 이상의 화질을 갖추고 있어야 하기 때문에 저화질 CCTV인 경우 정확한 검출이 어렵고, 카테고리별 학습에 방대한 양의 데이터가 필요하다. 종래의 인공지능 기반 감시 시스템의 경우, 현존하는 지능형 CCTV 특성상, 특정 객체 및 장면에 대해 학습시킨 데이터셋에 대한 정보들만 검출할 수 있기 때문에 학습되어있지 않은 정보 및 돌발상황에 대한 추론이 어렵다. 또한, 동영상은 이미지에 비해 학습해야 할 객체의 종류 및 분류 범위를 확정짓기 어려워 종래의 인공지능 모델의 적용에 한계가 있으며, CCTV 영상이 강도, 절도 등의 특정 범죄 행위가 일어날 가능성이 있는지를 일반화된 개념으로 활용하기 어렵다. 한편, 대한민국특허청 공개특허공보 10-2000-0042949호(2000.07.15. 공개)에는 캡션재생 기능을 구비한 셋탑박스 및 그 재생방법이 개시되어 있다.
본 발명은 멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning) 기반의 비디오 내 광범위한 맥락 분석을 통해 비디오 내 비젼 및 오디오 정보를 바탕으로 객체의 행동을 검출하여 자동으로 상황 인지 정보를 제공하는 멀티-모달 비디오 캡션 기반 영상 보안 시스템 및 방법을 제공하기 위한 것이다.
본 발명의 실시예에 따른 영상 보안 방법은 비디오 캡션부에 의해, 비디오 데이터를 구성하는 시계열 순의 영상 프레임들을 포함하는 비젼 데이터로부터 상기 비젼 데이터의 시계열 구간별로 상기 비젼 데이터 내 객체의 행동과 관련된 비디오 캡션을 생성하는 단계; 행동 분석부에 의해, 상기 비디오 캡션이 기 설정된 위험 행동과 관련되는지 판단하는 단계; 및 알람부에 의해, 상기 객체의 행동이 상기 위험 행동과 관련되는 경우, 위험 상황을 알리는 알람을 발생하는 단계;를 포함한다.
상기 비디오 캡션을 생성하는 단계는 상기 비디오 데이터를 상기 비젼 데이터와 오디오 데이터로 분할하는 단계; 및 인공지능 모델에 의해 상기 시계열 구간별로 상기 비젼 데이터 및 상기 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 상기 객체의 행동과 관련된 상기 비디오 캡션을 생성하는 단계;를 포함할 수 있다.
상기 비디오 캡션을 생성하는 단계는 (a) 인코더부에 의해, 상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계; (b) 디코더부에 의해, 학습된 자막 키 값들을 기초로 상기 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하는 단계; 및 (c) 상기 디코더부에 의해, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 단계;를 포함할 수 있다.
상기 (a) 단계는 학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 단계; 학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 단계; 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제1 멀티-모달 어텐션부에 입력하여 상기 비젼 인코더 벡터를 생성하는 단계; 및 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제2 멀티-모달 어텐션부에 입력하여 상기 오디오 인코더 벡터를 생성하는 단계;를 포함할 수 있다.
상기 알람을 발생하는 단계는 상기 위험 행동의 발생 시점 및 상기 객체의 위험 행동 정보를 관제시스템에 알리는 단계를 포함할 수 있다.
상기 비디오 캡션을 생성하는 단계는 상기 비젼 데이터를 기초로 행동 정지점을 설정하여 상기 시계열 구간을 결정하는 단계를 포함할 수 있다.
본 발명의 실시예에 따르면, 상기 영상 보안 방법을 실행시키도록 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램이 제공된다.
본 발명의 실시예에 따른 영상 보안 시스템은 비디오 데이터를 구성하는 시계열 순의 영상 프레임들을 포함하는 비젼 데이터로부터 상기 비젼 데이터의 시계열 구간별로 상기 비젼 데이터 내 객체의 행동과 관련된 비디오 캡션을 생성하는 비디오 캡션부; 상기 비디오 캡션이 기 설정된 위험 행동과 관련되는지 판단하는 행동 분석부; 및 상기 객체의 행동이 상기 위험 행동과 관련되는 경우, 위험 상황을 알리는 알람을 발생하는 알람부;를 포함한다.
상기 비디오 캡션부는 상기 비디오 데이터를 상기 비젼 데이터와 오디오 데이터로 분할하고; 상기 비젼 데이터를 기초로 행동 정지점을 설정하여 상기 시계열 구간을 분할하고; 그리고 인공지능 모델에 의해 상기 시계열 구간별로 상기 비젼 데이터 및 상기 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 상기 객체의 행동과 관련된 상기 비디오 캡션을 생성하도록 구성될 수 있다.
상기 비디오 캡션부는 상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 인코더부; 및 학습된 자막 키 값들을 기초로 상기 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하고, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 디코더부;를 포함할 수 있다.
상기 인코더부는 학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 비젼 셀프 어텐션부; 학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 오디오 셀프 어텐션부; 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제1 특징 벡터를 생성하는 제1 멀티-모달 어텐션부; 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제2 특징 벡터를 생성하는 제2 멀티-모달 어텐션부; 상기 제1 멀티-모달 어텐션부에 의해 생성되는 상기 제1 특징 벡터로부터 비젼 인코더 벡터를 생성하는 제1 완전 연결층; 및 상기 제2 멀티-모달 어텐션부에 의해 생성되는 상기 제2 특징 벡터로부터 상기 오디오 인코더 벡터를 생성하는 제2 완전 연결층;을 포함할 수 있다.
본 발명의 실시예에 의하면, 멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning) 기반의 비디오 내 광범위한 맥락 분석을 통해 비디오 내 비젼, 오디오 정보를 바탕으로 객체의 행동을 검출하여 자동으로 상황 인지 정보를 제공하는 멀티-모달 비디오 캡션 기반 영상 보안 시스템 및 방법이 제공된다.
본 발명의 실시예에 의하면, 멀티-모달 비디오 캡셔닝 기술을 기반으로 감시 시스템 내에서 객체의 행동 정보를 실시간 인식하여 감시 시스템을 바라보는 인력을 대체할 수 있으며, 특정 위험 행동이 감지될 때 즉시 경고를 발생함으로써 즉각적인 대응 및 대처가 가능해진다.
도 1은 본 발명의 실시예에 따른 영상 보안 시스템의 구성도이다.
도 2는 본 발명의 실시예에 따른 영상 보안 시스템을 구성하는 비디오 캡션부의 구성도이다.
도 3은 본 발명의 실시예에 따른 인공지능 모델의 신경망을 나타낸 개념도이다.
도 4는 본 발명의 실시예에 따른 영상 보안 방법의 순서도이다.
도 5는 도 4의 단계 S10을 나타낸 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 명세서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 본 명세서에서 사용되는 '~모듈', '~부'는 적어도 하나의 기능이나 동작을 처리하는 단위로서, 예를 들어 소프트웨어, FPGA 또는 하나 이상의 프로세서와 같은 하드웨어 구성요소를 의미할 수 있다. 본 발명의 실시 예를 설명함에 있어서, 관련된 공지의 기능 또는 공지의 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
본 발명은 멀티-모달 비디오 캡셔닝(Multi-Modal Video Captioning) 기반의 비디오 내 광범위한 맥락 분석을 통해 비디오 데이터 내 비젼(Vision) 데이터 및 오디오(Audio) 데이터를 바탕으로 비디오 데이터 내 객체의 행동(Action)을 검출하여 자동으로 영상 상황 인지 정보를 제공하는 감시 시스템 및 방법에 관한 것이다.
본 발명의 실시예에 의하면, 물리보안의 측면에서 여러대의 CCTV들이 해당 모델의 학습을 통해 영상 내에서 어떠한 범죄가 발생했는지 실시간 추출이 가능하다. 또한 여러 명이 특정 영상 구간 내에서 겹쳐있을 때 각 사람별 운동(Kinetic) 정보를 바탕으로 학습되기 때문에 사람별로 디테일한 행동 분석이 가능하다.
또한, 본 발명의 실시예에 의하면, 오디오나 발화 정보를 받는 CCTV를 활용하여, 비젼 데이터와 오디오 데이터를 종합적으로 반영하여 범죄 발생 시점을 분간할 수 있으며, 범죄 발생 시점 및 위험 행동 정보들을 관제시스템 내에서 관리자에게 실시간 보고하고 경고음을 발생할 수 있다.
본 발명의 실시예에 의하면, 멀티-모달 비디오 캡셔닝 기술을 통해 비젼 데이터와, 오디오 데이터를 모두 활용하여 행동 발생의 중단점(Breakpoint)을 자동으로 설정하여 구간별 상황 파악이 가능하며, 일반화된 행동 정보를 바탕으로 즉각적인 상황을 인지해낼 수 있다. 이에 따라 광범위한 정보 및 돌발상황에 대한 추론을 가능케 한다.
본 발명의 실시예에 의하면, 감시 시스템 내에서 관제시스템의 비디오 캡션 서버에 구현된 멀티-모달 비디오 캡션 모델을 통해 다중 CCTV 영상들을 기초로 시계열 구간별 행동 정보들이 검출되며, 특정 위험 행동 감지시 관리자에게 보고 및 경보음이 울리면서 범죄 상황에 대한 구체적인 정보 전달이 이루어지게 된다.
도 1은 본 발명의 실시예에 따른 영상 보안 시스템의 구성도이다. 도 1을 참조하면, 본 발명의 실시예에 따른 영상 보안 시스템(100)은 비디오 데이터를 수집하는 하나 이상의 카메라를 포함하는 카메라 시스템(110)과, 카메라 시스템(110)에 의해 수집된 비디오 데이터를 구성하는 시계열 순의 영상 프레임들을 포함하는 비젼 데이터와 오디오 데이터로부터 멀티-모달 비디오 캡셔닝을 기반으로 비디오 데이터의 시계열 구간별로 비젼 데이터 내 객체의 행동과 관련된 비디오 캡션(비디오 맥락)을 생성하는 비디오 캡션부(123), 및 비디오 캡션부(123)에 의해 생성된 비디오 캡션이 기 설정된 위험 행동과 관련되는지 판단하고, 객체의 행동이 위험 행동과 관련되는 경우 위험 상황을 알리는 알람을 발생하는 행동 분석부(124) 및 위험 행동 분석부(125)를 포함할 수 있다.
카메라 시스템(110)에 의해 수집된 비디오 데이터는 비디오 캡션 서버(120)로 전송될 수 있다. 카메라 시스템(110)의 카메라는 예를 들어, CCTV 카메라일 수 있으나, 반드시 이에 한정되는 것은 아니다.
비디오 캡션 서버(120)는 비디오 데이터의 비젼 데이터를 수집하는 비젼 서버(121)와, 비디오 데이터의 오디오 데이터를 수집하는 오디오 서버(122)를 포함할 수 있다.
비젼 서버(121)에 의해 수집되는 비젼 데이터와, 오디오 서버(122)에 의해 수집되는 오디오 데이터는 비디오 캡션부(123)로 전달될 수 있다. 비디오 캡션부(123)는 비디오 데이터를 비젼 데이터와 오디오 데이터로 분할하고, 비젼 데이터를 기초로 행동 정지점을 설정하여 시계열 구간을 분할하고, 인공지능 모델에 의해 시계열 구간별로 비젼 데이터 및 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 객체의 행동과 관련된 비디오 캡션을 생성할 수 있다.
도 2는 본 발명의 실시예에 따른 영상 보안 시스템을 구성하는 비디오 캡션부의 구성도이다. 도 1 및 도 2를 참조하면, 비디오 캡션부(123, 200)는 VGGish 처리부(20)와, I3D 처리부(30)에 의해 비디오 데이터(10)로부터 도출된 비젼 데이터와 오디오 데이터를 비디오 캡션 서버(120)에 마련된 인공지능 모델의 인코더부(210)에 입력하도록 구성될 수 있다.
비디오 캡션부(123, 200)는 비젼 데이터와 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 인코더부(210), 및 학습된 자막 키 값들을 기초로 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하고, 자막 어텐션 벡터와 비젼 인코더 벡터 및 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 비디오 캡션을 생성하는 디코더부(250)를 포함할 수 있다.
인코더부(210)는 학습된 비젼 키 값들을 기초로 비젼 데이터를 셀프 어텐션(self attention) 처리하여 비젼 어텐션 벡터를 생성하는 비젼 셀프 어텐션부(211), 학습된 오디오 키 값들을 기초로 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 오디오 셀프 어텐션부(212), 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제1 특징 벡터를 생성하는 제1 멀티-모달 어텐션부(213), 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제2 특징 벡터를 생성하는 제2 멀티-모달 어텐션부(214), 제1 멀티-모달 어텐션부(213)에 의해 생성되는 제1 특징 벡터로부터 비젼 인코더 벡터를 생성하는 제1 완전 연결층(fully connected layer)(215), 제2 멀티-모달 어텐션부(214)에 의해 생성되는 제2 특징 벡터로부터 오디오 인코더 벡터를 생성하는 제2 완전 연결층(216)을 포함할 수 있다.
비디오 캡션 서버(120)의 비디오 캡션부(123)를 구성하는 인공지능 모델은 인코더부(210)의 출력 값들을 출력하는 출력부(220, 230)와, 인공지능 모델을 학습하도록 출력부(220, 230)의 출력 값들을 인코더부(210)의 입력단으로 피드백하는 피드백부(240)를 포함할 수 있다.
디코더부(250)는 학습된 자막 키 값들을 기초로 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션(self attention) 처리하여 자막 어텐션 벡터를 생성하는 셀프 어텐션부(251), 셀프 어텐션부(251)에 의해 생성된 자막 어텐션 벡터와 인코더부(210)에 의해 생성된 비젼 인코더 벡터 및 오디오 인코더 벡터를 멀티-모달 어텐션 처리하는 멀티모달 어텐션부(252), 멀티-모달 어텐션 처리된 특징 벡터로부터 비디오 캡션을 생성하여 출력하는 완전 연결층(253)을 포함할 수 있다. 비디오 데이터와 관련된 자막 데이터는 캡션부(242)에 의해 획득될 수 있다.
도 3은 본 발명의 실시예에 따른 인공지능 모델의 신경망을 나타낸 개념도이다. 도 1 내지 도 3을 참조하면, 본 발명의 실시예에 따른 영상 보안 시스템의 신경망(300)은 2D 형태의 신경망을 1024-d Feature의 3D 형태로 확장시킨 Two-Stream 3D-ConvNet 구조(320, 340)로 제공될 수 있다. 본 발명의 실시예에 따른 인공지능 모델의 신경망은 ImageNet(310)에서 미리 훈련된 가중치를 가져와 성능을 극대화하도록 구현될 수 있으며, RGB, Optical Flow(330)를 기반으로 비디오 내 행동 및 모션 정보를 파악할 수 있다.
오디오 분석 딥러닝 모델 VGGish는 대규모 Youtube 데이터셋에서 학습된 모델로, 영상 내 오디오를 분석하고 어떤 카테고리인지 추론할 때 다중 오디오셋(Audioset) 클래스에 대한 분류기를 학습할 수 있으며, 128-d Feature 로 변환하여 다운스트림 분류(Downstream Classification) 모델에 입력으로 제공할 수 있다.
I3D 모델과 VGGish 모델의 특징 값들을 Vanilla Transformer 구조 내에서 멀티-모달(Multi-modal) 형태로 구성하고 Distillation, Pruning 경량화 작업을 거칠 수 있으며, 인공지능 모델에서 자동으로 행동 이벤트(Action Event)를 검출하고 비디오 캡션 정보를 생성할 수 있다. 이에 따라 광범위한 맥락 해석과 멀티-모달 분석을 통해 비젼 및 오디오 정보 모두를 활용하여 중단점(행동 정지점)을 자동으로 설정하여 구간별 맥락을 용이하게 파악할 수 있다.
비디오를 이해하기 위한 3D를 사용하는 구조인 C3D(3D ConvNet) 구조의 경우, 파라미터가 많아 트레이닝이 어렵고, 컨볼루션 층들(Convolutional Layers)이 많아 연산량이 압도적으로 높아, 좋은 퍼포먼스를 기대하기 어렵다. 본 발명의 실시예에 따라 사용되는 I3D 구조의 경우, C3D 구조와 달리 옵티컬 플로우(Optical Flow)를 추가하여 2D를 3D로 확장한 개념이기 때문에, ImageNet Pretrained Weight를 그대로 가져올 수 있으며, 이에 따라 확장성 및 접근성, 정확도 측면에서 성능 향상을 도모할 수 있다.
도 4는 본 발명의 실시예에 따른 영상 보안 방법의 순서도이다. 도 1, 도 2 및 도 4를 참조하면, 본 발명의 실시예에 따른 영상 보안 방법은 비디오 캡션부(200)에 의해, 비디오 데이터를 구성하는 시계열 순의 영상 프레임들을 포함하는 비젼 데이터로부터 비젼 데이터의 시계열 구간별로 비젼 데이터 내 객체의 행동과 관련된 비디오 캡션을 생성하는 단계(S10)와, 행동 분석부(124) 및 위험 행동 분석부(125)에 의해, 비디오 캡션이 기 설정된 위험 행동과 관련되는지 판단하고, 객체의 행동이 위험 행동과 관련되는 경우, 알람부(130)를 통해 위험 상황을 알리는 알람을 발생하는 단계(S20)를 포함할 수 있다.
이때, 비디오 캡션을 생성하는 단계(S10)는 비디오 데이터를 비젼 데이터와 오디오 데이터로 분할하는 단계, 및 인공지능 모델에 의해 시계열 구간별로 비젼 데이터 및 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 객체의 행동과 관련된 비디오 캡션을 생성하는 단계를 포함할 수 있다.
도 5는 도 4의 단계 S10을 나타낸 순서도이다. 도 2, 도 4 및 도 5를 참조하면, 비디오 캡션을 생성하는 단계(S10)는 인코더부(210)에 의해, 비젼 데이터와 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계(S12)와, 디코더부(250)에 의해, 학습된 자막 키 값들을 기초로 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하는 단계(S14) 및 디코더부(250)에 의해, 자막 어텐션 벡터와 비젼 인코더 벡터 및 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 비디오 캡션을 생성하는 단계(S16)를 포함할 수 있다.
단계 S12는 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 단계, 학습된 비젼 키 값들을 기초로 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 단계, 학습된 오디오 키 값들을 기초로 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 단계, 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 제1 멀티-모달 어텐션부에 입력하여 비젼 인코더 벡터를 생성하는 단계, 및 비젼 어텐션 벡터 및 오디오 어텐션 벡터를 제2 멀티-모달 어텐션부에 입력하여 오디오 인코더 벡터를 생성하는 단계를 포함할 수 있다.
비디오 캡션을 생성하는 단계(S10)는 비디오 데이터의 비젼 데이터를 기초로 행동 정지점을 설정하여 시계열 구간을 결정하는 단계를 포함할 수 있다. 알람을 발생하는 단계(S20)는 위험 행동의 발생 시점 및 객체의 위험 행동 정보를 관제시스템에 알리는 단계를 포함할 수 있다.
이상에서 설명된 실시예들의 구성 중 적어도 일부는 하드웨어 구성요소, 소프트웨어 구성요소, 및/ 또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(Arithmetic Logic Unit), 디지털 신호 프로세서(Digital Signal Processor), 마이크로컴퓨터, FPGA(Field Programmable Gate Array), PLU(Programmable Logic Unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다.
처리 장치는 운영 체제 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술 분야에서 통상의 지식을 가진 자는 처리 장치가 복수 개의 처리 요소(Processing Element) 및/또는 복수 유형의 처리요소를 포함할 수 있음을 이해할 것이다.
예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(Parallel Processor) 와 같은, 다른 처리 구성(Processing configuration)도 가능하다. 소프트웨어는 컴퓨터 프로그램(Computer Program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다.
소프트웨어 및/ 또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody) 될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능한 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CDROM, DVD와 같은 광기록 매체(optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
100 : 영상 보안 시스템
110 : 카메라 시스템
120 : 비디오 캡션 서버
121 : 비젼 서버
122 : 오디오 서버
123 : 비디오 캡션부
124 : 행동 분석부
125 : 위험 행동 분석부
200 : 비디오 캡션부
210 : 인코더부
211 : 비젼 셀프 어텐션부
212 : 오디오 셀프 어텐션부
213 : 제1 멀티-모달 어텐션부
214 : 제2 멀티-모달 어텐션부
215 : 제1 완전 연결층
216 : 제2 완전 연결층
220, 230 : 출력부
240 : 피드백부
250 : 디코더부
251 : 셀프 어텐션부
252 : 멀티모달 어텐션부
253 : 완전 연결층

Claims (11)

  1. 비디오 캡션부에 의해, 비디오 데이터를 구성하는 시계열 순의 영상 프레임들을 포함하는 비젼 데이터로부터 상기 비젼 데이터의 시계열 구간별로 상기 비젼 데이터 내 객체의 행동과 관련된 비디오 캡션을 생성하는 단계;
    행동 분석부에 의해, 상기 비디오 캡션이 기 설정된 위험 행동과 관련되는지 판단하는 단계; 및
    상기 객체의 행동이 상기 위험 행동과 관련되는 경우, 알람부에 의해 위험 상황을 알리는 알람을 발생하는 단계;를 포함하고,
    상기 비디오 캡션을 생성하는 단계는:
    상기 비디오 캡션부에 의해, 상기 비디오 데이터를 상기 비젼 데이터와 오디오 데이터로 분할하는 단계; 및
    상기 비디오 캡션부의 인공지능 모델에 의해 상기 시계열 구간별로 상기 비젼 데이터 및 상기 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 상기 객체의 행동과 관련된 상기 비디오 캡션을 생성하는 단계;를 포함하고,
    상기 비디오 캡션을 생성하는 단계는:
    (a) 인코더부에 의해, 상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 단계;
    (b) 디코더부에 의해, 학습된 자막 키 값들을 기초로 상기 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하는 단계; 및
    (c) 상기 디코더부에 의해, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 단계;를 포함하고,
    상기 (a) 단계는:
    비젼 셀프 어텐션부에 의해, 학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 단계;
    오디오 셀프 어텐션부에 의해, 학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 단계;
    상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제1 멀티-모달 어텐션부에 입력하여, 상기 제1 멀티-모달 어텐션부에 의해 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제1 특징 벡터를 생성하고, 상기 제1 멀티-모달 어텐션부에 의해 생성되는 상기 제1 특징 벡터로부터 제1 완전 연결층에 의해 상기 비젼 인코더 벡터를 생성하는 단계; 및
    상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 제2 멀티-모달 어텐션부에 입력하여, 상기 제2 멀티-모달 어텐션부에 의해 상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제2 특징 벡터를 생성하고, 상기 제2 멀티-모달 어텐션부에 의해 생성되는 상기 제2 특징 벡터로부터 제2 완전 연결층에 의해 상기 오디오 인코더 벡터를 생성하는 단계;를 포함하고,
    상기 알람을 발생하는 단계는 상기 알람부에 의해 상기 위험 행동의 발생 시점 및 상기 객체의 위험 행동 정보를 관제시스템에 알리는 단계를 포함하고,
    상기 비디오 캡션을 생성하는 단계는 상기 비디오 캡션부에 의해 상기 비젼 데이터를 기초로 행동 정지점을 설정하여 상기 시계열 구간을 결정하는 단계를 더 포함하는, 영상 보안 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 청구항 1의 영상 보안 방법을 실행시키도록 컴퓨터로 판독 가능한 기록 매체에 기록된 컴퓨터 프로그램.
  8. 비디오 데이터를 구성하는 시계열 순의 영상 프레임들을 포함하는 비젼 데이터로부터 상기 비젼 데이터의 시계열 구간별로 상기 비젼 데이터 내 객체의 행동과 관련된 비디오 캡션을 생성하는 비디오 캡션부;
    상기 비디오 캡션이 기 설정된 위험 행동과 관련되는지 판단하는 행동 분석부; 및
    상기 객체의 행동이 상기 위험 행동과 관련되는 경우, 위험 상황을 알리는 알람을 발생하는 알람부를 포함하고,
    상기 비디오 캡션부는:
    상기 비디오 데이터를 상기 비젼 데이터와 오디오 데이터로 분할하고;
    상기 비젼 데이터를 기초로 행동 정지점을 설정하여 상기 시계열 구간을 분할하고; 그리고
    인공지능 모델에 의해 상기 시계열 구간별로 상기 비젼 데이터 및 상기 오디오 데이터를 기초로 비젼 모드와 오디오 모드의 멀티-모달 분석을 통해 상기 객체의 행동과 관련된 상기 비디오 캡션을 생성하도록 구성되고,
    상기 비디오 캡션부는:
    상기 비젼 데이터와 상기 오디오 데이터를 기초로 멀티-모달 분석을 통해 비젼 인코더 벡터와, 오디오 인코더 벡터를 생성하는 인코더부; 및
    학습된 자막 키 값들을 기초로 상기 비디오 데이터와 관련된 자막 데이터를 셀프 어텐션 처리하여 자막 어텐션 벡터를 생성하고, 상기 자막 어텐션 벡터와 상기 비젼 인코더 벡터 및 상기 오디오 인코더 벡터를 멀티-모달 어텐션 처리하여 상기 비디오 캡션을 생성하는 디코더부;를 포함하고,
    상기 인코더부는:
    학습된 비젼 키 값들을 기초로 상기 비젼 데이터를 셀프 어텐션 처리하여 비젼 어텐션 벡터를 생성하는 비젼 셀프 어텐션부;
    학습된 오디오 키 값들을 기초로 상기 오디오 데이터를 셀프 어텐션 처리하여 오디오 어텐션 벡터를 생성하는 오디오 셀프 어텐션부;
    상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제1 특징 벡터를 생성하는 제1 멀티-모달 어텐션부;
    상기 비젼 어텐션 벡터 및 상기 오디오 어텐션 벡터를 기초로 멀티-모달 분석을 수행하여 제2 특징 벡터를 생성하는 제2 멀티-모달 어텐션부;
    상기 제1 멀티-모달 어텐션부에 의해 생성되는 상기 제1 특징 벡터로부터 비젼 인코더 벡터를 생성하는 제1 완전 연결층; 및
    상기 제2 멀티-모달 어텐션부에 의해 생성되는 상기 제2 특징 벡터로부터 상기 오디오 인코더 벡터를 생성하는 제2 완전 연결층;을 포함하고,
    상기 알람부는 상기 알람부에 의해 상기 위험 행동의 발생 시점 및 상기 객체의 위험 행동 정보를 관제시스템에 알리도록 구성되는, 영상 보안 시스템.
  9. 삭제
  10. 삭제
  11. 삭제
KR1020210193393A 2021-12-30 2021-12-30 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법 KR102411278B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020210193393A KR102411278B1 (ko) 2021-12-30 2021-12-30 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
KR1020220073183A KR20230103890A (ko) 2021-12-30 2022-06-16 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
PCT/KR2022/016300 WO2023128186A1 (ko) 2021-12-30 2022-10-24 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210193393A KR102411278B1 (ko) 2021-12-30 2021-12-30 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220073183A Division KR20230103890A (ko) 2021-12-30 2022-06-16 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR102411278B1 true KR102411278B1 (ko) 2022-06-22

Family

ID=82217076

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020210193393A KR102411278B1 (ko) 2021-12-30 2021-12-30 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
KR1020220073183A KR20230103890A (ko) 2021-12-30 2022-06-16 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020220073183A KR20230103890A (ko) 2021-12-30 2022-06-16 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Country Status (2)

Country Link
KR (2) KR102411278B1 (ko)
WO (1) WO2023128186A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023128186A1 (ko) * 2021-12-30 2023-07-06 주식회사 파일러 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100967718B1 (ko) * 2009-06-02 2010-07-07 주식회사 비스타씨엔씨 물체인식 정보를 이용한 영상 보안시스템
KR20100138612A (ko) * 2009-06-25 2010-12-31 삼성테크윈 주식회사 영상 보안 시스템에서 부호화 장치
KR20110067256A (ko) * 2009-12-14 2011-06-22 한국전자통신연구원 영상보안시스템용 서버/카메라 및 영상보안시스템용 서버/카메라의 이벤트 처리 방법
KR20170130880A (ko) * 2016-05-19 2017-11-29 박성철 영상매체를 포함하는 보안시스템 및 그 동작 방법
KR20180072084A (ko) * 2016-12-21 2018-06-29 전자부품연구원 통합관제시스템과 영상보안시스템 간 연동 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10417498B2 (en) * 2016-12-30 2019-09-17 Mitsubishi Electric Research Laboratories, Inc. Method and system for multi-modal fusion model
KR102411278B1 (ko) * 2021-12-30 2022-06-22 주식회사 파일러 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100967718B1 (ko) * 2009-06-02 2010-07-07 주식회사 비스타씨엔씨 물체인식 정보를 이용한 영상 보안시스템
KR20100138612A (ko) * 2009-06-25 2010-12-31 삼성테크윈 주식회사 영상 보안 시스템에서 부호화 장치
KR20110067256A (ko) * 2009-12-14 2011-06-22 한국전자통신연구원 영상보안시스템용 서버/카메라 및 영상보안시스템용 서버/카메라의 이벤트 처리 방법
KR20170130880A (ko) * 2016-05-19 2017-11-29 박성철 영상매체를 포함하는 보안시스템 및 그 동작 방법
KR20180072084A (ko) * 2016-12-21 2018-06-29 전자부품연구원 통합관제시스템과 영상보안시스템 간 연동 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023128186A1 (ko) * 2021-12-30 2023-07-06 주식회사 파일러 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법

Also Published As

Publication number Publication date
KR20230103890A (ko) 2023-07-07
WO2023128186A1 (ko) 2023-07-06

Similar Documents

Publication Publication Date Title
US11195067B2 (en) Systems and methods for machine learning-based site-specific threat modeling and threat detection
US10848715B2 (en) Anomalous stationary object detection and reporting
CN109741292B (zh) 用对抗自编码器检测第一图像数据集当中异常图像的方法
US7667596B2 (en) Method and system for scoring surveillance system footage
US8577082B2 (en) Security device and system
KR102195706B1 (ko) 침입 탐지방법 및 그 장치
KR102058452B1 (ko) IoT 융합 지능형 영상분석 플랫폼 시스템
CN104254873A (zh) 视频监控系统中的警报量归一化
KR20190054702A (ko) 영상에서 객체의 행동을 인식하는 방법 및 그 장치
KR101720781B1 (ko) 객체에 대한 이상 행동 예측 장치 및 이를 이용한 이상 행동 예측 방법
Cermeño et al. Intelligent video surveillance beyond robust background modeling
CN109544870B (zh) 用于智能监控系统的报警判断方法与智能监控系统
US8620022B2 (en) Event structure system and controlling method and medium for the same
KR102411278B1 (ko) 멀티-모달 비디오 캡셔닝 기반 영상 보안 시스템 및 방법
US20220262121A1 (en) System and method for mitigating crowd panic detection
Cho et al. Look around for anomalies: weakly-supervised anomaly detection via context-motion relational learning
Biradar et al. DEARESt: deep Convolutional aberrant behavior detection in real-world scenarios
Aqeel et al. Detection of anomaly in videos using convolutional autoencoder and generative adversarial network model
Arbab-Zavar et al. On hierarchical modelling of motion for workflow analysis from overhead view
KR20200071839A (ko) 영상 분석 장치 및 그 방법
Meena et al. Detecting abnormal event in traffic scenes using unsupervised deep learning approach
EP3401843A1 (en) A method, an apparatus and a computer program product for modifying media content
KR102608625B1 (ko) 효율적 운영이 가능한 딥러닝 기반 영상 감시 장치 및 방법
Kayani Real-time Violence Detection using Deep Learning Techniques
EP3819817A1 (en) A method and system of evaluating the valid analysis region of a specific scene

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
GRNT Written decision to grant