KR20230029258A - 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템 - Google Patents

다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템 Download PDF

Info

Publication number
KR20230029258A
KR20230029258A KR1020210111539A KR20210111539A KR20230029258A KR 20230029258 A KR20230029258 A KR 20230029258A KR 1020210111539 A KR1020210111539 A KR 1020210111539A KR 20210111539 A KR20210111539 A KR 20210111539A KR 20230029258 A KR20230029258 A KR 20230029258A
Authority
KR
South Korea
Prior art keywords
image
query
feature
captured
target object
Prior art date
Application number
KR1020210111539A
Other languages
English (en)
Inventor
김익재
최희승
김학섭
채승호
양윤식
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to KR1020210111539A priority Critical patent/KR20230029258A/ko
Priority to US17/537,790 priority patent/US11853350B2/en
Publication of KR20230029258A publication Critical patent/KR20230029258A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/292Multi-camera tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/50Maintenance of biometric data or enrolment thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/66Remote control of cameras or camera parts, e.g. by remote control devices
    • H04N23/661Transmitting camera control signals through networks, e.g. control via the Internet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/90Arrangement of cameras or camera modules, e.g. multiple cameras in TV studios or sports stadiums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

실시예들은 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 포함한 질의 정보 업데이트 명령을 수신하는 단계; 상기 다수의 카메라에 의해 캡처된 다수의 촬영 영상 중 상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하는 단계; 및 상기 검색된 적어도 하나의 촬영 영상에 기초하여 상기 질의 영상의 질의 정보를 업데이트하는 단계를 포함하는, 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템에 관련된다.

Description

다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템 {METHOD FOR UPDATING QUERY INFORMATION FOR TRACING TARGET OBJECT FROM MULTI-CAMERA AND MULTI-CAMERA SYSTEM PERFORMING THE SAME}
본 출원의 실시예들은 다중 카메라 환경에서 특정 대상 객체의 동선 추적을 위해 사용되는 재식별 기술의 매칭 성능 향상을 위해 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보을 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템에 관련된다.
최근 치안/보안에 대한 사회적 관심이 높아짐에 따라, 거리, 골목, 건물 내부 등에 설치되는 CCTV의 개수가 급격히 증가하고 있다. 수도권 지역의 한 사람이 하루 평균 83.1회 CCTV에 노출되는 것으로 파악된다. 이로 인해 대규모 CCTV 카메라를 사용하는 영상 분석 시스템은 1초에 수천 내지 수십만장 이상의 영상이 입력된다.
이와 같이 대규모의 입력 영상에서 사용자가 원하는 타겟 객체를 정확하게 검색하는 것이 필수적이다. 또한, 어느 하나의 카메라가 캡처한 영상에서 타겟 객체를 일차적으로 식별하더라도, 다른 카메라에서 캡처한 영상들 중에서 타겟 객체를 재식별하고 동선을 계속적으로 추적하는 것이 중요하다.
도 1은, 종래의 일 실시예에 따른, 대규모 CCTV 카메라를 사용하는 영상 분석 시스템의 동작의 개략도이다.
도 1을 참조하면, 종래의 영상 분석 시스템은 사용자가 검색 초기에 입력한 고정된 질의 정보만을 이용하여 다중 CCTV에서의 촬영 영상에서 특정 객체를 검색한다. 질의 정보가 고정되기 때문에, 대규모 CCTV 영상을 검색하여 특정 사용자를 찾기 위해서는 많은 시간이 소요되는 문제가 있다.
종래의 영상 분석 시스템은 범죄, 실종 등의 긴급 이벤트가 발생할 때 빠른 시간 내에 대규모 입력 영상에서 사용자가 요구하는 특정 객체(예컨대, 특정인, 사람/자동차 종류)의 동선을 파악하기 위한 니즈를 충족시키기 부족한 한계가 있다.
특허등록공보 제10-1498985호 (2015.03.05.)
본 발명의 실시예들에 따르면, 입력된 질의 영상을 기반으로 다른 질의 영상을 검색하여 검색된 다른 질의 영상의 정보를 질의 영상 정보로 업데이트 하여 특정 객체 매칭 성능을 향상하는 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보을 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템을 제공하고자 한다.
본 출원의 일 측면에 따른 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법은 다수의 카메라 및 영상 분석 서버를 포함한 시스템에 의해 수행될 수도 있다. 상기 방법은: 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 포함한 질의 정보 업데이트 명령을 수신하는 단계 - 상기 질의 정보는 대상 객체가 표현된 질의 영상, 상기 질의 영상에서 추출되는 상기 질의 영상의 특징 및 상기 대상 객체의 속성 중 적어도 하나를 포함함; 상기 다수의 카메라에 의해 캡처된 다수의 촬영 영상 중 상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하는 단계; 및 상기 검색된 적어도 하나의 촬영 영상에 기초하여 상기 질의 영상의 질의 정보를 업데이트하는 단계를 포함할 수도 있다.
일 실시예에서, 상기 방법은: 상기 질의 정보 업데이트 명령이 상기 질의 영상을 포함하고 상기 질의 영상의 특징을 포함하지 않는 경우, 상기 적어도 하나의 촬영 영상을 검색하거나 질의 정보를 업데이트하기 이전에, 상기 질의 영상으로부터 상기 질의 영상의 특징을 추출하는 단계를 더 포함할 수도 있다.
일 실시예에서, 상기 질의 정보를 업데이트하는 단계는, 검색된 적어도 하나의 촬영 영상으로부터 추출된, 촬영 영상의 특징과 상기 질의 영상의 특징에 기초하여 상기 질의 영상의 새로운 특징을 획득하는 단계; 및 상기 질의 영상의 새로운 특징에 기초하여 상기 질의 정보를 업데이트하는 단계를 포함할 수도 있다.
일 실시예에서, 상기 질의 영상의 새로운 특징을 획득하는 단계는, 상기 검색된 적어도 하나의 촬영 영상의 특징과 상기 질의 영상의 특징에 대한 대표 값을 상기 질의 영상의 새로운 특징으로 산출하는 단계;를 포함할 수도 있다. 상기 대표 값은 상기 촬영 영상의 특징 값과 상기 질의 영상의 특징 값에 대한 평균 또는 최대 값이다.
일 실시예에서, 상기 질의 영상의 새로운 특징을 획득하는 단계는, 상기 검색된 적어도 하나의 촬영 영상의 특징 중에서 상기 질의 영상의 특징에 매칭하는 특징을 제외한, 나머지 특징 중 적어도 일부를 새로운 특징으로 직접 획득할 수도 있다.
일 실시예에서, 상기 질의 영상의 새로운 특징을 획득하는 단계는, 입력 특징을 상기 영상 분석 서버에 미리 저장된 완전 연결층에 적용하여 산출된 출력 결과를 상기 질의 영상의 새로운 특징으로서 획득하는 단계를 포함할 수도 있다. 상기 입력 특징은 상기 검색된 적어도 하나의 촬영 영상의 특징과 상기 질의 영상의 특징을 결합한(concatenation) 것이다.
일 실시예에서, 상기 질의 정보는 상기 카메라의 캡처 시간 정보를 더 포함할 수도 있다. 상기 방법은: 상기 질의 정보 내 캡처 시간 정보에 기초하여 검색된 적어도 하나의 촬영 영상을 미리 지정된 캡처 시간대별로 분류하는 단계;를 더 포함할 수도 있다. 여기서 상기 질의 영상의 새로운 특징을 획득하는 단계는, 각 캡처 시간대별로 상기 질의 정보를 업데이트하기 위해, 캡처 시간대별 상기 질의 영상의 새로운 특징을 각각 생성하는 단계를 포함할 수도 있다.
일 실시예에서, 상기 캡처 시간대는 하루 동안의 배경 조도 분포에서 각 캡처 시간별 배경 조도의 변화가 상대적으로 큰 지점을 기준으로 지정될 수도 있다.
일 실시예에서, 상기 질의 정보는 상기 카메라의 사양 정보를 더 포함한다. 상기 방법은: 상기 질의 정보 내 사양 정보에 기초하여 검색된 적어도 하나의 촬영 영상을 카메라의 사양별로 분류하는 단계;를 더 포함할 수도 있다. 여기서 상기 질의 영상의 새로운 특징을 획득하는 단계는, 각 사양별로 상기 질의 정보를 업데이트하기 위해, 카메라의 사양별로 상기 질의 영상의 새로운 특징을 각각 생성하는 단계를 포함할 수도 있다.
일 실시예에서, 상기 카메라의 사양 정보는, 카메라의 종류, 촬영 영상의 형식(format), 화소, 및 해상도 중 하나 이상을 포함할 수도 있다.
일 실시예에서, 상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하는 단계는, 상기 다수의 카메라로부터 획득된 복수의 촬영 영상 각각에 대해서, 각 촬영 영상의 특징과 상기 질의 영상의 특징이 매칭할 경우 해당 촬영 영상을 상기 대상 객체를 표현한 촬영 영상으로 결정할 수도 있다.
일 실시예에서, 상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하는 단계는, 상기 다수의 카메라로부터 획득된 복수의 촬영 영상 각각에 대해서, 각 촬영 영상 내 촬영 객체의 속성과 상기 대상 객체의 속성 간의 매칭 정도 또는 매칭 개수에 기초하여 해당 촬영 객체를 대상 객체로 결정할 수도 있다.
일 실시예에서, 상기 완전 연결층은, 입력된 특징을 갖는 촬영 객체와 대상 객체가 서로 공유하는 고유한 특징의 비중이 증가하도록 미리 학습될 수도 있다.
본 출원의 다른 일 측면에 따른 컴퓨터 판독가능 기록매체는 상술한 실시예들에 따른 방법을 수행하기 위한, 프로그램을 기록할 수도 있다.
본 출원의 또 다른 일 측면에 따른 다중 카메라 시스템은: 촬영 객체를 캡처하여 촬영 영상을 생성하는 다수의 카메라; 및 상기 다수의 카메라로부터 촬영 영상을 제공 받는 영상 분석 서버를 포함할 수도 있다. 상기 영상 분석 서버는: 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 포함한 질의 정보 업데이트 명령을 수신하고 - 상기 질의 정보는 대상 객체가 표현된 질의 영상, 상기 질의 영상에서 추출되는 상기 질의 영상의 특징 및 상기 대상 객체의 속성 중 적어도 하나를 포함함; 상기 다수의 카메라에 의해 캡처된 다수의 촬영 영상 중 상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하며; 그리고 상기 검색된 적어도 하나의 촬영 영상에 기초하여 상기 질의 영상의 질의 정보를 업데이트하도록 구성된다.
본 발명의 일 측면에 따른 다중 카메라 시스템은 시스템의 특정 객체 매칭 성능이 향상되도록 대상 객체를 표현한 질의 영상의 질의 정보를 업데이트할 수 있다.
특히, 시스템의 촬영 영상 중에서 질의 정보의 조건에 부합하여 재식별된 패치를 사용해 질의 정보를 업데이트함으로써, 다중 카메라 환경에서 적응적인 특정 객체 검색(또는 추적)이 가능하다. 그 결과, 다각도의 사용자 영상 및 입력 영상에 따라 효율적인 검색을 할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
본 발명 또는 종래 기술의 실시예의 기술적 해결책을 보다 명확하게 설명하기 위해, 실시예에 대한 설명에서 필요한 도면이 아래에서 간단히 소개된다. 아래의 도면들은 본 명세서의 실시예를 설명하기 위한 목적일 뿐 한정의 목적이 아니라는 것으로 이해되어야 한다. 또한, 설명의 명료성을 위해 아래의 도면들에서 과장, 생략 등 다양한 변형이 적용된 일부 요소들이 도시될 수 있다.
도 1은, 종래의 일 실시예에 따른, 다중 카메라 시스템의 개략도이다.
도 2는, 본 출원의 일 측면에 따른, 다중 카메라 시스템의 블록도이다.
도 3은, 도 2의 다중 카메라 시스템에 의해 수행도는 질의 정보 업데이트 동작의 개략도이다
도 4는, 본 출원의 다른 일 측면에 따른, 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법의 개략도이다.
도 5는, 본 출원의 일 실시예에 따른, 캡처 시간대별로 질의 정보를 업데이트하는 과정의 개략도이다.
도 6a 내지 도 6c는, 본 출원의 일 실시예에 따른, 카메라 사양별로 질의 정보를 업데이트하는 과정의 개략도이다.
도 7은, 본 출원의 일 실시예에 따른, 질의 정보 업데이트 결과를 도시한 도면이다.
이하에서, 도면을 참조하여 본 발명의 실시예들에 대하여 상세히 살펴본다.
그러나, 이는 본 개시를 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 실시예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.
본 명세서에서, “가진다,” “가질 수 있다,”“포함한다,” 또는 “포함할 수 있다” 등의 표현은 해당 특징(예: 수치, 기능, 동작, 단계, 부품, 요소 및/또는 성분 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재나 부가를 제외시키는 것이 아니다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
다양한 실시예에서 사용된 “제 1”, “제 2”, “첫째” 또는 “둘째” 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 해당 구성요소들을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 수 있다. 예를 들면, 제1 구성요소와 제2 구성요소는, 순서 또는 중요도와 무관하게, 서로 다른 구성요소를 나타낼 수 있다.
본 명세서에서 사용된 표현 “~하도록 구성된(또는 설정된)(configured to)”은 상황에 따라, 예를 들면, “~에 적합한(suitable for),” “~하는 능력을 가지는(having the capacity to),” “~하도록 설계된(designed to),” “~하도록 변경된(adapted to),” “~하도록 만들어진(made to),”또는 “~를 할 수 있는(capable of)”과 바꾸어 사용될 수 있다. 용어 “~하도록 구성(또는 설정)된”은 하드웨어적으로 “특별히 설계된(specifically designed to)”것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, “~하도록 구성된 장치”라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 “~할 수 있는” 것을 의미할 수 있다. 예를 들면, 문구 “A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서”는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.
도 2는, 본 출원의 일 측면에 따른, 다중 카메라 시스템의 블록도이고, 도 3은, 도 2의 다중 카메라 시스템에 의해 수행도는 질의 정보 업데이트 동작의 개략도이다.
도 2 및 도 3을 참조하면, 다중 카메라 시스템(1)은 다수의 카메라(100); 및 영상 분석 서버(300)를 포함한다. 특정 실시예들에서, 상기 영상 분석 서버(300)는 재식별 모듈(310) 및 업데이트 모듈(330)를 포함할 수도 있다.
실시예들에 따른 다중 카메라 시스템(1)은 전적으로 하드웨어이거나, 전적으로 소프트웨어이거나, 또는 부분적으로 하드웨어이고 부분적으로 소프트웨어인 측면을 가질 수 있다. 예컨대 다중 카메라 시스템(1)은 데이터 처리 능력이 구비된 하드웨어 및 이를 구동시키기 위한 운용 소프트웨어를 통칭할 수 있다. 본 명세서에서 "부(unit)", “모듈(module)”“장치”, 또는 "시스템" 등의 용어는 하드웨어 및 해당 하드웨어에 의해 구동되는 소프트웨어의 조합을 지칭하는 것으로 의도된다. 예를 들어, 하드웨어는 CPU(Central Processing Unit), GPU(Graphic Processing Unit) 또는 다른 프로세서(processor)를 포함하는 데이터 처리 가능한 컴퓨팅 장치일 수 있다. 또한, 소프트웨어는 실행중인 프로세스, 객체(object), 실행파일(executable), 실행 스레드(thread of execution), 프로그램(program) 등을 지칭할 수 있다.
카메라(100)는 물리적 신호를 수신하여 촬영 객체 및/또는 배경이 표현된 영상 또는 연속적인 영상으로 이루어진 비디오를 생성하도록 구성된 캡처기기이다. 상기 카메라(100)는 이미지 센서, 사진기, 캠코더, CCTV, 및 기타 영상 캡처장치를 포함할 수도 있다.
상기 다중 카메라 시스템(1)은 다수의 카메라(100)를 포함한다. 특정 객체가 다중 카메라 시스템(1)의 일부 또는 전부의 캡처 범위에서 이동하는 경우 상기 특정 객체를 포착한 하나 이상의 촬영 영상이 획득된다. 상기 하나 이상의 촬영 영상 중 일부 또는 전부는 서로 상이한 캡처 시간을 가질 수도 있다. 또는 상기 하나 이상의 촬영 영상 중 일부 또는 전부는 서로 상이한 캡처 장소를 가질 수도 있다.
상기 카메라(100)는 영상 데이터를 생성하고 생성한 영상과 관련된 상세 정보를 생성하도록 더 구성될 수도 있다. 상기 상세 정보는 영상을 캡처한 카메라(100)의 식별정보(예컨대, 식별자(identifier)), 카메라(100)의 위치 정보, 영상의 캡처 시간, 및/또는 영상 데이터의 식별정보 등을 포함한다. 예를 들어, CCTV(100)가 캡처범위 내의 상황을 캡처하여 비디오를 생성한 경우, 상기 비디오를 이루는 복수의 프레임, 그리고 해당 CCTV(100)의 식별자, 프레임 식별자, 캡처시간 등을 포함한 상세 정보를 생성할 수도 있다.
이러한 상세 정보는 관련된 촬영 영상이 전송될 경우 함께 전송된다. 본 명세서에서 특별한 언급이 없는한 촬영 영상이 카메라(100)로부터 다른 구성요소로 전송되는 동작에서 관련된 상세 정보의 전송이 배제되는 것으로 의도되지 않는다.
상기 다수의 카메라(100)는 촬영 영상을 영상 분석 서버(300)로 전송한다.
영상 분석 서버(300)는 네트워크 영상 분석 서버로 구현되는 다수의 컴퓨터 시스템 또는 컴퓨터 소프트웨어로서, 다수 개의 카메라(100)에 의해 생성된 영상(예컨대, 비디오)을 유/무선의 네트워크를 통해 수신하도록 구성된다. 여기서, 네트워크 영상 분석 서버란, 사설 인트라넷 또는 인터넷과 같은 컴퓨터 네트워크를 통해 다른 네트워크 영상 분석 서버와 통신할 수 있는 하위 장치와 연결되어 작업 수행 요청을 접수하고 그에 대한 작업을 수행하여 수행 결과를 제공하는 컴퓨터 시스템 및 컴퓨터 소프트웨어(네트워크 영상 분석 서버 프로그램)를 의미한다. 그러나 이러한 네트워크 영상 분석 서버 프로그램 이외에도, 네트워크 영상 분석 서버 상에서 동작하는 일련의 응용 프로그램과 경우에 따라서는 내부에 구축되어 있는 각종 데이터베이스를 포함하는 넓은 개념으로 이해되어야 할 것이다.
상기 영상 분석 서버(300)는 대상 객체를 검출하기 위한 질의 정보를 수신하면, 상기 질의 정보에 기초해 다수의 촬영 영상에서 대상 객체를 재식별하여 상기 대상 객체를 검출할 수도 있다. 예를 들어, 재식별 모듈(310)은 대상 객체를 다른 촬영 영상에서 재식별하여 검출할 수도 있다. 또한, 재식별 모듈(310)은 상기 대상 객체의 동선을 추적할 수도 있다.
또한, 상기 영상 분석 서버(300)는 검출된 대상 객체의 영상에 기초하여 대상 객체를 추적하기 위한 질의 정보를 업데이트한다. 예를 들어, 업데이트 모듈(330)은 대상 객체가 검출된 다른 촬영 영상 및 질의 영상에 기초하여 질의 정보를 업데이트할 수도 있다.
이러한 영상 분석 서버(300)의 질의 정보 업데이트 동작에 대해서는 아래의 도 4 등을 참조하여 보다 상세히 서술한다.
상기 다중 카메라 시스템(1)은 촬영 영상을 저장하는 데이터베이스(미도시)를 더 포함할 수도 있다. 영상 분석 서버(300)는 질의 정보 업데이트 명령을 수신하기 이전에 다수의 카메라(100)가 캡처한 영상을 데이터베이스에 미리 저장하고, 질의 정보 업데이트 명령을 수신하면 질의 정보와 관련된 대상 객체에 매칭하는 영상을 상기 데이터베이스에서 검색할 수도 있다.
상기 다중 카메라 시스템(1)이 본 명세서에 서술되지 않은 다른 구성요소를 포함할 수도 있다는 것이 통상의 기술자에게 명백할 것이다. 예를 들어, 데이터 입력 장치, 디스플레이 및/또는 인쇄와 같은 출력 장치, 메모리와 같은 저장장치, 네트워크, 네트워크 인터페이스 및 프로토콜 등을 더 포함할 수 있다.
본 출원의 다른 일 측면에 따른 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법은 프로세서를 포함한 컴퓨팅 장치에 의해 수행된다. 여기서, 컴퓨팅 장치는 다수의 카메라와 통신하도록 구성된다. 예를 들어, 상기 컴퓨팅 장치는 다수의 카메라(100)와 통신하는 도 2의 영상 분석 서버(300)일 수도 있다. 이하, 설명의 명료성을 위해, 상기 방법은 도 2의 시스템(1)에 의해 수행되는 실시예들을 기초로 보다 상세하게 서술한다.
도 4는, 본 출원의 다른 일 측면에 따른, 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법의 개략도이다.
도 4를 참조하면, 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법(이하, 질의 정보 업데이트 방법)은: (예컨대, 영상 분석 서버(300)에서) 질의 정보를 포함한 질의 정보 업데이트 명령을 수신하는 단계(S100);를 포함한다.
영상 분석 서버(300)는 질의 정보 업데이트 명령을 수신하면 질의 정보를 업데이트하기 위한 동작을 개시한다.
상기 질의 정보는 다중 카메라에 의해 촬영된 대규모 촬영 영상에서 대상 객체를 추적하기 위한 정보이다. 상기 질의 정보는 상기 대상 객체를 표현한 질의 영상, 질의 영상의 특징(features) 및 상기 대상 객체의 속성(attributes) 중 적어도 하나를 포함한다.
질의 영상은 다수의 카메라(100)에서 캡처한 영상들 중 특정 영상일 수도 있다. 예를 들어, 다수의 카메라(100)에서 캡처한 영상들에서 대상 객체를 표현한 특정 촬영 영상이 사용자에 의해 질의 영상으로 지정될 수도 있다.
상기 질의 영상은 상기 특정 영상 자체이거나, 상기 특정 영상에서 상기 대상 객체가 차지하는 서브 영역으로 이루어진 패치(patch)일 수도 있다.
상기 질의 영상의 특징은 해당 객체의 고유한 기하학적 특징으로서, 예를 들어 엣지, 포인트, 및/또는 굴곡(curvates) 등을 포함한다. 상기 특징은 특징 맵 또는 특징 벡터 형태로 구현될 수도 있다.
상기 질의 영상의 특징은 객체 인식을 위한 기계학습 모델에서 입력 영상의 객체를 인식하는데 사용되는 특징일 수도 있다. 이러한 기계학습 모델은 영상 특징을 추출하는 CNN(Convolution Neural Network), RNN(Recurrent Neural Network), LSTM(Long Short-Term Memory models) 또는 GAN(Generative Adversarial Network) 구조를 가질 수도 있다. 상기 질의 영상의 특징은 대상 객체의 패치를 상기 기계학습 모델에 입력할 경우 상기 기계학습 모델의 특징 추출 유닛(예컨대, 컨볼루션 필터)에 의해 입력 패치로부터 추출되는 영상 특징일 수도 있다.
상기 대상 객체의 속성(attributes)은 상기 대상 객체를 서술하기 위해 할당된 객체 정보이다. 상기 대상 객체의 속성은 외관 속성 및/또는 움직임(activity) 속성을 포함한다. 상기 외관 속성은, 예를 들어 객체의 색상, 크기, 상기 객체가 착용한 아이템(예컨대, 옷, 악세서리 등), 성별, 나이, 관절(joints) 정보 등을 포함한다. 상기 움직임 속성은 방향, 속도, 속력 등을 포함한다. 또한, 상기 대상 객체의 속성은 외관 및 움직임의 조합 속성을 포함할 수도 있다. 상기 조합 속성은, 예를 들어 걸음걸이 등을 포함할 수도 있다. 걸음걸이는 걸음 속도 및 걸음 형상을 포함할 수도 있다.
상기 질의 정보 업데이트 방법은: (예컨대, 재식별 모듈(310)에 의해) 다수의 카메라(100)에서 캡처한 촬영 영상 중 상기 대상 객체를 캡처한 촬영 영상을 검색하는 단계(S200)를 포함한다. 상기 대상 객체를 캡처한 다른 촬영 영상은 단계(S100)에서 수신한 질의 정보에 기초하여 수행된다.
영상 분석 서버(300)가 질의 영상을 포함한 질의 정보를 수신할 경우, 재식별 모듈(310)은 질의 영상으로부터 질의 영상의 특징을 추출하고, 추출된 질의 영상의 특징에 기초하여 질의 영상과 다른, 다수의 카메라(100)에 의해 미리 캡처된 촬영 영상 중 상기 대상 객체를 캡처한 촬영 영상을 검색한다(S200).
해당 촬영 영상의 특징이 질의 영상의 특징과 공차 범위 수준으로 매우 유사하면 상기 촬영 영상이 대상 객체를 캡처한 것으로 결정된다.
재식별 모듈(310)은 촬영 영상의 분석 결과 미리 설정된 조건을 만족할 경우, 해당 촬영 영상을 대상 객체를 표현한 촬영 영상으로 결정할 수도 있다.
일 실시예에서, 재식별 모듈(310)은 초기 질의 영상을 사용하여 객체 유사 스코어(similarity score)를 산출하고, 산출된 객체 유사 스코어에 기초하여 대상 객체를 캡처한 다른 촬영 영상을 검색할 수도 있다. 상기 객체 유사 스코어는 다른 촬영 영상에서 검출된 촬영 객체와 질의 영상 내 대상 객체 간의 매칭 정도를 점수화한 값이다.
상기 재식별 모듈(310)은, 예를 들어, 유클라디언 유사도 방식, 코사인 유사도 방식, 마할라노비스 유사도 방식, 또는 기타 객체 간의 특징 비교 방식을 통해 객체 유사 스코어를 산출할 수도 있다.
상기 미리 설정된 조건은 특정 임계 값 또는 랭크-1의 행렬일 수도 있다. 상기 재식별 모듈(310)은 산출된 객체 유사 스코어가 미리 설정된 임계 값 이상이면 해당 촬영 객체는 대상 객체에 매칭한 것으로 결정한다. 또는, 상기 재식별 모듈(310)은 산출된 객체 유사 스코어가 미리 설정된 랭크-1의 행렬 값을 가질 경우 해당 촬영 객체는 대상 객체에 매칭한 것으로 결정한다.
또한, 재식별 모듈(310)은 촬영 객체에 연관된 속성 정보와 질의 정보의 속성 정보 간의 매칭 결과가 미리 설정된 조건을 만족할 경우, 해당 촬영 영상을 대상 객체를 표현한 촬영 영상으로 결정할 수도 있다.
일 실시예에서, 재식별 모듈(310)은 속성 매칭 개수 또는 속성 유사 스코어에 기초하여 대상 객체를 캡처한 다른 촬영 영상을 검색할 수도 있다.
속성 유사 스코어는 동일한 속성 항목 간의 매칭 정도를 나타낸다. 재식별 모듈(310)은 산출된 속성 유사 스코어가 미리 지정된 속성 임계 값 이상일 경우 객체 간의 속성이 매칭하는 것으로 결정한다.
각 객체가 복수의 속성을 갖는 경우, 재식별 모듈(310)은 각 속성 항목에 대해서 매칭 정도를 계산하여 속성 매칭 개수를 산출할 수도 있다.
다른 일 실시예에서, 재식별 모듈(310)은 관절 정보, 또는 걸음걸이 정보에 기초하여 대상 객체를 캡처한 다른 촬영 영상을 검색할 수도 있다.
대상 객체에 매칭하는 것으로 검색된 촬영 영상 또는 해당 촬영 영상과 관련된 정보는 질의 정보를 업데이트하는데 사용된다.
상기 질의 정보 업데이트 방법은: (예컨대, 업데이트 모듈(330)에 의해) 검색된 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 질의 정보를 업데이트하는 단계(S300)를 포함한다.
일 실시예에서, 상기 질의 정보 업데이트 명령이 상기 질의 영상을 포함하고 상기 질의 영상의 특징을 포함하지 않는 경우, 업데이트(S300) 이전에 상기 질의 정보 내 질의 영상으로부터 질의 영상의 특징을 미리 추출할 수도 있다. 이 특징 추출 단계는 적어도 하나의 촬영 영상을 검색하는 단계(S200) 또는 질의 정보를 업데이트하는 단계(S300) 이전에 수행된다.
추출된 질의 영상의 특징은 검색 단계(S200) 및 업데이트 단계(S300)에서 사용되거나, 또는 업데이트 단계(S300)에서 사용될 수도 있다.
일 실시예에서, 상기 단계(S300)는: 촬영 영상의 특징과 상기 질의 영상의 특징에 기초하여 상기 질의 영상의 새로운 특징을 획득하는 단계(S310); 및 상기 질의 영상의 새로운 특징에 기초하여 상기 질의 정보를 업데이트하는 단계(S330)를 포함할 수도 있다.
단계(S310)에서 업데이트 모듈(330)은 촬영 영상의 특징과 상기 질의 영상의 특징에 기초하여 상기 질의 영상의 새로운 특징을 획득한다. 질의 영상의 새로운 특징을 획득하기 위한 촬영 영상의 특징은 단계(S100)에서 검색된 적어도 하나의 촬영 영상으로부터 추출된 영상 특징이다. 질의 영상의 새로운 특징을 획득하기 위한 질의 영상의 특징은 질의 정보에 포함된 입력 특징이거나 단계(S100) 이후 영상 분석 서버(300)에서 질의 영상으로부터 추출된 특징일 수도 있다.
일 실시예에서, 업데이트 모듈(330)은, 상기 질의 영상의 새로운 특징을 획득하기 위해, 상기 검색된 적어도 하나의 촬영 영상의 특징과 상기 질의 영상의 특징에 대한 대표 값을 상기 질의 영상의 새로운 특징으로 산출할 수도 있다(S310). 여기서 대표 값은 상기 촬영 영상의 특징과 상기 질의 영상의 특징에 대한 평균 또는 최대 값일 수도 있다.
촬영 영상의 특징과 질의 영상의 특징이 벡터(또는 행렬)로 구현될 경우, 서로 대응하는 성분 간의 평균 또는 최대 값을 갖는 대표 벡터(또는 행렬)가 질의 영상의 새로운 특징으로 산출된다(S310). 이 경우, 질의 영상의 새로운 특징은 여러 개의 기존 특징이 조합된 하나의 값으로 업데이트될 수도 있다.
다른 일 실시예에서, 상기 업데이트 모듈(330)은, 상기 검색된 적어도 하나의 촬영 영상의 특징 중에서 상기 질의 영상의 특징에 매칭하는 특징을 제외한, 나머지 특징 중 적어도 일부를 새로운 특징으로 직접 획득할 수도 있다. 이 경우, 질의 영상의 새로운 특징은 기존 특징에 검색 과정에서 획득된 새로운 특징이 추가되어, 기존 특징 및 새로운 특징 중 적어도 일부를 포함하도록 업데이트될 수도 있다. 예를 들어, 검색된 영상의 특징 중 질의 영상의 특징에 매칭하는 특징을 제외한, 나머지 특징이 N개일 경우, 해당 질의 영상의 특징은 기존의 특징 및 N개의 새로운 특징을 포함하도록 업데이트될 수도 있다.
일 실시예에서, 업데이트 모듈(330)은 입력 특징을 상기 영상 분석 서버(300)에 미리 저장된 완전 연결층에 적용하여 상기 완전 연결층의 출력 결과를 상기 질의 영상의 특징으로서 획득할 수도 있다. 상기 입력 특징은 상기 검색된 적어도 하나의 촬영 영상의 특징과 상기 질의 영상의 특징을 결합한(concatenation) 것일 수도 있다.
상기 완전 연결층은 입력 특징이 적용되면 상기 입력 특징이 추출된 객체를 인식하도록 학습된 네트워크의 층일 수도 있다. 일 실시예에서, 상기 완전 연결층의 파라미터는 입력된 특징의 영상 간에 공유하는 객체의 고유한 특징을 보다 정확하게 인식하도록 학습된 것일 수도 있다.
대상 객체를 캡처한 것으로 검색된 촬영 영상이 하나인 경우, 업데이트 모듈(330)은 검색된 하나의 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 질의 영상의 새로운 특징을 산출하고(S310); 기존의 질의 정보를 산출된 새로운 특징으로 업데이트할 수도 있다(S330). 대상 객체를 캡처한 것으로 검색된 촬영 영상이 복수인 경우, 업데이트 모듈(330)은 검색된 복수의 촬영 영상 각각에 대해서, 각 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 각각의 질의 영상의 새로운 특징을 산출하고(S310); 기존의 질의 정보를 산출된 새로운 특징으로 업데이트할 수도 있다(S330). 단계(S310 및 S330)의 업데이트 동작은 업데이트를 위해 사용되지 않은 검색 촬영 영상이 존재하지 않을 때까지 반복될 수도 있다.
예를 들어, 제1 촬영 영상 및 제2 촬영 영상이 검색된 경우, 업데이트 모듈(330)은 제1 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 질의 영상의 제1새로운 특징을 산출하고(S310); 기존의 질의 정보를 산출된 제1 새로운 특징으로 업데이트한다(S330). 이어서, 업데이트 모듈(330)은 제2 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 질의 영상의 제2새로운 특징을 산출하고(S310); 기존의 질의 정보(즉, 제1 새로운 특징)를 산출된 제2 새로운 특징으로 업데이트한다(S330).
또한, 업데이트 모듈(330)은 기존 질의 정보를 여러 개의 질의 정보로 업데이트할 수도 있다(S300).
도 5는, 본 출원의 일 실시예에 따른, 캡처 시간대별로 질의 정보를 업데이트하는 과정의 개략도이다.
도 5를 참조하면, 상기 질의 정보 업데이트 방법은 상기 질의 정보 내 캡처 시간 정보에 기초하여 단계(S200)에서 검색된 적어도 하나의 촬영 영상을 미리 지정된 캡처 시간대별로 분류하는 단계를 더 포함할 수도 있다. 이를 위해, 질의 정보는 카메라(100)의 캡처 시간 정보를 더 포함한다.
일 실시예에서, 상기 캡처 시간대는 하루 동안의 배경 조도 분포에서 각 캡처 시간별 배경 조도의 변화가 상대적으로 큰 지점을 기준으로 지정될 수도 있다. 예를 들어, 상기 캡처 시간대는 조도 변화가 큰 낮시간대와 밤시간대를 포함할 수도 있다. 상기 낮시간대와 밤시간대는 일몰/일출 시간에 의해 구분될 수도 있다.
상기 다수의 카메라(100)는 낮 시간대의 캡처영상 및 밤시간대의 촬영 영상을 캡처할 수도 있다. 이러한 낮/밤 시간대의 촬영 영상이 영상 분석 서버(300)로 제공되면, 영상 분석 서버(300)는 단계(S200)에서 검색된 적어도 하나의 촬영 영상 각각의 캡처 시간이 낮시간대에 속하는 경우 해당 촬영 영상을 낮시간대 촬영 영상으로 분류한다.
이와 같이 캡처 시간 정보를 포함한 질의 정보가 입력되어 검색된 촬영 영상의 캡처 시간대가 결정되면, 업데이트 모듈(330)은 각 캡처 시간대별로 상기 질의 정보를 업데이트하기 위해, 캡처 시간대별 상기 질의 영상의 새로운 특징을 각각 생성할 수도 있다(S310). 상기 일 예시에서, 업데이트 모듈(330)은 낮시간대에 속하는 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 낮시간대에 대한 질의 영상의 새로운 특징 그리고 밤시간대에 속하는 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 밤시간대에 대한 질의 영상의 새로운 특징을 각각 생성할 수도 있다. 업데이트 모듈(330)은 낮시간대에 대한 질의 영상의 새로운 특징 및 밤시간대에 대한 질의 영상의 새로운 특징에 기초하여 질의 정보를 업데이트한다(S330). 그러면, 질의 정보는 낮/밤의 복수의 시간대에 대한 여러 개의 질의 정보로 업데이트된다.
도 6a 내지 도 6c는, 본 출원의 일 실시예에 따른, 카메라 사양별로 질의 정보를 업데이트하는 과정의 개략도이다.
도 6a 내지 도 6c를 참조하면, 상기 질의 정보 업데이트 방법은 상기 질의 정보 내 카메라의 사양 정보에 기초하여 단계(S200)에서 검색된 적어도 하나의 촬영 영상을 카메라의 사양별로 분류하는 단계를 더 포함할 수도 있다. 이를 위해, 질의 정보는 카메라(100)의 사양 정보를 더 포함한다.
일 실시예에서, 상기 카메라의 사양 정보는, 카메라의 종류, 촬영 영상의 형식(format), 화소, 및 해상도 중 하나 이상을 포함할 수도 있다.
일 예시에서, 제1 카메라(100)A 내지 제3 카메라(100)cC로부터 촬영 영상이 획득된 경우, 카메라 사양 정보는 제1 카메라(100A)의 사양 정보, 제2 카메라(100B)의 사양 정보, 및 제3 카메라(100C)의 사양 정보를 포함한다. 상기 제1 카메라(100A)의 사양 정보는, 도 6a에 도시된 바와 같이 SD 카메라를 나타낸 종류 정보, 30만 화소를 나타낸 화소 정보, 720 × 480 해상도를 나타낸 해상도 정보를 포함할 수도 있다. 상기 제2 카메라(100B)의 사양 정보는, 도 6b에 도시된 바와 같이 HD 카메라를 나타낸 종류 정보, 100만 화소를 나타낸 화소 정보, 1280 × 720 해상도를 나타낸 해상도 정보를 포함할 수도 있다. 상기 제3 카메라(100C)의 사양 정보는, 도 6c에 도시된 바와 같이 FHD(Full-HD) 카메라를 나타낸 종류 정보, 200만 화소를 나타낸 화소 정보, 1920 × 1080 해상도를 나타낸 해상도 정보를 포함할 수도 있다.
이러한 카메라의 사양별 촬영 영상이 영상 분석 서버(300)로 제공되면, 영상 분석 서버(300)는 단계(S200)에서 검색된 적어도 하나의 촬영 영상이 해당하는 사양으로 검색된 적어도 하나의 촬영 영상을 분류한다.
이와 같이 카메라의 사양 정보를 포함한 질의 정보가 입력되어 검색된 촬영 영상의 사양별로 분류되면, 업데이트 모듈(330)은 각 사양별로 상기 질의 영상의 새로운 특징을 각각 생성할 수도 있다(S310). 사양별 특징은 사양 항목별로 각각 생성된다.
상기 일 예시에서, 업데이트 모듈(330)은 SD 카메라에 해당한 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 SD 카메라에 대한 질의 영상의 새로운 특징; HD 카메라에 해당한 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 HD 카메라에 대한 질의 영상의 새로운 특징; 그리고FHD 카메라에 해당한 촬영 영상의 특징 및 질의 영상의 특징에 기초하여 FHD 카메라에 대한 질의 영상의 새로운 특징을 각각 생성할 수도 있다. 그러면, 질의 정보는 카메라의 종류별 여러 개의 질의 정보로 업데이트된다.
마찬가지로 상기 일 예시에서, 상기 업데이트 모듈(330)은 각 화소별 질의 영상의 새로운 특징 및 각 해상도별 질의 영상의 새로운 특징을 각각 생성하고, 화소별 그리고 해상도별 여러 개의 질의 정보로 질의 정보를 업데이트할 수도 있다.
이와 같이 도 6a 내지 도 6c의 영상이 제공된 경우, 영상 분석 서버(300)는 기존 질의 정보를 9개의 새로운 질의 정보로 업데이트할 수도 있다.
이와 같이 질의 영상의 다양한 측면을 고려하여 질의 정보가 업데이트되면, 다중 카메라 시스템(1)이 대상 객체를 추적하는 성능이 향상된다.
도 7은, 본 출원의 일 실시예에 따른, 질의 정보 업데이트 결과를 도시한 도면이다.
도 7은 다중 카메라 시스템(1)의 8개의 카메라가 모두 대상 객체를 촬영하였으나, 질의 정보를 업데이트하기 이전에는 3개의 카메라에서 캡처된 촬영 영상에서만 대상 객체를 추적한 상황을 묘사한다. 질의 정보가 업데이트되면, 업데이트 이전에 추적하지 못한 나머지 5개의 카메라의 촬영 영상에서도 상기 대상 객체를 추적할 수 있다.
이상에서 설명한 실시예들에 따른 다중 카메라 시스템(1) 및 방법에 의한 동작은 적어도 부분적으로 컴퓨터 프로그램으로 구현되어, 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 예를 들어, 프로그램 코드를 포함하는 컴퓨터-판독가능 매체로 구성되는 프로그램 제품과 함께 구현되고, 이는 기술된 임의의 또는 모든 단계, 동작, 또는 과정을 수행하기 위한 프로세서에 의해 실행될 수 있다.
상기 컴퓨터는 데스크탑 컴퓨터, 랩탑 컴퓨터, 노트북, 스마트 폰, 또는 이와 유사한 것과 같은 컴퓨팅 장치일 수도 있고 통합될 수도 있는 임의의 장치일 수 있다. 컴퓨터는 하나 이상의 대체적이고 특별한 목적의 프로세서, 메모리, 저장공간, 및 네트워킹 구성요소(무선 또는 유선 중 어느 하나)를 가지는 장치다. 상기 컴퓨터는 예를 들어, 마이크로소프트의 윈도우와 호환되는 운영 체제, 애플 OS X 또는 iOS, 리눅스 배포판(Linux distribution), 또는 구글의 안드로이드 OS와 같은 운영체제(operating system)를 실행할 수 있다.
상기 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록신원확인 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장신원확인 장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트(segment)들은 본 실시예가 속하는 기술 분야의 통상의 기술자에 의해 용이하게 이해될 수 있을 것이다.
이상에서 살펴본 본 발명은 도면에 도시된 실시예들을 참고로 하여 설명하였으나 이는 예시적인 것에 불과하며 당해 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 실시예의 변형이 가능하다는 점을 이해할 것이다. 그러나, 이와 같은 변형은 본 발명의 기술적 보호범위 내에 있다고 보아야 한다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해서 정해져야 할 것이다.

Claims (15)

  1. 다수의 카메라 및 영상 분석 서버를 포함한 시스템에 의해 수행되는, 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법에 있어서,
    다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 포함한 질의 정보 업데이트 명령을 수신하는 단계 - 상기 질의 정보는 대상 객체가 표현된 질의 영상, 상기 질의 영상에서 추출되는 상기 질의 영상의 특징 및 상기 대상 객체의 속성 중 적어도 하나를 포함함;
    상기 다수의 카메라에 의해 캡처된 다수의 촬영 영상 중 상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하는 단계; 및
    상기 검색된 적어도 하나의 촬영 영상에 기초하여 상기 질의 영상의 질의 정보를 업데이트하는 단계를 포함하는 방법.
  2. 청구항 1에 있어서,
    상기 질의 정보 업데이트 명령이 상기 질의 영상을 포함하고 상기 질의 영상의 특징을 포함하지 않는 경우, 상기 적어도 하나의 촬영 영상을 검색하거나 질의 정보를 업데이트하기 이전에, 상기 질의 영상으로부터 상기 질의 영상의 특징을 추출하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  3. 청구항 2에 있어서, 상기 질의 정보를 업데이트하는 단계는,
    검색된 적어도 하나의 촬영 영상으로부터 추출된, 촬영 영상의 특징과 상기 질의 영상의 특징에 기초하여 상기 질의 영상의 새로운 특징을 획득하는 단계; 및
    상기 질의 영상의 새로운 특징에 기초하여 상기 질의 정보를 업데이트하는 단계를 포함하는 것을 특징으로 하는 방법.
  4. 청구항 3에 있어서, 상기 질의 영상의 새로운 특징을 획득하는 단계는,
    상기 검색된 적어도 하나의 촬영 영상의 특징과 상기 질의 영상의 특징에 대한 대표 값을 상기 질의 영상의 새로운 특징으로 산출하는 단계;를 포함하고,
    상기 대표 값은 상기 촬영 영상의 특징 값과 상기 질의 영상의 특징 값에 대한 평균 또는 최대 값인 것을 특징으로 하는 방법.
  5. 청구항 3에 있어서, 상기 질의 영상의 새로운 특징을 획득하는 단계는,
    상기 검색된 적어도 하나의 촬영 영상의 특징 중에서 상기 질의 영상의 특징에 매칭하는 특징을 제외한, 나머지 특징 중 적어도 일부를 새로운 특징으로 직접 획득하는 것을 특징으로 하는 방법.
  6. 청구항 3에 있어서, 상기 질의 영상의 새로운 특징을 획득하는 단계는,
    입력 특징을 상기 영상 분석 서버에 미리 저장된 완전 연결층에 적용하여 산출된 출력 결과를 상기 질의 영상의 새로운 특징으로서 획득하는 단계를 포함하고,
    상기 입력 특징은 상기 검색된 적어도 하나의 촬영 영상의 특징과 상기 질의 영상의 특징을 결합한(concatenation) 것을 특징으로 하는 방법.
  7. 청구항 3에 있어서,
    상기 질의 정보는 상기 카메라의 캡처 시간 정보를 더 포함하고,
    상기 방법은:
    상기 질의 정보 내 캡처 시간 정보에 기초하여 검색된 적어도 하나의 촬영 영상을 미리 지정된 캡처 시간대별로 분류하는 단계;를 더 포함하고,
    상기 질의 영상의 새로운 특징을 획득하는 단계는,
    각 캡처 시간대별로 상기 질의 정보를 업데이트하기 위해, 캡처 시간대별 상기 질의 영상의 새로운 특징을 각각 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  8. 청구항 7에 있어서,
    상기 캡처 시간대는 하루 동안의 배경 조도 분포에서 각 캡처 시간별 배경 조도의 변화가 상대적으로 큰 지점을 기준으로 지정되는 것을 특징으로 하는 방법.
  9. 청구항 3에 있어서,
    상기 질의 정보는 상기 카메라의 사양 정보를 더 포함하고,
    상기 방법은:
    상기 질의 정보 내 사양 정보에 기초하여 검색된 적어도 하나의 촬영 영상을 카메라의 사양별로 분류하는 단계;를 더 포함하고,
    상기 질의 영상의 새로운 특징을 획득하는 단계는,
    각 사양별로 상기 질의 정보를 업데이트하기 위해, 카메라의 사양별로 상기 질의 영상의 새로운 특징을 각각 생성하는 단계를 포함하는 것을 특징으로 하는 방법.
  10. 청구항 9에 있어서,
    상기 카메라의 사양 정보는, 카메라의 종류, 촬영 영상의 형식(format), 화소, 및 해상도 중 하나 이상을 포함하는 것을 특징으로 하는 방법.
  11. 청구항 1에 있어서,
    상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하는 단계는,
    상기 다수의 카메라로부터 획득된 복수의 촬영 영상 각각에 대해서, 각 촬영 영상의 특징과 상기 질의 영상의 특징이 매칭할 경우 해당 촬영 영상을 상기 대상 객체를 표현한 촬영 영상으로 결정하는 것을 특징으로 하는 방법.
  12. 청구항 1에 있어서,
    상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하는 단계는,
    상기 다수의 카메라로부터 획득된 복수의 촬영 영상 각각에 대해서, 각 촬영 영상 내 촬영 객체의 속성과 상기 대상 객체의 속성 간의 매칭 정도 또는 매칭 개수에 기초하여 해당 촬영 객체를 대상 객체로 결정하는 것을 특징으로 하는 방법.
  13. 청구항 6에 있어서, 상기 완전 연결층은,
    입력된 특징을 갖는 촬영 객체와 대상 객체가 서로 공유하는 고유한 특징의 비중이 증가하도록 미리 학습된 것을 특징으로 하는 방법.
  14. 청구항 1 내지 청구항 13 중 어느 하나의 청구항에 따른 방법을 수행하기 위한, 프로그램을 기록한 컴퓨터 판독가능 기록매체.
  15. 촬영 객체를 캡처하여 촬영 영상을 생성하는 다수의 카메라; 및
    상기 다수의 카메라로부터 촬영 영상을 제공 받는 영상 분석 서버를 포함하되, 상기 영상 분석 서버는:
    다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 포함한 질의 정보 업데이트 명령을 수신하고 - 상기 질의 정보는 대상 객체가 표현된 질의 영상, 상기 질의 영상에서 추출되는 상기 질의 영상의 특징 및 상기 대상 객체의 속성 중 적어도 하나를 포함함;
    상기 다수의 카메라에 의해 캡처된 다수의 촬영 영상 중 상기 대상 객체를 표현한 적어도 하나의 촬영 영상을 검색하며; 그리고
    상기 검색된 적어도 하나의 촬영 영상에 기초하여 상기 질의 영상의 질의 정보를 업데이트하도록 구성된 것을 특징으로 하는 다중 카메라 시스템.
KR1020210111539A 2021-08-24 2021-08-24 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템 KR20230029258A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210111539A KR20230029258A (ko) 2021-08-24 2021-08-24 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템
US17/537,790 US11853350B2 (en) 2021-08-24 2021-11-30 Method for updating query information for tracing target object from multi-camera and multi-camera system performing the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210111539A KR20230029258A (ko) 2021-08-24 2021-08-24 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템

Publications (1)

Publication Number Publication Date
KR20230029258A true KR20230029258A (ko) 2023-03-03

Family

ID=85286245

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210111539A KR20230029258A (ko) 2021-08-24 2021-08-24 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템

Country Status (2)

Country Link
US (1) US11853350B2 (ko)
KR (1) KR20230029258A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101498985B1 (ko) 2013-08-12 2015-03-05 (주)경인씨엔에스 Ip cctv를 이용한 gps 위치정보 기반의 비상상황 발생 현장 촬영 및 모니터링 시스템 그리고 이를 이용한 비상상황 발생 현장의 촬영 및 모니터링 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8971641B2 (en) * 2010-12-16 2015-03-03 Microsoft Technology Licensing, Llc Spatial image index and associated updating functionality
US20140193077A1 (en) * 2013-01-08 2014-07-10 Canon Kabushiki Kaisha Image retrieval apparatus, image retrieval method, query image providing apparatus, query image providing method, and program
KR20150127503A (ko) 2014-05-07 2015-11-17 에스케이플래닛 주식회사 객체 인식 서비스 제공 시스템 및 방법, 그리고 이를 위한 장치 및 컴퓨터 프로그램이 기록된 기록매체
US10169894B2 (en) 2016-10-06 2019-01-01 International Business Machines Corporation Rebuilding images based on historical image data
EP3418944B1 (en) 2017-05-23 2024-03-13 Canon Kabushiki Kaisha Information processing apparatus, information processing method, and program
JP2019020777A (ja) * 2017-07-11 2019-02-07 キヤノン株式会社 情報処理装置、及び、情報処理装置の制御方法、コンピュータプログラム、記憶媒体
US10275691B2 (en) 2017-08-22 2019-04-30 Northrop Grumman Systems Corporation Adaptive real-time detection and examination network (ARDEN)
US10782095B2 (en) * 2017-11-24 2020-09-22 Huntercraft Limited Automatic target point tracing method for electro-optical sighting system
KR20200094844A (ko) 2019-01-23 2020-08-10 한국전자통신연구원 딥러닝을 이용한 얼굴 인식 장치 및 그것의 동작 방법
US10621473B1 (en) 2019-01-30 2020-04-14 StradVision, Inc. Method for providing object detecting system capable of updating types of detectable classes in real-time by using continual learning and devices using the same
CN110533685B (zh) * 2019-08-30 2023-10-24 腾讯科技(深圳)有限公司 对象跟踪方法和装置、存储介质及电子装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101498985B1 (ko) 2013-08-12 2015-03-05 (주)경인씨엔에스 Ip cctv를 이용한 gps 위치정보 기반의 비상상황 발생 현장 촬영 및 모니터링 시스템 그리고 이를 이용한 비상상황 발생 현장의 촬영 및 모니터링 방법

Also Published As

Publication number Publication date
US11853350B2 (en) 2023-12-26
US20230061827A1 (en) 2023-03-02

Similar Documents

Publication Publication Date Title
AU2022252799B2 (en) System and method for appearance search
Elharrouss et al. A combined multiple action recognition and summarization for surveillance video sequences
US9965865B1 (en) Image data segmentation using depth data
CN110473232B (zh) 图像识别方法、装置、存储介质及电子设备
US20170213080A1 (en) Methods and systems for automatically and accurately detecting human bodies in videos and/or images
KR102374776B1 (ko) Cctv의 위치 정보 및 객체의 움직임 정보에 기초한 타겟 객체 재식별 시스템 및 방법
IL267116A (en) A system and method for sharing a cnn neural network layer
US11354819B2 (en) Methods for context-aware object tracking
Rabiee et al. Crowd behavior representation: an attribute-based approach
US20220301275A1 (en) System and method for a hybrid approach for object tracking across frames.
CN102902965A (zh) 实现多目标跟踪的视频图像数据结构化描述处理的方法
KR101826669B1 (ko) 동영상 검색 시스템 및 그 방법
Frontoni et al. People counting in crowded environment and re-identification
Shafie et al. Smart objects identification system for robotic surveillance
KR20230029258A (ko) 다중 카메라에서 대상 객체를 추적하기 위한 질의 정보를 업데이트하는 방법 및 이를 수행하는 다중 카메라 시스템
Vlachynska et al. Dogface detection and localization of dogface’s landmarks
Mocanu et al. An obstacle categorization system for visually impaired people
CN112907627B (zh) 实现小样本目标精准跟踪的系统、方法、装置、处理器及其计算机可读存储介质
US20230386185A1 (en) Statistical model-based false detection removal algorithm from images
Henderson et al. Feature correspondence in low quality CCTV videos
CN116883881A (zh) 识别视频中的视频对象的方法和装置
KR20230166865A (ko) 영상에서 통계모델기반 오검출 제거 알고리즘
CN115115976A (zh) 视频处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal