WO2022145712A1 - 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체 - Google Patents

엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체 Download PDF

Info

Publication number
WO2022145712A1
WO2022145712A1 PCT/KR2021/016654 KR2021016654W WO2022145712A1 WO 2022145712 A1 WO2022145712 A1 WO 2022145712A1 KR 2021016654 W KR2021016654 W KR 2021016654W WO 2022145712 A1 WO2022145712 A1 WO 2022145712A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
detection data
appearance
detection
present
Prior art date
Application number
PCT/KR2021/016654
Other languages
English (en)
French (fr)
Inventor
박진우
신인식
Original Assignee
주식회사 메이아이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 메이아이 filed Critical 주식회사 메이아이
Priority to US18/270,408 priority Critical patent/US20240062408A1/en
Publication of WO2022145712A1 publication Critical patent/WO2022145712A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to a method, a device, and a non-transitory computer-readable recording medium for analyzing a visitor based on an image in an edge computing environment.
  • the present inventor(s) integratedly generate various data regarding the location and appearance of the visitor included in the image captured in the offline space by the device present at the client end in the edge computing environment, so that the user visits the offline space.
  • An object of the present invention is to solve all of the problems of the prior art described above.
  • the present invention extracts feature data from a captured image for an offline space, and generates detection data on the location and appearance of an object included in the captured image from the above feature data using an artificial neural network-based detection model
  • Another purpose is to integrate the detection data on the location and appearance of the target object to generate various data on the visitor's entry and exit and demographic information included in the image captured in the offline space. do.
  • the present invention generates integrated detection data on the location and appearance of a visitor using a lightweight detection model in an edge computing device rather than a server, so that communication between the device and the server or advanced analysis in the server is required. Another purpose is to save time when the edge computing device is installed (ie, offline space), and to be able to find out information about visitor access and demographic information of visitors right away.
  • the present invention does not transmit an image of a visitor to an external server, but uses only the resource of an edge computing device to generate detection data about the visitor, thereby providing Another purpose is to reduce the risk of issues arising.
  • a representative configuration of the present invention for achieving the above object is as follows.
  • a method for analyzing a visitor based on an image in an edge computing environment comprising: extracting feature data from a captured image for an offline space; and using an artificial neural network-based detection model from the feature data
  • a method comprising the steps of generating detection data on the position and appearance of an object included in the captured image, and integrating detection data on the position and appearance of the target object.
  • a device for analyzing a visitor based on an image in an edge computing environment a feature extractor that extracts feature data from a captured image for an offline space, and an artificial neural network-based detection model
  • a device comprising: an information detector for generating detection data on the location and appearance of an object included in the captured image from data; and a data integrator for integrating detection data on the location and appearance of a target object.
  • the time required for communication between the device and the server or for advanced analysis in the server is saved, and information on the entry and exit of the visitor at the site where the edge computing device is installed (that is, the offline space) and Demographic information of visitors will be available immediately.
  • FIG. 1 is a diagram illustrating a schematic configuration of an entire system for analyzing a visitor based on an image in an edge computing environment according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating in detail an internal configuration of a device according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating in detail an internal configuration of an object recognition management unit according to an embodiment of the present invention.
  • FIG. 1 is a diagram illustrating a schematic configuration of an entire system for analyzing a visitor based on an image in an edge computing environment according to an embodiment of the present invention.
  • the entire system may include a communication network 100 , a server 200 , and a device 300 .
  • the communication network 100 may be configured regardless of communication aspects such as wired communication or wireless communication, and includes a local area network (LAN), a metropolitan area network (MAN) ), a wide area network (WAN), etc. may be configured as various communication networks.
  • the communication network 100 as used herein may be a well-known Internet or World Wide Web (WWW).
  • WWW World Wide Web
  • the communication network 100 is not necessarily limited thereto, and may include a known wired/wireless data communication network, a known telephone network, or a known wired/wireless television communication network in at least a part thereof.
  • the communication network 100 is a wireless data communication network, such as Wi-Fi communication, Wi-Fi Direct communication, Long Term Evolution (LTE) communication, 5G communication, Bluetooth communication (Low Energy Bluetooth (BLE)) (including Bluetooth Low Energy) communication), infrared communication, ultrasonic communication, and the like, may be implemented in at least a part thereof.
  • the communication network 100 may be an optical communication network that implements at least a part of a conventional communication method such as LiFi (Light Fidelity).
  • the server 200 is a device capable of communicating with a device 300 to be described later through the communication network 100, and obtains various data transmitted from the device 300 and 300) may perform a function of transmitting various data necessary for operation to the device 300 .
  • the device 300 is a digital device capable of communicating with the server 200 or another system (not shown) through the communication network 100 , and a photographed image of an offline space extracts feature data from the , and generates detection data on the location and appearance of an object included in the captured image from the feature data using an artificial neural network-based detection model, and detects the location and appearance of the target object
  • a photographed image of an offline space extracts feature data from the , and generates detection data on the location and appearance of an object included in the captured image from the feature data using an artificial neural network-based detection model, and detects the location and appearance of the target object
  • the device 300 according to an embodiment of the present invention can be adopted as the device 300 according to the present invention as long as it is a digital device equipped with a memory means and a microprocessor is equipped with arithmetic capability.
  • the device 300 according to an embodiment of the present invention may refer to the device itself (eg, a commercial security camera, an IP camera, etc.) capable of capturing an image, but may refer to a wired and/or It may also refer to devices (eg, smartphones, tablets, PCs, etc.) that can be connected (or coupled) wirelessly.
  • the device 300 according to the present invention may include an application (not shown) supporting the function according to the present invention.
  • Such an application may be downloaded from an external application distribution server (not shown).
  • an external application distribution server not shown
  • at least a part of the application may be replaced with a hardware device or a firmware device capable of performing substantially the same or equivalent function as the application, if necessary.
  • FIG. 2 is a diagram illustrating in detail an internal configuration of a device 300 according to an embodiment of the present invention.
  • the device 300 includes an object recognition management unit 310 , an object tracking management unit 320 , an access determination management unit 330 , a communication unit 340 and a control unit ( 350 , where the object recognition management unit 310 may include a feature extraction unit 311 , an information detection unit 312 , and a data integration unit 313 .
  • the object recognition management unit 310, the object tracking management unit 320, the access determination management unit 330, the communication unit 340, and the control unit 350 at least some of them are external systems (not shown) and may be a program module in communication with.
  • Such a program module may be included in the device 300 in the form of an operating system, an application program module, or other program modules, and may be physically stored in various known storage devices. Also, such a program module may be stored in a remote storage device capable of communicating with the device 300 . Meanwhile, such a program module includes, but is not limited to, routines, subroutines, programs, objects, components, data structures, etc. that perform specific tasks or execute specific abstract data types according to the present invention.
  • the object recognition management unit 310 is a location of an object (mainly a visitor) included in an image captured in an offline space (eg, a store, an office, a school, a performance hall, a stadium, etc.) and generating integrated detection data for the appearance.
  • an offline space eg, a store, an office, a school, a performance hall, a stadium, etc.
  • the object recognition management unit 310 counts the number of visitors entering and exiting the offline space by analyzing the captured image, and estimates the visitor's demographic information (ie, estimated from the visitor's appearance). possible information) can be estimated.
  • the object recognition management unit 310 is an auxiliary provided separately from the device 300 according to the present invention in order to perform analysis using an artificial neural network-based model requiring a large amount of computation.
  • Computing resources of a computing device may be utilized.
  • the captured image to be analyzed is collected from a separate image capturing device (eg, commercial security camera, IP camera, etc.) installed in an offline space or a device according to the present invention It may be collected from the image capturing module provided in 300 .
  • the captured image as described above is sampled at a predetermined period (eg, 10 fps, etc.) or when a motion (difference between adjacent frames) found in the captured image is greater than or equal to a predetermined level. It may be sampled, and the captured image sampled as above may be transmitted to the object recognition management unit 310 .
  • the object recognition management unit 310 may include a feature extraction unit 311 , an information detection unit 312 , and a data integration unit 313 .
  • the feature extraction unit 311 may perform a function of extracting feature data from a captured image for an offline space.
  • the feature extractor 311 may receive a frame of any size constituting a captured image and output feature data in the form of a tensor.
  • the feature extraction unit 311 may use an artificial neural network (mainly a deep neural network)-based model as a means for extracting feature data from a captured image.
  • an artificial neural network may be implemented based on a well-known structure such as Deep Layer Aggregation (DLA) and residual neural network (RESNET).
  • DLA Deep Layer Aggregation
  • RESNET residual neural network
  • the information detection unit 312 performs a function of generating detection data on the location and appearance of an object included in the captured image from the feature data using an artificial neural network-based detection model.
  • the objectness score of the bounding box corresponding to the object (that is, the possibility that the bounding box corresponds to the actual object) score), width, height, center offset, etc. may be included, and detection data about the position of the foot of the object may be included.
  • the detection data regarding the appearance of the object includes demographic information that is detected from the appearance of the visitor, such as the age and gender of the object (ie, the visitor), and can be usefully used for marketing. detection data may be included.
  • detection data related to an object's age, gender, etc. may be anonymized.
  • an artificial neural network-based detection model may be trained to detect certain attributes about a visitor from feature data, for example, based on an artificial neural network such as a Fully Convolutional Network (FCN).
  • FCN Fully Convolutional Network
  • detection data generated as a result of analyzing the feature data by the artificial neural network-based detection model may be generated based on a feature map, and accordingly, A plurality of feature data may be correlated with each other via a feature map (or coordinates on the feature map).
  • the information detection unit 312 may generate detection data on the location and appearance of an object by using two or more artificial neural network-based detection models.
  • the artificial neural network-based detection model includes a first detection model that generates some of the detection data on the position and appearance of the object, and a second detection model that generates the remaining part of the detection data on the position and appearance of the object. may include
  • the artificial neural network-based detection model used in the information detection unit 312 may be separated from or integrated with each other as needed or according to the attribute to be detected.
  • the artificial neural network-based detection model used in the information detection unit 312 includes various properties of an object (that is, objectization score, width, height, center offset, and object of a bounding box corresponding to the object).
  • the detection model may include a detection model that generates detection data for one attribute of a foot position, an object's gender, and an object's age based on one feature map.
  • the artificial neural network-based detection model used in the information detection unit 312 includes various properties of an object (ie, objectification score of a bounding box corresponding to the object, width, height,
  • the detection model may include a detection model that together generates detection data for two or more attributes of a center offset, a foot position of an object, an object's gender, and an object's age) based on one feature map.
  • the data integrator 313 may perform a function of integrating detection data on the location and appearance of a target object.
  • the data integration unit 313 is configured to use at least one coordinate on a feature map that is a basis of the detection data as a medium to obtain at least a portion of the detection data for the location and appearance of the target object. By assigning to the target object, it is possible to integrate detection data on the position and appearance of the target object.
  • the data integration unit 313 when the data integration unit 313 according to an embodiment of the present invention has an objectification score of a bounding box corresponding to a target object greater than or equal to a predetermined level, and the corresponding bounding box is located at the first coordinates on the feature map For example, it may be determined that the target object is located at the first coordinates on the feature map. Accordingly, the data integrator 313 according to an embodiment of the present invention uses the first coordinates on the feature map as a medium for the A pixel value corresponding to 1 coordinate can be assigned to a target object.
  • the pixel values that can be assigned to the target object include the length of the width of the bounding box, the length of the height of the bounding box, the position of the center offset of the bounding box, the position of the foot of the target object, and the gender (0 and 1) of the target object. value), the age of the target object (score vector for each class), and the like may be included.
  • the artificial neural network technology that can be used in the present invention is not necessarily limited to that described above, and is within the scope capable of achieving the object of the present invention. Please note that it can be changed or expanded at any time. For example, you can extract feature data or generate detection data using artificial neural network technologies such as R-CNN (Region-based Convolutional Neural Networks), YOLO (You Only Look Once), and SSD (Single Shot multibox Detector). have.
  • R-CNN Regular-based Convolutional Neural Networks
  • YOLO You Only Look Once
  • SSD Single Shot multibox Detector
  • the artificial neural network-based extraction model or detection model that can be used in the present invention in order to smoothly operate in the device 300 with relatively insufficient computational resources in an edge computing environment, pruning, quantization ), may be a lightweight model by a lightweight algorithm such as knowledge distillation, and the lightweight model as above may be generated in the server 200 or an external system (not shown) and distributed to the device 300 .
  • a lightweight algorithm such as knowledge distillation
  • the lightweight model as above may be generated in the server 200 or an external system (not shown) and distributed to the device 300 .
  • the weight reduction algorithm according to an embodiment of the present invention is not limited to those listed above, and can be variously changed within the scope that can achieve the object of the present invention.
  • the object tracking management unit 320 may perform a function of tracking the target object with reference to the detection data integratedly generated by the object recognition management unit 310 above.
  • the object tracking management unit 320 connects an existing tracklet to a target object detected in a new frame or creates a new tracklet while managing tracklets for each frame of a captured image. You can create tracklets. For example, the object tracking management unit 320 according to an embodiment of the present invention, based on the degree of overlap between the predicted bounding box for the target object and the actually inputted bounding box for each frame (for example, You can decide whether to link an existing tracklet or create a new tracklet for the target object (based on IoU (Intersection over Union)).
  • IoU Intersection over Union
  • the detection data of the target object generated by the object recognition management unit 310 ie, a bounding box corresponding to the target object, the foot of the target object) location, detection data regarding the gender, age, etc. of the target object
  • the detection data of the target object generated by the object recognition management unit 310 ie, a bounding box corresponding to the target object, the foot of the target object
  • detection data regarding the gender, age, etc. of the target object may be provided to the tracklet corresponding to the target object.
  • object tracking algorithm according to an embodiment of the present invention is not limited to those listed above, and may be variously changed within the scope that can achieve the object of the present invention.
  • the access determination management unit 330 refers to the target object tracking information (ie, tracklet information) generated by the object tracking management unit 320 above. By determining whether the object passes through a predetermined detection line, it is possible to perform a function of determining whether the target object enters or exits the offline space.
  • the access determination management unit 330 sets the foot position of the target object specified by the tracklet in the previous frame as a starting point, and the target object specified by the tracklet in the current frame. It is possible to set a vector having the position of the foot as the end point, and if there is an intersection between the vector set in this way and a predetermined detection line set near the door, it can be determined that the target object has passed the detection line. Furthermore, the access determination management unit 330 according to an embodiment of the present invention refers to the information about the direction of the vector above and the information about the entrance direction based on the above detection line, so that the target object is located in an offline space (that is, , store) or whether the target object exits the offline space.
  • an offline space that is, , store
  • the access determination algorithm according to an embodiment of the present invention is not limited to those listed above, and can be variously changed within the scope that can achieve the object of the present invention.
  • the device 300 determines the detection data integratedly generated in the process of recognizing the target object, data related to the tracklet generated in the process of tracking the target object, and the entry/exit determination of the target object. All data on entry or exit generated in the process may be integrated, and the integrated data may be transmitted to the server 200 or an external system.
  • the communication unit 340 performs a function of enabling data transmission/reception to and from the object recognition management unit 310 , the object tracking management unit 320 , and the access determination management unit 330 . can do.
  • control unit 350 functions to control the flow of data between the object recognition management unit 310 , the object tracking management unit 320 , the access determination management unit 330 , and the communication unit 340 .
  • the control unit 250 controls the data flow to/from the outside of the device 300 or the data flow between each component of the device 300, so that the object recognition management unit 310, the object tracking management unit ( 320 ), the access determination management unit 330 , and the communication unit 340 may control each to perform its own function.
  • the embodiments according to the present invention described above may be implemented in the form of program instructions that can be executed through various computer components and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the computer-readable recording medium may be specially designed and configured for the present invention or may be known and used by those skilled in the computer software field.
  • Examples of the computer-readable recording medium include hard disks, magnetic media such as floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floppy disks. medium), and hardware devices specially configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine language codes such as those generated by a compiler, but also high-level language codes that can be executed by a computer using an interpreter or the like.
  • a hardware device may be converted into one or more software modules to perform processing in accordance with the present invention, and vice versa.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일 태양에 따르면, 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법으로서, 오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하는 단계, 인공 신경망 기반 검출 모델을 이용하여 상기 특징 데이터로부터 상기 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하는 단계, 및 대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시키는 단계를 포함하는 방법이 제공된다.

Description

엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
본 발명은 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체에 관한 것이다.
근래에 들어, 컴퓨터 비전 분야의 기술이 급격히 발전함에 따라 영상에서 객체를 검출 및 인식하고 그로부터 유의미한 정보를 알아내는 방법에 관한 다양한 기술들이 소개되고 있다.
특히, 오프라인 공간에서 촬영되는 영상을 분석하여 그 공간에 방문한 사람의 수와 그 사람의 성별, 나이 등에 관한 정보를 수집하고, 이러한 정보를 마케팅 전략, 판매 전략 등의 수립에 활용할 수 있도록 지원하는 기술에 대한 수요가 점차 높아지고 있다.
이에 관한 종래 기술의 일 예로서, 오프라인 매장의 출입구 주변에 설치된 카메라와 같은 센서를 이용하여 오프라인 매장의 방문객 수를 카운팅하는 기술이 소개된 바 있지만, 이러한 종래 기술에 따르면, 방문객의 성별, 나이 등 마케팅 전략을 수립하기 위해 필요한 인구통계학적 정보를 알아내기 어렵다는 한계가 존재한다.
종래 기술의 다른 예로서, 방문객의 수를 카운팅하는 시스템과 별개로 방문객의 외관(얼굴 등)을 인식하는 시스템을 구축함으로써 방문객의 인구통계학적 정보를 알아내는 기술이 소개되기도 하였지만, 이러한 종래 기술에 따르면, 개별적으로 구축되는 두 시스템으로부터 각각 도출되는 방문객의 수에 관한 정보와 방문객의 인구통계학적 정보를 통합하여 활용하기가 어렵다는 문제가 있고, 방문객의 얼굴 등 외관을 촬영한 영상은 민감한 개인 정보에 해당하기 때문에 이를 저장, 전송 또는 가공함에 있어서 개인 정보 보호에 관한 법률적인 이슈가 발생할 리스크가 존재한다는 한계가 존재한다.
이에 본 발명자(들)는, 엣지(edge) 컴퓨팅 환경에서 클라이언트 단에 존재하는 디바이스가 오프라인 공간에서 촬영된 영상에 포함된 방문객의 위치 및 외관에 관한 다양한 데이터를 통합적으로 생성함으로써, 오프라인 공간에 방문한 방문객을 분석함에 있어서 연산 속도 및 리소스 활용 측면의 효율성을 높이고, 개인 정보 보호에 관한 법률적인 이슈가 발생할 리스크를 낮출 수 있도록 하는 기술을 제안하는 바이다.
본 발명은 전술한 종래 기술의 문제점을 모두 해결하는 것을 그 목적으로 한다.
또한, 본 발명은, 오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하고, 인공 신경망 기반 검출 모델을 이용하여 위의 특징 데이터로부터 위의 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하고, 대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시킴으로써, 오프라인 공간에서 촬영된 영상에 포함된 방문객의 출입 여부에 관한 정보 및 인구통계학적 정보에 관한 다양한 데이터를 통합적으로 생성하는 것을 다른 목적으로 한다.
또한, 본 발명은, 서버가 아닌 엣지 컴퓨팅 디바이스에서 경량화된 검출 모델을 이용하여 방문객의 위치 및 외관에 대한 통합된 검출 데이터를 생성함으로써, 디바이스와 서버 사이의 통신 또는 서버에서의 고도화된 분석에 소요되는 시간을 절약하고, 엣지 컴퓨팅 디바이스가 설치되어 있는 현장(즉, 오프라인 공간)에서 방문객의 출입에 관한 정보와 방문객의 인구통계학적 정보를 바로 알아낼 수 있도록 하는 것을 또 다른 목적으로 한다.
또한, 본 발명은, 방문객을 촬영한 영상을 외부의 서버에 전송하지 않고 엣지 컴퓨팅 디바이스의 리소스만 활용하여 방문객에 대한 검출 데이터를 생성함으로써, 촬영 영상에 포함된 방문객의 개인 정보 보호에 관한 법률적인 이슈가 발생할 리스크를 낮출 수 있도록 것을 또 다른 목적으로 한다.
상기 목적을 달성하기 위한 본 발명의 대표적인 구성은 다음과 같다.
본 발명의 일 태양에 따르면, 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법으로서, 오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하는 단계, 인공 신경망 기반 검출 모델을 이용하여 상기 특징 데이터로부터 상기 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하는 단계, 및 대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시키는 단계를 포함하는 방법이 제공된다.
본 발명의 다른 태양에 따르면, 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 디바이스로서, 오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하는 특징 추출부, 인공 신경망 기반 검출 모델을 이용하여 상기 특징 데이터로부터 상기 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하는 정보 검출부, 및 대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시키는 데이터 통합부를 포함하는 디바이스가 제공된다.
이 외에도, 본 발명을 구현하기 위한 다른 방법, 다른 디바이스 및 상기 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명에 의하면, 오프라인 공간에서 촬영된 영상에 포함된 방문객의 출입 여부에 관한 정보 및 인구통계학적 정보에 관한 다양한 데이터를 통합적으로 생성할 수 있게 된다.
또한, 본 발명에 의하면, 디바이스와 서버 사이의 통신 또는 서버에서의 고도화된 분석에 소요되는 시간을 절약하고, 엣지 컴퓨팅 디바이스가 설치되어 있는 현장(즉, 오프라인 공간)에서 방문객의 출입에 관한 정보와 방문객의 인구통계학적 정보를 바로 알아낼 수 있게 된다.
또한, 본 발명에 의하면, 촬영 영상에 포함된 방문객의 개인 정보 보호에 관한 법률적인 이슈가 발생할 리스크를 낮출 수 있게 된다.
도 1은 본 발명의 일 실시예에 따라 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 2는 본 발명의 일 실시예에 따른 디바이스의 내부 구성을 상세하게 도시하는 도면이다.
도 3은 본 발명의 일 실시예에 따른 객체 인식 관리부의 내부 구성을 상세하게 도시하는 도면이다.
<부호의 설명>
100: 통신망
200: 서버
300: 디바이스
310: 객체 인식 관리부
320: 객체 추적 관리부
330: 출입 판단 관리부
340: 통신부
350: 제어부
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이러한 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 본 명세서에 기재되어 있는 특정 형상, 구조 및 특성은 본 발명의 정신과 범위를 벗어나지 않으면서 일 실시예로부터 다른 실시예로 변경되어 구현될 수 있다. 또한, 각각의 실시예 내의 개별 구성요소의 위치 또는 배치도 본 발명의 정신과 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 행하여지는 것이 아니며, 본 발명의 범위는 특허청구범위의 청구항들이 청구하는 범위 및 그와 균등한 모든 범위를 포괄하는 것으로 받아들여져야 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 구성요소를 나타낸다.
이하에서는, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 여러 바람직한 실시예에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
전체 시스템의 구성
도 1은 본 발명의 일 실시예에 따라 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 전체 시스템의 개략적인 구성을 나타내는 도면이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 전체 시스템은 통신망(100), 서버(200) 및 디바이스(300)를 포함할 수 있다.
먼저, 본 발명의 일 실시예에 따른 통신망(100)은 유선 통신이나 무선 통신과 같은 통신 양태를 가리지 않고 구성될 수 있으며, 근거리 통신망(LAN; Local Area Network), 도시권 통신망(MAN; Metropolitan Area Network), 광역 통신망(WAN; Wide Area Network) 등 다양한 통신망으로 구성될 수 있다. 바람직하게는, 본 명세서에서 말하는 통신망(100)은 공지의 인터넷 또는 월드 와이드 웹(WWW; World Wide Web)일 수 있다. 그러나, 통신망(100)은, 굳이 이에 국한될 필요 없이, 공지의 유무선 데이터 통신망, 공지의 전화망 또는 공지의 유무선 텔레비전 통신망을 그 적어도 일부에 있어서 포함할 수도 있다.
예를 들면, 통신망(100)은 무선 데이터 통신망으로서, 와이파이(WiFi) 통신, 와이파이 다이렉트(WiFi-Direct) 통신, 롱텀 에볼루션(LTE, Long Term Evolution) 통신, 5G 통신, 블루투스 통신(저전력 블루투스(BLE; Bluetooth Low Energy) 통신 포함), 적외선 통신, 초음파 통신 등과 같은 종래의 통신 방법을 적어도 그 일부분에 있어서 구현하는 것일 수 있다. 다른 예를 들면, 통신망(100)은 광 통신망으로서, 라이파이(LiFi, Light Fidelity) 등과 같은 종래의 통신 방법을 적어도 그 일부분에 있어서 구현하는 것일 수 있다.
다음으로, 본 발명의 일 실시예에 따른 서버(200)는 통신망(100)을 통하여 후술할 디바이스(300)와 통신할 수 있는 기기로서, 디바이스(300)로부터 전송되는 다양한 데이터를 획득하고 디바이스(300) 동작에 필요한 다양한 데이터를 디바이스(300)에게 전송하는 기능을 수행할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 디바이스(300)는, 통신망(100)을 통하여 서버(200) 또는 다른 시스템(미도시됨)과 통신할 수 있는 디지털 기기로서, 오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하고, 인공 신경망 기반 검출 모델을 이용하여 위의 특징 데이터로부터 위의 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하고, 대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시킴으로써, 오프라인 공간에서 촬영된 영상에 포함된 방문객의 출입 여부에 관한 정보 및 인구통계학적 정보에 관한 다양한 데이터를 통합적으로 생성하는 기능을 수행할 수 있다.
본 발명에 따른 디바이스(300)의 구성과 기능에 관하여는 이하의 상세한 설명을 통하여 자세하게 알아보기로 한다.
한편, 본 발명의 일 실시예에 따른 디바이스(300)는 메모리 수단을 구비하고 마이크로 프로세서를 탑재하여 연산 능력을 갖춘 디지털 기기라면 얼마든지 본 발명에 따른 디바이스(300)로서 채택될 수 있다. 또한, 본 발명의 일 실시예에 따른 디바이스(300)는, 영상을 촬영할 수 있는 디바이스 그 자체(예를 들면, 상용 보안 카메라, IP 카메라 등)를 지칭하는 것일 수 있지만, 그와 유선 및/또는 무선으로 연결(또는 결합)될 수 있는 디바이스(예를 들면, 스마트폰, 태블릿, PC 등)까지 포괄하여 지칭하는 것일 수도 있다.
한편, 본 발명에 따른 디바이스(300)에는, 본 발명에 따른 기능을 지원하는 애플리케이션(미도시됨)이 포함될 수 있다. 이와 같은 애플리케이션은 외부의 애플리케이션 배포 서버(미도시됨)로부터 다운로드된 것일 수 있다. 여기서, 애플리케이션은 그 적어도 일부가 필요에 따라 그것과 실질적으로 동일하거나 균등한 기능을 수행할 수 있는 하드웨어 장치나 펌웨어 장치로 치환될 수도 있다.
디바이스의 구성
이하에서는, 본 발명의 구현을 위하여 중요한 기능을 수행하는 디바이스(300)의 내부 구성과 각 구성요소의 기능에 대하여 살펴보기로 한다.
도 2는 본 발명의 일 실시예에 따른 디바이스(300)의 내부 구성을 상세하게 도시하는 도면이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 디바이스(300)는, 객체 인식 관리부(310), 객체 추적 관리부(320), 출입 판단 관리부(330), 통신부(340) 및 제어부(350)를 포함하여 구성될 수 있고, 여기서, 객체 인식 관리부(310)는 특징 추출부(311), 정보 검출부(312) 및 데이터 통합부(313)을 포함하여 구성될 수 있다. 본 발명의 일 실시예에 따르면, 객체 인식 관리부(310), 객체 추적 관리부(320), 출입 판단 관리부(330), 통신부(340) 및 제어부(350)는 그 중 적어도 일부가 외부의 시스템(미도시됨)과 통신하는 프로그램 모듈일 수 있다. 이러한 프로그램 모듈은 운영 시스템, 응용 프로그램 모듈 또는 기타 프로그램 모듈의 형태로 디바이스(300)에 포함될 수 있고, 물리적으로는 여러 가지 공지의 기억 장치에 저장될 수 있다. 또한, 이러한 프로그램 모듈은 디바이스(300)와 통신 가능한 원격 기억 장치에 저장될 수도 있다. 한편, 이러한 프로그램 모듈은 본 발명에 따라 후술할 특정 업무를 수행하거나 특정 추상 데이터 유형을 실행하는 루틴, 서브루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포괄하지만, 이에 제한되지는 않는다.
한편, 디바이스(300)에 관하여 위와 같이 설명되었으나, 이러한 설명은 예시적인 것이고, 디바이스(300)의 구성요소 또는 기능 중 적어도 일부가 필요에 따라 서버(200) 또는 외부 시스템(미도시됨) 내에서 실현되거나 포함될 수도 있음은 당업자에게 자명하다.
먼저, 본 발명의 일 실시예에 따른 객체 인식 관리부(310)는, 오프라인 공간(예를 들면, 상점, 사무실, 학교, 공연장, 경기장 등)에서 촬영된 영상에 포함된 객체(주로 방문객)의 위치 및 외관에 대한 통합된 검출 데이터를 생성하는 기능을 수행한다. 구체적으로, 본 발명의 일 실시예에 따른 객체 인식 관리부(310)는, 촬영 영상을 분석함으로써 오프라인 공간에 출입한 방문객의 수를 카운팅하고 방문객의 인구통계학적 정보(즉, 방문객의 겉모습으로부터 추정될 수 있는 정보)를 추정할 수 있다. 그리고, 본 발명의 일 실시예에 따른 객체 인식 관리부(310)는, 많은 연산량이 요구되는 인공 신경망 기반 모델을 이용하여 분석을 수행하기 위하여, 본 발명에 따른 디바이스(300)와 별개로 구비되는 보조 연산 디바이스(미도시됨)의 컴퓨팅 리소스를 활용할 수도 있다.
여기서, 본 발명의 일 실시예에 따르면, 분석의 대상이 되는 촬영 영상은, 오프라인 공간에 설치된 별개의 영상 촬영 디바이스(예를 들면, 상용 보안 카메라, IP 카메라 등)로부터 수집되거나 본 발명에 따른 디바이스(300)에 구비된 영상 촬영 모듈로부터 수집될 수 있다. 또한, 본 발명의 일 실시예에 따르면, 위와 같이 수집되는 촬영 영상은 소정 주기(예를 들면, 10fps 등)마다 샘플링되거나 촬영 영상 내에서 발견되는 움직임(인접한 프레임 사이의 차이)이 소정 수준 이상인 때에 샘플링될 수 있고, 위와 같이 샘플링된 촬영 영상이 객체 인식 관리부(310)에 전달될 수 있다.
보다 더 구체적으로, 본 발명의 일 실시예에 따른 객체 인식 관리부(310)는, 특징 추출부(311), 정보 검출부(312) 및 데이터 통합부(313)를 포함하여 구성될 수 있다.
먼저, 본 발명의 일 실시예에 따른 특징 추출부(311)는, 오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하는 기능을 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 특징 추출부(311)는, 촬영 영상을 구성하는 임의 크기의 프레임을 입력 받아서 텐서(tensor) 형태의 특징(feature) 데이터를 출력할 수 있다. 또한, 본 발명의 일 실시예에 따른 특징 추출부(311)는, 촬영 영상으로부터 특징 데이터를 추출하기 위한 수단으로서 인공 신경망(주로 심층 신경망) 기반 모델을 이용할 수 있는데, 예를 들면, 이러한 인공 신경망은 DLA(Deep Layer Aggregation), RESNET(residual neural network) 등의 공지의 구조에 기초하여 구현될 수 있다.
다음으로, 본 발명의 일 실시예에 따른 정보 검출부(312)는, 인공 신경망 기반 검출 모델을 이용하여 특징 데이터로부터 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하는 기능을 수행할 수 있다.
여기서, 본 발명의 일 실시예에 따르면, 객체의 위치에 관한 검출 데이터에는, 객체에 대응하는 바운딩 박스(bounding box)의 객체화 점수(objectness score)(즉, 바운딩 박스가 실제 객체에 해당할 가능성에 관한 점수), 폭(width), 높이(height), 중심 오프셋(center offset) 등에 대한 검출 데이터가 포함될 수 있고, 객체의 발의 위치에 대한 검출 데이터가 포함될 수 있다.
또한, 본 발명의 일 실시예에 따르면, 객체의 외관에 관한 검출 데이터에는, 객체(즉, 방문객)의 나이, 성별 등 방문객의 외관으로부터 검출되어 마케팅에 유용하게 활용될 수 있는 인구통계학적 정보에 관한 검출 데이터가 포함될 수 있다. 여기서, 본 발명의 일 실시예에 따르면, 객체의 나이, 성별 등에 관한 검출 데이터는 익명화 처리될 수 있다.
또한, 본 발명의 일 실시예에 따르면, 인공 신경망 기반 검출 모델은 특징 데이터로부터 방문객에 관한 어떤 속성을 검출하도록 학습될 수 있으며, 예를 들면, Fully Convolutional Network(FCN)과 같은 인공 신경망에 기초하여 구현될 수 있다. 그리고, 본 발명의 일 실시예에 따르면, 인공 신경망 기반 검출 모델이 특징 데이터를 분석한 결과로서 생성되는 검출 데이터는 특징 맵(feature map)에 기초하여 생성될 수 있고, 이에 따라 서로 다른 속성에 대한 복수의 특징 데이터가 특징 맵(또는 특징 맵상의 좌표)를 매개로 하여 서로 연관될 수 있게 된다.
구체적으로, 본 발명의 일 실시예에 따른 정보 검출부(312)는 둘 이상의 인공 신경망 기반 검출 모델을 이용하여 객체의 위치 및 외관에 대한 검출 데이터를 생성할 수 있다. 예를 들면, 인공 신경망 기반 검출 모델은, 객체의 위치 및 외관에 대한 검출 데이터 중 일부를 생성하는 제1 검출 모델 및 객체의 위치 및 외관에 대한 검출 데이터 중 나머지 일부를 생성하는 제2 검출 모델을 포함할 수 있다.
또한, 본 발명의 일 실시예에 따른 정보 검출부(312)에서 이용되는 인공 신경망 기반 검출 모델은, 필요에 따라 또는 검출하고자 하는 속성이 무엇인지에 따라 서로 분리되거나 통합될 수 있다.
예를 들면. 본 발명의 일 실시예에 따른 정보 검출부(312)에서 이용되는 인공 신경망 기반 검출 모델은, 객체에 관한 여러 속성(즉, 객체에 대응하는 바운딩 박스의 객체화 점수, 폭, 높이, 중심 오프셋, 객체의 발의 위치, 객체의 성별 및 객체의 나이) 중 하나의 속성에 대한 검출 데이터를 하나의 특징 맵에 기초하여 생성하는 검출 모델을 포함할 수 있다.
다른 예를 들면, 본 발명의 일 실시예에 따른 정보 검출부(312)에서 이용되는 인공 신경망 기반 검출 모델은, 객체에 관한 여러 속성(즉, 객체에 대응하는 바운딩 박스의 객체화 점수, 폭, 높이, 중심 오프셋, 객체의 발의 위치, 객체의 성별 및 객체의 나이) 중 둘 이상의 속성에 대한 검출 데이터를 하나의 특징 맵에 기초하여 함께 생성하는 검출 모델을 포함할 수도 있다.
다음으로, 본 발명의 일 실시예에 따른 데이터 통합부(313)는, 위와 같이 검출 데이터가 생성되면, 대상(target) 객체의 위치 및 외관에 대한 검출 데이터를 통합시키는 기능을 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 데이터 통합부(313)는, 검출 데이터의 기초가 되는 특징 맵상의 적어도 하나의 좌표를 매개로 하여 대상 객체의 위치 및 외관에 대한 검출 데이터 중 적어도 일부를 그 대상 객체에 대하여 할당함으로써, 대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시킬 수 있다.
예를 들면, 본 발명의 일 실시예에 따른 데이터 통합부(313)는, 대상 객체에 대응하는 바운딩 박스의 객체화 스코어가 소정 수준 이상이고, 해당 바운딩 박스가 특징 맵상의 제1 좌표에 위치하고 있는 경우에, 대상 객체가 특징 맵상의 제1 좌표에 위치하고 있다고 판단할 수 있다. 이에 따라, 본 발명의 일 실시예에 따른 데이터 통합부(313)는, 특징 맵상의 제1 좌표를 매개로 하여 대상 객체의 위치 및 외관에 대한 검출 데이터의 기초가 되는 특징 맵 각각에서 위의 제1 좌표에 해당하는 픽셀값을 대상 객체에 할당할 수 있다. 여기서, 대상 객체에 대하여 할당될 수 있는 픽셀값에는, 바운딩 박스의 폭의 길이, 바운딩 박스의 높이의 길이, 바운딩 박스의 중심 오프셋의 위치, 대상 객체의 발의 위치, 대상 객체의 성별(0과 1 사이의 값), 대상 객체의 나이(클래스별 스코어 벡터) 등이 포함될 수 있다.
이상에서, 본 발명에서 이용될 수 있는 인공 신경망 기술에 관하여 설명되었지만, 본 발명에서 이용될 수 있는 인공 신경망 기술이 반드시 상기 설명된 바에 한정되는 것은 아니며, 본 발명의 목적을 달성할 수 있는 범위 내에서 얼마든지 변경 또는 확장될 수 있음을 밝혀 둔다. 예를 들면, R-CNN(Region-based Convolutional Neural Networks), YOLO(You Only Look Once), SSD(Single Shot multibox Detector) 등의 인공 신경망 기술을 이용하여 특징 데이터를 추출하거나 검출 데이터를 생성할 수 있다.
또한, 본 발명에서 이용될 수 있는 인공 신경망 기반 추출 모델 또는 검출 모델은, 엣지 컴퓨팅 환경에서 상대적으로 연산 리소스가 부족한 디바이스(300)에서도 원활하게 동작하도록 하기 위하여, 프루닝(Pruning), 양자화(Quantization), 지식 증류(Knowledge Distillation)와 같은 경량화 알고리즘에 의하여 경량화된 모델일 수 있고, 위와 같이 경량화된 모델은 서버(200) 또는 외부 시스템(미도시됨)에서 생성되어 디바이스(300)로 배포될 수 있다. 다만, 본 발명의 일 실시예에 따른 경량화 알고리즘은 위의 열거된 것에 한정되지 않으며, 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있음을 밝혀 둔다.
다음으로, 본 발명의 일 실시예에 따른 객체 추적 관리부(320)는, 위의 객체 인식 관리부(310)에 의하여 통합적으로 생성되는 검출 데이터를 참조하여 대상 객체를 추적하는 기능을 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 객체 추적 관리부(320)는, 촬영 영상의 프레임별로 트랙렛(tracklet)을 관리하면서, 새로운 프레임에서 검출되는 대상 객체에 대하여 기존 트랙렛을 연결시키거나 새로운 트랙렛을 생성할 수 있다. 예를 들면, 본 발명의 일 실시예에 따른 객체 추적 관리부(320)는, 프레임별로 대상 객체에 대하여 예측된 바운딩 박스와 실제로 입력된 바운딩 박스가 서로 겹쳐지는 정도를 기준으로 하여(예를 들면, IoU(Intersection over Union)를 기준으로 하여) 그 대상 객체에 대하여 기존 트랙렛을 연결시킬지 아니면 새로운 트랙렛을 생성할지를 결정할 수 있다.
또한, 본 발명의 일 실시예에 따른 객체 추적 관리부(320)는, 위의 객체 인식 관리부(310)에 의하여 생성되는 대상 객체의 검출 데이터(즉, 대상 객체에 대응하는 바운딩 박스, 대상 객체의 발 위치, 대상 객체의 성별, 나이 등에 관한 검출 데이터)를 그 대상 객체에 해당하는 트랙렛에 부여할 수 있다.
다만, 본 발명의 일 실시예에 따른 객체 추적 알고리즘은 위의 열거된 것에 한정되지 않으며, 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있음을 밝혀 둔다.
다음으로, 본 발명의 일 실시예에 따른 출입 판단 관리부(330)는, 위의 객체 추적 관리부(320)에 의하여 생성되는 대상 객체 추적에 관한 정보(즉, 트랙렛에 관한 정보)를 참조하여 대상 객체가 소정의 검지선을 통과하는지 여부를 판단함으로써, 오프라인 공간에 대한 대상 객체의 출입 여부를 결정하는 기능을 수행할 수 있다.
구체적으로, 본 발명의 일 실시예에 따른 출입 판단 관리부(330)는, 이전 프레임에서의 트랙렛에 의해 특정되는 대상 객체의 발 위치를 시점으로 하고 현재 프레임에서의 트랙렛에 의해 특정되는 대상 객체의 발 위치를 종점으로 하는 벡터를 설정할 수 있고, 이렇게 설정되는 벡터와 출입문 근처에 설정되는 소정의 검지선 사이에 교점이 존재하면 대상 객체가 검지선을 통과한 것으로 판단할 수 있다. 나아가, 본 발명의 일 실시예에 따른 출입 판단 관리부(330)는, 위의 벡터의 방향에 관한 정보와 위의 검지선을 기준으로 한 입장 방향에 관한 정보를 참조하여, 대상 객체가 오프라인 공간(즉, 매장)에 입장했는지 아니면 대상 객체가 오프라인 공간에서 퇴장했는지를 판단할 수 있다.
다만, 본 발명의 일 실시예에 따른 출입 판단 알고리즘은 위의 열거된 것에 한정되지 않으며, 본 발명의 목적을 달성할 수 있는 범위 내에서 다양하게 변경될 수 있음을 밝혀 둔다.
한편, 본 발명의 일 실시예에 따른 디바이스(300)는, 대상 객체를 인식하는 과정에서 통합적으로 생성되는 검출 데이터, 대상 객체를 추적하는 과정에서 생성되는 트랙렛에 관한 데이터 및 대상 객체의 출입 판단 과정에서 생성되는 입장 또는 퇴장에 관한 데이터를 모두 통합할 수 있고, 그 통합된 데이터를 서버(200) 또는 외부 시스템에 전송할 수 있다.
다음으로, 본 발명의 일 실시예에 따른 통신부(340)는, 객체 인식 관리부(310), 객체 추적 관리부(320) 및 출입 판단 관리부(330)로부터의/로의 데이터 송수신이 가능하도록 하는 기능을 수행할 수 있다.
마지막으로, 본 발명의 일 실시예에 따른 제어부(350)는, 객체 인식 관리부(310), 객체 추적 관리부(320), 출입 판단 관리부(330) 및 통신부(340) 간의 데이터의 흐름을 제어하는 기능을 수행할 수 있다. 즉, 본 발명에 따른 제어부(250)는 디바이스(300)의 외부로부터의/로의 데이터 흐름 또는 디바이스(300)의 각 구성요소 간의 데이터 흐름을 제어함으로써, 객체 인식 관리부(310), 객체 추적 관리부(320), 출입 판단 관리부(330) 및 통신부(340)에서 각각 고유 기능을 수행하도록 제어할 수 있다.
이상 설명된 본 발명에 따른 실시예는 다양한 컴퓨터 구성요소를 통하여 실행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical medium), 및 ROM, RAM, 플래시 메모리 등과 같은, 프로그램 명령어를 저장하고 실행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의하여 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용하여 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위하여 하나 이상의 소프트웨어 모듈로 변경될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항과 한정된 실시예 및 도면에 의하여 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위하여 제공된 것일 뿐, 본 발명이 상기 실시예에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정과 변경을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 또는 이로부터 등가적으로 변경된 모든 범위는 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (11)

  1. 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법으로서,
    오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하는 단계,
    인공 신경망 기반 검출 모델을 이용하여 상기 특징 데이터로부터 상기 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하는 단계, 및
    대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시키는 단계를 포함하는
    방법.
  2. 제1항에 있어서,
    상기 검출 데이터는 특징 맵(feature map)에 기초하여 생성되는
    방법.
  3. 제1항에 있어서,
    상기 객체의 위치에 대한 검출 데이터에는 상기 객체에 대응하는 바운딩 박스(bounding box)의 객체화 점수(objectness score), 폭(width), 높이(height) 및 중심 오프셋(center offset) 중 적어도 하나에 대한 검출 데이터와 상기 객체의 발의 위치에 대한 검출 데이터가 포함되고, 상기 객체의 외관에 관한 검출 데이터에는 상기 객체의 나이 및 성별 중 적어도 하나에 관한 검출 데이터가 포함되는
    방법.
  4. 제1항에 있어서,
    상기 검출 모델은, 상기 객체의 위치 및 외관에 대한 검출 데이터 중 일부를 생성하는 제1 검출 모델 및 상기 객체의 위치 및 외관에 대한 검출 데이터 중 나머지 일부를 생성하는 제2 검출 모델을 포함하는
    방법.
  5. 제1항에 있어서,
    상기 검출 모델은, 상기 객체의 위치 및 외관에 관한 복수의 속성 중 하나의 속성에 대한 검출 데이터를 하나의 특징 맵에 기초하여 생성하는 검출 모델을 포함하는
    방법.
  6. 제1항에 있어서,
    상기 검출 모델은, 상기 객체의 위치 및 외관에 관한 복수의 속성 중 둘 이상의 속성에 대한 검출 데이터를 하나의 특징 맵에 기초하여 함께 생성하는 검출 모델을 포함하는
    방법.
  7. 제1항에 있어서,
    상기 통합 단계에서, 상기 생성되는 검출 데이터의 기초가 되는 특징 맵상의 적어도 하나의 좌표를 매개로 하여 상기 대상 객체의 위치 및 외관에 대한 검출 데이터 중 적어도 일부를 상기 대상 객체에 대하여 할당함으로써, 상기 대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시키는
    방법.
  8. 제1항에 있어서,
    상기 대상 객체의 위치에 대한 검출 데이터를 참조하여 상기 촬영 영상에서 상기 대상 객체를 추적하는 단계를 더 포함하는
    방법.
  9. 제1항에 있어서,
    상기 추적에 관한 정보를 참조하여 상기 대상 객체가 소정의 검지선을 통과하는지 여부를 판단함으로써 상기 대상 객체의 출입 여부를 결정하는 단계를 더 포함하는
    방법.
  10. 제1항에 따른 방법을 실행하기 위한 컴퓨터 프로그램을 기록하는 비일시성의 컴퓨터 판독 가능 기록 매체.
  11. 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 디바이스로서,
    오프라인 공간에 대한 촬영 영상으로부터 특징 데이터를 추출하는 특징 추출부,
    인공 신경망 기반 검출 모델을 이용하여 상기 특징 데이터로부터 상기 촬영 영상에 포함된 객체의 위치 및 외관에 대한 검출 데이터를 생성하는 정보 검출부, 및
    대상 객체의 위치 및 외관에 대한 검출 데이터를 통합시키는 데이터 통합부를 포함하는
    디바이스.
PCT/KR2021/016654 2020-12-31 2021-11-15 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체 WO2022145712A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/270,408 US20240062408A1 (en) 2020-12-31 2021-11-15 Method, device, and non-transitory computer-readable recording medium for analyzing visitor on basis of image in edge computing environment

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0188854 2020-12-31
KR1020200188854A KR102610494B1 (ko) 2020-12-31 2020-12-31 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Publications (1)

Publication Number Publication Date
WO2022145712A1 true WO2022145712A1 (ko) 2022-07-07

Family

ID=82260482

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2021/016654 WO2022145712A1 (ko) 2020-12-31 2021-11-15 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체

Country Status (3)

Country Link
US (1) US20240062408A1 (ko)
KR (1) KR102610494B1 (ko)
WO (1) WO2022145712A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101448392B1 (ko) * 2013-06-21 2014-10-13 호서대학교 산학협력단 피플 카운팅 방법
JP2016053869A (ja) * 2014-09-04 2016-04-14 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2016177755A (ja) * 2015-03-23 2016-10-06 日本電気株式会社 注文端末装置、注文システム、客情報生成方法、及びプログラム
KR20170006356A (ko) * 2015-07-08 2017-01-18 주식회사 케이티 이차원 영상 기반 고객 분석 방법 및 장치
KR102138301B1 (ko) * 2020-05-06 2020-07-27 유정환 Pos 기반 고객 마케팅 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102340134B1 (ko) 2015-02-10 2021-12-15 한화테크윈 주식회사 매장 방문 정보 제공 시스템 및 방법
KR101779096B1 (ko) * 2016-01-06 2017-09-18 (주)지와이네트웍스 지능형 영상분석 기술 기반 통합 매장관리시스템에서의 객체 추적방법
KR101839827B1 (ko) * 2017-09-06 2018-03-19 한국비전기술주식회사 원거리 동적 객체에 대한 얼굴 특징정보(연령, 성별, 착용된 도구, 얼굴안면식별)의 인식 기법이 적용된 지능형 감시시스템
US11250243B2 (en) * 2019-03-26 2022-02-15 Nec Corporation Person search system based on multiple deep learning models

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101448392B1 (ko) * 2013-06-21 2014-10-13 호서대학교 산학협력단 피플 카운팅 방법
JP2016053869A (ja) * 2014-09-04 2016-04-14 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2016177755A (ja) * 2015-03-23 2016-10-06 日本電気株式会社 注文端末装置、注文システム、客情報生成方法、及びプログラム
KR20170006356A (ko) * 2015-07-08 2017-01-18 주식회사 케이티 이차원 영상 기반 고객 분석 방법 및 장치
KR102138301B1 (ko) * 2020-05-06 2020-07-27 유정환 Pos 기반 고객 마케팅 시스템

Also Published As

Publication number Publication date
US20240062408A1 (en) 2024-02-22
KR20220096436A (ko) 2022-07-07
KR102610494B1 (ko) 2023-12-06

Similar Documents

Publication Publication Date Title
WO2021180004A1 (zh) 视频分析方法、视频分析的管理方法及相关设备
US10657365B2 (en) Specific person detection system and specific person detection method
CN107078917A (zh) 托管电话会议
WO2016099084A1 (ko) 비콘신호를 이용한 안전 서비스 제공 시스템 및 방법
WO2019221416A1 (ko) 실시간 현장 동영상 중계를 이용한 시각장애인 안내 서비스 제공 방법
WO2015102126A1 (ko) 얼굴 인식 기술을 이용한 전자 앨범 관리 방법 및 시스템
WO2011078596A2 (ko) 상황에 따라 적응적으로 이미지 매칭을 수행하기 위한 방법, 시스템, 및 컴퓨터 판독 가능한 기록 매체
CN112008736A (zh) 迎宾机器人调配方法、装置、存储介质和电子装置
WO2019190076A1 (ko) 시선 추적 방법 및 이를 수행하기 위한 단말
CN114332925A (zh) 电梯内宠物检测方法、系统、装置及计算机可读存储介质
KR20190099216A (ko) Rgbd 감지 기반 물체 검출 시스템 및 그 방법
WO2022145712A1 (ko) 엣지 컴퓨팅 환경에서 영상에 기초하여 방문객을 분석하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN110717941B (zh) 图像物件追踪系统及方法
WO2021107734A1 (ko) 골프에 관한 콘텐츠를 추천하기 위한 방법, 디바이스 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN112418062A (zh) 人脸识别方法、系统、电子设备及存储介质
WO2023096133A1 (ko) 경량화된 자세 추정 모델 제공 장치 및 방법
WO2022191380A1 (ko) 블록체인 기반의 영상 위변조 방지 시스템 및 방법과 이를 위한 컴퓨터 프로그램
WO2022131733A1 (ko) Lpwan(low power wide area network) 환경에서 영상에 기초하여 객체에 관한 정보를 추정하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2016186327A1 (ko) 공간행동 의미분석 시스템
WO2017200333A2 (ko) 공간 행동 의미 분석 시스템 및 공간 행동 의미 분석 방법
CN112418234A (zh) 识别车牌号的方法、装置、电子设备及存储介质
WO2024106925A1 (ko) 증강 현실 기반의 통신 시스템 및 방법과 이를 수행하기 위한 컴퓨팅 장치
WO2023243904A1 (ko) 이미지 분석을 위한 파생 이미지를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
KR102633147B1 (ko) 에지-클라우드 플랫폼 시스템
CN206039561U (zh) 一种动态人像采集比对系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21915510

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 18270408

Country of ref document: US

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 27.11.2023)

122 Ep: pct application non-entry in european phase

Ref document number: 21915510

Country of ref document: EP

Kind code of ref document: A1