WO2023085520A1 - 멀티 모델을 이용한 cctv 영상의 강건한 얼굴 비식별화 방법 및 시스템 - Google Patents

멀티 모델을 이용한 cctv 영상의 강건한 얼굴 비식별화 방법 및 시스템 Download PDF

Info

Publication number
WO2023085520A1
WO2023085520A1 PCT/KR2022/001740 KR2022001740W WO2023085520A1 WO 2023085520 A1 WO2023085520 A1 WO 2023085520A1 KR 2022001740 W KR2022001740 W KR 2022001740W WO 2023085520 A1 WO2023085520 A1 WO 2023085520A1
Authority
WO
WIPO (PCT)
Prior art keywords
face
region
human
head
detection
Prior art date
Application number
PCT/KR2022/001740
Other languages
English (en)
French (fr)
Inventor
유성준
구영현
박철호
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Publication of WO2023085520A1 publication Critical patent/WO2023085520A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4038Image mosaicing, e.g. composing plane images from plane sub-images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Definitions

  • the description below relates to techniques for de-identifying facial regions from image information.
  • a face de-identification technology in an image is a method of automatically detecting a person's face using a face area detection model and de-identifying the detected face area.
  • the human face included in all frames within the video must be de-identified.
  • the face de-identification technology based on the existing face region detection model has very low face detection performance when a person wears a mask or a hat, so the de-identification performance is very low.
  • the performance of detection and de-identification is high when the face is exposed from the front, but the performance of detection and de-identification is very low when the person is sideways or with the head down.
  • the image from the CCTV surveillance camera is an image of a person photographed at a certain angle of inclination, so it is not a frontal face, which makes face detection and de-identification difficult.
  • the human face detection and de-identification task in the video must consider the human movement.
  • the conventional human face detection technology and non-identification technology in a video have a problem in that a face is detected in some frames and not detected in some frames due to the movement of the person in the video, so a person has to manually work. There is the inconvenience of having to redo de-identification for each frame.
  • a method and system for automatically finding and masking the position of a person's face when a person's face is covered by a hat or other object such as a mask in an image may be provided.
  • a face de-identification method performed by a de-identification system includes: detecting at least one region information among a human region, a head region, and a face region by using a multi-model with respect to image information; determining a location of a face by merging results of the detected at least one piece of area information; tracking face position information from the image information based on the determined face position; and generating de-identified image information corresponding to the tracked face location information, wherein the multi-model includes a deep learning-based detection model configured to detect region information from the image information. It may be learned to simultaneously detect the human region, the head region, and the face region.
  • the detecting may include extracting a frame from image information photographed by a CCTV surveillance camera.
  • the detecting may include inputting the extracted frame to a deep learning-based human detection model for detecting the human region, and using the deep learning-based human detection model for detecting the human region to detect a person from the extracted frame.
  • the method may include detecting an area and outputting location coordinate data of the detected human area.
  • the detecting step may include inputting the extracted frames to a deep learning-based head detection model for detecting the head region, and using the deep learning-based head detection model for detecting the head region to detect the hair from the extracted frames.
  • the method may include detecting a region and outputting positional coordinate data of the detected head region.
  • the detecting may include inputting the extracted frame to a deep learning-based face detection model for detecting the face region, and using the deep learning-based face detection model for detecting the face region to detect a face from the extracted frame.
  • the method may include detecting an area and outputting location coordinate data of the detected face area.
  • the detecting may include calculating a position of the human head based on the detected position coordinate data of the human region.
  • the tracking may include tracking face position information based on the determined position of the face for a plurality of previous frames and a plurality of next frames based on a frame including the determined position of the face in the image information; and outputting coordinate data of the tracked face location information.
  • It may include a computer program stored in a non-transitory computer readable recording medium to execute a face de-identification method in the de-identification system.
  • the de-identification system includes a region detection unit that detects at least one region information among a human region, a head region, and a face region by using a multi-model with respect to image information; a face location determiner configured to determine a location of a face by merging results of the detected at least one piece of area information; a face position tracking unit tracking face position information from the image information based on the determined face position; and an image generating unit generating de-identified image information corresponding to the tracked face location information, wherein the multi-model is a deep learning-based detection model configured to detect region information from the image information. It may be learned to simultaneously detect the human area, the head area, and the face area through
  • the region detection unit may extract a frame from image information photographed by a CCTV monitoring camera.
  • the region detection unit inputs the extracted frame to a deep learning-based human detection model for detecting the human region, and uses the deep learning-based human detection model to detect the human region from the extracted frame. may be detected, and positional coordinate data of the detected human area may be output.
  • the region detection unit inputs the extracted frame to a deep learning-based head detection model for detecting the head region, and uses the deep learning-based head detection model to detect the head region from the extracted frame. may be detected, and positional coordinate data of the detected head region may be output.
  • the area detection unit inputs the extracted frame to a deep learning-based face detection model for detecting the face area, and uses the deep learning-based face detection model for detecting the face area to determine the face area from the extracted frame. may be detected, and positional coordinate data of the detected face area may be output.
  • the region detection unit may calculate the position of the human head based on the positional coordinate data of the detected human region.
  • the face position tracking unit tracks face position information based on the determined position of the face for a plurality of previous frames and a plurality of next frames based on a frame including the determined face position in the image information; Coordinate data of the tracked face location information may be output.
  • De-identifying human face images from CCTV footage can improve performance.
  • FIG. 1 is a diagram for explaining a face de-identification operation according to an exemplary embodiment.
  • Figure 2 is a block diagram for explaining the configuration of a de-identification system according to an embodiment.
  • FIG. 3 is a flowchart illustrating a method of de-identifying a face in a de-identification system according to an embodiment.
  • 4 to 6 are examples for explaining types of human faces detected from image information.
  • 7 and 8 are examples for explaining that a person's face or body is covered.
  • FIG 9 is an example of a face area detection result according to an embodiment.
  • FIG. 10 is an example of a face region detection result using both face region detection and head region detection according to an embodiment.
  • 11 is an example of a face region detection result using face region detection, head region detection, and human region detection together in one embodiment.
  • 12 and 13 are examples of facial area detection results using face area detection, head area detection, and human area detection in each frame together, according to an embodiment.
  • 4 to 6 are examples for explaining types of human faces detected from image information.
  • the human face detected from the video information of the CCTV monitoring camera can be divided into three types. In the first type, a frontal face may appear as shown in FIG. 4 . In the second type, as shown in FIG. 5 , a side face other than the front or a face of a different angle may appear. As shown in FIG.
  • the third type is that the face is covered by a mask, sunglasses, a scarf, a scarf, or a hat. Since the outbreak of Corona 19, the need for a technical solution to detecting a face that is covered by the mandatory wearing of a mask to prevent infection is growing. However, due to occlusion caused by fashion items such as masks and sunglasses, the face detection performance for occluded faces is relatively low, which also lowers the face de-identification processing performance.
  • 7 and 8 are examples for explaining that a person's face or body is covered.
  • face detection performance is degraded because the head or face is covered by a hat.
  • the large size of the hat may hide the features of the human body, or the hat may lose features because it is related to the human body.
  • 8 is an example of head detection failure using head region detection.
  • the face when de-identifying a person's face image from a CCTV image, the face is not well detected and de-identification is not performed in the second type (side or other angle face) and the third type (mask, An operation to solve a problem of a face covered by sunglasses, a scarf, a scarf, a hat, etc. will be described.
  • three models including person detection, head detection, and face detection are merged and used to accurately find a person's face without missing it in various environments of CCTV images.
  • tracking technology is applied to a plurality of front and back (eg, 30) images based on the frame. Re-track the position of the face object in the frame.
  • de-identify mosaic
  • FIG. 1 is a diagram for explaining a face de-identification operation according to an exemplary embodiment.
  • the non-identification system may extract a frame (key frame) from image information captured by a CCTV surveillance camera (101).
  • the CCTV surveillance camera may include an electronic device that photographs indoors or outdoors through at least one camera.
  • a CCTV surveillance camera may be configured in a 360 degree rotatable form, or may be configured in a form capable of capturing only a specific angle range.
  • the de-identification system may detect at least one region information among a human region, a head region, and a face region by using a multi-model with respect to the extracted frame (102, 103, 104).
  • the multi-model may be one learned to simultaneously detect the human region, the head region, and the face region through each detection model based on deep learning (eg, CNN) configured to detect region information from image information.
  • each detection model may mean a person detection model for detecting a human region, a head detection model for detecting a head region, and a head detection model for detecting a face region.
  • the human detection model may be learned through a data set for detecting a human region
  • the head detection model may be learned through a data set for detecting a head region
  • the head detection model may be learned through a data set for detecting a head region. It may be learned through a data set for
  • the de-identification system can detect all region information for each of the human region, head region, and face region using multi-models.
  • the de-identification system inputs the extracted frame to a deep learning-based human detection model for human region detection, and uses the deep learning-based human detection model to detect the human region from the extracted frame. can be detected (102).
  • the de-identification system may output positional coordinate data of the detected human area.
  • the human detection model may be learned with a CNN-based deep learning model.
  • the de-identification system inputs the extracted frame into a deep learning-based head detection model for head region detection, and can detect the head region from the extracted frame using the deep learning-based head detection model for head region detection. Yes (103).
  • the de-identification system may output position coordinate data of the detected head region.
  • the head detection model may be learned with a CNN-based deep learning model.
  • the de-identification system inputs the extracted frame to a deep learning-based face detection model for face region detection, and detects the face region from the extracted frame using the deep learning-based face detection model for face region detection. Yes (104).
  • the de-identification system may output position coordinate data of the detected face region.
  • the face detection model may be learned with a CNN-based deep learning model.
  • the de-identification system may calculate the position of the person's head based on the detected positional coordinate data of the person's region (105). For example, assuming that the coordinate data of a person in the frame is (x, y), (w, h), the position of the person's head (face position) is (x+w*0.7, y+h*0.2) , (w*0.4, h*0.2).
  • the de-identification system may merge results of at least one piece of detected area information (106).
  • the de-identification system may merge output results of each region information acquired through the human region detection 102 , head region detection 103 , and face region detection 104 operations.
  • the non-identification system may output the smallest region generated by overlapping each obtained region information (region where each region information matches) as an output result, or each obtained region
  • the largest area generated by merging information (the entire area where information on each area is combined) can be output as an output result.
  • the de-identification system determines the final face position based on the result of merging the output results of each region information obtained through the human region detection (102), head region detection (103), and face region detection (104) operations. can (107).
  • the de-identification system may track face location information based on the determined face location (108).
  • the de-identification system tracks the face position information based on the determined face position for a plurality of previous frames and a plurality of next frames based on the frame including the determined face position in the image information, and the tracked face position.
  • Coordinate data of information can be output.
  • the non-identification system may track the position of a face object in 30 front and back 30 frames using a tracking technology, and output face coordinate data of the object.
  • the de-identification system may perform de-identification processing in response to the tracked face location information (109).
  • De-identification processing may refer to a separate processing operation for hiding a face, such as mosaic processing or blur processing. De-identification processing may be automatically performed on these tracked face locations.
  • a user interface for de-identification processing may be provided, and a processing task for de-identification may be performed on face location information estimated from the user through the provided user interface. For example, the degree of attribute information such as transparency/opacity, brightness, saturation, and lightness for mosaic processing and blur processing may be adjusted.
  • the de-identification system may perform mosaic processing on face position information in a frame and then store it as an image.
  • the de-identification system may generate de-identification processed image information.
  • a general face area detection task may be performed through existing face area detection.
  • the existing face area detection operation detects the first type of frontal face well, but fails to detect the face area due to the occlusion of the second and third types of faces or the shooting angle of the camera, and misses ( may be missing).
  • head region detection and human region detection may be additionally performed in a part for detecting a human face.
  • Head region detection can be made by learning a training data set in which a previously prepared head region is annotated using a CNN-based model. Through head area detection, it is possible to precisely detect faces covered by various occluding phenomena such as masks or faces at various angles. In other words, by detecting a person's head instead of a person's face, it is possible to solve the problem of poor face detection performance due to the influence of the face angle and occlusion.
  • an additional face (head) region may be detected by supplementing the face region detection operation.
  • FIG. 10 an example of a face area detection result using face area detection and head area detection together.
  • the head region detection operation compensated for the lack of face region detection operation, but the detection performance of the head is low when a person is wearing a hood of a hooded t-shirt or there is an occlusion area in which the head is covered in a complex way. Accordingly, through the human region detection operation, it is possible to find and supplement the missing face region in the face region operation and the head region detection operation.
  • the human area detection operation detects the location of a person by extracting physical and behavioral characteristics of a person.
  • a person's area is detected in a CCTV image using a CNN-based deep learning model, and then the position of the face can be calculated using a mathematical formula in the person's area. Assuming that the coordinates of the human area in the frame are (x, y), (w, h), the position of the human face is (x+w*0.7, y+h*0.2), (w*0.4, h*0.2 ) can be calculated. As a result, it is possible to reduce misses in face area detection as much as possible by using different access methods for the same image with three independent operations.
  • FIG. 11 an example of a face area detection result using face area detection, head area detection, and human area detection together.
  • This is a face region detection result obtained by combining face region detection results detected through three region detection operations including face region detection, head region detection, and human region detection.
  • the face region may be detected through face region detection and head region detection operations.
  • the human region is detected through human region detection, if there is no previously detected region within the human region, the position of the face may be calculated using a mathematical formula.
  • CCTV video contains n images per second according to fps.
  • the face region detection operation, the head region detection operation, and the human region detection operation may have different detection performance depending on frames extracted from an image. For example, the face area is detected in frame 1, but the face area may be missed in frame 2.
  • FIGS. 12 and 13 in one embodiment, examples of face area detection results using face area detection, head area detection, and human area detection in each frame are used together.
  • FIG. 12 an example of a result of face region detection by applying three face region detection, head region detection, and human region detection operations to frame 1 is shown.
  • FIG. 13 an example of a face region detection result by applying three face region detection, head region detection, and human region detection operations to frame 2 is shown. Unlike FIG.
  • FIG. 13 has a missing face area.
  • face tracking technology when the area extracted from frame 1 of the image is not extracted from frame 2, the similarity between frame 1 and frame 2 is compared, and the area most similar to the face area of frame 1 is tracked and marked in frame 2. Face positioning technology recovers the missing face area in the frame. By integrating all face regions extracted from the last image and then mosaic-processing, the probability of missing face regions in the image is minimized, and overall performance of the face non-visualization system of CCTV images can be improved.
  • Figure 2 is a block diagram for explaining the configuration of a de-identification system according to an embodiment
  • Figure 3 is a flow chart for explaining a face de-identification method in the de-identification system according to an embodiment.
  • the processor of the de-identification system 100 may include a region detection unit 210, a face location determination unit 220, a face location tracking unit 230, and an image generator 240. Components of such a processor may be representations of different functions performed by the processor according to control instructions provided by program codes stored in the non-identifying system.
  • the processor and components of the processor may control the de-identification system to perform steps 310 to 340 included in the face de-identification method of FIG. 3 .
  • the processor and components of the processor may be implemented to execute instructions according to the code of an operating system included in the memory and the code of at least one program.
  • the processor may load a program code stored in a program file for a face de-identification method into a memory. For example, when a program is executed in the de-identification system, the processor may control the de-identification system to load a program code from a file of the program into a memory under the control of an operating system. At this time, each of the area detection unit 210, the face location determination unit 220, the face location tracking unit 230, and the image generation unit 240 executes a command of a corresponding part of the program code loaded into the memory to perform subsequent steps. There may be different functional representations of the processor for executing (310-340).
  • the region detection unit 210 may detect at least one region information among a human region, a head region, and a face region by using a multi-model with respect to image information.
  • the region detection unit 210 may extract a frame from image information photographed by a CCTV surveillance camera.
  • the region detection unit 210 inputs the extracted frame to a deep learning-based human detection model for human region detection, and detects the human region from the extracted frame using the deep learning-based human detection model for human region detection.
  • position coordinate data of the detected human area may be output.
  • the region detector 210 may calculate the position of the human head based on the positional coordinate data of the detected human region.
  • the region detector 210 inputs the extracted frames to a deep learning-based head detection model for head region detection, and detects the head region from the extracted frames using the deep learning-based head detection model for head region detection. , position coordinate data of the detected head region can be output.
  • the region detector 210 inputs the extracted frame to a deep learning-based face detection model for face region detection, and detects a face region from the extracted frame using the deep learning-based face detection model for face region detection. , position coordinate data of the detected face area can be output.
  • the face position determination unit 220 may determine the position of the face by merging the detected results of at least one region information.
  • the face location tracker 230 may track face location information from image information based on the determined face location.
  • the face position tracking unit 230 tracks and tracks face position information based on the determined face position for a plurality of previous frames and a plurality of next frames based on the frame including the determined face position in the image information. Coordinate data of the face location information can be output.
  • the image generator 240 may generate de-identified image information corresponding to the tracked face location information.
  • devices and components described in the embodiments may include, for example, a processor, a controller, an arithmetic logic unit (ALU), a digital signal processor, a microcomputer, a field programmable gate array (FPGA) , a programmable logic unit (PLU), microprocessor, or any other device capable of executing and responding to instructions.
  • a processing device may run an operating system (OS) and one or more software applications running on the operating system.
  • a processing device may also access, store, manipulate, process, and generate data in response to execution of software.
  • the processing device includes a plurality of processing elements and/or a plurality of types of processing elements. It can be seen that it can include.
  • a processing device may include a plurality of processors or a processor and a controller. Other processing configurations are also possible, such as parallel processors.
  • Software may include a computer program, code, instructions, or a combination of one or more of the foregoing, which configures a processing device to operate as desired or processes independently or collectively. You can command the device.
  • Software and/or data may be any tangible machine, component, physical device, virtual equipment, computer storage medium or device, intended to be interpreted by or provide instructions or data to a processing device.
  • can be embodied in Software may be distributed on networked computer systems and stored or executed in a distributed manner.
  • Software and data may be stored on one or more computer readable media.
  • the method according to the embodiment may be implemented in the form of program instructions that can be executed through various computer means and recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program commands recorded on the medium may be specially designed and configured for the embodiment or may be known and usable to those skilled in computer software.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tapes, optical media such as CD-ROMs and DVDs, and magnetic media such as floptical disks.
  • - includes hardware devices specially configured to store and execute program instructions, such as magneto-optical media, and ROM, RAM, flash memory, and the like.
  • Examples of program instructions include high-level language codes that can be executed by a computer using an interpreter, as well as machine language codes such as those produced by a compiler.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Geometry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

멀티 모델을 이용한 CCTV 영상의 강건한 얼굴 비식별화 방법 및 시스템이 개시된다. 일 실시예에 따른 비식별화 시스템에 의해 수행되는 얼굴 비식별화 방법은, 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 단계; 상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 단계; 상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 단계; 및 상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 단계를 포함하고, 상기 멀티 모델은, 상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다.

Description

멀티 모델을 이용한 CCTV 영상의 강건한 얼굴 비식별화 방법 및 시스템
아래의 설명은 영상 정보로부터 얼굴 영역을 비식별화하는 기술에 관한 것이다.
영상에서의 얼굴 비식별화 기술은 얼굴 영역 검출(detection) 모델을 이용해 사람의 얼굴을 자동으로 검출하고 검출한 얼굴 영역을 비식별화 하는 방식이다. 개인정보보호법상 CCTV 영상을 활용하기 위해 반출하려면 영상 내의 모든 프레임에 포함된 사람 얼굴을 비식별화 해야한다. 그러나 기존의 얼굴 영역 검출 모델에 기반한 얼굴 비식별화 기술은 사람이 마스크 또는 모자를 착용하였을 때 얼굴 검출의 성능이 떨어져 비식별화 성능이 매우 낮다. 또한 사람이 정면으로 얼굴을 노출했을 때는 검출 및 비식별화 성능이 높지만 측면 또는 고개를 숙일 때는 얼굴 검출 및 비식별화 성능이 매우 낮다. 이처럼 CCTV 감시 카메라에서의 영상은 사람을 일정한 각도의 경사각으로 촬영한 영상이라 정면 얼굴이 아니며 이로 인해 얼굴 검출 및 비식별화 작업에 어려움이 있다. 이와 더불어 동영상에서의 사람 얼굴 검출 및 비식별화 작업은 사람의 움직임을 고려해야 한다. 그러나, 종래의 동영상에서의 사람 얼굴 검출 기술 및 비식별화 기술은 동영상에서 사람의 이동으로 인해 어떤 프레임(frame)에서는 얼굴이 검출되고 어떤 프레임에서는 얼굴이 검출되지 않는 문제점이 있어 사람이 일일이 수작업을 통해 프레임 별로 비식별화를 다시 해야 한다는 번거로움이 존재한다.
CCTV 감시 카메라에서 등장하는 사람의 얼굴을 자동으로 검출하여 마스킹하는 방법 및 시스템을 제공할 수 있다.
영상에서 사람이 고개를 숙이거나 얼굴 측면만 보일 때 사람의 얼굴을 자동으로 검출하여 마스킹하는 방법 및 시스템을 제공할 수 있다.
영상에서 사람이 모자 또는 마스크 등 기타 객체로 얼굴을 가린 경우 사람의 얼굴 위치를 자동으로 찾아 마스킹하는 방법 및 시스템을 제공할 수 있다.
비식별화 시스템에 의해 수행되는 얼굴 비식별화 방법은, 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 단계; 상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 단계; 상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 단계; 및 상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 단계를 포함하고, 상기 멀티 모델은, 상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다.
상기 검출하는 단계는, CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출하는 단계를 포함할 수 있다.
상기 검출하는 단계는, 상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력하는 단계를 포함할 수 있다.
상기 검출하는 단계는, 상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력하는 단계를 포함할 수 있다.
상기 검출하는 단계는, 상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력하는 단계를 포함할 수 있다.
상기 검출하는 단계는, 상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산하는 단계를 포함할 수 있다.
상기 추적하는 단계는, 상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력하는 단계를 포함할 수 있다.
얼굴 비식별화 방법을 상기 비식별화 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 포함할 수 있다.
비식별화 시스템은, 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 영역 검출부; 상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 얼굴 위치 판정부; 상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 얼굴 위치 추적부; 및 상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 영상 생성부를 포함하고, 상기 멀티 모델은, 상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다.
상기 영역 검출부는, CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출할 수 있다.
상기 영역 검출부는, 상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력할 수 있다.
상기 영역 검출부는, 상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력할 수 있다.
상기 영역 검출부는, 상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력할 수 있다.
상기 영역 검출부는, 상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산할 수 있다.
상기 얼굴 위치 추적부는, 상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력할 수 있다.
영상에서 사람이 움직이면 프레임의 차이로 얼굴을 검출하지 못하고 놓지는 문제를 해결할 수 있다.
CCTV 영상에서 사람의 안면 이미지를 비식별화는 성능을 향상시킬 수 있다.
도 1은 일 실시예에 따른 얼굴 비식별화 동작을 설명하기 위한 도면이다.
도 2는 일 실시예에 따른 비식별화 시스템의 구성을 설명하기 위한 블록도이다.
도 3은 일 실시예에 따른 비식별화 시스템에서 얼굴 비식별화 방법을 설명하기 위한 흐름도이다.
도 4 내지 도 6은 영상 정보에서 검출되는 사람 얼굴의 유형을 설명하기 위한 예이다.
도 7 및 도 8은 사람의 얼굴 또는 사람의 신체가 가려지는 것을 설명하기 위한 예이다.
도 9는 일 실시예에 있어서, 얼굴 영역 검출 결과의 예이다.
도 10은 일 실시예에 있어서, 얼굴 영역 검출과 머리 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다.
도 11은 일 실시예에 있어서, 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다.
도 12 내지 도 13은 일 실시예에 있어서, 각 프레임에서의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
도 4 내지 도 6은 영상 정보에서 검출되는 사람 얼굴의 유형을 설명하기 위한 예이다.
기존 얼굴 검출 기반 얼굴 비식별화 방법은 사람을 정면에서 촬영한 영상에서의 성능은 높지만 사람과 카메라의 거리가 멀거나 정면 각도가 아닌 경우, 또한 마스크, 선글라스, 목도리, 스카프, 모자 등 가림 현상(occlusion)으로 인해 얼굴 일부가 가려진 영상에서는 얼굴 검출 성능이 낮아져 비식별화 처리가 제대로 되지 않는다. 이에, CCTV 감시 카메라의 영상 정보에서 검출되는 사람 얼굴은 세 가지의 유형으로 나눌 수 있다. 첫 번째 유형은 도 4와 같이, 정면 얼굴이 나타날 수 있다. 두 번째 유형은 도 5와 같이, 정면이 아닌 측면이나 다른 각도의 얼굴이 나타날 수 있다. 세 번째 유형은 도 6과 같이, 마스크, 선글라스, 목도리, 스카프, 모자 등으로 인해 얼굴이 가려지는 것이다. 코로나19 발생 이후 감염 예방을 위한 마스크 착용 의무화로 가려진 얼굴 검출에 대한 기술적 해결책의 필요성이 커지고 있다. 하지만 마스크와 선글라스 등 패션 아이템으로 인한 가림 현상(occlusion)으로 인해 가려진 얼굴에 대한 얼굴 검출 성능이 상대적으로 많이 낮아지며 이로 인해 얼굴 비식별 처리 성능도 함께 낮아진다.
도 7 및 도 8은 사람의 얼굴 또는 사람의 신체가 가려지는 것을 설명하기 위한 예이다.
도 7과 같이, 모자로 인해 머리가 가려지거나 얼굴이 가려져 얼굴 검출 성능 저하가 발생하는 사례도 있다. 모자의 크기가 커서 인체의 특징을 가리거나, 모자가 사람의 신체와 연계되어 있어 특징을 잃을 수도 있다. 도 8은 머리 영역 검출(head detection)을 이용하여 머리 검출에 실패한 예시이다.
이에, 실시예에서는 CCTV 영상에서 사람의 안면 이미지를 비식별화 할 때 얼굴 검출이 잘 안되어 비식별화가 수행되지 않는 두 번째 유형(정면이 아닌 측면이나 다른 각도의 얼굴)과 세 번째 유형(마스크, 선글라스, 목도리, 스카프, 모자 등으로 인해 가려진 얼굴)의 문제를 해결하는 동작에 대하여 설명하기로 한다.
상세하게는, CCTV 영상의 다양한 환경에서 놓치지 않고 정확히 사람의 얼굴을 찾기 위해 사람 검출(person detection), 머리 검출(head detection), 얼굴 검출(face detection)을 포함하는 3개 모델을 병합해 사용한다. 영상에서 사람의 이동으로 인해 개별 프레임에서 사람의 얼굴 위치를 검출하지 못하는 문제를 해결하기 위해 추적(tracking) 기술을 적용해 해당 프레임을 기준으로 앞, 뒤 복수 개(예를 들면, 30장)의 프레임에서 얼굴 객체의 위치를 다시 추적한다. 최종적으로 3개 모델의 검출 결과와 추적 결과를 적용해 영상에서 사람의 얼굴 위치를 비식별화(모자이크)할 수 있다.
도 1은 일 실시예에 따른 얼굴 비식별화 동작을 설명하기 위한 도면이다.
비식별화 시스템은 CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임(키 프레임)을 추출할 수 있다(101). 이때, CCTV 감시 카메라는 적어도 하나 이상의 카메라를 통해 실내 또는 실외를 촬영하는 전자 기기를 포함할 수 있다. 예를 들면, CCTV 감시 카메라는 360도 회전 가능한 형태로 구성된 것일 수 있고, 또는, 특정 각도 범위만 촬영 가능한 형태로 구성된 것일 수 있다.
비식별화 시스템은 추출된 프레임에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출할 수 있다(102, 103, 104). 이때, 멀티 모델이란, 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝(예를 들면, CNN) 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다. 예를 들면, 각각의 검출 모델은, 사람 영역을 검출하기 위한 사람 검출 모델, 머리 영역을 검출하기 위한 머리 검출 모델, 얼굴 영역을 검출하기 위한 머리 검출 모델을 의미할 수 있다. 이때, 사람 검출 모델은 사람 영역 검출을 위한 데이터 셋을 통해 학습된 것일 수 있으며, 머리 검출 모델은 머리 영역을 검출하기 위한 데이터 셋을 통해 학습된 것일 수 있으며, 머리 검출 모델은 머리 영역을 검출하기 위한 데이터 셋을 통해 학습된 것일 수 있다. 또한, 비식별화 시스템은 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 각각에 대한 영역 정보를 모두 검출할 수 있다.
상세하게는, 비식별화 시스템은 추출된 프레임을 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력하고, 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 추출된 프레임으로부터 사람 영역을 검출할 수 있다(102). 비식별화 시스템은 검출된 사람 영역의 위치 좌표 데이터를 출력할 수 있다. 이때, 사람 검출 모델은 CNN 기반의 딥러닝 모델로 학습된 것일 수 있다.
비식별화 시스템은 추출된 프레임을 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력하고, 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 추출된 프레임으로부터 머리 영역을 검출할 수 있다(103). 비식별화 시스템은 검출된 머리 영역의 위치 좌표 데이터를 출력할 수 있다. 이때, 머리 검출 모델은 CNN 기반의 딥러닝 모델로 학습된 것일 수 있다.
비식별화 시스템은 추출된 프레임을 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력하고, 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 추출된 프레임으로부터 얼굴 영역을 검출할 수 있다(104). 비식별화 시스템은 검출된 얼굴 영역의 위치 좌표 데이터를 출력할 수 있다. 이때, 얼굴 검출 모델은 CNN 기반의 딥러닝 모델로 학습된 것일 수 있다.
비식별화 시스템은 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산할 수 있다(105). 예를 들면, 프레임에서의 사람의 좌표 데이터가 (x, y), (w, h)라고 가정할 때, 사람의 머리 위치(얼굴 위치)는 (x+w*0.7, y+h*0.2), (w*0.4, h*0.2)로 계산될 수 있다.
비식별화 시스템은 검출된 적어도 하나 이상의 영역 정보의 결과를 병합할 수 있다(106). 비식별화 시스템은 사람 영역 검출(102), 머리 영역 검출(103) 및 얼굴 영역 검출(104) 동작을 통하여 획득된 각각의 영역 정보의 출력 결과를 병합할 수 있다. 예를 들면, 비식별화 시스템은 획득된 각각의 영역 정보를 중첩함에 따라 생성된 가장 작은 영역(각각의 영역 정보 모두 일치하는 영역)을 출력 결과로 출력할 수 있고, 또는, 획득된 각각의 영역 정보를 병합함에 따라 생성된 가장 큰 영역(각각의 영역 정보를 모두 합친 전체 영역)을 출력 결과로 출력할 수 있다.
비식별화 시스템은 사람 영역 검출(102), 머리 영역 검출(103) 및 얼굴 영역 검출(104) 동작을 통하여 획득된 각각의 영역 정보의 출력 결과를 병합한 결과를 기반으로 최종 얼굴 위치를 판정할 수 있다(107).
비식별화 시스템은 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적할 수 있다(108). 비식별화 시스템은 영상 정보에서 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 추적된 얼굴 위치 정보의 좌표 데이터를 출력할 수 있다. 예를 들면, 비식별화 시스템은 추적(tracking) 기술을 이용하여, 앞, 뒤 30장의 프레임에서 얼굴 객체의 위치를 추적하고, 해당 객체의 얼굴 좌표 데이터를 출력할 수 있다.
비식별화 시스템은 추적된 얼굴 위치 정보에 대응하여 비식별화 처리를 할 수 있다(109). 비식별화 처리는 모자이크 처리, 블러 처리 등 얼굴을 비공개하기 위한 별도의 처리 작업을 의미할 수 있다. 이러한 추적된 얼굴 위치에 자동으로 비식별화 처리가 수행될 수 있다. 또는, 비식별화 처리를 위한 유저 인터페이스를 제공할 수 있고, 제공된 유저 인터페이스를 통하여 사용자로부터 추정된 얼굴 위치 정보에 비식별화를 위한 처리 작업이 수행될 수 있다. 예를 들면, 모자이크 처리, 블러 처리 등을 위한 투명도/불투명도, 밝기, 채도, 명도 등의 속성 정보의 정도가 조절될 수 있다. 비식별화 시스템은 프레임에서 얼굴 위치 정보에 모자이크 처리를 한 다음 영상으로 저장할 수 있다. 비식별화 시스템은 비식별화 처리된 영상 정보를 생성할 수 있다.
도 9를 참고하면, 얼굴 영역 검출 결과의 예이다. 먼저, 기존의 얼굴 영역 검출을 통해 일반적인 얼굴 영역 검출 작업이 진행될 수 있다. 얼굴 영역 검출 결과, 기존 얼굴 영역 검출 동작은 첫 번째 유형인 정면 얼굴을 검출은 잘 되지만 두 번째와 세 번째 유형에 해당되는 얼굴의 가려짐 또는 카메라의 촬영 각도로 인해 얼굴 영역을 검출하지 못하고 미싱(missing)되는 경우가 있다. 정면이 아닌 얼굴 영역 또는 일부 가려진 얼굴이 미싱되는 문제점을 해결하기 위해 실시예에서는 사람의 얼굴을 검출하는 부분에서 머리 영역 검출과 사람 영역 검출을 추가로 수행할 수 있다.
머리 영역 검출은 CNN 기반의 모델을 사용하며 사전에 준비한 머리 부분을 어노테이션(annotation) 한 학습용 데이터 셋을 학습해 만들어질 수 있다. 머리 영역 검출을 통해 마스크 등 다양한 가림 현상으로 가려진 얼굴이나 다양한 각도의 얼굴에 대한 정밀 검출이 가능하다. 다시 말해서, 사람의 얼굴을 검출하는 것이 아니라 사람의 머리를 검출함으로써 얼굴의 각도 및 가림 현상의 영향을 받아 얼굴 검출 성능이 떨어지는 문제를 해결할 수 있다.
머리 영역 검출 동작은 얼굴 영역 검출 동작에서 얼굴 영역 검출 동작에서 미싱된 경우, 보완해 추가로 얼굴(머리) 영역이 검출될 수 있다. 도 10을 참고하면, 얼굴 영역 검출과 머리 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다. 머리 영역 검출 동작을 통해 얼굴 영역 검출 동작의 부족한 점을 보완 했으나 사람이 후드 티셔츠의 후드를 쓰고 있거나 복잡하게 머리를 가린occlusion 영역이 있을 경우 머리의 검출 성능이 낮다. 이에 따라 사람 영역 검출 동작을 통해 얼굴 영역 동작과 머리 영역 검출 동작에서 미싱한 얼굴 영역을 찾아 보완할 수 있다.
사람 영역 검출 동작은 사람의 신체적, 행동적 특징을 추출해 사람의 위치를 검출한다. 실시예에서는 CCTV 영상에서 CNN 기반 딥러닝 모델을 이용해 사람의 영역을 검출한 다음 사람의 영역에서 수학적 공식을 이용해 얼굴의 위치가 계산될 수 있다. 프레임에서 사람 영역의 좌표를 (x, y), (w, h)라고 가정할 때, 사람의 얼굴 위치는 (x+w*0.7, y+h*0.2), (w*0.4, h*0.2)로 계산될 수 있다. 이로써 3개의 독립적인 동작으로 동일 영상에 서로 다른 접근 방법을 사용해 최대한 얼굴 영역 검출의 미싱을 감소시킬 수 있다.
도 11을 참고하면, 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다. 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 포함하는 세 가지의 영역 검출 동작을 통해 검출한 얼굴 영역의 검출 결과를 결합한 얼굴 영역 검출 결과이다. 우선 얼굴 영역 검출과 머리 영역 검출 동작을 통해 얼굴 영역이 검출될 수 있다. 그 다음 사람 영역 검출을 통해 사람의 영역을 검출한 후 사람 영역 내에 기존에 검출한 영역이 없으면 수학적 공식을 이용해 얼굴의 위치를 계산할 수 있다.
CCTV 영상은 fps에 따라 초당 n장의 이미지를 포함하고 있다. 얼굴 영역 검출 동작, 머리 영역 검출 동작, 사람 영역 검출 동작은 영상에서 추출한 프레임에 따라 검출 성능이 다를 수 있다. 예를 들면, 프레임 1(frame 1)에서는 얼굴 영역이 검출 되었으나, 프레임 2(frame 2)에서는 얼굴 영역을 놓칠 수 있다. 도 12 내지 도 13을 참고하면, 일 실시예에 있어서, 각 프레임에서의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다. 도 12를 참고하면, 프레임 1에 3개의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출 동작을 적용해 얼굴 영역을 검출한 결과를 나타낸 예이다. 도 13을 참고하면, 프레임 2에 3개의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출 동작을 적용해 얼굴 영역을 검출한 결과를 나타낸 예이다. 도 13은 도 12와 달리 미싱된 얼굴 영역이 존재한다. 얼굴 위치 추적(tracking) 기술은 영상의 프레임 1에서 추출한 영역이 프레임 2에서 추출되지 않았을 때 프레임 1과 프레임 2의 유사도를 비교하여 프레임 2에 프레임 1 얼굴 영역과 가장 유사한 영역을 추적하여 표기한다. 얼굴 위치 추적 기술은 프레임에서 미싱하는 얼굴 영역을 복구한다. 마지막 영상에서 추출한 모든 얼굴 영역을 통합한 다음 모자이크 처리함으로써 영상에서 얼굴 영역을 미싱할 확률을 최소화해 전반적으로 CCTV 영상의 얼굴 비시별화 시스템의 성능을 높일 수 있다.
도 2는 일 실시예에 따른 비식별화 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 따른 비식별화 시스템에서 얼굴 비식별화 방법을 설명하기 위한 흐름도이다.
비식별화 시스템(100)의 프로세서는 영역 검출부(210), 얼굴 위치 판정부(220), 얼굴 위치 추적부(230) 및 영상 생성부(240)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 비식별화 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 3의 얼굴 비식별화 방법이 포함하는 단계들(310 내지 340)을 수행하도록 비식별화 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.
프로세서는 얼굴 비식별화 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 비식별화 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 비식별화 시스템을 제어할 수 있다. 이때, 영역 검출부(210), 얼굴 위치 판정부(220), 얼굴 위치 추적부(230) 및 영상 생성부(240) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 340)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.
단계(310)에서 영역 검출부(210)는 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출할 수 있다. 영역 검출부(210)는 CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출할 수 있다. 영역 검출부(210)는 추출된 프레임이 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 추출된 프레임으로부터 사람 영역을 검출하고, 검출된 사람 영역의 위치 좌표 데이터를 출력할 수 있다. 영역 검출부(210)는 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산할 수 있다. 영역 검출부(210)는 추출된 프레임이 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 추출된 프레임으로부터 머리 영역을 검출하고, 검출된 머리 영역의 위치 좌표 데이터를 출력할 수 있다. 영역 검출부(210)는 추출된 프레임이 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 추출된 프레임으로부터 얼굴 영역을 검출하고, 검출된 얼굴 영역의 위치 좌표 데이터를 출력할 수 있다.
단계(320)에서 얼굴 위치 판정부(220)는 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정할 수 있다.
단계(330)에서 얼굴 위치 추적부(230)는 판정된 얼굴의 위치에 기초하여 영상 정보로부터 얼굴 위치 정보를 추적할 수 있다. 얼굴 위치 추적부(230)는 영상 정보에서 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 추적된 얼굴 위치 정보의 좌표 데이터를 출력할 수 있다.
단계(340)에서 영상 생성부(240)는 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성할 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (15)

  1. 비식별화 시스템에 의해 수행되는 얼굴 비식별화 방법에 있어서,
    영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 단계;
    상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 단계;
    상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 단계; 및
    상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 단계
    를 포함하고,
    상기 멀티 모델은,
    상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것을 특징으로 하는 얼굴 비식별화 방법.
  2. 제1항에 있어서,
    상기 검출하는 단계는,
    CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출하는 단계
    를 포함하는 얼굴 비식별화 방법.
  3. 제2항에 있어서,
    상기 검출하는 단계는,
    상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력하는 단계
    를 포함하는 얼굴 비식별화 방법.
  4. 제2항에 있어서,
    상기 검출하는 단계는,
    상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력하는 단계
    를 포함하는 얼굴 비식별화 방법.
  5. 제2항에 있어서,
    상기 검출하는 단계는,
    상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력하는 단계
    를 포함하는 얼굴 비식별화 방법.
  6. 제4항에 있어서,
    상기 검출하는 단계는,
    상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산하는 단계
    를 포함하는 얼굴 비식별화 방법.
  7. 제1항에 있어서,
    상기 추적하는 단계는,
    상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력하는 단계
    를 포함하는 얼굴 비식별화 방법.
  8. 제1항 내지 제7항 중 어느 한 항의 얼굴 비식별화 방법을 상기 비식별화 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
  9. 비식별화 시스템에 있어서,
    영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 영역 검출부;
    상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 얼굴 위치 판정부;
    상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 얼굴 위치 추적부; 및
    상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 영상 생성부
    를 포함하고,
    상기 멀티 모델은,
    상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것을 특징으로 하는 비식별화 시스템.
  10. 제9항에 있어서,
    상기 영역 검출부는,
    CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출하는
    것을 특징으로 하는 비식별화 시스템.
  11. 제10항에 있어서,
    상기 영역 검출부는,
    상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력하는
    것을 특징으로 하는 비식별화 시스템.
  12. 제10항에 있어서,
    상기 영역 검출부는,
    상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력하는
    것을 특징으로 하는 비식별화 시스템.
  13. 제10항에 있어서,
    상기 영역 검출부는,
    상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력하는
    것을 특징으로 하는 비식별화 시스템.
  14. 제11항에 있어서,
    상기 영역 검출부는,
    상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산하는
    것을 특징으로 하는 비식별화 시스템.
  15. 제9항에 있어서,
    상기 얼굴 위치 추적부는,
    상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력하는
    것을 특징으로 하는 비식별화 시스템.
PCT/KR2022/001740 2021-11-15 2022-02-04 멀티 모델을 이용한 cctv 영상의 강건한 얼굴 비식별화 방법 및 시스템 WO2023085520A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210156365A KR102541131B1 (ko) 2021-11-15 2021-11-15 멀티 모델을 이용한 cctv 영상의 강건한 얼굴 비식별화 방법 및 시스템
KR10-2021-0156365 2021-11-15

Publications (1)

Publication Number Publication Date
WO2023085520A1 true WO2023085520A1 (ko) 2023-05-19

Family

ID=86336156

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2022/001740 WO2023085520A1 (ko) 2021-11-15 2022-02-04 멀티 모델을 이용한 cctv 영상의 강건한 얼굴 비식별화 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR102541131B1 (ko)
WO (1) WO2023085520A1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150102301A (ko) * 2014-02-28 2015-09-07 정영규 사람형태기반 자동 다중객체 검출기를 이용한 영상 개인정보 보호 방법 및 장치
KR101567366B1 (ko) * 2014-06-26 2015-11-10 아이브스테크놀러지(주) 얼굴을 검출하여 마스킹 하는 장치 및 방법
US20200104574A1 (en) * 2018-09-28 2020-04-02 Electronics And Telecommunications Research Institute Face image de-identification apparatus and method
KR102143029B1 (ko) * 2020-04-02 2020-08-10 아성글로벌(주) 인공지능형 cctv 시스템
WO2021075772A1 (ko) * 2019-10-18 2021-04-22 주식회사 메이아이 복수 영역 검출을 이용한 객체 탐지 방법 및 그 장치

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101936802B1 (ko) * 2012-07-20 2019-01-09 한국전자통신연구원 얼굴인식 기반의 개인정보보호 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150102301A (ko) * 2014-02-28 2015-09-07 정영규 사람형태기반 자동 다중객체 검출기를 이용한 영상 개인정보 보호 방법 및 장치
KR101567366B1 (ko) * 2014-06-26 2015-11-10 아이브스테크놀러지(주) 얼굴을 검출하여 마스킹 하는 장치 및 방법
US20200104574A1 (en) * 2018-09-28 2020-04-02 Electronics And Telecommunications Research Institute Face image de-identification apparatus and method
WO2021075772A1 (ko) * 2019-10-18 2021-04-22 주식회사 메이아이 복수 영역 검출을 이용한 객체 탐지 방법 및 그 장치
KR102143029B1 (ko) * 2020-04-02 2020-08-10 아성글로벌(주) 인공지능형 cctv 시스템

Also Published As

Publication number Publication date
KR20230070613A (ko) 2023-05-23
KR102541131B1 (ko) 2023-06-08

Similar Documents

Publication Publication Date Title
JP5445460B2 (ja) なりすまし検知システム、なりすまし検知方法及びなりすまし検知プログラム
JP5567853B2 (ja) 画像認識装置および方法
JP5594791B2 (ja) 属性判定方法、属性判定装置、プログラム、記録媒体および属性判定システム
WO2020130309A1 (ko) 영상 마스킹 장치 및 영상 마스킹 방법
WO2018048000A1 (ko) 단일 카메라 기반의 3차원 영상 해석 장치 및 방법, 3차원 영상 해석을 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 매체
WO2013129825A1 (ko) 얼굴 인식 환경 통지 방법, 장치, 및 이 방법을 실행하기 위한 컴퓨터 판독 가능한 기록 매체
JP2004227160A (ja) 侵入物体検出装置
WO2022039404A1 (ko) 광시야각의 스테레오 카메라 장치 및 이를 이용한 깊이 영상 처리 방법
WO2019088651A1 (ko) 소스 비디오 내에서 관심 동영상을 추출하는 장치 및 방법
WO2011055930A2 (ko) 그래프 컷의 초기값을 설정하는 방법, 단말 장치, 및 컴퓨터 판독 가능한 기록 매체
CN113158883A (zh) 基于区域注意力的人脸识别方法、系统、介质及终端
WO2023085520A1 (ko) 멀티 모델을 이용한 cctv 영상의 강건한 얼굴 비식별화 방법 및 시스템
WO2024034924A1 (ko) 스테레오 카메라 기반의 시선 추적을 이용한 포인팅 방법 및 시스템
WO2011078430A1 (ko) 다수의 특징점 기반 마커를 인식하기 위한 순차 검색 방법 및 이를 이용한 증강현실 구현 방법
JPH0546771A (ja) 運動物体検出装置
JP2004228770A (ja) 画像処理システム
WO2023149603A1 (ko) 다수의 카메라를 이용한 열화상 감시 시스템
KR20150071920A (ko) 얼굴 식별을 이용한 사람 수 카운팅 장치 및 방법
WO2016021830A1 (ko) Nui 장치에 의해 수집된 동작정보의 보정 방법 및 장치
JP2012003686A (ja) 認証装置、認証方法、及び認証プログラム、並びに記録媒体
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
WO2020080616A1 (ko) 인공 신경망에 기반한 영상 처리 방법 및 장치
WO2024005279A1 (ko) 소프트웨어 기반의 객체 트래킹 제공 방법 및 그를 위한 컴퓨팅 장치
WO2020171257A1 (ko) 영상 처리 방법 및 그 장치
WO2020171258A1 (ko) 영상 처리 방법 및 그 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22892943

Country of ref document: EP

Kind code of ref document: A1