WO2023085520A1

WO2023085520A1 - 멀티 모델을 이용한 cctv 영상의 강건한 얼굴 비식별화 방법 및 시스템

Info

Publication number: WO2023085520A1
Application number: PCT/KR2022/001740
Authority: WO
Inventors: 유성준; 구영현; 박철호
Original assignee: 세종대학교산학협력단
Priority date: 2021-11-15
Filing date: 2022-02-04
Publication date: 2023-05-19
Also published as: KR20230070613A; KR102541131B1

Abstract

멀티 모델을 이용한 CCTV 영상의 강건한 얼굴 비식별화 방법 및 시스템이 개시된다. 일 실시예에 따른 비식별화 시스템에 의해 수행되는 얼굴 비식별화 방법은, 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 단계; 상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 단계; 상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 단계; 및 상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 단계를 포함하고, 상기 멀티 모델은, 상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다.

Description

멀티 모델을 이용한 CCTV 영상의 강건한 얼굴 비식별화 방법 및 시스템

아래의 설명은 영상 정보로부터 얼굴 영역을 비식별화하는 기술에 관한 것이다.

영상에서의 얼굴 비식별화 기술은 얼굴 영역 검출(detection) 모델을 이용해 사람의 얼굴을 자동으로 검출하고 검출한 얼굴 영역을 비식별화 하는 방식이다. 개인정보보호법상 CCTV 영상을 활용하기 위해 반출하려면 영상 내의 모든 프레임에 포함된 사람 얼굴을 비식별화 해야한다. 그러나 기존의 얼굴 영역 검출 모델에 기반한 얼굴 비식별화 기술은 사람이 마스크 또는 모자를 착용하였을 때 얼굴 검출의 성능이 떨어져 비식별화 성능이 매우 낮다. 또한 사람이 정면으로 얼굴을 노출했을 때는 검출 및 비식별화 성능이 높지만 측면 또는 고개를 숙일 때는 얼굴 검출 및 비식별화 성능이 매우 낮다. 이처럼 CCTV 감시 카메라에서의 영상은 사람을 일정한 각도의 경사각으로 촬영한 영상이라 정면 얼굴이 아니며 이로 인해 얼굴 검출 및 비식별화 작업에 어려움이 있다. 이와 더불어 동영상에서의 사람 얼굴 검출 및 비식별화 작업은 사람의 움직임을 고려해야 한다. 그러나, 종래의 동영상에서의 사람 얼굴 검출 기술 및 비식별화 기술은 동영상에서 사람의 이동으로 인해 어떤 프레임(frame)에서는 얼굴이 검출되고 어떤 프레임에서는 얼굴이 검출되지 않는 문제점이 있어 사람이 일일이 수작업을 통해 프레임 별로 비식별화를 다시 해야 한다는 번거로움이 존재한다.

CCTV 감시 카메라에서 등장하는 사람의 얼굴을 자동으로 검출하여 마스킹하는 방법 및 시스템을 제공할 수 있다.

영상에서 사람이 고개를 숙이거나 얼굴 측면만 보일 때 사람의 얼굴을 자동으로 검출하여 마스킹하는 방법 및 시스템을 제공할 수 있다.

영상에서 사람이 모자 또는 마스크 등 기타 객체로 얼굴을 가린 경우 사람의 얼굴 위치를 자동으로 찾아 마스킹하는 방법 및 시스템을 제공할 수 있다.

비식별화 시스템에 의해 수행되는 얼굴 비식별화 방법은, 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 단계; 상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 단계; 상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 단계; 및 상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 단계를 포함하고, 상기 멀티 모델은, 상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다.

상기 검출하는 단계는, CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출하는 단계를 포함할 수 있다.

상기 검출하는 단계는, 상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력하는 단계를 포함할 수 있다.

상기 검출하는 단계는, 상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력하는 단계를 포함할 수 있다.

상기 검출하는 단계는, 상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력하는 단계를 포함할 수 있다.

상기 검출하는 단계는, 상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산하는 단계를 포함할 수 있다.

상기 추적하는 단계는, 상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력하는 단계를 포함할 수 있다.

얼굴 비식별화 방법을 상기 비식별화 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램을 포함할 수 있다.

비식별화 시스템은, 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 영역 검출부; 상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 얼굴 위치 판정부; 상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 얼굴 위치 추적부; 및 상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 영상 생성부를 포함하고, 상기 멀티 모델은, 상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다.

상기 영역 검출부는, CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출할 수 있다.

상기 영역 검출부는, 상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력할 수 있다.

상기 영역 검출부는, 상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력할 수 있다.

상기 영역 검출부는, 상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력할 수 있다.

상기 영역 검출부는, 상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산할 수 있다.

상기 얼굴 위치 추적부는, 상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력할 수 있다.

영상에서 사람이 움직이면 프레임의 차이로 얼굴을 검출하지 못하고 놓지는 문제를 해결할 수 있다.

CCTV 영상에서 사람의 안면 이미지를 비식별화는 성능을 향상시킬 수 있다.

도 1은 일 실시예에 따른 얼굴 비식별화 동작을 설명하기 위한 도면이다.

도 2는 일 실시예에 따른 비식별화 시스템의 구성을 설명하기 위한 블록도이다.

도 3은 일 실시예에 따른 비식별화 시스템에서 얼굴 비식별화 방법을 설명하기 위한 흐름도이다.

도 4 내지 도 6은 영상 정보에서 검출되는 사람 얼굴의 유형을 설명하기 위한 예이다.

도 7 및 도 8은 사람의 얼굴 또는 사람의 신체가 가려지는 것을 설명하기 위한 예이다.

도 9는 일 실시예에 있어서, 얼굴 영역 검출 결과의 예이다.

도 10은 일 실시예에 있어서, 얼굴 영역 검출과 머리 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다.

도 11은 일 실시예에 있어서, 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다.

도 12 내지 도 13은 일 실시예에 있어서, 각 프레임에서의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다.

이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.

기존 얼굴 검출 기반 얼굴 비식별화 방법은 사람을 정면에서 촬영한 영상에서의 성능은 높지만 사람과 카메라의 거리가 멀거나 정면 각도가 아닌 경우, 또한 마스크, 선글라스, 목도리, 스카프, 모자 등 가림 현상(occlusion)으로 인해 얼굴 일부가 가려진 영상에서는 얼굴 검출 성능이 낮아져 비식별화 처리가 제대로 되지 않는다. 이에, CCTV 감시 카메라의 영상 정보에서 검출되는 사람 얼굴은 세 가지의 유형으로 나눌 수 있다. 첫 번째 유형은 도 4와 같이, 정면 얼굴이 나타날 수 있다. 두 번째 유형은 도 5와 같이, 정면이 아닌 측면이나 다른 각도의 얼굴이 나타날 수 있다. 세 번째 유형은 도 6과 같이, 마스크, 선글라스, 목도리, 스카프, 모자 등으로 인해 얼굴이 가려지는 것이다. 코로나19 발생 이후 감염 예방을 위한 마스크 착용 의무화로 가려진 얼굴 검출에 대한 기술적 해결책의 필요성이 커지고 있다. 하지만 마스크와 선글라스 등 패션 아이템으로 인한 가림 현상(occlusion)으로 인해 가려진 얼굴에 대한 얼굴 검출 성능이 상대적으로 많이 낮아지며 이로 인해 얼굴 비식별 처리 성능도 함께 낮아진다.

도 7과 같이, 모자로 인해 머리가 가려지거나 얼굴이 가려져 얼굴 검출 성능 저하가 발생하는 사례도 있다. 모자의 크기가 커서 인체의 특징을 가리거나, 모자가 사람의 신체와 연계되어 있어 특징을 잃을 수도 있다. 도 8은 머리 영역 검출(head detection)을 이용하여 머리 검출에 실패한 예시이다.

이에, 실시예에서는 CCTV 영상에서 사람의 안면 이미지를 비식별화 할 때 얼굴 검출이 잘 안되어 비식별화가 수행되지 않는 두 번째 유형(정면이 아닌 측면이나 다른 각도의 얼굴)과 세 번째 유형(마스크, 선글라스, 목도리, 스카프, 모자 등으로 인해 가려진 얼굴)의 문제를 해결하는 동작에 대하여 설명하기로 한다.

상세하게는, CCTV 영상의 다양한 환경에서 놓치지 않고 정확히 사람의 얼굴을 찾기 위해 사람 검출(person detection), 머리 검출(head detection), 얼굴 검출(face detection)을 포함하는 3개 모델을 병합해 사용한다. 영상에서 사람의 이동으로 인해 개별 프레임에서 사람의 얼굴 위치를 검출하지 못하는 문제를 해결하기 위해 추적(tracking) 기술을 적용해 해당 프레임을 기준으로 앞, 뒤 복수 개(예를 들면, 30장)의 프레임에서 얼굴 객체의 위치를 다시 추적한다. 최종적으로 3개 모델의 검출 결과와 추적 결과를 적용해 영상에서 사람의 얼굴 위치를 비식별화(모자이크)할 수 있다.

비식별화 시스템은 CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임(키 프레임)을 추출할 수 있다(101). 이때, CCTV 감시 카메라는 적어도 하나 이상의 카메라를 통해 실내 또는 실외를 촬영하는 전자 기기를 포함할 수 있다. 예를 들면, CCTV 감시 카메라는 360도 회전 가능한 형태로 구성된 것일 수 있고, 또는, 특정 각도 범위만 촬영 가능한 형태로 구성된 것일 수 있다.

비식별화 시스템은 추출된 프레임에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출할 수 있다(102, 103, 104). 이때, 멀티 모델이란, 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝(예를 들면, CNN) 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것일 수 있다. 예를 들면, 각각의 검출 모델은, 사람 영역을 검출하기 위한 사람 검출 모델, 머리 영역을 검출하기 위한 머리 검출 모델, 얼굴 영역을 검출하기 위한 머리 검출 모델을 의미할 수 있다. 이때, 사람 검출 모델은 사람 영역 검출을 위한 데이터 셋을 통해 학습된 것일 수 있으며, 머리 검출 모델은 머리 영역을 검출하기 위한 데이터 셋을 통해 학습된 것일 수 있으며, 머리 검출 모델은 머리 영역을 검출하기 위한 데이터 셋을 통해 학습된 것일 수 있다. 또한, 비식별화 시스템은 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 각각에 대한 영역 정보를 모두 검출할 수 있다.

상세하게는, 비식별화 시스템은 추출된 프레임을 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력하고, 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 추출된 프레임으로부터 사람 영역을 검출할 수 있다(102). 비식별화 시스템은 검출된 사람 영역의 위치 좌표 데이터를 출력할 수 있다. 이때, 사람 검출 모델은 CNN 기반의 딥러닝 모델로 학습된 것일 수 있다.

비식별화 시스템은 추출된 프레임을 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력하고, 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 추출된 프레임으로부터 머리 영역을 검출할 수 있다(103). 비식별화 시스템은 검출된 머리 영역의 위치 좌표 데이터를 출력할 수 있다. 이때, 머리 검출 모델은 CNN 기반의 딥러닝 모델로 학습된 것일 수 있다.

비식별화 시스템은 추출된 프레임을 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력하고, 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 추출된 프레임으로부터 얼굴 영역을 검출할 수 있다(104). 비식별화 시스템은 검출된 얼굴 영역의 위치 좌표 데이터를 출력할 수 있다. 이때, 얼굴 검출 모델은 CNN 기반의 딥러닝 모델로 학습된 것일 수 있다.

비식별화 시스템은 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산할 수 있다(105). 예를 들면, 프레임에서의 사람의 좌표 데이터가 (x, y), (w, h)라고 가정할 때, 사람의 머리 위치(얼굴 위치)는 (x+w*0.7, y+h*0.2), (w*0.4, h*0.2)로 계산될 수 있다.

비식별화 시스템은 검출된 적어도 하나 이상의 영역 정보의 결과를 병합할 수 있다(106). 비식별화 시스템은 사람 영역 검출(102), 머리 영역 검출(103) 및 얼굴 영역 검출(104) 동작을 통하여 획득된 각각의 영역 정보의 출력 결과를 병합할 수 있다. 예를 들면, 비식별화 시스템은 획득된 각각의 영역 정보를 중첩함에 따라 생성된 가장 작은 영역(각각의 영역 정보 모두 일치하는 영역)을 출력 결과로 출력할 수 있고, 또는, 획득된 각각의 영역 정보를 병합함에 따라 생성된 가장 큰 영역(각각의 영역 정보를 모두 합친 전체 영역)을 출력 결과로 출력할 수 있다.

비식별화 시스템은 사람 영역 검출(102), 머리 영역 검출(103) 및 얼굴 영역 검출(104) 동작을 통하여 획득된 각각의 영역 정보의 출력 결과를 병합한 결과를 기반으로 최종 얼굴 위치를 판정할 수 있다(107).

비식별화 시스템은 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적할 수 있다(108). 비식별화 시스템은 영상 정보에서 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 추적된 얼굴 위치 정보의 좌표 데이터를 출력할 수 있다. 예를 들면, 비식별화 시스템은 추적(tracking) 기술을 이용하여, 앞, 뒤 30장의 프레임에서 얼굴 객체의 위치를 추적하고, 해당 객체의 얼굴 좌표 데이터를 출력할 수 있다.

비식별화 시스템은 추적된 얼굴 위치 정보에 대응하여 비식별화 처리를 할 수 있다(109). 비식별화 처리는 모자이크 처리, 블러 처리 등 얼굴을 비공개하기 위한 별도의 처리 작업을 의미할 수 있다. 이러한 추적된 얼굴 위치에 자동으로 비식별화 처리가 수행될 수 있다. 또는, 비식별화 처리를 위한 유저 인터페이스를 제공할 수 있고, 제공된 유저 인터페이스를 통하여 사용자로부터 추정된 얼굴 위치 정보에 비식별화를 위한 처리 작업이 수행될 수 있다. 예를 들면, 모자이크 처리, 블러 처리 등을 위한 투명도/불투명도, 밝기, 채도, 명도 등의 속성 정보의 정도가 조절될 수 있다. 비식별화 시스템은 프레임에서 얼굴 위치 정보에 모자이크 처리를 한 다음 영상으로 저장할 수 있다. 비식별화 시스템은 비식별화 처리된 영상 정보를 생성할 수 있다.

도 9를 참고하면, 얼굴 영역 검출 결과의 예이다. 먼저, 기존의 얼굴 영역 검출을 통해 일반적인 얼굴 영역 검출 작업이 진행될 수 있다. 얼굴 영역 검출 결과, 기존 얼굴 영역 검출 동작은 첫 번째 유형인 정면 얼굴을 검출은 잘 되지만 두 번째와 세 번째 유형에 해당되는 얼굴의 가려짐 또는 카메라의 촬영 각도로 인해 얼굴 영역을 검출하지 못하고 미싱(missing)되는 경우가 있다. 정면이 아닌 얼굴 영역 또는 일부 가려진 얼굴이 미싱되는 문제점을 해결하기 위해 실시예에서는 사람의 얼굴을 검출하는 부분에서 머리 영역 검출과 사람 영역 검출을 추가로 수행할 수 있다.

머리 영역 검출은 CNN 기반의 모델을 사용하며 사전에 준비한 머리 부분을 어노테이션(annotation) 한 학습용 데이터 셋을 학습해 만들어질 수 있다. 머리 영역 검출을 통해 마스크 등 다양한 가림 현상으로 가려진 얼굴이나 다양한 각도의 얼굴에 대한 정밀 검출이 가능하다. 다시 말해서, 사람의 얼굴을 검출하는 것이 아니라 사람의 머리를 검출함으로써 얼굴의 각도 및 가림 현상의 영향을 받아 얼굴 검출 성능이 떨어지는 문제를 해결할 수 있다.

머리 영역 검출 동작은 얼굴 영역 검출 동작에서 얼굴 영역 검출 동작에서 미싱된 경우, 보완해 추가로 얼굴(머리) 영역이 검출될 수 있다. 도 10을 참고하면, 얼굴 영역 검출과 머리 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다. 머리 영역 검출 동작을 통해 얼굴 영역 검출 동작의 부족한 점을 보완 했으나 사람이 후드 티셔츠의 후드를 쓰고 있거나 복잡하게 머리를 가린occlusion 영역이 있을 경우 머리의 검출 성능이 낮다. 이에 따라 사람 영역 검출 동작을 통해 얼굴 영역 동작과 머리 영역 검출 동작에서 미싱한 얼굴 영역을 찾아 보완할 수 있다.

사람 영역 검출 동작은 사람의 신체적, 행동적 특징을 추출해 사람의 위치를 검출한다. 실시예에서는 CCTV 영상에서 CNN 기반 딥러닝 모델을 이용해 사람의 영역을 검출한 다음 사람의 영역에서 수학적 공식을 이용해 얼굴의 위치가 계산될 수 있다. 프레임에서 사람 영역의 좌표를 (x, y), (w, h)라고 가정할 때, 사람의 얼굴 위치는 (x+w*0.7, y+h*0.2), (w*0.4, h*0.2)로 계산될 수 있다. 이로써 3개의 독립적인 동작으로 동일 영상에 서로 다른 접근 방법을 사용해 최대한 얼굴 영역 검출의 미싱을 감소시킬 수 있다.

도 11을 참고하면, 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다. 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 포함하는 세 가지의 영역 검출 동작을 통해 검출한 얼굴 영역의 검출 결과를 결합한 얼굴 영역 검출 결과이다. 우선 얼굴 영역 검출과 머리 영역 검출 동작을 통해 얼굴 영역이 검출될 수 있다. 그 다음 사람 영역 검출을 통해 사람의 영역을 검출한 후 사람 영역 내에 기존에 검출한 영역이 없으면 수학적 공식을 이용해 얼굴의 위치를 계산할 수 있다.

CCTV 영상은 fps에 따라 초당 n장의 이미지를 포함하고 있다. 얼굴 영역 검출 동작, 머리 영역 검출 동작, 사람 영역 검출 동작은 영상에서 추출한 프레임에 따라 검출 성능이 다를 수 있다. 예를 들면, 프레임 1(frame 1)에서는 얼굴 영역이 검출 되었으나, 프레임 2(frame 2)에서는 얼굴 영역을 놓칠 수 있다. 도 12 내지 도 13을 참고하면, 일 실시예에 있어서, 각 프레임에서의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출을 함께 사용한 얼굴 영역 검출 결과의 예이다. 도 12를 참고하면, 프레임 1에 3개의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출 동작을 적용해 얼굴 영역을 검출한 결과를 나타낸 예이다. 도 13을 참고하면, 프레임 2에 3개의 얼굴 영역 검출, 머리 영역 검출, 사람 영역 검출 동작을 적용해 얼굴 영역을 검출한 결과를 나타낸 예이다. 도 13은 도 12와 달리 미싱된 얼굴 영역이 존재한다. 얼굴 위치 추적(tracking) 기술은 영상의 프레임 1에서 추출한 영역이 프레임 2에서 추출되지 않았을 때 프레임 1과 프레임 2의 유사도를 비교하여 프레임 2에 프레임 1 얼굴 영역과 가장 유사한 영역을 추적하여 표기한다. 얼굴 위치 추적 기술은 프레임에서 미싱하는 얼굴 영역을 복구한다. 마지막 영상에서 추출한 모든 얼굴 영역을 통합한 다음 모자이크 처리함으로써 영상에서 얼굴 영역을 미싱할 확률을 최소화해 전반적으로 CCTV 영상의 얼굴 비시별화 시스템의 성능을 높일 수 있다.

도 2는 일 실시예에 따른 비식별화 시스템의 구성을 설명하기 위한 블록도이고, 도 3은 일 실시예에 따른 비식별화 시스템에서 얼굴 비식별화 방법을 설명하기 위한 흐름도이다.

비식별화 시스템(100)의 프로세서는 영역 검출부(210), 얼굴 위치 판정부(220), 얼굴 위치 추적부(230) 및 영상 생성부(240)를 포함할 수 있다. 이러한 프로세서의 구성요소들은 비식별화 시스템에 저장된 프로그램 코드가 제공하는 제어 명령에 따라 프로세서에 의해 수행되는 서로 다른 기능들(different functions)의 표현들일 수 있다. 프로세서 및 프로세서의 구성요소들은 도 3의 얼굴 비식별화 방법이 포함하는 단계들(310 내지 340)을 수행하도록 비식별화 시스템을 제어할 수 있다. 이때, 프로세서 및 프로세서의 구성요소들은 메모리가 포함하는 운영체제의 코드와 적어도 하나의 프로그램의 코드에 따른 명령(instruction)을 실행하도록 구현될 수 있다.

프로세서는 얼굴 비식별화 방법을 위한 프로그램의 파일에 저장된 프로그램 코드를 메모리에 로딩할 수 있다. 예를 들면, 비식별화 시스템에서 프로그램이 실행되면, 프로세서는 운영체제의 제어에 따라 프로그램의 파일로부터 프로그램 코드를 메모리에 로딩하도록 비식별화 시스템을 제어할 수 있다. 이때, 영역 검출부(210), 얼굴 위치 판정부(220), 얼굴 위치 추적부(230) 및 영상 생성부(240) 각각은 메모리에 로딩된 프로그램 코드 중 대응하는 부분의 명령을 실행하여 이후 단계들(310 내지 340)을 실행하기 위한 프로세서의 서로 다른 기능적 표현들일 수 있다.

단계(310)에서 영역 검출부(210)는 영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출할 수 있다. 영역 검출부(210)는 CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출할 수 있다. 영역 검출부(210)는 추출된 프레임이 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 추출된 프레임으로부터 사람 영역을 검출하고, 검출된 사람 영역의 위치 좌표 데이터를 출력할 수 있다. 영역 검출부(210)는 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산할 수 있다. 영역 검출부(210)는 추출된 프레임이 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 추출된 프레임으로부터 머리 영역을 검출하고, 검출된 머리 영역의 위치 좌표 데이터를 출력할 수 있다. 영역 검출부(210)는 추출된 프레임이 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 추출된 프레임으로부터 얼굴 영역을 검출하고, 검출된 얼굴 영역의 위치 좌표 데이터를 출력할 수 있다.

단계(320)에서 얼굴 위치 판정부(220)는 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정할 수 있다.

단계(330)에서 얼굴 위치 추적부(230)는 판정된 얼굴의 위치에 기초하여 영상 정보로부터 얼굴 위치 정보를 추적할 수 있다. 얼굴 위치 추적부(230)는 영상 정보에서 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 추적된 얼굴 위치 정보의 좌표 데이터를 출력할 수 있다.

단계(340)에서 영상 생성부(240)는 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

비식별화 시스템에 의해 수행되는 얼굴 비식별화 방법에 있어서,

영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 단계;

상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 단계;

상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 단계; 및

상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 단계

를 포함하고,

상기 멀티 모델은,

상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것을 특징으로 하는 얼굴 비식별화 방법.
제1항에 있어서,

상기 검출하는 단계는,

CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출하는 단계

를 포함하는 얼굴 비식별화 방법.
제2항에 있어서,

상기 검출하는 단계는,

상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력하는 단계

를 포함하는 얼굴 비식별화 방법.
제2항에 있어서,

상기 검출하는 단계는,

상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력하는 단계

를 포함하는 얼굴 비식별화 방법.
제2항에 있어서,

상기 검출하는 단계는,

상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력하는 단계

를 포함하는 얼굴 비식별화 방법.
제4항에 있어서,

상기 검출하는 단계는,

상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산하는 단계

를 포함하는 얼굴 비식별화 방법.
제1항에 있어서,

상기 추적하는 단계는,

상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력하는 단계

를 포함하는 얼굴 비식별화 방법.
제1항 내지 제7항 중 어느 한 항의 얼굴 비식별화 방법을 상기 비식별화 시스템에 실행시키기 위해 비-일시적인 컴퓨터 판독가능한 기록 매체에 저장되는 컴퓨터 프로그램.
비식별화 시스템에 있어서,

영상 정보에 대하여 멀티 모델을 사용하여 사람 영역, 머리 영역, 얼굴 영역 중 적어도 하나 이상의 영역 정보를 검출하는 영역 검출부;

상기 검출된 적어도 하나 이상의 영역 정보의 결과를 병합하여 얼굴의 위치를 판정하는 얼굴 위치 판정부;

상기 판정된 얼굴의 위치에 기초하여 상기 영상 정보로부터 얼굴 위치 정보를 추적하는 얼굴 위치 추적부; 및

상기 추적된 얼굴 위치 정보에 대응하여 비식별화 처리된 영상 정보를 생성하는 영상 생성부

를 포함하고,

상기 멀티 모델은,

상기 영상 정보로부터 영역 정보를 검출하기 위하여 구성된 딥러닝 기반의 각각의 검출 모델을 통해 사람 영역, 머리 영역, 얼굴 영역을 동시에 검출하도록 학습된 것을 특징으로 하는 비식별화 시스템.
제9항에 있어서,

상기 영역 검출부는,

CCTV 감시 카메라를 통해 촬영되는 영상 정보로부터 프레임을 추출하는

것을 특징으로 하는 비식별화 시스템.
제10항에 있어서,

상기 영역 검출부는,

상기 추출된 프레임이 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델에 입력되고, 상기 사람 영역 검출을 위한 딥러닝 기반의 사람 검출 모델을 이용하여 상기 추출된 프레임으로부터 사람 영역을 검출하고, 상기 검출된 사람 영역의 위치 좌표 데이터를 출력하는

것을 특징으로 하는 비식별화 시스템.
제10항에 있어서,

상기 영역 검출부는,

상기 추출된 프레임이 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델에 입력되고, 상기 머리 영역 검출을 위한 딥러닝 기반의 머리 검출 모델을 이용하여 상기 추출된 프레임으로부터 머리 영역을 검출하고, 상기 검출된 머리 영역의 위치 좌표 데이터를 출력하는

것을 특징으로 하는 비식별화 시스템.
제10항에 있어서,

상기 영역 검출부는,

상기 추출된 프레임이 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델에 입력되고, 상기 얼굴 영역 검출을 위한 딥러닝 기반의 얼굴 검출 모델을 이용하여 상기 추출된 프레임으로부터 얼굴 영역을 검출하고, 상기 검출된 얼굴 영역의 위치 좌표 데이터를 출력하는

것을 특징으로 하는 비식별화 시스템.
제11항에 있어서,

상기 영역 검출부는,

상기 검출된 사람 영역의 위치 좌표 데이터를 기반으로 사람의 머리 위치를 계산하는

것을 특징으로 하는 비식별화 시스템.
제9항에 있어서,

상기 얼굴 위치 추적부는,

상기 영상 정보에서 상기 판정된 얼굴의 위치를 포함하는 프레임을 기준으로 복수 개의 이전 프레임 및 복수 개의 다음 프레임에 대하여 상기 판정된 얼굴의 위치에 기초하여 얼굴 위치 정보를 추적하고, 상기 추적된 얼굴 위치 정보의 좌표 데이터를 출력하는

것을 특징으로 하는 비식별화 시스템.