KR20210030060A

KR20210030060A - 얼굴 영상 기반의 이벤트 모니터링 시스템 및 방법

Info

Publication number: KR20210030060A
Application number: KR1020190111538A
Authority: KR
Inventors: 이형구; 권재철; 문일현
Original assignee: 주식회사 케이티
Priority date: 2019-09-09
Filing date: 2019-09-09
Publication date: 2021-03-17

Abstract

얼굴 영상 기반의 이벤트 모니터링 시스템 및 방법이 개시된다.
본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 시스템은, 카메라를 통해 촬영된 영상을 이용하여 이벤트를 감지하는 시스템으로서, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 포함하는 카메라 모듈; 상기 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하고, 검출된 얼굴 영역들 중에서 동일 얼굴을 포함한 얼굴 영역들을 상호 매칭하고, 상호 매칭된 얼굴 영역들로부터 해당 촬영 영상보다 해상도가 높은 고해상도 얼굴 영상을 생성하는 영상 처리부; 및 상기 고해상도 얼굴 영상으로부터 특징 벡터를 추출하여 얼굴 또는 표정에 관한 정보를 인식하고, 인식된 정보에 대응하는 이벤트를 검출하는 얼굴 영상 분석부를 포함한다.

Description

얼굴 영상 기반의 이벤트 모니터링 시스템 및 방법{Event monitoring system and method based on face image}

본 발명은 얼굴 영상 기반의 이벤트 모니터링 시스템 및 방법에 관한 것으로서, 더욱 상세하게는, 카메라를 통해 촬영된 영상을 이용하여 이벤트를 감지하는 얼굴 영상 기반의 이벤트 모니터링 시스템 및 방법에 관한 것이다.

최근, 카메라 장치 기술과 영상 인식 기술의 발전에 따라 카메라로 촬영된 영상을 통해 인간의 얼굴을 정확하고 신속하게 인식하는 기술에 대한 관심과 요청이 증가하고 있다.

그러나, CCTV 등을 이용하여 얼굴을 인식하는 기존 기술은, Full-HD 수준의 고해상도 카메라를 사용하더라도 촬영된 영상에 포함된 얼굴의 크기가 너무 작아서 정확한 얼굴 인식이나 표정 인식을 수행할 수 없다는 문제점이 있다.

또한, 한국 공개특허공보 제10-2014-0089697호에 개시된 바와 같이, 기존 기술은 단일 카메라를 사용하여 촬영된 영상을 통해 사용자의 얼굴을 인식하기 때문에, 실제 구현시 고해상도 카메라만을 사용해야 하고 근접 거리에서 촬영된 경우에만 영상 인식의 정확성을 보장할 수 있으며, 촬영된 영상에 다수의 얼굴이 포함되는 경우 얼굴 인식을 수행할 수 없다는 문제점이 있다.

본 발명이 해결하고자 하는 기술적 과제는, 저해상도 카메라로 촬영되는 경우 또는 촬영된 영상에 포함된 얼굴 영역이 작아서 해상도가 떨어지거나 촬영된 영상에 다수의 얼굴이 포함된 경우에도 얼굴 또는 표정 정보 인식의 정확성과 신뢰성을 높은 수준으로 보장할 수 있고, 얼굴 또는 표정 정보를 통해 촬영 영역에서 발생한 이벤트를 정확히 검출할 수 있는 얼굴 영상 기반의 이벤트 모니터링 시스템 및 방법을 제공하는 것이다.

본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 시스템은, 카메라를 통해 촬영된 영상을 이용하여 이벤트를 감지하는 시스템으로서, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 포함하는 카메라 모듈; 상기 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하고, 검출된 얼굴 영역들 중에서 동일 얼굴을 포함한 얼굴 영역들을 상호 매칭하고, 상호 매칭된 얼굴 영역들로부터 해당 촬영 영상보다 해상도가 높은 고해상도 얼굴 영상을 생성하는 영상 처리부; 및 상기 고해상도 얼굴 영상으로부터 특징 벡터를 추출하여 얼굴 또는 표정에 관한 정보를 인식하고, 인식된 정보에 대응하는 이벤트를 검출하는 얼굴 영상 분석부를 포함한다.

일 실시예에 있어서, 상기 카메라 모듈은, 촬영 영역이 상호 중첩되는 복수의 카메라가 각각 배열된 복수의 카메라 어레이를 포함한다.

일 실시예에 있어서, 상기 카메라 모듈은, 상기 복수의 카메라 어레이가 배치되며 사용자의 신체에 착용되는 웨어러블 구조체를 더 포함하고, 상기 복수의 카메라 어레이는, 상기 웨어러블 구조체를 착용한 사용자의 전방, 후방, 좌 측방, 우 측방 중 2 이상의 방향으로 촬영이 가능하도록 상기 웨어러블 구조체에 배치된다.

일 실시예에 있어서, 상기 웨어러블 구조체는, 사용자의 목 부분에 착용 가능한 넥밴드(neckband) 형태로 구성된다.

일 실시예에 있어서, 상기 영상 처리부는, 상기 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상을 획득하는 촬영 영상 획득부; 딥러닝 모델 또는 머신 러닝 모델을 이용하여 상기 복수의 촬영 영상에서 각각 얼굴 영역을 검출하는 얼굴 영역 검출부; 검출된 얼굴 영역들로부터 각각 얼굴의 특징을 추출하고 추출된 특징이 동일한 얼굴 영역들을 상호 매칭하는 얼굴 영역 매칭부; 및 상호 매칭된 얼굴 영역들의 픽셀 값 및 상대적 픽셀 위치 정보를 이용하여 상기 고화질 얼굴 영상을 생성하는 얼굴 영상 생성부를 포함한다.

일 실시예에 있어서, 상기 얼굴 영상 분석부는, 상기 고화질 얼굴 영상으로부터 특징 벡터를 추출하고, 얼굴 정보 또는 표정 정보와 관련하여 미리 저장된 특징 벡터와 추출된 특징 벡터를 비교하여 상기 추출된 특징 벡터에 대응하는 얼굴 정보 또는 표정 정보를 인식하는 영상 정보 인식부; 및 인식된 얼굴 정보 또는 표정 정보에 대응하는 이벤트를 검출하는 이벤트 검출부를 포함한다.

일 실시예에 있어서, 상기 시스템은, 검출된 이벤트를 알리는 이벤트 알림 신호를 생성하여 디스플레이 장치 또는 음향 발생 장치를 통해 출력하는 이벤트 알림부를 더 포함한다.

본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 방법은, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 통해 촬영된 복수의 촬영 영상을 이용하여 컴퓨터 장치가 이벤트를 감지하는 방법으로서, 상기 컴퓨터 장치가 상기 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하는 (a) 단계; 상기 컴퓨터 장치가, 검출된 얼굴 영역들 중 동일 얼굴을 포함한 얼굴 영역들을 상호 매칭하는 (b) 단계; 상기 컴퓨터 장치가, 상호 매칭된 얼굴 영역들로부터 해당 촬영 영상보다 해상도가 높은 고해상도 얼굴 영상을 생성하는 (c) 단계; 상기 컴퓨터 장치가, 상기 고해상도 얼굴 영상으로부터 특징 벡터를 추출하여 얼굴 또는 표정에 관한 정보를 인식하는 (d) 단계; 및 상기 컴퓨터 장치가, 인식된 정보에 대응하는 이벤트를 검출하는 (e) 단계를 포함한다.

일 실시예에 있어서, 상기 (a) 단계는, 딥러닝 모델 또는 머신 러닝 모델을 이용하여 상기 복수의 촬영 영상에서 각각 얼굴 영역을 검출하는 단계를 포함한다.

일 실시예에 있어서, 상기 (b) 단계는, 상기 (a) 단계에서 검출된 얼굴 영역들로부터 각각 얼굴의 특징을 추출하고 추출된 특징이 동일한 얼굴 영역들을 매칭하는 단계를 포함한다.

일 실시예에 있어서, 상기 (c) 단계는, 상기 (b) 단계에서 매칭된 얼굴 영역들의 픽셀 값 및 상대적 픽셀 위치 정보를 이용하여 상기 고화질 얼굴 영상을 생성하는 단계를 포함한다.

일 실시예에 있어서, 상기 (d) 단계는, 상기 고화질 얼굴 영상으로부터 특징 벡터를 추출하고, 얼굴 정보 또는 표정 정보와 관련하여 미리 저장된 특징 벡터와 추출된 특징 벡터를 비교하여 상기 추출된 특징 벡터에 대응하는 얼굴 정보 또는 표정 정보를 인식하는 단계를 포함한다.

일 실시예에 있어서, 상기 (e) 단계는, 상기 (d) 단계에서 인식된 얼굴 정보 또는 표정 정보와, 상기 복수의 촬영 영상의 얼굴 영역 이외의 영역에서 인식되는 상황 정보에 대응하는 이벤트를 검출하는 단계를 포함한다.

일 실시예에 있어서, 상기 방법은, 상기 컴퓨터 장치가 상기 (e) 단계에서 검출된 이벤트를 알리는 이벤트 알림 신호를 생성하여 디스플레이 장치 또는 음향 발생 장치를 통해 출력하는 단계를 더 포함한다.

본 발명에 따른 실시예들은, 상술한 동작 또는 방법을 컴퓨터 시스템을 통해 실행하는 컴퓨터 프로그램으로서 기록매체에 기록되는 컴퓨터 프로그램을 이용하여 구현될 수 있다.

본 발명에 따르면, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하여 저해상도의 촬영 영상에서 고해상도의 얼굴 영상을 생성함으로써, 저해상도 카메라로 촬영되는 경우 또는 촬영된 영상에 포함된 얼굴 영역이 작아서 해상도가 떨어지거나 촬영된 영상에 다수의 얼굴이 포함된 경우에도 얼굴 또는 표정 정보 인식의 정확성과 신뢰성을 높은 수준으로 보장할 수 있고, 얼굴 또는 표정 정보를 통해 촬영 영역에서 발생한 이벤트를 정확히 검출할 수 있다.

또한, 복수의 촬영 영상에 포함된 얼굴 영역을 비교하여 매칭시키는 과정에서 촬영 영상의 전체 영역을 대상으로 비교하는 것이 아니라, 각각의 촬영 영상에서 얼굴 영역만을 검출하고 얼굴 영역들 간의 특징을 비교하여 매칭함으로써, 고화질 얼굴 영상을 생성하는데 요구되는 연산량을 감소시키고 연산속도를 향상시킬 수 있다.

넥밴드 형태의 웨어러블 구조체에 카메라들을 분산 배치하여 사용자의 주위에서 발생하는 이벤트를 모니터링함으로써, 사용자 주변에서 발생하는 돌발 상황이나 위험의 감지, 지인이나 위험인물 등 식별을 요하는 인물의 발견, 주변 인물들의 감정 상태의 분석 등 다양한 애플리케이션을 가능하게 할 수 있다.

나아가, 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자라면, 본 발명에 따른 다양한 실시예들이 상기 언급되지 않은 여러 기술적 과제들을 해결할 수 있음을 이하의 설명으로부터 자명하게 이해할 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 시스템을 나타낸 블록도이다.
도 2는 본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 시스템에 적용되는 카메라 모듈을 나타낸 도면이다.
도 3은 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 방법을 나타낸 흐름도이다.
도 5는 촬영 영상들로부터 검출되는 얼굴 영역들의 일례를 나타낸 도면이다.
도 6은 검출된 얼굴 영역들의 디스패리티(disparity) 계산 원리를 나타낸 도면이다.
도 7은 검출된 얼굴 영역과 디스패리티 데이터를 이용하여 고해상도 얼굴 영상을 생성하는 과정을 나타낸 도면이다.

이하, 본 발명의 기술적 과제에 대한 해결 방안을 명확화하기 위해 첨부도면을 참조하여 본 발명의 실시예들을 상세하게 설명한다. 다만, 본 발명을 설명함에 있어서 관련 공지기술에 관한 설명이 오히려 본 발명의 요지를 불명료하게 하는 경우 그에 관한 설명은 생략하기로 한다. 또한, 본 명세서에서 사용되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이들은 설계자, 제조자 등의 의도 또는 관례 등에 따라 달라질 수 있을 것이다. 그러므로 후술되는 용어들의 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1에는 본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 시스템(100)이 블록도로 도시되어 있다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 시스템(100)은 카메라를 통해 촬영된 영상을 이용하여 이벤트를 감지하는 시스템으로서, 카메라 모듈(110), 영상 처리부(120) 및 얼굴 영상 분석부(130)를 포함한다.

카메라 모듈(110)은, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 포함하며, 복수의 카메라를 통해 수시로 또는 주기적으로 촬영을 수행하도록 구성된다. 이러한 카메라 모듈(110)은, 촬영 영역이 상호 중첩되는 복수의 카메라가 각각 배열된 복수의 카메라 어레이(110a,…,110n)를 포함할 수 있다. 이 경우, 카메라 모듈(110)은 카메라 어레이 단위로 동일한 타이밍에 촬영을 수행할 수 있다.

영상 처리부(120)는, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하고, 검출된 얼굴 영역들 중에서 동일 얼굴을 포함한 얼굴 영역들을 상호 매칭하고, 상호 매칭된 얼굴 영역들로부터 해당 촬영 영상보다 해상도가 높은 고해상도 얼굴 영상을 생성하도록 구성된다. 이를 위해, 영상 처리부(120)는 촬영 영상 획득부(122), 얼굴 영역 검출부(124), 얼굴 영역 매칭부(126) 및 얼굴 영상 생성부(128)를 포함할 수 있다.

이 경우, 촬영 영상 획득부(122)는 카메라 어레이별로 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상을 획득하도록 구성된다.

얼굴 영역 검출부(124)는, 딥러닝 모델 또는 머신 러닝 모델을 이용하여 상기 복수의 촬영 영상에서 각각 얼굴 영역을 검출하도록 구성된다. 예컨대, 얼굴 영역 검출부(124)는 딥러닝의 일종인 CNN(Convolutional Neural Network)을 통해 임의의 위치에 적어도 하나의 얼굴을 포함하고 있는 다수의 영상들을 학습하여 얼굴 영역 검출 모델을 생성하고, 해당 모델을 통해 촬영 영상에서 얼굴 영역을 검출할 수 있다. 딥러닝 기반의 얼굴 영역 검출은 학습된 모델을 통해 적은 수의 특징만을 비교하여 수행될 수 있으므로 저해상도 영상의 얼굴 영역 또는 작은 크기의 얼굴 영역을 신속히 검출할 수 있다. 이 경우, 검출된 얼굴 영역의 개수는 촬영 영상에 포함된 얼굴의 개수에 따라 동적으로 변화하며 검출된 얼굴 영역은 전체 영상을 기준으로 결정되는 상대적 좌표 (X, Y)와 검출 신뢰도 값으로 정의된다. 신뢰도는 일종의 확률 값으로 0에서부터 1까지의 범위를 가지나, 실험적 또는 이론적으로 결정된 임계값(threshold)을 기준으로 그 이상의 신뢰도를 갖는 영역만이 얼굴 영역으로 검출될 수 있다.

얼굴 영역 매칭부(126)는, 검출된 다수의 얼굴 영역들로부터 각각 얼굴의 특징을 추출하고 추출된 특징이 동일한 얼굴 영역들을 상호 매칭하도록 구성된다. 일반적으로 영상 처리는 영상크기에 비례하여 연산량과 연산처리 시간이 증가한다. 따라서, 본 발명은 저해상도의 카메라들을 통해 촬영된 영상에서 다시 얼굴 영역만을 검출하고, 촬영 영상 간의 얼굴 매칭을 촬영 영상 전체 영역이 아닌 얼굴 영역만을 대상으로 수행함으로써, 얼굴 매칭을 위한 연산량을 감소시키고 연산속도를 향상시킬 수 있다.

그러나 검출된 저해상도의 얼굴 영역은 얼굴 또는 표정에 관한 세부 정보가 부족하기 때문에 얼굴/표정 인식을 위해 검출된 얼굴 영역보다 상대적으로 높은 해상도의 얼굴 영상이 필요하다.

따라서, 얼굴 영상 생성부(128)는, 상호 매칭된 얼굴 영역들의 픽셀 값 및 상대적 픽셀 위치 정보를 이용하여 고화질 얼굴 영상을 생성하도록 구성된다. 이 경우, 고해상도의 얼굴 영상 생성은 검출된 얼굴 영역에 대해서만 이루어진다.

도 2에는 본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 시스템에 적용되는 카메라 모듈(110)이 도시되어 있다.

도 2에 도시된 바와 같이, 카메라 모듈(110)은 복수의 카메라 어레이(110a 내지 110d)를 포함하며, 사용자(U)의 신체에 착용되며 복수의 카메라 어레이(110a 내지 110d)가 배치되는 웨어러블 구조체(114)를 더 포함할 수 있다.

이 경우, 복수의 카메라 어레이(110a 내지 110d)는, 웨어러블 구조체(114)를 착용한 사용자(U)의 전방, 후방, 좌 측방, 우 측방 중 2 이상의 방향으로 촬영이 가능하도록 웨어러블 구조체(114)에 배치될 수 있다. 도 2에서는 4개의 카메라 어레이들(110a 내지 110d)이 전방, 후방, 좌 측방, 우 측방으로 배치되어 있으나, 더 많은 카메라 어레이들이 더욱 세분화된 방향으로 배치될 수 있음은 물론이다.

이 경우, 웨어러블 구조체(114)는 도 2와 같이 사용자(U)의 목 부분에 착용 가능한 넥밴드(neckband) 형태로 구성될 수 있다.

앞서 언급한 바와 같이, 각각의 카메라 어레이(110a 내지 110d)에 배열되는 복수의 카메라(112)는 촬영 영역이 상호 중첩되도록 배열된다. 도 2에서는 카메라 어레이별로 4대의 카메라(112)가 배열되어 있으나, 실시예에 따라 카메라 어레이에 배열되는 카메라의 개수가 달라질 수 있다.

도 3에는 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라의 일례가 도시되어 있다.

도 3에 도시된 바와 같이, 카메라 모듈(110)에 포함된 4대의 카메라(112)는 일정 방향과 범위의 촬영 영역(Z1 내지 Z4)을 가지며, 해당 촬영 영역들(Z1 내지 Z4)의 적어도 일부가 상호 중첩되어 중첩 영역(Zo)이 발생하도록 배치된다. 이러한 중첩 영역(Zo)은 영상의 융합 내지 합성을 통해 고해상도 영상을 생성할 수 있는 디스패리티 지원 영역(disparity support area)에 해당한다. 즉, 중첩 영역(Zo)에 위치한 피사체는 상기 4대의 카메라로부터 획득된 촬영 영상들에 공통적으로 나타나게 되며, 동일 피사체에 대한 영상은 융합이 가능하므로, 4대의 카메라로부터 획득된 저해상도의 피사체 영상으로부터 고해상도의 피사체 영상을 생성할 수 있게 된다.

이와 같이 중첩 영역(Zo)을 가지는 카메라들이 배열된 카메라 어레이들(110a 내지 110d)은 사용자가 착용한 웨어러블 구조체(114)에 각각 서로 다른 방향으로 배치되어 사용자를 중심으로 전방위(360도)적으로 촬영을 수행하고, 카메라 어레이별로 촬영된 영상들에서 중첩 영역(Zo)에 대응하는 영상들을 검출 및 융합하여 고해상도 영상을 생성할 수 있다.

다시 도 1을 참조하면, 얼굴 영상 분석부(130)는, 영상 처리부(120)에서 생성된 고화질 얼굴 영상으로부터 특징 벡터를 추출하여 얼굴 또는 표정에 관한 정보를 인식하고, 인식된 정보에 대응하는 이벤트를 검출하도록 구성된다. 이를 위해, 얼굴 영상 분석부(130)는 영상 정보 인식부(132) 및 이벤트 검출부(134)를 포함하며, 실시예에 따라 이벤트 알림부(136)를 더 포함할 수 있다.

이 경우, 영상 정보 인식부(132)는, 고화질 얼굴 영상으로부터 특징 벡터를 추출하고, 얼굴 정보 또는 표정 정보와 관련하여 미리 저장된 특징 벡터와 추출된 특징 벡터를 비교하여 상기 추출된 특징 벡터에 대응하는 얼굴 정보 또는 표정 정보를 인식하도록 구성된다.

고화질의 얼굴 영상은 일반적인 얼굴 인식이 가능한 얼굴의 세부정보를 담고 있다. 얼굴 인식을 위해 먼저 영상 정보를 특징 벡터로 변환할 필요가 있다. 또한, 인식을 요하는 사람들의 얼굴 영상을 특징 벡터로 저장하여 등록하는 과정이 필요하며, 임의의 사람이 인식을 요하는 사람인지에 대한 판단은 촬영을 통해 입력된 얼굴 영상을 특징 벡터로 변환하고 이를 등록된 특징 벡터와 비교하여 이루어진다. 등록된 특징 벡터와 입력된 얼굴 영상의 특징 벡터 간의 유사도는 cosine-similarity와 같은 비교 방법을 사용하여 판단할 수 있으며, 유사도가 기준 임계값보다 높으면 인식 성공, 그렇지 않으면 인식 실패로 정의된다.

한편, 표정의 종류는 일반적으로 기쁨, 슬픔, 분노, 무표정, 놀람, 역겨움, 두려움 등으로 구성된다. 표정 인식 역시 딥러닝의 일종인 CNN을 사용하여 학습되며, 배경과 분리된 얼굴 영역만을 학습 DB로 사용하기 때문에, 검출이 아닌 분류기로 학습된다. 생성된 고화질 얼굴 영상이 입력되며 각 입력 얼굴에 대한 출력값은 표정 종류 크기의 벡터 행렬로 주어진다. 예컨대, 7가지 표정에 대해 표정 인식기가 학습되었다면, 해당 인식기의 출력은 7x1 벡터 행렬이다. 각 벡터 행렬의 7개 각 구성 요소는 일종의 확률 값으로 7개 확률 값 중의 가장 큰 값에 해당하는 표정이 최종 표정으로 결정될 수 있다.

이벤트 검출부(134)는, 인식된 얼굴 정보 또는 표정 정보에 대응하는 이벤트를 검출하도록 구성된다. 이를 위해, 이벤트 검출부(134)는 다양한 얼굴 정보 또는 표정 정보에 각각 대응하는 이벤트 정보들을 미리 저장하고, 저장된 이벤트 정보들 중 인식된 얼굴 정보 또는 표정 정보에 대응하는 이벤트 정보를 검출하도록 구성될 수 있다.

실시예에 따라, 이벤트 검출부(134)는 상기 인식된 얼굴 정보 또는 표정 정보와, 상기 복수의 촬영 영상의 얼굴 영역 이외의 영역에서 인식되는 상황 정보에 대응하는 이벤트를 검출하도록 구성될 수도 있다. 이 경우, 이벤트 검출부(134)는 각각의 촬영 영상에서 얼굴 영역 이외의 영역에 대한 영상 인식을 수행하여 촬영 장소, 피사체의 실루엣이나 제스처, 피사체의 거리 등과 같은 다양한 상황 정보를 인식하고, 상기 인식된 얼굴 정보 또는 표정 정보와 상황 정보에 대응하는 이벤트를 검출할 수 있다. 이를 위해, 이벤트 검출부(134)는 딥러닝의 일종인 CNN을 통해 다양한 배경, 피사체의 실루엣, 제스처 등이 나타난 영상들을 학습하여 생성된 상황 정보 검출 모델을 이용하여 촬영 영상의 얼굴 영역 이외의 영역에서 상황 정보를 검출하여 인식할 수 있다. 또한, 이벤트 검출부(134)는 다양한 얼굴 정보, 표정 정보, 상황 정보와 연관시켜 그에 대응하는 이벤트 정보들을 미리 저장할 수 있다.

예컨대, 이벤트 검출부(134)는 인식된 표정에 대응하는 이벤트를 검출하기 위해 얼굴 표정은 물론, 부수적인 정보로서 시선 방향을 검출하여 해당 얼굴이 어느 방향을 응시하고 있는지 추정할 수 있다. 이와 같이, 얼굴 표정 정보와 얼굴 응시 방향 정보를 결합하여 이벤트 검출에 사용할 경우 이벤트 발생 방향에 관한 분석이 가능해 진다.

또한, 앞서 언급한 바와 같이, 이벤트를 검출하기 위해 촬영 영상의 얼굴 영역 이외의 영역에 나타난 배경, 피사체의 실루엣, 제스처 등과 같은 상황 정보가 더 이용될 수도 있다. 예컨대, 이벤트 검출부(134)는 촬영 영상의 얼굴 영역 이외의 영역에 대한 영상 인식을 통해 얼굴을 제외한 사람의 실루엣이나 제스처를 인식하고, 인식된 실루엣이나 제스처에 대응하는 이벤트를 검출할 수 있다. 이때, 인식된 실루엣이나 제스처는 사람의 이동 방향이나 속도, 행위 내용 등을 나타내는 정보로 사용될 수 있다.

또한, 이벤트 검출을 위해 촬영 영상에 나타난 피사체의 거리 정보가 이용될 수도 있다. 이를 위해, 촬영 영역이 중첩되는 카메라들을 통해 촬영된 영상들로부터 중첩 영역의 피사체에 대한 디스패리티(disparity) 데이터를 획득할 수 있으며, 이를 기반으로 카메라로부터 피사체 표면과의 거리 정보가 담긴 depth map을 추출할 수 있다. 그 결과, 이벤트 검출부(134)는 추출된 depth map의 거리 정보에 대응하는 이벤트를 검출할 수 있게 된다.

한편, 이벤트 알림부(136)는 검출된 이벤트를 알리는 이벤트 알림 신호를 생성하여 디스플레이 장치 또는 음향 발생 장치를 통해 출력하도록 구성된다. 일 실시예에 있어서, 이벤트 알림부(136)는 디스플레이 패널이나 스피커 등을 포함하여 직접 이벤트 알림 신호를 출력하도록 구성될 수 있다. 다른 일 실시예에 있어서, 이벤트 알림부(136)는 통신 모듈을 통해 이벤트 알림 신호를 다른 장치로 전송하도록 구성될 수도 있다.

상술한 영상 처리부(120)와 얼굴 영상 분석부(130)는, 실시예에 따라 카메라 모듈(110)과 물리적으로 통합된 하나의 장치로 구성될 수 있으며, 별개의 장치로 구성될 수도 있다. 예컨대, 영상 처리부(120)와 얼굴 영상 분석부(130)는 1 또는 2 이상의 컴퓨터 장치나 서버로 구성되어 카메라 모듈(110)과 통신을 수행하도록 구성될 수 있다.

도 4에는 본 발명의 일 실시예에 따른 얼굴 영상 기반의 이벤트 모니터링 방법을 나타낸 흐름도로 도시되어 있다. 도 4를 참조하여 이벤트 모니터링 시스템(100)의 세부 동작들을 시계열적으로 설명한다.

도 4에 도시된 바와 같이, 상기 시스템(100)의 카메라 모듈(110)은, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 포함하며, 복수의 카메라를 통해 수시로 또는 주기적으로 촬영을 수행하고, 상기 시스템(100)의 영상 처리부(120)는 이러한 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하고, 검출된 얼굴 영역들 중에서 동일 얼굴을 포함한 얼굴 영역들을 상호 매칭하고, 상호 매칭된 얼굴 영역들로부터 해당 촬영 영상보다 해상도가 높은 고해상도 얼굴 영상을 생성한다(S400 내지 S430).

즉, 상기 시스템(100)의 촬영 영상 획득부(122)는 카메라 어레이별로 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상을 획득하면(S400), 상기 시스템(100)의 얼굴 영역 검출부(124)는, 딥러닝 모델 또는 머신 러닝 모델을 이용하여 상기 복수의 촬영 영상에서 각각 얼굴 영역을 검출한다(S410). 상술한 바와 같이, 얼굴 영역 검출부(124)는 딥러닝의 일종인 CNN(Convolutional Neural Network)을 통해 임의의 위치에 적어도 하나의 얼굴을 포함하고 있는 다수의 영상들을 학습하여 얼굴 영역 검출 모델을 생성하고, 생성된 모델을 이용하여 촬영 영상에서 얼굴 영역들을 검출할 수 있다.

그 다음, 상기 시스템(100)의 얼굴 영역 매칭부(126)는, 검출된 다수의 얼굴 영역들로부터 각각 얼굴의 특징을 추출하고, 추출된 특징이 동일한 얼굴 영역들을 상호 매칭한다(S420).

그 다음, 상기 시스템(100)의 얼굴 영상 생성부(128)는, 상호 매칭된 얼굴 영역들의 픽셀 값 및 상대적 픽셀 위치 정보를 이용하여 고화질 얼굴 영상을 생성한다(S430). 이 경우, 고해상도의 얼굴 영상 생성은 검출된 얼굴 영역들만을 이용하여 이루어진다.

도 5에는 촬영 영상들로부터 검출되는 얼굴 영역들의 일례가 도시되어 있다.

도 6에는 검출된 얼굴 영역들의 디스패리티(disparity) 계산 원리가 도시되어 있다.

우선, 도 5에 도시된 바와 같이, 저해상도 카메라에 의해 촬영된 저해상도의 촬영 영상들(I1 내지 I4)로부터 얼굴 영역들(F1 내지 F4)을 검출하고, 검출된 얼굴 영역들의 얼굴 특징을 비교하여 동일 얼굴에 관한 얼굴 영역들(F1 내지 F4)을 상호 매칭한다. 본 발명은 도 3과 같이 촬영 영역이 상호 중첩되도록 배치된 복수의 카메라를 통해 촬영 영상들을 획득하기 때문에, 획득된 촬영 영상들에는 중첩 영역(Zo)의 이미지가 공통적으로 포함되며, 상호 매칭되는 얼굴 영역들은 사실상 중첩 영역(Zo)의 이미지 내에서 검출된다.

이와 같이, 본 발명은 촬영 영상들의 전체 특징을 상호 비교하는 방식이 아닌, 각각의 촬영 영상에서 얼굴 영역을 검출하여 검출된 얼굴 영역들의 특징만을 상호 비교하는 방식으로 영상들 간의 상호 매칭을 수행하기 때문에 연산량을 감소시키고 연산속도를 향상시킬 수 있다. 또한, 일반적으로 고해상도 영상에서 영상 간의 correspondence를 찾는 과정은 많은 연산량과 연산시간을 요구하나, 본 발명은 상술한 바와 같이 저해상도 영상을 이용하며, 전체 영상 중 얼굴 영역에 대해서만 correspondence를 찾기 때문에 전체적인 연산량과 연산시간을 감소시킬 수 있다.

한편, 도 6에 도시된 바와 같이, 상호 매칭되는 얼굴 영역들을 포함한 촬영 영상들(I1 내지 I4)에서 각 얼굴 영역의 상대적 위치 정보(좌표 정보)를 확인하여 디스패리티(disparity) 데이터를 추출할 수 있다.

도 7에는 검출된 얼굴 영역과 디스패리티 데이터를 이용하여 고해상도 얼굴 영상을 생성하는 과정이 도시되어 있다.

도 7에 도시된 바와 같이, 상호 매칭된 저해상도 얼굴 영역들(F1 내지 F4)의 픽셀 값과 해당 픽셀 값에 대응하는 디스패리티 데이터(D1 내지 D4)를 이용하여, 하나의 새로운 얼굴 영상을 구성하는 픽셀들의 픽셀 값과 해당 픽셀의 상대적 위치를 산출하고, 산출된 결과를 이용하여 얼굴 영상을 생성함으로써, 상호 매칭된 얼굴 영역들(F1 내지 F4)을 융합한 고해상도 얼굴 영상(I_f)을 생성할 수 있다.

다시 도 4를 참조하면, 상기 시스템(100)의 얼굴 영상 분석부(130)는, 영상 처리부(120)에서 생성된 고화질 얼굴 영상으로부터 특징 벡터를 추출하여 얼굴 또는 표정에 관한 정보를 인식하고, 인식된 정보에 대응하는 이벤트를 검출한다(S440, S450).

즉, 상기 시스템(100)의 영상 정보 인식부(132)는, 고화질 얼굴 영상으로부터 특징 벡터를 추출하고, 얼굴 정보 또는 표정 정보와 관련하여 미리 저장된 특징 벡터와 추출된 특징 벡터를 비교하여 상기 추출된 특징 벡터에 대응하는 얼굴 정보 또는 표정 정보를 인식한다(S440).

그 다음, 상기 시스템(100)의 이벤트 검출부(134)는, 인식된 얼굴 정보 또는 표정 정보에 대응하는 이벤트를 검출한다(S450). 상술한 바와 같이, 이벤트 검출부(134)는 상기 인식된 얼굴 정보 또는 표정 정보와, 상기 복수의 촬영 영상의 얼굴 영역 이외의 영역에서 인식되는 상황 정보에 대응하는 이벤트를 검출할 수도 있다.

그 다음, 상기 시스템(100)의 이벤트 알림부(136)는 검출된 이벤트를 알리는 이벤트 알림 신호를 생성하여 디스플레이 장치 또는 음향 발생 장치를 통해 출력한다(S460). 이 경우, 이벤트 알림부(136)는 디스플레이 패널이나 스피커 등을 포함하여 직접 이벤트 알림 신호를 출력하거나, 통신 모듈을 통해 이벤트 알림 신호를 다른 장치로 전송할 수 있다.

한편, 본 발명에 따른 실시예들은 컴퓨터 시스템과 이러한 컴퓨터 시스템을 구동하는 컴퓨터 프로그램으로 구현될 수 있다. 본 발명의 실시예들이 컴퓨터 프로그램으로 구현되는 경우, 본 발명의 구성요소들은 해당 컴퓨터 시스템을 통해 해당 동작이나 작업을 실행하는 프로그램 세그먼트들이다. 이러한 컴퓨터 프로그램 내지 프로그램 세그먼트들은 컴퓨터로 판독 가능한 다양한 기록매체에 저장될 수 있다. 컴퓨터로 판독 가능한 기록매체에는 컴퓨터 시스템이 읽어들일 수 있는 데이터를 기록하는 모든 종류의 매체가 포함된다. 예컨대, 컴퓨터로 판독 가능한 기록매체에는 ROM, RAM, EEPROM, 레지스터, 플래시 메모리, CD-ROM, 자기 테이프, 하드 디스크, 플로피디스크, 또는 광 데이터 기록장치 등이 포함될 수 있다. 또한, 이러한 기록매체는 다양한 네트워크로 연결된 컴퓨터 시스템들에 분산 배치되어 프로그램 코드들을 분산 방식으로 저장하거나 실행시킬 수 있다.

이와 같이, 본 발명의 실시예들은 딥러닝 알고리즘과 저해상도 얼굴영상 검출 및 고화질 얼굴영상 생성 방법을 활용하여 영상 내 군중의 얼굴/표정을 기반으로 이벤트 발생을 검출할 수 있는 방안을 제공한다. 예컨대, 본 발명의 실시예들은 일반적인 상행위에 관련된 군중의 선호를 자동적으로 non-intrusive하게 조사할 수 있다. 또한, 공공장소에서 위급, 재난 시 사람들의 표정 반응을 기반으로 해당 상황에 대한 정확한 판단을 유도할 수 있다. 본 발명의 실시예들는 다음과 같은 상황들에 적용될 수 있다.

우선, 영화관에서 영화를 보기 전 관객들의 표정과 보고 난 후의 표정을 분석하여 영화 선호에 대한 자동 설문이 가능하다. 예컨대, 영화관에 온 관객들이 응시하는(관심있어 하는) 포스터 및 응시 시간에 대한 분석이 가능하다. 즉, 영화관 내에 비치된 영화포스터의 3차원 위치가 주어지고, 영화관에 온 관객들의 3차원 공간상의 위치와 시선 방향을 계산하고 시선이 머무른 영화 포스터를 판별하고 시선이 머무른 시간 및 표정 등을 분석하여 직접적인 설문 과정 없이 자동적으로 각 영화의 선호/관심에 대한 조사가 가능하다.

또한, 영화관의 특정 상영관에서 나오는 군중들의 표정 분석이 가능하다. 즉, 카메라와 영화관 사이의 기하학적 관계에 기반하여 영상 내 검출된 얼굴/사람의 위치로부터 실제 영화관에서의 3차원 위치 추정이 가능하다. 즉, 각 상영관에서 나오는 사람들이 짓는 표정을 분석하여 해당 영화에 대한 자동적인 선호 조사를 할 수 있다.

또한, 특정 가판에서 판매하는 상품에 대한 사람들의 표정 반응을 기반으로 해당 상품에 대한 선호 분석이 가능하다. 예컨대, 상품 위치별 반응하는 고객의 표정/시선 기반 선호도 분석이 가능하다. 즉, 상품이 진열된 3차원 위치가 주어지고, 해당 상품에 접근하는 고객의 표정과 시선이 머무는 시간을 분석하여 해당 상품에 대한 선호도 분석. 시선, 표정과 함께 특정 상품에 접근 하는 사람의 위치/행위 분석을 통해 해당 상품으로부터 어느 정도의 거리에서부터 해당 상품을 인지하고 접근하기 시작했는지를 분석하여, 해당 상품의 광고효과 접근성에 대한 분석도 가능하다.

또한, 재난 상황 시, 대피하는 사람들의 표정 반응을 기반으로 해당 상황 감지가 가능하다. 예컨대, 대피하는 사람들의 3차원 공간위치와 이동속도, 대피 방향, 제스처, 표정 반응을 통해 이벤트를 특정하고, 해당 이벤트가 발생한 3차원 지역 위치 정보를 특정할 수 있다. 위험을 감지하고 대피를 하는 행렬로부터 이벤트를 특정하면 아직 정확한 상황을 감지하지 못한 행렬에 이를 미리 상황과 대피 방향을 자동적으로 전달하여 추가적인 피해 상황발생을 최소화할 수 있다.

또한, 위급 환자 발생 시, 환자와 해당 환자를 둘러싼 사람들의 반응을 기반으로 해당 상황 감지가 가능하다. 예컨대, 위급 상황으로 인해 고통을 겪는 환자의 표정, 제스처 등으로부터 이벤트 발생을 감지하거나, 위급 환자가 의식이 없거나 얼굴이 주변 사람들로부터 가려진 경우 환자의 실루엣과 주변 사람들의 실루엣, 표정을 기반으로 해당 이벤트 발생을 검출할 수 있다.

또한, 지인 얼굴 등록을 통한 사람찾기 기능을 제공할 수 있다. 예컨대, 넥밴드 카메라는 사용자의 정면에 있더라도 간과하거나 볼 수 없는 후/측방의 영상들로부터 자동적으로 얼굴인식이 가능하기 때문에, 등록된 지인을 찾아주거나 만나기로 한 사람의 위치를 특정하여 디스플레이 장치나 음향 발생 장치를 통해 사용자에게 통보할 수 있다.

또한, 위험인물 및 위험행위를 하는 인물 경보 기능을 제공할 수 있다. 예컨대, 넥밴드 카메라를 통해 사용자에게 빠르게 다가온다거나 위협을 할 수 있는 타인을 특정하여 사용자에게 알릴 수 있다. 지정된 위험인물 또는 지명 수배된 범죄자들을 얼굴인식을 통해 특정하여 알리는 기능도 가능하다.

또한, 시각 장애를 가진 사람들에 대한 보행 지원 기능을 제공할 수 있다. 기본적으로 넥밴드 카메라는 다중 카메라를 사용하기 때문에 주변의 검출된 사람의 얼굴영상으로부터 3차원 거리 정보를 빠르게 추출하여 주변인들의 위치를 음향 발생 장치로 알려 정면 충돌을 회피할 수 있게 한다. 얼굴이 아닌 일반적인 모든 특징에 대하여 3차원 거리 정보 역시 추출 가능하며, 일반적인 장애물의 회피 하도록 하거나, 알려진 랜드마크의 위치를 특정하고 GPS 네비게이션 시스템과 연동하여 사용자가 안전하게 해당 위치까지 도착하도록 경로정보를 알려주는 기능이 가능하다.

상술한 바와 같이, 본 발명에 따르면, 촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하여 저해상도의 촬영 영상에서 고해상도의 얼굴 영상을 생성함으로써, 저해상도 카메라로 촬영되는 경우 또는 촬영된 영상에 포함된 얼굴 영역이 작아서 해상도가 떨어지거나 촬영된 영상에 다수의 얼굴이 포함된 경우에도 얼굴 또는 표정 정보 인식의 정확성과 신뢰성을 높은 수준으로 보장할 수 있고, 얼굴 또는 표정 정보를 통해 촬영 영역에서 발생한 이벤트를 정확히 검출할 수 있다.

나아가, 본 발명에 따른 실시예들은, 당해 기술 분야는 물론 관련 기술 분야에서 본 명세서에 언급된 내용 이외의 다른 여러 기술적 과제들을 해결할 수 있음은 물론이다.

지금까지 본 발명에 대해 구체적인 실시예들을 참고하여 설명하였다. 그러나 당업자라면 본 발명의 기술적 범위에서 다양한 변형 실시예들이 구현될 수 있음을 명확하게 이해할 수 있을 것이다. 그러므로 앞서 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 할 것이다. 즉, 본 발명의 진정한 기술적 사상의 범위는 청구범위에 나타나 있으며, 그와 균등범위 내에 있는 모든 차이점은 본 발명에 포함되는 것으로 해석되어야 할 것이다.

100 : 이벤트 모니터링 시스템 110 : 카메라 모듈
112 : 카메라 114 : 웨어러블 구조체
120 : 영상 처리부 122 : 촬영 영상 획득부
124 : 얼굴 영역 검출부 126 : 얼굴 영역 매칭부
128 : 얼굴 영상 생성부 130 : 얼굴 영상 분석부
132 : 영상 정보 인식부 134 : 이벤트 검출부
136 : 이벤트 알림부

Claims

카메라를 통해 촬영된 영상을 이용하여 이벤트를 감지하는 얼굴 영상 기반의 이벤트 모니터링 시스템으로서,
촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 포함하는 카메라 모듈;
상기 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하고, 검출된 얼굴 영역들 중에서 동일 얼굴을 포함한 얼굴 영역들을 상호 매칭하고, 상호 매칭된 얼굴 영역들로부터 해당 촬영 영상보다 해상도가 높은 고해상도 얼굴 영상을 생성하는 영상 처리부; 및
상기 고해상도 얼굴 영상으로부터 특징 벡터를 추출하여 얼굴 또는 표정에 관한 정보를 인식하고, 인식된 정보에 대응하는 이벤트를 검출하는 얼굴 영상 분석부를 포함하는 얼굴 영상 기반의 이벤트 모니터링 시스템.
제1항에 있어서,
상기 카메라 모듈은, 촬영 영역이 상호 중첩되는 복수의 카메라가 각각 배열된 복수의 카메라 어레이를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 시스템.
제2항에 있어서,
상기 카메라 모듈은, 상기 복수의 카메라 어레이가 배치되며 사용자의 신체에 착용되는 웨어러블 구조체를 더 포함하고,
상기 복수의 카메라 어레이는, 상기 웨어러블 구조체를 착용한 사용자의 전방, 후방, 좌 측방, 우 측방 중 2 이상의 방향으로 촬영이 가능하도록 상기 웨어러블 구조체에 배치된 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 시스템.
제3항에 있어서,
상기 웨어러블 구조체는, 사용자의 목 부분에 착용 가능한 넥밴드(neckband) 형태로 구성된 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 시스템.
제1항에 있어서,
상기 영상 처리부는,
상기 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상을 획득하는 촬영 영상 획득부;
딥러닝 모델 또는 머신 러닝 모델을 이용하여 상기 복수의 촬영 영상에서 각각 얼굴 영역을 검출하는 얼굴 영역 검출부;
검출된 얼굴 영역들로부터 각각 얼굴의 특징을 추출하고 추출된 특징이 동일한 얼굴 영역들을 상호 매칭하는 얼굴 영역 매칭부; 및
상호 매칭된 얼굴 영역들의 픽셀 값 및 상대적 픽셀 위치 정보를 이용하여 상기 고화질 얼굴 영상을 생성하는 얼굴 영상 생성부를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 시스템.
제1항에 있어서,
상기 얼굴 영상 분석부는,
상기 고화질 얼굴 영상으로부터 특징 벡터를 추출하고, 얼굴 정보 또는 표정 정보와 관련하여 미리 저장된 특징 벡터와 추출된 특징 벡터를 비교하여 상기 추출된 특징 벡터에 대응하는 얼굴 정보 또는 표정 정보를 인식하는 영상 정보 인식부; 및
인식된 얼굴 정보 또는 표정 정보에 대응하는 이벤트를 검출하는 이벤트 검출부를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 시스템.
제6항에 있어서,
상기 시스템은, 검출된 이벤트를 알리는 이벤트 알림 신호를 생성하여 디스플레이 장치 또는 음향 발생 장치를 통해 출력하는 이벤트 알림부를 더 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 시스템.
촬영 영역이 상호 중첩되도록 배열된 복수의 카메라를 통해 촬영된 복수의 촬영 영상을 이용하여 컴퓨터 장치가 이벤트를 감지하는 얼굴 영상 기반의 이벤트 모니터링 방법으로서,
상기 컴퓨터 장치가, 상기 복수의 카메라를 통해 동일한 타이밍에 촬영된 복수의 촬영 영상에서 각각 얼굴 영역을 검출하는 (a) 단계;
상기 컴퓨터 장치가, 검출된 얼굴 영역들 중 동일 얼굴을 포함한 얼굴 영역들을 상호 매칭하는 (b) 단계;
상기 컴퓨터 장치가, 상호 매칭된 얼굴 영역들로부터 해당 촬영 영상보다 해상도가 높은 고해상도 얼굴 영상을 생성하는 (c) 단계;
상기 컴퓨터 장치가, 상기 고해상도 얼굴 영상으로부터 특징 벡터를 추출하여 얼굴 또는 표정에 관한 정보를 인식하는 (d) 단계; 및
상기 컴퓨터 장치가, 인식된 정보에 대응하는 이벤트를 검출하는 (e) 단계를 포함하는 얼굴 영상 기반의 이벤트 모니터링 방법.
제8항에 있어서,
상기 (a) 단계는, 딥러닝 모델 또는 머신 러닝 모델을 이용하여 상기 복수의 촬영 영상에서 각각 얼굴 영역을 검출하는 단계를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 방법.
제8항에 있어서,
상기 (b) 단계는, 상기 (a) 단계에서 검출된 얼굴 영역들로부터 각각 얼굴의 특징을 추출하고 추출된 특징이 동일한 얼굴 영역들을 매칭하는 단계를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 방법.
제8항에 있어서,
상기 (c) 단계는, 상기 (b) 단계에서 매칭된 얼굴 영역들의 픽셀 값 및 상대적 픽셀 위치 정보를 이용하여 상기 고화질 얼굴 영상을 생성하는 단계를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 방법.
제8항에 있어서,
상기 (d) 단계는, 상기 고화질 얼굴 영상으로부터 특징 벡터를 추출하고, 얼굴 정보 또는 표정 정보와 관련하여 미리 저장된 특징 벡터와 추출된 특징 벡터를 비교하여 상기 추출된 특징 벡터에 대응하는 얼굴 정보 또는 표정 정보를 인식하는 단계를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 방법.
제8항에 있어서,
상기 (e) 단계는, 상기 (d) 단계에서 인식된 얼굴 정보 또는 표정 정보와, 상기 복수의 촬영 영상의 얼굴 영역 이외의 영역에서 인식되는 상황 정보에 대응하는 이벤트를 검출하는 단계를 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 방법.
제8항에 있어서,
상기 방법은, 상기 컴퓨터 장치가 상기 (e) 단계에서 검출된 이벤트를 알리는 이벤트 알림 신호를 생성하여 디스플레이 장치 또는 음향 발생 장치를 통해 출력하는 단계를 더 포함하는 것을 특징으로 하는 얼굴 영상 기반의 이벤트 모니터링 방법.
제8항 내지 제14항 중 어느 한 항에 따른 방법을 컴퓨터를 통해 실행하는 컴퓨터 프로그램으로서 컴퓨터로 판독 가능한 기록매체에 기록된 컴퓨터 프로그램.