KR102308373B1

KR102308373B1 - 얼굴인식을 위한 비디오 디블러링장치 및 그 장치의 구동방법

Info

Publication number: KR102308373B1
Application number: KR1020210073913A
Authority: KR
Inventors: 이경무; 나승준; 나종근
Original assignee: 주식회사 스누아이랩; 서울대학교 산학렵력단
Priority date: 2021-06-08
Filing date: 2021-06-08
Publication date: 2021-10-06

Abstract

본 발명은 얼굴인식을 위한 비디오 디블러링장치 및 그 장치의 구동방법에 관한 것으로서, 본 발명의 실시예에 따른 얼굴인식을 위한 비디오 디블러링장치는 카메라에 의해 촬영된 촬영영상을 수신하는 통신 인터페이스부, 및 수신한 촬영영상의 비디오 프레임들에 대하여 지정 개수의 비디오 프레임을 스킵(pseudo-skipping)하며 디블러링 동작을 수행하여 RNN 연산에 의해 비디오 프레임 내의 얼굴을 인식하는 제어부를 포함할 수 있다.

Description

얼굴인식을 위한 비디오 디블러링장치 및 그 장치의 구동방법{Video Deblurring Device for Face Recognition and Driving Method Thereof}

본 발명은 얼굴인식을 위한 비디오 디블러링장치 및 그 장치의 구동방법에 관한 것으로서, 더 상세하게는 가령 비디오 프레임 의사 스킵(frame pseudo-skip)을 통한 디블러 RNN 모델(model)의 비디오 연산을 가속시키는 얼굴인식을 위한 비디오 디블러링장치 및 그 장치의 구동방법에 관한 것이다.

얼굴인식은 사람 얼굴의 대칭적인 구도, 생김새, 머리카락, 눈의 색상, 얼굴 근육의 움직임 등을 분석해 얼굴의 특징을 알아내는 작업을 말한다. 실물 또는 사진 속의 얼굴을 인식할 수 있으며 얼굴 모양새를 통해 성별과 나이도 인지해 낼 수 있다. 정지된 얼굴뿐 아니라 웃는 표정을 포함한 얼굴 요소의 움직임과 근육의 변화도 파악하는 방향으로 진화하고 있다. 홍채·정맥과 함께 대표적인 생체 인식 기술 중 하나로 손꼽힌다. 얼굴 인식은 분실이나 복제될 우려가 없다는 점에서 최근 차세대 신원확인 시스템으로 주목받고 있다. 출입관리를 위한 보안에 가장 빠르게 확산되고 있으며 유통산업에서 맞춤형 홍보에도 적용되고 있다.

물론 최근에서 CCTV나 IP 카메라 등의 촬영을 통해 촬영 영상을 구성하는 비디오 프레임들에서 얼굴을 검출하고, 또 검출한 얼굴 이미지를 인공지능의 딥러닝 등의 기술을 적용하여 얼굴을 정확히 인식하는 기술에까지 이르고 있다.

종래에 일반적인 순환신경망(RNN) 연산은 아래의 수학식으로 표현된다.

Lt,ht = RNN(Bt,ht-1)

여기서, Bt는 t번째 입력 프레임(예: 블러 있음), Lt는 t번째 출력 프레임(예: 디블러된 결과), ht는 t번째 출력 은닉 상태(hidden state)를 각각 나타낸다.

보통 RNN으로 비디오를 처리하는 경우, 입력은 해당 입력 프레임(Bt), 직전 프레임에서 얻은 은닉 상태(ht-1)가 되며, 출력은 출력 결과(Lt), 다음 프레임에 넘길 은닉 상태(ht)가 된다.

그런데, 가령 IP 카메라의 응용 등에서는 일부 프레임에 대해서만 연산이 필요하며 모든 프레임의 출력 결과(yt)를 얻을 필요는 없어 불필요한 연산 처리가 발생하는 문제가 있다. 이로 인해 연산 처리 속도가 느려질 수 있다.

한국등록특허공보 제10-0323683호(2002.01.25) 한국등록특허공보 제10-1551417호(2015.09.02) 한국등록특허공보 제10-1871869호(2018.06.21)

본 발명의 실시예는 가령 비디오 프레임 의사 스킵을 통한 디블러 RNN 모델의 비디오 연산을 가속시키는 얼굴인식을 위한 비디오 디블러링장치 및 그 장치의 구동방법을 제공함에 그 목적이 있다.

본 발명의 실시예에 따른 얼굴인식을 위한 비디오 디블러링장치는 카메라에 의해 촬영된 촬영영상을 수신하는 통신 인터페이스부, 및 상기 수신한 촬영영상의 비디오 프레임들에 대하여 지정 개수의 비디오 프레임을 스킵(pseudo-skipping)하며 디블러링 동작을 수행하여 RNN(Recurrent Neural Network) 연산에 의해 상기 비디오 프레임 내의 얼굴을 인식하는 제어부를 포함한다.

상기 제어부는, 상기 스킵 및 상기 디블러링 동작을 위한 기설정된 데이터를 근거로 상기 비디오 프레임들 중 일부의 디블러링 동작을 선택적으로 생략하여 IFI(Intra-Frame Iterative)-RNN 연산을 수행할 수 있다.

상기 제어부는, 상기 IFI RNN 연산시 상기 비디오 프레임의 각각에 대하여 영상 분석결과를 얻기 위한 은닉상태(hidden state) 연산을 수행할 수 있다.

상기 제어부는, 상기 디블러링 동작을 수행하는 비디오 프레임에 한하여 디블러링 연산 및 상기 은닉상태 연산을 병렬 처리할 수 있다.

상기 제어부는, 상기 지정 개수의 비디오 프레임을 스킵한 후 입력되는 하나의 단위(unit) 비디오 프레임에 한하여 디블러링 동작을 수행할 수 있다.

상기 제어부는, 상기 지정 개수를 고정하여 일정 시간마다의 비디오 프레임에 대하여 상기 디블러링 동작을 수행할 수 있다.

또한, 본 발명의 실시예에 따른 얼굴인식을 위한 비디오 디블러링장치의 구동방법은, 통신 인터페이스부가, 카메라에 의해 촬영된 촬영영상을 수신하는 단계, 및 제어부가, 상기 수신한 촬영영상의 비디오 프레임들에 대하여 지정 개수의 비디오 프레임을 스킵(pseudo-skipping)하며 디블러링 동작을 수행하여 RNN 연산에 의해 상기 비디오 프레임 내의 얼굴을 인식하는 단계를 포함한다.

본 발명의 실시예에 따르면, IP 카메라의 응용 등에서 불필요한 비디오 프레임을 스킵하고 일부 프레임에 대해서만 연산 출력 결과(yt)를 얻을 수 있어 디블러 RNN 모델의 비디오 연산 처리 속도를 빠르게 증가시킬 수 있을 것이다.

도 1은 본 발명의 실시예에 따른 영상처리시스템을 예시한 도면,
도 2a 및 도 2b는 도 1의 비디오 디블러링장치의 RNN 연산과 개선 기술에 따른 RNN 연산 과정을 서로 비교 설명하기 위한 도면,
도 3은 RNN 셀 아키텍처를 보여주는 도면,
도 4는 도 1의 비디오 디블러링장치의 세부구조를 예시한 블록다이어그램, 그리고
도 5는 도 1의 비디오 디블러링장치의 구동 과정을 나타내는 흐름도이다.

이하, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명한다.

도 1은 본 발명의 실시예에 따른 영상처리시스템을 예시한 도면, 도 2a 및 도 2b는 도 1의 비디오 디블러링장치의 RNN 연산과 개선 기술에 따른 RNN 연산 과정을 비교 설명하기 위한 도면, 도 3은 RNN 셀 아키텍처를 보여주는 도면이다.

도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 영상처리시스템(90)은 촬영장치(100) 및 비디오 디블러링장치(120)의 일부 또는 전부를 포함한다.

여기서, "일부 또는 전부를 포함한다"는 것은 촬영장치(100)가 생략되어 비디오 디블러링장치(120)가 스탠드얼론 형태로 동작하거나, 촬영장치(100)가 비디오 디블러링장치(120)에 통합되어 구성될 수 있는 것 등을 의미하는 것으로서, 가령 스마트폰의 경우에는 카메라와 비디오 디블러링장치를 모두 포함할 수 있다. 다만, 본 발명의 실시예에서는 설명의 편의를 위하여 전부 포함하는 것으로 설명한다.

촬영장치(100)는 건물이나 건물 내의 매장과 같은 곳에 설치되어 건물이나 매장의 내부 또는 그 주변(예: 외부)을 촬영한다. 촬영장치(100)는 건물 또는 매장을 촬영하는 감시카메라로서 일반 CCTV(Closed Circuit Television) 카메라나 IP(Internet Protocol) 카메라 등을 포함할 수 있으며 고정식 카메라뿐 아니라 팬(Pan), 틸트(Tilt) 및 줌(Zoom) 동작이 가능한 PTZ(Pan-Tilt-Zoom) 카메라를 포함할 수 있다. 나아가 2D 카메라 이외에 3D 카메라가 사용될 수도 있을 것이다. 3D 카메라를 적용하는 경우 메타데이터를 획득하기에 용이할 수 있다.

물론 본 발명의 실시예에 따른 촬영장치(100)는 CCTV나 IP 카메라 이이에도 DSLR(Digital Single Lens Reflex) 카메라 등 다양한 카메라를 포함할 수 있으며, 스마트폰이나 태블릿PC 등에 탑재되어 있는 카메라 등을 포함할 수 있다. 어떠한 유형이어도 무관하다. 물론 DSLR 등의 카메라나 스마트폰 등은 내부에 본 발명의 실시예에 따른 비디오 디블러링, 나아가 RNN 등의 학습(learning) 동작을 위한 모듈 또는 장치를 포함할 수 있다. 따라서, 본 발명의 실시예에서는 도 1에서와 같이 비디오 디블러링장치(120)가 분리되는 것에 대하여 특별히 한정하지는 않을 것이다.

통신망(110)은 유무선 통신망을 모두 포함한다. 가령 통신망(110)으로서 유무선 인터넷망이 이용되거나 연동될 수 있다. 여기서, 유선망은 케이블망이나 공중 전화망(PSTN)과 같은 인터넷망을 포함하는 것이고, 무선 통신망은 CDMA, WCDMA, GSM, EPC(Evolved Packet Core), LTE(Long Term Evolution), 와이브로(Wibro) 망 등을 포함하는 의미이다. 물론 본 발명의 실시예에 따른 통신망(110)은 이에 한정되는 것이 아니며, 가령 클라우드 컴퓨팅 환경하의 클라우드 컴퓨팅망, 5G망 등에 사용될 수 있다. 가령, 통신망(110)이 유선 통신망인 경우 통신망(110) 내의 액세스포인트는 전화국의 교환국 등에 접속할 수 있지만, 무선 통신망인 경우에는 통신사에서 운용하는 SGSN 또는 GGSN(Gateway GPRS Support Node)에 접속하여 데이터를 처리하거나, BTS(Base Transmissive Station), NodeB, e-NodeB 등의 다양한 중계기에 접속하여 데이터를 처리할 수 있다.

통신망(110)은 액세스포인트(AP)를 포함할 수 있다. 여기서의 액세스포인트는 건물 내에 많이 설치되는 펨토(femto) 또는 피코(pico) 기지국과 같은 소형 기지국을 포함한다. 펨토 또는 피코 기지국은 소형 기지국의 분류상 촬영장치(100) 등을 최대 몇 대까지 접속할 수 있느냐에 따라 구분된다. 물론 액세스포인트는 촬영장치(100) 등과 지그비 및 와이파이 등의 근거리 통신을 수행하기 위한 근거리 통신모듈을 포함할 수 있다. 액세스포인트는 무선통신을 위하여 TCP/IP 혹은 RTSP(Real-Time Streaming Protocol)를 이용할 수 있다. 여기서, 근거리 통신은 와이파이 이외에 블루투스, 지그비, 적외선, UHF(Ultra High Frequency) 및 VHF(Very High Frequency)와 같은 RF(Radio Frequency) 및 초광대역 통신(UWB) 등의 다양한 규격으로 수행될 수 있다. 이에 따라 액세스포인트는 데이터 패킷의 위치를 추출하고, 추출된 위치에 대한 최상의 통신 경로를 지정하며, 지정된 통신 경로를 따라 데이터 패킷을 다음 장치, 예컨대 비디오 디블러링장치(120)로 전달할 수 있다. 액세스포인트는 일반적인 네트워크 환경에서 여러 회선을 공유할 수 있으며, 예컨대 라우터(router), 리피터(repeater) 및 중계기 등이 포함된다.

비디오 디블러링장치(120)는 다양한 형태로 구성될 수 있다. 비디오 디블러링장치(120)는 스마트폰 등의 내부에 탑재될 수 있고, 또 CCTV나 IP 카메라 등에 연동하는 에지장치 등에 탑재될 수 있으며, 또 도 1에서와 같이 유무선 통신망을 경유하여 촬영영상을 분석하는 서버 등에 탑재되어 사용될 수도 있다. 예를 들어, 촬영영상을 USB 등의 저장매체에 담아 데스크탑 컴퓨터나 랩탑 컴퓨터를 통해 위의 동작을 수행하는 것도 얼마든지 가능할 수 있다. 따라서, 본 발명의 실시예에서는 어느 하나의 장치에 특정하지 않으며, 비디오 디블러링장치(120)는 이러한 장치를 모두 포함할 수 있다.

비디오 디블러링장치(120)는 통상 스마트폰 등을 사용하는 사용자들이 카메라 촬영 동작을 수행할 때 카메라의 흔들림 등을 통해 발생되는 영상 블러(blur)를 제거하는 동작을 수행한다. 물론 영상 블러는 피사체의 움직임에 의해서도 영상이 흐려지는 현상이 발생할 수 있다. 또는 광량이 충분하지 않은 저조도 환경에서도 센서의 노출 시간이 길어져 블러가 발생할 수 있다. 이와 같이 다양한 요인으로 발생하는 블러 현상을 제거한다고 볼 수 있다.

물론 본 발명의 실시예에 따른 비디오 디블러링장치(120)는 단순히 디블러링 동작만을 수행하는 것이 아니라, 촬영영상의 비디오 프레임 내에서 사람 등의 얼굴을 인식하기 위한 RNN 동작을 수행하며, 이의 과정에서 디블러링 동작이 이루어진다. RNN은 이미 잘 알려진 바 있으며, 기존의 신경망(Nueral Network)에 시퀀스 데이터가 처리될 수 있도록 하는 새로운 네트워크 모델 즉 프로그램이며, 인공지능의 학습 방식 중 하나라 볼 수 있다. 따라서, 본 발명의 실시예에서는 RNN에 특별히 한정하지는 않을 것이다.

예를 들어, 촬영영상의 비디오 프레임에서 얼굴 인식을 위해 RNN 연산이 이루어질 수 있으며, 또 기존의 방식대로라면 각 비디오 프레임마다 동일 얼굴을 인식해 추적 동작이 이루어질 수도 있다. 이때, 추적 동작에 의한 벡터 정보 등은 상태값이 될 수도 있을 것이다. 그러나, 본 발명의 실시예서는 연산 처리 부담을 줄이기 위하여, 물론 이에 따라 연산 처리 속도도 빠르게 증가할 수 있다. 따라서, 본 발명의 실시예에 따른 비디오 디블러링장치(120)는 수신된 비디오 프레임들 중 선택적으로 디블러링 동작을 수행한다.

도 2a 및 도 2b는 도 1의 비디오 디블러링장치(120)에서 이루어지는 동작을 비교하여 보여주고 있다. 도 2a에서는 RNN 연산시 매 비디오 프레임마다 디블러링 동작과 은닉 상태(hidden state) 연산을 수행한다면, 도 2b는 도 2a에서와 같이 모든 비디오 프레임에 대하여 디블러링 동작을 수행해 RNN 연산을 하는 것이 아니라, 지정 개수마다 건너뛰는 디블러링 동작을 통해 RNN 연산을 수행한다. 본 발명의 실시예에서는 이를 의사(혹은 가짜, 거짓)(pseudo)-스킵을 적용한 RNN 연산이라 명명할 수 있다. 그 스킵하는 비디오 프레임의 개수는 얼마든지 다르게 설정될 수 있지만, 너무 많은 수의 비디오 프레임을 스킵하는 경우에는 RNN 연산이 쉽지 않을 수 있다. 따라서, RNN 연산의 정확도를 크게 줄이지 않으면서 비디오 데이터의 연산 처리 부담을 줄일 수 있도록 대략 4개 프레임마다 1회 출력, 다시 말해 블러링과 은닉상태 연산이 이루어질 수 있다. 즉 3개의 비디오 프레임을 스킵하는 것이다. 물론 이는 얼마든지 조정될 수 있으며, 예를 들어 비디오 프레임의 혼잡도가 높은 경우에는 그 간격을 줄이고, 또 혼잡도가 낮은 경우에는 그 간격을 늘리는 등 가변하는 형태로 RNN 연산이 이루어질 수도 있으므로 본 발명의 실시예에서는 어느 하나의 형태에 특별히 한정하지는 않을 것이다. 또한, 객체가 비디오 프레임에 없는 경우에는 해당 프레임을 건너뛰는 즉 스킵하는 동작이 이루어질 수도 있다.

도 3은 본 발명의 실시예에 따른 비디오 디블러링장치(120)의 연산 구조, 가령 IFI(Intra-Frame Interations)-RNN 연산 구조를 보여주고 있다. L(t) 즉 디블러링은 F_L(f_R)로 표현될 수 있고, h(t)는 Fh(f_R)로 표현될 수 있다. 디블러와 은닉상태 연산이 분리되어 있다. 즉 병렬 연산이 이루어질 수 있다. 또한, 선택적으로 디블러링 동작의 생략이 가능하다. 도 3의 (a)는 RNN 셀 아키텍처를 보여주며, 도 3의 (b)는 디블러가 필요한 경우, 그리고 도 3의 (c)는 디블러가 불필요한 경우를 각각 보여주고 있다.

정리하면, 본 발명의 실시예에 따른 비디오 디블러링장치(120)는 출력이 필요하지 않은 경우 중간 단계로부터 디블러 결과(Lt) 계산을 수행하지 않는다. 단, 은닉 상태(ht)는 매 입력 프레임마다 계산하여 다음 프레임으로 넘겨준다. 여기서, 블러링은 화소값에 관련된다면, 은닉상태는 분석결과에 관련될 수 있다. 자연어 처리 문장을 예로 들면 각 단어의 중요도를 가중치로 구하고, 모든 단어에 대하여 벡터의 행렬로 표현한다. 따라서, 행렬의 각 벡터는 은닉상태 정보를 갖는다고 볼 수 있다. 이는 비디오 프레임에서 사람 등의 객체에 대하여도 동일하게 적용될 수 있을 것이다. Lt가 없더라도 ht가 전달되면 다음 프레임들 계산에서 성능이 저하되지 않는다. 따라서 필요한 출력 프레임들의 경우 정확도를 그대로 보존하며 계산량이 절감된다. 이와 같이 본 발명의 실시예는 효율적인 연산을 위해 불필요한 중간 출력을 생략하면 계산 즉 연산 시간을 줄일 수 있을 것이다.

도 4는 도 1의 비디오 디블러링장치의 세부구조를 예시한 블록다이어그램이다.

도 4에 도시된 바와 같이, 본 발명의 실시예에 따른 도 1의 비디오 디블러링장치(120)는 통신 인터페이스부(400), 제어부(410), 비디오 디블러링부(420) 및 저장부(430)의 일부 또는 전부를 포함한다.

여기서, "일부 또는 전부를 포함한다"는 저장부(430)와 같은 일부 구성요소가 생략되어 구성되거나, 비디오 디블러링부(420)와 같은 일부 구성요소가 제어부(410)와 같은 다른 구성요소에 통합되어 구성될 수 있는 것 등을 의미하는 것으로서, 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.

통신 인터페이스부(400)는 도 1의 촬영장치(100)로부터 촬영영상을 수신하여 제어부(410)에 제공한다. 또는 USB 등의 저장매체에 저장되어 있는 촬영영상을 수신하여 제어부(410)에 전달할 수 있다. 제어부(410)로 촬영영상을 전달하는 과정에서 통신 인터페이스부(400)는 복조, 디먹싱, 디코딩, 해상도 변환 등의 동작을 수행할 수 있으며, 이는 당업자에게 자명하므로 더 이상의 설명은 생략하도록 한다. 물론 위의 동작은 제어부(410)에서 수행할 수도 있으므로, 본 발명의 실시예에서는 어디에서 위의 동작이 이루어지는지에 대하여 특별히 한정하지는 않을 것이다.

제어부(410)는 도 1의 비디오 디블러링장치(120)를 구성하는 도 4의 통신 인터페이스부(400), 비디오 디블러링부(420) 및 저장부(430)의 전반적인 제어 동작을 담당한다. 대표적으로 촬영영상이 통신 인터페이스부(400)에서 수신되면 저장부(430)의 메모리에 저장한 후 불러내어 비디오 디블러링부(420)에 제공할 수 있다. 또한, 제어부(410)는 비디오 디블러링부(420)에서 처리되는 데이터를 제공받아 저장부(430)에 저장하는 등의 동작을 수행할 수 있다. 가령, 도 1의 비디오 디블러링장치(120)가 서버로서 동작하는 경우에는 별도의 DB에 체계적으로 분류하여 저장시킬 수 있을 것이다.

비디오 디블러링부(420)는 RNN 등의 연산에 의한 디블러링 동작을 수행한다. 또는 디블러링 동작에 의한 RNN 연산을 수행할 수 있다. 디블러링은 수신된 비디오 프레임에서 흐릿한 부분을 선명하게 하는 것이다. 이를 위하여 화소값을 보정하는 등의 동작을 수행할 수 있다. 무엇보다 본 발명의 실시예에 따른 비디오 디블러링부(420)는 사람 등의 얼굴 인식을 위한 RNN 연산 및 디블러링 동작을 수행하므로, 비디오 프레임에서 사람 객체를 추출하고, 추출한 사람 객체에서 얼굴 부위에 대한 디블러링 동작과 RNN 연산 동작을 수행할 수 있다. 따라서, 객체 분석 등의 결과는 은닉 상태 연산에 의한 상태값이 될 수 있다. 따라서, 그 상태값은 벡터 행렬의 형태로 표현될 수 있으며, 각각의 벡터는 이전 모든 시점의 은닉상태 정보를 담고 있다고 볼 수 있다.

이러한 동작을 수행하는 과정에서 비디오 디블러링부(420)는 연산 처리 부담을 줄이기 위하여, 더 정확하게는 연산 처리 속도를 증가시키기 위하여 지정된 개수의 비디오 프레임을 건너뛰며 즉 스킵하며 디블러링 동작을 수행한다. 다만, RNN 연산을 수행하는 특성상 모든 비디오 프레임에 대한 은닉 상태값이 계산되도록 함으로써 얼굴 인식의 정확도를 유지하면서 동시에 데이터 처리 속도를 증가시킬 수 있다. 본 발명의 실시예에서는 이를 프레임 의사 스킵을 통한 디블러 RNN 모델이라 명명할 수 있다. 해당 모델은 도 3에서 설명한 바와 같이 IFI-RNN 연산 구조를 갖는다고 볼 수 있다. 디블러와 은닉상태 연산이 분리되어 이루어지며, 따라서 특정 시점에서 디블러 동작은 선택적으로 생략이 가능하다. RNN 특성상 정확성을 유지하기 위하여 디블러링시 스킵되는 비디오 프레임의 개수는 기준값을 벗어나지 않는 것이 바람직하다. 본 발명의 실시예에서는 3개의 프레임을 스킵하는 것을 예시한 바 있다. 물론 불필요한 객체가 있는 비디오 프레임은 스킵될 수도 있다.

도 3에서 볼 수 있는 바와 같이, 본 발명의 실시예에 따른 비디오 디블러링부(420)는 RNN 특성상 시퀀스를 가지므로, 도 3의 (b) 및 (c)의 동작을 수행하기 위한 알고리즘 또는 SW 모듈의 결합에 의해 프로그램이 생성될 수 있으며, 이와 같은 프로그램을 탑재한다고 볼 수 있다. 물론 해당 알고리즘은 함수 등의 연산 알고리즘을 포함하며, 따라서 비디오 비블러링부(420)는 HW 모듈, SW 모듈 또는 조합에 의해 구성될 수 있으므로 본 발명의 실시예에서는 어느 하나의 형태에 특별히 한정하지는 않을 것이다.

저장부(430)는 제어부(410)의 제어하에 촬영영상을 저장하거나, 비디오 디블러링부(420)에서 처리된 데이터를 저장할 수 있다. 임시 저장을 위한 램(RAM)을 포함하거나, 데이터의 영구 저장을 위한 롬(ROM) 등을 포함할 수 있다. 이이피롬(EEPROM)의 형태로 구성될 수도 있다.

상기한 내용 이외에도 본 발명의 실시예에 따른 도 4의 통신 인터페이스부(400), 제어부(410), 비디오 디블러링부(420) 및 저장부(430)는 다양한 동작을 수행할 수 있으며, 기타 자세한 내용은 앞서 충분히 설명하였으므로 그 내용들로 대신하고자 한다.

한편, 본 발명의 다른 실시예로서 제어부(410)는 CPU 및 메모리를 포함할 수 있으며, 원칩화하여 형성될 수 있다. CPU는 제어회로, 연산부(ALU), 명령어해석부 및 레지스트리 등을 포함하며, 메모리는 램을 포함할 수 있다. 제어회로는 제어동작을, 그리고 연산부는 2진비트 정보의 연산동작을, 그리고 명령어해석부는 인터프리터나 컴파일러 등을 포함하여 고급언어를 기계어로, 또 기계어를 고급언어로 변환하는 동작을 수행할 수 있으며, 레지스트리는 소프트웨어적인 데이터 저장에 관여할 수 있다. 상기의 구성에 따라, 가령 비디오 디블러링장치(120)의 동작 초기에 비디오디블러링부(420)에 저장되어 있는 프로그램을 복사하여 메모리 즉 램(RAM)에 로딩한 후 이를 실행시킴으로써 데이터 연산 처리 속도를 빠르게 증가시킬 수 있다.

도 5는 도 1의 비디오 디블러링장치의 구동 과정을 나타내는 흐름도이다.

설명의 편의상 도 5를 도 1과 함께 참조하면, 본 발명의 실시예에 따른 비디오 디블러링장치(120)는 카메라에 의해 촬영된 촬영영상을 수신한다(S500). 여기서, 촬영영상은 CCTV나 IP 카메라, 스마트폰의 카메라, 차량용 블랙박스의 카메라, DSLR 카메라, 캠코더 등 다양한 형태로 촬영된 촬영영상을 포함한다.

또한, 비디오 디블러링장치(120)는 수신한 촬영영상의 비디오 프레임들에 대하여 지정 개수의 비디오 프레임을 스킵하며 디블러링 동작을 수행하여 RNN 연산에 의해 비디오 프레임 내의 얼굴을 인식한다(S510).

예를 들어, 수신한 촬영영상의 비디오 프레임에는 다수의 사람들이 포함될 수 있고, 이의 경우에는 영상을 의사 스킵 방식으로 디블러링한 후 RNN 연산 즉 학습을 통해 특정 사람의 객체 추적이 이루어지는 등 다양한 형태로 영상처리 동작이 이루어질 수 있을 것이다.

상기한 내용 이외에도 도 1의 비디오 디블러링장치(120)는 다양한 동작을 수행할 수 있으며, 기타 자세한 내용은 앞서 충분히 설명하였으므로 그 내용들로 대신하고자 한다.

한편, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 비일시적 저장매체(non-transitory computer readable media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시 예를 구현할 수 있다.

여기서 비일시적 판독 가능 기록매체란, 레지스터, 캐시(cache), 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라, 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리 카드, ROM 등과 같은 비일시적 판독가능 기록매체에 저장되어 제공될 수 있다.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

100: 촬영장치 110: 통신망
120: 비디오 디블러링장치 400: 통신 인터페이스부
410: 제어부 420: 비디오 디블러링부
430: 저장부

Claims

카메라에 의해 촬영된 촬영영상을 수신하는 통신 인터페이스부; 및
상기 수신한 촬영영상의 비디오 프레임들에 대하여 지정 개수의 비디오 프레임을 스킵(pseudo-skipping)하며 디블러링 동작을 수행하여 RNN(Recurrent Neural Network) 연산에 의해 상기 비디오 프레임 내의 얼굴을 인식하는 제어부;를 포함하고,
상기 제어부는 상기 스킵 및 상기 디블러링 동작을 위한 기설정된 데이터를 근거로 상기 비디오 프레임들 중 일부의 디블러링 동작을 선택적으로 생략하여 IFI(Intra-Frame Iterative)-RNN 연산을 수행하는 얼굴인식을 위한 비디오 디블러링장치.
삭제
제1항에 있어서,
상기 제어부는, 상기 IFI RNN 연산시 상기 비디오 프레임의 각각에 대하여 영상 분석결과를 얻기 위한 은닉상태(hidden state) 연산을 수행하는 얼굴인식을 위한 비디오 디블러링장치.
제3항에 있어서,
상기 제어부는, 상기 디블러링 동작을 수행하는 비디오 프레임에 있어서 디블러링 연산 및 상기 은닉상태 연산을 병렬 처리하는 얼굴인식을 위한 비디오 디블러링장치.
제1항에 있어서,
상기 제어부는, 상기 지정 개수의 비디오 프레임을 스킵한 후 입력되는 하나의 단위(unit) 비디오 프레임에 한하여 디블러링 동작을 수행하는 얼굴인식을 위한 비디오 디블러링장치.
제1항에 있어서,
상기 제어부는, 상기 지정 개수를 고정하여 일정 시간마다의 비디오 프레임에 대하여 상기 디블러링 동작을 수행하는 얼굴인식을 위한 비디오 디블러링장치.
통신 인터페이스부가, 카메라에 의해 촬영된 촬영영상을 수신하는 단계; 및
제어부가, 상기 수신한 촬영영상의 비디오 프레임들에 대하여 지정 개수의 비디오 프레임을 스킵(pseudo-skipping)하며 디블러링 동작을 수행하여 RNN 연산에 의해 상기 비디오 프레임 내의 얼굴을 인식하는 단계;를 포함하되,
상기 제어부는 상기 스킵 및 상기 디블러링 동작을 위한 기설정된 데이터를 근거로 상기 비디오 프레임들 중 일부의 디블러링 동작을 선택적으로 생략하여 IFI(Intra-Frame Iterative)-RNN 연산을 수행하는 단계;를
더 포함하는 것을 특징으로 하는 얼굴인식을 위한 비디오 디블러링장치의 구동방법.