KR102112033B1

KR102112033B1 - 얼굴 군집화 기법을 이용한 영상 추출 장치

Info

Publication number: KR102112033B1
Application number: KR1020190152694A
Authority: KR
Inventors: 박혜림; 조우진
Original assignee: 박혜림; 조우진
Priority date: 2019-07-03
Filing date: 2019-11-25
Publication date: 2020-05-18

Abstract

본 발명은 얼굴 군집화 기법을 이용한 고속 영상 추출 장치에 관한 것이다. 이를 위하여, 인물별로 재가공을 원하는 원본 영상인 원본 영상 정보를 수신하고, 장면 전환 검출(Scene change detection)을 통해 원본 영상 정보를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 모듈; 영상 세그먼트 생성 모듈에서 복수의 영상 세그먼트를 수신하고, 각각의 영상 세그먼트에서 인물의 얼굴을 군집화 하여 원본 영상 정보에 포함된 대표 인물의 얼굴 이미지인 대표 얼굴 정보를 생성하는 얼굴 군집화 모듈; 및 사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 이미지 정보를 사용자 클라이언트로부터 수신하고, 선택 얼굴 이미지 정보가 포함된 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보를 생성하는 영상 통합 모듈;을 제공할 수 있다.

Description

얼굴 군집화 기법을 이용한 영상 추출 장치{Video extraction apparatus using advanced face clustering technique}

본 발명은 얼굴 군집화 기법을 이용한 영상 추출 장치에 관한 것이다.

근래 들어 다양한 영상 콘텐츠를 직접적으로 소비하는 것이 아니라 이를 인물 중심으로 재가공하여 공유, 배포하고자 하는 수요가 증가 추세에 있다. 구체적인 사례로는 K-POP 아이돌 팬들이 기존의 방송 영상을 각 멤버 별로 재가공하여 숏 비디오 클립을 제작하거나, 방송사 자체에서도 영상을 인물별로 요약하거나 하이라이트 영상을 별도로 제작하는 등의 서비스를 제공하고 있다.

하지만 현재까지는 위에서 언급한 대부분의 작업들이 개개인들이 수작업으로 특정 인물이 나오는 프레임을 찾아내서 편집하는 방식을 채택하고 있어 매우 비효율적으로 작업이 진행되고 있다. Face recognition/identification과 같이 인물 중심의 콘텐츠 재가공 과정에 활용 가능한 기술들이 존재하지만 대부분의 경우 특정 인물을 분류해내기 위해서는 해당 인물에 대한 대량의 정보가 필요하기에 수많은 인물들이 등장하는 영상 콘텐츠에 적용하기에는 어려움이 많다.

대한민국 공개특허 10-2019-0021130, 얼굴 이미지 기반의 유사 이미지 검출 방법 및 장치, 삼성전자 주식회사

따라서, 본 발명의 목적은 소규모 인물로 구성된 얼굴 정보셋을 학습시킨 머신러닝 알고리즘에 기반한 얼굴 군집화(clustering) 기법을 바탕으로 사용자의 선택에 따라 원하는 인물이 등장하는 영상만을 자동으로 편집해 제공하는 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 제공하는데에 있다.

이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.

본 발명의 목적은, 인물별로 재가공을 원하는 원본 영상인 원본 영상 정보를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 정보를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 모듈; 상기 영상 세그먼트 생성 모듈에서 복수의 상기 영상 세그먼트를 수신하고, 각각의 상기 영상 세그먼트에서 인물의 얼굴을 군집화 하여 상기 원본 영상 정보에 포함된 대표 인물의 얼굴 이미지인 대표 얼굴 정보를 생성하는 얼굴 군집화 모듈; 및 사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 이미지 정보를 사용자 클라이언트로부터 수신하고, 상기 선택 얼굴 이미지 정보가 포함된 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보를 생성하는 영상 통합 모듈;을 포함하고, 소규모 인물로 구성된 얼굴 정보셋을 학습시킨 머신러닝 알고리즘에 기반한 얼굴 군집화(clustering) 기법을 바탕으로 상기 사용자의 선택에 따라 원하는 인물이 등장하는 영상만을 자동으로 편집해 출력하는 것을 특징으로 하는, 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 제공하여 달성될 수 있다.

본 발명의 다른 목적은, 인물별로 재가공을 원하는 원본 영상인 원본 영상 정보를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 정보를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 모듈; 상기 영상 세그먼트 생성 모듈에서 생성된 복수의 상기 영상 세그먼트를 수신하고, 상기 영상 세그먼트에 스무딩 필터를 적용하여 스무딩 영상 세그먼트를 생성하는 스무딩 모듈; 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트를 수신하고, 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트에 포함된 인물의 얼굴을 검출하여 얼굴 분류 정보 및 위치 정보를 포함하는 후보 정보를 출력하는 후보 출력 모듈; 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 얼굴 이미지 정보의 비얼굴 여부를 분류하는 비얼굴 분류 정보를 생성하며, 상기 비얼굴 분류 정보가 특정 값 이상인 상기 후보 정보를 제거하는 비얼굴 분류 모듈; 상기 비얼굴 분류 모듈에서 제거되지 않은 나머지 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 상기 얼굴 이미지 정보에서 랜드마크의 위치인 랜드마크 정보를 출력하는 랜드마크 검출 모듈; 상기 후보 정보 및 상기 랜드마크 정보를 수신하고, 상기 랜드마크 정보를 기초로 상기 후보 정보의 상기 위치 정보를 표준화하여 상기 위치 정보가 표준화 된 상기 후보 정보인 얼굴 정보를 생성하는 표준화 모듈; 상기 얼굴 정보에 대응되는 상기 얼굴 이미지 정보를 임베딩 벡터로 변환하고, 상기 임베딩 벡터를 군집화 하여 군집된 상기 얼굴 이미지 정보 및 군집된 상기 얼굴 이미지 정보가 포함된 상기 영상 세그먼트의 프레임 구간 정보를 포함하는 군집 정보를 생성하는 얼굴 군집화 모듈; 및 특정 상기 얼굴 이미지 정보가 포함된 상기 군집 정보에 대응되는 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보를 생성하는 영상 통합 모듈;을 포함하는 것을 특징으로 하는, 얼굴 군집화 기법을 이용한 영상 추출 장치를 제공하여 달성될 수 있다.

본 발명의 다른 목적은, 영상 세그먼트 생성 모듈이, 인물별로 재가공을 원하는 원본 영상인 원본 영상 정보를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 정보를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 단계; 스무딩 모듈이, 상기 영상 세그먼트 생성 모듈에서 생성된 복수의 상기 영상 세그먼트를 수신하고, 상기 영상 세그먼트에 스무딩 필터를 적용하여 스무딩 영상 세그먼트를 생성하는 스무딩 단계; 후보 출력 모듈이, 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트를 수신하고, 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트에 포함된 인물의 얼굴을 검출하여 얼굴 분류 정보 및 위치 정보를 포함하는 후보 정보를 출력하는 후보 출력 단계; 비얼굴 분류 모듈이, 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 얼굴 이미지 정보의 비얼굴 여부를 분류하는 비얼굴 분류 정보를 생성하며, 상기 비얼굴 분류 정보가 특정 값 이상인 상기 후보 정보를 제거하는 비얼굴 분류 단계; 랜드마크 검출 모듈이, 상기 비얼굴 분류 모듈에서 제거되지 않은 나머지 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 상기 얼굴 이미지 정보에서 랜드마크의 위치인 랜드마크 정보를 출력하는 랜드마크 검출 단계; 표준화 모듈이, 상기 후보 정보 및 상기 랜드마크 정보를 수신하고, 상기 랜드마크 정보를 기초로 상기 후보 정보의 상기 위치 정보를 표준화하여 상기 위치 정보가 표준화 된 상기 후보 정보인 얼굴 정보를 생성하는 표준화 단계; 군집화 모듈이, 상기 얼굴 정보에 대응되는 상기 얼굴 이미지 정보를 임베딩 벡터로 변환하고, 상기 임베딩 벡터를 군집화 하여 군집된 상기 얼굴 이미지 정보 및 군집된 상기 얼굴 이미지 정보가 포함된 상기 영상 세그먼트의 프레임 구간 정보를 포함하는 군집 정보를 생성하는 군집화 단계; 및 영상 통합 모듈이, 특정 상기 얼굴 이미지 정보가 포함된 상기 군집 정보에 대응되는 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보를 생성하는 영상 통합 단계;를 포함하는 것을 특징으로 하는, 얼굴 군집화 기법을 이용한 영상 추출 방법을 제공하여 달성될 수 있다.

상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.

첫째, 본 발명의 일실시예에 따르면, 기존에 사람이 수작업으로 매 프레임마다 등장하는 인물을 판별하여 편집하던 과정을 반자동적인 서비스로 제공함으로써 다양한 인물 중심 영상 재가공 작업의 효율을 향상시킬 수 있다.

둘째, 본 발명의 일실시예에 따르면, 소규모의 인물 정보 세트(Set)를 학습시킨 네트워크를 활용하여 대규모의 인물을 정확히 구별해내고 이를 사용자에게 제공 가능하다.

셋째, 본 발명의 일실시예에 따르면, K-POP 아이돌 팬들이 기존의 방송, 직접 촬영한 영상 등을 멤버 개개인 위주로 재가공하여 SNS에 공유하는 것이 용이해지며, 주요 방송사에서 제공하는 방송 프로그램 하이라이트/요약 영상 등에서 인물 위주로 재가공한 영상을 배포하는 것이 용이해진다. 또한, 스포츠 경기 등에서 경기 전체 영상에서 각 선수의 활약 영상 등을 개개인 별로 추출하여 소비자에게 제공하는 것이 용이해지고, CCTV와 같은 긴 영상 속에서 등장하는 인물들을 개별적으로 구분하여 원하는 인물(ex. 얼굴이 공개된 범죄자)이 등장한 시점을 찾는 데 이용될 수 있다.

본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 도시한 모식도,
도 2는 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)의 구성을 도시한 모식도,
도 3은 본 발명의 일실시예에 따른 군집화 모듈(24)의 구성을 도시한 모식도이다.

이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

얼굴 군집화 기법을 이용한 고속 영상 추출 장치

도 1은 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 도시한 모식도이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치(1)는, 영상 세그먼트 생성 모듈(10), 얼굴 군집화 모듈(20), 영상 통합 모듈(30)을 포함할 수 있다. 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치(1)는 특정 웹서버, 클라우드 서버와 같은 가상 서버, 스마트폰, 태블릿 PC, 데스크탑 PC 등의 컴퓨팅 장치의 처리모듈에 의해 처리되고, 각 장치의 메모리 모듈에 저장되도록 구성될 수 있다.

영상 세그먼트 생성 모듈(10)은 인물별로 재가공을 원하는 원본 영상인 원본 영상 정보(100)를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 정보(100)를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 모듈이다.

본 발명의 일실시예에 따른 영상 세그먼트 생성 모듈(10)은 상기 원본 영상 정보(100)의 연속된 frame에 대해 PSNR(Peak Signal to Noise Ratio)을 계산하여 장면 전환 여부를 검출하도록 구성될 수 있다. frame A와 frame B 사이에 PSNR이 정해진 threshold 값 이상으로 나타나면(즉, 두 frame 간의 차이가 크면) scene이 전환된 지점이라고 판단한다. 이때 상기 원본 영상 정보(100)의 연속된 frame에 대한 PSNR은 아래와 같이 계산한다.

위 수학식 1에서 PSNR은 Peak Signal to Noise Ratio, MSE는 Mean Squared Error, X는 영상의 X축 resolution, Y는 영상의 Y축 resolution, C, R은 각각 비교 영상인 연속된 frame을 의미한다.

얼굴 군집화 모듈(20)은 상기 영상 세그먼트 생성 모듈(10)에서 영상 세그먼트를 수신하고, 각각의 영상 세그먼트에서 인물의 얼굴을 군집화 하여 전체 원본 영상 정보(100)에 포함된 대표 인물의 얼굴 이미지인 대표 얼굴 이미지 정보(200)를 생성하는 모듈이다. 생성된 대표 얼굴 이미지 정보(200)는 웹 또는 앱을 통해 스마트폰, 태블릿, 데스크탑, 랩탑 등의 사용자 클라이언트에 송신될 수 있다. 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)은 머신 러닝 알고리즘에 기반한 얼굴 이미지 클러스터링(face clustering)에 의해 수행될 수 있으며, 전체 영상 속에서 감지된 다양한 얼굴들을 인물 별로 군집화 하여 각 인물의 대표 사진을 사용자에게 제공하게 된다.

영상 통합 모듈(30)은 사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 이미지 정보(300)를 사용자 클라이언트로부터 수신하고, 상기 선택 얼굴 이미지 정보(300)가 포함된 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보(310)를 생성하는 모듈이다. 생성된 통합 영상 정보(310)은 웹 또는 앱을 통해 스마트폰, 태블릿, 데스크탑, 랩탑 등의 사용자 클라이언트에 송신(스트리밍을 포함)될 수 있다.

얼굴 군집화 모듈(20)의 구체적인 구성과 관련하여, 도 2는 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)의 구성을 도시한 모식도이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)은 얼굴 검출 모듈(21), 랜드마크 검출 모듈(22), 표준화 모듈(23), 군집화 모듈(24)를 포함할 수 있다.

얼굴 검출 모듈(21)은 수신한 영상 세그먼트(110)에서 얼굴 부분을 검출하고 얼굴 정보(예를 들어, 바운딩 박스의 좌표 정보 및 얼굴 분류 정보)를 생성하는 모듈이다. 본 발명의 일실시예에 따른 얼굴 검출 모듈(21)은 YOLO, RCNN, Faster RCNN 등을 Fine-tunning한 얼굴 검출 알고리즘을 이용할 수 있다. 또는, ImageNet으로 기학습된 AlexNet 등의 네트워크를 Fine-tunning 한 얼굴 검출 알고리즘을 이용할 수 있다. 나아가, Viola-jones의 Haar-like Feature를 Boosting 등의 기존 컴퓨터 비전 알고리즘을 이용할 수 있다.

본 발명의 일실시예에 따른 얼굴 검출 모듈(21)은 후보 출력 모듈 및 비얼굴 분류 모듈을 포함할 수 있다. 본 발명의 일실시예에 따른 얼굴 검출 모듈(21)의 얼굴 검출은 세부적으로는 프레임 이미지 속에서의 얼굴 감지(face detection), 감지된 얼굴 이미지를 feature vector로 표현하는 face feature embedding을 포함할 수 있고, 군집화 모듈(24)에서는 embedding 된 feature vector들을 비교하여 vector들 간의 군집을 형성하는 clustering을 수행하여 군집된 적어도 하나 이상의 얼굴 이미지 정보 및 해당 얼굴 이미지 정보에 대응되는 영상 세그먼트의 프레임 구간 정보를 포함하는 군집 정보(240)를 출력하도록 구성될 수 있다.

본 발명의 일실시예에 따른 얼굴 검출 모듈(21)의 얼굴 감지(face detection)는 상기 영상 세그먼트에 포함된 적어도 하나의 얼굴을 감싸도록 구성되는 사각형(또는 다각형, 타원형, 원형, 곡면 등)의 페이스 박스(face box)인 후보 정보를 출력하는 후보 출력 모듈, 상기 후보 정보 중 페이스 박스 내의 이미지가 얼굴이 아닌 것으로 분류되는 비얼굴 분류 정보를 출력하는 비얼굴 분류 모듈에 의해 수행될 수 있고, 상기 비얼굴 분류 정보가 특정 값 이하인(비얼굴로 분류된 후보 정보가 제외된) 상기 후보 정보에 대응되는 얼굴 이미지 정보에서의 랜드마크(예를 들어, 양 눈, 코, 입의 좌우 코너 등)의 위치를 출력하는 랜드마크 검출 모듈(22)에 상기 후보 정보를 제공하도록 구성될 수 있다.

본 발명의 일실시예에 따른 후보 출력 모듈은 인공신경망을 포함하며, 후보 출력 모듈의 상기 인공신경망의 입력 정보는 상기 영상 세그먼트 및 상기 영상 세그먼트에 스무딩 필터를 적용한 스무딩 영상 세그먼트로 구성될 수 있고, 출력 정보는 복수개의 후보 정보에 대한 얼굴 분류 정보 및 후보 정보의 위치 정보(예를 들어, 각 꼭지점의 좌표 정보)를 출력하도록 구성될 수 있다. 상기 후보 출력 모듈의 상기 스무딩 필터는 가우시안 필터(Gaussian Filter), 바이레터럴 필터(Bilateral Filter), 미디안 필터(Median Filter) 등의 스무딩 필터로 구성될 수 있으며, 상기 영상 세그먼트에 대해 점진적인 스무딩 가중치를 적용하여 복수개의 스무딩 영상 세그먼트를 생성하고 인공신경망의 입력 정보로 입력하도록 구성될 수 있다. 예를 들어, 스무딩 필터로 가우시안 필터(Gaussian Filter)가 구성되는 경우, 가우시안 커널의 x,y 방향의 표준편차인 sigma의 값을 점진적으로 큰 값으로 적용(예를 들어, 첫 번째 스무딩 영상 세그먼트에 대해서는 sigma 를 1로, 두 번째 스무딩 영상 세그먼트에 대해서는 sigma를 2로 적용하는 등)하면서 복수개의 스무딩 영상 세그먼트를 생성하도록 구성되고, 점진적으로 스무딩 필터의 스무딩 가중치가 적용된 스무딩 영상 세그먼트와 스무딩 필터가 적용되지 않은 영상 세그먼트를 인공신경망에 입력하도록 구성될 수 있다. 이에 따르면, 스무딩 필터가 적용되지 않은 영상 세그먼트 및 스무딩 필터가 적용된 복수개의 스무딩 영상 세그먼트에 대해 각각 후보 정보가 출력되게 되므로, 하나의 영상 세그먼트에 포함되는 크기가 각기 다른 복수개의 얼굴 부분을 모두 감지(detect)할 수 있게 되는 효과가 발생된다. 예를 들어, 스무딩 필터가 적용되지 않은 영상 세그먼트에 대해서는 가장 작은 크기를 가지는 얼굴 부분이 감지되고, 스무딩 필터가 적용된 스무딩 영상 세그먼트에 대해서는 보다 큰 크기를 가지는 얼굴 부분이 감지되는 효과가 발생된다. 스무딩 영상 세그먼트는 영상 세그먼트에 비해 비교적 규모가 큰 특징만 남기고 사라지게 되기 때문이다.

또한, 본 발명의 일실시예에 따른 후보 출력 모듈의 인공신경망은 전체 레이어가 컨볼루전 레이어(Convoulution layer) 및 풀링 레이어(Pooling layer)만으로 구성될 수 있고, 플래튼 레이어(Flatten Layer) 또는 Fully Connected Layer는 구성되지 않을 수 있다. 이에 따르면, 출력 정보인 후보 정보가 3차원으로 구성되어 차원 손실이 발생되지 않으며, 일반적인 CNN(Convolutional Neural Network)에 비해 상대적으로 빠른 속도로 복수개의 후보 정보가 출력되는 효과가 발생된다. 예를 들어, 본 발명의 일실시예에 따른 후보 출력 모듈의 인공신경망은 12x12x3의 입력 정보(영상 세그먼트 또는 스무딩 영상 세그먼트)에 3x3의 컨볼루전 필터(Convolution Filter) 및 2x2의 맥스 풀링 필터(Max Pooling Filter)를 적용하여 5x5x10의 벡터를 출력하는 컨볼루전 레이어, 5x5x10의 벡터에 3x3의 컨볼루전 필터(Convolution Filter)를 적용하여 3x3x16의 벡터를 출력하는 컨볼루전 레이어, 3x3x16의 벡터에 3x3의 컨볼루전 필터(Convolution Filter)를 적용하여 1x1x32의 벡터를 출력하는 컨볼루전 레이어, 1x1x32의 벡터에 컨볼루전 필터를 적용하여 1x1x2의 벡터로 출력하는 복수개의 후보 정보에 대한 얼굴 분류 정보 및 1x1x4의 벡터로 출력하는 후보 정보의 위치 정보를 출력 정보로 포함하도록 구성될 수 있다.

본 발명의 일실시예에 따른 후보 출력 모듈의 인공신경망은 얼굴 분류 정보의 학습을 위해 교차 엔트로피 손실(Cross entropy loss)을 손실함수(cost function)로서 이용할 수 있다. 즉, 특정 학습률(learning rate)에서 각각의 후보 정보에 대해 상기 교차 엔트로피 손실이 작아지도록(최적화 되도록) 상기 후보 출력 모듈의 인공신경망의 은닉층(hidden layer)의 가중치가 업데이트 되게 된다. 이때 이용될 수 있는 최적화 방법으로는 Gradient descent 방식, Momentum 방식 등이 있고, Gradient descent를 용이하게 적용하기 위해 오류 역전파 알고리즘(Back propagation algorithm)이 활용될 수 있다. 또한, 본 발명의 일실시예에 따른 후보 출력 모듈의 인공신경망은 각 후보 정보의 위치 정보의 학습을 위해 각각의 꼭지점과 같은 좌표 포인트에 대해 유클리드 손실(Euclidean loss)을 손실함수로서 이용할 수 있다.

본 발명의 일실시예에 따른 후보 출력 모듈에 포함된 상기 인공신경망은 상기 비얼굴 분류 모듈 보다 더 적은 층(layer)을 포함하는 인공신경망으로 구성될 수 있다. 이에 따라, 후보 정보 출력이 매우 빠르게 진행되는 효과가 발생된다.

또한, 본 발명의 일실시예에 따른 후보 출력 모듈은 인공신경망에서 출력된 복수개의 상기 후보 정보 중 중복된 후보 정보인 중복 후보 정보를 제거하도록 구성될 수 있다. 상기 후보 출력 모듈의 중복 후보 정보 제거는 아래의 순서로 진행될 수 있다.

(1) 후보 출력 모듈이 인공신경망에서 출력된 복수개의 상기 후보 정보를 얼굴 분류 정보가 높은 순(얼굴 분류 정보의 신뢰도, confidence가 높은 순)으로 정렬

(2) 가장 얼굴 분류 정보가 높은 후보 정보와 겹치는 후보 정보 중에서, 후보 정보들의 전체 영역 대비 겹치는 영역의 비율이 특정 값 이상으로 겹치는 후보 정보는 동일한 얼굴을 감지(detect)한 것으로 판정하여 제거(예를 들어, 후보 정보들의 전체 영역 대비 겹치는 영역의 비율이 50% 이상인 경우 제거)

(3) 2단계에서 제거되지 않은 후보 정보 중 얼굴 분류 정보가 높은 후보 정보 순으로 2단계를 수행

이에 따르면, 상기 영상 세그먼트나 상기 스무딩 영상 세그먼트에 포함된 동일한 얼굴에 대하여 후보 정보가 중복되어 출력되는 것을 방지할 수 있게 되는 효과가 발생된다. 이러한 효과는 비얼굴 분류 모듈의 계산 부하를 저감시켜주는 연쇄 효과를 발생시키게 된다.

본 발명의 일실시예에 따른 비얼굴 분류 모듈은, 상기 후보 출력 모듈에서 출력된 상기 후보 정보(해당 후보 정보에 대한 얼굴 분류 정보 및 해당 후보 정보의 위치 정보)에 해당되는 영상 세그먼트에서의 이미지 정보를 입력 정보로 하고 상기 후보 정보의 비얼굴 분류 정보를 출력 정보로 하는 인공신경망을 포함할 수 있다. 또한, 본 발명의 일실시예에 따른 비얼굴 분류 모듈은 상기 후보 정보의 비얼굴 분류 정보를 기초로 후보 정보 중 얼굴을 포함하지 않는 것으로 분류되는 후보 정보(상기 비얼굴 분류 정보가 특정 값 이상인 후보 정보)를 제거하여 비얼굴 후보가 제거된 나머지 후보 정보(위치 정보, 얼굴 분류 정보, 비얼굴 분류 정보 포함)를 출력되도록 구성될 수 있다. 이에 따르면, 후보 정보 중 얼굴을 포함하지 않는 것으로 분류되는 후보 정보를 높은 확률로 제거할 수 있게 되는 효과가 발생된다.

랜드마크 검출 모듈(22)은 상기 얼굴 검출 모듈(21)에서 생성한 후보 정보를 기초로 해당 얼굴의 랜드마크를 검출하여 랜드마크 정보를 생성하고, 랜드마크 정보를 기초로 후보 정보를 표준화하여 얼굴 정보를 생성할 수 있도록 표준화 모듈(23)에 랜드마크 정보를 제공하는 모듈이다. 본 발명의 일실시예에 따른 랜드마크 검출 모듈(22)은 Cascade 방식의 CNN 기반 아키텍쳐 또는 Auto encoder를 포함한 아키텍쳐로 구성될 수 있다. 본 발명의 일실시예에 따른 랜드마크 검출 모듈은, 상기 비얼굴 분류 모듈에서 제거되지 않고 남은 상기 후보 정보에 대응되는 얼굴 이미지 정보를 입력 정보로 하고 상기 후보 정보에서 랜드마크의 좌표 정보인 랜드마크 정보를 출력 정보로 하는 인공신경망을 포함할 수 있다. 본 발명의 일실시예에 따른 랜드마크는 양 눈, 코, 입의 양쪽 포인트로 구성될 수 있다.

표준화 모듈(23)은 랜드마크 검출 모듈(22)에서 생성한 랜드마크 정보를 기초로 입력된 후보 정보의 위치 정보를 표준화하여 위치 정보가 표준화 된 후보 정보인 얼굴 정보를 생성하는 모듈이다. 표준화 모듈(23)은 출력된 상기 랜드마크 정보를 기초로 상기 후보 정보의 위치 정보(예를 들어, 각 꼭지점의 좌표 정보)를 표준화하여 위치 정보가 표준화된 후보 정보인 얼굴 정보를 출력하도록 구성될 수 있다. 예를 들어, 랜드마크 정보 중 양 눈 사이의 거리와 상기 후보 정보의 좌우 너비의 비율을 표준화하여 상기 후보 정보의 좌우 너비를 세부 조정하도록 구성될 수 있다. 이에 따르면, 후보 출력 모듈과 비얼굴 분류 모듈에 의해 랜드마크 검출 모듈의 계산 부하가 매우 저감되고, 랜드마크 좌표를 높은 확률로 계산할 수 있는 효과가 발생된다. 또한, 후보 정보의 좌표 정보가 랜드마크 정보를 기초로 얼굴 부분에 대한 위치 정보가 세부 조정 또는 표준화 되어 얼굴 정보가 출력 되기 때문에 군집화 모듈(24)에서 각각의 영상 세그먼트에서의 얼굴 이미지 정보를 서로 비교하여 클러스터링 할 때 정확도가 향상되는 효과가 발생된다.

또한, 본 발명의 일실시예에 따른 표준화 모듈(23)에 따르면, 영상 세그먼트에 대한 얼굴의 감지(detection) 및 정렬(alignment)을 추가적인 모듈 없이 동시에 수행할 수 있게 되는 효과가 발생된다.

군집화 모듈(24)은 표준화 모듈(23)에서 생성된 얼굴 정보에 대응되는 얼굴 이미지 정보를 기초로 전체 영상 속에서 감지된 다양한 얼굴들을 인물 별로 군집화 하여 각 인물의 대표 사진인 대표 얼굴 이미지 정보(200)를 생성하고 사용자 클라이언트에 출력하며, 군집된 얼굴 이미지 정보 및 해당 얼굴 이미지 정보에 대응되는 영상 세그먼트에 대한 프레임 구간 정보를 포함하는 군집 정보(240)를 출력하는 모듈이다.

군집화 모듈(24)의 구체적인 구성과 관련하여, 본 발명의 일실시예에 따른 군집화 모듈(24)은 Supervised Learning의 형태로 구성이 가능하고, 선형/로지스틱 회귀분석(Regression), 서포트 벡터 머신(Support Vector Machine), 다층 퍼셉트론(Multi-layer perceptron), 나이브 베이지안 분류(Naive-Bayesian Classification), 랜덤 포레스트 분류(Random Forest Classification), 인공신경망(Neural Network) 등의 다양한 머신러닝 알고리즘으로 구성이 가능하다. 설명의 편의를 위하여 이하에서는 본 발명의 일실시예에 따라 군집화 모듈(24)을 인공신경망으로 구성한 예시로 설명한다. 이하에서, 컨볼루젼 레이어(Convolution Layer)는 설명의 편의를 위해 "CONV layer", "Conv. layer" 으로 혼용될 수 있고, 콘볼루젼 뉴럴 네트워크(Convolutional Neural Network)는 "ConvNet", "CNN" 등으로 혼용될 수 있다.

도 3은 본 발명의 일실시예에 따른 군집화 모듈(24)의 구성을 도시한 모식도이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 군집화 모듈(24)은 컨볼루전 레이어(241), 풀링 레이어(242), 얼굴 임베딩 레이어(243)가 포함된 인공신경망 모듈로 구성될 수 있다.

본 발명의 일실시예에 따르면, 군집화 모듈(24)에 INPUT 입력 이미지인 상기 얼굴 정보에 대응되는 이미지 정보인 얼굴 이미지 정보(230)에 해당하는 이미지가 가로 47, 세로 55, 그리고 RGB 채널을 가질 수 있고, 이때 입력되는 얼굴 이미지 정보(230)의 크기는 [47x55x3]이다. 컨볼루젼 필터(Conv.Filter)는 입력 이미지인 얼굴 이미지 정보(230)의 일부 영역과 연결되어 있으며, 이 연결된 영역과 자신의 가중치의 내적 연산(dot product)을 계산하게 되고, 커널 사이즈는 [4x4x3]으로 구성될 수 있다. 결과 볼륨인 컨볼루젼 레이어(Conv. layer, 241)는 [44x52x20]와 같은 크기를 갖게 된다. RELU 레이어는 max(0,x)와 같이 각 요소에 적용되는 액티베이션 함수(activation function)이다. RELU 레이어는 볼륨의 크기를 변화시키지 않는다([44x52x20]). 그 결과 Activation map 을 생성한다. 풀링 레이어(pooling layer, 242)는 "가로,세로" 차원에 대해 다운샘플링(downsampling)을 수행해 [22x26x20]와 같이 줄어든 볼륨(Activation map)을 출력한다. 이후 뎁스(depth)가 더 깊어진 제2컨볼루젼 레이어, 제2풀링 레이어, 제3컨볼루젼 레이어, 제3풀링 레이어, 제4컨볼루젼 레이어가 연결되고, 제4컨볼루젼 레이어에서 곧바로 n개의 노드를 가진 FC 레이어(Fully Connected Layer)인 얼굴 임베딩 레이어(243)가 연결되도록 구성될 수 있다.

본 발명의 일실시예에 따른 군집화 모듈(24)에서는, 일반적인 ConvNet의 구조와 달리 Softmax, ReLU, PReLU 등의 활성화 함수가 적용된 출력층(Output Layer)이 아닌 FC 레이어(Fully connected layer)인 얼굴 임베딩 레이어(243)를 입력 이미지인 얼굴 이미지 정보에 대한 임베딩 벡터로 이용하는 것이 특징이다. 즉, 본 발명의 일실시예에 따른 군집화 모듈(24)에서는 특정 수의 인물에 대한 얼굴 이미지 정보의 세트(Set)로 학습시킨 face identification network에서 최종적인 identification 결과가 아닌 face feature embedding 단계까지만을 이용한다. FC (fully-connected) 레이어는 클래스 점수들을 계산해, 예를 들어 [1x1x256]의 크기를 갖는 볼륨을 출력한다. FC 레이어는 이전 볼륨의 모든 요소와 연결되어 있고, 최종적인 identification을 담당하게 된다.

이와 같이, 본 발명의 일실시예에 따른 군집화 모듈(24)의 ConvNet은 픽셀 값으로 이뤄진 원본 이미지(얼굴 이미지 정보, 230)를 각 레이어를 거치며 해당 얼굴 이미지 정보를 특정 벡터로 임베딩 시키게 되므로 얼굴 군집 정보를 생성할 수 있게 된다. 어떤 레이어는 모수 (parameter)를 갖지만 어떤 레이어는 모수를 갖지 않는다. 특히 CONV 레이어들은 단순히 입력 볼륨만이 아니라 가중치(weight)와 바이어스(bias)도 포함하는 액티베이션(activation) 함수이다. 반면 RELU/POOL 레이어들은 고정된 함수이다. CONV 레이어의 모수 (parameter)들은 각 이미지에 대한 클래스 점수가 해당 이미지의 레이블과 같아지도록 그라디언트 디센트(gradient descent)로 학습되며, 학습 시에는 각각의 얼굴 이미지 정보를 클래스 ID로 분류하는 출력 볼륨(Output Layer)까지 포함된 상태에서 학습되게 된다.

CONV 레이어의 모수(parameter)들은 일련의 학습가능한 필터들로 이뤄져 있다. 각 필터는 가로/세로 차원으로는 작지만 깊이 (depth) 차원으로는 전체 깊이를 아우른다. 포워드 패스(forward pass) 때에는 각 필터를 입력 볼륨의 가로/세로 차원으로 슬라이딩시키며(정확히는 convolve시키며) 2차원의 액티베이션 맵 (activation map)을 생성한다. 필터를 입력 위로 슬라이딩 시킬 때, 필터와 입력 볼륨 사이에서 내적 연산(dot product)이 이뤄진다. 이러한 과정으로 ConvNet은 입력 정보의 특정 위치의 특정 패턴에 대해 반응하는(activate) 필터를 학습하게 된다. 이런 액티베이션 맵(activation map)을 깊이(depth) 차원으로 쌓은 것이 곧 출력 볼륨이 된다. 그러므로 출력 볼륨의 각 요소들은 입력의 작은 영역만을 취급하고, 같은 액티베이션 맵 내의 뉴런들은 같은 필터를 적용한 결과이므로 같은 모수들을 공유한다.

본 발명의 일실시예에 따르면, Back propagation에서 chain rule을 적용하면서 error가 앞단의 layer에서 희석되는 vanishing gradient 문제가 발생되어 시그모이드 함수 대신, ReLU가 이용될 수 있다. sigmoid 함수 사용시 모든 값에 대한 계산을 해야하는데, ReLU 함수는 상당 부분의 연산량을 줄일 수 있어 컴퓨팅 속도가 개선되는 효과가 발생된다. ReLU 함수에 의해 정규화(Regularization)가 향상될 수 있다. 또는, ReLU 대신 Parametric Rectifier Linear Unit(PReLUs)이 활성화 함수로 적용될 수 있다. 이에 따르면, 학습 된 임계 값을 기반으로 출력에 음수 값을 허용하고 수렴 률을 향상시키게 되는 효과가 발생된다.

또한, 본 발명의 일실시예에 따른 군집화 모듈(24)의 학습에 있어서, 학습 세션(Training Session)에서 입력되는 상기 얼굴 이미지 정보(230)를 Random Cropping하여서 복수개의 Patch 형태로 입력 정보를 다변화하여, 추론 세션(Inference Session)에서의 정확도를 향상시킬 수 있다.

또한, 본 발명의 일실시예에 따른 군집화 모듈(24)의 학습에 있어서, SoftMax Loss는 Identification Loss로 정하고 Euclidean Distance를 이용한 Loss는 Verification Loss로 가정하여서 Multi-task 형태의 학습 세션을 이용하여 정확도를 향상시킬 수 있다.

군집화 모듈(24)은 상기 FC (fully-connected) 레이어를 군집화 모듈(24)의 입력 정보인 영상 세그먼트에 포함된 얼굴 이미지 정보에 대한 임베딩 벡터로 활용하고, 상기 임베딩 벡터를 클러스터링 알고리즘으로 군집화(clustering)하여 군집 정보(240)를 생성하도록 구성될 수 있다. 본 발명의 일실시예에 따른 군집 정보(240)는 각각의 군집에 포함되는 얼굴 이미지 정보 및 상기 얼굴 이미지 정보에 대응되는 영상 세그먼트의 프레임 구간 정보를 포함할 수 있다.

본 발명의 일실시예에 따른 군집화 모듈(24)의 클러스터링 알고리즘은 복수개의 얼굴 이미지 정보에 대한 상기 임베딩 벡터 중 임의의 점(core point)을 기준으로 반경 e(epsilon)내에 점이 특정 개수 이상 있으면 하나의 군집으로 인식하는 과정을 반복적으로 수행하여 임의의 개수의 군집(cluster)을 형성하는 방법으로 구성될 수 있다. 이에 따르면, 클러스터의 수를 기설정할 필요 없이 자동으로 얼굴 이미지 정보의 군집의 개수를 찾게 되는 효과가 발생되며, outlier에 의해 클러스터링 성능이 하락하는 것을 방지하게 되는 효과가 발생된다. 또한, 특정 영상 세그먼트 내에 몇 명의 인물이 등장할지 모르는 경우에도 군집화가 가능해지는 효과가 발생되며, 랜드마크 검출 모듈(22)의 FC 레이어를 임베딩 벡터로 활용하기 때문에 클러스터링에 적절한 파라미터가 미리 정해져있게 되는 효과가 발생된다.

군집화 모듈(24)에서 각 인물의 대표 사진인 대표 얼굴 이미지 정보(200)의 출력은, 각각의 군집(cluster)에서 상기 얼굴 검출 모듈(21)의 후보 출력 모듈에서 출력되는 얼굴 분류 정보가 가장 높은 얼굴 이미지 정보 또는 비얼굴 분류 모듈에서 출력되는 비얼굴 분류 정보가 가장 낮은 얼굴 이미지 정보를 대표 얼굴 이미지 정보(200)로 사용자 클라이언트로 출력하도록 구성될 수 있다.

영상 통합 모듈(30)은 사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 이미지 정보(300)를 사용자 클라이언트로부터 수신하고, 상기 선택 얼굴 이미지 정보(300)가 포함된 군집(cluster) 내의 얼굴 이미지 정보가 포함된 영상 세그먼트를 시간 순에 맞게 정렬하고 하나의 영상 정보로 통합(Video merging)하여 통합 영상 정보(310)를 생성하는 모듈이다. 생성된 통합 영상 정보(310)은 웹 또는 앱을 통해 스마트폰, 태블릿, 데스크탑, 랩탑 등의 사용자 클라이언트에 송신(스트리밍을 포함)될 수 있다.

또는, 본 발명의 변형예에 따른 얼굴 통합 모듈(30)은 군집화 모듈(24)에서 생성된 모든 군집(cluster)에 대하여 해당 군집의 얼굴이 포함된 영상 세그먼트를 시간 순에 맞게 정렬하고 하나의 영상 정보로 통합하여 통합 영상 정보(310)를 생성한 뒤, 사용자 클라이언트의 입력에 의해 선택된 선택 얼굴 이미지 정보(300)가 포함된 군집에 대응되는 통합 영상 정보(310)를 상기 사용자 클라이언트에 출력하도록 구성될 수 있다.

일반적으로 머신 러닝을 활용한 face identification과 같이 대상 얼굴의 신분을 밝히는 기술의 경우, 정확한 감별을 위해서는 각각의 목표 인물에 대한 대량의 데이터가 필요하며 100%의 분류 정확도를 보장할 수 없다. 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치는 인공신경망인 face identification network가 서로 다른 인물을 서로 다른 class로 분류하도록 학습된다는 점을 이용하여, 예를 들어 100여명의 인물에 대한 얼굴 데이터셋으로 학습시킨 face identification network에서 최종적인 identification 결과가 아닌 face feature embedding layer 결과로 서로 다른 인물을 서로 다른 feature vector로 embedding하여 그 결과를 clustering하는 기술적 특징이 있다. 그에 따라 학습 데이터에 포함되지 않은 얼굴이 목표 영상 속에 등장하는 경우, 해당 인물이 어떤 인물인지는 정확하게 분류할 수 없지만 해당 인물 대상들을 개별적인 인물 A, B로 구분할 수 있게 되는 효과가 발생되게 된다.

본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 영상 추출 방법은, 영상 세그먼트 생성 단계, 스무딩 단계, 후보 출력 단계, 비얼굴 분류 단계, 랜드마크 검출 단계, 표준화 단계, 군집화 단계, 영상 통합 단계를 포함할 수 있다.

영상 세그먼트 생성 단계는, 영상 세그먼트 생성 모듈(10)이 인물별로 재가공을 원하는 원본 영상인 원본 영상 정보를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 정보를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 단계이다.

스무딩 단계는, 얼굴 검출 모듈(21)이 상기 영상 세그먼트 생성 모듈에서 생성된 복수의 상기 영상 세그먼트를 수신하고, 상기 영상 세그먼트에 스무딩 필터를 적용하여 스무딩 영상 세그먼트를 생성하는 단계이다.

후보 출력 단계는, 후보 출력 모듈이 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트를 수신하고, 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트에 포함된 인물의 얼굴을 검출하여 얼굴 분류 정보 및 위치 정보를 포함하는 후보 정보를 출력하는 단계이다.

비얼굴 분류 단계는, 비얼굴 분류 모듈이 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 얼굴 이미지 정보의 비얼굴 여부를 분류하는 비얼굴 분류 정보를 생성하며, 상기 비얼굴 분류 정보가 특정 값 이상인 상기 후보 정보를 제거하는 단계이다.

랜드마크 검출 단계는, 랜드마크 검출 모듈(22)이 상기 비얼굴 분류 모듈에서 제거되지 않은 나머지 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 상기 얼굴 이미지 정보에서 랜드마크의 위치인 랜드마크 정보를 출력하는 단계이다.

표준화 단계는, 표준화 모듈(23)이 상기 후보 정보 및 상기 랜드마크 정보를 수신하고, 상기 랜드마크 정보를 기초로 상기 후보 정보의 상기 위치 정보를 표준화하여 상기 위치 정보가 표준화 된 상기 후보 정보인 얼굴 정보를 생성하는 단계이다.

군집화 단계는, 군집화 모듈(24)이 상기 얼굴 정보에 대응되는 상기 얼굴 이미지 정보를 임베딩 벡터로 변환하고, 상기 임베딩 벡터를 군집화 하여 군집된 상기 얼굴 이미지 정보 및 군집된 상기 얼굴 이미지 정보가 포함된 상기 영상 세그먼트의 프레임 구간 정보를 포함하는 군집 정보를 생성하는 단계이다.

영상 통합 단계는, 영상 통합 모듈(30)이 특정 상기 얼굴 이미지 정보가 포함된 상기 군집 정보에 대응되는 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보를 생성하는 단계이다.

이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.

본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.

본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.

그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.

1: 얼굴 군집화 기법을 이용한 고속 영상 추출 장치
10: 영상 세그먼트 모듈
20: 얼굴 군집화 모듈
21: 얼굴 검출 모듈
22: 랜드마크 검출 모듈
23: 표준화 모듈
24: 군집화 모듈
30: 영상 통합 모듈
100: 원본 영상 정보
110: 영상 세그먼트
200: 대표 얼굴 이미지 정보
230: 얼굴 이미지 정보
241: 컨볼루젼 레이어
242: 풀링 레이어
243: 얼굴 임베딩 레이어
300: 선택 얼굴 이미지 정보
310: 통합 영상 정보

Claims

인물별로 재가공을 원하는 원본 영상인 원본 영상 정보를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 정보를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 모듈;
상기 영상 세그먼트 생성 모듈에서 생성된 복수의 상기 영상 세그먼트를 수신하고, 상기 영상 세그먼트에 스무딩 필터를 적용하여 스무딩 영상 세그먼트를 생성하는 스무딩 모듈;
상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트를 수신하고, 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트에 포함된 인물의 얼굴을 검출하여 얼굴 분류 정보 및 위치 정보를 포함하는 후보 정보를 출력하는 후보 출력 모듈;
상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 얼굴 이미지 정보의 비얼굴 여부를 분류하는 비얼굴 분류 정보를 생성하며, 상기 비얼굴 분류 정보가 특정 값 이상인 상기 후보 정보를 제거하는 비얼굴 분류 모듈;
상기 비얼굴 분류 모듈에서 제거되지 않은 나머지 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 상기 얼굴 이미지 정보에서 랜드마크의 위치인 랜드마크 정보를 출력하는 랜드마크 검출 모듈;
상기 후보 정보 및 상기 랜드마크 정보를 수신하고, 상기 랜드마크 정보를 기초로 상기 후보 정보의 상기 위치 정보를 표준화하여 상기 위치 정보가 표준화 된 상기 후보 정보인 얼굴 정보를 생성하는 표준화 모듈;
상기 얼굴 정보에 대응되는 상기 얼굴 이미지 정보를 임베딩 벡터로 변환하고, 상기 임베딩 벡터를 군집화 하여 군집된 상기 얼굴 이미지 정보 및 군집된 상기 얼굴 이미지 정보가 포함된 상기 영상 세그먼트의 프레임 구간 정보를 포함하는 군집 정보를 생성하는 군집화 모듈; 및
특정 상기 얼굴 이미지 정보가 포함된 상기 군집 정보에 대응되는 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보를 생성하는 영상 통합 모듈;
을 포함하는 것을 특징으로 하는,
얼굴 군집화 기법을 이용한 영상 추출 장치.
영상 세그먼트 생성 모듈이, 인물별로 재가공을 원하는 원본 영상인 원본 영상 정보를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 정보를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 단계;
스무딩 모듈이, 상기 영상 세그먼트 생성 모듈에서 생성된 복수의 상기 영상 세그먼트를 수신하고, 상기 영상 세그먼트에 스무딩 필터를 적용하여 스무딩 영상 세그먼트를 생성하는 스무딩 단계;
후보 출력 모듈이, 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트를 수신하고, 상기 영상 세그먼트 및 상기 스무딩 영상 세그먼트에 포함된 인물의 얼굴을 검출하여 얼굴 분류 정보 및 위치 정보를 포함하는 후보 정보를 출력하는 후보 출력 단계;
비얼굴 분류 모듈이, 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 얼굴 이미지 정보의 비얼굴 여부를 분류하는 비얼굴 분류 정보를 생성하며, 상기 비얼굴 분류 정보가 특정 값 이상인 상기 후보 정보를 제거하는 비얼굴 분류 단계;
랜드마크 검출 모듈이, 상기 비얼굴 분류 모듈에서 제거되지 않은 나머지 상기 후보 정보를 수신하고, 상기 후보 정보에 대응되는 상기 얼굴 이미지 정보에서 랜드마크의 위치인 랜드마크 정보를 출력하는 랜드마크 검출 단계;
표준화 모듈이, 상기 후보 정보 및 상기 랜드마크 정보를 수신하고, 상기 랜드마크 정보를 기초로 상기 후보 정보의 상기 위치 정보를 표준화하여 상기 위치 정보가 표준화 된 상기 후보 정보인 얼굴 정보를 생성하는 표준화 단계;
군집화 모듈이, 상기 얼굴 정보에 대응되는 상기 얼굴 이미지 정보를 임베딩 벡터로 변환하고, 상기 임베딩 벡터를 군집화 하여 군집된 상기 얼굴 이미지 정보 및 군집된 상기 얼굴 이미지 정보가 포함된 상기 영상 세그먼트의 프레임 구간 정보를 포함하는 군집 정보를 생성하는 군집화 단계; 및
영상 통합 모듈이, 특정 상기 얼굴 이미지 정보가 포함된 상기 군집 정보에 대응되는 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 정보를 생성하는 영상 통합 단계;
를 포함하는 것을 특징으로 하는,
얼굴 군집화 기법을 이용한 영상 추출 방법.