KR20210004194A - 얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치 - Google Patents
얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치 Download PDFInfo
- Publication number
- KR20210004194A KR20210004194A KR1020190080224A KR20190080224A KR20210004194A KR 20210004194 A KR20210004194 A KR 20210004194A KR 1020190080224 A KR1020190080224 A KR 1020190080224A KR 20190080224 A KR20190080224 A KR 20190080224A KR 20210004194 A KR20210004194 A KR 20210004194A
- Authority
- KR
- South Korea
- Prior art keywords
- face
- image
- data
- module
- person
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000001514 detection method Methods 0.000 claims abstract description 25
- 230000010354 integration Effects 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 10
- 230000004913 activation Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012958 reprocessing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G06K9/00221—
-
- G06K9/00718—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치에 관한 것이다. 이를 위하여, 인물별로 재가공을 원하는 원본 영상인 원본 영상 데이터를 수신하고, 장면 전환 검출(Scene change detection)을 통해 원본 영상 데이터를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 모듈; 영상 세그먼트 생성 모듈에서 복수의 영상 세그먼트를 수신하고, 각각의 영상 세그먼트에서 인물의 얼굴을 군집화하여 원본 영상 데이터에 포함된 대표 인물의 얼굴 이미지인 대표 얼굴 데이터를 생성하는 얼굴 군집화 모듈; 및 사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 데이터를 사용자 클라이언트로부터 수신하고, 선택 얼굴 데이터가 포함된 영상 세그먼트를 통합(Video merging)하여 통합 영상 데이터를 생성하는 영상 통합 모듈;을 제공할 수 있다.
Description
본 발명은 얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치에 관한 것이다.
근래 들어 다양한 영상 콘텐츠를 직접적으로 소비하는 것이 아니라 이를 인물 중심으로 재가공하여 공유, 배포하고자 하는 수요가 증가 추세에 있다. 구체적인 사례로는 K-POP 아이돌 팬들이 기존의 방송 영상을 각 멤버 별로 재가공하여 숏 비디오 클립을 제작하거나, 방송사 자체에서도 영상을 인물별로 요약하거나 하이라이트 영상을 별도로 제작하는 등의 서비스를 제공하고 있다.
하지만 현재까지는 위에서 언급한 대부분의 작업들이 개개인들이 수작업으로 특정 인물이 나오는 프레임을 찾아내서 편집하는 방식을 채택하고 있어 매우 비효율적으로 작업이 진행되고 있다. Face recognition/identification과 같이 인물 중심의 콘텐츠 재가공 과정에 활용 가능한 기술들이 존재하지만 대부분의 경우 특정 인물을 분류해내기 위해서는 해당 인물에 대한 대량의 데이터가 필요하기에 수많은 인물들이 등장하는 영상 콘텐츠에 적용하기에는 어려움이 많다.
(특허문헌 1) 대한민국 공개특허 10-2019-0021130, 얼굴 이미지 기반의 유사 이미지 검출 방법 및 장치, 삼성전자 주식회사
따라서, 본 발명의 목적은 소규모 인물로 구성된 얼굴 데이터셋을 학습시킨 머신러닝 알고리즘에 기반한 얼굴 군집화(clustering) 기법을 바탕으로 사용자의 선택에 따라 원하는 인물이 등장하는 영상만을 자동으로 편집해 제공하는 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 제공하는데에 있다.
이하 본 발명의 목적을 달성하기 위한 구체적 수단에 대하여 설명한다.
본 발명의 목적은, 인물별로 재가공을 원하는 원본 영상인 원본 영상 데이터를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 데이터를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 모듈; 상기 영상 세그먼트 생성 모듈에서 복수의 상기 영상 세그먼트를 수신하고, 각각의 상기 영상 세그먼트에서 인물의 얼굴을 군집화하여 상기 원본 영상 데이터에 포함된 대표 인물의 얼굴 이미지인 대표 얼굴 데이터를 생성하는 얼굴 군집화 모듈; 및 사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 데이터를 사용자 클라이언트로부터 수신하고, 상기 선택 얼굴 데이터가 포함된 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 데이터를 생성하는 영상 통합 모듈;을 포함하고, 소규모 인물로 구성된 얼굴 데이터셋을 학습시킨 머신러닝 알고리즘에 기반한 얼굴 군집화(clustering) 기법을 바탕으로 상기 사용자의 선택에 따라 원하는 인물이 등장하는 영상만을 자동으로 편집해 출력하는 것을 특징으로 하는, 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 제공하여 달성될 수 있다.
상기한 바와 같이, 본 발명에 의하면 이하와 같은 효과가 있다.
첫째, 본 발명의 일실시예에 따르면, 기존에 사람이 수작업으로 매 프레임마다 등장하는 인물을 판별하여 편집하던 과정을 반자동적인 서비스로 제공함으로써 다양한 인물 중심 영상 재가공 작업의 효율을 향상시킬 수 있다.
둘째, 본 발명의 일실시예에 따르면, 소규모의 인물 데이터셋을 학습시킨 네트워크를 활용하여 대규모의 인물을 정확히 구별해내고 이를 사용자에게 제공 가능하다.
셋째, 본 발명의 일실시예에 따르면, K-POP 아이돌 팬들이 기존의 방송, 직접 촬영한 영상 등을 멤버 개개인 위주로 재가공하여 SNS에 공유하는 것이 용이해지며, 주요 방송사에서 제공하는 방송 프로그램 하이라이트/요약 영상 등에서 인물 위주로 재가공한 영상을 배포하는 것이 용이해진다. 또한, 스포츠 경기 등에서 경기 전체 영상에서 각 선수의 활약 영상 등을 개개인 별로 추출하여 소비자에게 제공하는 것이 용이해지고, CCTV와 같은 긴 영상 속에서 등장하는 인물들을 개별적으로 구분하여 원하는 인물(ex. 얼굴이 공개된 범죄자)이 등장한 시점을 찾는데에 이용될 수 있다.
본 명세서에 첨부되는 다음의 도면들은 본 발명의 바람직한 실시예를 예시하는 것이며, 발명의 상세한 설명과 함께 본 발명의 기술사상을 더욱 이해시키는 역할을 하는 것이므로, 본 발명은 그러한 도면에 기재된 사항에만 한정되어 해석되어서는 아니 된다.
도 1은 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 도시한 모식도,
도 2는 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)의 구성을 도시한 모식도,
도 3은 본 발명의 일실시예에 따른 군집화 모듈(24)의 구성을 도시한 모식도이다.
도 1은 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 도시한 모식도,
도 2는 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)의 구성을 도시한 모식도,
도 3은 본 발명의 일실시예에 따른 군집화 모듈(24)의 구성을 도시한 모식도이다.
이하 첨부된 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명을 쉽게 실시할 수 있는 실시예를 상세히 설명한다. 다만, 본 발명의 바람직한 실시예에 대한 동작원리를 상세하게 설명함에 있어서 관련된 공지기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.
또한, 도면 전체에 걸쳐 유사한 기능 및 작용을 하는 부분에 대해서는 동일한 도면 부호를 사용한다. 명세서 전체에서, 특정 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐만 아니라, 그 중간에 다른 소자를 사이에 두고, 간접적으로 연결되어 있는 경우도 포함한다. 또한, 특정 구성요소를 포함한다는 것은 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
얼굴 군집화 기법을 이용한 고속 영상 추출 장치
도 1은 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치를 도시한 모식도이다. 도 1에 도시된 바와 같이, 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치(1)는, 영상 세그먼트 생성 모듈(10), 얼굴 군집화 모듈(20), 영상 통합 모듈(30)을 포함할 수 있다. 본 발명의 일실시예에 따른 얼굴 군집화 기법을 이용한 고속 영상 추출 장치(1)는 특정 웹서버, 클라우드 서버와 같은 가상 서버, 스마트폰, 태블릿 PC, 데스크탑 PC 등의 컴퓨팅 장치의 처리모듈에 의해 처리되고, 각 장치의 메모리 모듈에 저장되도록 구성될 수 있다.
영상 세그먼트 생성 모듈(10)은 인물별로 재가공을 원하는 원본 영상인 원본 영상 데이터(100)를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 데이터(100)를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 모듈이다.
얼굴 군집화 모듈(20)은 상기 영상 세그먼트 생성 모듈(10)에서 영상 세그먼트를 수신하고, 각각의 영상 세그먼트에서 인물의 얼굴을 군집화하여 전체 원본 영상 데이터(100)에 포함된 대표 인물의 얼굴 이미지인 대표 얼굴 데이터(200)를 생성하는 모듈이다. 생성된 대표 얼굴 데이터(200)는 웹 또는 앱을 통해 스마트폰, 태블릿, 데스크탑, 랩탑 등의 사용자 클라이언트에 송신될 수 있다. 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)은 머신 러닝 알고리즘에 기반한 얼굴 이미지 클러스터링(face clustering)에 의해 수행될 수 있으며, 전체 영상 속에서 감지된 다양한 얼굴들을 인물 별로 군집화하여 각 인물의 대표 사진을 사용자에게 제공하게 된다.
영상 통합 모듈(30)은 사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 데이터(300)를 사용자 클라이언트로부터 수신하고, 상기 선택 얼굴 데이터(300)가 포함된 영상 세그먼트를 통합(Video merging)하여 통합 영상 데이터(310)를 생성하는 모듈이다. 생성된 통합 영상 데이터(310)은 웹 또는 앱을 통해 스마트폰, 태블릿, 데스크탑, 랩탑 등의 사용자 클라이언트에 송신(스트리밍을 포함)될 수 있다.
얼굴 군집화 모듈(20)의 구체적인 구성과 관련하여, 도 2는 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)의 구성을 도시한 모식도이다. 도 2에 도시된 바와 같이, 본 발명의 일실시예에 따른 얼굴 군집화 모듈(20)은 얼굴 검출 모듈(21), 랜드마크 검출 모듈(22), 표준화 모듈(23), 군집화 모듈(24)를 포함할 수 있다.
얼굴 검출 모듈(21)은 수신한 영상 세그먼트(110)에서 얼굴 부분을 검출하고 얼굴 검출 데이터(예를 들어, 바운딩 박스)를 생성하는 모듈이다. 본 발명의 일실시예에 따른 얼굴 검출 모듈(21)은 YOLO, RCNN, Faster RCNN 등을 Fine-tunning한 얼굴 검출 알고리즘을 이용할 수 있다. 또는, ImageNet으로 기학습된 AlexNet 등의 네트워크를 Fine-tunning 한 얼굴 검출 알고리즘을 이용할 수 있다. 나아가, Viola-jones의 Haar-like Feature를 Boosting 등의 기존 컴퓨터 비전 알고리즘을 이용할 수 있다.
랜드마크 검출 모듈(22)은 상기 얼굴 검출 모듈(21)에서 생성한 얼굴 검출 데이터를 기초로 해당 얼굴의 랜드마크를 검출하여 랜드마크 데이터를 생성하는 모듈이다. 본 발명의 일실시예에 따른 랜드마크 검출 모듈(22)은 Cascade 방식의 CNN 기반 아키텍쳐 또는 Auto encoder를 포함한 아키텍쳐로 구성될 수 있다.
표준화 모듈(23)은 랜드마크 검출 모듈(22)에서 생성한 랜드마크 데이터를 기초로 입력된 얼굴 검출 데이터를 표준화하여 표준화 얼굴 데이터를 생성하는 모듈이다.
군집화 모듈(24)은 표준화 모듈(23)에서 생성된 표준화 얼굴 데이터를 기초로 전체 영상 속에서 감지된 다양한 얼굴들을 인물 별로 군집화하여 각 인물의 대표 사진인 대표 얼굴 데이터(200)를 생성하고 출력하는 모듈이다.
군집화 모듈(24)의 구체적인 구성과 관련하여, 본 발명의 일실시예에 따른 군집화 모듈(24)은 Supervised Learning의 형태로 구성이 가능하고, 선형/로지스틱 회귀분석(Regression), 서포트 벡터 머신(Support Vector Machine), 다층 퍼셉트론(Multi-layer perceptron), 나이브 베이지안 분류(Naive-Bayesian Classification), 랜덤 포레스트 분류(Random Forest Classification), 인공신경망(Neural Network) 등의 다양한 머신러닝 알고리즘으로 구성이 가능하다. 설명의 편의를 위하여 이하에서는 본 발명의 일실시예에 따라 군집화 모듈(24)을 인공신경망으로 구성한 예시로 설명한다. 이하에서, 컨볼루젼 레이어(Convolution Layer)는 설명의 편의를 위해 "CONV layer", "Conv. layer" 으로 혼용될 수 있고, 콘볼루젼 뉴럴 네트워크(Convolutional Neural Network)는 "ConvNet", "CNN" 등으로 혼용될 수 있다.
도 3은 본 발명의 일실시예에 따른 군집화 모듈(24)의 구성을 도시한 모식도이다. 도 3에 도시된 바와 같이, 본 발명의 일실시예에 따른 군집화 모듈(24)은 컨볼루전 레이어(241), 풀링 레이어(242), 얼굴 군집화 레이어(243)가 포함된 인공신경망 모듈로 구성될 수 있다.
본 발명의 일실시예에 따르면, 군집화 모듈(24)에 INPUT 입력 이미지인 표준화 얼굴 데이터(230)가 가로 47, 세로 55, 그리고 RGB 채널을 가질 수 있고, 이때 입력되는 표준화 얼굴 데이터(230)의 크기는 [47x55x3]이다. 컨볼루젼 필터(Conv.Filter)는 입력 이미지인 표준화 얼굴 데이터(230)의 일부 영역과 연결되어 있으며, 이 연결된 영역과 자신의 가중치의 내적 연산(dot product)을 계산하게 되고, 커널 사이즈는 [4x4x3]으로 구성될 수 있다. 결과 볼륨인 컨볼루젼 레이어(Conv. layer, 241)는 [44x52x20]와 같은 크기를 갖게 된다. RELU 레이어는 max(0,x)와 같이 각 요소에 적용되는 액티베이션 함수(activation function)이다. RELU 레이어는 볼륨의 크기를 변화시키지 않는다([44x52x20]). 그 결과 Activation map 을 생성한다. 풀링 레이어(pooling layer, 242)는 "가로,세로" 차원에 대해 다운샘플링(downsampling)을 수행해 [22x26x20]와 같이 줄어든 볼륨(Activation map)을 출력한다. 이후 뎁스(depth)가 더 깊어진 제2컨볼루젼 레이어, 제2풀링 레이어, 제3컨볼루젼 레이어, 제3풀링 레이어, 제4컨볼루젼 레이어가 연결되고, 제4컨볼루젼 레이어에서 곧바로 n개의 노드를 가진 출력층인 얼굴 군집화 레이어(243)가 연결되도록 구성될 수 있다.
본 발명의 일실시예에 따른 군집화 모듈(24)에서는, 일반적인 ConvNet의 구조와 달리 마지막 컨볼루젼 레이어에 출력층인 얼굴 군집화 레이어(243)가 직접 연결되는 것이 특징적이다. 즉, 본 발명의 일실시예에 따른 군집화 모듈(24)에서는 n여명의 인물에 대한 얼굴 데이터셋으로 학습시킨 face identification network에서 최종적인 identification 결과가 아닌 face feature embedding 단계까지 만을 이용한다. 그에 따라 목표 영상 속에 학습 데이터에 포함되지않은 얼굴이 등장하더라도 해당 인물이 어떤 인물인지는 알 수 없지만, 대상들을 개별적인 인물 A, B로 구분 가능하게 되어 본 발명 시스템에 적용 가능하다.
기존의 일반적인 ConvNet에서는 마지막 컨볼루젼 레이어 또는 마지막 풀링 레이어 이후에 n개의 풀리 커넥티드 레이어(FC, Fully-connected layer)가 연결되게 된다. FC (fully-connected) 레이어(105)는 클래스 점수들을 계산해 [1x1x10]의 크기를 갖는 볼륨(output layer, 106)을 출력한다. FC 레이어는 이전 볼륨의 모든 요소와 연결되어 있고, 최종적인 identification을 담당하게 된다.
이와 같이, 본 발명의 일실시예에 따른 군집화 모듈(24)의 ConvNet은 픽셀 값으로 이뤄진 원본 이미지(표준화 얼굴 데이터, 230)를 각 레이어를 거치며 해당 표준화 얼굴 데이터를 특정 벡터로 임베딩 시키게 되므로 얼굴 군집 데이터를 생성할 수 있게 된다. 어떤 레이어는 모수 (parameter)를 갖지만 어떤 레이어는 모수를 갖지 않는다. 특히 CONV 레이어들은 단순히 입력 볼륨만이 아니라 가중치(weight)와 바이어스(bias)도 포함하는 액티베이션(activation) 함수이다. 반면 RELU/POOL 레이어들은 고정된 함수이다. CONV 레이어의 모수 (parameter)들은 각 이미지에 대한 클래스 점수가 해당 이미지의 레이블과 같아지도록 그라디언트 디센트(gradient descent)로 학습된다.
CONV 레이어의 모수(parameter)들은 일련의 학습가능한 필터들로 이뤄져 있다. 각 필터는 가로/세로 차원으로는 작지만 깊이 (depth) 차원으로는 전체 깊이를 아우른다. 포워드 패스(forward pass) 때에는 각 필터를 입력 볼륨의 가로/세로 차원으로 슬라이딩시키며(정확히는 convolve시키며) 2차원의 액티베이션 맵 (activation map)을 생성한다. 필터를 입력 위로 슬라이딩 시킬 때, 필터와 입력 볼륨 사이에서 내적 연산(dot product)이 이뤄진다. 이러한 과정으로 ConvNet은 입력 데이터의 특정 위치의 특정 패턴에 대해 반응하는(activate) 필터를 학습하게 된다. 이런 액티베이션 맵(activation map)을 깊이(depth) 차원으로 쌓은 것이 곧 출력 볼륨이 된다. 그러므로 출력 볼륨의 각 요소들은 입력의 작은 영역만을 취급하고, 같은 액티베이션 맵 내의 뉴런들은 같은 필터를 적용한 결과이므로 같은 모수들을 공유한다.
본 발명의 일실시예에 따르면, Back propagation에서 chain rule을 적용하면서 error가 앞단의 layer에서 희석되는 vanishing gradient 문제가 발생되어 시그모이드 함수 대신, ReLU가 이용될 수 있다. sigmoid 함수 사용시 모든 값에 대한 계산을 해야하는데, ReLU 함수는 상당 부분의 연산량을 줄일 수 있어 컴퓨팅 속도가 개선되는 효과가 발생된다. ReLU 함수에 의해 정규화(Regularization)가 향상될 수 있다.
또한, 본 발명의 일실시예에 따른 군집화 모듈(24)의 학습에 있어서, 학습 세션(Training Session)에서 입력되는 상기 표준화 얼굴 데이터(230)를 Random Cropping하여서 복수개의 Patch 형태로 입력 데이터를 다변화하여, 추론 세션(Inference Session)에서의 정확도를 향상시킬 수 있다.
또한, 본 발명의 일실시예에 따른 군집화 모듈(24)의 학습에 있어서, SoftMax Loss는 Identification Loss로 가 정하고 Euclidean Distance를 이용한 Loss는 Verification Loss로 가정하여서 Multi-task 형태의 학습 세션을 이용하여 정확도를 향상시킬 수 있다.
이상에서 설명한 바와 같이, 본 발명이 속하는 기술 분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 상술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로서 이해해야만 한다. 본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함하는 것으로 해석되어야 한다.
본 명세서 내에 기술된 특징들 및 장점들은 모두를 포함하지 않으며, 특히 많은 추가적인 특징들 및 장점들이 도면들, 명세서, 및 청구항들을 고려하여 당업자에게 명백해질 것이다. 더욱이, 본 명세서에 사용된 언어는 주로 읽기 쉽도록 그리고 교시의 목적으로 선택되었고, 본 발명의 주제를 묘사하거나 제한하기 위해 선택되지 않을 수도 있다는 것을 주의해야 한다.
본 발명의 실시예들의 상기한 설명은 예시의 목적으로 제시되었다. 이는 개시된 정확한 형태로 본 발명을 제한하거나, 빠뜨리는 것 없이 만들려고 의도한 것이 아니다. 당업자는 상기한 개시에 비추어 많은 수정 및 변형이 가능하다는 것을 이해할 수 있다.
그러므로 본 발명의 범위는 상세한 설명에 의해 한정되지 않고, 이를 기반으로 하는 출원의 임의의 청구항들에 의해 한정된다. 따라서, 본 발명의 실시예들의 개시는 예시적인 것이며, 이하의 청구항에 기재된 본 발명의 범위를 제한하는 것은 아니다.
1: 얼굴 군집화 기법을 이용한 고속 영상 추출 장치
10: 영상 세그먼트 모듈
20: 얼굴 군집화 모듈
21: 얼굴 검출 모듈
22: 랜드마크 검출 모듈
23: 표준화 모듈
24: 군집화 모듈
30: 영상 통합 모듈
100: 원본 영상 데이터
110: 영상 세그먼트
200: 대표 얼굴 데이터
230: 표준화 얼굴 데이터
241: 컨볼루젼 레이어
242: 풀링 레이어
243: 얼굴 군집화 레이어
300: 선택 얼굴 데이터
310: 통합 영상 데이터
10: 영상 세그먼트 모듈
20: 얼굴 군집화 모듈
21: 얼굴 검출 모듈
22: 랜드마크 검출 모듈
23: 표준화 모듈
24: 군집화 모듈
30: 영상 통합 모듈
100: 원본 영상 데이터
110: 영상 세그먼트
200: 대표 얼굴 데이터
230: 표준화 얼굴 데이터
241: 컨볼루젼 레이어
242: 풀링 레이어
243: 얼굴 군집화 레이어
300: 선택 얼굴 데이터
310: 통합 영상 데이터
Claims (1)
- 인물별로 재가공을 원하는 원본 영상인 원본 영상 데이터를 수신하고, 장면 전환 검출(Scene change detection)을 통해 상기 원본 영상 데이터를 복수개로 구분하여 복수의 영상 세그먼트를 생성하는 영상 세그먼트 생성 모듈;
상기 영상 세그먼트 생성 모듈에서 복수의 상기 영상 세그먼트를 수신하고, 각각의 상기 영상 세그먼트에서 인물의 얼굴을 군집화하여 상기 원본 영상 데이터에 포함된 대표 인물의 얼굴 이미지인 대표 얼굴 데이터를 생성하는 얼굴 군집화 모듈; 및
사용자가 재가공을 원하는 인물의 이미지에 대한 정보인 선택 얼굴 데이터를 사용자 클라이언트로부터 수신하고, 상기 선택 얼굴 데이터가 포함된 상기 영상 세그먼트를 통합(Video merging)하여 통합 영상 데이터를 생성하는 영상 통합 모듈;
을 포함하고,
상기 얼굴 군집화 모듈은 수신한 상기 영상 세그먼트에서 얼굴 부분을 검출하고 얼굴 검출 데이터를 생성하는 얼굴 검출 모듈, 상기 얼굴 검출 데이터를 기초로 해당 얼굴의 랜드마크를 검출하여 랜드마크 데이터를 생성하는 랜드마크 검출 모듈, 상기 랜드마크 데이터를 기초로 입력된 상기 얼굴 검출 데이터를 표준화하여 표준화 얼굴 데이터를 생성하는 표준화 모듈 및 상기 표준화 얼굴 데이터를 기초로 상기 원본 영상 데이터의 전체 영상 속에서 감지된 다양한 얼굴들을 인물 별로 군집화하여 상기 대표 얼굴 데이터를 생성하고 출력하는 군집화 모듈을 포함하며,
소규모 인물로 구성된 얼굴 데이터셋을 학습시킨 머신러닝 알고리즘에 기반한 얼굴 군집화(clustering) 기법을 바탕으로 상기 사용자의 선택에 따라 원하는 인물이 등장하는 영상만을 자동으로 편집해 출력하는 것을 특징으로 하는,
얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190080224A KR20210004194A (ko) | 2019-07-03 | 2019-07-03 | 얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190080224A KR20210004194A (ko) | 2019-07-03 | 2019-07-03 | 얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210004194A true KR20210004194A (ko) | 2021-01-13 |
Family
ID=74142905
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190080224A KR20210004194A (ko) | 2019-07-03 | 2019-07-03 | 얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20210004194A (ko) |
-
2019
- 2019-07-03 KR KR1020190080224A patent/KR20210004194A/ko unknown
Non-Patent Citations (1)
Title |
---|
(특허문헌 1) 대한민국 공개특허 10-2019-0021130, 얼굴 이미지 기반의 유사 이미지 검출 방법 및 장치, 삼성전자 주식회사 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2022252799B2 (en) | System and method for appearance search | |
US9721156B2 (en) | Gift card recognition using a camera | |
US10628683B2 (en) | System and method for CNN layer sharing | |
US10366313B2 (en) | Activation layers for deep learning networks | |
KR102554724B1 (ko) | 이미지 내 객체를 식별하기 위한 방법 및 상기 방법을 실행하기 위한 모바일 디바이스 | |
US9633282B2 (en) | Cross-trained convolutional neural networks using multimodal images | |
US7319779B1 (en) | Classification of humans into multiple age categories from digital images | |
US20150332087A1 (en) | Systems and Methods for Identifying a User's Demographic Characteristics Based on the User's Social Media Photographs | |
US8805123B2 (en) | System and method for video recognition based on visual image matching | |
US10062013B2 (en) | Method of image processing | |
Sundaram et al. | FSSCaps-DetCountNet: fuzzy soft sets and CapsNet-based detection and counting network for monitoring animals from aerial images | |
Booysens et al. | Ear biometrics using deep learning: A survey | |
WO2020022329A1 (ja) | 物体検出認識装置、方法、及びプログラム | |
US10198791B2 (en) | Automatic correction of facial sentiment of portrait images | |
KR20210004195A (ko) | 얼굴 특징 임베딩을 이용한 대표 얼굴의 통합 영상 출력 장치 | |
KR102112033B1 (ko) | 얼굴 군집화 기법을 이용한 영상 추출 장치 | |
Manjula et al. | Face detection identification and tracking by PRDIT algorithm using image database for crime investigation | |
JP2016219879A (ja) | 画像処理装置、画像処理方法及びプログラム | |
WO2024039964A1 (en) | Systems and methods for blur identification and correction | |
KR20210004194A (ko) | 얼굴 군집화 기법을 이용한 특정 얼굴의 통합 영상 추출 장치 | |
Srinivas et al. | E-CNN-FFE: An Enhanced Convolutional Neural Network for Facial Feature Extraction and Its Comparative Analysis with FaceNet, DeepID, and LBPH Methods | |
Fitte-Duval et al. | Combination of rgb-d features for head and upper body orientation classification | |
CN116896654B (zh) | 一种视频处理方法和相关装置 | |
CN117156078B (zh) | 一种视频数据处理方法、装置、电子设备及存储介质 | |
Chen et al. | Improving Accuracy of Peacock Identification in Deep Learning Model Using Gaussian Mixture Model and Speeded Up Robust Features |