KR102170416B1

KR102170416B1 - 컴퓨터와 크라우드 소싱을 이용한 비디오 사전 처리 방법

Info

Publication number: KR102170416B1
Application number: KR1020180048667A
Authority: KR
Inventors: 김주호; 정준영; 송진영; 아티
Original assignee: 한국과학기술원
Priority date: 2018-04-26
Filing date: 2018-04-26
Publication date: 2020-10-27
Also published as: KR20190130218A

Abstract

본 발명은 컴퓨터와 크라우드 소싱을 이용한 비디오 사전 처리 방법에 관한 것으로서, 더욱 상세하게는 비디오에 등장하는 객체에 대하여, 기계학습 기반의 컴퓨터 계산과 인간의 인지능력을 활용한 크라우드 소싱(crowd sourcing) 방식을 결합하여 비디오에 등장하는 인물, 사물 등의 객체에 대한 사전 처리(labelling)를 수행하는 방법에 관한 것이다.
본 발명에 의하면, 기계 학습 기반의 컴퓨터 계산 및 인간의 인지 능력을 활용한 크라우드 소싱(crowd sourcing) 방식을 결합한 파이프라인을 통하여, 적은 노동력으로도 빠르고 정확하게 비디오에 등장하는 객체들에 대한 사전 처리(labelling)를 가능하게 하는 플랫폼을 제공한다.

Description

컴퓨터와 크라우드 소싱을 이용한 비디오 사전 처리 방법{Video labelling method by using computer and crowd-sourcing}

본 발명은 컴퓨터와 크라우드 소싱을 이용한 비디오 사전 처리 방법에 관한 것으로서, 더욱 상세하게는 비디오에 등장하는 객체에 대하여, 기계학습 기반의 컴퓨터 계산과 인간의 인지능력을 활용한 크라우드 소싱(crowd sourcing) 방식을 결합하여 비디오에 등장하는 인물, 사물 등의 객체에 대한 사전 처리(labelling)를 수행하는 방법에 관한 것이다.

비디오에서 예를 들어, 인물 관련 정보(행동, 의도, 감정)를 사전 처리(labelling)하기 위해서는 우선적으로 비디오에 대한 검수와 인물에 대한 구분이 필요하다. 그러나, 비디오에서 사람들이 직접 인물에 대한 구분을 하는 과정은 비디오 상의 많은 프레임(frame) 수 때문에 많은 노동량을 필요로 하는 어려움이 있다. 또한 이를 해결하기 위한 기계학습과 같은 방법은 아직 그 정확도가 충분히 높지 않은 경우가 많을 뿐만 아니라, 예를 들어 비디오의 질을 판단하는 과정에서 해당 기준들을 판단하는 모델을 제작하는 것 자체가 엄청난 수의 데이터와 레이블을 필요로 하는 문제점이 존재한다.

KR

10-1382948

B1

본 발명은 이와 같은 문제점을 해결하기 위해 창안된 것으로서, 기계 학습 기반의 컴퓨터 계산 및 인간의 인지 능력을 활용한 크라우드 소싱(crowd sourcing) 방식을 결합한 파이프라인을 통하여, 적은 노동력으로도 빠르고 정확하게 비디오에 등장하는 객체들에 대한 사전 처리(labelling)를 가능하게 하는 플랫폼을 제공하는데 그 목적이 있다.

이와 같은 목적을 달성하기 위하여 본 발명에 따른 비디오에 대한 사전처리를 수행하는 방법은, (a) 기계학습(machine learning)을 활용한 등장인물의 얼굴 감지를 수행하는 단계; (b) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및 (c) 상기 단계(a)의 얼굴과 상기 단계(b)의 인체를 동일인물의 것으로 매칭시키는 단계를 포함하고, 상기 단계(a)는, (a1) 기 설정된 시간 간격으로 화면 프레임(frame)을 샘플링하는 단계; (a2) 얼굴감지 알고리즘을 이용하여 등장인물들의 얼굴 이미지를 확보하는 단계; 및 (a3) 확보된 얼굴 이미지를 기반으로 동일인물에 해당하는 얼굴 이미지들을 클러스터링(clustering)하는 단계를 포함하며, 상기 단계(a3) 이후, (a4) 상기 단계(a3)에서 클러스터링된 결과에 대하여, 크라우드 단말(crowd)들로부터, 보완 클러스터링된 결과를 수신하여 이로부터 최종 클러스터링 결과를 산출하는 크라우드소싱(crowdsourcing) 단계를 더 포함하고, 상기 보완 클러스터링된 결과는, 기계학습에 의하여 1차 수행된 클러스터링에서 앞모습, 옆모습 및 다른 표정을 포함하는 원인들 중 하나 이상의 원인으로 인하여 다른 인물이라고 판단되어 다른 클러스터로 분류된 결과에 대하여, 크라우드 단말들이 동일인물로 판단하여 하나의 클러스터로 재 클러스터링한 결과이다.

상기 단계(a) 이전에, (a0) 사전처리를 수행할 비디오에 대하여, 사전처리 가능한 비디오인지 여부에 대한 판단 결과를 크라우드 단말로부터 수신하는 단계를 더 포함할 수 있고, 상기 단계(a) 이후의 단계는, 상기 단계(a0)의 판단 결과가, 사전처리 가능한 비디오인 경우에 수행한다.

상기 단계(a3)에서, 총 클러스터의 수를 미리 설정한 후 상기 클러스터링을 수행할 수 있다.

상기 단계(b)는, (b1) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및 (b2) 상기 비디오 각 프레임에서 감지된 인체들에 대하여, 동일인물의 인체인지 여부를 판단하는 단계를 포함할 수 있다.

상기 단계(b2) 이후, (b3) 상기 단계(b2)의 동일인물 인체여부 판단 결과에 대하여, 크라우드 단말(crowd)들로부터, 오류 정정된 결과를 수신하여 이로부터 최종 동일인물 인체여부 판단 결과를 산출하는 단계를 더 포함할 수 있다.

상기 단계(c)의 동일인물의 얼굴과 인체의 매칭은, 크라우드 단말들에 의해 매칭된 결과를 수신하여 이로부터 최종 얼굴 및 인체 매칭 결과를 산출하는 방식으로 수행될 수 있다.

본 발명의 다른 측면에 따르면, 비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램은, 비일시적 저장 매체에 저장되며, 프로세서에 의하여, (a) 기계학습(machine learning)을 활용한 등장인물의 얼굴 감지를 수행하는 단계; (b) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및 (c) 상기 단계(a)의 얼굴과 상기 단계(b)의 인체를 동일인물의 것으로 매칭시키는 단계가 실행되도록 하는 명령을 포함하고, 상기 단계(a)는, (a1) 기 설정된 시간 간격으로 화면 프레임(frame)을 샘플링하는 단계; (a2) 얼굴감지 알고리즘을 이용하여 등장인물들의 얼굴 이미지를 확보하는 단계; 및 (a3) 확보된 얼굴 이미지를 기반으로 동일인물에 해당하는 얼굴 이미지들을 클러스터링(clustering)하는 단계를 포함하며, 상기 단계(a3) 이후, (a4) 상기 단계(a3)에서 클러스터링된 결과에 대하여, 크라우드 단말(crowd)들로부터, 보완 클러스터링된 결과를 수신하여 이로부터 최종 클러스터링 결과를 산출하는 크라우드소싱(crowdsourcing) 단계를 더 포함하고, 상기 보완 클러스터링된 결과는, 기계학습에 의하여 1차 수행된 클러스터링에서 앞모습, 옆모습 및 다른 표정을 포함하는 원인들 중 하나 이상의 원인으로 인하여 다른 인물이라고 판단되어 다른 클러스터로 분류된 결과에 대하여, 크라우드 단말들이 동일인물로 판단하여 하나의 클러스터로 재 클러스터링한 결과이다.

본 발명의 또 다른 측면에 따르면, 비디오 사전처리 방법을 수행하기 위한 장치는, 적어도 하나의 프로세서; 및, 컴퓨터로 실행가능한 명령을 저장하는 메모리를 포함하되, 상기 메모리에 저장된 상기 컴퓨터로 실행가능한 명령은, 상기 적어도 하나의 프로세서에 의하여, (a) 기계학습(machine learning)을 활용한 등장인물의 얼굴 감지를 수행하는 단계; (b) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및 (c) 상기 단계(a)의 얼굴과 상기 단계(b)의 인체를 동일인물의 것으로 매칭시키는 단계가 실행되도록 하고, 상기 단계(a)는, (a1) 기 설정된 시간 간격으로 화면 프레임(frame)을 샘플링하는 단계; (a2) 얼굴감지 알고리즘을 이용하여 등장인물들의 얼굴 이미지를 확보하는 단계; 및 (a3) 확보된 얼굴 이미지를 기반으로 동일인물에 해당하는 얼굴 이미지들을 클러스터링(clustering)하는 단계를 포함하며, 상기 단계(a3) 이후, (a4) 상기 단계(a3)에서 클러스터링된 결과에 대하여, 크라우드 단말(crowd)들로부터, 보완 클러스터링된 결과를 수신하여 이로부터 최종 클러스터링 결과를 산출하는 크라우드소싱(crowdsourcing) 단계를 더 포함하고, 상기 보완 클러스터링된 결과는, 기계학습에 의하여 1차 수행된 클러스터링에서 앞모습, 옆모습 및 다른 표정을 포함하는 원인들 중 하나 이상의 원인으로 인하여 다른 인물이라고 판단되어 다른 클러스터로 분류된 결과에 대하여, 크라우드 단말들이 동일인물로 판단하여 하나의 클러스터로 재 클러스터링한 결과이다.

본 발명에 의하면, 기계 학습 기반의 컴퓨터 계산 및 인간의 인지 능력을 활용한 크라우드 소싱(crowd sourcing) 방식을 결합한 파이프라인을 통하여, 적은 노동력으로도 빠르고 정확하게 비디오에 등장하는 객체들에 대한 사전 처리(labelling)를 가능하게 하는 플랫폼을 제공하는 효과가 있다.

도 1은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법을 수행하기 위한 네트워크 구성을 도시한 도면.
도 2는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법을 수행하는 어플리케이션이 동작하는 전자장치의 구성을 나타내는 도면.
도 3은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법의 과정을 나타내는 순서도.
도 4는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 비디오 검수 단계 과정을 나타내는 순서도.
도 5는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 기계학습을 활용한 얼굴 감지 및 클러스터링 과정을 나타내는 순서도.
도 6은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 도 5의 기계학습을 활용한 얼굴 감지 및 클러스터링 수행의 실시예를 나타내는 도면.
도 7은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 인체 감지 및 동일인물 인체 여부 판단과정을 나타내는 순서도.
도 8은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 도 7의 인체 감지 및 동일인물 인체 여부 판단과정 수행의 실시예를 나타내는 도면.
도 9는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 크라우드 소싱에 의하여, 도 7에 따른 동일인물 인체 여부 판단 결과에 대한 노이즈 제거 수행의 실시예를 나타내는 도면.
도 10은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 크라우드 소싱에 의하여, 도 9에 따른 동일인물 인체 여부 판단 결과에 대한 노이즈 제거 후, 해당 인체와 도 5의 과정을 통하여 감지된 인물 얼굴과 매칭 수행의 실시예를 나타내는 도면.

이하 첨부된 도면을 참조로 본 발명의 바람직한 실시예를 상세히 설명하기로 한다. 이에 앞서, 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과할 뿐이고 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다.

도 1은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법을 수행하기 위한 네트워크 구성을 도시한 도면이고, 도 2는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법을 수행하는 어플리케이션(100)이 동작하는 전자장치(200)의 구성을 나타내는 도면이다.

본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법은 기계 학습(machine learning) 기반의 컴퓨터 계산과 인간의 인지 능력의 활용을 결합한 파이프라인을 통해 빠르고 정확하게 비디오에 등장하는 등장인물의 구분을 위한 사전 처리(labelling)을 수행하는 방법에 대한 것이다.

도 1 및 도 2에서 전자장치(200)는 스마트폰과 같은 모바일 장치일 수 있다. 그러나 반드시 이에 한정되지는 않으며, 태블릿 장치, 노트북, 헤드업 디스플레이(HUD) 등과 같은 다른 종류의 모바일 기기 또는 데스크탑 컴퓨터와 같은 거치식 컴퓨터 장치일 수 있다.

전자장치(200)는 프로세서(210), 프로그램과 데이터를 저장하는 비휘발성 저장부(220), 실행 중인 프로그램들을 저장하는 휘발성 메모리(230), 다른 기기와 근거리 통신, 또는 정보통신망 등을 통하여 통신을 수행하기 위한 통신부(240), 이들 장치 사이의 내부 통신 통로인 버스 등으로 이루어져 있다. 실행 중인 프로그램으로는, 장치 드라이버, 운영체계(Operating System), 및 다양한 어플리케이션이 있을 수 있다. 도 2에서는 편의상 비디오 플레이를 위한 어플리케이션과 본 발명의 비디오 사전처리 어플리케이션(100)만을 도시하였다. 도시되지는 않았지만, 전자장치(200)는 배터리와 같은 전력제공부를 포함한다.

크라우드(crowd) 단말(10)들 역시 스마트폰과 같은 모바일 장치, 태블릿 장치, 노트북, 헤드업 디스플레이(HUD) 등과 같은 다른 종류의 모바일 기기 또는 데스크탑 컴퓨터와 같은 거치식 컴퓨터 장치 등의 다양한 단말일 수 있고, 전자장치(200)와 정보통신망을 통하여 연결되어, 비디오 사전처리 어플리케이션(100)의 비디오 사전처리 수행 중 크라우드 소싱(crowd sourcing)이 필요한 작업을 수행하여 비디오 사전처리 어플리케이션(100)으로 그 결과를 제공한다.

비디오 사전처리 어플리케이션(100)이 수행하는 비디오 사전처리(labelling) 방법에 대하여는 이하 도 3 내지 도 10을 참조하여 상세히 설명하기로 한다.

도 3은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법의 과정을 나타내는 순서도이다.

본 발명의 비디오 사전처리 어플리케이션(100)은 다음과 같은 단계를 포함하는 비디오 사전처리 방법을 수행한다. 즉, 먼저 대상 비디오가 사전 처리(labelling)가 가능한 비디오인지를 검수하는 단계이다(S100). 이 단계는 크라우드 소싱(crowd sourcing), 즉, 도 1을 참조하여 설명한 바와 같이 정보통신망을 통하여 연결된 다수의 크라우드 단말(10)들에 의하여 검수된 결과를 수신할 수 있다. 이러한 비디오 검수(S100)의 세부적 단계는 이하 도 4를 참조하여 설명하기로 한다.

이후, 기계학습(machine learning)을 이용한 인물의 얼굴 감지 및 클러스터링(clustering)을 수행하는 단계이다(S200). 이 단계는 비디오에 등장하는 인물의 얼굴을 감지하고, 감지된 얼굴을 기반으로 동일 인물의 얼굴별로 클러스터링을 수행한다. 이러한 얼굴 감지 및 클러스터링의 세부적 수행 방법에 대하여는 도 5 및 도 6을 참조하여 상세히 후술한다.

다음으로, 비디오에 등장하는 인물들에 대한 몸(인체) 감지와, 비디오의 각 프레임에서 등장하여 감지된 인체에 대하여, 동일인물의 인체로 판단되는 이미지들을 판별해낸다(S300). 이에 대하여는 도 7 내지 도 9를 참조하여 상세히 후술한다.

최종적으로, 단계 S200에서 감지한 인물의 얼굴 및 단계 S300에서 감지한 인체에 대하여, 동일 인물에 해당하는 인체와 얼굴을 매칭시킨다(S400). 이에 대하여는 도 10을 참조하여 설명한다.

도 4는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 비디오 검수 단계 과정을 나타내는 순서도이다.

이러한 과정은 전술한 바와 같이 크라우드 소싱(crowd sourcing)을 활용하여 판단된 데이터를 수신하게 된다. 비디오 검수 과정은 먼저 대상 비디오가 사람과 사람 사이의 대화로 구성되어 있는지, 즉 대화 유무를 판단하고(S110), 해당 비디오의 언어가 목표하는 언어로 구성되어 있는지를 판단한다(S120). 또한 비디오 화면의 질에 있어서, 등장하는 인물의 행동이 인식 가능한 정도인지, 즉 시각 정보의 질(quality)을 판단하고(S130), 비디오에 나오는 인간의 대화가 인식 가능한 수준인지, 즉, 음성 정보의 질을 판단한다(S140). 이와 같은 비디오 검수 과정의 순서는 바뀔 수 있다. 비디오 사전처리 어플리케이션(100)은, 각 단계(S110 내지 S140)의 수행 결과를 각 크라우드 단말(10)들로부터 수신하여 저장하게 된다.

도 5는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 기계학습을 활용한 얼굴 감지 및 클러스터링 과정을 나타내는 순서도이고, 도 6은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 도 5의 기계학습을 활용한 얼굴 감지 및 클러스터링 수행의 실시예를 나타내는 도면이다.

비디오 사전처리 어플리케이션(100)은, 대상 비디오에서, 기 설정된 시간 간격으로 화면 프레임(frame)을 샘플링하고(S210), 샘플링된 각 프레임에서 얼굴 감지 알고리즘을 이용하여 해당 프레임에 등장하는 인물의 얼굴을 감지하여 감지된 얼굴 이미지를 확보한다(S220). 도 6(a)는 그와 같이 하나의 프레임에서 감지된 얼굴 이미지에 박스를 두른 상태를 도시하고 있다. 이러한 얼굴감지 알고리즘은, 기계학습(machine learning) 방법을 활용한 알고리즘일 수 있다.

각 프레임에서 이와 같이 얼굴 이미지를 확보한 후, 확보된 얼굴 이미지들 중 동일 인물의 얼굴이라고 판단되는 이미지들을, 그 유사도에 따라 클러스터링을 수행한다(S230). 클러스터링될 클러스터의 수는 해당 비디오에 등장하는 인물들의 수를 고려하여 대략적으로 미리 설정해 놓을 수 있다. 이때 설정하는 클러스터의 수는, 다른 인물이 동일 클러스터로 포함되는 일이 없도록 충분히 높게 잡는 것이 바람직하며, 이에 따라 이 단계에서는 동일 인물이 다른 클러스터로 포함되는 가능성도 존재하게 된다. 이러한 클러스터링 역시 기계학습(machine learning) 방법을 활용한 알고리즘을 적용하여 수행할 수 있다.

도 6(b)는 각 사진에 해당하는 얼굴들에 대하여, 각 프레임에서 확보된 얼굴 이미지들에 대하여 클러스터링을 수행한 결과를 도시하고 있다. 이와 같이 클러스터링하는 방법은 다양한 방식의 알고리즘을 적용하여 수행할 수 있다. 좌측 하단의 여성 얼굴 및 우측 하단의 남성 얼굴에 대하여는 비교적 밀집된 클러스터가 형성되어 있다. 이것은 비디오 각 프레임에서 이들의 얼굴 이미지가 대략 유사한 형태로 등장함을 알 수 있다.

상단의 남성 이미지에 대하여는 분산된 클러스터가 형성되어 있다. 이것은 해당 남성의 이미지는 비디오 각 프레임에서 다양한 형태로 등장함을 추측해 볼 수 있다. 즉, 앞모습, 옆모습, 다른 표정 등, 다양한 이미지로 등장하는 것으로 추측할 수 있다. 이때 설정한 클러스터의 수가 크다면, 이러한 분산된 클러스터는, 한개가 아닌 여러 클러스터로 파악될 수 있다. 즉, 앞모습, 옆모습, 다른 표정 등의 이미지에 대하여, 다른 인물로 파악될 가능성이 있는 것이다.

이에 대한 조정을 위해, 각 클러스터 단말(10)로부터, 위의 클러스터링 결과에 대하여 보완 클러스터링을 수행한 결과를 수신하고, 이로부터 최종 클러스터링 결과를 산출한다(S240). 크라우드 단말(10)들로부터 수신한 결과에서 최종 결과를 산출하는 방법은, 그러한 수신된 결과들로부터 최종 결과를 산출하기 위한 알고리즘을 수행시킬 수도 있고, 간단하게는 가장 많이 수신된 결과를 최종 결과로 선택할 수도 있다. 보완 클러스터링이란, 예를 들어 비디오 사전처리 어플리케이션(100)이 1차 수행한 클러스터링(S230)에서 앞모습, 옆모습, 다른 표정 등의 원인으로 인하여 다른 인물이라고 판단되어 다른 클러스터로 분류된 결과에 대하여, 크라우드 단말(10)들이 동일인물로 판단하여 하나의 클러스터로 재 클러스터링하는 것을 의미한다.

도 7은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 인체 감지 및 동일인물 인체 여부 판단과정을 나타내는 순서도이고, 도 8은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 도 7의 인체 감지 및 동일인물 인체 여부 판단과정 수행의 실시예를 나타내는 도면이다.

비디오 사전처리 어플리케이션(100)은, 예를 들어 fast-RCNN과 같은 물체 감지 알고리즘을 통하여 비디오에 등장하는 인물들의 몸(인체)를 감지하고(S310), 감지된 인체의 주위에 박스를 쳐서 화면에 표시해준다(S320). 이후 인접 프레임에서 각각 감지된 인체 이미지들을 서로 비교하여(S330), 동일인의 인체인지 여부를 판단한다(S340). 이러한 물체 감지 알고리즘이나 동일인의 인체인지 여부 판단도 기계학습(machine learning) 방법을 활용한 알고리즘을 적용하여 수행할 수도 있다.

이와 같이 비디오 사전처리 어플리케이션(100)의 동일인의 인체 여부 판단에 대하여, 각 크라우드 단말(10)들의 판단에 따라 오류가 발견된 경우, 각 크라우드 단말(10)에 의해 오류 정정(노이즈 제거)된 동일인 인체인지 여부 판단 결과를 각 크라우드 단말(10)로부터 수신하고, 수신한 결과에서 최종 동일인물 인체여부 판단 결과를 산출하는(S350) 오류 정정을 수행하게 된다.

그 실시예로서, 도 8을 참조하면 윗줄의 도 8(a)는 비디오 내 특정 프레임(이하 '제1 프레임'이라 한다)에서 인체로 감지된 부분에 대하여 박스로 바운딩(bounding) 처리를 한 것이며, 3개의 인체가 감지되었음을 나타낸다. 아랫줄의 도 8(b)는 위 프레임에 인접한 다른 프레임(이하 '제2 프레임'이라 한다)에서 인체로 감지된 부분에 대하여 박스로 바운딩 처리를 한 것이며, 역시 3개의 인체가 감지되었음을 나타낸다. 그리고 윗줄과 아랫줄을 연결한 선은, 제1 프레임과 제2 프레임에서 비디오 사전처리 어플리케이션(100)이 동일한 사람의 인체로 판단한 인체끼리 연결시켜놓은 것이다.

또한 도 9는 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 크라우드 소싱에 의하여, 도 7(S310 내지 S340) 및 도 8에 따른 동일인물 인체 여부 판단 결과에 대한 노이즈 제거 수행(도 7의 S350)의 실시예를 나타내는 도면이다. 즉, 도 8(a)의 제1 프레임에서 각 인체 이미지 박스들은 해당 프레임에서 비디오 사전처리 어플리케이션(100)에 의해 각각 다른 인체로 판단된 것이나, 실제로는 모두 동일한 인체를 나타내고 있는 것이며, 도 8(b)의 제2 프레임에서 각 인체 이미지 박스들 역시 해당 프레임에서 비디오 사전처리 어플리케이션(100)에 의해 각각 다른 인체로 판단된 것이나, 실제로는 모두 동일한 인체를 나타내고 있는 것이다.

각 크라우드 단말(10)에서는 이러한 노이즈를 제거(오류 정정)하여, 도 9와 같이 제1 프레임(도 9(a))의 우측 2개 이미지와 제2 프레임(도 9(b))의 우측 2개 이미지를 삭제하고('X'표시된 이미지 삭제), 각 프레임에서 하나의 이미지만을 남겨 둔 후, 그 두 이미지는 동일한 인체라는 것을 표시하여 비디오 사전처리 어플리케이션(100)으로 전송해주는 것이다. 크라우드 단말(10)들로부터 수신한 결과에서 최종 동일인물 인체여부 판단 결과를 산출하는 방법은, 그러한 수신된 결과들로부터 최종 결과를 산출하기 위한 알고리즘을 수행시킬 수도 있고, 간단하게는 가장 많이 수신된 결과를 최종 결과로 선택할 수도 있다(S350).

도 10은 본 발명에 따른 크라우드 소싱을 이용한 비디오 사전 처리 방법에서, 크라우드 소싱에 의하여, 도 9에 따른 동일인물 인체 여부 판단 결과에 대한 노이즈 제거 후, 해당 인체와 도 5의 과정을 통하여 감지된 인물과 매칭 수행의 실시예를 나타내는 도면이다.

즉, 도 10은, 도 3에서, 단계 S200에서 감지한 인물의 얼굴 및 단계 S300에서 감지한 인체에 대하여, 동일 인물에 해당하는 인체와 얼굴을 매칭시키는 과정(도 3, S400)에 대한 실시예이다. 도 9에서 각 프레임에서 최종적으로 동일인의 인체로 판단된 인체 이미지, 즉, 도 9(a) 제1 프레임의 좌측단 이미지 및 도 9(b) 제2 프레임의 좌측단 이미지에 의해 동일 인물의 인체로 판단된 인체에 대하여, 해당 인체가, 앞서 감지된 얼굴(도 9(c))을 가진 인물의 것임을 파악하여 그 인물의 얼굴과 인체를 매칭시켜 저장한다. 이와 같은 과정은 비디오 사전처리 어플리케이션(100) 스스로 매칭과정을 수행할 수도 있으나, 필요에 따라서는 크라우드 소싱 방식에 의해 크라우드 단말(10)들이 그와 같은 매칭을 수행한 결과를 수신하도록 구성할 수도 있다. 크라우드 소싱 방식을 이용하는 경우, 크라우드 단말(10)들에 의해 매칭된 결과를 수신하여 이로부터 최종 얼굴 및 인체 매칭 결과를 산출하는 방식으로 수행되는데, 크라우드 단말(10)들로부터 수신한 결과에서 최종 얼굴 및 인체 매칭 결과를 산출하는 방법은, 그러한 수신된 결과들로부터 최종 결과를 산출하기 위한 알고리즘을 수행시킬 수도 있고, 간단하게는 가장 많이 수신된 결과를 최종 결과로 선택할 수도 있다.

이와 같이 최종적으로 등장인물과 인물의 몸을 연결시켜 각 인물의 몸에 등장인물의 정보를 배정함으로써 인물정보를 생성한다(labelling). 이와 같이 얻은 비디오에 대한 인물 정보는 추후 인물에 대한 감정, 행동, 의도 등을 레이블링(labelling)하는데에도 사용될 수 있다.

10: 크라우드(crowd) 단말
100: 비디오 사전처리 어플리케이션
200: 전자장치

Claims

비디오에 대한 사전처리를 수행하는 방법으로서,
(a) 기계학습(machine learning)을 활용한 등장인물의 얼굴 감지를 수행하는 단계;
(b) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및
(c) 상기 단계(a)의 얼굴과 상기 단계(b)의 인체를 동일인물의 것으로 매칭시키는 단계
를 포함하고,
상기 단계(a)는,
(a1) 기 설정된 시간 간격으로 화면 프레임(frame)을 샘플링하는 단계;
(a2) 얼굴감지 알고리즘을 이용하여 등장인물들의 얼굴 이미지를 확보하는 단계; 및
(a3) 확보된 얼굴 이미지를 기반으로 동일인물에 해당하는 얼굴 이미지들을 클러스터링(clustering)하는 단계
를 포함하며,
상기 단계(a3) 이후,
(a4) 상기 단계(a3)에서 클러스터링된 결과에 대하여, 크라우드 단말(crowd)들로부터, 보완 클러스터링된 결과를 수신하여 이로부터 최종 클러스터링 결과를 산출하는 크라우드소싱(crowdsourcing) 단계
를 더 포함하고,
상기 보완 클러스터링된 결과는,
기계학습에 의하여 1차 수행된 클러스터링에서 앞모습, 옆모습 및 다른 표정을 포함하는 원인들 중 하나 이상의 원인으로 인하여 다른 인물이라고 판단되어 다른 클러스터로 분류된 결과에 대하여, 크라우드 단말들이 동일인물로 판단하여 하나의 클러스터로 재 클러스터링한 결과인,
비디오 사전처리 방법.
청구항 1에 있어서,
상기 단계(a) 이전에,
(a0) 사전처리를 수행할 비디오에 대하여, 사전처리 가능한 비디오인지 여부에 대한 판단 결과를 크라우드 단말로부터 수신하는 단계
를 더 포함하고,
상기 단계(a) 이후의 단계는,
상기 단계(a0)의 판단 결과가, 사전처리 가능한 비디오인 경우에 수행하는 것
을 특징으로 하는 비디오 사전처리 방법.
삭제
청구항 1에 있어서,
상기 단계(a3)에서,
총 클러스터의 수를 미리 설정한 후 상기 클러스터링을 수행하는 것
을 특징으로 하는 비디오 사전처리 방법.
삭제
청구항 1에 있어서,
상기 단계(b)는,
(b1) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및
(b2) 상기 비디오 각 프레임에서 감지된 인체들에 대하여, 동일인물의 인체인지 여부를 판단하는 단계
를 포함하는 것을 특징으로 하는 비디오 사전처리 방법.
청구항 6에 있어서,
상기 단계(b2) 이후,
(b3) 상기 단계(b2)의 동일인물 인체여부 판단 결과에 대하여, 크라우드 단말(crowd)들로부터, 오류 정정된 결과를 수신하여 이로부터 최종 동일인물 인체여부 판단 결과를 산출하는 단계
를 더 포함하는 것을 특징으로 하는 비디오 사전처리 방법.
청구항 1에 있어서,
상기 단계(c)의 동일인물의 얼굴과 인체의 매칭은,
크라우드 단말들에 의해 매칭된 결과를 수신하여 이로부터 최종 얼굴 및 인체 매칭 결과를 산출하는 방식으로 수행되는 것
을 특징으로 하는 비디오 사전처리 방법.
비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램으로서,
비일시적 저장 매체에 저장되며, 프로세서에 의하여,
(a) 기계학습(machine learning)을 활용한 등장인물의 얼굴 감지를 수행하는 단계;
(b) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및
(c) 상기 단계(a)의 얼굴과 상기 단계(b)의 인체를 동일인물의 것으로 매칭시키는 단계
가 실행되도록 하는 명령을 포함하고,
상기 단계(a)는,
(a1) 기 설정된 시간 간격으로 화면 프레임(frame)을 샘플링하는 단계;
(a2) 얼굴감지 알고리즘을 이용하여 등장인물들의 얼굴 이미지를 확보하는 단계; 및
(a3) 확보된 얼굴 이미지를 기반으로 동일인물에 해당하는 얼굴 이미지들을 클러스터링(clustering)하는 단계
를 포함하며,
상기 단계(a3) 이후,
(a4) 상기 단계(a3)에서 클러스터링된 결과에 대하여, 크라우드 단말(crowd)들로부터, 보완 클러스터링된 결과를 수신하여 이로부터 최종 클러스터링 결과를 산출하는 크라우드소싱(crowdsourcing) 단계
를 더 포함하고,
상기 보완 클러스터링된 결과는,
기계학습에 의하여 1차 수행된 클러스터링에서 앞모습, 옆모습 및 다른 표정을 포함하는 원인들 중 하나 이상의 원인으로 인하여 다른 인물이라고 판단되어 다른 클러스터로 분류된 결과에 대하여, 크라우드 단말들이 동일인물로 판단하여 하나의 클러스터로 재 클러스터링한 결과인,
비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램.
청구항 9에 있어서,
상기 단계(a) 이전에,
(a0) 사전처리를 수행할 비디오에 대하여, 사전처리 가능한 비디오인지 여부에 대한 판단 결과를 크라우드 단말로부터 수신하는 단계
를 더 포함하고,
상기 단계(a) 이후의 단계는,
상기 단계(a0)의 판단 결과가, 사전처리 가능한 비디오인 경우에 수행하는 것
을 특징으로 하는, 비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램.
삭제
청구항 9에 있어서,
상기 단계(a3)에서,
총 클러스터의 수를 미리 설정한 후 상기 클러스터링을 수행하는 것
을 특징으로 하는, 비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램.
삭제
청구항 9에 있어서,
상기 단계(b)는,
(b1) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및
(b2) 상기 비디오 각 프레임에서 감지된 인체에 대하여, 동일인물의 인체인지 여부를 판단하는 단계
를 포함하는 것을 특징으로 하는, 비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램.
청구항 14에 있어서,
상기 단계(b2) 이후,
(b3) 상기 단계(b2)의 동일인물 인체여부 판단 결과에 대하여, 크라우드 단말(crowd)들로부터, 오류 정정된 결과를 수신하여 이로부터 최종 동일인물 인체여부 판단 결과를 산출하는 단계
를 더 포함하는 것을 특징으로 하는, 비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램.
청구항 9에 있어서,
상기 단계(c)의 동일인물의 얼굴과 인체의 매칭은,
크라우드 단말들에 의해 매칭된 결과를 수신하여 이로부터 최종 얼굴 및 인체 매칭 결과를 산출하는 방식으로 수행되는 것
을 특징으로 하는, 비디오 사전처리 방법을 수행하기 위하여 비일시적 매체에 저장된 컴퓨터 프로그램.
비디오 사전처리 방법을 수행하기 위한 장치로서,
적어도 하나의 프로세서; 및,
컴퓨터로 실행가능한 명령을 저장하는 메모리
를 포함하되,
상기 메모리에 저장된 상기 컴퓨터로 실행가능한 명령은, 상기 적어도 하나의 프로세서에 의하여,
(a) 기계학습(machine learning)을 활용한 등장인물의 얼굴 감지를 수행하는 단계;
(b) 상기 비디오에 등장하는 인물의 몸(인체)을 감지하는 단계; 및
(c) 상기 단계(a)의 얼굴과 상기 단계(b)의 인체를 동일인물의 것으로 매칭시키는 단계
가 실행되도록 하고,
상기 단계(a)는,
(a1) 기 설정된 시간 간격으로 화면 프레임(frame)을 샘플링하는 단계;
(a2) 얼굴감지 알고리즘을 이용하여 등장인물들의 얼굴 이미지를 확보하는 단계; 및
(a3) 확보된 얼굴 이미지를 기반으로 동일인물에 해당하는 얼굴 이미지들을 클러스터링(clustering)하는 단계
를 포함하며,
상기 단계(a3) 이후,
(a4) 상기 단계(a3)에서 클러스터링된 결과에 대하여, 크라우드 단말(crowd)들로부터, 보완 클러스터링된 결과를 수신하여 이로부터 최종 클러스터링 결과를 산출하는 크라우드소싱(crowdsourcing) 단계
를 더 포함하고,
상기 보완 클러스터링된 결과는,
기계학습에 의하여 1차 수행된 클러스터링에서 앞모습, 옆모습 및 다른 표정을 포함하는 원인들 중 하나 이상의 원인으로 인하여 다른 인물이라고 판단되어 다른 클러스터로 분류된 결과에 대하여, 크라우드 단말들이 동일인물로 판단하여 하나의 클러스터로 재 클러스터링한 결과인,
비디오 사전처리 방법을 수행하기 위한 장치.