KR102294817B1

KR102294817B1 - 동영상 분석 장치 및 방법

Info

Publication number: KR102294817B1
Application number: KR1020190152992A
Authority: KR
Inventors: 서봉원; 이준환; 이성우
Original assignee: 서울대학교 산학협력단
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2021-08-26
Also published as: KR20210064597A

Abstract

본 발명은 동영상을 분석하는 장치에 관한 것으로, 영상 속 오디오 콘텐츠 내의 음성 데이터를 화자 별로 분리하고, 비디오 콘텐츠 내에 등장하는 인물의 얼굴을 인식하여 화자 별로 분리된 음성과 인식된 얼굴을 매칭하여 동영상의 매 프레임마다 등장인물들을 파악하여 프레임 별 등장인물 정보를 제공한다. 이 정보를 이용하여 인물들의 장면 별 등장에 대한 북마킹 정보를 생성하고, 등장인물별 장면 검색 및 클립 영상 생성을 할 수 있다.

Description

동영상 분석 장치 및 방법{APPARATUS AND METHOD FOR ANALYZING VIDEO}

동영상을 분석하는 장치에 관한 것으로, 보다 상세하게는 동영상 내에 등장인물의 등장을 분석하여 프레임 별로 등장 정보를 제공하는 기술에 관한 발명이 개시된다.

동영상 편집은 영상의 품질에 영향을 많이 주는 중요한 작업이지만 수작업으로 이루어져 시간과 비용이 많이 소요된다. 영상을 편집하기 위해서는 편집자가 영상의 전체적인 정보를 알고 있어야 하며 장면 별로 중역 부분을 별도로 북마킹해 두어야 편집 시 쉽게 참조할 수 있다. 일반적으로 동영상 편집은 편집자가 북마킹 작업을 주관적인 컨셉에 따라 직접 수작업으로 수행한다.

영상에서 중요한 부분을 차지하는 등장인물은 객관적인 정보로 등장인물이 출연하는 장면들만 자동으로 북마킹할 수 있다면 수작업으로 수행되는 편집 작업이 편리해질 수 있다. 동영상이 입력으로 제공되면 영상을 분석하여 출연자의 출연장면만 따로 북마킹하고, 북마킹 정보를 이용하여 부가정보들을 생성할 수 있는 장치의 개발이 필요한 실정이다.

본 발명은 동영상을 분석하여 동영상 내에 등장인물이 등장하는 프레임들에 대하여 자동으로 북마킹을 하는 장치 및 방법을 제공하는 것을 목적으로 한다.

추가로, 본 발명은 동영상을 분석하여 동영상 내에 특정 등장인물이 등장하는 장면만 검색할 수 있는 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.

추가로, 본 발명은 동영상을 분석하여 동영상 내에 특정 등장인물이 등장하는 장면만을 포함하는 클립 영상을 생성할 수 있는 장치 및 방법을 제공하는 것을 또 다른 목적으로 한다.

본 발명의 일 양상에 따르는 동영상 분석 장치는 오디오 분석부와, 비디오 분석와, 제어부를 포함한다.

오디오 분석부는 동영상의 오디오 콘텐츠에서 화자 별 음성을 분리하고, 화자 별 음성에 대한 음성 프레임 정보를 생성한다.

비디오 분석부는 동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하여 등장인물을 구분하고, 등장인물에 대한 얼굴인식 프레임 정보를 생성한다.

제어부는 음성 프레임 정보와 얼굴인식 프레임 정보를 조합하여 인식된 얼굴과 음성을 매칭하고, 전체 프레임에 대하여 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성한다.

본 발명의 일 실시 예에 따르는 동영상 분석 방법은 동영상을 입력 받아 처리하는 동영상 분석 장치에서 실행되는 프로그램 명령어들로 적어도 일부가 구현되며, 동영상의 오디오 콘텐츠에서 화자 별 음성을 분리하는 단계와, 화자 별 음성에 대한 음성 프레임 정보를 생성하는 단계와, 동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하여 등장인물을 구분하는 단계와, 등장인물에 대한 얼굴인식 프레임 정보를 생성하는 단계와, 음성 프레임 정보와 얼굴인식 프레임 정보를 조합하여 인식된 얼굴과 음성을 매칭하는 단계와, 전체 프레임에 대하여 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성하는 단계를 포함한다.

본 발명에 의하면 동영상을 분석하여 동영상 내에 등장인물이 등장하는 프레임들에 대하여 자동으로 북마킹할 수 있다.

추가로, 본 발명에 의하면 동영상을 분석하여 동영상 내에 특정 등장인물이 등장하는 장면만 검색할 수 있다.

추가로, 본 발명에 의하면 동영상을 분석하여 동영상 내에 특정 등장인물이 등장하는 장면만을 포함하는 클립 영상을 자동으로 생성할 수 있다.

도 1은 본 발명의 동영상 분석 장치가 동영상을 분석하는 과정을 개념적으로 도시한 것이다.
도 2는 본 발명의 동영상 분석 장치의 블록도를 도시하고 있다.
도 3은 음성 분리 모델이 오디오 콘텐츠에 화자 별 음성을 분리하는 개념을 간략하게 도시하고 있다.
도 4는 화자 별 음성과 인식된 얼굴을 동시발생 행렬을 이용하여 매칭하는 예를 도시한 것이다.
도 5는 슬라이딩 윈도우를 이용하여 등장인물 프레임 벡터를 보정하는 개념을 도시하고 있다.
도 6은 본 발명의 동영상 분석 방법의 예시적 절차를 도시한 절차도이다.

전술한, 그리고 추가적인 양상들은 첨부된 도면을 참조하여 설명하는 실시 예들을 통해 구체화된다. 각 실시 예들의 구성 요소들은 다른 언급이나 상호간에 모순이 없는 한 실시 예 내에서 다양한 조합이 가능한 것으로 이해된다. 블록도의 각 블록은 어느 경우에 있어서 물리적인 부품을 표현할 수 있으나 또 다른 경우에 있어서 하나의 물리적인 부품의 기능의 일부 혹은 복수의 물리적인 부품에 걸친 기능의 논리적인 표현일 수 있다. 때로는 블록 혹은 그 일부의 실체는 프로그램 명령어들의 집합(set)일 수 있다. 이러한 블록들은 전부 혹은 일부가 하드웨어, 소프트웨어 혹은 이들의 결합에 의해 구현될 수 있다.

도 1은 본 발명의 동영상 분석 장치가 동영상을 분석하는 과정을 개념적으로 도시한 것이다. 도 1을 참고하여 동영상을 분석하는 과정을 설명하면, 화자 별로 음성을 분리하도록 학습된 딥러닝 모델인 음성 분리 모델이 동영상(예, 영화)에 포함된 오디오 콘텐츠를 대상으로 화자 별로 음성을 분리하고, 각각의 화자 음성을 동영상 내에 등장인물들의 음성이 나오는 프레임들에 대한 정보인 음성 프레임 정보를 생성하고, 영상에서 얼굴을 인식하도록 학습된 딥러닝 모델인 얼굴 인식 모델이 동영상에 포함된 비디오 콘텐츠의 영상에 등장하는 인물의 얼굴을 인식하여 동일 인물에 대하여 얼굴 인식 그룹(face group)을 형성하고, 인식된 얼굴의 등장인물이 동영상 내에 등장하는 프레임들에 대한 정보인 얼굴인식 프레임 정보를 생성한다. 이때, 음성에 대한 처리와 영상에 대한 처리가 순서에 상관없이 순차적으로 처리될 수도 있고, 동시에 처리될 수도 있다. 이후 음성 프레임 정보와 얼굴인식 프레임 정보를 조합하고 음성과 얼굴이 동시에 등장하는 빈도를 이용하여 자동으로 화자의 음성과 얼굴 인식 그룹을 매칭한다. 매칭 결과와 음성 프레임 정보 및 얼굴인식 프레임 정보를 이용하여 전체 프레임에 대하여 전체 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성한다. 이때, 설정에 따라 음성과 얼굴이 모두 나타나는 경우 등장으로 인정하거나 음성 또는 얼굴 중 하나라도 나오면 등장으로 인정할 수 있다. 생성된 등장인물 프레임 벡터는 아주 짧은 시간 동안만 등장하고 사라지는 부분을 포함하고 있다. 설정된 임계값 이상 연속된 프레임에 등장하는 경우에만 등장으로 인정하도록 전체 등장인물 프레임 벡터를 대상으로 짧은 등장을 삭제하는 보정을 한다. 보정된 등장인물 프레임 벡터와, 음성 프레임 정보 및 얼굴인식 프레임 정보를 이용하여 다양한 메타정보를 생성한다.

도 2는 본 발명의 동영상 분석 장치의 블록도를 도시하고 있다. 동영상 분석 장치(10)는 마이크로프로세서, 메모리, 디스플레이 등을 포함하는 컴퓨팅 장치로 구현될 수 있고, 네트워크로 연결된 복수의 컴퓨팅 장치로 구현될 수도 있다.

본 발명의 일 양상에 따르면, 동영상 분석 장치(10)는 오디오 분석부(100)와, 비디오 분석부(110)와, 제어부(120)를 포함한다.

동영상 분석 장치(10)는 추가적 양상에 따라 메타정보 생성부(130)를 더 포함할 수 있고, 다른 추가적 양상에 따라 메타정보 생성부(130)와, 사용자 인터페이스(160)와, 프레임 검색부(140)를 더 포함할 수 있고, 또 다른 추가적 양상에 따라 메타정보 생성부(130)와, 사용자 인터페이스(160)와, 클립 영상 편집부(150)를 더 포함할 수 있다.

또한, 동영상 분석 장치(10)는 도 2에 도시된 것과 같이 오디오 분석부(100)와, 비디오 분석부(110)와, 제어부(120)와, 메타정보 생성부(130)와, 사용자 인터페이스(160)와, 프레임 검색부(140)와, 클립 영상 편집부(150)를 포함하여 구성될 수 있다.

오디오 분석부(100)와, 비디오 분석부(110)와, 제어부(120)와, 메타정보 생성부(130)와, 사용자 인터페이스(160)와, 프레임 검색부(140)와, 클립 영상 편집부(150)는 적어도 일 부분이 동영상 분석 장치(10)에서 실행되는 프로그램 명령어로 구현될 수 있으며, 하나의 컴퓨팅 장치에서 모두 실행되거나 일부 또는 전체가 다른 컴퓨팅 장치에서 실행될 수 있다.

오디오 분석부(100)는 딥러닝 등의 학습된 신경망 모델인 음성 분리 모델을 포함하고, 음성 분리 모델을 통해 동영상의 오디오 콘텐츠에서 화자 별로 음성을 분리한다. 음성 분리 모델은 다수의 화자가 동시에 발화하는 경우에도 화자 별로 음성을 각각 분리하도록 딥러닝 등으로 학습된 모델이다. 음성 분리 모델의 구체적인 알고리즘은 다양한 논문 등을 통해 공개된 공지된 기술로 이에 대하여 자세한 기술은 생략한다.

도 3은 음성 분리 모델이 오디오 콘텐츠에 화자 별 음성을 분리하는 개념을 간략하게 도시하고 있다. 도 3의 예는 동시에 발화되어 합쳐진(mix) 음원을 화자 별로 분리하는 예를 개념적으로 도시하고 있다.

또한, 오디오 분석부(100)는 화자 별로 분리된 음성에 대하여 음성 프레임 정보를 생성한다. 음성 프레임 정보는 화자 별 음성이 영상의 프레임 정보에 매핑된 정보이다. 예를 들어, 분리된 화자 음성이 등장하는 동영상 구간(시작 시간과 종료 시간)을 타임코드, 재생 경과 시간 또는 프레임 번호 등으로 영상의 프레임 정보에 매핑한다.

비디오 분석부(110)는 딥러닝 등의 학습된 신경망 모델인 얼굴 인식 모델을 포함하고, 얼굴 인식 모델을 통해 동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하여 등장인물을 구분한다. 일반적으로 얼굴 인식 모델은 영상 속의 사람 얼굴에서 눈의 위치, 코의 위치 등의 다수의 키포인트 위치 정보를 벡터화해서 인물을 구분하도록 딥러닝 등으로 학습된 모델이다. 얼굴 인식 모델의 구체적인 알고리즘은 다양한 논문 등을 통해 공개된 공지된 기술로 이에 대하여 자세한 기술은 생략한다.

비디오 분석부(110)가 비디오 콘텐츠에서 인식하는 얼굴은 해당 장면에서 인식되는 얼굴로 동일 인물이라 하더라도 장면에 따라 다양하게 얼굴이 인식될 수 있다. 따라서, 동일 인물에 대하여 인식된 얼굴이 다수 존재할 수 있으므로 본 발명은 동일 인물에 대한 인식된 얼굴을 얼굴 그룹(face group)으로 관리한다.

또한, 비디오 분석부(110)는 얼굴 인식된 등장인물에 대하여 얼굴인식 프레임 정보를 생성한다. 얼굴인식 프레임 정보는 얼굴 인식된 인물이 등장하는 장면이 영상의 프레임 정보에 매핑된 정보이다. 예를 들어, 얼굴 인식된 인물이 등장하는 동영상 구간(시작 시간과 종료 시간)을 타임코드, 재생 경과 시간 또는 프레임 번호 등으로 영상의 프레임 정보에 매핑한다.

제어부(120)는 음성 프레임 정보와 얼굴인식 프레임 정보를 조합하여 인식된 얼굴과 음성을 매칭한다. 음성 프레임 정보 내의 화자 별 음성이 등장하는 프레임 정보와 얼굴인식 프레임 정보에서 인식된 얼굴이 등장하는 프레임 정보로부터 동시 등장하는 빈도를 이용하여 음성과 인식된 얼굴 즉, 얼굴 그룹을 자동으로 매칭한다. 본 발명의 양상에 따라서는 동시발생 행렬을 이용하여 자동으로 매칭할 수 있다. 동시발생 행렬은 데이터 마이닝 분야나 자연어 처리 분야 등에서 두 단어들이 같은 문장에서 동시에 등장하는 빈도를 이용하여 분석할 때 사용되는 행렬로 본 발명에서는 음성과 인식된 얼굴이 동시에 등장하는 프레임의 빈도를 이용하여 화자 별 음성과 인식된 얼굴을 매칭한다.

도 4는 화자 별 음성과 인식된 얼굴을 동시발생 행렬을 이용하여 매칭하는 예를 도시한 것이다. 도 4의 행렬에서 행은 화자 별 음성을 나타내고, 열은 인식된 얼굴(얼굴 그룹)을 나타내고 행과 열이 교차하는 값은 동시에 등장하는 연속 프레임의 빈도수를 의미한다. 각 행렬에서 각 행 별로 빈도수가 높은 열을 매칭한다. 도 4의 예에서 audio1은 face group5와 매칭되고, audio2는 face group1과 매칭되는 방식이다.

또한, 제어부(120)는 전체 프레임에 대하여 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성한다. 등장인물 프레임 벡터를 생성하기 전에 전체 프레임에 대하여 등장인물 별로 음성과 얼굴이 등장하는 프레임은 1로 표시하고 등장하지 않는 프레임은 0으로 표시한 벡터를 먼저 생성한다. 이 벡터의 예시는 도 1의 등장인물 프레임 벡터 생성 부분의 각 face group의 audio, face 행에 표시된 0, 1이다. 제어부(120)는 설정에 따라 각 face group의 audio와 face의 등장 여부를 AND 또는 OR 연산하여 각 등장인물(face group) 별로 등장인물 프레임 벡터를 생성한다.

또한, 제어부(120)는 등장인물이 임계값 이하의 연속된 프레임에 등장하는 경우 해당 프레임에는 등장하지 않은 것으로 등장인물 프레임 벡터를 보정할 수 있다. 음성 프레임 정보 및 얼굴인식 프레임 정보는 등장인물의 음성 또는 얼굴이 아주 짧은 시간에 잠깐 등장했다가 사라지는 경우의 프레임 정보도 포함하고 있기 때문에 이들 정보를 이용하여 생성한 등장인물 프레임 벡터에도 아주 짧은 순간만 등장하는 경우도 해당 인물이 등장하는 것으로 표시된다. 따라서, 제어부(120)는 사전 설정된 임계값 이하의 연속된 프레임으로 등장인물의 음성 및/또는 얼굴이 등장하는 경우에 등장하지 않은 것으로 등장인물 프레임 벡터를 보정하고, 이때 보정을 하기 위해 등장인물 프레임 벡터를 슬라이딩 윈도우를 이용하여 이동하며 보정할 수 있다. 윈도우의 크기는 특정한 값으로 설정되어 있다.

도 5는 슬라이딩 윈도우를 이용하여 등장인물 프레임 벡터를 보정하는 개념을 도시하고 있다. 일반적으로 슬라이딩 윈도우 기법은 시계열 정보를 보정하는 데 이용되며, 짧은 순간 등장하는 노이즈나 변동성이 큰 부분을 주변 값들을 이용하여 평균화하여 보정한다. 등장인물 프레임 벡터의 경우에는 연속적인 값들을 보정하는 것이 아니라 등장(1)/미등장(0)의 불연속적인 값을 가지므로 윈도우 내의 주변 값들의 다수결, 연속된 1의 개수 등을 고려하여 보정한다. 도 5의 예에서는 윈도우(크기 5) 내의 등장(1)이 1개 이므로 이를 미등장(0)으로 보정하는 것이 도시되어 있다. 도시되어 있지 않지만 반대의 경우도 가능하다 윈도우 내 미등장(0)이 1개이고 나머지가 등장(1)인 경우 미등장(0)을 등장(1)으로 보정할 수도 있다.

사용자 인터페이스(160)는 영상 분석 장치가 사용자의 입력을 받아 들이고, 처리된 결과를 화면으로 표시할 수 있다. 또한, 사용자 인터페이스(160)는 동영상을 재생하여 표시할 수 있다.

또한, 사용자 인터페이스(160)는 프레임 검색을 위해 얼굴 인식된 등장인물의 썸네일 이미지를 리스트 형태로 제시하여 사용자가 등장인물을 선택하도록 할 수 있고, 이때 사용자는 복수의 등장인물을 선택할 수도 있다. 사용자 입력에 따른 프레임 검색 결과를 사용자 인터페이스(160)를 통해 사용자에게 제시할 수 있으며, 사용자 인터페이스(160)를 통해 해당 결과의 프레임만 재생하여 표시할 수도 있다.

또한, 사용자 인터페이스(160)는 클립 영상 생성을 위해 얼굴 인식된 등장인물의 썸네일 이미지를 리스트 형태로 제시하여 사용자가 등장인물을 선택하도록 할 수 있고, 이때 사용자는 복수의 등장인물을 선택할 수도 있다. 사용자 인터페이스(160)를 통해 사용자 입력에 따라 생성된 클립 영상을 재생하여 표시할 수도 있다.

메타정보 생성부(130)는 등장인물 프레임 벡터를 이용하여 등장인물이 등장하는 프레임들에 대한 북마킹 정보를 생성한다. 북마킹 정보를 이용하여 동영상 분석 장치(10)가 제공하는 사용자 인터페이스(160)를 통해 특정 등장인물이 등장하는 장면들 사이를 빠르게 탐색할 수 있다.

또한, 메타정보 생성부(130)는 등장인물 프레임 벡터를 이용하여 등장인물 별 등장 시간 및 등장 횟수를 계산할 수 있고, 등장인물의 총 등장 시간 및 등장 횟수를 포함하는 인물별 등장 정보를 생성할 수 있다. 인물별 등장 정보를 이용하여 동영상 분석 장치(10)가 제공하는 사용자 인터페이스(160)를 통해 등장인물 별 등장 정보를 비교하여 제시하는 그래프 등을 출력할 수 있다.

또한, 메타정보 생성부(130)는 등장인물을 노드로 하고, 동일한 장면에 등장하는 등장인물을 엣지로 연결하고, 동시 등장 빈도수를 엣지 가중치로 하는 그래프를 정의하여 그래프 분석을 통해 주요 등장인물, 등장인물 간 관계도를 포함하는 인물 관계도 정보를 생성할 수 있다. 메타정보 생성부(130)는 등장인물의 관계를 그래프 자료구조로 표현하고 그래프 분석 기법들을 사용하여 주요 등장인물을 선정할 수 있으며, 등장인물 간 관계도를 작성할 수 있다. 사용되는 그래프 분석 기법은 Degree Centrality, Closeness Centrality, Betweeness Centrality, Eigenvector Centrality 등의 지표를 이용하여 분석할 수 있다. 예를 들어, Degree Centrality 지표를 이용하면 연결된 노드가 많은 등장인물일수록 주요 등장인물에 해당한다고 볼 수 있다.

프레임 검색부(140)는 북마킹 정보를 이용하여 사용자 인터페이스(160)를 통해 선택된 등장인물이 등장하는 프레임들을 검색할 수 있다. 이때, 검색 결과는 리스트 형태로 제공될 수 있다.

클립 영상 편집부(150)는 북마킹 정보를 이용하여 사용자 인터페이스(160)를 통해 선택된 등장인물이 등장하는 프레임들을 편집하여 자동으로 클립 영상을 생성할 수 있다. 클립 영상 편집부(150)는 선택된 등장인물이 등장하는 프레임들을 먼저 검색한 후 검색된 프레임들을 결합하여 하나의 클립 영상을 생성한다. 생성된 클립 영상을 사용자 인터페이스(160)를 통해 재생할 수 있다.

또한 클립 영상 편집부(150)는 북마킹 정보를 이용하여 사용자 인터페이스(160)를 통해 선택된 등장인물이 등장하는 프레임들을 삭제 편집된 영상을 자동으로 생성할 수 있다.

본 발명이 생성하는 북마킹 정보를 비롯한 다양한 메타정보들을 활용하여 방송 프로그램에서 특정 출연자의 출연분량을 편집하여 삭제하는데 활용할 수 있으며, 다른 방송 프로그램에서 참조영상을 찾을 때도 쉽게 활용할 수 있으며, 출연자별 영상을 자동으로 편집하여 제공하거나, 영화 등에서 배우 별로 출연 분량 등을 계산하여 제공할 수 있다. 또한, 영상에 대하여 주요 등장인물, 재생 시간, 파일 크기 등의 정보를 포함하는 요약 정보를 제공할 수 있다.

본 발명의 일 실시 예에 따르면, 동영상 분석 방법은 동영상을 입력 받아 처리하는 동영상 분석 장치(10)에서 실행되는 프로그램 명령어들로 적어도 일부가 구현되며, 화자 별 음성 분리 단계와, 음성 프레임 정보 생성 단계와, 등장인물 구분 단계와, 얼굴인식 프레임 정보 생성 단계와, 얼굴과 음성 매칭 단계와, 등장인물 프레임 벡터 생성 단계를 포함한다.

화자 별 음성 분리 단계는 동영상의 오디오 콘텐츠에서 화자 별 음성을 분리하는 단계이다. 동영상 분석 장치(10)는 딥러닝 등의 학습된 신경망 모델인 음성 분리 모델을 통해 동영상의 오디오 콘텐츠에서 화자 별로 음성을 분리한다. 음성 분리 모델은 앞서 언급한 딥러닝 등으로 학습된 모델이다.

음성 프레임 정보 생성 단계는 분리된 화자 별 음성에 대한 음성 프레임 정보를 생성하는 단계이다. 음성 프레임 정보는 화자 별 음성이 영상의 프레임 정보에 매핑된 정보이다.

등장인물 구분 단계는 동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하여 등장인물을 구분하는 단계이다. 동영상 분석 장치(10)는 딥러닝 등의 학습된 신경망 모델인 얼굴 인식 모델을 통해 동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하여 등장인물을 구분한다. 얼굴 인식 모델은 앞서 언급한 딥러닝 등으로 학습된 모델이다. 동영상 분석 장치(10)가 비디오 콘텐츠에서 인식하는 얼굴은 해당 장면에서 인식되는 얼굴로 동일 인물이라 하더라도 장면에 따라 다양하게 얼굴이 인식될 수 있다. 따라서, 동일 인물에 대하여 인식된 얼굴이 다수 존재할 수 있으므로 본 발명은 동일 인물에 대한 인식된 얼굴을 얼굴 그룹(face group)으로 관리한다.

얼굴인식 프레임 정보 생성 단계는 등장인물에 대한 얼굴인식 프레임 정보를 생성하는 단계이다. 영상 분석 장치는 얼굴 인식된 등장인물에 대하여 얼굴인식 프레임 정보를 생성한다. 얼굴인식 프레임 정보는 얼굴 인식된 인물이 등장하는 장면이 영상의 프레임 정보에 매핑된 정보이다.

얼굴과 음성 매칭 단계는 음성 프레임 정보와 얼굴인식 프레임 정보를 조합하여 인식된 얼굴과 음성을 매칭하는 단계이다. 영상 분석 장치는 음성 프레임 정보 내의 화자 별 음성이 등장하는 프레임 정보와 얼굴인식 프레임 정보에서 인식된 얼굴이 등장하는 프레임 정보로부터 동시 등장하는 빈도를 이용하여 음성과 인식된 얼굴 즉, 얼굴 그룹을 자동으로 매칭한다.

등장인물 프레임 벡터 생성 단계는 전체 프레임에 대하여 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성하는 단계이다. 영상 분석 장치는 등장인물 프레임 벡터를 생성하기 전에 전체 프레임에 대하여 등장인물 별로 음성과 얼굴이 등장하는 프레임은 1로 표시하고 등장하지 않는 프레임은 0으로 표시한 벡터를 먼저 생성하고, 설정에 따라 각 face group의 audio와 face의 등장 여부를 AND 또는 OR 연산하여 각 등장인물(face group) 별로 등장인물 프레임 벡터를 생성한다.

본 발명의 또 다른 실시 예에 따르면, 동영상 분석 방법은 등장인물 프레임 벡터 보정 단계를 더 포함할 수 있고, 등장인물 프레임 벡터 보정 단계는 등장인물이 임계값 이하의 연속된 프레임에 등장하는 경우 해당 프레임에는 등장하지 않은 것으로 등장인물 프레임 벡터를 보정하는 단계이다.

본 발명의 또 다른 실시 예에 따르면, 동영상 분석 방법은 북마킹 정보 생성 단계를 더 포함할 수 있고, 북마킹 정보 생성 단계는 등장인물 프레임 벡터를 이용하여 등장인물이 등장하는 프레임들에 대한 북마킹 정보를 생성하는 단계이다.

본 발명의 또 다른 실시 예에 따르면, 동영상 분석 방법은 등장정보 생성 단계를 더 포함할 수 있고, 등장정보 생성 단계는 등장인물 프레임 벡터를 이용하여 등장인물 별 등장 시간 및 등장 횟수를 계산하고, 등장 시간 및 등장 횟수를 포함하는 인물별 등장 정보를 생성하는 단계이다.

본 발명의 또 다른 실시 예에 따르면, 동영상 분석 방법은 인물 관계도 정보 생성 단계를 더 포함할 수 있고, 인물 관계도 정보 생성 단계는 그래프 분석을 통해 주요 등장인물, 등장인물 간 관계도를 포함하는 인물 관계도 정보를 생성하는 단계이다. 이때 그래프는 등장인물을 노드로 하고, 동일한 장면에 등장하는 등장인물을 엣지로 연결하고, 동시 등장 빈도수를 엣지 가중치로 하여 정의된다. 영상 분석 장치는 등장인물의 관계를 그래프 자료구조로 표현하고 그래프 분석 기법들을 사용하여 주요 등장인물을 선정할 수 있으며, 등장인물 간 관계도를 작성할 수 있다. 사용되는 그래프 분석 기법은 Degree Centrality, Closeness Centrality, Betweeness Centrality, Eigenvector Centrality 등의 지표를 이용하여 분석할 수 있다.

본 발명의 또 다른 실시 예에 따르면, 동영상 분석 방법은 프레임 검색 단계를 더 포함할 수 있고, 프레임 검색 단계는 북마킹 정보를 이용하여 사용자 인터페이스(160)를 통해 선택된 등장인물이 등장하는 프레임들을 검색하는 단계이다. 검색할 등장인물의 선택은 동영상 분석 장치(10)의 얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 선택 받는 사용자 인터페이스(160)를 통해 적어도 한 명 선택될 수 있다.

본 발명의 또 다른 실시 예에 따르면, 동영상 분석 방법은 클립 영상 생성 단계를 더 포함할 수 있고, 클립 영상 생성 단계는 북마킹 정보를 이용하여 사용자 인터페이스(160)를 통해 선택된 등장인물이 등장하는 프레임들을 편집하여 클립 영상을 생성하는 단계이다. 검색할 등장인물의 선택은 동영상 분석 장치(10)의 얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 선택 받는 사용자 인터페이스(160)를 통해 적어도 한 명 선택될 수 있다.

도 6은 본 발명의 동영상 분석 방법의 예시적 절차를 도시한 절차도이다. 도 6을 참조하여 절차를 설명하면, 동영상 분석 장치(10)는 학습된 신경망 모델인 음성 분리 모델을 통해 동영상의 오디오 콘텐츠에서 화자 별 음성을 분리한다(S1000). 동영상 분석 장치(10)는 분리된 화자 별 음성에 대한 화자 별 음성이 영상의 프레임 정보에 매핑된 정보인 음성 프레임 정보를 생성한다(S1010).

동영상 분석 장치(10)는 학습된 신경망 모델인 얼굴 인식 모델을 통해 동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하여 등장인물을 구분한다(S1030). 이때 동영상 분석 장치(10)가 인식한 얼굴들을 얼굴 그룹(face group)으로 관리한다. 동영상 분석 장치(10)는 등장인물에 대한 얼굴 인식된 인물이 등장하는 장면이 영상의 프레임 정보에 매핑된 정보인 얼굴인식 프레임 정보를 생성한다(S1050).

동영상 분석 장치(10)는 음성 프레임 정보와 얼굴인식 프레임 정보를 조합하여 인식된 얼굴과 음성을 매칭한다S1070). 이때, 영상 분석 장치는 음성 프레임 정보 내의 화자 별 음성이 등장하는 프레임 정보와 얼굴인식 프레임 정보에서 인식된 얼굴이 등장하는 프레임 정보로부터 동시 등장하는 빈도를 이용하여 음성과 인식된 얼굴 즉, 얼굴 그룹을 자동으로 매칭한다.

동영상 분석 장치(10)는 전체 프레임에 대하여 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성하고(S1090), 등장인물이 임계값 이하의 연속된 프레임에 등장하는 경우 해당 프레임에는 등장하지 않은 것으로 등장인물 프레임 벡터를 보정한다.

동영상 분석 장치(10)는 등장인물 프레임 벡터를 이용하여 등장인물이 등장하는 프레임들에 대한 북마킹 정보를 생성하고(S1110), 등장인물 프레임 벡터를 이용하여 등장인물 별 등장 시간 및 등장 횟수를 계산하고, 등장 시간 및 등장 횟수를 포함하는 인물별 등장 정보를 생성하고(S1130), 그래프 분석을 통해 주요 등장인물, 등장인물 간 관계도를 포함하는 인물 관계도 정보를 생성한다(S1150). 이 과정들은 필수적 단계가 아니며 예시와 다른 순서로 생성될 수 있고, 전부 또는 일부 단계는 사용자의 선택에 따라 생략될 수도 있다.

사용자가 특정 등장인물 또는 등장인물들이 등장하는 장면을 검색하고자 할 때, 동영상 분석 장치(10)는 북마킹 정보를 이용하여 사용자 인터페이스(160)를 통해 선택된 등장인물이 등장하는 프레임들을 검색한다(S1170). 이때, 검색할 등장인물의 선택은 동영상 분석 장치(10)의 얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 선택 받는 사용자 인터페이스(160)를 통해 적어도 한 명 선택될 수 있다.

사용자가 특정 등장인물 또는 등장인물들이 등장하는 장면으로 구성된 클립 영상을 생성하고자 할 때, 동영상 분석 장치(10)는 북마킹 정보를 이용하여 사용자 인터페이스(160)를 통해 선택된 등장인물이 등장하는 프레임들을 편집하여 클립 영상을 생성한다(S1190). 이때, 검색할 등장인물의 선택은 동영상 분석 장치(10)의 얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 선택 받는 사용자 인터페이스(160)를 통해 적어도 한 명 선택될 수 있다.

이상에서 본 발명을 첨부된 도면을 참조하는 실시 예들을 통해 설명하였지만 이에 한정되는 것은 아니며, 이들로부터 당업자라면 자명하게 도출할 수 있는 다양한 변형 예들을 포괄하도록 해석되어야 한다. 특허청구범위는 이러한 변형 예들을 포괄하도록 의도되었다.

10: 동영상 분석 장치
100: 오디오 분석부
110: 비디오 분석부
120: 제어부
130: 메타정보 생성부
140: 프레임 검색부
150: 클립 영상 편집부
160: 사용자 인터페이스

Claims

동영상의 오디오 콘텐츠에서 화자 별 음성을 분리하고, 화자 별 음성에 대한 음성 프레임 정보를 생성하는 오디오 분석부;
동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하고 동일 인물에 대해 인식된 얼굴을 얼굴 그룹으로 관리하여 등장인물을 구분하고, 등장인물에 대한 얼굴인식 프레임 정보를 생성하는 비디오 분석부; 및
음성 프레임 정보와 얼굴인식 프레임 정보를 조합하고 동시에 등장하는 프레임의 빈도를 이용하여 얼굴 인식 그룹과 음성을 매칭하고, 전체 프레임에 대하여 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성하는 제어부;
를 포함하되,
상기 제어부는 등장인물이 임계값 이하의 연속된 프레임에 등장하는 경우 해당 프레임에는 등장하지 않은 것으로 등장인물 프레임 벡터를 보정하는 동영상 분석 장치.
삭제
제 1 항에 있어서, 상기 장치는
등장인물이 등장하는 프레임들에 대한 북마킹 정보를 생성하는 메타정보 생성부;
를 더 포함하는 동영상 분석 장치.
제 3 항에 있어서,
메타정보 생성부는 등장인물 별 등장 시간 및 등장 횟수를 계산하고, 등장 시간 및 등장 횟수를 포함하는 인물별 등장 정보를 생성하는 동영상 분석 장치.
제 3 항에 있어서,
메타정보 생성부는 등장인물을 노드로 하고, 동일한 장면에 등장하는 등장인물을 엣지로 연결하고, 동시 등장 빈도수를 엣지 가중치로 하는 그래프를 정의하여 그래프 분석을 통해 주요 등장인물, 등장인물 간 관계도를 포함하는 인물 관계도 정보를 생성하는 동영상 분석 장치.
제 3 항에 있어서, 상기 장치는
얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 적어도 한 명 선택 받고, 검색된 프레임들을 재생하여 표시하는 사용자 인터페이스; 및
북마킹 정보를 이용하여 선택된 등장인물이 등장하는 프레임들을 검색하는 프레임 검색부;
를 더 포함하는 동영상 분석 장치.
제 3 항에 있어서, 상기 장치는
얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 적어도 한 명 선택 받고, 검색된 프레임들을 재생하여 표시하는 사용자 인터페이스; 및
북마킹 정보를 이용하여 선택된 등장인물이 등장하는 프레임들을 편집하여 클립 영상을 생성하는 클립 영상 편집부;
를 더 포함하는 동영상 분석 장치.
동영상을 입력 받아 처리하는 동영상 분석 장치에서 실행되는 프로그램 명령어들로 적어도 일부가 구현되는 동영상 분석 방법에 있어서,
동영상의 오디오 콘텐츠에서 화자 별 음성을 분리하는 단계;
화자 별 음성에 대한 음성 프레임 정보를 생성하는 단계;
동영상의 비디오 콘텐츠에서 등장하는 인물들의 얼굴을 인식하고 동일 인물에 대해 인식된 얼굴을 얼굴 그룹으로 관리하여 등장인물을 구분하는 단계;
등장인물에 대한 얼굴인식 프레임 정보를 생성하는 단계;
음성 프레임 정보와 얼굴인식 프레임 정보를 조합하고 동시에 등장하는 프레임의 빈도를 이용하여 인식된 얼굴 그룹과 음성을 매칭하는 단계;
전체 프레임에 대하여 등장인물의 등장 여부를 나타내는 등장인물 프레임 벡터를 생성하는 단계; 및
등장인물이 임계값 이하의 연속된 프레임에 등장하는 경우 해당 프레임에는 등장하지 않은 것으로 등장인물 프레임 벡터를 보정하는 단계;
를 포함하는 동영상 분석 방법.
삭제
제 8 항에 있어서, 상기 방법은
등장인물이 등장하는 프레임들에 대한 북마킹 정보를 생성하는 단계;
를 더 포함하는 동영상 분석 방법.
제 10 항에 있어서, 상기 방법은
등장인물 별 등장 시간 및 등장 횟수를 계산하고, 등장 시간 및 등장 횟수를 포함하는 인물별 등장 정보를 생성하는 단계;
를 더 포함하는 동영상 분석 방법.
제 10 항에 있어서, 상기 방법은
그래프 분석을 통해 주요 등장인물, 등장인물 간 관계도를 포함하는 인물 관계도 정보를 생성하는 단계;
를 더 포함하되,
그래프는 등장인물을 노드로 하고, 동일한 장면에 등장하는 등장인물을 엣지로 연결하고, 동시 등장 빈도수를 엣지 가중치로 하여 정의되는 동영상 분석 방법.
제 10 항에 있어서, 상기 방법은
북마킹 정보를 이용하여 선택된 등장인물이 등장하는 프레임들을 검색하는 단계;
를 더 포함하되,
검색할 등장인물의 선택은 동영상 분석 장치의 얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 선택 받는 사용자 인터페이스를 통해 적어도 한 명 선택되는 동영상 분석 방법.
제 10 항에 있어서, 상기 방법은
북마킹 정보를 이용하여 선택된 등장인물이 등장하는 프레임들을 편집하여 클립 영상을 생성하는 단계;
를 더 포함하되,
검색할 등장인물의 선택은 동영상 분석 장치의 얼굴 인식된 등장인물을 제시하여 검색할 등장인물을 선택 받는 사용자 인터페이스를 통해 적어도 한 명 선택되는 동영상 분석 방법.