KR20220164217A

KR20220164217A - 장면 기반의 동영상 정리 방법

Info

Publication number: KR20220164217A
Application number: KR1020210072700A
Authority: KR
Inventors: 이태형; 최완호; 정범기
Original assignee: (주)에스지유
Priority date: 2021-06-04
Filing date: 2021-06-04
Publication date: 2022-12-13
Also published as: KR102558504B1

Abstract

장면 기반의 동영상 정리 방법이 개시된다. 본 발명의 일측면에 따른 컴퓨팅 장치에서 수행되는 동영상 정리 방법은, 복수의 장면에 대한 정보를 포함하는 입력정보를 기반으로 하는 영상컨텐츠정보를 저장하는 단계; 대상영상의 화면 및 음원을 분석하여 장면인식을 위한 인식정보를 생성하는 단계; 및 영상컨텐츠정보를 기반으로, 인식정보에 상응하는 장면을 결정하는 단계를 포함한다.

Description

장면 기반의 동영상 정리 방법{Scene-based video organization method}

본 발명은 장면 기반의 동영상 정리 방법에 관한 것이다.

영화, 드라마와 같은 영상 컨텐츠의 경우 복수의 장면(scene)으로 구성된다. 종래에는 슬레이트 또는 클래퍼보드(Clapperboard)를 치는 것을 함께 촬영하고, 이를 통해 편집자가 육안으로 직접 어떤 장면(scene)에 대한 영상인지를 인식하는 방법을 이용한다. 즉, 슬레이트 또는 클래퍼보드에는 날짜, 장면 번호(Scene Number), 촬영 감독 등에 대한 정보가 기재되어 있고, 촬영 스테프(staff)가 이 슬레이트 또는 클래퍼보드를 조작하는 장면을 영상 콘텐츠 장면의 시작 및/또는 끝에 촬영하여, 편집자가 어떤 장면에 대한 촬영인지를 구분할 수 있도록 하는 것이다.

이러한 방법에 따르면, 편집자가 촬영된 영상을 일일이 확인하여 장면을 인식하여야 하므로 촬영된 영상의 장면 확인 및 구분하기 위한 많은 노력이 필요하게 된다. 또한, 촬영 도중 계속 슬레이트 또는 클래퍼보드의 촬영이 삽입되어야 하는 번거로움도 있다.

대한민국 공개특허 제10-2019-0087711, 영상 전처리 방법, 장치 및 컴퓨터 프로그램

따라서, 본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로서, 딥러닝을 이용하여 영상의 분석에 의한 장면을 분류하는 장면 기반의 동영상 정리 방법 및 장치를 제공하기 위한 것이다.

본 발명의 다른 목적들은 이하에 서술되는 바람직한 실시예를 통하여 보다 명확해질 것이다.

본 발명의 일 측면에 따르면, 컴퓨팅 장치에서 수행되는 동영상 정리 방법에 있어서, 영상컨텐츠를 구성하는 복수의 장면에 대한 정보를 포함하는 입력정보를 기반으로 하는 컨텐츠정보를 저장하는 단계; 대상영상의 화면 및 음원 중 하나 이상을 분석하여 씬(scene) 인식을 위한 인식정보를 생성하는 단계; 및 상기 컨텐츠정보를 기반으로, 상기 인식정보에 상응하는 씬을 상기 대상영상에 대한 확인씬으로서 결정하는 단계를 포함하는, 장면 기반의 동영상 정리 방법 및 그 방법을 실행하는 프로그램이 기록된 기록매체가 제공된다.

여기서, 상기 대상영상에 대해 상기 확인씬에 대한 정보를 포함하는 식별정보를 부여하는 단계를 더 포함하되, 기 저장된 영상들 중 상기 확인씬과 동일한 것으로 결정된 영상의 존재여부 및 개수에 따라 상기 식별정보로서 테이크 번호를 부여한다.

또한, 상기 컨텐츠정보를 기반으로 상기 인식정보에 상응하는 샷(shot)을 구분하여 상기 대상영상을 확인씬을 세분화한다.

또한, 상기 대상영상의 확인씬에 대한 정보를 기반으로, 상기 대상영상이 구간부족으로 판단되는 경우, 상기 대상영상을 삭제하거나 NG영상으로서 관리한다.

또한, 상기 대상영상이 상기 NG영상으로 결정되면, 상기 대상영상에 웃음소리가 포함되는지 여부를 확인하고, 확인 결과에 따라 구분하여 분류한다.

또한, 상기 웃음소리의 레벨을 구분하여 관리하며, 상기 레벨을 이용하여 NG영상을 복수개 추출하여 병합함으로써 NG영상모음 컨텐츠를 생성하는 단계를 더 포함한다.

본 발명에 따르면, 촬영된 영상의 장면을 자동 인식하고 분류함으로써, 촬영의 편의성뿐 아니라 영상을 분류하는 후작업을 최소화할 수 있다.

도 1은 본 발명의 일 실시예에 따른 장면 기반의 동영상 정리를 위한 전체 시스템을 개략적으로 도시한 구성도.
도 2는 본 발명의 일 실시예에 따른 촬영영상의 장면이 구분되는 식별정보를 예시한 테이블.
도 3은 본 발명의 일 실시예에 따른 대상영상의 장면을 결정하는 과정을 도시한 흐름도.
도 4는 본 발명의 일 실시예에 따른 장면, 샷, 테이크 번호에 대한 식별정보를 부여하는 과정을 도시한 흐름도.
도 5 및 도 6은 본 발명의 각 실시예에 따른 NG영상을 식별하는 과정을 도시한 흐름도들.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 후술될 제1 임계값, 제2 임계값 등의 용어는 실질적으로는 각각 상이하거나 일부는 동일한 값인 임계값들로 미리 지정될 수 있으나, 임계값이라는 동일한 단어로 표현될 때 혼동의 여지가 있으므로 구분의 편의상 제1, 제2 등의 용어를 병기하기로 한다.

본 명세서에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 각 도면을 참조하여 설명하는 실시예의 구성 요소가 해당 실시예에만 제한적으로 적용되는 것은 아니며, 본 발명의 기술적 사상이 유지되는 범위 내에서 다른 실시예에 포함되도록 구현될 수 있으며, 또한 별도의 설명이 생략될지라도 복수의 실시예가 통합된 하나의 실시예로 다시 구현될 수도 있음은 당연하다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일하거나 관련된 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 본 발명의 일 실시예에 따른 장면 기반의 동영상 정리를 위한 전체 시스템을 개략적으로 도시한 구성도이고, 도 2는 본 발명의 일 실시예에 따른 촬영영상의 장면이 구분되는 식별정보를 예시한 테이블이며, 도 3은 본 발명의 일 실시예에 따른 대상영상의 장면을 결정하는 과정을 도시한 흐름도이다.

먼저 도 1을 참조하면, 본 실시예에 따른 전체 시스템은 영상 촬영 장치(10), 영상 처리 장치(20) 및 컨텐츠정보DB(30)를 포함한다.

영상 촬영 장치(10)는 영상을 생성할 수 있는 장치로서, 카메라(Camera)를 포함할 수 있다. 영상 촬영 장치(10)는 하나 이상의 카메라를 포함하는 단일의 장치일 수 있다. 영상 촬영 장치(10)는 유선 또는 무선을 통해 영상 처리 장치(20)와 연결될 수 있다.

영상 처리 장치(20)는 하나 이상의 카메라와 같은 영상 촬영 장치(10)에서 촬영된 영상에 대해 씬(scene), 샷(shot), 테이크(take)를 구분 및 분류하여 식별정보를 생성하여 컨텐츠정보DB(30)에 저장한다. 예를 들어, 영상 처리 장치(20)는 연결된 영상 촬영 장치(10)로부터 촬영영상에 대한 데이터를 수신할 수 있다. 또한, 영상 처리 장치(20)는 촬영영상이 수신되면, 미리 설정된 방법에 따라 촬영영상에 상응하는 식별정보를 생성할 수 있다. 이때, 영상 처리 장치(20)는 촬영영상에 상응하는 식별정보를 생성하기 위해 컨텐츠정보DB(30)에 저장된 컨텐츠정보를 이용할 수 있다.

컨텐츠정보DB(30)는 영상 처리 장치(20)와 유무선으로 연결된 장치로서, 여기에는 영상 컨텐츠를 구성하는 복수의 장면(씬)에 대한 정보가 컨텐츠정보로서 저장될 수 있다. 컨텐츠정보는 각 씬(Scene)에 대한 등장인물　정보(성별,　인원수　등), 촬영　장소　정보, 소품　정보, 대사　정보 등을 포함할 수 있다.

따라서, 영상 처리 장치(20)는 각 촬영영상마다 씬, 샷(또는 컷(cut)), 테이크에 대한 식별정보를 자동 부여할 수 있다. 도 2에는 영상 처리 장치(20)에서 수행되는 촬영영상의 분석에 의한 씬 분류 과정이 도시되어 있다.

도 2를 참조하면, 영상 처리 장치(20)는 컨텐츠정보를 저장할 수 있다(S310). 컨텐츠정보는 입력정보를 기반으로 하는 정보로서, 영상컨텐츠를 구성하는 복수의 장면에 대한 정보를 포함하는 것일 수 있다. 컨텐츠정보는 컨텐츠정보DB(30)에 저장된 정보로서 영상 처리 장치(20)가 컨텐츠정보DB(30)에서 다운로드받은 것일 수 있다. 또는 컨텐츠정보는 영상 처리 장치(20)와 연결된 다른 외부 장치(미도시)로부터 수신된 것일 수도 있다. 또는, 컨텐츠정보는 영상 처리 장치(20)에서 자동 생성된 정보일 수도 있다. 예를 들어, 영상 처리 장치(20)는 영화 시나리오에 상응하는 텍스트정보가 입력되면, 이를 분석하여 해당 시나리오의 텍스트 또는 이미지 등을 분석하여 각 씬의 등장인물, 장소, 대사, 소품 등의 컨텐츠정보를 추출하여 컨텐츠정보로서 저장할 수 있다.

이후, 영상 처리 장치(20)는 정리의 대상이 되는 촬영영상(이하 '대상영상'이라 칭함)이 입력되면, 대상영상의 화면(영상을 구성하는 각 프레임 이미지)과 음원(효과음, 대사 등)을 분석하여, 씬 인식을 위한 인식정보를 생성할 수 있다(S320). 예를 들어, 대상영상 내 등장인물의　수, 등장인물의　성별, 등장인물의　나이, 등장인물의　감정, 주요　배경과 소품, 음성을　통한　텍스트　정보 등이 인식정보로서 이용될 수 있다.

여기서, 영상의 분석에 의한 인식정보 추출의 정확성을 높이기 위해, 딥러닝 기술이 이용될 수 있다.

즉, 영상 처리 장치(20)는 대상영상 내 각 컷(cut)마다 등장인물의 수를 분석할 수 있다. 이때, 영상 처리 장치(20)는 얼굴 인식 알고리즘을 이용할 수 있을 것이다. 영상 처리 장치(20)에는 미리 설정된 얼굴 인식 알고리즘이 저장될 수 있고, 영상 처리 장치(20)는 얼굴 인식 알고리즘을 이용하여 대상영상 내 각 컷에 촬영된 등장인물의 수, 나이, 성별 등을 분석할 수 있는 것이다.

또한, 영상 처리 장치(20)는 대상영상 내 각 컷(cut)마다 등장하는 객체의 종류를 분석할 수 있다. 이때, 영상 처리 장치(20)는 객체 인식 알고리즘(Object Detection Algorithm)을 이용할 수 있을 것이다. 영상 처리 장치(20)에는 미리 설정된 객체 인식 알고리즘이 저장될 수 있고, 영상 처리 장치(20)는 객체 인식 알고리즘을 이용하여 대상영상 내 각 컷에 촬영된 객체(예를 들어, 테이블, 의자, 시계, 침대 등)를 분석할 수 있는 것이다.

또한, 영상 처리 장치(20)는 대상영상에 포함된 오디오를 분석하여 오디오의 종류(바람, 새소리, 물소리, 악기 소리 등)를 분석할 수 있다. 이때, 영상 처리 장치(20)는 소리 인식을 위한 딥러닝 알고리즘(Audio Detection Deep-learning Algorithm)을 이용할 수 있을 것이다.

또한, 영상 처리 장치(20)는 대상영상에 포함된 오디오가 사람의 목소리라면, 그 대사를 텍스트로 추출할 수도 있다.

영상 내의 각 이미지를 분석하여 이미지에 포함된 피사체를 인식하는 기술은 현재에도 다양한 분야에서 이용되고 있으며(예를 들어, 욜료(YOLO) 알고리즘 등), 음성을 텍스트로 변환하는 기술, 음성의 파형 등을 분석하여 성별, 나이뿐 아니라 감정까지도 분석하는 음성인식 기술도 널리 이용되고 있다. 따라서, 상술한 딥러닝 알고리즘의 구현 방법은 당업자에게는 자명하다 할 것이다. 따라서, 이에 대한 구체적인 설명은 생략한다.

그리고, 영상 처리 장치(20)는 미리 저장된 컨텐츠정보와 S320에서 생성한 인식정보를 비교하여, 인식정보에 상응하는 씬을 결정하고, 결정된 씬을 대상영상에 대한 확인씬으로서 설정할 수 있다(S330).

추가적으로, 영상 처리 장치(20)는 대상영상의 씬이 확인되면, 해당 씬이 어떤 샷으로 촬영된 것인지에 대해서도 구분 관리할 수 있으며, 동일한 씬(및 샷 또는 컷)이 기존재한다면, 테이크 번호를 달리하여 관리할 수도 있을 것이다. 도 4는 본 발명의 일 실시예에 따른 장면, 샷, 테이크 번호에 대한 식별정보를 부여하는 과정을 도시한 흐름도이다.

도 4를 참조하면, 영상 처리 장치(20)는 인식정보를 이용하여 씬 뿐 아니라 샷도 구분하여 대상영상에 대한 확인씬을 세분화할 수 있다(S410). 즉, 영상 처리 장치(20)는 확인씬, 확인샷을 포함하는 식별정보를 대상영상에 부여하고(S420), 이와 동일한 씬과 샷을 식별정보로서 갖는 영상이 미리 저장되어 있는지를 확인할 수 있다(S430).

만일 존재하지 않는다면, 영상 처리 장치(20)는 대상영상의 테이크 번호를 #1로 부여할 수 있다(S440). 반면, 동일한 씬과 샷을 식별정보로서 갖는 영상이 기존재한다면, 영상 처리 장치(20)는 가장 높은 테이크 번호의 다음번 번호를 당해 대상영상의 테이크 번호로 부여할 수 있다(S450).

한편, 영화와 같은 영상 컨텐츠를 제작할 때, 촬영된 영상들 중 일부는 NG(No Good) 영상으로서 구분될 필요가 있다. NG 영상의 경우 해당 씬의 정상적인 구성시간(예를 들어, 1분짜리 또는 10개의 대사 등)보다 짧은 구간을 갖는 경우가 많을 것이다. 통상 NG는 씬을 구성하는 모든 대사가 진행되기 전에 중단되는 경우가 많기 때문이다. 따라서, 영상 처리 장치(20)는 이를 이용하여 NG 영상을 구분할 수 있다.

도 5 및 도 6은 본 발명의 각 실시예에 따른 NG영상을 식별하는 과정을 도시한 흐름도들이다.

도 5를 참조하면, 영상 처리 장치(20)는 대상영상의 확인씬에 해당하는 씬의 구간(구성시간 또는 전체 대사)를 확인할 수 있다(S510).

그리고, 영상 처리 장치(20)는 확인된 구간과 대상영상의 구간을 비교하여 부족 여부를 판단할 수 있다(S520). 예를 들어, 확인된 구간이 5분인데, 대상영상의 구간은 2분이라면 영상 처리 장치(20)는 이를 '부족'이라 판단될 수 있다.

만일 부족하지 않다면, 영상 처리 장치(20)는 대상영상에 테이크 번호를 부여할수 있다(S530). 반대로, 만일 부족하다면, 영상 처리 장치(20)는 대상영상을 삭제하거나 NG영상 으로서 구분하여 관리할 수 있다(S540).

이에 대한 구체적인 실시예를 도시한 도 6을 참조하면, 대상영상의 구간이 부족하다 판단되면, 대상영상 내에 웃음소리가 존재하는지를 추가적으로 확인할 수 있다(S541).

웃음소리가 존재하지 않는 경우, 영상 처리 장치(20)는 당해 NG 영상을 일반 NG영상으로서 분류할 수 있다(S543). 반대로, 웃음소리가 존재한다면, 영상 처리 장치(20)는 당해 대상영상을 활용NG영상으로서 구분하여 관리할 수 있다(S545).

특히, 영상 처리 장치(20)는 웃음소리의 레벨(예를 들어, 웃음소리의 크기)을 구분하여 함께 관리할 수도 있다. 이에 의해, 영상 처리 장치(20)는 차후 활용NG영상들 중 웃음소리 레벨이 큰 것들을 추출 병합함으로써 NG영상모음 컨텐츠를 자동 생성할 수도 있을 것이다.

여기서, NG영상으로 저장된 대상영상도 관리자에 의해 그 분류가 바뀔 수 있음은 당연하다. 즉, 영상 처리 장치(20)는 촬영영상들을 자동 분류한 이후 관리자에게 분류된 정보를 제공하고, 관리자가 분류된 정보를 변경할 수 있도록 하는 인터페이스를 제공할 수 있을 것이다.

상술한 본 발명에 따른 장면(Scene) 기반의 동영상 정리 방법은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

또한, 상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

10 : 영상 촬영 장치
20 : 영상 처리 장치
30 : 컨텐츠정보 DB

Claims

컴퓨팅 장치에서 수행되는 동영상 정리 방법에 있어서,
영상컨텐츠를 구성하는 복수의 장면에 대한 정보를 포함하는 입력정보를 기반으로 하는 컨텐츠정보를 저장하는 단계;
대상영상의 화면 및 음원 중 하나 이상을 분석하여, 씬(scene) 인식을 위한 인식정보를 생성하는 단계; 및
상기 컨텐츠정보를 기반으로, 상기 인식정보에 상응하는 씬을 상기 대상영상에 대한 확인씬으로서 결정하는 단계;
를 포함하는, 장면 기반의 동영상 정리 방법.
제1항에 있어서,
상기 대상영상에 대해 상기 확인씬에 대한 정보를 포함하는 식별정보를 부여하는 단계;
를 더 포함하되,
기 저장된 영상들 중 상기 확인씬과 동일한 것으로 결정된 영상의 존재여부 및 개수에 따라 상기 식별정보로서 테이크 번호를 부여하는, 장면 기반의 동영상 정리 방법.
제2항에 있어서,
상기 컨텐츠정보를 기반으로 상기 인식정보에 상응하는 샷(shot)을 구분하여 상기 대상영상을 확인씬을 세분화하는 단계;
를 더 포함하는, 장면 기반의 동영상 정리 방법.
제1항에 있어서,
상기 대상영상의 확인씬에 대한 정보를 기반으로, 상기 대상영상이 구간부족으로 판단되는 경우, 상기 대상영상을 삭제하거나 NG영상으로서 관리하는 단계;
를 더 포함하는, 장면 기반의 동영상 정리 방법.
제4항에 있어서,
상기 대상영상이 상기 NG영상으로 결정되면, 상기 대상영상에 웃음소리가 포함되는지 여부를 확인하는 단계; 및
상기 확인 결과에 따라 구분하여 분류하는 단계;
를 더 포함하는, 장면 기반의 동영상 정리 방법.
제5항에 있어서,
상기 웃음소리의 레벨을 구분하는 단계; 및
상기 레벨을 이용하여 복수의 NG영상을 추출함으로써 NG영상모음 컨텐츠를 자동 생성하는 단계;
를 더 포함하는, 장면 기반의 동영상 정리 방법.