KR20180062005A

KR20180062005A - 동영상 발췌 및 관리 시스템 및 방법

Info

Publication number: KR20180062005A
Application number: KR1020160161801A
Authority: KR
Inventors: 서영애
Original assignee: 한국전자통신연구원
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2018-06-08

Abstract

본 발명은 동영상 발췌 및 관리 시스템에 관한 것으로, 상기 시스템은, 입력되는 동영상을 재생하는 동영상 재생부; 상기 동영상 재생부로부터 출력되는 동영상과 음성 인식의 결과를 저장하는 재생 동영상 저장부; 입력되는 요청에 따라, 상기 동영상 재생부 상의 현재 화면을 캡처하여 저장하거나, 상기 재생 동영상 저장부에 저장된 동영상의 일부 구간의 동영상 및 음성 인식 결과를 발췌하는 요청 처리부; 상기 요청 처리부에 의해 발췌된 음성 인식 결과의 내용을 요약하여 요약서를 생성하는 요약부; 및 상기 요약부로부터 제공되는 요약서 및 상기 요청 처리부로부터 제공되는 동영상을 저장 및 관리하는 관리부를 포함한다.

Description

동영상 발췌 및 관리 시스템 및 방법{System and method selecting and managing moving image}

본 발명은 동영상 발췌 및 관리 시스템에 관한 것으로, 상세하게는 사용자의 요청에 따라 동영상 발췌 구간을 자동으로 탐지 및 결정하여, 해당 구간의 동영상을 저장하는 한편, 해당 내용을 텍스트로 자동 요약 및 번역할 수 있도록 구현된 동영상 발췌 및 관리 시스템 및 방법에 관한 것이다.

인터넷과 미디어의 발달로, 많은 사람들이 동영상 컨텐츠를 통하여 학습을 하거나 정보를 찾는다. 시청자는 재상 기간이 긴 동영상을 시청하는 중에 동영상의 일부만 발췌하여 저장하거나, 일부 동영상의 내용을 글로 요약하여 저장, 관리할 필요성을 종종 느낀다.

이를 위해, 기존에는 동영상의 재생을 마친 후, 별도의 동영상 캡처 프로그램 등을 이용하여 발췌, 저장하여 했으며, 글로 요약 정리하고자 할 경우에는 시청자가 동영상의 내용을 듣고 이를 직접 글로 전사하거나, 요약하는 등의 작업을 수행하여야 했다.

그러나, 기존의 동영상 편집 프로그램을 이용하여 동영상의 일부를 발췌하여 저장하고자 할 경우, 사용자가 구간의 시작과 끝을 일일이 지정해야 하는 등의 작업을 필요로 하기 때문에, 사용자는 번거로움을 느낄 수밖에 없었다.

또한, 기존의 동영상 편집 프로그램을 이용하여 동영상의 일부를 발췌하여 저장하고자 할 경우, 동영상 시청 흐름을 방해하는 문제점이 있다.

뿐만 아니라, 시청하고 있는 동영상이 외국어로 된 경우, 외국어에 능숙하지 않은 시청자는 해당 동영상으로부터 정보를 충분히 습득하기 어려웠다.

현재 동영상 컨텐츠를 통한 정보의 습득은 점점 늘어나고 있다. 이렇게 동영상을 시청한 후 정리 등을 목적으로 발췌, 요약하여 관리해야 할 내용이 늘어날수록, 좀 더 효율적으로 관리하는 방법이 요구되나, 기존의 방법들은 사용자에게 통합적이고 체계적인 방법을 제공하지 못했다.

따라서, 본 발명은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 제안된 것으로, 본 발명의 목적은, 사용자의 요청에 따라 동영상 발췌 구간을 자동으로 탐지 및 결정하여, 해당 구간의 동영상을 저장하는 한편, 해당 내용을 텍스트로 자동 요약 및 번역할 수 있도록 구현된 동영상 발췌 및 관리 시스템 및 방법을 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 실시 예에 따른 동영상 발췌 및 관리 시스템은, 입력되는 동영상을 재생하는 동영상 재생부; 상기 동영상 재생부로부터 출력되는 동영상과 음성 인식의 결과를 저장하는 재생 동영상 저장부; 입력되는 요청에 따라, 상기 동영상 재생부 상의 현재 화면을 캡처하여 저장하거나, 상기 재생 동영상 저장부에 저장된 동영상의 일부 구간의 동영상 및 음성 인식 결과를 발췌하는 요청 처리부; 상기 요청 처리부에 의해 발췌된 음성 인식 결과의 내용을 요약하여 요약서를 생성하는 요약부; 및 상기 요약부로부터 제공되는 요약서 및 상기 요청 처리부로부터 제공되는 동영상을 저장 및 관리하는 관리부를 포함한다.

상기 재생 동영상 저장부는, 상기 동영상 재생부로부터 출력되는 동영상을 인식하는 영상 인식부; 상기 동영상 재생부로부터 출력되는 음성을 인식하는 음성 인식부; 인식된 동영상과 음성 인식 결과를 매칭하는 매칭부; 및 상기 매칭부에 의해 매칭된 동영상과 음성 인식 결과를 저장하는 저장부를 포함한다.

상기 동영상이 자막을 제공하는 동영상인 경우, 상기 영상 인식부는 상기 동영상 내 자막에 대한 문자 인식을 하고, 상기 매칭부는 인식된 동영상과 문자 인식 결과를 매칭하고, 상기 저장부는 상기 매칭부에 의해 매칭된 동영상과 문자 인식 결과를 저장하도록 구성된다.

상기 요청 처리부는, 입력되는 요청에 따라, 상기 동영상 재생부 상의 현재 화면을 캡처하거나, 화면저장 요청신호 혹은 구간저장 요청신호를 제공하는 사용자 요청 인지부; 및 상기 사용자 요청 인지부로부터의 요청 신호에 따라, 상기 동영상 재생부 상의 현재 화면을 캡처하여 저장하거나, 상기 재생 동영상 저장부에 저장된 동영상의 일부 구간의 동영상 및 음성 인식 결과를 발췌하는 발췌부를 포함한다.

상기 발췌부는, 상기 구간저장 요청신호를 수신하면, 발췌 구간을 추정하고, 추정된 발췌 구간의 동영상 및 음성 인식 결과를 발췌하도록 구성된다.

상기 발췌부는, 상기 구간저장 요청신호와 함께 입력되는 요청 위치 정보를 바탕으로 발췌 구간을 추정하되, 요청 위치의 전후 내용을 파악하여 발췌 구간을 추정하도록 구성된다.

상기 발췌부는, 상기 요청 위치의 전후 동영상의 이미지 정보 및 음성 인식 결과를 이용하여 상기 발췌 구간을 추정하도록 구성된다.

상기 발췌부로부터 제공되는 음성 인식 결과의 내용을 번역하는 번역부를 더 포함한다.

상기 발췌부는, 발췌된 음성 인식 결과에 대한 번역이 수행되어야 하는지를 판단하여, 번역이 수행되어야 하는 것으로 판단하면, 발췌된 음성 인식 결과를 상기 번역부로 제공하도록 구성된다.

상기 번역부는, 상기 발췌부로부터 제공되는 음성 인식 결과의 내용을 번역하고, 번역 결과를 상기 요약부로 제공하도록 구성된다.

상기 요약부는 상기 번역부로부터 제공되는 번역 결과의 내용을 요약하여 요약서를 생성하고, 생성된 요약서를 상기 관리부로 제공하도록 구성된다.

본 발명의 실시 예에 따른 동영상 발췌 및 관리 방법은, 동영상 재생부로부터 출력되는 동영상과 음성 인식의 결과를 저장하는 단계; 요청이 입력되면, 입력되는 요청이 화면저장 요청인지 구간저장 요청인지를 판단하는 단계; 입력되는 요청이 구간저장 요청인 경우, 요청과 함께 입력되는 요청 위치를 기반으로, 발췌 구간을 추정하고, 추정된 발췌 구간의 동영상 및 음성 인식 결과를 발췌하는 단계; 발췌된 음성 인식 결과에 대한 번역이 수행되어야 하는지를 판단하는 단계; 번역이 수행되어야 하는 것으로 판단된 경우, 발췌된 음성 인식 결과의 내용을 번역하는 단계; 번역 결과의 내용을 요약하여 요약서를 생성하는 단계; 및 발췌된 동영상과 요약서를 저장 및 관리하는 단계를 포함한다.

상기 저장하는 단계는, 상기 동영상 재생부로부터 출력되는 동영상을 인식하는 단계; 상기 동영상 재생부로부터 출력되는 음성을 인식하는 단계; 인식된 동영상과 음성 인식 결과를 매칭하는 단계; 및 상기 매칭부에 의해 매칭된 동영상과 음성 인식 결과를 저장하는 단계를 포함한다.

입력되는 요청이 화면저장 요청인 경우, 상기 동영상 재생부 상의 현재 화면을 캡처하는 단계를 더 포함한다.

상기 발췌하는 단계는, 상기 요청 위치의 전후 동영상의 이미지 정보 및 음성 인식 결과를 이용하여 발췌 구간을 추정하는 단계이다.

번역이 수행되지 않아도 되는 것으로 판단된 경우, 발췌된 음성 인식 결과의 내용을 요약하여 요약서를 생성하는 단계; 및 발췌된 동영상과 요약서를 저장 및 관리하는 단계를 더 포함한다.

이와 같은 본 발명의 실시 예에 따르면, 사용자의 요청에 따라 동영상 발췌 구간을 자동으로 탐지 및 결정하여, 해당 구간의 동영상을 저장하는 한편, 해당 내용을 텍스트로 자동 요약 및 번역할 수 있도록 구현된 동영상 발췌 및 관리 시스템 및 방법이 제공된다.

이와 같은 발명에 따르면, 사용자의 간단한 조작만으로도, 사용자가 원하는 동영상의 일부를 효과적으로 발췌할 수 있고, 내용 및 내용의 요약을 용이하게 저장 및 관리할 수 있다.

도 1은 본 발명의 바람직한 실시 예에 따른 동영상 발췌 및 관리 시스템의 구성의 일례를 도시한 도면이다.
도 2는 도 1의 재생 동영상 저장부의 구성의 일례를 도시한 도면이다.
도 3은 본 발명의 바람직한 실시 예에 따른 동영상 발췌 및 관리 시스템의 동작에 따른 순서를 도시한 플로우 차트이다.

본문에 개시되어 있는 본 발명의 실시 예들에 대해서, 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 실시 예들은 다양한 형태로 실시될 수 있으며 본문에 설명된 실시 예들에 한정되는 것으로 해석되어서는 안 된다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 본문에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위로부터 이탈되지 않은 채 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 “연결되어” 있다거나 “접속되어” 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 “직접 연결되어” 있다거나 “직접 접속되어” 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성요소들 간의 관계를 설명하는 다른 표현들, 즉 “~사이에”와 “바로 ~사이에” 또는 “~에 이웃하는”과 “~에 직접 이웃하는” 등도 마찬가지로 해석되어야 한다.

본 출원에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, “포함하다” 또는 “가지다” 등의 용어는 개시된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

한편, 어떤 실시 예가 달리 구현 가능한 경우에 특정 블록 내에 명기된 기능 또는 동작이 순서도에 명기된 순서와 다르게 일어날 수도 있다. 예를 들어, 연속하는 두 블록이 실제로는 실질적으로 동시에 수행될 수도 있고, 관련된 기능 또는 동작에 따라서는 상기 블록들이 거꾸로 수행될 수도 있다.

이하, 본 발명에서 제안하는 동영상 발췌 및 관리 시스템 및 이의 동작에 대하여 첨부된 도면을 참조하여 상세하게 설명한다.

도 1은 본 발명의 바람직한 실시 예에 따른 동영상 발췌 및 관리 시스템의 구성의 일례를 도시한 도면이고, 도 2는 도 1의 재생 동영상 저장부의 구성의 일례를 도시한 도면이다.

도 1을 참조하면, 본 발명의 바람직한 실시 예에 따른 동영상 발췌 및 관리 시스템(100, 이하 ‘시스템’)은 기능 수행을 위한 적어도 하나 이상의 프로세서와 기능 수행에 필요한 정보 혹은 수행 결과를 저장하는 메모리를 포함한다.

구체적으로, 상기 시스템(100)은 동영상 재생부(110), 재생 동영상 저장부(120), 요청 처리부(130), 요약부(140), 관리부(150) 및 번역부(160)를 포함할 수 있다.

상기 동영상 재생부(110)는 입력되는 동영상을 재생하는 것으로서, 화면을 디스플레이하는 표시부, 음성을 출력하는 음성 출력부 등을 포함하여 구성된다.

상기 재생 동영상 저장부(120)는 동영상 재생부(110)로부터 출력되는 영상과 음성을 인식하여, 상응하는 영상과 음성을 매칭하여 저장한다.

구체적으로, 도 2에 도시된 바와 같이, 상기 재생 동영상 저장부(120)는 영상 인식부(121), 음성 인식부(122), 매칭부(123) 및 저장부(124)로 구성될 수 있다.

상기 영상 인식부(121)는 동영상 재생부(110)에 플레이되는 동영상을 인식하고, 음성 인식부(122)는 동영상 재생부(110)로부터 출력되는 음성을 인식한다.

그리고, 상기 매칭부(123)는 영상 인식부(121)에 의해 인식된 동영상과 음성 인식부(122)에 의해 인식된 음성 인식 결과를 매칭하여 저장부(124)에 저장한다.

한편, 자막이 제공되는 동영상의 경우에는, 상기 재생 동영상 저장부(120)는 음성 인식 결과 대신에 동영상 내 자막을 인식하여 저장부(124)에 저장할 수 있다.

이를 위해, 상기 영상 인식부(121)가 동영상에 포함된 자막에 대한 문자 인식을 하고, 동영상과 함께 문자 인식 결과를 매칭부(123)에 제공할 수 있다.

그러면, 상기 매칭부(123)는 영상 인식부(121)로부터 제공되는 동영상과 문자 인식 결과를 저장부(124)에 저장할 수 있다.

즉, 경우에 따라서, 상기 매칭부(123)는 동영상과 음성 인식 결과를 매칭하여 저장부(124)에 저장하거나, 동영상과 문자 인식 결과를 매칭하여 저장부(124)에 저장할 수 있다.

상기 요청 처리부(130)는 입력되는 요청에 따라 동영상 재생부(110) 상의 현재 화면을 캡처하여 저장하거나, 재생된 동영상의 일부 구간을 발췌한다.

이때, 상기 요청 처리부(130)는 재생 동영상 저장부(120)에 저장된 동영상의 일부 구간을 발췌하며, 이때 동영상과 함께 음성 인식 결과도 발췌할 수 있다.

또한, 상기 요청 처리부(130)는 재생 동영상 저장부(120)에 저장된 음성 인식 결과의 일부만 혹은 동영상의 일부 구간만 발췌할 수 있다.

이때, 상기 요청 처리부(130)는 요청이 입력되는 시점에서, 발췌 구간을 추정하고, 추정된 발췌 구간의 동영상 및/혹은 음성 인식 결과를 발췌한다.

한편, 상기 요청 처리부(130)는 요청과 함께, 재생 동영상 저장부(120)에 저장된 동영상에서의 요청과 관련된 위치 정보를 함께 입력받도록 구현된다.

즉, 사용자가 동영상의 전체 구간 중 일정 위치를 터치하여 발췌 요청을 하면, 요청 처리부(130)는 사용자에 의해 터치된 위치의 정보를 요청과 함께 요청 위치 정보를 입력받게 된다.

구체적으로, 상기 요청 처리부(130)는 사용자 요청 인지부(131) 및 발췌부(132)로 구성될 수 있다.

상기 사용자 요청 인지부(131)는 입력되는 요청에 따라, 동영상 재생부(110) 상의 현재 화면을 캡처하거나, 입력되는 요청에 상응하는 신호(‘요청 신호’)를 생성하여 발췌부(132)로 제공한다.

이때, 상기 사용자 요청 인지부(131)는 입력되는 요청에 상응하여 화면저장 요청신호 혹은 구간저장 요청신호를 생성하여 발췌부(142)로 제공할 수 있다.

예를 들어, 상기 사용자 요청 인지부(131)는 현재 화면을 저장하기 위한 요청이 이루어지는 경우(ex, 짧게 한 번의 터치가 이루어지는 경우 등)에 동영상 재생부(110) 상의 현재 화면을 캡처하여 저장하거나, 화면저장 요청신호를 생성하여 발췌부(142)로 제공할 수 있다.

그리고, 상기 사용자 요청 인지부(131)는 구간을 저장하기 위한 요청이 이루어지는 경우(ex, 길게 한 번의 터치가 이루어지는 경우 혹은 짧게 두 번의 터치가 이루어지는 경우 등)에 구간저장 요청신호를 생성하여 발췌부(132)로 제공할 수 있다.

이때, 상기 사용자 요청 인지부(131)는 구간저장 요청신호와 함께 요청 위치 정보를 함께 발췌(132)로 제공한다.

상기 발췌부(132)는 화면저장 요청신호를 수신하면 동영상 재생부(110) 상의 현재 화면을 캡처하고, 구간저장 요청신호를 수신하면 재생 동영상 저장부(120)에 저장된 동영상 및/혹은 음성 인식 결과의 일부 구간을 발췌한다.

한편, 상기 요청 처리부(130)에 의해 획득되는 정보(캡처 화면, 혹은 발췌 동영상 및/혹은 음성 인식 결과)는 기 설정되는 저장 장치에 저장되거나, 해당 정보를 필요로 하는 구성으로 제공될 수 있는데, 예를 들면 요약부(140), 관리부(150) 및 번역부(160)로 제공될 수 있다.

그리고, 상기 발췌부(132)는 사용자 요청 인지부(131)로부터 구간저장 요청신호를 수신하면, 발췌 구간을 추정하고, 추정된 발췌 구간의 동영상 및/혹은 음성 인식 결과를 발췌한다.

이때, 상기 발췌부(132)는 구간저장 요청신호와 함께 수신되는 요청 위치 정보를 바탕으로 발췌 구간을 추정할 수 있으며, 이때, 요청 위치의 전후 내용을 파악하여 발췌 구간을 추정할 수 있다.

예를 들어, 재생 동영상 저장부(120)에 60분짜리 동영상이 저장되어 있고, 사용자가 동영상의 30분 위치를 터치하여 구간저장을 요청하였다면, 발췌부(132)는 재생 동영상 저장부(120)에 저장된 동영상의 30분 위치를 중심으로 전후 내용을 파악하여 발췌 구간을 추정할 수 있다.

이때, 상기 발췌부(132)는 발췌 구간을 추정함에 있어서, 요청 위치의 전후 동영상의 이미지 정보 및 음성 인식 결과를 이용할 수 있다.

예를 들어, 상기 발췌부(132)는 음성 인식 결과 일정 시간 동안 내용이 없는 상태이면, 해당 위치를 발췌 구간의 시작 지점 혹은 종료 지점으로 추정할 수 있다.

다른 예로, 상기 발췌부(132)는 음성 인식 결과에서 ‘요약하자면’, ‘다시 말하면’, ‘그래서’ 등과 같은 표현들이 포함되어 있으면, 해당 위치를 발췌 구간의 시작 지점 혹은 종료 지점으로 추정할 수 있다.

또 다른 예로, 상기 발췌부(132)는 동영상의 이미지 정보를 분석하여, 이미지 사이의 관련성이 급격히 떨어지는 위치를 발췌 구간의 시작 지점 혹은 종료 지점으로 추정할 수 있다.

이 외에도, 상기 발췌부(132)는 음성 인식 결과를 분석하여, 단어간 유사도와 같은 의미적 응집도를 측정하여, 응집도가 급격히 떨어지는 구간을 찾아 발췌 구간을 추정하는 데에 이용할 수 있다.

그리고, 상기 발췌부(132)는 상기 언급된 정보들을 기반으로 한 휴리스틱 규칙이나 기계 학습 방법 등의 다양한 방법을 이용하여 발췌 구간을 추정할 수 있다.

한편, 상기 발췌부(132)는 발췌된 동영상 및 음성 인식 결과를 필요로 하는 구성으로 제공할 수 있는데, 예를 들어, 발췌된 동영상을 관리부(150)로 제공하고, 발췌된 음성 인식 결과를 요약부(140) 혹은 번역부(160)로 제공할 수 있다.

예를 들어, 상기 발췌부(132)는 번역 기능이 설정되어 있는지를 판단하고, 번역 기능이 설정되어 있지 않으면, 발췌된 음성 인식 결과를 요약부(140)로 제공한다.

반면, 번역 기능이 설정되어 있으면, 상기 발췌부(132)는 발췌된 음성 인식 결과에 대한 번역이 필요한지를 판단하고, 필요하다고 판단하면, 발췌된 음성 인식 결과를 번역부(160)로 제공하고, 필요하지 않다고 판단하면, 발췌된 음성 인식 결과를 요약부(140)로 제공한다.

다른 예를 들어, 상기 발췌부(132)는 번역 요청이 입력되는지를 판단하고, 번역 요청이 입력되는 것으로 판단하면, 발췌된 음성 인식 결과를 번역부(160)로 제공하고, 번역 요청이 입력되지 않은 것으로 판단하면, 발췌된 음성 인식 결과를 요약부(140)로 제공한다.

이외에도, 상기 발췌부(132)는 다양한 판단 기준을 바탕으로 음성 인식 결과에 대한 번역이 필요한지를 판단하도록 구현될 수 있다.

상기 요약부(140)는 외부로부터 제공되는 텍스트를 분석하여 기 설정되는 수준으로 요약하여, 요약서를 생성하여 관리부(150)로 제공한다.

이때, 상기 요약부(140)는 발췌부(132)로부터 제공되는 텍스트 형태의 음성 인식 결과에 대한 요약서를 생성하거나, 번역부(160)로부터 제공되는 텍스트 형태의 번역 결과에 대한 요약서를 생성할 수 있다.

여기서, 텍스트에 대한 요약 수준은 다양하게 설정될 수 있는데, 예를 들어 단어 수준의 키워드 형태의 요약부터 불용어 수준의 단어만 제거한 전체 텍스트 레벨의 요약까지 다양하게 설정될 수 있다.

상기 관리부(150)는 외부로부터 제공되는 정보를 저장 및 관리하기 위한 것으로, 본 발명에 있어서는, 요청 처리부(130)의 발췌부(132)로부터 제공되는 동영상 및 요약부(140)로부터 제공되는 요약서를 인덱싱하여 저장 및 관리하도록 구현될 수 있다.

상기 번역부(160)는 요청 처리부(130)의 발췌부(132)로부터 제공되는 텍스트 형태의 음성 인식 결과를 설정된 언어로 번역하여, 텍스트 형태의 번역 결과를 생성하여 요약부(140)로 제공한다.

이상에서는 본 발명의 바람직한 실시 예에 따른 동영상 발췌 및 관리 시스템의 구성 및 구성별 기능에 대해서 살펴보았다. 이하에서는 본 발명의 바람직한 실시 예에 따른 동영상 발췌 및 관리 시스템의 동작에 대해서 좀 더 구체적으로 살펴보기로 한다.

도 3은 본 발명의 바람직한 실시 예에 따른 동영상 발췌 및 관리 시스템의 동작에 따른 순서를 도시한 플로우 차트이다.

도 3에 도시된 동작은 도 1 및 2에 도시된 동영상 발췌 및 관리 시스템(100)에 수행될 수 있는 것으로서, 도 3을 참조하여, 본 발명의 동영상 발췌 및 관리 방법에 대해서 설명하되, 동영상 재생부(110)에 의해 동영상이 재생되고 있는 상황에서 사용자에 의한 요청이 입력되는 것으로 가정한다.

도 3을 참조하면, 동영상 재생부(110)에 의해 동영상이 재생되면, 재생 동영상 저장부(120)는 동영상 재생부(110)에 의해 재생되는 동영상 및 음성을 매칭하여 저장한다(S300).

구체적으로, 상기 단계 S300는, 상기 동영상 재생부로부터 출력되는 동영상을 인식하는 단계; 상기 동영상 재생부로부터 출력되는 음성을 인식하는 단계; 인식된 동영상과 음성 인식 결과를 매칭하는 단계; 및 상기 매칭부에 의해 매칭된 동영상과 음성 인식 결과를 저장하는 단계로 이루어질 수 있다.

또한, 상기 단계 S300는, 상기 동영상 재생부로부터 출력되는 동영상을 인식하는 단계; 상기 동영상 내 자막에 대한 문자 인식을 하는 단계; 상기 동영상과 문자 인식 결과를 매칭하는 단계; 및 매칭된 동영상과 문자 인식 결과를 저장하는 단계로 이루어질 수 있다.

그리고, 요청 처리부(130)는 요청이 입력되면(S310), 입력되는 요청이 화면저장 요청인지 아니면 구간저장 요청인지를 판단한다(S320).

상기 단계 S320에서의 판단 결과, 입력되는 요청이 화면저장 요청이면(S320-①), 요청 처리부(130)는 동영상 재생부(110)에 의해 재생되는 현재 화면을 캡처 및 저장한다(S330).

상기 요청 처리부(130)에 의해 캡처된 화면 정보는 예를 들면, 관리부(150)에 저장될 수 있다.

그리고, 상기 단계 S320에서의 판단 결과, 입력되는 요청이 구간저장 요청이면(S320-②), 요청 처리부(130)는 요청과 함께 입력되는 요청 위치 정보를 분석하여, 요청 위치를 기반으로, 재생 동영상 저장부(120)에 저장된 정보에서 발췌 구간을 추정하고, 추정된 발췌 구간의 동영상 및 음성 인식 결과를 재생 동영상 저장부(120)에서 발췌한다(S340).

이때, 상기 요청 처리부(130)는 단계 S340에 따라 발췌된 동영상을 관리부(150)로 제공할 수 있다.

한편, 상기 단계 S340에서, 요청 처리부(130)는 요청 위치의 전후 내용을 파악하여 발췌 구간을 추정할 수 있다. 특히, 상기 요청 처리부(130)는 요청 위치의 전후 동영상의 이미지 정보 및 음성 인식 결과를 이용하여 발췌 구간을 추정할 수 있다.

상기 단계 S340 이후, 요청 처리부(130)는 발췌된 음성 인식 결과에 대한 번역이 수행되어야하는지를 판단한다(S350).

이때, 상기 단계 S350에서, 요청 처리부(130)는 번역 기능이 설정되어 있는지를 판단하여, 번역 기능이 설정되어 있으면, 음성 인식 결과에 대한 번역이 수행되어야 하는 것으로 판단할 수 있다.

또한, 상기 단계 S350에서, 요청 처리부(130)는 번역 요청이 입력되는지를 판단하여, 번역 요청이 입력되면, 음성 인식 결과에 대한 번역이 수행되어야 하는 것으로 판단할 수 있다.

상기 단계 S350에서의 판단 결과, 발췌된 음성 인식 결과에 대한 번역이 수행되어야 하는 것으로 판단하면(S350-예), 요청 처리부(130)는 발췌된 음성 인식 결과를 번역부(160)로 제공하고, 번역부(160)는 요청 처리부(130)로부터의 음성 인식 결과에 대한 번역을 수행하고(S360), 번역 결과를 요약부(140)로 제공한다.

그러면, 상기 요약부(140)는 번역 결과의 내용을 요약하여 요약서를 생성하고(S370), 생성된 요약서를 관리부(150)로 제공하고, 관리부(150)는 요청 처리부(130)로부터 제공되는 동영상과 요약부(140)로부터 제공되는 요약서를 인덱싱하여 저장 및 관리한다(S380).

상기 단계 S350에서의 판단 결과, 발췌된 음성 인식 결과에 대한 번역이 수행되지 않아도 되는 것으로 판단하면(S350-아니오), 요청 처리부(130)는 발췌된 음성 인식 결과를 요약부(140)로 제공하고, 상기 요약부(140)는 음성 인식 결과의 내용을 요약하여 요약서를 생성하고(S370), 생성된 요약서를 관리부(150)로 제공하고, 관리부(150)는 요처 처리부(130)로부터 제공되는 동영상과 요약부(140)로부터 제공되는 요약서를 인덱싱하여 저장 및 관리한다(S380).

이상에서 설명한 본 발명의 실시 예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 기능 혹은 모든 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.

이상에서와 같이, 본 발명에 따른 동영상 발췌 및 관리 시스템 및 방법을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.

따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

100 : 동영상 발췌 및 관리 시스템 110 : 동영상 재생부
120 : 재생 동영상 저장부 121 : 영상 인식부
122 : 음성 인식부 123 : 매칭부
124 : 저장부 130 : 요청 처리부
131 : 사용자 요청 인지부 132 : 발췌부
140 : 요약부 150 : 관리부
160 : 번역부

Claims

입력되는 동영상을 재생하는 동영상 재생부;
상기 동영상 재생부로부터 출력되는 동영상과 음성 인식의 결과를 저장하는 재생 동영상 저장부;
입력되는 요청에 따라, 상기 동영상 재생부 상의 현재 화면을 캡처하여 저장하거나, 상기 재생 동영상 저장부에 저장된 동영상의 일부 구간의 동영상 및 음성 인식 결과를 발췌하는 요청 처리부;
상기 요청 처리부에 의해 발췌된 음성 인식 결과의 내용을 요약하여 요약서를 생성하는 요약부; 및
상기 요약부로부터 제공되는 요약서 및 상기 요청 처리부로부터 제공되는 동영상을 저장 및 관리하는 관리부를 포함하는
동영상 발췌 및 관리 시스템.
제 1 항에 있어서,
상기 재생 동영상 저장부는,
상기 동영상 재생부로부터 출력되는 동영상을 인식하는 영상 인식부;
상기 동영상 재생부로부터 출력되는 음성을 인식하는 음성 인식부;
인식된 동영상과 음성 인식 결과를 매칭하는 매칭부; 및
상기 매칭부에 의해 매칭된 동영상과 음성 인식 결과를 저장하는 저장부를 포함하는
동영상 발췌 및 관리 시스템.
제 2 항에 있어서,
상기 동영상이 자막을 제공하는 동영상인 경우, 상기 영상 인식부는 상기 동영상 내 자막에 대한 문자 인식을 하고,
상기 매칭부는 인식된 동영상과 문자 인식 결과를 매칭하고,
상기 저장부는 상기 매칭부에 의해 매칭된 동영상과 문자 인식 결과를 저장하도록 구성되는
동영상 발췌 및 관리 시스템.
제 1 항에 있어서,
상기 요청 처리부는,
입력되는 요청에 따라, 상기 동영상 재생부 상의 현재 화면을 캡처하거나, 화면저장 요청신호 혹은 구간저장 요청신호를 제공하는 사용자 요청 인지부; 및
상기 사용자 요청 인지부로부터의 요청 신호에 따라, 상기 동영상 재생부 상의 현재 화면을 캡처하여 저장하거나, 상기 재생 동영상 저장부에 저장된 동영상의 일부 구간의 동영상 및 음성 인식 결과를 발췌하는 발췌부를 포함하는
동영상 발췌 및 관리 시스템.
제 4 항에 있어서,
상기 발췌부는, 상기 구간저장 요청신호를 수신하면, 발췌 구간을 추정하고, 추정된 발췌 구간의 동영상 및 음성 인식 결과를 발췌하도록 구성되는
동영상 발췌 및 관리 시스템.
제 5 항에 있어서,
상기 발췌부는, 상기 구간저장 요청신호와 함께 입력되는 요청 위치 정보를 바탕으로 발췌 구간을 추정하되, 요청 위치의 전후 내용을 파악하여 발췌 구간을 추정하도록 구성되는
동영상 발췌 및 관리 시스템.
제 6 항에 있어서,
상기 발췌부는, 상기 요청 위치의 전후 동영상의 이미지 정보 및 음성 인식 결과를 이용하여 상기 발췌 구간을 추정하도록 구성되는
동영상 발췌 및 관리 시스템.
제 4 항에 있어서,
상기 발췌부로부터 제공되는 음성 인식 결과의 내용을 번역하는 번역부를 더 포함하는
동영상 발췌 및 관리 시스템.
제 8 항에 있어서,
상기 발췌부는, 발췌된 음성 인식 결과에 대한 번역이 수행되어야 하는지를 판단하여, 번역이 수행되어야 하는 것으로 판단하면, 발췌된 음성 인식 결과를 상기 번역부로 제공하도록 구성되는
동영상 발췌 및 관리 시스템.
제 8 항에 있어서,
상기 번역부는, 상기 발췌부로부터 제공되는 음성 인식 결과의 내용을 번역하고, 번역 결과를 상기 요약부로 제공하도록 구성되는
동영상 발췌 및 관리 시스템.
제 10 항에 있어서,
상기 요약부는 상기 번역부로부터 제공되는 번역 결과의 내용을 요약하여 요약서를 생성하고, 생성된 요약서를 상기 관리부로 제공하도록 구성되는
동영상 발췌 및 관리 시스템.
동영상 재생부로부터 출력되는 동영상과 음성 인식의 결과를 저장하는 단계;
요청이 입력되면, 입력되는 요청이 화면저장 요청인지 구간저장 요청인지를 판단하는 단계;
입력되는 요청이 구간저장 요청인 경우, 요청과 함께 입력되는 요청 위치를 기반으로, 발췌 구간을 추정하고, 추정된 발췌 구간의 동영상 및 음성 인식 결과를 발췌하는 단계;
발췌된 음성 인식 결과에 대한 번역이 수행되어야 하는지를 판단하는 단계;
번역이 수행되어야 하는 것으로 판단된 경우, 발췌된 음성 인식 결과의 내용을 번역하는 단계;
번역 결과의 내용을 요약하여 요약서를 생성하는 단계; 및
발췌된 동영상과 요약서를 저장 및 관리하는 단계를 포함하는
동영상 발췌 및 관리 방법.
제 12 항에 있어서,
상기 저장하는 단계는,
상기 동영상 재생부로부터 출력되는 동영상을 인식하는 단계;
상기 동영상 재생부로부터 출력되는 음성을 인식하는 단계;
인식된 동영상과 음성 인식 결과를 매칭하는 단계; 및
매칭된 동영상과 음성 인식 결과를 저장하는 단계를 포함하는
동영상 발췌 및 관리 방법.
제 12 항에 있어서,
상기 저장하는 단계는,
상기 동영상 재생부로부터 출력되는 동영상을 인식하는 단계;
상기 동영상 내 자막에 대한 문자 인식을 하는 단계;
상기 동영상과 문자 인식 결과를 매칭하는 단계; 및
매칭된 동영상과 문자 인식 결과를 저장하는 단계를 포함하는
동영상 발췌 및 관리 방법.
제 12 항에 있어서,
입력되는 요청이 화면저장 요청인 경우, 상기 동영상 재생부 상의 현재 화면을 캡처하는 단계를 더 포함하는
동영상 발췌 및 관리 방법.
제 12 항에 있어서,
상기 발췌하는 단계는, 상기 요청 위치의 전후 동영상의 이미지 정보 및 음성 인식 결과를 이용하여 발췌 구간을 추정하는 단계인
동영상 발췌 및 관리 방법.
제 12 항에 있어서,
번역이 수행되지 않아도 되는 것으로 판단된 경우, 발췌된 음성 인식 결과의 내용을 요약하여 요약서를 생성하는 단계; 및
발췌된 동영상과 요약서를 저장 및 관리하는 단계를 더 포함하는
동영상 발췌 및 관리 방법.