KR102018295B1

KR102018295B1 - 구간 영상 검색 및 제공 장치, 방법 및 컴퓨터-판독가능 매체

Info

Publication number: KR102018295B1
Application number: KR1020170074994A
Authority: KR
Inventors: 박혜리; 이예진; 신연화
Original assignee: 주식회사 핀인사이트
Priority date: 2017-06-14
Filing date: 2017-06-14
Publication date: 2019-09-05
Also published as: KR20180136265A

Abstract

동영상 데이터의 검색 및 제공 기술에 있어서, 검색어에 매칭되는 동영상 데이터의 일부만을 정확하게 추출하여 제공할 수 있도록 함으로써, 동영상 데이터 전체를 재생 및 확인함에 따른 불편함 및 시간의 소비를 제거하고, 재생되는 동영상의 일부에 대한 데이터 축적에 따른 확률 높은 타겟 마케팅이 가능하도록 하는 기술을 제공한다. 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 장치는, 하나 이상의 프로세서 및 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 구간 영상 검색 및 제공 장치로서, 단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 키워드 추출부; 키워드 추출부에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 구간별 키워드 정의부; 및 사용자 단말로부터 동영상에 대한 키워드 검색 요청을 수신 시, 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 사용자 단말에 제공하는 구간 영상 제공부;를 포함하는 것을 특징으로 한다.

Description

구간 영상 검색 및 제공 장치, 방법 및 컴퓨터-판독가능 매체{APPARATUS, METHOD AND COMPUTER-READABLE MEDIUM FOR SEARCHING AND PROVIDING SECTIONAL VIDEO}

본 발명은 사용자가 원하는 키워드에 부합하는 동영상 데이터를 제공하는 기술로서, 구체적으로는 사용자가 검색한 내용에 맞는 동영상 데이터 전체가 아닌 영상의 일부를 제공함으로써, 불필요한 동영상 데이터의 확인이 필요없도록 하고, 획득 대상이 되는 영상 데이터를 이용한 타켓 마케팅이 가능하도록 하는 기술에 관한 것이다.

최근 국내의 이러닝(E-Learning) 시장은 약 3조원이 넘어가고 있으며, 7.3% 이상의 성장률을 보이고 있고, 교육 3.0의 시대가 시작되어 온라인을 이용한 러닝 시장이 더욱 성장하고 있다.

사용자들이 온라인 교육 또는 온라인을 이용한 지식 제공 서비스를 이용함에 있어서 가장 많이 이용하는 것은 인터넷 강의 또는 강의 동영상 등 동영상 데이터이다. 사용자들은 특정 지식을 습득하기 위해서 유투브(Youtube) 및 기타 포털 사이트나 교육 서비스 제공 사이트에 접속하여 자신이 원하는 동영상 데이터를 검색하고, 이를 확인하여 원하는 지식을 획득하고 있다. 이러한 동영상 데이터 검색 및 조회는 지식 획득뿐 아니라 흥미를 위한 동영상 컨텐츠 재생 등을 위해서 사용되고 있다.

사용자들은 검색 가능한 동영상 데이터의 양이 매우 방대해지면서, 자신이 원하는 동영상 데이터를 찾는 데 어려움을 느끼고 있다. 이러한 문제점을 해결하기 위해서, 한국 등록특허 제10-1617098호 등에서는 동영상으로부터 추출된 음성에 포함된 단어를 추출하고, 해당 단어를 동영상 태그로 설정함으로써, 사용자들이 검색어를 대입 시 이를 이용하여 사용자의 검색어에 최적 매칭된 동영상 데이터를 제공하는 기술을 제시하고 있다.

그러나, 이러한 맞춤형 검색 서비스를 이용하더라도, 사용자들은 해당 동영상에 음성이 포함되지 않거나, 음성에 문자가 존재하지 않는 경우에는 실질적으로 해당 검색 알고리즘이 전혀 구현되지 못하는 문제점이 있다.

한편 상술한 종래 기술에 의하여 동영상 데이터의 검색이 된다 하더라도, 사용자들은 자신이 원하는 내용이 포함된 동영상 데이터의 일부를 획득하기 위해서는 전체 동영상 데이터를 재생하면서 일일이 확인하여야 하기 때문에, 동영상 데이터의 내용들 중, 사용자가 정확하게 원하는 부분만을 제공하지 못하는 문제점이 존재하여 왔다.

이에 본 발명은, 동영상 데이터의 검색 및 제공 기술에 있어서, 검색어에 매칭되는 동영상 데이터의 일부만을 정확하게 추출하여 제공할 수 있도록 함으로써, 동영상 데이터 전체를 재생 및 확인함에 따른 불편함 및 시간의 소비를 제거하고, 재생되는 동영상의 일부에 대한 데이터 축적에 따른 확률 높은 타겟 마케팅이 가능하도록 하는 기술을 제공하는 데 그 목적이 있다.

또한 본 발명은 상술한 동영상 데이터의 검색 및 제공에 있어서, 동영상 데이터에 포함된 내용 및 음성 등에 구애받지 않고, 해당 영상에 대해서 최대한 정확한 키워드 추출이 가능하도록 하여, 사용자에게 더욱 맞춤화된 동영상 데이터를 제공할 수 있는 기술을 제공하는 데 다른 목적이 있다.

상술한 목적을 달성하기 위해서, 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 장치는, 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 구간 영상 검색 및 제공 장치로서, 단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 키워드 추출부; 상기 키워드 추출부에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 구간별 키워드 정의부; 및 사용자 단말로부터 동영상에 대한 키워드 검색 요청을 수신 시, 상기 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 상기 사용자 단말에 제공하는 구간 영상 제공부;를 포함하는 것을 특징으로 한다.

한편 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 방법은, 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 사용자 단말로 구현되는 구간 영상 검색 및 제공 방법으로서, 단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 키워드 추출 단계; 상기 키워드 추출 단계에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 구간별 키워드 정의 단계; 및 사용자 단말로부터 동영상에 대한 키워드 검색 요청을 수신 시, 상기 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 상기 사용자 단말에 제공하는 구간 영상 제공 단계;를 포함하는 것을 특징으로 한다.

본 발명에 의하면, 동영상 데이터의 구간마다 동영상의 내용을 분석한 결과 매칭된 키워드를 정의하고, 이를 바탕으로 사용자가 동영상에 대한 검색을 요청하면, 동영상 전체가 아닌 해당 검색 키워드에 매칭되는 키워드를 포함하는 구간 영상에 대한 제공 및 이에 대한 정보를 제공하게 된다.

이에 따라서, 검색어에 매칭되는 동영상 데이터의 일부만을 정확하게 추출하여 제공할 수 있도록 함으로써, 동영상 데이터 전체를 재생 및 확인함에 따른 불편함 및 시간의 소비를 제거하고, 재생되는 동영상의 일부에 대한 데이터 축적에 따른 확률 높은 타겟 마케팅이 가능한 효과가 있다.

한편, 본 발명의 구체적인 실시예에 의하면, 음성 데이터뿐 아니라, 동영상을 구성하는 이미지 프레임에 존재하는 문자, 자막의 문자 등을 동시에 분석하기 때문에, 동영상 데이터에 포함된 내용 및 음성 등에 구애받지 않고, 해당 영상에 대해서 최대한 정확한 키워드 추출이 가능해져, 사용자 맞춤형 동영상 데이터 제공에 있어서 그 정확도가 더욱 상승할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 장치의 구성 블록도.
도 2는 본 발명의 일 실시예에 따른 키워드 추출부의 구체적인 구성 예.
도 3은 본 발명의 일 실시예에 따른 키워드 추출부의 기능을 설명하기 위한 도면.
도 4는 본 발명의 일 실시예에 따라 구간별로 대표 키워드가 결정되는 예를 설명하기 위한 도면.
도 5는 본 발명의 일 실시예에 따라 대표 키워드가 보완되는 예를 설명하기 위한 도면.
도 6 내지 8은 본 발명의 일 실시예의 구현에 따라 사용자 단말에 표시되는 화면의 예를 설명하기 위한 도면.
도 9는 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 방법의 플로우차트.
도 10은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성의 설명하기 위한 블록도.

이하에서는, 다양한 실시예들 및/또는 양상들이 이제 도면들을 참조하여 개시된다. 하기 설명에서는 설명을 목적으로, 하나이상의 양상들의 전반적 이해를 돕기 위해 다수의 구체적인 세부사항들이 개시된다. 그러나, 이러한 양상(들)은 이러한 구체적인 세부사항들 없이도 실행될 수 있다는 점 또한 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 인식될 수 있을 것이다. 이후의 기재 및 첨부된 도면들은 하나 이상의 양상들의 특정한 예시적인 양상들을 상세하게 기술한다. 하지만, 이러한 양상들은 예시적인 것이고 다양한 양상들의 원리들에서의 다양한 방법들 중 일부가 이용될 수 있으며, 기술되는 설명들은 그러한 양상들 및 그들의 균등물들을 모두 포함하고자 하는 의도이다.

본 명세서에서 사용되는 "실시예", "예", "양상", "예시" 등은 기술되는 임의의 양상 또는 설계가 다른 양상 또는 설계들보다 양호하다거나, 이점이 있는 것으로 해석되지 않을 수도 있다.

또한, "포함한다" 및/또는 "포함하는"이라는 용어는, 해당 특징 및/또는 구성요소가 존재함을 의미하지만, 하나이상의 다른 특징, 구성요소 및/또는 이들의 그룹의 존재 또는 추가를 배제하지 않는 것으로 이해되어야 한다.

또한, 제 1, 제 2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되지는 않는다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제 1 구성요소는 제 2 구성요소로 명명될 수 있고, 유사하게 제 2 구성요소도 제 1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

또한, 본 발명의 실시예들에서, 별도로 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명의 실시예에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명의 실시 예에서 “통신”, “통신망” 및 “네트워크”는 동일한 의미로 사용될 수 있다. 상기 세 용어들은, 파일을 사용자 단말, 다른 사용자들의 단말 및 다운로드 서버 사이에서 송수신할 수 있는 유무선의 근거리 및 광역 데이터 송수신망을 의미한다.

이하의 설명에서 “장치” 또는 "서버"란, 사용자들이 접속하여 본 발명의 실시예에 따라서 구현된 기능을 이용하기 위하여 접속하게 되는 서버 컴퓨터를 의미한다. 용량이 작거나 이용자 수가 작은 경우 하나의 서버에 다수의 프로그램이 운영될 수 있다. 또한, 용량이 매우 크거나 실시간 접속 인원수가 많은 경우, 그 기능에 따라서 운영을 위한 서버가 하나 이상 존재할 수도 있다.

또한 서버에는 데이터베이스에 대한 미들웨어나 결제 처리를 수행하는 서버들이 연결될 수 있으나, 본 발명에서는 이에 대한 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 장치의 구성 블록도이다.

도 1을 참조하면, 본 발명의 일 실시예에 다른 구간 영상 검색 및 제공 장치(10, 이하 장치라 함)은 키워드 추출부(11), 구간별 키워드 정의부(12) 및 구간 영상 제공부(13)를 포함하는 것을 특징으로 하며, 본 발명의 다른 실시예에 따라서 사용자별 구간 영상 관리부(14)를 포함할 수 있다.

도 1에서 데이터베이스(30)는 본 발명의 기능 수행에 따라서 관리되는 동영상 데이터, 구간 영상, 키워드, 문자정보를 포함하는 모든 데이터를 저장 및 관리하고, 사용자의 계정 및 사용자의 계정에 저장된 구간 영상 및 구간 영상에 대한 링크 정보 등을 모두 관리하는 기능을 수행한다. 즉, 본 발명의 모든 실시예에 따라서 송수신 및 저장되는 모든 데이터를 저장하는 기능을 수행하는 구성으로 이해될 것이다.

본 발명에서 데이터베이스(30)는 도 1에 도시된 바와 같이 장치(10)와 별도의 단말로 구성되거나, 본 발명에서의 장치(10)에 포함되는 구성으로 구현될 수 있다.

본 발명의 장치(10)는 상술한 바와 같이 하나 이상의 프로세서 및 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 구성으로서, 후술할 컴퓨팅 장치와 동일 또는 유사한 개념으로 이해될 수 있다.

키워드 추출부(11)는 사용자 단말(20) 등 단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 기능을 수행한다.

본 발명에서 동영상 데이터는, 다운로드 또는 스트리밍 형식으로 재생되어 단말의 출력수단을 통해 재생됨으로써, 움직이는 영상 및 음성이 출력되는 모든 데이터를 의미한다. 동영상 데이터의 포맷은 일반적으로 동영상 데이터로 지칭되는 모든 데이터의 포맷을 포함하는 개념으로 이해될 것이다.

즉, 그림이나 이미지와는 차별화되는 움직이는 영상물의 총칭으로, 컴퓨터 기술을 활용하여 만들어진 그림이나 사진 등 다양한 이미지 파일과 영화나 TV프로그램처럼 영상으로 제작된 파일 그 자체를 지칭하기도 한다. 동영상 파일은 움직이는 물체의 영상을 TV의 화면처럼 만든 것으로 많은 양의 데이터를 처리해야 하므로 특수한 하드웨어를 이용한다.

시간의 흐름에 따라 움직이는 이미지의 연속적인 화면과 함께 음악이 함께 재생되는 경우가 많다. 주로 TV프로그램이나 영화, 뮤직비디오, 애니메이션, 강의 등의 형태이다. 아날로그 매체에 저장된 동영상 파일도 디지털화하여 컴퓨터나 모바일기기에서 재생가능하다.

동영상 파일은 재생 프로그램이 설치된 기기(TV, PC, 모바일 기기 등)들에서 자유롭게 재생가능하나 재생할 수 있는 동영상 파일이나 코덱의 종류는 제품마다 차이가 있다. 설치된 소프트웨어나 코덱이 없을 경우 해당 프로그램이나 코덱을 설치하거나 별도의 변환 프로그램을 통해 파일 형식을 변환하여 재생할 수 있다. 인터넷에서 많이 사용되는 동화상 형식에는 다음과 같은 것이 있다.

MPEG: 국제 동영상 표준화 그룹(Moving Picture Expert Group)에서 만든 형식으로 압축효율이 좋다.

MOV: 애플사에서 만든 동화상 형식으로 QuickTime Movie라고 한다.

RealVideo: 프로그레시브(Progressive Networks)사에서 개발한 플러그인으로 동화상을 실시간으로 감상할 수 있다.

Avi: 마이크로소프트(Microsoft)사에서 만든 동화상 형식으로 윈도우 프로그램 표준 동화상 형식이다. 국내에서 동영상 파일 재생 시에 주로 활용되는 소프트웨어로는 윈도우 플레이어, 곰플레이어, KM플레이어, 애플 아이튠즈 등이 있다.

이 외에도 다양한 포맷이 동화상 형식으로 사용될 수 있으며, 동영상 데이터의 내용이란, 동영상 데이터를 구분하기 위한 키워드를 추출하기 위한 기준이 되는 개념으로서, 동영상 데이터의 내용을 나타낼 수 있는 텍스트(Text) 데이터를 의미한다. 예를 들어, 동영상의 내용이 자동차 정비에 관한 것이라고, 동영상이 재생됨에 따라서 자동차의 특정 부품이 표시되거나 특정 부품의 이름이 음성으로 출력되거나 자막이 출력되는 경우, 해당 부품의 명칭, 자동차, 해당 부품에 대한 정비에 관한 텍스트가 해당 동영상의 재생 부분의 키워드로 지칭될 것이며, 동영상 데이터의 내용 역시 이와 유사한 텍스트로 표현될 수 있다.

키워드 추출부(11)는 상술한 바와 같이 동영상 데이터의 내용을 분석하여 동영상 데이터의 전체 재생 구간 내에 포함된 키워드를 추출하게 되는데, 이에 대한 구체적인 예가 도 2에 도시되어 있다. 도 2는 본 발명의 일 실시예에 따른 키워드 추출부의 구체적인 구성 예이다.

도 2를 참조하면, 본 발명의 일 실시예에 있어서 키워드 추출부(11)는 영상 데이터 분리부(110), 제1 문자 추출부(111), 제2 문자 추출부(112), 제3 문자 추출부(113) 및 키워드 결합부(114)를 포함하여 구성될 수 있다.

영상 데이터 분리부(110)는, 상술한 동영상 데이터를 이미지 프레임 데이터, 음성 데이터 및 자막 데이터로 분리하는 기능을 수행한다. 이미지 프레임 데이터는 동영상 데이터의 영상을 구성하는 각 프레임의 이미지를 나타내는 데이터로서, 이미지 프레임 데이터가 재생 시간대별로 결합됨에 따라서 영상이 구현된다. 이미지 프레임 데이터는 상술한 바와 같이 정지 이미지를 나타내는 개념으로 이해될 것이다.

음성 데이터는 재생 구간에 있어서 영상에 결합되어 재생 시 음성 출력 수단을 통해서 재생되는 음성 데이터를 의미한다. 또한 자막 데이터는 동영상 데이터에 포함될 수 있는 데이터로서, 특정 언어를 포함하여 재생에 따라서 싱크(Sinc)되어 음성 데이터 또는 영상의 재생에 따라서 음성 데이터를 번역하거나 영상을 설명하기 위해서 출력되는 텍스트 데이터를 의미한다.

제1 문자 추출부(111)는 영상 데이터 분리부(110)에 의하여 분리된 데이터들 중, 이미지 프레임 데이터에 포함된 복수의 이미지 데이터에 대한 문자 인식 프로세스를 통해서, 이미지 프레임 데이터의 문자를 추출하는 기능을 수행한다.

특정 이미지에는 영상의 내용에 따라서 특정 문자가 출력될 수 있다. 예를 들어 교육용 동영상의 경우 동영상을 구성하는 이미지에 칠판 등이 출력되고 강사가 칠판에 필기하는 문자가 출력될 수 있다. 제1 문자 추출부(111)는 문자 인식 프로세스를 통해 상술한 예와 같은 이미지에 출력되는 문자를 인식하여 문자 데이터를 생성하는 기능을 수행한다.

제1 문자 추출부(111)는 상술한 기능 이외에, 본 발명의 다른 실시예에 있어서는 이미지에 포함된 특정 객체를 인식하여 해당 객체의 명칭 또는 속성을 나타내는 문자를 생성하는 기능을 수행할 수 있다. 예를 들어 이미지에 대한 객체 인식 프로세스를 수행한 결과 시계 객체가 검출된 경우, "시계"의 문자가 제1 문자 추출부(111)에 의하여 생성될 수 있다. 이와 같이, 제1 문자 추출부(111)는 이미지 프레임 데이터에 포함된 이미지를 분석하여 해당 이미지에 포함된 문자를 추출하거나, 이미지에 포함된 객체를 나타내는 문자를 생성하는 기능을 수행하는 구성으로 이해될 수 있다.

제1 문자 추출부(111)에서 적용되는 문자인식(Character Recognition) 프로세스란 시각 정보를 통하여 문자를 인식하고 의미를 이해하는 인간의 능력을 컴퓨터로 실현하려는 패턴인식(Pattern Recognition)의 한 분야로서, 광학 문자 인식(Optical Character Recognition), 우편물 자동 분류, 문서인식, 도면인식 등의 분야에서 부분적으로 실용화가 이루어지게 되었으며, 요즈음에는 인공지능(Artificial Intelligence)의 최신기법인 신경망(Neural Network), 퍼지(Fuzzy), 유전알고리즘(Genetic Algorithm) 등의 응용과 자연어처리(Natural Language Processing), 심리학, 생리학, 인지과학(Cognitive Science) 등 관련 학문과의 접목에 의해 문자인식 기술은 새로운 단계에 접어들게 되었다.

필기인식이라는 무기를 내세워 소형 정보기기 중에서 급부상한 개인휴대단말기(PDA) 외에도 최근에는 태블릿 PC 및 정보기기 가운데 가장 많은 판매량을 기록중인 휴대폰까지도 필기인식 기술을 채용하고 있다.

문자 인식 과정은 전처리 과정으로서 난폭점 제거, 평활화, 훅 제거, 여과, 도트 감출 등의 전처리 과정, 위치, 크기, 기울기, 바닥선 정렬 등 정규화 과정, 문자 인식의 정확도를 높이기 위하여 인식된 글자를 단어 이상의 단위로 재검토하는 후처리 과정을 포함한다.

일반적인 문자 인식 방법은, 기존의 decision tree를 확장. 사건의 가능성을 tree 탐색에 이용하는 Fuzzy decision tree, 음성인식 분야에 쓰이던 방법론. N개의 노드와 이들간의 관계로 이루어진 모델을 통해 분석하는 Hidden Markov Model(HMM), Nearest neighbor기법 중의 한 가지. 패턴들의 분류에 가중치를 두어 집합을 설정. 참조모델을 각 부류의 분포에 근사시키는 접근법인 Learning vector Quantization(LVQ) 등이 사용되나 본 발명의 문자 인식 프로세스는 이를 포함하는 모든 문자 인식 프로세스를 포함하는 개념으로 이해될 것이다.

본 발명에서 객체인식(Object recognition)은 이미지 등에서 객체로 추정되는 부분을 인식하여 객체에 대한 정보를 확인하는 인식기술 체계를 의미하며, 객체 특징을 이용하는 방법 및 이미지를 이용하는 방법으로 구분된다. 객체의 특징을 통해 해석하는 방법은 경계값(Edge) 정보, 명암 정보, 컬러 정보, 움직임 정보 등 국소적인 이미지 특징을 인식하고 추적하는 방법이며, 이미지를 통해 해석하는 방법은 선형부분 공간 방법(얼굴 고유 벡터들이 선형 조합에 의하여 근사화되는 방법) 등을 들 수 있다.

분석 기술로서 첫 번째는 이미지에서 객체를 찾아내는 객체 검출 단계, 객체의 특성을 찾아내서 고유객체를 인식하는 객체 인식 단계 및 객체에 대한 정보와 연동하여 인식 사실을 활용하는 정보 활용단계가 있다.

제2 문자 추출부(112)는 음성 데이터에 대한 음성 인식 프로세스를 통해서, 음성 데이터에 포함된 문자를 추출하는 기능을 수행한다.

제2 문자 추출부(112)에서 이용되는 음성 인식 프로세스는, 음성 인식(Speech recognition) 또는 음성-문자 변환(Speech to Text) 기술에서 사용되어, 음성을 문자로 변환하는 기술로서, 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것이다.

구체적으로 음성파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정이며, 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다.

인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다. 대형 장치를 필요로 하였던 음성 인식 장치와 음성 합성 장치를 대규모 집적 회로(LSI)의 발달에 따라 가로세로 수 mm 크기의 집적 회로 위에 실현할 수 있게 됨으로써 음성 입출력 장치가 실용화되었다.

현재 전화에 의한 은행 잔액 조회, 증권 시세 조회, 통신 판매의 신청, 신용 카드 조회, 호텔이나 항공기 좌석 예약 등에 사용된다. 그러나 이들 서비스는 제한된 수의 단어를 하나하나 떼어서 발음하는 음성을 인식하는 단어 음성 인식 장치를 사용한다.

음성 인식의 궁극적인 목표는 자연스러운 발성에 의한 음성을 인식하여 실행 명령어로서 받아들이거나 자료로서 문서에 입력하는 완전한 음성 to 텍스트 변환의 실현이다. 단지 단어를 인식할 뿐 아니라 구문 정보, 의미 정보, 작업에 관련된 정보와 지식 등을 이용하여 연속 음성 또는 문장의 의미 내용을 정확하게 추출하는 음성 이해 시스템을 개발하는 것이다. 이러한 시스템의 연구 개발이 전 세계에서 활발하게 진행되고 있다.

한편 제3 문자 추출부(113)는, 상술한 영상 데이터 분리부(110)에 의하여 추출된 자막 데이터로부터 자막 데이터에 포함된 문자를 추출하는 기능을 수행한다.

자막(字幕)은 텔레비전 프로그램과 영화 속 대화를 글로 표현한 것을 말하며 보통 화면의 맨 아래에 표시한다. 외국어로 된 대화의 번역일 수도 있고, 같은 언어의 대화를 그대로 문자로 표현한 것일 수도 있다. 또, 청각 장애가 있는 시청자들이 대화를 따라갈 수 있도록 고안된 정보가 추가되어 있을 수도 있고 그렇지 않을 수도 있다. 텔레비전의 문자 다중 방송의 자막은 시청자가 적절한 다중 방송 페이지 (p888)를 선택하거나 메뉴에서 따로 요청을 하지 않으면 표시되지 않으며 청각 장애가 있는 시청자들을 위한 추가적인 소리 표현을 전달하기도 한다. 다중문자 방송의 자막 언어는 원음을 따르지만 방송국이 여러 언어의 자막을 다중문자 방송 페이지에 추가해야 하는 다국어 사용 국가에서는 제외된다.

가끔, 특히 영화제와 같은 곳에서 자막은 화면 아래에 별도의 창에 표시할 수 있으며 이로써 영화 제작사가 방영을 위해 별도로 자막을 삽입한 영상을 내보내지 않아도 된다. 북아메리카에서 청각 장애가 있는 사람들을 위한 텔레비전 자막은 폐쇄 자막(클로즈드 캡션)이라고 한다.

콘텐츠를 배포하는 측면에서 자막은 다음 3가지 가운데 하나를 사용한다:

하드웨어 자막/오픈 자막: 자막이 영상 비디오 프레임에 병합되므로 특별한 장비나 소프트웨어 없이도 자막을 볼 수 있다. 그러므로 더 복잡한 변화 효과나 애니메이션이 추가될 수 있다. 이를테면 노래방의 자막은 여러 색, 글꼴, 크기, 애니메이션을 가진다. 그러나 이러한 자막은 원본 프레임의 일부여서 다중 언어와 같은 여러 종류의 자막을 다루는 것은 불가능하기 때문에 원본 영상이 배포물에 포함되어 있지 않을 경우 해제할 수 없다.

미리 렌더링 처리된 자막: 이 자막은 재생하는 동안 원본 비디오 프레임에 추가되는 별도의 영상 프레임이 된다. 미리 렌더링 처리되는 자막은 DVD에 쓰인다. (영상 프레임으로서 같은 파일 안에 포함하지만 말이다) 켜고 끄는 것이 가능하며, 다국어 자막을 추가할 수 있고 여러 개의 자막을 바꿔가며 볼 수 있다. 물론 재생 프로그램은 이러한 자막을 보여 줄 수 있는 기능을 지원해야 한다. 한편 자막은 되도록 작은 비트레이트와 색 수를 사용한 이미지로 인코딩되어야 하므로 보통 앤티엘리어싱과 래스터라이징을 사용하기 힘들다. 또한 이러한 자막은 텍스트가 아니기 때문에 추출하거나 변경하는 것이 쉽지 않지만 SubRip과 같은 특별한 소프트웨어가 존재하므로 이러한 자막을 소프트웨어 자막으로 변환하는 데 사용할 수 있다. (아래의 소프트웨어 자막을 참고하라)

소프트웨어/클로즈드 자막: 이 자막은 재생하는 도중에 표시할 시간표에 따라 문자열이 켜지고 꺼지는 자막을 말한다. 재생 소프트웨어가 이를 지원해야 한다. 또, 프로그램에 따라 호환되지 않는 파일 포맷이 여러 개 있을 수 있다. 이러한 자막을 만들어 변경하는 것은 상대적으로 쉽기 때문에 팬서브(fansub)에 흔히 쓰인다. 텍스트 렌더링 화질은 재생 소프트웨어에 따라 다양하지만 대체적으로 미리 렌더링 처리된 자막보다 품질이 좋다. 또한 몇 가지 포맷은 최종 사용자에게 문자 인코딩 문자를 유발시킬 수 있으며, 이를테면 여러 언어가 동시에 화면에 출력된다. (특히 라틴어와 아시아어 스크립트)

다른 분류의 경우, 디지털 영상 자막이 단일 영상 파일 컨테이너에 영상/오디오 스트림을 따라 추가되어 있다면 내부 자막으로 불린다. 반면 각 파일을 수정하기 쉽지만 다루기 쉽지 않은 별도의 파일로 배포할 경우 이를 외부 자막으로 부른다.

제3 문자 추출부(113)는 내부 자막 및 외부 자막을 분석하여 자막에 포함된 문자들을 추출하는 기능을 수행하는 것이다.

키워드 결합부(114)는 제1 문자 추출부(111), 제2 문자 추출부(112) 및 제3 문자 추출부(113)에 의하여 추출된 문자 데이터를 결합하여 동영상 데이터의 재생 구간 전체 내에 포함된 키워드의 추출을 완료하는 기능을 수행한다. 즉, 제1 문자 추출부(111), 제2 문자 추출부(112) 및 제3 문자 추출부(113)에 의하여 추출된 문자 데이터들이 재생 구간 내의 키워드가 되는 것이다.

물론, 키워드 결합부(114)는 예를 들어 추출된 문자 데이터들 중, 이용 가능한 키워드만을 필터링하여 키워드로 결합할 수 있다. 예를 들어, 본 발명의 기능 수행에 따라서 제공되는 영상 검색 서비스에 있어서 이용 가능한 키워드가 명사인 경우, 추출된 문자로 구성된 단어들 중 명사에 해당하는 단어만이 재생 구간 내의 키워드로 정리될 것이다. 이외에, 문자 데이터를 수집 및 결합하여 키워드를 정의 시 문자 데이터들 중 일부만을 키워드로 선정하는 다양한 실시예가 구현될 수 있다.

이러한 키워드 추출부(111)의 각 구성이 수행하는 기능은 도 3에 의하여 참조적으로 설명될 수 있다. 도 3은 본 발명의 일 실시예에 따른 키워드 추출부(111)의 기능을 설명하기 위한 도면이다.

도 3을 참조하면, 동영상 데이터(100)는 영상 데이터 분리부(110)에 의하여 처리됨으로써, 상술한 바와 같이 복수의 이미지 데이터를 포함하는 이미지 프레임 데이터(101), 음성 데이터(102) 및 자막 데이터(103)로 분리된다. 이미지 프레임 데이터(101)는 상술한 제1 문자 추출부(111)에 의하여 처리되어 복수의 문자(1011)로 추출되며, 음성 데이터(102)는 제2 문자 추출부(112)에 의하여 처리되어 복수의 문자(1022)로 추출되고, 자막 데이터(103)는 제3 문자 추출부(113)에 의하여 처리되어 복수의 문자(1033)로 추출될 것이다. 추출된 복수의 문자(1011, 1022, 1033)들은 결합/통합/수집되어 재생 구간에 대한 복수의 키워드로 정의된다.

다시 도 1에 대한 설명으로 돌아와서, 구간별 키워드 정의부(12)는 상술한 키워드 추출부(11)에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 기능을 수행한다.

본 발명에서 구간 영상은, 예를 들어 대표 키워드가 동일한 단위 재생 구간의 동영상 데이터의 집합을 의미하며, 구간 영상은 연속된 일정 구간의 동영상 데이터임이 바람직하나, 불연속된 복수의 구간에 대한 동영상 데이터의 결합을 의미할 수 있다.

구간 영상은 전체 동영상 데이터들 중, 대표 키워드가 동일한 일부 재생 구간의 동영상 데이터를 의미하는데, 대표 키워드는 특정 간격의 재생 구간인 단위 재생 구간별로 정의된다. 단위 재생 구간은 예를 들어 1초, 1분, 2분 등 다양한 시간 단위로 정의되거나, 이미지 프레임의 개수로 정의될 수 있다.

각 단위 재생 구간마다 대표 키워드가 정의되는 실시예는 다음과 같다.

[제1 실시예]

구간별 키워드 정의부(12)는 각 단위 재생 구간마다 해당 단위 재생 구간에 포함된 키워드들 중, 그 빈도수가 가장 높은 키워드, 즉 해당 단위 재생 구간에서 가장 많이 노출된 키워드를 각 단위 재생 구간의 대표 키워드로 정의할 수 있다. 제1 실시예에서 각 단위 재생 구간에는 하나의 대표 키워드가 정의될 수 있다.

[제2 실시예]

구간별 키워드 정의부(12)는 각 단위 재생 구간마다 해당 단위 재생 구간에 포함된 키워드들 중, 그 빈도수가 높은 순서대로 적어도 하나의 키워드, 즉 해당 단위 재생 구간에서 많이 노출된 순서대로 적어도 하나 키워드를 각 단위 재생 구간의 대표 키워드로 복수 정의할 수 있다. 제1 실시예에서 각 단위 재생 구간에는 적어도 하나, 예를 들어 2 또는 3개 등의 대표 키워드가 복수로 정의될 수 있다.

[제3 실시예]

제3 실시예에서, 구간별 키워드 정의부(12)는, 단위 재생 구간마다 해당 단위 재생 구간에 포함된 키워드의 빈도수가 높은 순서로 기설정된 개수의 키워드를 대표 후보 키워드로 설정하고, 대표 후보 키워드들 중, 동영상 데이터의 제목, 동영상 데이터의 저작자의 개인 정보, 동영상 데이터에 연결되어 저장된 동영상 데이터에 관련된 텍스트 정보와의 유사 수치가 가장 높은 키워드를 해당 단위 재생 구간의 대표 키워드로 정의할 수 있다.

예를 들어, 특정 단위 재생 구간에 포함된 키워드들 중 빈도수가 높은 순서대로 “검은색”, “오일”, “투명”, “자동차”가 포함되어 있는데, 동영상 데이터의 제목이 “자동차 오일 교환법”인 경우, 대표 키워드는 “오일”이 될 수 있다. 또는 단어의 결합으로서, “자동차 오일”이 대표 키워드로 정의될 수 있다.

[제4 실시예]

제4 실시예에서, 구간별 키워드 정의부(12)는 단위 재생 구간마다 해당 단위 재생 구간에 포함된 키워드의 빈도수가 높은 순서로 기설정된 개수의 키워드를 대표 후보 키워드로 설정하고, 대표 후보 키워드들 중, 동영상 데이터의 제목, 동영상 데이터의 저작자의 개인 정보, 동영상 데이터에 연결되어 저장된 동영상 데이터에 관련된 텍스트 정보와의 유사 수치가 높은 순서대로 적어도 하나, 예를 들어 2~3개의 키워드를 해당 단위 재생 구간의 대표 키워드로 정의할 수 있다.

예를 들어, 특정 단위 재생 구간에 포함된 키워드들 중 빈도수가 높은 순서대로 “검은색”, “오일”, “투명”, “자동차”가 포함되어 있는데, 동영상 데이터의 제목이 “자동차 오일 교환법”인 경우, 대표 키워드는 “오일”, “자동차”가 될 수 있다.

이상의 실시예는 서로 독립적으로 구현되거나, 본 발명의 각 실시예에 따라서 다양한 실시예가 동시에 결합되어 다양한 기능을 수행하도록 구현될 수 있다. 이러한 각 구간별 대표 키워드가 결정되는 구간별 키워드 정의부(12)의 기능 수행 예가 도 4에 도시되어 있다. 도 4는 본 발명의 일 실시예에 따라 구간별로 대표 키워드가 결정되는 예를 설명하기 위한 도면이다.

먼저, 동영상 데이터(200)에는 상술한 바와 같이 동영상의 제목(201), 동영상의 저작자(202) 및 동영상에 대한 설명이 포함된 문자 정보(203)가 포함될 수 있다.

한편, 도 4를 참조하면, 전체 재생 구간(210)을 구분한 단위 재생 구간으로서 2분마다, 상술한 기능 수행에 의하여 복수의 키워드(211)가 정의되어 있다. 이때, 상술한 제1 내지 제4 실시예의 독립적 또는 결합적 수행에 의하여, 각 단위 재생 구간(d)에 대표 키워드(212)가 하나 또는 복수개 정의됨을 확인할 수 있다.

이때 동일한 키워드 또는 도 4에 도시된 바와 같이 유사한 키워드를 포함하는 단위 재생 구간이 연속되면, 연속된 구간(Pd)을 결합하여 하나의 구간 영상으로 생성될 수 있다.

다시 도 1에 대한 설명으로 돌아와서, 구간별 키워드 정의부(12)는 상술한 실시예에 따라서 단위 재생 구간별로 대표 키워드를 정의할 수 있으나, 이러한 알고리즘에 의하여 정의된 키워드는 부정확할 가능성이 존재할 수 있다. 이를 위해, 구간별 키워드 정의부(12)는 복수의 사용자 단말(20), 예를 들어 해당 단위 재생 구간이 포함된 구간 영상을 재생한 적 있는 사용자 단말(20)로부터 입력된 정보로서, 각 구간 영상별 키워드 보완 요청 입력에 따른 키워드를 이용하여, 구간 영상마다 정의된 단위 재생 구간의 대표 키워드를 보정하는 기능을 수행할 수 있다.

즉, 구간 영상을 이용한 사용자들은 자신이 원하는 구간 영상이 해당 영상이 아님을 인지 시, 구간 영상 또는 구간 영상에 포함된 단위 재생 구간의 대표 키워드가 잘못되었음을 알릴 수 있으며 이를 키워드 보완 요청 입력을 수행함으로써 할 수 있다. 이를 통해서, 본 발명의 기능 수행을 통한 대표 키워드 정의의 부정확성을 보완할 수 있다.

이러한 대표 키워드 정의의 부정확성을 더욱 정확하게 보완하기 위해서, 구간별 키워드 정의부(12)는 키워드 보완 요청 입력을 수신 시, 기설정된 개수(예를 들어 100개)의 키워드 보완 요청 입력을 수신하고, 수신한 키워드 보완 요청 입력에 포함된 대체 키워드들 중 가장 빈도수가 높은 키워드로 기존의 대표 키워드를 대체하거나, 상술한 제2 내지 제4 실시예와 같은 방식으로 대체 대표 키워드를 설정하여 기존의 대표 키워드를 대체하도록 할 수 있다. 이러한 예가 도 5에 도시되어 있다. 도 5는 본 발명의 일 실시예에 따라 대표 키워드가 보완되는 예를 설명하기 위한 도면이다.

도 5를 참조하면, 사용자들은 구간 영상(6분부터 10분까지)을 이용하는 도중, 특정 재생 구간의 키워드(213)가 잘못되었음을 인지할 수 있다. 이때 사용자들은 사용자 단말(20)을 통해 상술한 키워드 보완 요청 입력을 전송할 수 있고, 이에 포함된 대체 대표 키워드(214)를 수신 시 구간별 키워드 정의부(12)는 상술한 프로세스에 의하여 대표 키워드를 교체할 수 있다.

다시 도 1에 대한 설명으로 돌아와서, 구간 영상 제공부(13)는, 사용자 단말(20)로부터 동영상에 대한 키워드 검색 요청을 수신하게 되면, 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 사용자 단말(20)에 제공하는 기능을 수행한다.

이때 상술한 바와 같이 구간 영상은 단위 재생 구간 또는 복수의 단위 재생 구간이 결합된 동영상 데이터를 의미하는데, 구간 영상 제공부(13)는 이를 위하여, 예를 들어 구간 영상을 사용자 단말(20)에 제공 시, 구간별 키워드 정의부(12)에 의하여 대표 키워드가 정의된 단위 재생 구간들 중 대표 키워드가 동일한 단위 재생 구간들을 결합하여 생성된 구간 영상을 사용자 단말(20)에 제공할 수 있다. 이때 예를 들어 상술한 도 4에 도시된 바와 같이 연속된 단위 재생 구간이 결합되도록 구간 영상이 생성될 수 있으나, 본 발명의 다른 실시예에서는 불연속된 단위 재생 구간을 결합하여 하나의 구간 영상으로 제공될 수 있다.

구간 영상 제공부(13)는 사용자 단말(20)에 구간 영상을 제공 시, 구간 영상을 별도의 영상 클립으로 생성하여 다운로드 하거나 스트리밍 할 수 있도록 하거나, 전체 동영상 데이터의 재생 시작 시점을 제공되는 구간 영상으로 설정하도록 하는 방식을 사용하는 등, 다양한 방식으로 구간 영상을 제공할 수 있다.

한편 사용자별 구간 영상 관리부(14)는, 구간 영상 제공부(13)에 의하여 제공된 구간 영상에 대한 수집 입력을 사용자 단말(20)로부터 수신 시, 사용자 단말(20)에 대응되는 사용자 계정에 상기 수집 입력에 대응되는 구간 영상의 링크 정보를 저장하고, 저장된 링크 정보의 추가, 수정 및 삭제를 관리하는 기능을 수행한다.

구체적으로, 구간 영상에 대한 수집 입력은, 본 발명의 기능 수행을 위해서 사용자가 사용자 단말(20)에 설치된 어플리케이션 또는 프로그램을 실행하거나, 사용자 단말(20)을 이용하여 네트워크를 통해 웹 또는 서버에 접속한 결과 사용자 단말(20)에 출력되는 인터페이스에 따라 다양한 입력으로 지칭될 수 있으나, 사용자가 이용한 구간 영상을 자신의 계정에 저장하여 “서제”, “장바구니”, “즐겨찾기” 등의 이름으로 지칭되는 저장 공간에 저장하기 위한 입력을 의미한다. 즉 해당 구간 영상을 저장하여 자신만의 영상 리스트를 생성하여 관리할 수 있도록 하는 것이다.

구간 영상에 대한 수집 입력을 수신하면, 사용자별 구간 영상 관리부(14)는 수집 입력에 대응하는 구간 영상의 링크 정보를 사용자 단말(20)에 대응되는 사용자 계정에 저장하게 된다.

사용자 단말(20)에 대응되는 사용자 계정이란, 사용자 단말(20)을 이용하는 사용자의 계정을 의미한다. 한편 구간 영상의 링크 정보는, 구간 영상을 식별 및 이용할 수 있도록 사용자 계정에 저장되는 모든 연결 정보 또는 구간 영상을 사용자 계정에 저장하는 방식으로 관리되는 경우라면 해당 구간 영상의 데이터 그 자체를 의미할 수 있다.

한편, 사용자별 구간 영상 관리부(14)는 구간 영상의 링크 정보를 수집 입력에 따라서 저장하는 것 이외에, 사용자 단말(20)로부터의 입력에 따라서, 저장된 링크 정보의 추가, 수정 및 삭제를 관리하는 기능을 수행한다.

이를 통해, 사용자들은 교육용 동영상 데이터에 대한 구간 영상을 이용하는 경우라면, 자신만의 커리큘럼을 구간 영상의 수집 및 관리를 통하여 수행할 수 있고, 그 외라도 자신만의 영상 클립 리스트를 생성하여 이용할 수 있게 된다.

한편, 사용자들은 자신만의 커리큘럼 또는 영상 리스트를 다른 사용자들과 공유하거나, 자신과 선호도 또는 흥미 등이 비슷한 다른 사용자들의 커리큘럼 또는 영상 리스트를 이용하여 자신에 맞춤화된 구간 영상을 더욱 높은 정확도로 이용하고자 할 수 있다.

이를 위해서, 사용자별 구간 영산 관리부(14)는 사용자 단말(20)에, 사용자 단말(20)에 대응되는 사용자 계정의 키워드 검색 내역 또는 선호 정보를 다른 사용자 계정에 키워드 검색 내역 또는 선호 정보와 비교한 결과로서, 키워드 검색 내역의 유사도 수치가 기설정된 수치(예를 들어 유사한 키워드 개수가 전체 키워드 개수의 70%)를 초과하는 다른 사용자 계정에 저장된 링크 정보를 추천 구간 영상 정보로서 제공할 수 있다.

이를 통해, 구간 영상을 키워드로 검색하는 것 이외에, 자신과 검색 내역 또는 선호 정보가 비슷한 다른 사용자들이 이용했었거나 다른 사용자들이 상술한 수집 입력을 통해서 수집한 구간 영상을 추천받게 되어, 사용자들의 구간 영상 이용에 대한 편의성을 높일 수 있는 효과가 있다.

도 6 내지 8은 본 발명의 일 실시예의 구현에 따라 사용자 단말에 표시되는 화면의 예를 설명하기 위한 도면이다.

먼저 도 6을 참조하면, 도 6의 화면(300)은 구간 영상을 검색하는 인터페이스의 예를 설명하기 위한 도면으로 이해될 것이다. 화면(300)에서 사용자들은 검색 키워드 입력 메뉴(301)를 통해 자신이 검색하고자 하는 키워드를 입력할 수 있다.

키워드 검색을 요청하면, 검색 결과로서 동영상 데이터의 썸네일(Thumbnail) 이미지 또는 제목 등의 식별 정보(302)와 해당 키워드에 매칭되는 대표 키워드가 정의된 영상 구간(303)이 출력될 수 있다. 사용자는 재생 메뉴(304)를 통해 구간 영상을 재생할 수 있고, 담기 메뉴(305)를 통해서 상술한 바와 같이 구간 영상을 수집하여 자신의 계정에 저장할 수 있다.

한편 도 7의 화면(310)은 상술한 수집 입력에 따라서 저장된 사용자 계정별 저장 공간을 포함하는 인터페이스의 예를 설명하기 위한 도면으로 이해될 것이다. 도 7의 화면(310)에 "내 서재"로 지칭되는 인터페이스로서, 사용자들은 예를 들어 카테고리별로 구간 영상을 저장 및 관리할 수 있다.

도 8의 화면(320)은 상술한 사용자별 구간 영상 관리부(14)의 기능 수행에 의하여 출력되는 구간 영상 검색 인터페이스의 예를 설명하기 위한 도면으로 이해될 것이다. 화면(320)에서, 키워드 검색 영상(321)은 도 6과 동일하게 사용자가 키워드 검색 시 출력되는 구간 영상들의 리스트이고, 다른 사용자들이 많이 담아간 영상(322)은 상술한 바와 같이 사용자 계정의 키워드 검색 내역 또는 선호 정보를 다른 사용자 계정에 키워드 검색 내역 또는 선호 정보와 비교한 결과로서, 키워드 검색 내역의 유사도 수치가 기설정된 수치(예를 들어 유사한 키워드 개수가 전체 키워드 개수의 70%)를 초과하는 다른 사용자 계정에 저장된 링크 정보가 추천 구간 영상으로 제공되는 예이다.

도 9는 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 방법의 플로우차트이다. 이하의 설명에 있어서, 도 1 내지 8에 대한 설명과 중복되는 부분에 대한 설명은 생략하기로 한다.

먼저, 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 방법은, 상술한 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 장치의 각 구성이 수행하는 것으로 설명되거나, 상술한 바와 같이, 하나 이상의 프로세서 및 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 사용자 단말 또는 컴퓨팅 장치로 구현될 수 있다.

먼저, 단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 키워드 추출 단계(S10)가 수행된다. S10 단계는 상술한 키워드 추출부가 수행하는 것으로 설명된 모든 기능 및 도 2. 3에서 설명한 모든 기능을 포함하는 기능 수행 단계로 이해될 수 있다.

이후 S10 단계에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 구간별 키워드 정의 단계(S20)가 수행된다. 즉, S20 단계는, 상술한 구간별 키워드 정의부가 수행하는 것으로 설명된 모든 기능 및 도 4, 5에 대한 설명에서 언급한 모든 기능을 포함하는 기능 수행 단계로 이해될 수 있다.

이후, 사용자 단말로부터 동영상에 대한 키워드 검색 요청을 수신 시, 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 사용자 단말에 제공하는 구간 영상 제공 단계(S30)가 수행된다. 즉 S30 단계는 상술한 구간 영상 제공부가 수행하는 것으로 설명된 모든 기능 및 이에 대한 예로서 도 6 및 8에 대한 설명에서 언급한 모든 기능을 포함하는 기능 수행 단계로 이해될 수 있다.

한편 상술한 사용자별 구간 영상 관리부의 기능을 수행하는 단계 역시 미도시되었으나 상술한 본 발명의 일 실시예에 따른 구간 영상 검색 및 제공 방법에 포함될 수 있을 것이다.

도 10은 본 발명의 일 실시예에 따른 컴퓨팅 장치의 내부 구성의 설명하기 위한 블록도이다.

도 10에 도시한 바와 같이, 컴퓨팅 장치(11000)은 적어도 하나의 프로세서(processor)(11100), 메모리(memory)(11200), 주변장치 인터페이스(peripheral interface)(11300), 입/출력 서브시스템(I/Osubsystem)(11400), 전력 회로(11500) 및 통신 회로(11600)를 적어도 포함할 수 있다. 이때, 컴퓨팅 장치(11000)은 촉각 인터페이스 장치에 연결된 사용자단말기(A) 혹은 전술한 컴퓨팅 장치(B)에 해당될 수 있다.

메모리(11200)는, 일례로 고속 랜덤 액세스 메모리(high-speed random access memory), 자기 디스크, 에스램(SRAM), 디램(DRAM), 롬(ROM), 플래시 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(11200)는 컴퓨팅 장치(11000)의 동작에 필요한 소프트웨어 모듈, 명령어 집합 또는 그밖에 다양한 데이터를 포함할 수 있다.

이때, 프로세서(11100)나 주변장치 인터페이스(11300) 등의 다른 컴포넌트에서 메모리(11200)에 액세스하는 것은 프로세서(11100)에 의해 제어될 수 있다.

주변장치 인터페이스(11300)는 컴퓨팅 장치(11000)의 입력 및/또는 출력 주변장치를 프로세서(11100) 및 메모리 (11200)에 결합시킬 수 있다. 프로세서(11100)는 메모리(11200)에 저장된 소프트웨어 모듈 또는 명령어 집합을 실행하여 컴퓨팅 장치(11000)을 위한 다양한 기능을 수행하고 데이터를 처리할 수 있다.

입/출력 서브시스템(11400)은 다양한 입/출력 주변장치들을 주변장치 인터페이스(11300)에 결합시킬 수 있다. 예를 들어, 입/출력 서브시스템(11400)은 모니터나 키보드, 마우스, 프린터 또는 필요에 따라 터치스크린이나 센서등의 주변장치를 주변장치 인터페이스(11300)에 결합시키기 위한 컨트롤러를 포함할 수 있다. 다른 측면에 따르면, 입/출력 주변장치들은 입/출력 서브시스템(11400)을 거치지 않고 주변장치 인터페이스(11300)에 결합될 수도 있다.

전력 회로(11500)는 단말기의 컴포넌트의 전부 또는 일부로 전력을 공급할 수 있다. 예를 들어 전력 회로(11500)는 전력 관리 시스템, 배터리나 교류(AC) 등과 같은 하나 이상의 전원, 충전 시스템, 전력 실패 감지 회로(power failure detection circuit), 전력 변환기나 인버터, 전력 상태 표시자 또는 전력 생성, 관리, 분배를 위한 임의의 다른 컴포넌트들을 포함할 수 있다.

통신 회로(11600)는 적어도 하나의 외부 포트를 이용하여 다른 컴퓨팅 장치와 통신을 가능하게 할 수 있다.

또는 상술한 바와 같이 필요에 따라 통신 회로(11600)는 RF 회로를 포함하여 전자기 신호(electromagnetic signal)라고도 알려진 RF 신호를 송수신함으로써, 다른 컴퓨팅 장치와 통신을 가능하게 할 수도 있다.

이러한 도 10의 실시예는, 컴퓨팅 장치(11000)의 일례일 뿐이고, 컴퓨팅 장치(11000)은 도 10에 도시된 일부 컴포넌트가 생략되거나, 도 10에 도시되지 않은 추가의 컴포넌트를 더 구비하거나, 2개 이상의 컴포넌트를 결합시키는 구성 또는 배치를 가질 수 있다. 예를 들어, 모바일 환경의 통신 단말을 위한 컴퓨팅 장치는 도 10에 도시된 컴포넌트들 외에도, 터치스크린이나 센서 등을 더 포함할 수도 있으며, 통신 회로(1160)에 다양한 통신방식(WiFi, 3G, LTE, Bluetooth, NFC, Zigbee 등)의 RF 통신을 위한 회로가 포함될 수도 있다. 컴퓨팅 장치(11000)에 포함 가능한 컴포넌트들은 하나 이상의 신호 처리 또는 어플리케이션에 특화된 집적 회로를 포함하는 하드웨어, 소프트웨어, 또는 하드웨어 및 소프트웨어 양자의 조합으로 구현될 수 있다.

본 발명의 실시예에 따른 방법들은 다양한 컴퓨팅 장치를 통하여 수행될 수 있는 프로그램 명령(instruction) 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 특히, 본 실시예에 따른 프로그램은 PC 기반의 프로그램 또는 모바일 단말 전용의 어플리케이션으로 구성될 수 있다. 본 발명이 적용되는 애플리케이션은 파일 배포 시스템이 제공하는 파일을 통해 이용자 단말에 설치될 수 있다. 일 예로, 파일 배포 시스템은 이용자 단말이기의 요청에 따라 상기 파일을 전송하는 파일 전송부(미도시)를 포함할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로 (collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨팅 장치 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 구간 영상 검색 및 제공 장치로서,
단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 키워드 추출부;
상기 키워드 추출부에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 구간별 키워드 정의부;
사용자 단말로부터 동영상에 대한 키워드 검색 요청을 수신 시, 상기 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 상기 사용자 단말에 제공하는 구간 영상 제공부; 및
상기 구간 영상 제공부에 의하여 제공된 구간 영상에 대한 수집 입력을 상기 사용자 단말로부터 수신 시, 상기 사용자 단말에 대응되는 사용자 계정에 상기 수집 입력에 대응되는 구간 영상의 링크 정보를 저장하고, 저장된 링크 정보의 추가, 수정 및 삭제를 관리하는 사용자별 구간 영상 관리부;를 포함하고
상기 사용자별 구간 영상 관리부는,
상기 사용자 단말에, 상기 사용자 단말에 대응되는 사용자 계정의 키워드 검색 내역을 다른 사용자 계정의 키워드 검색 내역과 비교한 결과로서, 키워드 검색 내역의 유사도 수치가 기설정된 수치를 초과하는 다른 사용자 계정에 저장된 링크 정보를 추천 구간 영상 정보로서 제공하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
제1항에 있어서,
상기 키워드 추출부는,
상기 동영상 데이터를 이미지 프레임 데이터, 음성 데이터 및 자막 데이터로 분리하는 영상 데이터 분리부;
상기 이미지 프레임 데이터에 포함된 이미지 데이터에 대한 문자 인식 프로세스를 통해, 상기 이미지 프레임 데이터의 문자를 추출하는 제1 문자 추출부;
상기 음성 데이터에 대한 음성 인식 프로세스를 통해, 상기 음성 데이터에 포함된 문자를 추출하는 제2 문자 추출부;
상기 자막 데이터에 포함된 문자를 추출하는 제3 문자 추출부; 및
상기 제1 문자 추출부, 상기 제2 문자 추출부 및 상기 제3 문자 추출부에 의하여 추출된 문자 데이터를 결합하여 상기 동영상 데이터의 재생 구간 내에 포함된 키워드의 추출을 완료하는 키워드 결합부;를 포함하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
제1항에 있어서,
상기 구간별 키워드 정의부는,
상기 단위 재생 구간마다 상기 단위 재생 구간에 포함된 키워드의 빈도수가 가장 높은 키워드를 각 단위 재생 구간의 대표 키워드로 정의하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
제1항에 있어서,
상기 구간별 키워드 정의부는,
상기 단위 재생 구간마다 상기 단위 재생 구간에 포함된 키워드의 빈도수가 높은 순서로 적어도 하나의 키워드를 각 단위 재생 구간의 대표 키워드로 복수 정의하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
제1항에 있어서,
상기 구간별 키워드 정의부는,
상기 단위 재생 구간마다 상기 단위 재생 구간에 포함된 키워드의 빈도수가 높은 순서로 기설정된 개수의 키워드를 대표 후보 키워드로 설정하고, 대표 후보 키워드들 중, 상기 동영상 데이터의 제목, 상기 동영상 데이터의 저작자의 개인 정보, 상기 동영상 데이터에 연결되어 저장된 상기 동영상 데이터에 관련된 텍스트 정보와의 유사 수치가 가장 높은 키워드를 상기 단위 재생 구간의 대표 키워드로 정의하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
제1항에 있어서,
상기 구간별 키워드 정의부는,
상기 단위 재생 구간마다 상기 단위 재생 구간에 포함된 키워드의 빈도수가 높은 순서로 기설정된 개수의 키워드를 대표 후보 키워드로 설정하고, 대표 후보 키워드들 중, 상기 동영상 데이터의 제목, 상기 동영상 데이터의 저작자의 개인 정보, 상기 동영상 데이터에 연결되어 저장된 상기 동영상 데이터에 관련된 텍스트 정보와의 유사 수치가 높은 순서대로 적어도 하나의 키워드를 상기 단위 재생 구간의 대표 키워드로 정의하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
제6항에 있어서,
상기 구간별 키워드 정의부는,
복수의 사용자 단말로부터 입력된 정보로서, 각 구간 영상별 키워드 보완 요청 입력에 따른 키워드를 이용하여, 각 구간 영상에 포함된 단위 재생 구간의 대표 키워드를 보정하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
삭제
삭제
제1항에 있어서,
상기 구간 영상 제공부는,
상기 구간 영상을 상기 사용자 단말에 제공 시, 상기 구간별 키워드 정의부에 의하여 대표 키워드가 정의된 단위 재생 구간들 중 상기 대표 키워드가 동일한 단위 재생 구간들을 결합하여 생성된 구간 영상을 상기 사용자 단말에 제공하는 것을 특징으로 하는 구간 영상 검색 및 제공 장치.
하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 사용자 단말로 구현되는 구간 영상 검색 및 제공 방법으로서,
단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 키워드 추출 단계;
상기 키워드 추출 단계에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 구간별 키워드 정의 단계;
사용자 단말로부터 동영상에 대한 키워드 검색 요청을 수신 시, 상기 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 상기 사용자 단말에 제공하는 구간 영상 제공 단계; 및
상기 구간 영상 제공 단계에 의하여 제공된 구간 영상에 대한 수집 입력을 상기 사용자 단말로부터 수신 시, 상기 사용자 단말에 대응되는 사용자 계정에 상기 수집 입력에 대응되는 구간 영상의 링크 정보를 저장하고, 저장된 링크 정보의 추가, 수정 및 삭제를 관리하는 단계;를 포함하고
상기 관리하는 단계는,
상기 사용자 단말에, 상기 사용자 단말에 대응되는 사용자 계정의 키워드 검색 내역을 다른 사용자 계정의 키워드 검색 내역과 비교한 결과로서, 키워드 검색 내역의 유사도 수치가 기설정된 수치를 초과하는 다른 사용자 계정에 저장된 링크 정보를 추천 구간 영상 정보로서 제공하는 것을 특징으로 하는 구간 영상 검색 및 제공 방법.
컴퓨터-판독가능 매체로서,
상기 컴퓨터-판독가능 매체는, 컴퓨팅 장치로 하여금 이하의 단계들을 수행하도록 하는 명령들을 저장하며, 상기 단계들은:
단말을 통해 재생 가능한 동영상 데이터의 내용을 분석하여, 동영상 데이터의 재생 구간 내에 포함된 키워드를 추출하는 키워드 추출 단계;
상기 키워드 추출 단계에 의하여 추출된 키워드를 이용하여, 동영상 데이터를 구성하는 구간 영상의 구분 단위인 단위 재생 구간별로 대표 키워드를 정의하는 구간별 키워드 정의 단계;
사용자 단말로부터 동영상에 대한 키워드 검색 요청을 수신 시, 상기 키워드 검색 요청에 매칭되는 대표 키워드를 갖는 적어도 하나의 구간 영상을 상기 사용자 단말에 제공하는 구간 영상 제공 단계; 및
상기 구간 영상 제공 단계에 의하여 제공된 구간 영상에 대한 수집 입력을 상기 사용자 단말로부터 수신 시, 상기 사용자 단말에 대응되는 사용자 계정에 상기 수집 입력에 대응되는 구간 영상의 링크 정보를 저장하고, 저장된 링크 정보의 추가, 수정 및 삭제를 관리하는 단계;를 포함하고
상기 관리하는 단계는,
상기 사용자 단말에, 상기 사용자 단말에 대응되는 사용자 계정의 키워드 검색 내역을 다른 사용자 계정의 키워드 검색 내역과 비교한 결과로서, 키워드 검색 내역의 유사도 수치가 기설정된 수치를 초과하는 다른 사용자 계정에 저장된 링크 정보를 추천 구간 영상 정보로서 제공하는 것을 특징으로 하는 컴퓨터-판독가능 매체.