KR20140108180A

KR20140108180A - 멀티미디어 컨텐츠에 접속하기 위한 시스템 및 방법

Info

Publication number: KR20140108180A
Application number: KR1020140024562A
Authority: KR
Inventors: 수리아나라야난 비노스; 마니칸단 엠.사바리마라이; 타지 사우라브
Original assignee: 삼성전자주식회사
Priority date: 2013-02-28
Filing date: 2014-02-28
Publication date: 2014-09-05
Also published as: US20140245463A1; IN2013DE00589A

Abstract

멀티미디어 컨텐츠에 접속하기 위한 시스템 및 방법을 설명한다 다양한 실시 예에 따르면, 멀티미디어 컨텐츠에 접속하는 방법에 있어서, 멀티미디어 클래스의 멀티미디어 컨텐츠에 접속하려는 사용자 질의 입력을 수신하는 단계; 상기 멀티미디어 컨텐츠의 미디어 색인에서 관한 사용자 질의 입력에 응답하여 멀티미디어 클래스의 태그가 붙여진 멀티미디어 컨텐츠의 부분들을 확인하는 단계; 상기 확인된 멀티미디어 컨텐츠의 태그가 붙여진 부분들을 검색하는 단계; 및 상기 검색된 멀티미디어 컨텐츠의 부분들을 멀티미디어 인터페이스를 통해 사용자 전자 장치로 전송하는 단계를 포함하고, 상기 멀티미디어 컨텐츠는 복수의 멀티미디어 클래스들과 관련되어 있고, 상기 복수의 멀티미디어 클래스들의 각각은 상기 멀티미디어 컨텐츠의 하나 이상의 부분들과 연결되는 방법을 포함할 수 있다.

Description

멀티미디어 컨텐츠에 접속하기 위한 시스템 및 방법{systems and methods for accessing multi-media content}

본 발명은 멀티미디어 컨텐츠과 관련된 메타 데이터를 기반으로 멀티미디어 컨텐츠에 접속하기 위한 시스템 및 방법에 관한 것이다.

일반적으로, 전자 장치는 방송 멀티미디어 컨텐츠와 서드 파티(third party) 멀티미디어 컨텐츠 스트리밍 포털을 포함하는 다양한 소스로부터 오디오, 그림, 비디오 및 애니메이션과 같은 멀티미디어 컨텐츠를 수신할 수 있다. 멀티미디어 컨텐츠는 전자 장치의 사용자가 자신의 취향에 맞고 흥미있는 컨텐츠를 검색하고 시청하기 용이하게 다양한 태그 및 키워드와 관련될 수 있다. 멀티미디어 컨텐츠의 시각 및 오디오 트랙(trak)은 뉴스, TV 쇼, 스포츠, 영화, 광고와 같은 넓은 카테고리에 속한 멀티미디어 컨텐츠를 태그를 통해 분석할 수 있다.

멀티미디어 컨텐츠는 멀티미디어 컨텐츠의 오디오 트랙을 기반으로 태그가 붙여질 수 있다. 예를 들어, 오디오 트랙에는 오디오 트랙의 리듬, 음 높이, 윤곽의 유사성을 기반으로, 재즈, 전자음악, 컨트리음악, 락, 팝과 같은 하나 이상의 멀티미디어 클래스(class) 또는 그룹의 태그가 붙여질 수 있다. 멀티미디어 컨텐츠는 또한 멀티미디어 컨텐츠의 장르를 기반으로 태그가 붙여질 수 있다. 예를 들어, 멀티미디어 컨텐츠에는 멀티미디어 컨텐츠의 이야기 구성의 서사 요소의 유사성을 기반으로, 액션, 스릴러, 타큐멘터리 및 호러와 같은 하나 이상의 멀티미디어 그룹의 태그가 붙여질 수 있다.

대부분의 멀티미디어 컨텐츠 제공자(provider)들은 멀티미디어 컨텐츠의 양이 증가함에 따라 사용자가 그의 관심 분야의 내용을 검색하기 쉽도록 제공해야 하는 것이 요구된다. 예를 들어, 사용자는 그가 가장 좋아하는 가수의 라이브 공연을 시청하는데 관심이 있을 수 있다. 사용자는 그가 가장 좋아하는 가수의 라이브 공연에 속하는 멀티미디어 파일들을 검색하려는 문의를 제공한다. 이 사용자의 문의에 응답하여, 멀티미디어 컨텐츠 제공자는 멀티미디어 파일들이 사용자가 가장 좋아하는 가수의 라이브 공연의 기록을 포함하는 것을 지시하는 키워드의 태그가 붙여진 멀티미디어 파일들의 목록들을 반송한다. 많은 경우에, 사용자가 가장 좋아하는 가수의 라이브 공연은 다른 가수들의 공연에 뒤따라 진행될 수 있다. 이러한 경우, 사용자는 멀티미디어 파일 전체를 보고 싶어하지 않을 수 있다. 그러나 사용자는 여전히 그 멀티미디어 파일 전체 길이를 스트리밍하거나 다운로드하고, 그 후 사용자가 가장 좋아하는 가수의 공연의 시작을 나타내는 멀티미디어 파일의 프레임을 찾을 수 있다. 이것은 사용자가 그와 관련없는 컨텐츠를 다운로드하고 스트리밍하기 때문에, 대역폭과 시간의 낭비를 이끈다.

다른 예로, 사용자는 특별한 연도에 발표된 영화들로부터 코메디 장면을 검색할 수 있다. 많은 경우에, 다른 멀티미디어 카테고리의 멀티미디어 컨텐츠의 특정 부분들이 이 사용자의 문의에 관련 있을 수 있다. 예를 들어, 심지어 액션 영화가 코메디 장면을 포함할 수 있다. 이러한 경우에, 사용자는 그가 관심 있어 하는 멀티미디어 컨텐츠를 놓칠 수 있다. 사용자가 관련된 컨텐츠를 놓칠 확률을 낮추기 위하여, 몇몇 멀티미디어 서비스 제공자들은 사용자가 열람하는 동안에 멀티미디어 파일의 재생 속도를 증가시키거나 고정된 시간 간격에서 멀티미디어 파일들로부터 스틸을 표시하기 쉽게 한다. 그러나, 이러한 기법들은 보통 오디오 트랙을 왜곡하고, 멀티미디어 컨텐츠에 관한 매우 작은 정보를 사용자에게 전달한다.

본 발명의 다양한 실시 예에 따른 멀티미디어 컨텐츠에 접속하기 위한 방법 및 장치를 제공한다.

다양한 실시 예에 따라, 멀티미디어 컨텐츠에 접속하기 위한 방법은 멀티미디어 카테고리의 멀티미디어 컨텐츠는 접속하려는 사용자 입력을 수신하는 단계, 상기 멀티미디어 컨텐츠의 미디어 색인에서 관한 사용자 요청에 응답하여 멀티미디어 카테고리의 태그가 붙여진 멀티미디어 컨텐츠의 부분들을 확인하는 단계; 상기 확인된 멀티미디어 컨텐츠의 태그가 붙여진 부분들을 검색하는 단계; 및 상기 검색된 멀티미디어 컨텐츠의 부분들을 멀티미디어 인터페이스를 통해 사용자 전자 장치로 전송하는 단계를 포함하고, 상기 멀티미디어 컨텐츠는 복수의 멀티미디어 클래스와 관련되어 있고, 상기 복수의 멀티미디어 클래스들 각각은 상기 멀티미디어 컨텐츠의 하나 이상의 부분들과 연결될 수 있다.

다른 실시 예에 따라, 미디어 분류 시스템은 프로세서; 상기 프로세서에 결합되고, 멀티미디어 컨텐츠를 적어도 하나의 구성 트랙들로 분할하는 분할 모듈; 상기 프로세서에 결합되고, 상기 구성 트랙들로부터 복수의 특징들을 추출하고, 상기 복수의 특징들을 기반으로 상기 멀티미디어 컨텐츠를 적어도 하나의 멀티미디어 클래스로 분류하는 범주화 모듈; 상기 프로세서에 결합되고, 상기 적어도 하나의 멀티미디어 클래스를 기반으로 상기 멀티미디어 컨텐츠에 대한 미디어 색인을 생성하고, 사용자가 상기 멀티미디어 컨텐츠에 접속할 수 있도록 멀티미디어 인터페이스를 생성하는 색인 생성 모듈; 및 상기 프로세서에 결합되고, 상기 멀티미디어 컨텐츠와 관련된 디지털 저작권을 기반으로 상기 멀티미디어 컨텐츠를 보호하되, 상기 멀티미디어 컨텐츠는 복합 분석적인 신호 사전들을 사용하는 희소 코딩 기법 및 압축 센싱 기법을 기반으로 보호되는 디지털 저작권 관리(DRM) 모듈을 포함할 수 있다.

또 다른 실시 예에 따라, 전자 장치는 적어도 하나의 장치 프로세서; 및 상기 적어도 하나의 장치 프로세서와 결합되고, 멀티미디어 클래스의 멀티미디어 컨텐츠에 접속하려는 사용자 입력을 수신하고, 상기 멀티미디어 클래스의 태그가 붙여진 상기 멀티미디어 컨텐츠 부분들을 검색하고, 상기 검색된 티미디어 컨텐츠의 태그가 붙여진 부분들을 출력하는 멀티미디어 인터페이스를 포함할 수 있다.

다양한 실시 예에 따른 멀티미디어 컨텐츠에 접속하기 위한 방법 및 장치는, 멀티미디어 컨텐츠들을 적어도 하나의 구성 트랙들로 분할하고, 분할된 구성 트랙들로부터 복수의 특징들을 추출하고, 추울된 특징들에 대한 색인 정보를 컨텐츠에 태그함으로써, 사용자가 관심 있어 하는 분야를 더 구체적으로 상세하게 검색할 수 있도록 하여 이를 제공할 수 있습니다.

도 1a는 본 발명의 일 실시 예에 따른 미디어 접속 시스템을 구현하는 네트워크 환경을 개략적으로 도시한다.
도 1b는 본 발명의 일 실시 예에 따른 미디어 분류 시스템의 구성 요소들을 개략적으로 도시한다.
도 2a는 본 발명의 다른 실시 예에 따른 미디어 분류 시스템의 구성 요소들을 개략적으로 도시한다.
도 2b는 예시적인 의사 결정 트리 기반 분류부를 도시한다.
도 2c는 박수 소리 감지 방법의 성능을 묘사하는 예시적인 그래프를 도시한다.
도 2d는 웃음 소리를 가진 오디오 트랙의 특징적인 패턴을 묘사하는 예시적인 그래프를 도시한다.
도 2e는 목소리의 음 높이 감지 방법의 성능을 묘사하는 예시적인 그래프를 도시한다.
도 3a, 도 3b 및 도 3c는 본 발명의 일 실시 예에 따른 멀티미디어 컨텐츠를 분할하고 멀티미디어 컨텐츠에 대한 미디어 색인을 생성하는 방법을 도시한다.
도 4는 본 발명의 일 실시 예에 따른 멀티미디어 컨텐츠를 스키밍(skimming)하는 방법을 도시한다.
도 5는 본 발명의 일 실시 예에 따른 인증되지 않고 사용자와 허용되지 않는 사용자로부터 멀티미디어 컨텐츠를 보호하는 방법을 도시한다.
도 6은 본 발명의 일 실시 예에 따른 인증된 사용자가 멀티미디어 컨텐츠에 접속하려고 시도하는 방법을 도시한다.
도 7은 본 발명의 일 실시 예에 따른 사용자로부터 멀티미디어 컨텐츠의 피드백을 획득하는 방법을 도시한다.

이하, 첨부된 도면을 참조하여 본 발명(present invention)를 설명한다. 본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들이 도면에 예시되고 관련된 상세한 설명이 기재되어 있다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경 및/또는 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용되었다.

본 발명 가운데 사용될 수 있는“포함한다” 또는 “포함할 수 있다” 등의 표현은 발명된 해당 기능, 동작 또는 구성요소 등의 존재를 가리키며, 추가적인 하나 이상의 기능, 동작 또는 구성요소 등을 제한하지 않는다. 또한, 본 발명에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 발명에서 “또는” 등의 표현은 함께 나열된 단어들의 어떠한, 그리고 모든 조합을 포함한다. 예를 들어, “A 또는 B”는, A를 포함할 수도, B를 포함할 수도, 또는 A 와 B 모두를 포함할 수도 있다.

본 발명 가운데 “제 1,”“제2,”“첫째,”또는“둘째,”등의 표현들이 본 발명의 다양한 구성요소들을 수식할 수 있지만, 해당 구성요소들을 한정하지 않는다. 예를 들어, 상기 표현들은 해당 구성요소들의 순서 및/또는 중요도 등을 한정하지 않는다. 상기 표현들은 한 구성요소를 다른 구성요소와 구분 짓기 위해 사용될 수 있다. 예를 들어, 제1 사용자 기기와 제 2 사용자 기기는 모두 사용자 기기이며, 서로 다른 사용자 기기를 나타낸다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해될 수 있어야 할 것이다.

본 발명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

본 발명에 따른 전자 장치는, 통신 기능이 포함된 장치일 수 있다. 예를 들면, 전자 장치는 스마트 폰(smartphone), 태블릿 PC(tablet personal computer), 이동 전화기(mobile phone), 화상전화기, 전자북 리더기(e-book reader), 데스크탑 PC(desktop personal computer), 랩탑 PC(laptop personal computer), 넷북 컴퓨터(netbook computer), PDA(personal digital assistant), PMP(portable multimedia player), MP3 플레이어, 모바일 의료기기, 카메라(camera), 또는 웨어러블 장치(wearable device)(예: 전자 안경과 같은 head-mounted-device(HMD), 전자 의복, 전자 팔찌, 전자 목걸이, 전자 앱세서리(appcessory), 전자 문신, 또는 스마트 와치(smartwatch))중 적어도 하나를 포함할 수 있다.

어떤 실시 예들에 따르면, 전자 장치는 통신 기능을 갖춘 스마트 가전 제품(smart home appliance)일 수 있다. 스마트 가전 제품은, 예를 들자면, 전자 장치는 텔레비전, DVD(digital video disk) 플레이어, 오디오, 냉장고, 에어컨, 청소기, 오븐, 전자레인지, 세탁기, 공기 청정기, 셋톱 박스(set-top box), TV 박스(예를 들면, 삼성 HomeSyncTM, 애플TVTM, 또는 구글 TVTM), 게임 콘솔(game consoles), 전자 사전, 전자 키, 캠코더(camcorder), 또는 전자 액자 중 적어도 하나를 포함할 수 있다.

어떤 실시 예들에 따르면, 전자 장치는 각종 의료기기(예: MRA(magnetic resonance angiography), MRI(magnetic resonance imaging), CT(computed tomography), 촬영기, 초음파기 등), 네비게이션(navigation) 장치, GPS 수신기(global positioning system receiver), EDR(event data recorder), FDR(flight data recorder), 자동차 인포테인먼트(infotainment) 장치, 선박용 전자 장비(예: 선박용 항법 장치 및 자이로 콤파스 등), 항공 전자기기(avionics), 보안 기기, 차량용 헤드 유닛, 산업용 또는 가정용 로봇, 금융 기관의 ATM(automatic teller? machine) 또는 상점의 POS(point of sales) 중 적어도 하나를 포함할 수 있다.

어떤 실시 예들에 따르면, 전자 장치는 통신 기능을 포함한 가구(furniture) 또는 건물/구조물의 일부, 전자 보드(electronic board), 전자 사인 입력장치(electronic signature receiving device), 프로젝터(projector), 또는 각종 계측기기(예: 수도, 전기, 가스, 또는 전파 계측 기기 등) 중 적어도 하나를 포함할 수 있다. 본 발명에 따른 전자 장치는 전술한 다양한 장치들 중 하나 또는 그 이상의 조합일 수 있다. 또한, 본 발명에 따른 전자 장치는 플렉서블 장치일 수 있다. 또한, 본 발명에 따른 전자 장치는 전술한 기기들에 한정되지 않음은 당업자에게 자명하다.

이하, 첨부된 도면을 참조하여 다양한 실시 예에 따른 전자 장치에 대해서 살펴본다. 다양한 실시 예에서 이용되는 사용자라는 용어는 전자 장치를 사용하는 사람 또는 전자 장치를 사용하는 장치(예: 인공지능 전자 장치)를 지칭할 수 있다. .

다양한 실시 예에 따른 시스템들 및 방법들은 휴대폰, 스마트폰, 개인용 정보 단말기(PDA), 테블릿, 노트북, 홈 시어터 시스템, 셋톱 박스, 인터넷 프로토콜 텔레비전(IP TV) 및 스마트 텔레비전(smart TV)과 같은 다양한 전자 장치를 사용하여 멀티미디어 컨텐츠에 접속할 수 있다. 예를 들면,멀티미디어로의 접속을 제공하는 방법들은 미디어 접속 시스템을 사용하여 구현될 수 있다. 미디어 접속 시스템은 복수의 전자 장치들과 미디어 분류 시스템을 포함할 수 있다. 전자 장치들은 멀티미디어 컨텐츠에 접속하기 위하여 미디어 분류 시스템과 직접적으로 혹은 네트워크를 통해서 통신할 수 있다.

일 실시 예에서, 미디어 분류 시스템은 다양한 소스들로부터 멀티미디어 컨텐츠를 불러오고, 불러온 멀티미디어를 데이터베이스에 저장할 수 있다. 그리고, 미디어 분류 시스템은 멀티미디어 컨텐츠의 프로세싱(processing)을 초기화할 수 있다. .예를 들어, 미디어 분류 시스템은 프로세싱을 더 용이하게 하기 위해, 아날로그 포맷인 멀티미디어 컨텐츠를 디지털 포맷으로 변환할 수 있다. 멀티미디어 컨텐츠는 복호 및 역다중화 등과 같은 기법을 사용하여 오디오 트랙, 시각 트랙 및 텍스트 트랙과 같은 구성 요소의 트랙들로 분할(split)될 수 있다. 여기서, 텍스트 트랙은 비디오가 존재하는 것임을 나타내는 것일 수 있다.

일 실시 예에서, 오디오 트랙, 시각 트랙, 텍스트 트랙은 시각 트랙에서 숏(shot)들 사이의 바운더리(boundary)들, 광고 시간(commercial breaks) 과 같은 하위 레벨 특징들을 추출하기 위해 분석될 수 있다. 예를 들면, 숏들 사이의 경계들은 절대 희소 계수 차이의 합계와 희소 표현 영역의 이벤트 변화률과 같은 숏 감지 기법들을 사용하여 결정될 수 있다. 숏 경계 감지(shot boundrary detection)는 시각 트랙을 복수의 희소(sparse) 비디오 조각(segment)들로 나누기 위해 사용될 수 있다. 희소 비디오 조각들은 그 후 객체 인식(object recognition), 하이라이트 장면(highlight seene) 및 이벤트 감지(event detection)와 같은 상위 레벨 특징들을 추출하기 위해 더 분석될 수 있다. 상위 레벨 특징들의 희소 표현은, 예를 들어, 희소 비디오 조각들에 묘사되는 장면들의 액션, 장소, 시간에 기초하여, 희소 비디오 조각들과 전체 시각 트랙 사이의 의미적 관련성을 결정하는데 사용될 수 있다. 예를 들면, 희소 비디오 조각들은 부경계(subboundary)를 감지하려는 희소 장면 전환 백터와 같은 희소 기반 기법들을 사용하여 분석될 수 있다.

희소 비디오 분석을 기반으로, 멀티미디어 컨텐츠의 이야기 구성에 중요한 희소 비디오 조각들은 핵심 이벤트들 또는 핵심 부경계들(subboundary)로서 선택될 수 있다. 그리고 나서, 모든 핵심 이벤트들은 멀티미디어 컨텐츠에 대한 스킴(skim)을 생성하도록 합성될 수 있다.

다른 구현에서, 멀티미디어 컨텐츠의 시각 트랙은 희소 표현과 압축 센싱 특징들을 기반으로 분할될 수 있다. 희소 비디오 조각들은 그 후 그들의 희소 관련성을 기반으로 핵심 프레임들로서 함께 무리를 이룰 수 있다. 핵심 프레임들은 또한 희소 관련성 계수를 결정하므로써 불필요한 프레임들을 피하도록 서로 비교될 수 있다. 예를 들어, 하나의 숏이나 장면을 나타내는 유사하거나 같은 프레임들은 희소 관련성 계수 측정값을 소정의 임계치과 비교함으로써 폐기될 수 있다. 일 실시 예에서, 핵심 프레임들 사이의 유사성은 색 분포, 모양, 질감, 빛의 흐름, 모서리들, 모션 벡터들, 카메라 활동 및 카메라 모션과 같은 다양한 프레임 특징들을 기반으로 결정될 수 있다. 그 후, 핵심 프레임들은 희소 표현 및 압축 센싱 분류 모델들을 기반으로 멀티미디어 컨텐츠를 하나 이상의 미리 정의된 멀티미디어 클래스로 분류하기 위하여 미리 정의된 멀티미디어 클래스들의 서사 요소의 유사성을 결정하도록 분석될 수 있다.

일 실시 예에서, 멀티미디어 컨텐츠의 오디오 트랙은 복수의 오디오 프레임들을 생성하도록 분석될 수 있다. 그 후, 조용한 프레임들은 어떤 오디오 정보도 가지고 있지 않기 때문에, 조용한 프레임들은 조용하지 않은 오디오 프레임을 생성하도록 복수의 오디오 프레임들로부터 폐기될 수 있다. 그 후, 조용하지 않은 오디오 프레임은 시간과 스펙트럼과 시간 주파수와 상위의 통계를 포함하는 핵심 오디오 특징들을 추출하도록 처리될 수 있다. 핵심 오디오 특징들을 기반으로, 멀티미디어 컨텐츠는 그 후 하나 이상의 멀티미디어 클래스로 분류될 수 있다.

일 실시 예에서, 미디어 분류 시스템은 멀티미디어 컨텐츠를 추출된 특징들을 기반으로 적어도 하나의 멀티미디어 클래스로 분류할 수 있다. 예를 들어, 웃음이나 함성과 같은 지각할 수 있는 희소 표현을 기반으로, 멀티미디어 컨텐츠는 "코메디"로 이름 붙여진 멀티미디어 클래스로 분류될 수 있다. 또한, 미디어 분류 시스템은 적어도 하나의 멀티미디어 클래스를 기반으로 멀티미디어 컨텐츠에 대한 미디어 색인을 생성할 수 있다. 예를 들어, 미디어 색인의 한 항목이 멀티미디어 컨텐츠가 2:00 ~ 4:00 동안 "코메디" 라고 지시할 수 있다. 생성된 미디어 색인은 미디어 분류 시스템의 국부적인 저장소에 저장될 수 있다.

전자 장치 내에 사용자 질의 요청에 대한 입력을 수신하고, 사용자가 선택한 멀티미디어 컨텐츠로의 접속을 시도하는 멀티미디어 인터페이스를 통해 사용자는 사용자 입력을 미디어 분류 시스템에 입력할 수 있다. 멀티미디어 컨텐츠는 사용자가 그가 선택한 컨텐츠를 검색하고 시청하기 용이하도록 다양한 태그들과 키워드들과 연결될 수 있다. 예를 들어, 사용자가 지난 6달 동안 발표된 영화들의 모든 코메디 장면들을 시청하기를 희망할 수 있다. 사용자 질의 요청을 수신하자마자, 미디어 분류 시스템은 미디어 색인에 관한 질의를 실행하여 멀티미디어 클래스의 태그가 붙여진 멀티미디어 컨텐츠의 태그가 붙여진 부분을 검색하고, 그것을 사용자에게 표시할 전자 장치에 전송할 수 있다. 멀티미디어 컨텐츠의 태그가 붙여진 부분은 사용자를 위한 연관된 멀티미디어 컨텐츠의 목록으로서 이해될 수 있다. 사용자는 그 후 그가 시청하기 원하는 컨텐츠를 선택할 수 있다. 다른 구현에 따라, 멀티미디어 인터페이스가 미디어 분류 시스템에 의해 생성될 수 있다.

미디어 분류 시스템은 멀티미디어 컨텐츠를 저장하고 있는 전체 파일이 아니라 멀티미디어 컨텐츠의 관련 부분들만 전송할 것이고, 따라서 대역폭과 사용자의 다운로드 시간을 절약할 수 있다. 예를 들어, 미디어 분류 시스템은 또한 사용자가 평가하거나 멀티미디어 컨텐츠의 색인 작업에 관한 피드백을 제공하도록 촉구할 수 있다. 수신된 평가나 피드백을 기반으로, 미디어 분류 시스템은 미디어 색인을 업데이트할 수 있다. 일 실시 예에서, 미디어 분류 시스템은 사용자의 피드백이나 평가를 기반으로 멀티미디어 컨텐츠 클래스를 개선하도록 기계 학습 기법을 채용할 수 있다. 미디어 분류 시스템은 허가되지 않은 시청이나 사용자 사이의 멀티미디어 컨텐츠의 공유를 방지하기 위해 디지털 저작권 관리 기법을 실현할 수 있다.

상기의 시스템들과 방법들은 다음의 도면들과 연계하여 더 설명될 것이다. 설명 및 도면들은 단지 본 발명의 원리들을 도시할 뿐임을 유의하여야 한다. 또한, 여기에서 명시적으로 설명되거나 도시되진 않지만, 본 발명의 원리들을 실시하고 본 발명의 사상과 범위 내에 포함되는 다양한 구조들이 고안될 수 있다.

상기 시스템들과 방법들이 구현되는 방식은 도 1a, 도 1b, 도 2a, 도 2b, 도 2c, 도 2d, 도 2e, 도 3a, 도 3b, 도 3c, 도 4, 도 5, 도 6 및 도 7을 참조하여 구체적으로 설명될 것이다. 설명한 시스템들 및 방법들의 양태들은 어떤 다른 장치, 전송 환경 및/또는 구성들로 구현될 수 있으나, 실시 예들은 다음의 예시적인 시스템(들)의 맥락에서 설명될 것이다.

도 1a는 본 발명의 일 실시 예에 따라 미디어 접속 시스템(102)을 구현하는 네트워크 환경(100)을 개략적으로 도시한다.

도 1a를 참조하면, 다양한 실시 예에 따른, 미디어 접속 시스템(102)은 라우터, 브릿지(bridge), 서버, 연산 장치, 저장 장치 등을 포함하는 다양한 네트워크 장치들을 포함하는 네트워트 환경으로 구현될 수 있다. 일 실시 예에서, 미디어 접속 시스템(102)은 통신 네트워크를 통해 일괄적으로 전자 장치들(108-1, 108-2, 108-3, ... 108-N)이라고 불리거나 개별적으로 전자 장치(108)라 불리는 하나 이상의 전자 장치들(108-1, 108-2, 108-3, ... 108-N)에 연결되는 미디어 분류 시스템(104)을 포함한다.

네트워크(106)는 이동 통신을 위한 글로벌 시스템(Global System for Mobile Communication(GSM)) 네트워크, 범용 이동 통신 시스템(Universal Mobile Telecommuncations System(UMTS)) 네트워크, 또는, 예를 들어, 하이퍼텍스트 전송 규약(Hypertext Transfer Protocol(HTTP)) 및 전송 제어 프로토콜/인터넷 프로토콜(Transmission Control Protocol/Internet Protocol(TCP/IP))과 같은 일반적으로 사용되는 프로토콜의 어느 것을 사용하는 일반적으로 사용되는 대중적인 통신 네트워크들 중 어느 것을 포함할 수 있다.

미디어 분류 시스템(104)은 데스트탑 컴퓨터, 워크스테이션 및 서버과 같은 상업적으로 사용 가능한 연산 시스템으로 구현될 수 있다. 전자 장치(108)는, 예를 들어, 휴대폰, 스마트폰, 테블릿, 홈 시어터 시스템, 셋톱 박스, 인터넷 프로토콜 텔레비전(IP TV), 스마트 텔레비전(smart TV) 및/또는 개인용 정보 단말기(PDA) 및 랩탑과 같은 종래의 연산 장치일 수 있다. 일 실시 예에서, 전자 장치(108)는 사용자가 네트워크(106)를 통해 미디어 분류 시스템(104)과 통신하는 것을 용이하게 하기 위해, 혼합된 멀티미디어 인터페이스(110)를 포함할 수 있다. 일 실시 예에서, 네트워크 환경(100)은 네트워크(106)를 통해 미디어 분류 시스템(104)과 통신할 수 있게 연결된 데이터베이스 서버(112)를 포함할 수 있다. 또한, 데이터베이스 서버(112)는 일괄적으로 미디어 소스 장치들(114)이라 불리고 개별적으로 미디어 소스 장치(114)라 불리는 하나 이상의 미디어 소스 장치들(114-1, 114-2, ... 114-N)과 통신할 수 있게 연결될 수 있다. 미디어 소스 장치들(114)은 텔레비전, 라디오 및 인터넷과 같은 방송 미디어일 수 있다. 미디어 분류 시스템(104)은 미디어 소스 장치들(114)로부터 멀티미디어 컨텐츠를 불러 오고, 불러온 멀티미디어 컨텐츠를 데이터베이스 서버(112)에 저장할 수 있다.

일 실시 예에서, 미디어 분류 시스템(104)은 데이터베이스 서버(112)로부터 멀티미디어 컨텐츠를 불러 올 수 있다. 다른 실시 예에서, 미디어 분류 시스템(104)은 직접적으로 네트워크(106)를 통해 미디어 소스 장치(114)로부터 멀티미디어 컨텐츠를 생방송 멀티미디어 스트림으로서 획득할 수 있다. 상기 생방송 멀티미디어 스트림은 스포츠 이벤트나 뮤지컬 콘서트와 같은 진행 중인 활동과 관련된 멀티미디어 컨텐츠로 이해될 수 있다.

미디어 분류 시스템(104)은 그 후 멀티미디어 컨텐츠의 프로세싱을 초기화 할 수 있다. 미디어 분류 시스템(104)은 그 후 멀티미디어 컨텐츠를 오디어 트랙, 시각 트랙 및 텍스트 트랙과 같은 구성 요소 트랙들로 분할할 수 있다. 분할된 이후에, 복수의 특징들이 오디오 트랙, 시각 트랙 및 텍스트 트랙으로부터 추출될 수 있다. 또한, 미디어 분류 시스템(104)은 멀티미디어 컨텐츠를 하나 이상의 멀티미디어 클래스(class)(M₁,M₂,..M_N)으로 분류할 수 있다. 멀티미디어 컨텐츠는 상기 추출된 특징들을 기반으로 하나 이상의 멀티미디어 클래스로 분류될 수 있다. 멀티미디어 클래스는 코메디, 액션, 드라마, 가족, 음악, 어드벤처 및 호러를 포함할 수 있다. 하나 이상의 멀티미디어 클래스들을 기반으로, 미디어 분류 시스템(104)은 멀티미디어 컨텐츠에 대한 미디어 색인을 생성할 수 있다.

전자 장치(108)는 선택한 멀티미디어 컨텐츠로의 접속을 시도하기 위해, 멀티미디어 인터페이스(110)를 통해 미디어 분류 시스템(104)으로 질의 요청할 수 있다. 예를 들어, 사용자는 그가 가장 좋아하는 가수의 라이브 공연을 시청하는 것을 원할 수 있다. 여기서, 멀티미디어 컨텐츠는 사용자가 원하는 컨텐츠를 검색하고 시청하기 용이하게 하기 위해, 다양한 태그 및 키워드와 연관될 수 있다. 전자 장치(108)로부터 수신된 질의 요청에 응답하여, 미디어 분류 시스템(104)은 미디어 색인에 관한 질의에 대응하여 질의와 관련된 멀티미디어 컨텐츠의 목록을 전자 장치(108)로 반송할 수 있다. 미디어 분류 시스템(104)는, 멀티미디어 인터페이스(110)를 통해 사용자에게 제공할 전자 장치(108)로 전송할 수 있다. 사용자는 멀티미디어 인터페이스(110)를 통해 그가 시청하기 원하는 컨텐츠를 선택할 수 있다. 예를 들어, 사용자는 전자 장치(108)의 멀티미디어 인터페이스(110) 상의 표시된 컨텐츠 목록을 통해 컨텐츠를 선택하기 위한 입력(예; 클릭)을 수행할 수 있다. 또한, 전자 장치(108)는 멀티미디어 컨텐츠에 접속하기 위해 인증 및 허가 과정을 수행할 수 있다. 미디어 분류 시스템(104)은 전자 장치(108)가 멀티미디어 컨텐츠에 접속하도록 인증할 수 있다. 전자 장치(108)는 보안을 위한 암호 및 개인 식별 번호(Personal Identification Number(PIN))와 같은 인증의 구체적인 사항들을 미디어 분류 시스템(104)에 제공할 수 있다. 예를 들면, 전자 장치(108)는 주 전자 장치 또는 보조 전자 장치일 수 있다. 미디어 분류 시스템(104)은 주 전자 장치(108)의 신뢰성을 확인하자마자, 주 전자 장치(108)는 멀티미디어 인터페이스(110)를 통해 멀티미디어 컨텐츠로 접근할 수 있다. 주 전자 장치(108)는 그 후 보조 전자 장치에게 멀티미디어 컨텐츠로의 접근 허가를 수여하도록 할 수 있다.

일 실시 예에서, 주 전자 장치(108)는 보조 전자 장치가 특정 멀티미디어 클래스에 해당되는 컨텐츠를 시청하는 것을 금지할 수 있다. 멀티미디어 컨텐츠 시청의 제약은 보조 사용자의 자격(credentials)을 기반으로 한다. 예를 들어, 주 전자 장치의 사용자는 부모이고, 보조 전자 장치의 사용자는 자녀일 수 있다. 이 경우, 부모는 자녀가 사용하는 보조 전자 장치에서 폭력적인 장면들을 시청하는 것이 금지되도록 할 수 있다.

일 실시 예에서, 주 전자 장치 및 보조 전자 장치는 휴대폰 사용자일 수 있고, 원격 서버로부터 혹은 스마트 IP TV 서버를 통해서 멀티미디어 컨텐츠와 접속할 수 있다. 한편, 주 전자 장치는 스마트 텔레비전이나 모바일 저장소로부터 직접 멀티미디어 컨텐츠에 접속할 수 있으나, 반면에, 보조 전자 장치는 휴대 장치로부터 원격 서버를 통해 스마트 IP TV로부터 멀티미디어 컨텐츠에 접속할 수 있다. 또한, 주 전자 장치 및 보조 전자 장치는 동시에 멀티미디어 컨텐츠에 접속하여 시청할 수 있다. 멀티미디어 인터페이스(110)는 허가받은 사용자만이 멀티미디어 컨텐츠에 접속하도록 허용될 수 있으며, 안전하고, 인터렉티브(interactive)할 수 있다. 주 전자 장치와 보조 전자 장치에 대한 멀티미디어 인터페이스(110)의 외관은 유사할 수 있다.

도 1b는 본 발명의 일 실시 예에 따른 미디어 분류 시스템(104)의 구성 요소들을 계략적으로 도시한다.

도 1b를 참조하면, 다양한 실시 예에 따른 미디어 분류 시스템(104)은 미디어 소스(122)로부터 멀티미디어 컨텐츠를 획득할 수 있다. 미디어 소스(122)는 서드 파티(third party) 미디어 스트리밍 포털 및 텔레비전 방송일 수 있다. 또한, 멀티미디어 컨텐츠는 대본이 있어나 대본이 없는 오디오 트랙, 시각 트랙 및 텍스트 트랙을 포함할 수 있다. 미디어 분류 시스템(104)은 직접 네트워크를 통해 미디어 소스(122)로부터 생방송 멀티미디어 스트림이나 저장된 멀티미디어 스트림으로서 멀티미디어 컨텐츠를 획득할 수 있다. 대체적으로, 오디오로 불려지는 오디오 트랙은 음악과 언어(speech)를 포함할 수 있다.

일 실시 예에 따르면, 미디어 분류 시스템(104)은 비디오 범주기(categorizer)(124)를 포함할 수 있다. 비디오 범주기(124)는 멀티미디어 컨텐츠의 시각 트랙으로부터 복수의 시각적인 특징들을 추출할 수 있다. 예를 들면, 시각 특징들은 10분의 생방송 스트리밍이나 저장된 시각 트랙으로부터 추출될 수 있다. 비디오 범주기(124)는 그 후 시각 트랙에 나타나는,핵심 비디오 이벤트로 언급될 사용자 특정 이벤트를 검출하기 위해 시각 특징들을 분석할 수 있다. 핵심 비디오 이벤트는, 예를 들어, 코메디, 액션, 드라마, 가족, 어드벤처 및 호러와 연관될 수 있다. 일 실시 예에서, 비디어 범주기(124)는 시각 트랙의 미리 결정된 기간 동안 추출되는 시각 특징들을 이용하여 완전히 완성된 사전을 자동적으로 훈련하여 시각 트랙 비디오들을 분류하기 위해 희소 표현 기법을 사용할 수 있다.

미디어 분류 시스템(104)은 핵심 비디오 이벤트들을 기반으로 비디오 색인을 생성하기 위한 색인 생성기(126)를 더 포함할 수 있다. 예를 들어, 비디오 색인의 일부는 멀티미디어 컨텐츠가 1:05 ~ 4:15의 기간 동안 "액션" 부분임을 나타낼 수 있다. 다른 예로, 비디오 색인의 일부는 멀티미디어 컨텐츠가 4:15 ~ 8:39의 기간 동안 "코메디" 부분으로 나타낼 수 있다. 비디오 요약기(video summarizer)(128)는 그 후 시놉시스(synopsis)를 사용자에게 제공하도록 비디오 색인을 기반으로 시각 트랙내의 주요 장면들이나 물체를 추출한다.

미디어 분류 시스템(104)은 오디오 색인을 생성하기 위하여 오디오 트랙을 프로세싱할 수 있다. 오디오 색인 생성기(130)는 박수, 웃음 및 함성과 같은 핵심 오디오 이벤트를 기반으로 오디오 색인을 생성할 수 있다. 예를 들면, 오디오 색인의 한 항목은 오디오 트랙이 4:15 ~ 8:39의 기간 동안 "코메디" 라고 나타낼 수 있다. 또한, 의미 범주화기(semantic categorizer)(132)는 오디오 색인을 기반으로 오디오 트랙을 여러 클래스 속으로 정의할 수 있다. 앞서 지시한 바와 같이, 오디오 트랙은 언어와 음악을 포함할 수 있다. 언어 감지기(The speech detecto)(134)는 오디오 트랙으로부터 언어를 감지할 수 있다. 문맥 기반 분류기(136)는 오디오 트랙으로부터의 분류되는 언어를 기반으로 언어 카달로그 색인을 생성할 수 있다.

미디어 분류 시스템(104)은 음악을 분류하는 음악 장르 목록 작성기(music genre cataloger)(138)와 희소 표현 기법을 사용하여 분류된 음악의 유사 패턴 확인을 기반으로 음악 장르를 생성하는 유사 패턴 식별기(similarity pattern identifier)(140)를 더 포함할 수 있다. 일 실시 예에서, 비디어 색인, 오디오 색인, 언어 카달로그 색인 및 음악 장르는 멀티미디어 컨텐츠 저장부(142)에 저장될 수 있다. 멀티미디어 컨텐츠 저장부(142)에 저장된 멀티미디어 컨텐츠로의 접속은 인증되고 허가된 사용자들에게 허용될 수 있다..

디지털 저작권 관리(DRM)부(144)는 희소 표현/코딩 기법 및 압축 센싱 기법을 기반으로 멀티미디어 컨텐츠를 보안할 수 있다. 또한 DRM부(144)는 인터넷 DRM부이거나 모바일 DRM부일 수 있다. 일 실시 예에서, 모바일 DRM부는 DRM부(144) 외부에 존재할 수 있다. 예를 들어, 인터넷 DRM부는 mp3 음악, mpeg 동영상 등과 같은 온라인 디지털 컨텐츠들을 공유하기 위해 사용될 수 있다. 모바일 DRM부는 전자 장치의 하드웨어와 다른 서드 파티(third party) 보안 라이센스 제공자를 사용하여 멀티미디어 컨텐츠를 안전하게 전달할 수 있다.전자 장치(108) 들이 생성되자 마자, 미디어 분류 시스템(104)의 멀티미디어 컨텐츠 저장부(142)에 저장된 멀티미디어 컨텐츠로 접속하기 위해, 질의 요청을 멀티 미디어 분류 시스템 (104)으로 전송할 수 있다. 멀티미디어 컨텐츠는 사용자가 그가 선택한 컨텐츠를 검색하고 시청하기 용이하게 하기 위해, 다양한 태그들 또는 키워드들과 연관될 수 있다.

일 실시 예에서, 전자 장치(108)는 멀티미디어 인터페이스(110)와 하나 이상의 장치 프로세서(들)(146)을 포함할 수 있다. 장치 프로세서(들)(146)은 하나 이상의 마이크로 프로세서들, 마이크로 컴퓨터들, 마이크로 컨트롤러들, 디지털 신호 프로세서들, 중앙 처리 장치들, 상태 기계들, 논리 회로들 및/도는 동작 지시를 기반으로 신호들을 조작하는 어떤 장치들로 구현될 수 있다. 다른 기능들 중, 장치 프로세서(들)(146)은 메모리에 저장된 컴퓨터가 읽을 수 있는 지시들을 불러오고 실행하도록 구성될 수 있다.

전자 장치(108)의 멀티미디어 인터페이스(110)는 멀티미디어 클래스의 멀티미디어 컨텐츠로의 접속을 추출하고, 실행하고, 저장하고, 공유하는 문의를 수신하도록 구성될 수 있다. 예를 들어, 사용자는 지난 2달 동안 발표된 영화의 모든 액션 장면들을 시청하길 희망할 수 있다. 전자 장치(108)는 네트워크(106)를 통해 질의를 멀티 미디어 분류 시스템(104)로 전송할 수 있다. 멀티미디어 인터페이스(110)는 사용자 문의를 수신하기 위해 터치, 음성 및 광학 제어 어플리케이션 아이콘들 중 적어도 하나를 포함할 수 있다. .

멀티미디어 인테페이스(110)는 사용자 질의 요청에 응답하여 미디어 색인 상의 질의를 실행하여 멀티미디어 클래스로 태그된 멀티미디어 컨텐츠의 태그 부분을 검색하도록 구성될 수 있다. 여기서, 멀티미디어 컨텐츠의 태그된 부분은 사용자를 위해 관련된 멀티미디어 컨텐츠의 목록으로 이해될 수 있다. 일 실시 예에서, 멀티미디어 인터페이스(110)는 미디어 분류 시스템(104)으로부터 멀티미디어 컨텐츠의 태그된 부분을 검색하도록 구성될 수 있다. 또한, 멀티미디어 인터페이스(110)는 멀티미디어 컨텐츠의 태그된 부분을 사용자에게 제공되도록 구성될 수 있다. 사용자는 그 후 그가 시청하기 원하는 컨텐츠를 멀티미디어 인터페이스(110)를 통해 선택할 수 있다.

도 2a는 본 발명의 일 실시 예에 따른 미디어 분류 시스템(104)의 구성 요소들을 개략적으로 도시한다.

도 2a를 참조하면, 다양한 실시 예에서, 미디어 분류 시스템(104)은 통신 인터페이스(들)(204) 및 하나 이상의 프로세서(들)(206)을 포함할 수 있다. 통신 인터페이스들(204)은 I/O 장치들로 불리는 데이터 입출력 장치, 저장 장치, 네트워크 장치 등과 같은 주변 장치(들)을 위한 인터페이스들인 다양한 상업적으로 이용 가능한 인터페이스들을 포함할 수 있다. I/O 장치(들)은 범용 직렬 버스(Universal Serial Bus(USB)) 포트, 이더넷 포트, 호스트 버스 어댑터, 등 및 그들의 해당 장치 드라이버들을 포함할 수 있다. 통신 인터페이스들(204)은 다양한 통신 및 연산 장치들과 하이퍼텍스트 전송 프로토콜(HTTP) 및 전송 제어 프로토콜/인터넷 프로토콜(TCP/IP)과 같은 다양한 프로토콜들을 사용하는 네트워크들과 같은 다양한 통신 네트워크들과 함께 미디어 분류 시스템(104)의 통신을 용이하게 할 수 있다. 프로세서(206)는 장치 프로세서(들)(146)과 기능적으로 그리고 구조적으로 유사할 수 있다.

미디어 분류 시스템(104)은 프로세서(206)와 통신할 수 있게 결합된 메모리(208)를 더 포함할 수 있다. 메모리(208)는, 예를 들어, 정적 랜덤 액세스 메모리(Static Random Access Memory(SRAM)) 및 동적 랜덤 액세스 메모리(Dynamic Random Access Memory(DRAM))과 같은 휘발성 메모리 및/또는 읽기 전용 메모리(Read Only Memory(ROM)), 소거 가능하고 프로그래밍 가능한 ROM, 플래쉬 메모리, 하드 디스크, 광학 디스크 및 자기 테이프와 같은 비휘발성 메모리를 포함하는 관련 기술에서 알려진 어떤 컴퓨터 판독 가능한 기록 매체도 포함할 수 있다.

또한, 시스템(104)으로 대체하여 불려질 수도 있는 미디어 분류 시스템(104)은 모듈(들)(210) 및 데이터(212)를 포함할 수 있다. 모듈들(210)은 프로세서들(206)과 결합할 수 있다. 다른 것들 중에서 모듈들(210)은 특정 작업들을 수행하거나 특정한 추상적인 데이터 타입들을 구현하는 루틴들, 프로그램들, 객체들, 구성 요소들, 데이터 구조들 등을 포함할 수 있다. 모듈들(210)은 신호 프로세서(들), 상태 기계(들), 논리 회로들 및/또는 동작 지시를 기반으로 신호를 조작하는 어떤 다른 장치나 구성 요소로도 구현될 수 있다. 또한, 모듈들(210)은 하드웨어에서 프로세싱 유닛에 의해 또는 그것들의 조합에 의해 실행될 수 있는 컴퓨터 판독 가능 지시들로 구현될 수 있다.

예를 들면, 모듈들(210)은 분할 모듈(214), 분류 모듈(216), 희소 코딩 기반(Sparse Coding Based(SCB)) 스키밍 모듈(222), 디지털 저작권 관리(Digital Rights Management(DRM)) 모듈(224), 서비스 품질(Quality of Service(QoS)) 모듈(226) 및 다른 모듈(들)(228)을 더 포함할 수 있다. 일 실시 예에서, 분류 모듈(216)은 범주화 모듈(218) 및 색인 생성 모듈(220)을 더 포함할 수 있다. 다른 모듈들(228)은 미디어 분류 시스템(104)에 의해 수행되는 어플리캐이션들이나 기능들을 보완하는 프로그램들이나 코딩된 지시들을 포함할 수 있다.

데이터(212)는 다른 것들 중에서 하나 이상의 모듈들(210)에 의해 처리되고, 송수신될 수 있다. 데이터(212)는 멀티미디어 데이터(230), 색인 데이터(232) 및 다른 데이터(234)를 포함할 수 있다. 다른 데이터(234)는 모듈들(210)에 의해 생성되고 저장되는 데이터를 포함할 수 있다.

분할 모듈(214)은, 예를 들어, 멀티미디어 파일들 및 멀티미디어 스트림들과 같은 멀티미디어 컨텐츠를 획득할 수 있다. 분할 모듈(214)은, 추가 프로세싱을 위해 미디어 분류 시스템(104) 내의 멀티미디어 데이터(230)와 같은 것을 임시적으로 저장하도록 구성될 수 있다. 멀티미디어 스트림은 대본이 있거나 대본이 없을 수 있다. 예를 들면, 생중계 축구 경기 나 티비 쇼와 같은 대본이 있는 멀티미디어 스트림은 광고 휴식 시간이나 전반전 휴식 시간 또는 연장전 휴식 시간과 같은 의미 구조를 가진 멀티미디어 스트림일 수 있다. 반면, 서드 파티(third party) 멀티미디어 컨텐츠 스트리밍, 포털 비디오와 같은 대본이 없는 멀티미디어 스트림은 의미 구조나 이야기 구성을 가지지 않은 연속적인 스트림일 수 있다.

분할 모듈(214)은 추가 프로세싱를 수행하는 동안 연산 부하를 줄이기 위해 아날로그 포맷인 획득된 멀티미디어 컨텐츠를 디지털 포맷으로 전처리할 수 있다. 분할 모듈(214)은 그 후 오디오 트랙, 시각 트랙, 텍스트 트랙을 추출하기 위하여 멀티미디어 컨텐츠를 분할할 수 있다.텍스트 트랙은 자막(subtitles)을 나타낼 수 있다. 분할 모듈(214)은 추출된 시각 및 오디오 트랙들을 압축하도록 구성될 수 있다. 예를 들면, 분할 모듈(214)은 채널 대역폭과 메모리 공간이 불충분할 경우 추출된 시각 및 오디오 트랙들을 압축할 수 있다. 압축은 복합적인 분석 사전과 함께 희소 코딩 기반 분해를 사용하여 수행될 수 있다. 압축을 위해서, 분할 모듈은 추출된 시각 및 오디오 트랙들로부터 중요한 희소 계수 및 중요하지 않은 희소 계수들을 결정하도록 구성될 수 있다. 또한, 분할 모듈(214)은 중요한 희소 계수들을 양자화하고 중요한 희소 계수들의 색인들을 저장하도록 구성될 수 있다.

분할 모듈(214)은 그 후 양자화된 중요한 희소 계수들을 부호화하고, 이하 2진 맵으로 불리는 2진 비트들의 맵을 형성하도록 구성될 수 있다. 예를 들면, 시각 트랙의 시각 이미지의 2진 맵이 형성될 수 있다. 이 2진 맵은 런-길이 부호화 기법(a run-length coding technique.)을 이용하여 분할 모듈(214)에 의해 압축될 수 있다. 또한, 분할 모듈(214)은 압축비와 최소 왜곡을 최대화하여 광학 임계치를 결정하도록 구성될 수 있고, 압축된 멀티미디어 컨텐츠의 품질이 평가될 수 있다. 분할 모듈(214)은 침묵, 담화 및 음악과 같은 의미 있는 요소(semantic primitives)를 포함하는 오디오 트랙을 분석하여 분할 경계선들을 감지하고 복수의 오디오 프레임들을 생성할 수 있다. 또한, 분할 모듈(214)은 복수의 오디오 프레임들로부터 오디오 포맷 정보를 축적하도록 구성될 수 있다. 오디오 포맷 정보는 샘플링률(초당 샘플수), 채널 수(모노 또는 스테레오) 및 샘플 해상도(비트/해상도)를 포함할 수 있다.

분할 모듈(214)은 그 후 오디오 프레임의 포맷을 어플리케이션 특정 오디오 포맷으로 변환하도록 구성될 수 있다. 오디오 프레임의 포맷의 변환은 오디오 신호로 대체하여 사용할 수 있는 오디오 프레임을 초당 16000개의 샘플로 고정될 수 있는 소정의 샘플링률로 재샘플링하는 것을 포함할 수 있다. 이와 같은, 재샘플링 처리는 전력 소모와 연산의 복잡성 및 메모리 공간 요구사항을 낮출 수 있다.

일 실시 예에서, 복수의 오디오 프레임들은 또한 소리가 없는 프레임들을 포함할 수 있다. 소리가 없는 프레임들은 어떤 소리도 포함하지 않은 오디오 프레임들일 수 있다. 분할 모듈(214)은 소리가 없는 것을 감지하여 복수의 오디오 프레임들 중 소리가 없는 프레임을 확인할 수 있고, 다음의 분석부터 소리가 없는 프레임을 필터링하거나 폐기할 수 있다.

일 실시 예에서, 분할 모듈(214)은 각각의 오디오 프레임의 단기 에너지 레벨(En)을 계산하고 이 계산된 단기 에너지(En)를 소리가 없는 프레임들을 폐기하기 위한 미리 정의된 에너지 임계치(En_Th)와 비교할 수 있다. 에너지 임계치(En_Th)보다 작은 단기 에너지 레벨(En)을 가진 오디오 프레임들은 소리가 없는 프레임들로서 거부될 수 있다. 예를 들어, 오디오 프레임들의 전체 수가 7315개이고, 에너지 임계치(En_Th)가 1.2이고, 1.2보다 낮은 단기 에너지 레벨(En)을 가진 필터링된 오디오 프레임들의 수가 700개라면, 700개의 오디오 프레임들은 7312개의 오디오 프레임들로부터 소리가 없는 프레임들로서 거부될 수 있다. 에너지 임계치 매개 변수는 오디오 신호 블록의 엔빌로그램(envelogram)으로부터 추정된다. 일 실시 예에서, 낮은 프레임 에너지률은 단기 에너지들의 통계를 결정하고 에너지 임계치 설정을 수행하여 소리가 없는 오디오 신호를 확인하는데 사용될 수 있다.

일 실시 예에서, 분할 모듈(214)은 시각 트랙을 복수의 희소 비디오 조각들로 분할할 수 있다. 시각 트랙은 희소 무리화(clustering) 기반 특징들을 기반으로 복수의 희소 비디오 조각들로 분할될 수 있다. 희소 비디오 조각은 시각 트랙의 장면 또는 숏의 핵심적인 이미지/시각 컨텐츠를 나타낼 수 있다. 분할 모듈(214)은 그 후 희소 비디오 조각을 서로 비교하여 불필요한 희소 비디오 조각들을 확인하고 폐기할 수 있다. 불필요한 희소 비디오 조각들은 다른 비디오 조각들과 동일하거나 거의 같은 비디오 조각들일 수 있다. 예를 들면, 분할 모듈(214)은 색 히스토그램, 모양, 질감, 모션 벡터, 모서리 및 카메라 활동과 같은 다양한 조각 특징들을 기반으로 불필요한 희소 비디오 조각들을 확인할 수 있다..

일 실시 예에서, 분류 모듈(216)은 멀티미디어 컨텐츠를 텔레비전, 라디오 및 인터넷을 포함하는 방송 미디어와 같은 미디어 소스 장치들로부터 불러올 수 있다. 분류 모듈(216)은 멀티미디어 컨텐츠로부터 특징들을 추출하고, 추출된 특징들을 기반으로 멀티미디어 컨텐츠를 하나 이상의 멀티미디어 클래스로 범주화할 수 있다. 분류 모듈(216)은, 적어도 하나의 멀티미디어 클래스를 기반으로 멀티미디어 컨텐츠에 대한 미디어 색인을 생성하도록 구성될 수 있다.

일 실시 예에서, 범주화 모듈(218)은 멀티미디어 컨텐츠로부터 복수의 특징들을 추출할 수 있다. 복수의 특징들은 멀티미디어 컨텐츠에서 사용자 지정한 의미있는 이벤트들을 감지하기 위해 추출될 수 있다. 추출된 특징들은 핵심 오디오 특징들, 핵심 비디오 특징들 및 핵심 텍스트 특징들을 포함할 수 있다. 핵심 오디오 특징들의 예는 노래, 다른 멀티미디어 범주들의 음악, 음악과 같이 있는 언어, 박수, 웨딩 세레모니, 교육용 비디오, 함성, 웃음, 자동차 충돌음, 자동차 경주를 나타내는 경주용 자동차의 엔진음, 총소리, 사이렌, 폭발음 및 소음을 포함할 수 있다.

범주화 모듈(218)은 광 문자 인식 기법과 같은 기법을 구현하여 자막 및 시각 트랙 상의 텍스트 문자로부터 핵심 텍스트 특징들을 추출하거나 멀티미디어 컨텐츠의 핵심 비디오 특징들을 추출할 수 있다. 핵심 텍스트 특징들은 레벨 셋(level-set) 기반 문자 및 텍스트 부분 분할 기법을 사용하여 추출될 수 있다. 예를 들면, 범주화 모듈(218)은 텍스트의 추출된 순서로부터 원문의 핵심 단어들을 결정는 단계와n개의 알파벳이나 단어들의 근접한 순서를 분석하는 단계를 포함하는 N-그램(N-gram) 모델을 기반으로 메타 데이터, 보드 사인과 같은 비디오 프레임 상의 텍스트 및 자막 텍스트를 포함하는 핵심 텍스트 특징들을 확인할 수 있다. 일 실시 예에서, 범주화 모듈(218)은 시각 이미지에서 하이 레벨의 의미 부분(high-level semantic portions)을 검색하는 희소 텍스트 마이닝 방법을 사용할 수 있다. 상기 구현에서, 범주화 모듈(218)을 레벨 셋(level-set) 및 비선형 확산 기반 분할 및 텍스트-이미지 조각들의 희소 코딩을 수행하여 시각 이미지 상에서 희소 텍스트 마이닝(sparse text mining)을 사용할 수 있다.

일 실시 예에서, 범주화 모듈(218)은 에너지 비율, 낮은 에너지 비율(Low Energy Ratio(LER)) 속도, 제로 교차율 (zero crossing rate(ZCR)), 높은 제로 교차율(high zero crossing rate(HZCR)), 주기성 및 밴드 주기성(band periodicity(BP)) 및 짧은 시간을 포함하는 시간적인 그리고 스펙트럼의 특징들과, 스펙트럼 밝기, 스펙트럼 평탄도, 스펙트럼 롤 오프(roll-off), 스펙트럼 플럭스, 스펙트럼 질량 중심, 스펙트럼 밴드 에너지 비율을 포함하는 푸리에 변환 특징들과, 웨이블렛(wavelet) 서브 벤트 에너지 비율, 웨이블렛(wavelet) 엔트로피, 주 성분 분석(principal component analysis(PCA)), 독립 성분 분석(independent component analysis(ICA)) 및 비부정 행렬 인수분해(nonnegative matrix factorization(NMF))와 같은 신호 분해 특징들과 가변성, 뒤틀림(skewness) 및 첨도(kurtosis), 정보 엔트로피 및 정보 분기를 포함하는 통계 및 정보 이론적 특징들과, 멜 주파수 켑스트랄 계수(Mel-Frequency Cepstral Coefficient(MFCC)), 선형 예측 코딩(Linear Predictive Coding(LPC)), 선형 예측 켑스트랄 계수(Linear Prediction Cepstral Coefficient(LPCC)) 및 인지 선형 예측(Perceptual Linear Predictive(PLP))을 포함하는 음향적 특징들과, 희소 표현 특징들 중 하나 이상을 기반으로 복수의 핵심 오디오 특징들을 추출하도록 구성될 수 있다.

또한, 범주화 모듈(218)은 색 히스토그램, 색 모멘트, 색 코렐로그램(correlogram), 모양, 객체 움직임, 카메라 움직임 및 질감, 시간적 공간적 모서리 선, 가버필터(Gabor filter), 모멘트 불편, 주 성분 분석(Principal Component Analysis(PCA)), 크기 불편 특징 변환(Scale Invariant Feature Transform(SIFT)) 및 속도 증가에 강인한 특징(Speeded Up Robust Feature(SURF))과 같은 정적 및 동적 특징들 기반으로 핵심 시각 특징들을 추출하도록 구성될 수 있다. 일 실시 예에서, 범주화 모듈(218)은 사용자 선택 멀티미디어 컨텐츠 범주 및 핵심 장면들의 수신을 기반으로 대표 특징 추출법들의 한 세트를 결정하도록 구성될 수 있다.

일 실시 예에서, 범주화 모듈(218)은 영상 분할 기법을 사용하여 시각 트랙을 분할하도록 구성될 수 있다. 영상 분할 기법을 기반으로, 범주화 모듈(218)은 객체들, 질감들, 또는 모서리들을 가지는 전경 영상, 또는 아무런 질감들과 모서리들을 가지지 않는 배경 영상 프레임들로 각각의 시각 영상 프레임을 분류할 수 있다. 또한, 영상 분할 기법은 비선형 확산, 국부적이거나 전역적인 임계치 설정, 전체 변화량 필터링 및 입력 시각 영상들을 국부적인 전경 및 배경 서브 프레임으로 분할하기 위한 색-공간 변환 모델을 기반으로 한 것일 수 있다.

일 실시 예에서, 범주화 모듈(218)은 시각 영상 순서의 국부적이거나 전역적인 특징들을 사용하여 객체들을 결정하도록 구성될 수 있다. 객체들은 매개 변수 방법 및 레벨 셋(level-set) 방법 기반의 편미분 방정식을 사용하여 결정될 수 있다.

일 실시 예에 따라, 범주화 모듈(218)은 핵심 객체들을 감지하기 위해 결정된 핵심 텍스트 특징들의 희소 표현을 활용하도록 구성될 수 있다.예를 들어, 연결된 성분 분석(connected component analysis) 은 낮은 해상도의 시각 영상 순서 조건에서 사용되고, 희소 회복 기반 고해상도 방법(sparse recovery based super-resolution method)은 시각 영상들의 품질을 높이도록 구성된다.

범주화 모듈(218)은 추출된 특징들을 기반으로 멀티미디어 컨텐츠를 적어도 하나의 멀티미디어 카테고리 또는 클래스로 더 범주화하거나 분류할 수 있다. 예를 들어, 10분의 생방송의 혹은 저장된 멀티미디어 컨텐츠는 추출된 특징들을 기반으로 멀티미디어 컨텐츠를 적어도 하나의 멀티미디어 클래스로 범주화하도록 범주화 모듈(218)에 의해 분석될 수 있다. 범주화 모듈(218)은 정보 융합 기법을 기반으로 적어도 하나의 멀티미디어 컨텐츠를 분류 할 수 있다. 융합 기법은 유사성 점수의 가중치가 적용된 합계를 포함할 수 있다. 범주화 모듈(218)은 정보 융합 기법을 기반으로, 멀티미디어 컨텐츠의 모든 테스트 모델들을 위해 획득된 유사성 점수로부터 결합된 매칭 점수를 획득할 수 있다.

일 실시 예에서, 멀티미디어 컨텐츠의 클래스는 코메디, 액션, 드라마, 가족, 어드벤처 및 호러를 포함할 수 있다. 예를 들면, 자동차 충돌, 총기 발포 및 폭발과 같은 핵심 비디오 특징들이 추출된다면, 멀티미디어 컨텐츠는 멀티미디어 컨텐츠 클래스의 "액션"으로 분류될 수 있다. 다른 예로, 웃음 및 함성과 같은 핵심 오디오 특징들을 기반으로, 멀티미디어 컨텐츠는 멀티미디어 컨텐츠 클래스의 "코메디" 클래스로 분류될 수 있다. 일 실시 예에서, 범주화 모듈(218)은 상기 적어도 하나의 멀티미디어 컨텐츠 클래스를 무리지어 분류할 수 있다. 예를 들어, 액셔, 코메디, 로맨틱 및 호러와 같은 멀티미디어 컨텐츠 클래스들을 함께 하나의 클래스 "영화"로 무리지어 분류할 수 있다. 다른 실시 예에서, 범주화 모듈(218)은 적어도 하나의 멀티미디어 컨텐츠 클래스를 무리지어 분류 하지 않을 수 있다.

일 실시 예에서, 범주화 모듈(218)은, 멀티미디어 컨텐츠가 오디오 트랙을 포함하는 경우, 시간 영역 및 변환 영역 모두에서 추출된 음향 특징들의 희소 코딩, 압축 희소 분류기, 가우시안(Gaussian) 혼합 모델, 정보 융합 기법 및 희소-이론적(sparse-theoretic) 측정 기준을 사용하여 멀티미디어 컨텐츠를 분류하도록 구성될 수 있다.

일 실시 예에서, 분할 모듈(214) 및 범주화 모듈(218)은 분석적이고 기본적인 원자들의 연결을 포함하는 학습된 복합 사전 행렬 또는 충격 함수, 헤비사이드(Heaviside) 함수, 푸리에 기저, 짧은 시간 푸리에 변환, 이산 코사인 및 사인 변환, 하다마드-왈쉬(Hadamard-Walsh) 함수, 펄스 함수, 삼각 함수, 가우시안(Gaussian) 함수, 가우시안(Gaussian) 미분, 싱크(sinc) 함수, 하르(Haar), 웨이블렛(wavelet), 웨이블렛 패킷(wavelet packet), 가버 필터(Gabor filter), 커브릿(curvelet), 릿지릿(ridgelet), 컨투어릿(contourlet), 밴덜릿(bandelet), 쉐어릿(shearlet), 다이렉션릿(directionlet), 그룹릿(grouplet), 치플릿(chirplet), 큐빅(cubic) 다항식, 스플라인(spline) 다항식, 허밋(Hermite) 다항식, 르장드르(Legendre) 다항식 및 다른 수학적인 함수들 및 곡선들로 희소 신호 표현, 희소 코딩 기법 또는 희소 회복 기법을 사용하여 오디오 트랙의 분할 및 분류를 수행하도록 구성될 수 있다.

예를 들어, L을 핵심 오디오의 수로 나타내고, P를 각 핵심 오디오에 대한 처리된 오디오 프레임들의 수로 나타내 보자. 희소 표현을 사용하면, l번째 핵심 오디오의 m번째 오디오 데이터는 다음의 수학식1과 같이 표현된다

여기서,

은 l번째 핵심 오디오로부터 p번째 오디오 프레임에 대하여 생성된 훈련된 부 사전(sub-dictionary)를 나타내고,

은 핵심 오디오 견본 데이터베이스로부터의 완전한 사전(dictionary)로 희소 회복이나 희소 코딩을 사용하는 테스트 단계 동안 p번째 오디오 프레임에 대하여 얻어진 계수 벡터를 나타낸다. l번째 핵심 오디오에 대하여 범주화 모듈(218)에 의해 생성된 훈련된 부 사전(sub-dictionary)는 다음 수학시2와 같이 주어진다.

예를 들어, 표현을 위한 모든 핵심 오디오로부터의 핵심 오디오의 특정 정보의 연결을 포함한 핵심 오디오 견본 복합 신호 사전은 다음의 수학식3과 같이 표현될 수 있다.

상술한 수학식은 다음의 수학식4와 같이 다시 쓸 수 있다.

또한, 범주화 모듈(218)에 의해 생성된 핵심 오디오 견본 사전 데이터베이스(B)는 다양한 기본 원자들을 포함할 수 있고, 이는 다음의 수학식5와 같이 나타낼 수 있다.

여기서, ca는 복합 분석 파형을 나타내고, cs는 복합 원 신호 및 영상 요소들을 나태내고, cf는 복합 신호 및 영상 특징들을 나타낸다.

입력 오디오 프레임은 핵심 오디오 견본으로부터의 기본 원자 벡터들의 선형적인 조합으로서 표현될 수 있다. 예를 들어, 입려된 오디오 프레임은 수학식6과 같은 복합 분석 사전으로 근사화될 수 있다.

여기서,

희소 회복은 B가 특정한 성질을 만족하고 가장 희소한 해법으로 인도하는 기본 원자들의 충분한 집합을 가질때의 희소 계수 벡터를 야기하는 볼록 최적화 문제를 풀어서 연산된다.

가장 희소한 계수 벡터(α)는 다음의 수학식으로 최적화 문제를 풀어서 얻어진다.

여기서,

및

은 각각 충실도 항목 및 희소성 항목이고, x는 분해해야할 신호이고, λ은 충실도 항목과 희소성 항목의 상대적인 중요도를 제어하는 조절 매개 변수이다.

벡터(α)의 l₁표준 및 l₂표준은 각각

및

이다. 상기의 볼록 최적화 문제는 근거 추적(basis pursuit(BP))와 같은 선형 프로그래밍 또는 매칭 추적(matchig pursuit(MP)) 및 직교 매칭 추적(orthogonal matching pursuit(OMP))과 같은 비선형 반복 탐욕 알고리즘에 의해 해결된다.

이러한 신호 표현에서, 입력 오디오 프레임은 입력된 핵심 입력 오디오 프레임과 매우 일관성 있는 약간의 기본 원자의 선형 조합에 의해 정확하게 표시되거나 근접될 수 있다. 희소 표현에 따라, 입력 오디오 프레임과 매우 일관성 있는 기본 원자들은 계수들의 큰 진폭 값을 가진다. 결과 희소 계수 벡터를 처리함으로써, 핵심 오디오 프레임은 높은 상관 관계 희소 계수를 해당 오디오 분류와 함께 핵심 오디오 프레임 데이터베이스 내에서 맵핑함으로써 확인될 수 있다. 입력 오디오 프레임과 일관성 없는 기본 원자들은 희소 계수 백터(α)의 계수들의 더 작은 진폭 값을 가질 수 있다.

일 실시 예에서, 범주화 모듈(218)은 또한 멀티미디어 클래스를 무리지어 뷴류 하도록 구성될 수 있다. 이 무리지음은 희소 계수 거리의 결정을 기반으로 할 수 있다. 멀티미디어 분류는 다양한 종류의 오디오 및 시각 이벤트들를 기반으로 분류될 수 있다. 범주화 모듈(218)은 추출된 특징들을 기반으로 멀티미디어 컨텐츠를 적어도 하나의 멀티미디어 클래스로 분류하도록 구성될 수 있다. 예를 들어, 멀티미디어 컨텐츠는 사용자에 의해 북마크될 수 있다. 오디오 및 시각 컨텐츠는 희소 계수 매개 변수들의 분석과 희소 정보 융합 방법을 기반으로 무리짓게 될 수 있다.

일 실시 예에서, 범주화 모듈(218)은 미디어 제어 필터링 기법을 기반으로 멀티미디어 컨텐츠의 구성 트랙들로부터 소음 요소를 억제하도록 구성될 수 있다. 구성 트랙들은 시각 트랙 및 오디오 트랙을 포함할 수 있다. 또한, 범주화 모듈(218)은 시각 트랙 및 오디오 트랙을 각각 복수의 희소 비디오 조각들과 복수의 오디오 조각들로 분할하도록 구성될 수 있다. 범주화 모듈(218)은 복수의 희소 비디오 조각들 및 복수의 오디오 조각들 중 그들로부터 복수의 매우 높은 상관 관계를 가진 조각들을 확인할 수 있다.

또한, 범주화 모듈(218)은 복수의 높은 상관관계의 조각들을 기반으로 희소 계수 거리를 결정하고, 이 희소 계수 거리를 기반으로 복수의 희소 비디오 조각들과 복수의 오디오 조각들을 무리 짓게 하도록 구성될 수 있다.

분류를 행한 후, 색인 생성 모듈(220)은 적어도 하나의 멀티미디어 클래스를 기반으로 멀티미디어 컨텐츠에 대한 미디어 색인을 생성하도록 구성될 수 있다. 예를 들, 미디어 색인의 일부가 멀티미디어 컨텐츠가 1:05 ~ 4:15의 기간 동안 "액션"을 지시할 수 있다, 다른 예로, 미디어 색인의 일부가 멀티미디어 컨텐츠가 4:15 ~ 8:39의 기간 동안 "코메디"임을 지시할 수 있다. 일 실시 예에서, 색인 생성 모듈(220)은 사용자 요청을 기반으로 멀티미디어 컨텐츠의 생성된 미디어 색인에 대한 여러 언어의 사전 의미를 연관짓도록 구성될 수 있다. 예를 들어, 멀티미디어 컨텐츠는 멀티미디어 컨텐츠의 소정의 기간에 대해 추출된 시각적 순서를 사용하는 자동적 훈련 사전을 기반으로 분류될 수 있다. 일 실시 예에서, 멀티미디어 컨텐츠의 생성된 미디어 색인은 시스템(104)의 색인 데이터(232)내에 저장될 수 있다. 미디어 색인은 저장되거나 전자 장치나 클라우드 서버에 전송될 수 있다. 일 실시 예에서, 색인 생성 모듈(220)은 멀티미디어 인터페이스를 생성하여 사용자가 멀티미디어 컨텐츠에 접근할 수 있도록 구성될 수 있다. 다른 구현에서, 멀티미디어 인터페이스는 전자 장치(108)상에 제공될 수 있다.

일 실시 예에서, 희소 코딩 기반 스키밍 모듈(222)은 오디오 트랙, 시각 트랙 및 텍스트 트랙을 분석하여 로우 레벨의 특징들을 추출하도록 구성될 수 있다. 예를 들어, 로우 레벨의 특징은로 광고 방송 시간이나 시각 트랙에서 숏 사이의 경계들이 될 수 있다. 희소 코딩 기반 스키밍 모듈(222)은 절대 희소 계수 차이의 합계와 이벤트 변화 비율 희소 표현 영역과 같은 숏 감지 기법을 사용하여 숏 사이의 경계들을 결정하도록 더 구성될 수 있다.

희소 코딩 기반 스키밍 모듈(222)은 숏 감지 기법을 사용하여 시각 트랙을 복수의 희소 비디오 조각들로 나누고, 객체 인식, 하이라이트 객체 장면 및 이벤트 감지와 같은 하이 레벨의 특징들을 추출하기 위하여 희소 비디오 조각들을 분석하도록 구성될 수 있다. 예를 들어, 하이 레벨의 특징들의 희소 코딩은, 희소 비디오 조각들에서 묘사된 장면들의 액션, 장소 및 시간을 기반으로 희소 비디오 조각들과 전체 시각 트랙 사이의 의미적 상관관계를 결정하는데 사용될 수 있다.

결정하자마자, 희소 코딩 기반 스키밍 모듈(222)은 부 경계(sub-boundary)를 감지하기 위하여 희소 장면 전환 벡터과 같은 희소 기반 기법들을 사용하여 희소 비디오 조각들을 분석하도록 구성될 수 있다. 이 분석을 기반으로, 희소 코딩 기반 스키밍 모듈(222)은 핵심 이벤트나 핵심 부 경계(sub-boundary)로 선택된 멀티미디어 컨텐츠의 이야기 구성에 중요한 희소 비디오 조각들을 선택할 수 있다. 그 후, 희소 코딩 기반 스키밍 모듈(222)은 멀티미디어 컨텐츠에 대한 스킴(skim)을 생성하도록 모든 핵심 이벤트를 요약할 수 있다

일 실시 예에서, 디지털 저작권 관리(DRM) 모듈(224)은 색인 데이터(232) 내의 멀티미디어 컨텐츠를 보호하도록 구성될 수 있다. 색인 데이터(232) 내의 멀티미디어 컨텐츠는 회소 기반 디지털 워터 마크(watermark), 지문 채취, 및 압축 센싱 기반 암호화와 같은 기법을 사용하여 보호될 수 있다. 디지털 저작권 관리(DRM) 모듈(224)은 또한 멀티 구성원 신뢰 관리 시스템(tmulti-party trust management system)을 사용하여 사용자 접속 제어를 관리하도록 구성될 수 있다. 멀티 구성원 신뢰 관리 시스템은 또한 허가받지 않은 사용자 침범을 제어할 수 있다. 디지털 워터 마크(watermark) 기법을 기반으로, 의사 소음과 같은 워터 마크(watermark)는 저작권 침해의 확인, 공유, 추적 및 제어를 위해 멀티미디어 컨텐츠에 추가될 수 있다. 따라서, 멀티미디어 컨텐츠의 신뢰성이 보호되고, 모바일 사용자와 같은 불법 사용자들의 방해 공격으로부터 안전하게 된다.

또한, DRM 모듈(224)은 멀티미디어 컨텐츠의 특징들을 기반으로 희소 기반 위터 마크(watermark)가 세겨진 멀티미디어 컨텐츠를 생성하도록 구성될 수 있다. 이 생성된 희소 워터 마크(watermark)는 색인 데이터(232) 내의 멀티미디어 컨텐츠의 희소 패턴 매칭에 사용될 수 있다 DRM 모듈(224)은 또한 사용자에 의해 색인 데이터(232)로의 접속을 제어하고, 시간, 스펙트럼 대역, 압축 센싱 방법, 압축 측정 스크램블(scrambling) 기법 중 하나 이상을 사용하여 멀티미디어 컨텐츠를 암호화하도록 구성될 수 있다. 모든 전자 장치는 멀티미디어 컨텐츠에 접속하기 위한 고유의 식별자, 사용자이름, 암호 및 다른 사용자와 연결가능한 정보가 주어질 수 있다. 일 실시 예에서, 워터 마킹(watermarking) 및 암호화는 복합 분석적 신호 사전들과 함께 실행될 수 있다. 예를 들어, 시각-오디오-텍스트 이벤트 테이터 상점(a visual-audio-textual event datastore)은 오디오 트랙 및 비디오 트랙의 희귀 표현을 수행하기 위하여 멀티미티어 클래스의 패턴에 해당하는 복합 분석적 신호 사전들을 구성하도록 배열될 수 있다..

상기 실시 예에서, 멀티미디어 컨텐츠는 스크램블링(scrambling) 희소 계수들을 사용하여 암호화될 수 있다. 고정/가변 프레임 크기 및 프레임율은 사용자가 선호하는 멀티미디어 컨텐츠를 암호화하도록 사용될 수 있다. 다른 실시 예에서, 멀티미디어 컨텐츠의 암호화는 시간적 영역 및 스펙트럼의 영역 모두 안의 샘플 블록들의 스크램블링(scrambling)을 채택하고 또한 압축 센싱 측정의 스크램블링(scrambling)을 채택하여 실행될 수 있다.

전자 장치(108)는 미디어 색인이 생성되자마자, 사용자의 제어 하에, 색인 데이터(232)에 접속하려는 질의 요청을 멀티미디어 인터페이스(11)를 통해 미디어 분류 시스템(104)에 전송할 수 있다. 예를 들어, 사용자는 지난 2달 내에 발표된 영화의 모든 액션 장면들을 시청하길 희망할 수 있다. 사용자 질의 요청을 수신하지마자, 미디어 분류 시스템(104)은 미디어 색인에 관한 문의를 실행하여 사용자를 위해 관련 미디어 컨텐츠의 목록을 회수하고, 그것을 사용자에게 표시하기 위해 전자 장치(108)에 전송할 수 있다. 사용자는 그 후 그가 시청하기 원하는 컨텐츠를 선택할 수 있다. 시스템(104)은 멀티미디어 컨텐츠를 저장하는 전체 파일이 아닌 멀티미디어 컨텐츠의 관련 부분만 전송하여 사용자의 대역폭과 다운로드 시간을 절약할 수 있다.

일 실시 예에서, 전자 장치(108)는 전자 장치(108) 사용자의 개인적인 선호도를 기반으로 멀티미디어 컨텐츠에 접속하려는 질의 요청을 미디어 분류 시스템(104)에 전송할 수 있다. 예를 들어, 사용자는 멀티미디어 인터페이스(110)를 통해 스마트 IP TV나 모바일 폰 상의 멀티미디어 컨텐츠에 접속할 수 있다. 멀티미디어 인터페이스(110)의 어플리케이션은 터치, 음성, 또는 광학 제어 어플리케이션 아이콘을 포함할 수 있다. 전자 장치(108)는 아이콘들을 통해 사용자 특정 관심 멀티미디어 컨텐츠를 추출, 재생, 저장 및 공유하기 위한 사용자 요청을 수집할 수 있다. 다른 실시 예에서 멀티미디어 인터페이스(110)는 음성 명령이나 아이콘을 이용한 터치 명령 측면의 사용자 응답을 기반으로 멀티미디어 컨텐츠 범주화를 수행하거나 멀티미디어 컨텐츠의 색인 및 재생 작업을 수행하도록 준비할 수 있다. 예를 들어, 현실 세계 및 가상 세계의 멀티미디어 컨텐츠는 입력된 멀티미디어 컨텐츠의 의미 있는 비디오 숏(shot)을 끊김없이 만들어 내도록 실시간 환경에서 함께 병합될 수 있다.

미디어 분류 시스템(104)은 인증되고 허가된 사용자가 제약된 멀티미디어 컨텐츠를 시청하고, 재생하고, 저장하고, 공유하고, 전송할 수 있도록 할 수 있다. DRM 모듈(224)은 사용자가 인증되었는지 여부를 확인할 수 있다. DRM 모듈(224)은 사용자 사이의 멀티미디어 컨텐츠의 인증되지 않은 시청 또는 공유를 방지할 수 있다. 인증된 사용자가 멀티미디터 컨텐츠에 접속하도록 촉구하는 방법은 이후 이 문서에서 도 6을 참조하여 상세히 설명될 것이다.

일 실시 예에서, 서비스 품질 (Quality of Service(Qos)) 모듈(226)은 사용자로부터 멀티미디어 컨텐츠의 색인에 관한 피드백이나 평가를 얻도록 구성될 수 있다. 수신된 피드백을 기반으로, QoS 모듈(226)은 멀티미디어 색인을 업데이트하도록 구성될 수 있다. 다양한 기계 학습 언어들은 사용자의 요구와 만족에 따라 멀티미디어 컨텐츠의 클래스를 개선하도록 QoS 모듈(226)에 의해 채택될 수 있다. 사용자로부터 멀티미디어 컨텐츠의 피드백을 얻는 방법은 이후 이 문서에서 도 7을 참조하여 상세히 설명될 것이다.

도 2b는 이하 유닛(240)으로 불리는 예시적인 결정 트리 기반 희소음 분류부(240)를 도시한다.

도 2b를 참조하면, 멀티미디어 컨텐츠(242)는 서드 파티(third party) 미디어 스트리밍 포털 및 티비 방송과 같은 미디어 소스(241)로부터 획득될 수 있다. 멀티미디어 컨텐츠(242)는, 예를 들어, 멀티미디어 파일 및 멀티미디어 스트림을 포함할 수 있다. 예를 들어, 멀티미디어 컨텐츠(242)는 방송된 스포츠 비디오 컨텐츠일 수 있다. 멀티미디어 컨텐츠(242)는 시각 트랙 및 오디오 트랙으로 프로세싱되고 분할될 수 있다. 오디오 트랙은 화살표(244)로 표시된 오디오 음 처리부로 전송되고, 시각 트랙은 으로 표시된 비디오 프레임 추출블록(243)으로 전송된다.

오디오 음 처리부(244)는 오디오 트랙 분할 블록(245)을 포함할 수 있다. 여기서, 오디오 트랙은 복수의 오디오 프레임으로 분할된다. 오디오 포맷 정보는 복수의 오디오 프레임으로부터 축적될 수 있다. 오디오 포맷 정보는 샘플링률(sampling rate)(초당 샘플수), 채널 수(모노 또는 스테레오) 및 샘플 해상도(비트/해상도)를 포함할 수 있다. 오디오 프레임의 포맷은 어플리케이션 특정 오디오 포맷으로 변환될 수 있다. 오디오 프레임의 포맷의 변환은 초당 16000 샘플로 고정된 소정의 샘플링률로 오디오 신호로 대체할 수 있게 사용되는 오디오 프레임의 재샘플링(resampling)하는 것을 포함할 수 있다. 예를 들어, 오디오 프레임의 재샘플링은 사용자가 선호하는 핵심 오디오 음의 그래픽 표현의 스펙트럼의 특징을 기반으로 할 수 있다.

또한, 정적 제거 블록(246)에서, 소리가 없는 프레임들은 복수의 오디오 프레임들 사이로부터 폐기될 수 있다. 예를 들어, 소리가 없는 프레임은 기록 환경과 관련된 정보를 기반으로 폐기될 수 있다. 특징 추출 블록(247)에서, 복수의 핵심 오디오 특징들은 시간적-스펙트럼적 특징들, 푸리에 변환 특징들, 신호 분해 특징들, 통계적 정보 이론적 특징들, 음향적 특징들 및 희소 표현 특징들 중 하나 이상을 기반으로 추출될 수 있다. 또한, 분류 블록(248)에서, 오디오 트랙은 추출된 특징들을 기반으로 적어도 하나의 멀티미디어 클래스로 분류된다. 핵심 오디오 이벤트는 희소 표현 영역에서 계산된 하나 이상의 측정 기준들을 비교하여 감지될 수 있다. 예를 들어, 오디오 트랙은 테니스 게임일 수 있고, 핵심 오디오 이벤트는 박수 소리일 수 있다. 다른 예로, 핵심 오디오 이벤트는 웃음 소리일 수 있다.

또한, 분류 블록(248)에서, 오디오 프레임의 프레임 내, 프레임 간 및 채널 간 희소 데이터 상관관계는 결정을 위한 다양한 핵심 오디오 이벤트들을 확인하기 위하여 분석될 수 있다. 경계 감지 블록(249)에서, 의미적인 경계는 오디오 프레임으로부터 감지될 수 있다. 또한, 시간 순간 및 오디오 블록(250)에서, 감지된 희소 핵심 오디오 이벤트 및 오디오 음의 시간 순간이 결정될 수 있다. 결정된 시간 순간은 그 후 비디오 프레임 추출 블록(243)에서 비디오 프레임 추출을 위해 사용될 수 있다. 또한, 핵심 오디오 이벤트는 결정될 수 있다.

오디오 및 비디오는 그 후 부호기 블록(251)에서 부호화될 수 있다. 핵심 오디오 음은 품질 혁신적인 희소 오디오-시각 압축 기법에 의해 압축될 수 있다. 중요한 희소 계수 및 중요하지 않은 희소 계수가 결정될 수 있고, 중요한 희소 계수는 양자화되고 부호화될 수 있다. 데이터률 구동 희소 표현 기반 압축 기법은 채널 대역폭 및 메모리 공간이 제한될 때 사용될 수 있다.

색인 생성 블록(252)에서, 미디어 색인이 생성될 수 있다. 미디어 색인은 미디어 클래스 또는 핵심 오디오 또는 비디오 음 중 적어도 하나를 기반으로 멀티미디어 컨텐츠를 위해 생성될 수 있다. 또한, 멀티미디어 컨텐츠 기록 보관소 블록(253)에서, 멀티미디어 컨텐츠를 위해 생성된 미디어 색인은 해당 기록 보관소(253)에서 저장될 수 있다. 멀티 미디어 컨텐츠 기록 보관소(253)는 코메디, 음악, 언어 및 음악에 언어가 더해진 것을 포함할 수 있다.

인증되고 허가된 전자 장치(108)는 그 후 검색 엔진(254)을 통해 멀티미디어 컨텐츠 기록 보관소(253)에 접속할 수 있다. 사용자는 전자 장치(108)를 통해 멀티미디어 컨텐츠에 접속할 수 있다. 예를 들어, 멀티미디어 인터페이스(110)는 멀티미디어 컨텐츠(242)에 접속하도록 전자 장치(108) 상에 제공될 수 있다. 멀티미디어 인터페이스(110)는 관심 있는 오디오 및 시각 이벤트를 추출하고, 재생하고, 저장하고 공유하도록 터치, 음성, 사용자 요청들을 수집하도록 구성된 광학 제어 어플리케이션 아이콘들, 강력한 디지털 신호, 이미지 및 비디오 처리 기법들을 포함할 수 있다.

도 2c는 박수 소리 감지 방법의 수행을 표시하는 예시적인 그래픽 표현(260)을 도시한다.

도 2c를 참조하면, 다양한 실시 예에서, 박수 소리를 감지하기 위해, 핵심 오디오 특징들을 그래프들(262 내지 272)에 의해 표현될 수 있다. 박수 소리는 오디오 신호로 대체할 수 있게 불리는 오디오 트랙으로부터 추출된 핵심 오디오 특징이다. 예를 들어, 오디오 트랙은 박수 소리 추출 전 복수의 오디오 프레임들로 분할될 수 있다.

박수 소리는 단기 에너지를 포함하는 시간적 특징들과 낮은 에너지 비율(Low Energy Rate(LER))과 제로 교차율(Zero Crossing Rate(ZCR))과 첫 번째 제로 교차점, 첫 번째 국소 최소 값 및 그것의 시간 지연, 국소 최대 값 및 그것의 시간 지연 및 에너지 비율 감쇄를 포함하는 단기 자기 상관 관계와 미리 정의된 창 크기를 가진 특징 스무딩(smoothing)과 미리 정의된 임계치를 가진 계급 결정-트리 기반 결정 중 하나 이상을 기반으로 감지될 수 있다.

그래프(262)는 박수 소리 부분과 언어 소리 부분을 포함하는 테니스 스포츠 비디오로부터의 오디오 신호를 묘사한다. 상술한 예에서 지시한 바와 같이, 오디오 트랙 또는 오디오 신호는 복수의 오디오 프레임들로 분할될 수 있다. 그래프(264)는 처리된 오디오 신호의 단기 에너지 엔벨로프(envelope), 즉, 각 오디오 프레임의 에너지 값을 표현하나. 그래프들(266 내지 272)는 박수 소리를 감지하기 위해 사용된 추출된 자기 상관 관계특징들을 표시할 수 있다. 그래프(266)은 각 오디오 프레임의 자기 상관 관계 특징들의 에너지 비율 값 감소를 표시하고, 그래프(268 내지 272)는 최대 피크 값, 최대 피크의 지연 값 및 각 오디오 프레임의 자기 상관 관계 특징들의 최소 피크 값을 각각 묘사한다.

도 2d는 웃음 소리를 가진 오디오 트랙의 특징 패턴을 묘사하는 예시적인 그래픽 표현(274)을 도시한다.

도 2d를 참조하면, 다양한 실시 예에서, 웃음 소리는 복수의 오디오 프레임 중 그로부터 소리가 있는 오디오 프레임을 결정하는 것을 기반으로 감지될 수 있다. 오디오 트랙의 음성-언어 부분으로부터, 이벤트 특정 특징들은 웃음 소리를 규정하기 위해 추출될 수 있다. 이벤트 특정 특징들을 추출하자마자, 분류기는 입력된 신호 특징 견본와 저장된 특징 견본 사이의 유사성을 결정할 수 있다. 웃음 소리 감지 방법은 멜-스케일 주파수 켑스트랄 계수(Mel-scale frequency Cepstral coefficient) 및 자기 상관 관계 특징들을 기반으로 한다. 웃음 소리 감지 방법은 언어, 음악 및 다른 환경적인 음으로부터 웃음 소리를 구분하기 위한 희소 코딩 기법을 이용할 수 있다.

그래프(276)는 웃음 소리를 포함하는 오디오 트랙을 표시한다. 오디오 트랙은 16000Hz의 샘플링률과 16비트 해상도로 디지털화된다. 그래프(278)는 매끄러운 자기 상관 관계 에너지 감쇄 요소나 오디오 트랙에 대한 에너지 비율의 감쇄를 묘사한다.

도 2e는 음성-언어 음 높이 감지 방법의 수행을 묘사하는 예시적인 그래픽 표현(280)을 도시한다.

도 2e를 참조하면, 음성-언어 음 높이 감지 방법은 오디오 트랙에 대해 얻어진 음 높이 윤곽의 특징을 기반으로 감지할 수 있다. 음 높이는 전체 변화(Total Variation(TV)) 필터링, 자기 상관 관계 특징 세트, 전체 변화 잔류로부터의 소음 층 추정 및 결정 트리 접근을 기반으로 추적될 수 있다. 더구나, 에너지 및 낮은 샘플률은 오디오 트랙에 존재하는 소리가 없는 오디오 프레임을 폐기하도록 계산될 수 있다. 전체 변화 필터링은 다른 소음 종류와 수준 하에서 오디오 트랙의 음 높이 주기 피크에 해당하는 높은 기울기를 개선할 수 있는 모서리 보존 평탄화 작업을 수행하기 위해 사용될 수 있다.

소음 층 추청부는 언어 오디오 프레임에 대해 얻어진 전체 변화 잔류를 처리할 수 있다. 언어 오디오 프레임의 음성이 없는 부분에서 추정된 소음 층은 전체 변화 필터링에 의해 지속적으로 유지될 수 있다. 전체 변화 잔류로부터의 소음 층 추정은 넓은 범위의 배경 소음 하에서 오디오 트랙 내의 음성이 없는 부분으로부터 음성 트랙 부분의 식별력을 제공할 수 있다. 또한, 음소 수준의 변화 및 두 음 높이 피크 부분들 사이의 눈에 잘 띄는 느리게 변하는 파동 요소로 인해 도입되는 피치 배증의 높은 가능성 및 음 높이 양분 오류는 전체 변화 필터링에 의해 방지될 수 있다. 오디오 프레임의 에너지는 계산되고 소정의 임계치와 비교될 수 있다. 비교 후, 에너지률의 감쇄, 최소 피크의 진폭 및 제로 교차률(zero crossing rate)은 전체 변화 필터링된 오디오 프레임의 자기 상관 관계로부터 계산될 수 있다. 그 후, 음 높이는 음 높이 지연이 소정의 임계치보다 큰 전체 변화가 필터링된 오디오 트랙의 자기 상관 관계로부터 음 높이 지연을 계산하여 결정될 수 있다.

그래프(284)은 바람직한 전체 변화 필터링, 즉 필터링된 오디오 트랙의 출력을 도시한다. 또한, 그래프(286)은 소리가 없는 오디오 트랙들을 감지하기 위해 사용되는 단기간 에너지 특징들의 에너지 특징 패턴을 묘사한다. 그래프(288)은 음성 언어 오디오 프레임을 감지하기 위해 사용되는 자기 상관 관계 감쇄 에너지 비율 특징의 감쇄 에너지 비율 특징 패턴을 표시하고, 그래프(290)은 음성 언어 오디오 프레임들의 감지를 위한 최대 피크 특징 패턴을 표시한다. 그래프(292)는 음 높이 주기 패턴을 묘사한다. 그래프들로부터 알 수 있듯이, 전체 변화 필터는 배경 소음을 효과적적으로 감소시키고 오디오 트랙의 음성 언어 부분을 강조한다.

방법들(300, 310, 350, 400, 500, 600, 700)이 설명되는 순서는 본 발명을 제한하여 이해하려는 의도가 아니고, 설명된 방법 블록이 몇 개든지 방법들을 구현하려는 어떤 순서나 어떤 대안적인 방법들로 결합될 수 있다. 추가적으로, 개별 블록들은 여기에서 설명된 본 발병의 사상 및 범위를 벗어나지 않고 상기 방법들로부터 제거될 수 있다. 더구나, 상기 방법들은 어떤 적합한 하드웨어, 소프트웨어, 펌웨어, 및 그 조합으로 구현될 수 있다.

여기에서, 몇몇 실시 예들은 또한 프로그램 저장 장치, 예를 들어, 기계나 컴퓨터가 읽을 수 있고 기계가 실행할 수 있거나 컴퓨터가 실행할 수 있는 지시들의 프로그램들을 부호화하는 디지털 데이터 저장 미디어를 포함하려고 하는데, 여기서 상기 지시들은 상술한 방법들의 몇몇 단계들 또는 모든 단계들을 수행한다. 프로그램 저장 장치는, 예를 들어, 디지털 메모리, 자기 디스크 및 자기 테이프와 같은 자기 저장 미디어, 하드 드라이브, 또는 광학적으로 읽을수 있는 디지털 데이터 저장 미디어 일 수 있다. 실시 예들은 또한 상기 예시적인 방법들의 상기 단계들을 수행하도록 구성된 통신 네트워크 및 통신 장치 모두를 포함하려고 한다.

방법들(300, 310, 350, 400, 500, 600, 700)의 단계는 프로그래밍된 컴퓨터나 통신 장치들에 의해 수행될 수 있다.

도 3a, 도 3b 및 도 3c는 본 발명의 일 실시 예에 따른 멀티미디어 컨텐츠를 분할하고 멀티미디어 컨텐츠에 대한 미디어 색인을 생성하는 방법들(300, 310, 350)을 각각 도시한다

도 3a를 참조하면, 방법(300)의 동작(302)에서, 멀티미디어 컨텐츠는 다양한 소스들로부터 획득된다. 예를 들어, 멀티미디어 컨텐츠는 서드 파티(third party) 미디어 스트리밍 포털 및 텔레비전 방송과 같은 다양한 미디어 소스들로부터 분할 모듈(214)에 의해 불러올 수 있다.

방법(300)의 동작(304)에서, 멀티미디어 컨텐츠가 디지털 포맷으로 되어있는지 여부가 확인할 수 있다. 분할 모듈(214)은 멀티미디어 컨텐츠가 디지털 포맷으로 되어있는지 여부를 확인할 수 있다. 만약 멀티미디어 컨텐츠가 디지털 포맷으로 되어있지 않다면, 즉 아날로그 포맷으로 되어있다면, 방법(300)은 동작(306)으로 진행한다('아니오' 방향). 동작(306)에 묘사된 바와 같이, 멀티미디어 컨텐츠는 디지털 포맷으로 변환되고 그 후 방법(300)은 동작(308)으로 진행할 수 있다. 분할 모듈(214)은 멀티미디어 컨텐츠를 디지털 포맷으로 변환하기 위해 아날로그/디지털 컨버터를 사용할 수 있다.

그러나, 만약 동작(304)에서, 멀티미디어 컨텐츠가 디지털 포맷으로 되어있다고 확인된다면, 방법(300)은 동작(308)으로 진행한다('예' 방향). 동작(308)에서 멀티미디어 컨텐츠는 그 후 오디오 트랙, 시각 트랙 및 텍스트 트랙과 같은 그것의 구성 트랙들로 분할된다. 예를 들어, 분할 모듈(214)은 복호화 및 역다중화와 같은 기법들을 기반으로 멀티미디어 컨텐츠를 그것의 구성 트랙들로 분할할 수 있다.

도 3b를 참조하면, 방법(310)의 동작(312)에서, 오디오 트랙이 획득되고 복수의 오디오 프레임들로 분할된다. 분할 모듈(214)은 오디오 트랙을 복수의 오디오 프레임들로 분할할 수 있다.

방법(310)의 동작(314)에서, 오디오 포맷 정보는 복수의 오디오 프레임들로부터 축적된다. 오디오 포맷 정보는 샘플링률(초당 샘플수), 채널 수(모노 또는 스테레오) 및 샘플 해상도(비트/해상도)를 포함할 수 있다. 분할 모듈(214)은 복수의 오디오 프레임들로부터 오디오 포맷 정보를 축적할 수 있다.

방법(310)의 동작(316)에서, 오디오 프레임의 포맷은 어플리케이션 특정 오디오 프레임으로 변환된다. 오디오 프레임의 포맷의 변환은 초당 16000개의 샘플로 고정될 수 있는 소정의 샘플링률로 오디오 신호들로 대체하여 불릴수 있는 오디오 프레임들을 재샘플링하는 것을 포함할 수 있다. 재샘플링 처리는 전력 소모, 연산 복잡성 및 메모리 공간 요구사항을 줄일 수 있다. 분할 모듈(214)은 오디오 프레임의 포맷을 어플리케이션 특정 오디오 포맷으로 변환할 수 있다.

동작(318)에서 소리가 없는 프레임들은 복수의 오디오 프레임 중 그들로부터 결정되고 폐기된다. 소리가 없는 프레임은 낮은 에너지 비율 및 에너지 엔빌로그램(envelogram)의 매개 변수를 이용하여 결정될 수 있다. 예를 들어, 분할 모듈(214)은 복수의 오디오 프레임들 중 그로부터 소리가 없는 프레임들을 확인하고 그 후의 분석으로부터 소리가 없는 프레임을 폐기하도록 무음 감지를 수행할 수 있다.

방법(310)의 동작(320)에서, 복수의 특징들이 복수의 오디오 프레임들로부터 추출된다. 복수의 특징들은 노래, 음악이 있는 언어, 음악, 소리 및 소음과 같은 핵심 오디오 특징들을 포함할 수 있다.범주화 모듈(218)은 오디오 프레임들로부터 복수의 특징들을 추출할 수 있다.

방법(310)의 동작(322)에서, 오디오 트랙은 추출된 특징들을 기반으로 적어도 하나의 멀티미디어 클래스로 분류된다. 멀티미디어 특징들은 소리 없음, 언어, 음악(클래식, 재즈, 메탈, 팝, 락 등), 노래, 음악이 있는 담와, 박수, 응원, 웃음, 자동차 충동, 자동차 경주, 총기 발포, 사이렌, 비행기, 헬리콥터, 스쿠터, 비오는 소리, 폭발 및 소음과 같은 특징들 중 어느 하나를 포함할 수 있다. 예를 들어, 웃음 및 함성와 같은 핵심 오디오 특징들을 기반으로, 오디오 트랙은 하나의 멀티미디어 클래스인 "코메디"로 분류될 수 있다. 범주화 모듈(218)은 오디오 트랙을 적어도 하나의 멀티미디어 클래스로 분류할 수 있다.

방법(310)의 동작(324)에서, 미디어 색인은 적어도 하나의 멀티미디어 클래스를 기반으로 오디오 트랙에 대하여 생성된다. 예를 들어, 미디어 색인의 항목은 오디오 트랙이 4:15 ~ 8:39의 기간동안 "코메디"임을 지시할 수 있다. 색인 생성 모듈(220)은 적어도 하나의 멀티미디어 클래스를 기반으로 오디오 트랙에 대한 미디어 색인을 생성할 수 있다.

동작(326)에서, 오디오 트랙에 대해 생성된 미디어 색인은 해당 기록 보관소에 저장된다. 기록 보관소는 코메디, 음악, 언어, 언어가 더해진 음악 등을 포함할 수 있다. 오디오 트랙에 대해 생성된 미디어 색인은 색인 데이터(232)에 저장될 수 있다.

도 3c를 참조하면, 방법(350)의 동작(352)에서, 시각 트랙이 획득되고 복수의 회소 비디오 조각들로 구분된다. 일 실시 예에서, 분할 모듈(214)은 희소 무리화(clustering) 기반 특징들을 기반으로 시각 트랙을 복수의 희소 비디오 조각들로 분할할 수 있다.

방법(350)의 동작(354)에 묘시된 바와 같이, 복수의 특징들은 복수의 희소 비디오 조각들로부터 추출된다. 복수의 특징들은 총기 발포, 사이렌 및 폭발과 같은 핵심 비디오 특징들을 포함할 수 있다. 범주화 모듈(218)은 희소 비디오 조각들로부터 복수의 특징들을 추출할 수 있다.

방법(350)의 동작(356)에서, 시각 트랙은 추출된 특징들을 기반으로 적어도 하나의 멀티미디어 클래스로 분류된다. 예를 들어, 총기 발포, 사이랜 밀 폭발과 같은 핵심 오디오 특징들을 기반으로, 시각 트랙은 멀티미디어 "액션" 클래스로 분류될 수 있다. 범주화 모듈(218)은 비디오 컨텐츠를 적어도 하나의 클래스로 분류할 수 있다.

방법(350)의 동작(358)에서, 미디어 색인이 적어도 하나의 멀티미디어 클래스를 기반으로 시각 트랙에 대해 생성된다. 예를 들어, 미디어 색인의 항목은 시각 트랙이 1:15 ~ 3:05의 기간동안 "액션" 임을 지시할 수 있다. 색인 생성 모듈(220)은 적어도 하나의 멀티미디어 클래스를 기반으로 시각 트랙에 대한 미디어 색인을 생성할 수 있다.

방법(350)의 동작(360)에서, 시각 트랙에 대해 생성된 미디어 색인은 해당 기록 보관소에 저장된다. 이 기록 보관소는 액션, 어드벤처 및 드라마를 포함할 수 있다. 시각 트랙에 대해 생성된 미디어 색인은 색인 데이터(232)에 저장될 수 있다.

도 4는 본 발명의 실시 예들에 따른 멀티미디어 컨텐츠를 스키밍하는 방법(400)을 도시한다.

도 4를 참조하면, 방법(400)의 동작(402)에서, 멀티미디어 컨텐츠는 다양한 미디어 소스들로부터 획득된다. 멀티미디어 색인은 희소 코딩 기반 스키밍 모듈(222)에 의해 획득될 수 있다.

방법(400)의 동작(404)에서, 멀티미디어 컨텐츠가 디지털 포맷으로 되어있는지 여부를 확인한다. 희소 코딩 기반 스키밍 모듈(222)은 멀티미디어 컨텐츠가 디지털 포맷으로 되어있는지 여부를 확인할 수 있다. 만약 멀티미디어 컨텐츠가 디지털 포맷이 아니라면, 방법(400)은 동작(406)으로 진행한다('아니오' 방향). 동작(406)에서, 멀티미디어 컨텐츠는 디지털 포맷으로 변환되고, 그 후 방법(400)은 동작(408)으로 진행한다.

그러나, 만약 동작(404)에서 멀티미디어 컨텐츠가 디지털 포맷으로 되어있다고 판단된다면, 방법(400)은 바로 동작(408)으로 진행한다('예' 방향). 방법(400)의 동작(408)에서, 멀티미디어 컨텐츠는 오디오 트랙, 시각 트랙 및 텍스트 트랙으로 분할된다. 예를 들어, 희소 코딩 기반 스키밍 모듈(222)은 복호화와 역다중화와 같은 기법들을 기반으로 멀티미디어 컨텐츠를 분할할 수 있다.

방법(400)의 동작(410)에서, 로우 레벨 및 하이 레벨의 특징들이 오디오 트랙, 시각 트랙 및 텍스트 트랙으로부터 추출된다. 로우 레벨 및 하이 레벨의 특징들의 예는 광고 방송 시간 및 숏 사이의 경계들을 포함한다. 희소 코딩 기반 스키밍 모듈(222)은 절대 희소 계수 차이의 합 및 희소 표현 영역에서 이벤트 변화률과 같은 숏 감지 기법을 사용하여 오디오 트랙, 시각 트랙 및 텍스트 트랙으로부터 로우 레벨 및 하이 레벨의 특징들을 추출할 수 있다.

방법(400)의 동작(412)에서, 핵심 이벤트는 시각 트랙으로부터 확인된다. 숏 감지 기법은 시각 트랙을 복수의 희소 비디오 조각들로 분할하기 위해 사용될 수 있다. 희소 비디오 조각들은 분석되고, 시각 트랙의 이야기 구성에 중요한 희소 비디오 조각들은 핵심 이벤트들로서 확인된다. 희소 코딩 기반 스키밍 모듈(222)은 시각 트랙의 장면 전환의 희소 코딩을 사용하여 시각 트랙으로부터 핵심 이벤트들을 확인할 수 있다.

방법(400)의 동작(414)에서, 핵심 이벤트는 비디오 스킴(skim)을 생성하도록 요약된다. 비디오 스킴(skim)은 전체 비디오 트랙을 강조하는 짧은 비디오 클립을 지시할 수 있다. 사용자 입력, 선호 및 피드백은 사용자 경험을 개선하고 그들의 요구를 만족시키기 위해 고려될 수 있다. 희소 코딩 기반 스키밍 모듈(222)은 비디오 스킴(skim)을 생성하도록 핵심 이벤트를 합성할 수 있다.

도 5는 본 발명의 일 실시 예에 따른 인증되지 않고 허가받지 않은 사용자로부터 멀티미디어 컨텐츠를 보호하기 위한 방법(500)을 도시한다.

도 5를 참조하면, 방법(500)의 동작(502)에서, 멀티미디어 컨텐츠는 색인 데이터(232)로부터 회수된다. 회수된 멀티미디어 컨텐츠는 무리지어 분류되거나 분류되지 않을 수 있다. 미디어 분류 시스템(104)의 DRM 모듈(224)은 디지털 저작권의 관리를 위해 멀티미디어 컨텐츠를 회수할 수 있다. 인터넷 DRM은 mp3 음악, mpeg 비디오 등과 같은 온라인 디지털 컨텐츠를 공유하도록 사용될 수 있다. 다른 실시 예에서, DRM 모듈(224)은 전자 장치(108) 내에 통합될 수 있다. 전자 장치(108) 내에 통합된 DRM 모듈(224)은 이하 모바일 DRM(224)으로 불릴 수 있다. 모바일 DRm은 전자 장치(108) 및 다른 서드 파티(third party) 보안 라이선스 제공자의 하드웨어를 이용하여 멀티미디어 컨텐츠를 안전하게 전달할 수 있다.

방법(500)의 동작(504)에서, 멀티미디어 컨텐츠는 워터 마킹(watermarking) 방법에 의해 보호될 수 있다. 워터 마킹(watermarking) 방법은 희소 표면 및 경험적 모드 분해 기법을 기반으로 하는 오디오 및 시각 워터 마킹(watermarking) 방법일 수 있다. 디지털 워터 마킹(watermarking) 기법으로, 의사 소음과 같은 워터 마크(watermark)는 저작권 침해의 확인, 추척 및 제어를 위해 멀티미디어 컨텐츠에 추가된다. 따라서, 멀티미디어 컨텐츠의 신뢰성이 보호되고 모바일 사용자와 같은 불법적인 사용자들의 방해 공격으로부터 보호된다. 멀티미디어 컨텐츠의 워터 마킹(watermarking)은 멀티미디어 컨텐츠의 특징들을 사용하여 생성될 수 있다. DRM 모듈(224)은 희소 워터 마킹(watermarking) 기법이나 압축 센싱 암호화 기법을 사용하여 멀티미디어 컨텐츠를 보호할 수 있다

방법(500)의 동작(506)에서, 멀티미디어 컨텐츠는 멀티미디어 컨텐츠로의 접속을 제어하여 보호된다. 전자 장치의 사용자는 그들이 멀티미디어 컨텐츠에 접속할 수 있도록 고유의 식별자, 사용자 이름, 암호 및 다른 사용자가 연결 가능한 정보와 같은 사용자 자격 증명을 제공받을 수 있다. DRM 모듈(224)은 태그가 붙여진 멀티미디어 컨텐츠로의 접속을 제어하여 멀티미디어 컨텐츠를 보호할 수 있다.

방법(500)의 동작(508)에서, 멀티미디어 컨텐츠는 암호화되어 저장된다. 멀티미디어 컨텐츠는 희소 및 압축 센싱 기반 암호화 기법을 사용하여 암호화될 수 있다. 멀티미디어 컨텐츠에 대한 암호화 기법은 시간적 영역 및 스펙트럼의 영역 모두 안의 멀티미디어 컨텐츠의 샘플들의 동작들의 스크램블링(scrambling)과 또한 압축 센셍 측정의 스크램블링(scrambling)을 채택할 수 있다. 알려진 사용자들의 하나의 그룹과 최소한의 신뢰를 구축하는 다 구성원 신뢰 기반 관리 시스템이 사용될 수 있다. 시스템은 활동을 감시하여 사용자에게 신뢰 수준을 재할당할 책임이 있다. 수준의 재할당은 그것을 증가시키거나 감소시키는 것을 의미한다. 일 실시 예에서, DRM 모듈(224)은 멀티미디어 컨텐츠를 암호화하고 저장할 수 있다.

방법(500)의 동작(510)에서, 멀티미디어 컨텐츠로의 접속은 인증받고 허가받은 사용자에게 허용된다. 멀티미디어 컨텐츠는 안전하게 회수될 수 있다. 일 구현에서, DRM 모듈(224)은 사용자가 멀티미디어 컨텐츠에 접속하도록 사용자를 인증할 수 있다. 사용자는 희소 코딩 기반 사용자 인증 방법을 사용하여 인증될 수 있는데, 여기서 추출된 특징들의 희소 표현이 사용자 자격 증명을 확인하기 위해 처리될 수 있다.

도 6은 본 발명의 일 실시 예에 따른 인증된 사용자가 멀티미디어 컨텐츠로 접속하는 것을 촉구하는 방법(600)을 도시한다.

도 6을 참조하면, 방법(600)의 동작(602)에서, 인증 세부 사항이 사용자로부터 수신된다. 인증 세부 사항은 고유의 식별자, 사용자 이름, 암호 및 다른 사용자가 연결 가능한 정보와 같은 사용자 자격 증명을 포함할 수 있다. DRM 모듈(224)은 사용자로부터 인증 세부 사항을 수신 받을 수 있다.

방법(600)의 동작(604)에서, 인증 세부 사항이 유효한지 여부를 확인한다. DRM 모듈(224)이 인증 세부 사항이 유효한지 판단할 수 있다. 만약 인증 세부 사항이 유효하지 않다고 판단된다면, 방법(600)은 동작(602)으로 되돌아가고('아니도' 방향), 인증 세부 사항을 다시 사용자로부터 수신받는다.

그러나, 만약 동작(602)에서 인증 세부 사항이 유효하다고 판단된다면, 방법(600)은 동작(606)으로 진행한다('예' 방향). 방법(600)의 동작(606)에서, 멀티미디어 인터페이스(110)는 사용자가 색인 데이터(232)에 저장된 멀티미디어 컨텐츠에 접속하기 위해 생성된다. 멀티미디어 인터페이스(110)는 미디어 분류 시스템(104)의 색인 생성 모듈(220)에 의해 생성될 수 있다..

방법(600)의 동작(608)에서, 사용자는 시야나 디스플레이 설정을 바꾸길 원하는지 여부를 판단할 수 있다. 만약 사용자가 시야나 디스플레이 설정을 바꾸기를 원한다고 판단되었다면, 방법(600)은 동작(610)으로 진행한다('예' 방향). 동작(610)에서, 사용자는 시야나 디스플레이 설정을 바꾸도록 허용되고, 이 후 방법(600)은 동작(610)로 진행한다.

그러나, 만약 동작(608)에서 사용자가 시야/디스플레이 설정을 바꾸길 원하지 않는다고 판단된다면, 방법(600)은 동작(612)로 진행한다('아니오' 방향). 방법(600)의 동작(612)에서, 사용자는 멀티미디어 인터페이스(110)를 열람하고 멀티미디어 컨텐츠를 선택하고 재생하도록 촉구된다.

방법(600)의 동작(614)에서, 사용자가 멀티미디어 컨텐츠의 설정을 바꾸길 원하는지 판단할 수 있다. 만약 사용자가 멀티미디어 컨텐츠의 설정을 가꾸길 원한다고 판단된다면, 방법(600)은 동작(612)으로 진행한다('예' 방향). 동작(612)에서, 사용자는 멀티미디어 인터페이스(110)를 열람하여 멀티미디어 설정을 바꿀 수 있다.

그러나, 만약 동작(614)에서 사용자가 멀티미디어 컨텐츠의 설정을 바꾸길 원하지 않는다고 판단된다면, 방법(600)은 동작(616)으로 진행할 수 있다('아니오' 방향). 방법(600)의 동작(616)에서, 사용자가 계속 열람하길 원하는지 확인한다. 만약 사용자가 계속 열람하길 원한다고 판단된다면, 방법(600)은 동작(606)으로 진행한다('예' 방향). 동작(606)에서, 멀티미디어 인터페이스(110)는 멀티미디어 컨텐츠로의 접속을 허용하도록 사용자에게 제공된다.

그러나, 만약 동작(616)에서 사용자가 계속 열람하길 원하지 않는다고 판단된다면, 방법(600)은 동작(618)로 진행한다('아니오' 방향). 동작(618)에서, 사용자는 멀티미디어 인터페이스(110)에서 빠져나오도록 촉구된다.

도 7은 본 발명의 일 실시 예에 따른 사용자 요구에 따라 사용자로부터 멀티미디어 컨텐츠의 피드백을 획득하는 방법(700)을 도시한다.

도 7을 참조하면, 방법(700)의 동작(702)에서, 멀티미디어 컨텐츠는 색인 데이터(232)로부터 수신된다.

방법(700)의 동작(704)에서, 멀티미디어 컨텐츠는 사용자에게 제공할 수 있는 멀티미디어 컨텐츠의 품질의 전달 가능한 대상을 생성하도록 분석된다. 전달 가능한 대상은 멀티미디어 컨텐츠 분석, 전자 장치의 처리 수용량 및 네트워크의 스트리밍 수용량을 기반으로 한다. 멀티미디어 컨텐츠의 품질은 희소 코딩 압축 및 압축 샘플링 기법을 기반으로 한 품질 제어 코딩 기법을 사용하여 결정될 수 있다. 품질 제어 코딩 기법에서, 최적의 계수가 사용자가 선호하는 멀티미디어 컨텐츠 품질 등급에 대해 평가된 임계치 매개 변수를 기반으로 결정된다.

멀티미디어 분류 시스템(104)은 멀티미디어 컨텐츠의 품질을 결정하여 사용자의 전자 장치로 전송할 수 있다. 예를 들어, 멀티미디어 컨텐츠는 전자 장치(108)의 처리 수용량을 기반으로 확대되거나 축소될 수 있다.

방법(700)의 동작(706)에서, 전송 가능한 대상이 사용자의 요구사항에 부합하는지 여부를 확인한다. 만약 전송 가능한 대상이 사용자의 요구사항에 부합하지 않다고 판단된다면, 방법(700)은 동작(708)으로 진행한다(?틈臼? 방향). 동작(708)에서, 사용자의 요구사항을 충족하도록 제안적인 대안의 구성이 생성된다. 방법(700)의 동작(710)에서, 대안의 구성을 선택하기 위한 사용자의 요청이 수신된다. 일 구현에서, QoS 모듈(226)은 전공 가능한 대상이 사용자의 요구사항을 충족하는지 여부를 판단한다.

그러나, 만약 동작(706)에서 전송 가능한 대상이 사용자의 요구사항과 부합한다고 판단된다면, 방법(700)은 동작(712)으로 진행한다(?? 방향). 방법(700)의 동작(712)에서, 멀티미디어 컨텐츠는 사용자의 전자 장치로 전송된다. 일 구현에서, QoS 모듈(226)이 전송 가능한 대상이 사용자의 요구사항에 부합하는지 여부를 판단한다.

방법(700)의 동작(714)에서, 전송된 멀티미디어 컨텐츠의 피드백이 사용자로의 전자 장치로부터 수신된다. 동작(716)에서, 전송된 멀티미디어 컨텐츠를 모니터링한다. 일 실시 예에서, QoS 모듈(226)은 전송된 멀티미디어 컨텐츠를 모니터링하고, 전송된 멀티미디어 컨텐츠의 피드백을 수신한다. 전송된 멀티미디어 컨텐츠는 전송 컨텐츠부를 모니터링하여 모니터링될 수 있다.

동작(718)에서, 전송된 멀티미디어 컨텐츠의 평가 보고서가 동작(714)에서 수신한 피드백을 기반으로 생성된다. QoS 모듈(226)은 전송된 멀티미디어 컨텐츠의 평가 보고서를 생성할 수 있다. 평가 보고서는 통계 생성부에 의해 생성될 수 있다.

멀티미디어 컨텐츠에 접속하기 위한 방법 및 시스템의 실시 예들이 구조적인 특징 및/또는 방법에 특정되어 설명되었지만, 본 발명은 반드시 설명된 특정 특징들 또는 방법들에 의해 제한되지 않음을 이해해야 한다. 또한, 특정 특징들 및 방법들은 멀티미디어 컨텐츠에 접속하려는 예시적인 실시 예로서 제시된다.

214: 분할 모듈 216: 분류 모듈
218: 범주화 모듈 220: 색인 생성 모듈
222: SCB 스키밍 모듈 224: DRM 모듈
226: QoS 모듈

Claims

멀티미디어 컨텐츠에 접속하는 방법에 있어서,
멀티미디어 클래스의 멀티미디어 컨텐츠에 접속하려는 사용자 질의 입력을 수신하는 단계;
상기 멀티미디어 컨텐츠의 미디어 색인에서 관한 사용자 질의 입력에 응답하여 멀티미디어 클래스의 태그가 붙여진 멀티미디어 컨텐츠의 부분들을 확인하는 단계;
상기 확인된 멀티미디어 컨텐츠의 태그가 붙여진 부분들을 검색하는 단계; 및 상기 검색된 멀티미디어 컨텐츠의 부분들을 멀티미디어 인터페이스를 통해 사용자 전자 장치로 전송하는 단계를 포함하고,
상기 멀티미디어 컨텐츠는 복수의 멀티미디어 클래스들과 관련되어 있고, 상기 복수의 멀티미디어 클래스들의 각각은 상기 멀티미디어 컨텐츠의 하나 이상의 부분들과 연결되는 방법.
제 1 항에 있어서,
상기 사용자 질의 입력을 수신하는 단계는,
상기 멀티미디어 컨텐츠에 접속하기 위해 사용자 전자 장치로부터 인증 세부 사항을 수신하는 단계;
상기 인증 세부 사항을 기반으로 사용자가 멀티미디어 컨텐츠에 접속하도록 인증받았는지 여부를 판단하는 단계; 및
태그가 붙여진 멀티미디어 컨텐츠와 관련된 디지털 저작권을 기반으로 사용자가 멀티미디어 컨텐츠에 접속하도록 허가받았는지 여부를 확인하는 단계를 더 포함하는 방법.
제 1 항에 있어서,
상기 사용자 질의 입력을 수신하는 단계는,
태그가 붙여진 멀티미디어 컨텐츠의 사용자 피드백이나 사용자 평가 중 적어도 하나를 수신하는 단계; 및
상기 사용자 피드백 및 상기 사용자 평가 중 적어도 하나를 기반으로 상기 미디어 색인을 업데이트하는 단계를 더 포함하는 방법.
제 1 항에 있어서,
상기 멀티미디어 컨텐츠의 부분들을 확인하는 단계는,
복수의 미디어 소스들로부터 멀티미디어 컨텐츠를 수신하는 단계;
상기 멀티미디어 컨텐츠의 적어도 하나의 특징을 추출하도록 상기 멀티미디어 컨텐츠를 분석하는 단계; 및
상기 적어도 하나의 특징을 기반으로 상기 멀티미디어 컨텐츠에 적어도 하나의 미리 정의된 멀티미디어 클래스의 태그를 붙이는 단계를 더 포함하는 방법.
제 4 항에 있어서,
상기 분석하는 단계는,
상기 멀티미디어 컨텐츠를 디지털 포맷으로 변환하는 단계;
오디오 트랙, 시각 트랙 및 텍스트 트랙 중 적어도 하나를 회수하도록 상기 멀티미디어 컨텐츠를 분할하는 단계; 및
오디오 트랙, 시각 트랙 및 텍스트 트랙 중 적어도 하나를 프로세싱하는 단계를 더 포함하는 방법.
제 5 항에 있어서,
상기 프로세싱하는 단계는,
미디어 소스로부터 상기 오디오 트랙을 획득하는 단계;
상기 오디오 트랙을 복수의 오디오 프레임들로 분할하는 단계;
상기 복수의 오디오 프레임들 중 그로부터 소리가 없는 프레임들을 폐기하도록 상기 오디오 프레임들을 분석하는 단계;
상기 복수의 오디오 프레임들 중 그로부터 복수의 핵심 오디오 특징들을 추출하는 단계;
상기 복수의 핵심 오디오 특징들을 기반으로 상기 오디오 트랙을 적어도 하나의 멀티미디어 클래스로 분류하는 단계; 및
상기 적어도 하나의 멀티미디어 클래스를 기반으로 상기 오디오 트랙에 대한 미디어 색인을 생성하는 단계를 더 포함하는 방법.
제 6 항에 있어서,
상기 분류하는 단계는
상기 복수의 오디오 프레임들로부터 오디오 포맷 정보를 축적하는 단계;
상기 복수의 오디오 프레임들의 포맷을 어플리케이션 특정 오디오 포맷으로 변환하는 단계;
상기 복수의 핵심 오디오 특징들을 기반으로 복수의 핵심 오디오 이벤트들을 감지하는 단계;
상기 복수의 오디오 프레임들의 프레임 내, 프레임 간 및 채널 간 희소 데이터 상관 관계를 기반으로 상기 핵심 오디오 이벤트들을 확인하는 단계; 및
핵심 오디오 이벤트들을 기반으로 상기 미디어 색인을 업데이트하는 단계를 포함하는 방법.
제 6 항에 있어서,
상기 분류하는 단계는,
음향적 특징, 압축 희소 분류기, 가우시안(Gaussian) 혼합 모델 및 정보 융합 중 적어도 하나를 기반으로 수행되는 방법.
제 5 항에 있어서,
상기 프로세싱하는 단계는,
미디어 소스로부터 상기 시각 트랙을 획득하는 단계;
상기 시각 트랙을 복수의 희소 비디오 조각들로 분할하는 단계;
상기 희소 비디오 조각들로부터 복수의 특징들을 추출하는 단계;
상기 복수의 특징들을 기반으로 상기 시각 트랙을 적어도 하나의 멀티미디어 클래스로 분류하는 단계; 및
상기 적어도 하나의 멀티미디어 클래스를 기반으로 상기 시각 트랙에 대한 미디어 색인을 생성하는 단계를 포함하는 방법.
제 5 항에 있어서,
상기 프로세싱하는 단계는,
시각 트랙, 오디오 트랙 및 텍스트 트랙으로부터 복수의 로우 레벨의 특징들을 추출하는 단계;
상기 복수의 로우 레벨의 특징들을 기반으로 상기 시각 트랙을 복수의 희소 비디오 조각들로 분할하는 단계;
복수의 하이 레벨의 특징들을 추출하도록 상기 복수의 희소 비디오 조각들을 분석하는 단계;
상기 복수의 하이 레벨의 특징들을 기반으로 상기 복수의 희소 비디오 조각들과 상기 시각 트랙 사이의 상관 관계를 판단하는 단계;
상기 상관 관계의 판단을 기반으로 복수의 핵심 이벤트들을 확인하는 단계; 및
상기 복수의 핵심 이벤트들을 요약하여 스킴(skim)을 생성하는 단계를 더 포함하는 방법.
제 5 항에 있어서,
상기 프로세싱하는 단계는,
상기 텍스트 트랙으로부터 자막 및 텍스트 문자 중 적어도 하나를 판단하도록 상기 시각 트랙으로부터 추출된 상기 복수의 특징들을 분석하는 단계;
상기 자막 및 상기 텍스트 문자 중 적어도 하나를 기반으로 상기 텍스트 트랙으로부터 복수의 특징들을 광학 문자 인식 기법을 기반으로 추출하는 단계;
상기 복수의 특징들을 기반으로 상기 텍스트 트랙을 적어도 하나의 멀티미디어 클래스로 분류하는 단계; 및
상기 적어도 하나의 멀티미디어 클래스를 기반으로 상기 텍스트 트랙에 대한 미디어 색인을 생성하는 단계를 포함하는 방법.
전자 장치에 있어서,
적어도 하나의 장치 프로세서; 및
상기 적어도 하나의 장치 프로세서와 결합하고, 멀티미디어 클래스의 멀티미디어 컨텐츠에 접속하려는 사용자 질의 입력을 수신하고, 상기 멀티미디어 클래스의 태그가 붙여진 상기 멀티미디어 컨텐츠 부분들을 검색하고, 상기 검색된 멀티미디어 컨텐츠의 태그가 붙여진 부분들을 출력하는 멀티미디어 인터페이스를 포함하는 전자 장치.
제 12 항에 있어서,
상기 전자 장치는,
휴대폰, 스마트폰, 개인용 정보 단말기(PDA), 테블릿, 노트북, 홈 시어터 시스템, 셋톱 박스, 인터넷 프로토콜 텔레비전(IP TV) 및 스마트 텔레비전(smart TV) 중 적어도 하나를 포함하는 전자 장치
제 12 항에 있어서,
상기 멀티미디어 인터페이스는,
상기 멀티미디어 컨텐츠로의 접속을 추출, 재생, 저장 및 공유하는 것 중 적어도 하나를 수행하기 위해 상기 사용자 질의 입력을 수신하도록 터치, 음성 및 광학 제어 어플리케이션 아이콘들 중 적어도 하나를 포함하는 전자 장치
미디어 분류 시스템에 있어서,
프로세서;
상기 프로세서에 결합되고, 멀티미디어 컨텐츠를 적어도 하나의 구성 트랙들로 분할하는 분할 모듈;
상기 프로세서와 결합하고, 상기 구성 트랙들로부터 복수의 특징들을 추출하고, 상기 복수의 특징들을 기반으로 상기 멀티미디어 컨텐츠를 적어도 하나의 멀티미디어 클래스로 분류하는 범주화 모듈;
상기 프로세서와 결합하고, 상기 적어도 하나의 멀티미디어 클래스를 기반으로 상기 멀티미디어 컨텐츠에 대한 미디어 색인을 생성하고, 사용자가 상기 멀티미디어 컨텐츠에 접속할 수 있도록 멀티미디어 인터페이스를 생성하는 색인 생성 모듈; 및
상기 프로세서와 결합하고, 상기 멀티미디어 컨텐츠와 관련된 디지털 저작권을 기반으로 상기 멀티미디어 컨텐츠를 보호하고, 복합 분석적인 신호 사전들을 사용하는 희소 코딩 기법 및 압축 센싱 기법을 기반으로 상기 멀티미디어 컨텐츠를 보호하는 디지털 저작권 관리(DRM) 모듈을 포함하는 미디어 분류 시스템.
제 15 항에 있어서,
상기 범주화 모듈은,
미디어 제어 필터링 기법을 기반으로 상기 구성 트랙들로부터 소음 요소들을 억제하되, 상기 구성 트랙들은 시각 트랙과 오디오 트랙을 포함하고;
상기 시각 트랙과 상기 오디오 트랙을 복수의 희소 비디오 조각들과 복수의 오디오 조각들로 각각 분할하고;
상기 복수의 희소 비디오 조각들과 상기 복수의 오디오 조각들 중 그로부터 복수의 상관 관계가 있는 조각들을 확인하고;
상기 복수의 상관 관계가 있는 조각들을 기반으로 희소 계수 거리를 결정하고;
상기 희소 계수 거리를 기반으로 상기 복수의 희소 비디오 조각들과 상기 복수의 오디오 조각들을 무리지어 분류하도록 더 구성된 미디어 분류 시스템.
제 15 항에 있어서,
상기 분할 모듈은,
상기 구성 트랙들로부터 중요한 희소 계수들과 중요하지 않은 희소 계술들을 결정하고;
상기 중요한 희소 계수들을 양자화하고 부호화하고;
상기 구성 트랙들의 2진 맵을 형성하고;
런-길이(run-length) 코딩 기법을 사용하여 상기 구성 트랙들의 2진 맵을 압축하고;
압축 비율을 최대화하고 왜곡을 최소화하여 최적의 임계치들을 결정하고;
상기 압축된 구성 트랙들의 품질을 평가하는 미디어 분류 시스템.
제 15 항에 있어서,
상기 프로세서와 결합하고, 상기 분류된 멀티미디어 컨텐츠에 관한 사용자 피드백 및 사용자 평가 중 적어도 하나를 수신하고 상기 사용자 피드백 및 상기 사용자 평가 중 적어도 하나를 기반으로 상기 미디어 색인을 갱신하는 서비스 품질모듈을 더 포함하는 미디어 분류 시스템.