WO2018160007A1

WO2018160007A1 - 멀티미디어 데이터를 처리하는 방법 및 장치

Info

Publication number: WO2018160007A1
Application number: PCT/KR2018/002476
Authority: WO
Inventors: 쉬츄르올렉산드르; 김선경; 야키쉰예브겐
Original assignee: 삼성전자 주식회사
Priority date: 2017-02-28
Filing date: 2018-02-28
Publication date: 2018-09-07
Also published as: US20200028993A1; US10819884B2; EP3575989B1; KR20180099375A; EP3575989A1; KR102431737B1; EP3575989A4

Abstract

본 개시는 멀티미디어 데이터에서 하이라이트 구간을 찾는 방법에 관한 것으로서, 상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱하는 과정과, 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과, 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과, 적어도 하나의 메타데이터 매개변수를 기반으로 상기 멀티미디어 데이터의 하이라이트 구간을 판단하는 과정을 포함한다.

Description

멀티미디어 데이터를 처리하는 방법 및 장치

본 개시의 다양한 실시 예들은 멀티미디어를 처리하는 방법 및 장치에 관한 것이다.

종래에는 사용자가 카세트 테잎이나 컴팩트 디스트(compact disc: CD) 등의 저장 매체를 이용하여 멀티미디어 데이터를 재생하였다. 따라서 사용자가 보거나 들을 수 있는 멀티미디어 데이터는 한정적일 수 밖에 없었다. 하지만 최근에는 휴대폰, MP3 플레이어 등의 전자 기기의 개발로 인해, 사용자는 다수의 멀티미디어 데이터를 전자기기 내에 파일로 저장하여 재생하거나, 인터넷을 통해 실시간으로 재생할 수 있게 되었다. 따라서 사용자는 기존에 비해 좀 더 다양한 방식으로 멀티미디어 데이터를 선택하여 재생할 수 있게 되었다.

음원 제공 사업자들은 사용자들에 의해 음원 파일의 정보가 확인될 수 있도록 제작자, 작곡가, 가수, 장르 등의 메타데이터를 제공한다. 또한 음원 제공 사업자들은 사용자들에게 음원에 대한 미리 듣기 서비스를 제공한다. 하지만 이러한 메타데이터나 미리 듣기 서비스는 사용자가 원하는 음악을 찾는데 도움이 되지 않을 수도 있다.

따라서 사용자로 하여금 음악 트랙 내 가장 중요한 부분, 즉 하이라이트 부분을 들을 수 있게 하는 것이 미리 듣기 서비스에서 가장 중요하다.

도 1은 일반적인 미리 듣기 서비스를 위한 각 음원 트랙 별 재생 구간을 나타낸 도면이다.

도 1을 참조하면, 음원 트랙 1 내지 4는 각각 미리 듣기 서비스를 위한 재생 구간을 포함한다. 음원 트랙 1 내지 4 각각에 포함되는 재생 구간은 재생 시작점(110, 120, 130, 140)과 이에 각각 대응되는 재생 종료점(111, 121, 131, 141)에 의해 정의된다.

재생 시작점(110, 120, 130, 140)은 0초에 위치하거나, 0초가 아닌 특정 시점에 고정적으로 위치할 수 있다.

도 1에 도시된 방법이 사용될 경우, 재생 시작점이 고정되어 있어 음원 트랙의 하이라이트 구간과 미리 듣기 서비스를 위한 재생 구간이 정확하게 대응될 수 없다는 문제가 있다. 예를 들어 재생 시작점이 음원 트랙이 시작된 후 1분이 경과한 시점으로 고정된 경우, 재생 시작점으로부터 미리 설정된 시간 동안 재생되는 음원 트랙의 구간은 하이라이트 구간이 아닐 수도 있다.

음원 트랙에서 하이라이트 구간을 결정하기 위한 다른 방식으로서 음악 데이터 분석을 수행하는 방법이 사용될 수 있다. 이러한 방법이 사용될 경우 하이라이트 구간이 가장 정확하게 제공될 수 있다. 하지만, 멀티미디어 파일은 사용자 장치에서 압축된 형태로 저장되기 때문에, 미리 듣기/하이라이트/미리 보기 부분을 찾을 수 있는 오디오 데이터를 얻기 위해서는 압축된 데이터를 압축 해제해야 한다. 모바일 기기에서는 압축 해제를 위해 추가적인 시간이 요구되므로 상기와 같은 방법을 모바일 기기에서 사용하기에는 적합하지 않다. 예를 들어, 5분의 재생 시간을 갖는 하나의 음원 트랙을 모바일 기기에서 압축 해제를 하기 위해서는 15초의 시간이 필요하기 때문이다.

음원 트랙에서 하이라이트 구간을 결정하기 위한 또 다른 방식으로서 소셜 네트워크 서비스들(social network services: SNS), 클라우드(cloud), 스트리밍(streaming) 음악 서비스 등을 이용하여 사용자들이 직접 음원 트랙의 하이라이트 구간을 지정하는 방법이 사용될 수 있다. 이 경우 하이라이트 구간이 지정되어 있으므로, 하이라이트 구간을 검색할 필요가 없다는 장점이 존재한다. 다만 이러한 방법은 비인기/희귀 음악에 대해서는 하이라이트 구간이 지정되지 않을 가능성이 높으며, 인터넷 연결이 필요하고, 사생활 침해에 대한 문제도 발생할 수 있다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터를 처리하는 방법 및 장치를 제공할 수 있다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 특징 정보를 획득하는 방법 및 장치를 제공할 수 있다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터에서 하이라이트 부분을 빠르게 찾는 방법 및 장치를 제공할 수 있다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터의 템포(tempo) 특성을 획득하는 방법 및 장치를 제공할 수 있다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득하는 방법 및 장치를 제공할 수 있다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터의 하이라이트 부분에 대응되는 썸네일, 상기 멀티미디어 데이터의 오디오 소스에 동기화된 비디오 소스 및 상기 멀티미디어 데이터의 요약 정보 중 적어도 하나를 획득하는 방법 및 장치를 제공할 수 있다.

본 개시의 일 실시 예에 따른 방법은; 멀티미디어 데이터를 처리하는 방법에 있어서, 상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱(parsing)하는 과정과, 상기 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과, 상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과, 상기 적어도 하나의 메타데이터 매개변수를 사용하여 상기 멀티미디어 데이터와 관련된 특징 정보를 획득하는 과정을 포함한다.

본 개시의 일 실시 예에 따른 장치는; 멀티미디어 데이터를 처리하는 장치에 있어서, 상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱(parsing)하는 파싱부와, 상기 적어도 하나의 프레임을 부분적으로 압축 해제하고, 상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하고, 상기 적어도 하나의 메타데이터 매개변수를 사용하여 상기 멀티미디어 데이터와 관련된 특징 정보를 획득하는 제어부를 포함한다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 다양한 특징 정보를 획득할 수 있다.

본 개시의 다양한 실시 예에 따르면, 멀티미디어 데이터의 하이라이트 부분을 기존에 비해 간단하고 빠르게 찾을 수 있다.

본 개시의 다양한 실시 예에 따르면, 음원 프레임의 전체를 압축 해제 하지 않고 음원 프레임의 일부를 압축 해제하므로 하이라이트 부분을 찾는 속도가 빨라진다. 이와 더불어 음원 프레임의 일부를 압축 해제하므로 메모리 소비 용량을 줄일 수 있다.

본 개시의 다양한 실시 예에 따르면, 사용자에 의해 하이라이트 부분이 지정되지 않기 때문에 인기/희귀 정도와 무관하게 모든 음원 파일에서 하이라이트 부분을 찾을 수 있으며, 사생활 침해에 대한 문제도 발생하지 않는다.

도 2는 음압 레벨 측정과 관련하여 일반적으로 사용되는 곡선 그룹을 나타내는 그래프이다.

도 3은 본 개시의 일 실시 예에 따른 멀티미디어 파일에서 하이라이트 구간을 찾는 방법을 나타낸 순서도이다.

도 4a는 프레임 전체를 압축 해제하는 일반적인 과정을 나타낸 도면이다.

도 4b는 본 개시의 일 실시 예에 따른 적어도 하나의 프레임을 부분 압축 해제하는 과정을 나타낸 도면이다.

도 5a는 MP3 프레임의 일반적인 구조를 나타낸 구조도이다.

도 5b는 MP3 프레임의 헤더 필드의 예를 나타낸 도면이다.

도 5c는 본 개시의 일 실시 예에 따른 메타데이터 매개변수를 나타낸 도면이다.

도 6은 본 개시의 일 실시 예에 따른 부분 압축 해제에서 추출된 값들을 표현한 3차원 그래프를 나타낸 도면이다.

도 7a는 전체 압축 해제를 기반으로 하이라이트 구간을 찾기 위해 사용되는 파형도이다.

도 7b는 본 개시의 일 실시 예에 따른 멀티미디어 파일의 부분 압축 해제를 이용하여 하이라이트 구간을 판단하는 과정을 나타낸 도면이다.

도 8a 및 도 8b는 본 개시의 일 실시 예에 따른 멀티미디어 파일에서 하이라이트 구간을 찾는 방법을 모바일 기기에 적용한 예시도이다.

도 8c는 본 개시의 일 실시 예에 따른 하이라이트 구간을 찾는 방법이 적용된 미리 듣기 서비스의 일 예를 나타낸 도면이다.

도 9는 본 개시의 일 실시 예에 따른 멀티미디어 데이터에서 특징 정보를 획득하는 다른 방법을 나타낸 도면이다.

도 10은 본 개시의 일 실시 예에 따른 멀티미디어 데이터에서 특징 정보를 획득하는 또 다른 방법을 나타낸 도면이다.

도 11은 본 개시의 일 실시 예에 따른 디바이스의 내부 구성도이다.

이하 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

본 개시의 다양한 실시 예들은 멀티미디어 데이터를 처리하는 방법 및 장치를 제공한다.

이하에서는 음원 파일(예를 들어, mp3(MPEG(Motion Picture Expert Group)-1 Audio Layer III) 파일)에 포함되는 멀티미디어 데이터를 기반으로 본 개시의 다양한 실시 예들을 설명하기로 한다. 하지만, 멀티미디어 데이터는 음원 파일과 다른 멀티미디어 파일(예를 들어, avi 파일과 같은 동영상 파일)에 포함된 멀티미디어 데이터가 될 수도 있다.

또한, 본 개시의 다양한 실시 예들에 따른 장치는 모바일 기기에 한정되지 않으며, 텔레비젼(television: TV), 스마트 폰, 웨어러블, 사물인터넷(Internet of Things: IoT), 헤드폰 등이 될 수도 있고, 상기 기기들 중 어느 하나를 단말 또는 디바이스로 칭할 수도 있다.

본 개시의 다양한 실시 예에 따르면 멀티미디어 데이터와 관련된 특징 정보가 획득될 수 있다. 하나의 예로서, 멀티미디어 데이터의 하이라이트 부분이 획득될 수 있다.

이에 대한 실시 예를 설명하기에 앞서, 하이라이트 구간의 정의와 음원 레벨 측정과 관련된 표준에서 정의된 곡선 그룹(group of curve)에 대해 살펴보기로 한다.

하이라이트 구간은 멀티미디어 데이터의 미리 보기 또는 미리 듣기 서비스에서 제공되는 해당 멀티미디어 데이터의 특정 부분을 나타내는 것으로서, 멀티미디어 데이터의 내용을 구매자가 직관적으로 알 수 있도록 한다. 하이라이트 구간은 일 예로 멀티미디어 데이터의 특정 구간 내에서 소리가 가장 큰 구간, 또는 소리와 관련된 메타데이터들의 합산 값이 가장 큰 구간을 의미할 수 있다.

대중 음악에 있어 절은 일반적으로 AABB 또는 ABAB 운율 체계로 이루어진다. 노래의 두 개 이상의 섹션이 거의 동일한 곡과 상이한 가사를 갖는 경우, 각 섹션은 하나의 절로 간주된다. 하지만 노래의 도입부는 노래의 시작 절 사이의 간주인 사전 절(pre-verse)과 혼동되어서는 안 된다. 그리고 후렴구는 서정적 또는 음악적으로 표현되는 주요 아이디어 또는 큰 그림을 포함한다. 후렴구는 노래 전체에 걸쳐서 반복되고, 멜로디와 가사는 거의 달라지지 않는다.

대부분의 클래식 음악의 경우, 종결부(coda) 및 정점(culmination)이 가장 대표적인 부분으로 정의될 수 있다. 이는 보통 오케스트라 튜티(tutti: 독주자가 아니라 오케스트라 전체를 나타내는 용어)에 의해 수행된다. 이것은 음악에서 가장 소리가 큰 부분이다.

락/팝/일렉트로닉의 경우, 대부분의 음악은 절-후렴구의 간단한 형태를 갖는다. 여기서, A가 절을 나타내고 B가 후렴구를 나타내는 경우, A와 B의 조합으로 곡 구성이 이루어질 수 있다(일 예로, AABAABABA 등). 보통, B(후렴구)는 A(절)보다 소리가 크다.

경험/환경/노이즈/기타(experimental/ambient/noise/etc) 음악 장르의 경우, 정점은 가장 소리가 크고/가장 빠른 부분(the loudest/quickest part)이 될 수 있다. 변화가 없는 환경 트랙 사운드의 경우, 임의의 부분이 대표적인 부분이 될 수 있다.

대부분의 장르에서, 가장 소리가 큰 구간이 음악의 가장 대표적인 구간인 하이라이트 구간으로서 간주될 수 있다.

도 2는 음압 레벨 측정과 관련하여 일반적으로 사용되는 곡선 그룹을 나타낸 그래프이다.

도 2를 참조하면, 음압 레벨 측정과 관련하여 사용될 수 있는 다양한 가중치의 그래프가 곡선 그룹으로서 정의되어 있다. 사람의 귀는 낮은 오디오 주파수에 덜 민감하기 때문에 사람의 귀로 인식되는 상대적 음량을 계산하기 위해 기기로 측정된 사운드 레벨에 가중치가 적용될 수 있다. 예를 들어, 도 2에 도시된 4가지 가중치 즉, A 가중치, B 가중치, C 가중치, D 가중치 중 A 가중치가 적용될 수 있다.

즉, dB단위로 측정된 음압 레벨에 옥타브 또는 제3 옥타브 대역으로 나열된 값들이 산술적으로 추가되어 적용된다. 도 2의 그래프에서 가로축은 로그 스케일(log scale) 단위를 갖고, 그래프의 세로축은 dB 단위를 갖는다.

이하, 본 개시의 다양한 실시 예들을 도면을 참조하여 상세히 설명한다.

도 3은 본 개시의 일 실시 예에 따른 멀티미디어 데이터를 처리하는 방법을 나타낸 순서도이다.

도 3을 참조하면, 본 개시의 일 실시 예에 따른 멀티미디어 데이터를 처리하는 방법은, 디바이스가 인코딩된 멀티미디어 데이터(또는 멀티미디어 파일)을 적어도 하나의 프레임으로 파싱하는 과정(310)과, 상기 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정(320)과, 상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수(parameter)를 추출하는 과정(330)과, 상기 적어도 하나의 메타데이터 매개변수를 기반으로 멀티미디어 데이터의 특징 정보를 획득하는 과정(340)을 포함한다.

상기 특징 정보를 획득하는 과정은 멀티미디어 데이터에서 하이라이트 부분을 찾는 과정, 멀티미디어 데이터의 템포(tempo) 특성을 획득하는 과정 및 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득하는 과정 등을 포함할 수 있다. 또한, 상기 특징 정보를 획득하는 과정은 멀티미디어 데이터의 하이라이트 부분에 대응되는 썸네일, 상기 멀티미디어 데이터의 오디오 소스에 동기화된 비디오 소스 및 상기 멀티미디어 데이터의 요약 정보 중 적어도 하나를 획득하는 과정 등을 포함할 수 있다.

상기와 같이 인코딩된 멀티미디어 데이터가 적어도 하나의 프레임으로 파싱됨에 따라, 부호에 불과한 스트림으로 이루어진 멀티미디어 데이터는 의미있는 프레임 단위로 구분될 수 있다. 한편, 아래에서 설명하겠지만, 본 개시의 일 실시 예에 따른 방법은 인코딩된 멀티미디어 데이터를 대상으로 할 수 있다.

도 4a를 참조하면, 동기화 및 에러 체크 과정(401)에서 비트스트림으로 전달되는 멀티미디어 데이터가 동기화되고, 비트스트림으로 전달되는 멀티미디어 데이터의 에러 여부가 체크된다. 비트스트림으로 전달되는 멀티미디어 데이터는 허프만 코드 비트들(Huffman code bits), 허프만 정보(Huffman information), 스케일 펙터(scale factor)로 분류될 수 있다.

허프만 코드 비트들, 허프만 정보, 스케일 팩터)는 각각 허프만 디코딩 과정(402), 허프만 정보 디코딩 과정(403), 스케일 펙터 디코딩 과정(404)을 통해 디코딩된다.

재양자화(requantization) 과정(405)에서 디코딩된 데이터의 주파수 라인이 재구성된다. 재정렬(reordering) 과정(406)에서 서브 밴드의 짧은 윈도우를 포함하는 경우에 인코더의 출력 순서에 따라 주파수 라인이 재조립된다. 조인트 스테레오 디코딩 과정(407)에서, 재정렬 과정(406)에서 재조립된 주파수 라인을 기반으로 인코딩된 오디오 신호로부터 좌측 및 우측 오디오 신호를 복원한다. 이에 따라 오디오 신호가 좌측 및 우측 채널들로 분할된다.

좌측 및 우측 채널들로 분할된 오디오 신호 각각은 에일리어스 저감 과정(alias reduction, 408, 409)과, 역변형 이산 코사인 변환(inverse modified discrete cosine transform: IMDCT) 과정(410, 411)과, 주파수 역변환 과정(frequency inversion, 412, 413)과, 조합 다상 필터뱅크 과정(synthesis polyphase filterbank, 414, 415)을 통해 적어도 하나의 프레임 전체가 압축 해제된다.

프레임 전체를 압축 해제하는 과정은 상기와 같은 여러 과정을 거치기 때문에 오랜 시간이 걸린다. 예를 들어, MP3 파일 하나를 압축 해제하는 데에 15초의 시간이 필요하다. 음원 제공 사업자가 제공하는 미리 듣기 서비스에 있어서, MP3 파일 1개당 압축 해제에 필요한 15초는 매우 긴 시간이다. 따라서 이용자들이 미리 듣기 서비스를 제공받는데 기다리는 시간을 없애기 위해 압축 해제에 필요한 시간을 줄일 필요가 있다.

도 4b를 참조하면, 비트스트림으로 전달되는 멀티미디어 데이터는 동기화 및 에러 체크 과정(421)에서 동기화 및 에러가 검출된 뒤, 허프만 정보 디코딩(423)이 수행된다.

구체적으로 동기화 및 에러 체크 과정(421)에서 비트스트림으로 전달되는 멀티미디어 파일에서 특정 정보가 추출될 수 있다. 특정 정보는 헤더 정보(header information), CRC(cyclic redundancy check) 정보, 그리고 부가 정보(side information) 등을 포함할 수 있다.

헤더 정보는 MP3 파일의 타입, 전송에 있어서 비트레이트(bitrate), 샘플링 주파수 중 적어도 하나를 특정하는 정보이고, CRC 정보는 데이터의 무결성을 위한 정보이다. 부가 정보는 스케일 펙터 및 데이터의 디코딩에 필요한 파라미터들을 포함한다. 이에 대한 상세한 설명은 메타데이터 매개변수를 추출하는 과정에서 설명하기로 한다.

도 4b에 나타난 바와 같이, 프레임의 부분 압축 해제는 허프만 정보 디코딩(423)만이 수행될 수 있다. 또는 허프만 정보 디코딩(423) 및 스케일 팩터 디코딩만이 수행될 수도 있다.

따라서 도 4a에 나타난 바와 같은 재양자화 과정 이후의 모든 과정이 수행되지 않더라도 멀티미디어 데이터의 하이라이트 부분 등과 같은 특징 정보가 획득될 수 있다.

도 4a에 따른 멀티미디어 파일을 압축 해제하는 방법은 많은 리소스를 필요로 하며, 많은 시간이 소요된다. 예를 들어 도 4a에 따른 멀티미디어 파일의 전체 압축 해제에 필요한 시간은 276.30초이다. 하지만 동일한 멀티미디어 파일에 도 4b에서 도시된 부분 압축 해제 방법이 사용되는 경우 부분 압축 해제에 3.45초만 필요하다. 결과적으로, 본 개시의 일 실시 예에 따른 부분 압축 해제 과정은 전체 압축 해제 과정의 경우보다 압축 해제 속도가 80배 정도 향상된다.

도 5a는 MP3 프레임의 일반적인 구조를 나타내는 구조도이고, 도 5b는 MP3 프레임의 헤더 구조의 예를 나타낸 예시도이다. 그리고 도 5c는 본 개시의 일 실시 예에 따른 메타데이터 매개변수를 나타내는 도면이다.

본 개시의 일 실시 예에 따른 메타데이터 매개변수를 추출하는 과정을 살펴보기에 앞서, 도 5a 및 도 5b를 참조하여 MP3 프레임의 구조를 간략하게 설명하면 다음과 같다.

도 5a에 도시된 바와 같이, 하나의 MP3 파일은 MP3 헤더(MP3 header) 및 MP3 데이터(MP3 data)를 포함한다. MP3 헤더 및 MP3 데이터는 MP3 파일 내에 다수개가 포함될 수 있다. MP3 파일은 ID3v2 x Metadata와 같은 위치 정보를 포함하는 4바이트의 정보를 메타태그로서 포함하고 있을 수 있다.

하나의 MP3 프레임은 하나의 MP3 헤더 필드와 MP3 데이터 필드를 포함한다. MP3 헤더 필드는 MP3 Sync Word, Version, Layer, Error Protection, Bit Rate, Frequency, Pad. Bit, Priv. Bit, Mode, Mode Extension, Copy, Original, Emphasis 등의 필드를 포함할 수 있다.

도 5b는 도 5a의 MP3 헤더 필드의 예를 나타낸 도면이다.

도 5b에 나타난 바와 같이, MP3 헤더 필드가 FFFBA040의 정보를 가질 때의 의미는 Sync Word version은 MPEG, layer는 Layer3, error protection은 No, Bit rate는 160, Frequency는 44100Hz, Pad bit는 Frame is not padded, Priv Bit는 Unknown, Mode는 Joint Stereo, Mode Extension은 Intensity Stereo off, MS Stereo Off, Copy는 Not Copy righted, Original은 Copy of Original Media, Emphasis는 None을 나타낸다.

본 개시의 다양한 실시 예들에 따른 멀티미디어 데이터의 특징 정보를 획득하는 방법에서는 도 5a에 도시된 모든 필드의 정보가 사용되지 않을 수 있다. 본 개시의 다양한 실시 예들에 따른 멀티미디어 데이터의 특징 정보를 획득하는 방법에서 필요한 정보는 도 5c에 도시된 바와 같다.

메타데이터 매개변수를 추출하는 과정에서 멀티미디어 데이터의 특징 정보(예를 들어, 멀티미디어 데이터의 하이라이트 부분 등)을 획득하기 위해 스케일 펙터들과 부가 정보(side information)가 추출될 수 있다.

MP3 파일을 구성하는 프레임은 크게 5가지의 섹션으로 분할될 수 있다. 5가지 섹션은 헤더(Header), CRC(cyclical redundancy check), 부가 정보(Side Information), 메인 데이터(Main data), 선택적인 보조 데이터(Ancillary data)를 포함할 수 있다.

메인 데이터는 코딩된 오디오 데이터가 될 수 있으며 granule0 필드와 granule1 필드를 포함한다. granule0 필드 및 granule1 필드는 각각 왼쪽 채널(left channel) 필드와 오른쪽 채널(right channel) 필드를 포함한다. 또한 왼쪽 채널 필드와 오른쪽 채널 필드는 각각 스케일 펙터들(scale factors)과 허프만 코드 비트들(Huffman code bits)을 포함한다.

본 개시의 다양한 실시 예에서는 멀티미디어 데이터의 특징 정보를 획득하기 위해, 스케일 펙터들(502)(503)과 부가 정보(503)가 이용될 수 있다. 특히 스케일 펙터들(502)(503)과 부가 정보(501)로부터 메타데이터 시퀀스가 획득될 수 있다.

메타데이터 시퀀스는 일 예로 다음 표 1에 나타난 바와 같이 글로벌 이득(glolbal_gain, 이하 ‘glolbal_gain’이라 칭함) 값들과 서브블록 이득(subblock_gain, 이하 ‘subblock_gain’이라 칭함) 값들의 조합으로 표현될 수 있다.

여기서, global_gain들 및 subblock_gain들의 다차원 어레이들은 왼쪽 및 오른쪽 채널, 제1 및 제2 그래뉼(granule)에 의해 확립된다.

실제 MP3 파일에 대해, 부분 압축 해제에서 추출된 값들을 3차원 그래픽으로 표현하면 도 6에 도시된 바와 같다.

부가 정보는 MP3를 압축 해제하는 데 필요한 고급 필드들이 포함되어 있다. 상술한 예에서는 global_gain 및 subblock gain이 이용되었지만, 시계 열로 도시된 부가 정보는 더 많은 값들을 포함할 수 있다. 즉, 부가 정보는 0-big_values 필드, 1-global_gain 필드, 2-main_data end 필드, 3-part2_3_length 필드, 4-scalefac_compress 필드, 5-지상 검증 자료(전문가가 결정한 메인 테마)를 포함할 수 있다.

적어도 하나의 메타데이터 매개변수에 기반하여 멀티미디어 데이터의 특징 정보를 획득하는 과정에서는 스케일 펙터들과 부가 정보로부터 추출된 메타데이터 시퀀스가 이용될 수 있다.

예를 들어, 스케일 펙터들과 부가 정보로부터 추출된 메타데이터 시퀀스는 멀티미디어 데이터의 하이라이트 구간을 판단하기 위해 사용될 수 있다. 멀티미디어 데이터의 하이라이트 구간을 판단하기 위해 슬라이딩 윈도우(sliding window)를 이용한 합산이 고려될 수 있다.

한편, 본 개시의 다양한 실시 예들에 따른 멀티미디어 파일의 하이라이트 구간을 판단하는 과정을 살펴보기 앞서, 하이라이트 구간을 판단하는데 일반적으로 이용되는 과정을 먼저 살펴보기로 한다.

도 7a는 전체 압축 해제를 기반으로 하이라이트 구간을 찾기 위해 사용되는 파형도이고, 도 7b는 본 개시의 일 실시 예에 따른 멀티미디어 파일의 부분 압축 해제를 이용하여 하이라이트 구간을 판단하는 과정을 나타낸 도면이다.

도 7a에 도시된 파형은 음원 파일이 전체 압축 해제되고 A-가중 곡선이 전체 압축 해제된 음원 파일에 적용된 경우의 파형을 나타내고 있다. 이러한 파형에서 슬라이딩 윈도우를 이용하여 RMS(root mean square)의 합이 최대인 윈도우의 위치가 발견될 수 있다. 도 7a에 도시된 바와 같이, 파형은 특정 부분(710)에서 진폭이 클 수 있다. 하나의 하이라이트 구간을 찾기 위해, 파형의 RMS 값을 계산해서 슬라이딩 윈도우를 이용한 합산 방법이 사용될 수 있다.

하나의 예로서, 시계열로 구성된 RMS 값이 56, 55, 51, 57, 58, 57, 54, 52인 경우를 설명하면 다음과 같다.

슬라이딩 윈도우의 크기가 4인 경우, 첫 번째 합은 56+55+51+57=219가 된다. 그 다음 두 번째 합은 55+51+57+58=221이 된다. 세 번째 합은 223, 네 번째 합은 226, 다섯 번째 합은 221이 된다. 가장 큰 값은 226이며, 이와 관련된 부분이 하이라이트 구간으로 결정될 수 있다.

도 7b를 참조하여, 본 개시의 일 실시 예에 따른 하이라이트 구간 판단 방법에 대해 알아본다.

각 프레임에서 부가 정보, 또는 부가 정보 및 메인 데이터로부터 추출된 시계열로 나열된 메타데이터 매개변수를 이용한다.

우선 슬라이딩 윈도우를 이용하여 누적합을 계산함에 있어서, 슬라이딩 윈도우의 크기는 하이라이트 구간으로 간주하고자 하는 오디오 단편의 길이로 미리 결정될 수 있다. 예를 들어, 전형적인 MP3(MPEG 계층 III, 버전 1)는 프레임 당 1152 샘플을 가지며, 샘플 속도는 보통 44100 Hz이다. 따라서, 프레임 당 (1152 / 44100) * 1000 = 26ms이다. 10초의 하이라이트 지속 시간을 갖고자 하면, 슬라이딩 윈도우의 길이는 10000/26 = 385 값으로 설정되어야 한다.

따라서, 우선 첫 번째 385 개의 RMS 값의 합이 계산되면 슬라이딩 윈도우는 다음 RMS 값을 합산하기 위한 위치로 이동된다. 이어, 첫 번째 385개의 RMS 값의 합에 다음 RMS 값을 추가하고 최초의 RMS 값을 뺀다.

상기와 같은 방법을 기반으로 슬라이딩 윈도우 별 RMS 값의 합이 결정될 수 있으며, 그 중 RMS 값의 누적합 결과값이 최대가 되는 부분이 하이라이트 구간으로 결정된다.

예를 들어, global_gain과 scale_factors의 조합 데이터가 56, 55, 51, 57, 58, 57, 54, 52이고, 슬라이딩 윈도우 크기가 4인 경우를 설명하면 다음과 같다.

첫 번째 슬라이딩 윈도우에 대한 RMS 값들(56, 55, 51, 57)의 합은 56+55+51+57=219가 된다. 그리고 나머지 슬라이딩 윈도우 별 RMS 값들의 합은 순차적으로 221, 223, 226, 221이 된다. 이 중 가장 큰 값은 226으로 4번째 슬라이딩 윈도우의 RMS 값들의 합산 값이며, 4번째 슬라이딩 윈도우의 RMS 값들의 합산 값에 관련된 부분이 하이라이트 구간으로 결정된다.

앞서 살펴본 바와 같이 하이라이트 구간은 소리 크기로 결정될 수 있다. 따라서, 소리 크기와 관련된 인자들만을 이용하는 경우, 전부 압축 해제된 멀티미디어 파일을 이용하는 것과 효과상 크게 차이가 나지 않는다.

즉, 부분적 압축 해제를 통한 메타데이터 매개변수를 이용하여 하이라이트 구간을 계산하는 경우, 하이라이트 구간의 검색 인식의 품질이 84개의 음악 트랙을 갖는 음악 컬렉션에서 단지 2%만 저하되었으나, 속도는 프레임 전체를 압축 해제하는 방법보다 80배 이상 빨라질 수 있다.

한편, 슬라이딩 윈도우를 이용하여 합산 값을 계산할 때 필터링이 적용될 수 있다. 예를 들어, 일부 mp3 파일은 처음 100개의 mp3 프레임에서 global_gain 필드의 극한 값을 갖는 경우가 있다. 따라서 첫 번째 프레임 및/또는 마지막 프레임은 계산에서 제거될 수 있다. 일부 다른 방법으로서 극한 값 등이 필터링될 수도 있다.

도 8a 및 도 8b는 본 개시의 일 실시 예에 따른 멀티미디어 파일에서 하이라이트 구간을 찾는 방법을 모바일 기기에 적용한 예시도이다. 도 8a를 참조하면, 사용자는 호버링(hovering)(810)만으로 MP3 파일의 하이라이트 구간의 음원을 들을 수 있다.

도 8b를 참조하면, 사용자는 특정 음원에 대응되는 하이라이트 구간을 듣는 중에 미리 듣기 다음 버튼(822)을 선택할 수 있다. 이 경우 다음 음원의 하이라이트 구간이 미리 듣기로서 제공될 수 있다. 또한, 사용자가 미리 듣기 이전 버튼(821)을 선택하는 경우, 이전 음원의 하이라이트 구간이 미리 듣기로서 제공될 수 있다.

하나의 음원 별 즉, MP3 파일 별 하이라이트 구간은 1개로 제한되지 않을 수 있다. 하이라이트 구간이 MP3 파일당 1개인 경우 미리 듣기 다음 버튼(822)이 선택된 경우 다음 MP3 파일의 하이라이트 구간이 재생될 수 있다. 하이라이트 구간이 MP3 파일당 2개 이상인 경우 미리 듣기 다음 버튼(822)이 선택된 경우 해당 MP3 파일의 다음 하이라이트 구간이 재생될 수 있다. 사용자는 미리 듣기 온/오프 버튼(820)을 이용하여 미리 듣기 기능의 적용 여부도 결정할 수 있다.

도 8c는 본 개시의 일 실시 예에 따른 하이라이트 구간을 찾는 방법이 적용된 미리 듣기 서비스의 일 예를 나타낸 도면이다. 음원 트랙1 내지 음원 트랙4에서 재생 시작점(841, 851, 861, 871)은 고정되어 있지 않다. 재생 종료점(842, 852, 862, 872)은 재생 시작점(841, 851, 861, 871)으로부터 일정 구간 지난 지점이 될 수 있다. 일정 구간은 미리 설정되거나 다양한 형태로 결정될 수 있다.

도 9에 도시된 바와 같이 관리된 기계 학습 접근 방법이 사용될 수 있다. 학습 단계에서, 모델(930)은 훈련 데이터베이스(전문가에 의해 마크업(markup)된 음악 컬렉션)(910)에서 학습하는 것(920)에 의해 획득된다. 사용 단계에서, 부분적으로 압축 해제된(940) 멀티미디어 데이터는 훈련된 기계 학습 알고리즘에 의해 처리되고(950), 결과로서 멀티미디어 데이터의 특징 정보(일 예로, 하이라이트 구간 등) 획득될 수 있다(960).

부분적 압축 해제 알고리즘에서 추출된 메타데이터 매개변수들로부터 특징 정보를 획득하기 위한 방법들은 동적 시간 워핑(dynamic time warping), 은닉 마코브 모델(hidden markov models), 신경 네트워크(neural networks)(LSTM (long short term memory networks), GRU 등과 같은 회선 또는 반복(convolution or recurrent), 딥 자동인코더(deep autoencoders) 등), 지원 벡터 기계 로지스틱 회귀(support vector machines logistic regression) 등일 수 있지만, 이에 제한되지는 않는다.

도 10을 참조하면, 본 개시의 일 실시 예에서 멀티미디어 데이터의 특징 정보를 획득하기 위해 산술 계산이 이용되지 않고, 멀티미디어 파일의 유사성 분석이 이용될 수 있다. 유사성 분석이란 하나의 파일에서 유사한 부분들을 발견하는 것을 나타낸다. 예를 들어, 팝/댄스 등의 음원의 경우, 노래 구조는 보통 반복 부분(후렴구)을 갖는다. 이러한 이유로, 오디오 신호에서 자체(self-similarity) 유사성을 발견하기 위한 신호 처리 방법들을 적용함으로써, 음원 파일에서 코러스 부분이 추론될 가능성이 있다.

음원 파일에서의 자체 유사성의 일 예이다. 이것은 가공하지 않은 PCM(pulse code modulation) 파일에서 추출된 MFCC(Mel-frequency cepstral coefficients) 특징들이다. 동일한 파일이 시프트 되면서 유사한 단편들이 도시된다.

부분적으로 압축 해제된 데이터에 대해 예를 들어, 허프만 테이블 번호는 MP3 프레임에서 개별적 그래뉼(granule)의 음색 특징에 의존한다.

이와는 다르게, 음원 파일을 기술하는 피처들에 클러스터링이 적용될 수 있다. 클러스터링이 적용될 경우 상이한 사운딩 음원 단편들이 분리될 수 있다. 하이라이트 구간들에 대해, 가장 빈번한 클러스터가 추출을 위해 사용될 수 있다.

한편, 음악 비디오 클립에 대한 VR 하이라이트 검출도 가능하다. 즉, VR에서 음악 비디오 클립을 보는 사용자들을 위한 VR에서의 하이라이트 검출이 가능하다. VR에서 사용자의 상호 작용 가능성은 사용자가 타임 라인에서 검색 작업을 하고 있는 손을 볼 수 없기 때문에 다소 제한될 수 있다.

당업자에게 음악 비디오 파일이 동기화되는 비디오 트랙과 오디오 트랙 모두를 포함하는 것은 명백하다. 오디오 트랙을 분석하고 개시된 방법을 사용하여 하이라이트 구간을 발견함으로써, 비디오 이미지의 하이라이트 구간들은 오디오의 하이라이트들과 동기화된다.

한편 본 개시의 다양한 실시 예에서는 곡의 가장 표현이 풍부한/대표적인 부분을 자동 검출함으로써 벨소리를 추출할 수 있다. 사용자가 음원 파일의 가장 큰 소리 선택으로부터 벨소리를 간단하게 추출할 수 있을 때에 사용될 수 있다.

또한 하나의 디바이스에서 NFC(near field communication)빔(S-빔)을 사용하여 다른 디바이스로 음원 파일을 전달하여, 다른 디바이스에서 음원 미리 듣기를 수행할 수도 있다.

그리고 디바이스는 음원 하이라이트 구간 추출을 기반으로 하는 음악 비디오로부터의 썸네일을 생성할 수 있다. NFC 빔 공유에서 보여진 비디오의 썸네일(thumbnails) 사용 사례는 미리 듣기 음악 사용 사례 및 비디오 썸네일 생성 사용 사례의 조합이다. 사용자는 다른 장치에서 비디오의 하이라이트를 볼 수 있다. 이러한 기능은 개시된 알고리즘의 매우 높은 유효성으로 인해 가능해질 수 있다.

추가적으로, 디바이스는 부분적으로 압축 해제된 프레임으로부터 추출된 메타데이터 매개변수를 사용하여 음원의 템포(tempo) 특성(일 예로, BPM(beats per minute) 정보)을 판단할 수 있다. 예를 들어, 디바이스는 프레임 별 global_gain 값을 기반으로 음원 트랙의 BPM을 판단할 수 있다. 또한, 디바이스는 FFT, 자기 상관, 또는 빈도 분석을 위한 다른 방식을 기반으로 음원의 리듬 특성으로 야기되는 진동의 빈도를 측정하여 BPM을 판단할 수도 있다. 허프먼 코드 테이블 번호, DCT(discrete cosine transform) 계수(coefficients)와 같은 메타데이터 매개변수가 부분적인 압축 해제된 프레임으로부터 추출될 경우, BPM 판단의 정확도는 더욱 증가될 수 있다.

한편, 디바이스는 부분 압축 해제 단계에서 DCT 계수를 추출하고, 상기 추출된 DCT 계수를 기반으로 음원을 구성하는 키를 추출할 수 있다. 이 경우, 디바이스는 앞서 판단된 BPM과 추출된 키를 믹싱하여 연속으로 재생할 수 있다.

디바이스는 부분적으로 압축 해제된 프레임으로부터 추출된 메타데이터 매개변수를 사용하여 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득할 수 있다. 디바이스는 획득된 멀티미디어 핑거프린팅을 기반으로 멀티미디어의 프레임들 또는 멀티미디어 파일들 간 데이터 중복제거를 위한 해쉬 값을 계산할 수 있다. 또한, 디바이스는 획득된 멀티미디어 핑거프린팅을 기반으로 멀티미디어 데이터와 연관된 정보를 검색할 수도 있다.

예를 들어, 사용자가 이름 또는 태그가 없는 멀티미디어 파일을 가지고 있을 경우, 디바이스는 멀티미디어 핑거프린팅을 추출하여 서버로 송신할 수 있다. 그러면, 서버는 멀티미디어 핑거프린팅을 기반으로 데이터베이스에서 이름 및 태그를 검색하고, 검색된 이름 및 태그를 디바이스로 송신한다. 만약 사용자가 파일 1.mp3를 가지고 있을 경우, 파일 1.mp3로부터 멀티미디어 핑거프린팅이 추출되어 서버로 송신되며, 상기 서버로부터 싸이-강남스타일.mp3와 같이 파일에 대한 태그가 수신될 수 있다.

도 11을 참조하면, 본 개시의 일 실시 예에 따른 방법을 수행하는 디바이스(1100) 또는 제어부(1100)는 파싱부(1110), 부분 압축 해제부(1120), 메타 데이터 매개 변수 추출부(1130), 특징 정보 획득부(1140)을 포함한다.

파싱부(1110)는 도 3의 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱하는 과정(310)을 수행한다. 부분 압축 해제부(1120)는 도 3의 적어도 하나의 프레임을 부분 압축 해제하는 과정(320)을 수행한다. 메타 데이터 매개 변수 추출부(1130)는 부분 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타 데이터 매개변수를 추출하는 과정(330)을 수행한다. 특징 정보 획득부(1140)는 도 3의 적어도 하나의 메타 데이터 매개 변수을 기반으로 특징 정보를 획득하는 과정(340)을 수행한다. 구체적인 내용은 도 3에서 설명한 바와 같다.

파싱부(1110), 부분 압축 해제부(1120), 메타 데이터 매개 변수 추출부(1130), 특징 정보 획득부(1140)를 포함하는 제어부는 적어도 하나의 프로세서에 의해 동작될 수 있다.

상기 도 2 내지 도 11에 예시된 도면들은 본 개시의 권리범위를 한정하기 위한 의도가 없음을 유의하여야 한다. 즉, 상기 도 2 내지 도 11에 기재된 모든 구성부, 또는 동작의 단계가 본 개시의 실시를 위한 필수구성요소인 것으로 해석되어서는 안되며, 일부 구성요소 만을 포함하여도 본 개시의 본질을 해치지 않는 범위 내에서 구현될 수 있다.

앞서 설명한 동작들은 PC, 모바일 기기 등의 제어부는 메모리 장치 내에 저장된 프로그램 코드를 프로세서, 제어부, 혹은 중앙 처리 장치(central processing unit: CPU)에 의해 읽어내어 실행함으로써 앞서 설명한 동작들을 실행할 수 있다.

한편 본 개시의 상세한 설명에서는 구체적인 실시 예에 관해 설명하였으나, 본 개시의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 개시의 범위는 설명된 실시 예에 국한되어 정해져서는 안되며 후술하는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

Claims

멀티미디어 데이터를 처리하는 방법에 있어서,

상기 멀티미디어 데이터를 적어도 하나의 프레임으로 파싱(parsing)하는 과정과,

상기 적어도 하나의 프레임을 부분적으로 압축 해제하는 과정과,

상기 부분적으로 압축 해제된 적어도 하나의 프레임으로부터 적어도 하나의 메타데이터 매개변수를 추출하는 과정과,

상기 적어도 하나의 메타데이터 매개변수를 사용하여 상기 멀티미디어 데이터와 관련된 특징 정보를 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
제1항에 있어서,

상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터의 하이라이트 부분을 획득하는 과정을 포함하는 특징으로 하는 멀티미디어 데이터를 처리하는 방법.
제2항에 있어서,

상기 멀티미디어 데이터의 하이라이트 부분을 획득하는 과정은,

미리 결정된 시구간을 갖는 각 슬라이딩 윈도우 내의 적어도 하나의 프레임으로부터 메타데이터 매개변수들을 추출하는 과정과,

상기 각 슬라이딩 윈도우 내의 적어도 하나의 프레임으로부터 추출된 메타데이터 매개변수들을 합산하여 상기 각 슬라이딩 윈도우 별 합산 값을 생성하는 과정과,

상기 각 슬라이딩 윈도우 별 합산 값 중 최대 합산 값에 대응하는 슬라이딩 윈도우에 해당되는 부분을 상기 하이라이트 부분으로 판단하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
제3항에 있어서,

상기 멀티미디어 데이터가 MP3(Motion Picture Expert Group (MPEG)-1 Audio Layer III) 인코딩 방식을 기반으로 인코딩된 멀티미디어 데이터인 경우, 상기 각 슬라이딩 윈도우 내의 적어도 하나의 프레임으로부터 추출된 메타데이터 매개변수들은 해당 프레임의 부가 정보(side information) 및 메인 데이터로부터 추출된 것임을 특징으로 하는 멀티미디어 데이터를 처리하는 방법.
제4항에 있어서,

상기 부가 정보는 글로벌 이득(global_gain) 필드에 포함된 정보이며, 상기 메인 데이터는 스케일 펙터들(scale_factors) 필드에 포함된 정보임을 특징으로 하는 멀티미디어 데이터를 처리하는 방법.
제1항에 있어서,

상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터의 템포(tempo) 특성을 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
제1항에 있어서,

상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터와 관련된 멀티미디어 핑거프린팅(fingerprinting)을 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
제7항에 있어서,

상기 멀티미디어 핑거프린팅을 기반으로 멀티미디어 데이터 중복 제거를 위한 해쉬 값을 계산하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
제7항에 있어서,

상기 멀티미디어 핑거프린팅을 기반으로 상기 멀티미디어 데이터와 연관된 정보를 검색하는 과정을 더 포함하는 멀티미디어 데이터를 처리하는 방법.
제1항에 있어서,

상기 특징 정보를 획득하는 과정은 상기 멀티미디어 데이터의 하이라이트 부분에 대응되는 썸네일, 상기 멀티미디어 데이터의 오디오 소스에 동기화된 비디오 소스 및 상기 멀티미디어 데이터의 요약 정보 중 적어도 하나를 획득하는 과정을 포함하는 멀티미디어 데이터를 처리하는 방법.
멀티미디어 데이터를 처리하는 장치에 있어서, 상기 장치는 제1항 내지 제10항 중 하나를 수행하도록 구성됨을 특징으로 하는 멀티미디어 데이터를 처리하는 장치.