KR20160059131A

KR20160059131A - 가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램

Info

Publication number: KR20160059131A
Application number: KR1020140160581A
Authority: KR
Inventors: 진장호; 유영준; 송명석
Original assignee: 삼성전자주식회사
Priority date: 2014-11-18
Filing date: 2014-11-18
Publication date: 2016-05-26
Also published as: RU2017117667A; CN105611400B; US20160140224A1; CN105611400A; KR102255152B1; US9910919B2; WO2016080660A1; EP3023892A1; BR112017009445A2

Abstract

컨텐츠 처리 장치가 개시된다. 본 컨텐츠 처리 장치는 컨텐츠를 수신하는 수신부, 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출하는 오디오 처리부, 오디오 신호에서 음악이 차지하는 비율에 기초하여 오디오 신호 내에서 특징 구간을 결정하고, 특징 구간을 포함하는 세그먼트를 검출하는 프로세서, 및, 세그먼트를 음악 인식 서버로 전송하는 통신부를 포함하며, 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정된다.

Description

가변적인 크기의 세그먼트를 전송하는 컨텐츠 처리 장치와 그 방법 및 그 방법을 실행하기 위한 컴퓨터 프로그램 {CONTENTS PROCESSING DEVICE AND METHOD FOR TRANSMITTING SEGMENTS OF VARIABLE SIZE AND COMPUTER-READABLE RECORDING MEDIUM}

본 발명은 컨텐츠 처리 장치와 그 세그먼트 전송 방법에 관한 것으로, 보다 상세하게는, 음악 인식을 위해 컨텐츠에 포함된 오디오 신호 내에서 가변적인 크기의 세그먼트를 생성하여 전송하는 컨텐츠 처리 장치와 그 세그먼트 전송 방법에 관한 것이다.

멀티미디어 컨텐츠는 비디오, 오디오 스트림으로 분리될 수 있으며, 그 중 오디오 스트림은 일반적으로 Music, Speech, 기타 성분이 합쳐진 오디오 데이터로 볼 수 있다.

오디오 스트림에 포함된 음악 정보를 검색하기 위해서는, 음악 검색 장치는 오디오 데이터를 인식 서버로 보내고 인식 서버에서 오디오의 주파수 특성을 분석하여 음악의 정보를 찾는 작업을 처리한다. 검색된 음악 정보는 음악 검색 장치에게 전달되어서 사용자에게 제공될 수 있다. 일반적으로 컨텐츠의 스트림은 Music, Speech, 기타 Noise 등이 섞여 있는 오디오 데이터로 볼 수 있다. 이 중에서 검색하고자 하는 음악 구간 은 사용자의 선택 또는 장비의 구간 분리에 의존하여 결정될 수 있다. 사용자의 선택에 의한 결정은, 음악이 재생되고 있는 상태에서 사용자가 장비를 조작해서 구간의 시작과 끝을 정해주는 방식이다. 하지만 이 방법은 사용자가 정확한 구간을 선택하지 못하면 실제로 자신이 원하는 구간을 검색하기 어렵다는 단점이 있다. 또한, 사용자가 선택한 구간이 길면, 그 오디오 데이터의 크기만큼 네트워크 트래픽이 발생하게 된다.

구간 분리 방식으로 분류하는 경우, 장비는, 오디오 스트림을 실시간으로 모니터링하고 특성을 분석해서 음악 구간을 분리한 후, 이 구간의 오디오 데이터를 서버로 전송한다. 이 때 오디오 구간의 특성에 따라서 인식 성능은 영향을 받게 된다.

이렇게 오디오의 구간을 나누는 방식에 따라서 인식 결과의 정확성 및 시스템 리소스, 네트워크 트래픽 소모량이 차이가 발생한다.

즉, 서버로 보내는 오디오 구간 데이터의 크기는 네트워크 트래픽의 양을 결정하므로, 클라이언트 장치의 음악 구간 분류 작업을 거친 후 오디오 구간 데이터를 그대로 서버로 전송할 경우, 과도한 트래픽으로 인한 데이터 비용을 증가시키게 되며, 장치의 CPU, 배터리 등의 리소스를 소모하게 된다.

본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은 음악 인식을 위해 컨텐츠에 포함된 오디오 신호 내에서 가변적인 크기의 세그먼트를 생성하여 전송하는 컨텐츠 처리 장치와 그 세그먼트 전송 방법 및 기록 매체에 저장된 컴퓨터 프로그램에 관한 것이다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 컨텐츠 처리 장치는, 상기 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출하는 오디오 처리부, 오디오 신호에서 음악이 차지하는 비율에 기초하여 상기 오디오 신호 내에서 특징 구간을 결정하고, 상기 특징 구간을 포함하는 세그먼트를 검출하는 프로세서, 및, 상기 세그먼트를 음악 인식 서버로 전송하는 통신부를 포함하며, 상기 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정된다.

이 경우, 상기 프로세서는, 상기 오디오 신호에서 음악이 차지하는 비율을 산출하고, 상기 오디오 신호에서 음악이 차지하는 비율이 기 설정된 임계치 이상인 적어도 하나의 오디오 구간을 상기 특징 구간으로 결정하며, 상기 특징 구간의 시작 시점 및 종료 시점을 라벨링하여 상기 세그먼트를 생성할 수 있다.

이 경우, 상기 프로세서는, 상기 세그먼트의 크기가 상기 임계 범위 미만이면 인접 세그먼트와 통합하고, 상기 세그먼트의 크기가 상기 임계 범위를 초과하면 상기 세그먼트를 복수 개로 분할할 수 있다.

한편, 상기 프로세서는, 상기 세그먼트가 복수 개이면 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 상기 인식 서버로 전송하도록 상기 통신부를 제어할 수 있다.

이 경우, 상기 프로세서는, 하나의 세그먼트 그룹을 상기 인식 서버로 전송한 이후에, 상기 통신부를 통해 상기 인식 서버로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 상기 인식 서버로 전송하고, 상기 인식 서버로부터 음악 인식 완료 신호가 수신되면, 상기 후속 세그먼트 그룹을 미전송할 수 있다.

한편, 본 컨텐츠 처리 장치는, 상기 인식 서버로부터 상기 세그먼트에 의해 인식된 음악 정보가 전송되면, 상기 음악 정보를 저장하는 저장부, 및, 상기 음악 정보를 디스플레이하는 디스플레이부를 더 포함할 수 있다.

한편, 상기 프로세서는, 상기 세그먼트가 복수 개로 생성되면, 복수의 세그먼트에 대해서 상기 오디오 신호에서 음악이 차지하는 비율이 높은 순서로 우선 순위를 할당하고, 상기 우선 순위에 따라 상기 복수의 세그먼트를 순차적으로 상기 인식 서버로 전송할 수 있다.

이 경우, 상기 프로세서는, 기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 상기 우선 순위를 할당할 수 있다.

한편, 상기 오디오 신호에서 음악이 차지하는 비율은, 뮤직 스코어 / (노이즈 스코어 + 스피치 스코어 + 기타 스코어)의 공식으로 계산될 수 있다.

한편, 본 실시예에 따른 컨텐츠 처리 장치의 세그먼트 전송 방법은, 컨텐츠를 수신하는 단계, 상기 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출하는 단계, 오디오 신호에서 음악이 차지하는 비율에 기초하여 상기 오디오 신호 내에서 특징 구간을 결정하고, 상기 특징 구간을 포함하는 세그먼트를 검출하는 단계, 및, 상기 세그먼트를 음악 인식 서버로 전송하는 단계;를 포함하며, 상기 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정된다.

이 경우, 상기 세그먼트를 생성하는 단계는, 상기 오디오 신호에서 음악이 차지하는 비율을 산출하고, 상기 오디오 신호에서 음악이 차지하는 비율이 기 설정된 임계치 이상인 적어도 하나의 오디오 구간을 상기 특징 구간으로 결정하며, 상기 특징 구간의 시작 시점 및 종료 시점을 라벨링하여 상기 세그먼트를 생성할 수 있다.

이 경우, 본 세그먼트 전송 방법은, 상기 세그먼트의 크기가 상기 임계 범위 미만이면 인접 세그먼트와 통합하고, 상기 세그먼트의 크기가 상기 임계 범위를 초과하면 상기 세그먼트를 복수 개로 분할하는 단계를 더 포함할 수 있다.

한편, 상기 세그먼트를 음악 인식 서버로 전송하는 단계는, 상기 세그먼트가 복수 개이면 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 상기 인식 서버로 전송할 수 있다.

이 경우, 상기 세그먼트를 음악 인식 서버로 전송하는 단계는, 하나의 세그먼트 그룹을 상기 인식 서버로 전송한 이후에, 상기 인식 서버로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 상기 인식 서버로 전송하고, 상기 인식 서버로부터 음악 인식 완료 신호가 수신되면, 상기 후속 세그먼트 그룹을 미전송할 수 있다.

한편, 본 세그먼트 전송 방법은, 상기 인식 서버로부터 상기 세그먼트에 의해 인식된 음악 정보가 전송되면, 상기 음악 정보를 저장하는 단계, 및, 상기 음악 정보를 디스플레이하는 단계를 더 포함할 수 있다.

한편, 본 세그먼트 전송 방법은, 상기 세그먼트가 복수 개로 생성되면, 복수의 세그먼트에 대해서 상기 오디오 신호에서 음악이 차지하는 비율이 높은 순서로 우선 순위를 할당하는 단계;를 더 포함하고, 상기 전송하는 단계는, 상기 우선 순위에 따라 상기 복수의 세그먼트를 순차적으로 상기 인식 서버로 전송할 수 있다.

이 경우, 상기 우선 순위를 할당하는 단계는, 기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 상기 우선 순위를 할당할 수 있다.

한편, 컨텐츠 처리 방법을 실행하기 위한 프로그램을 포함하는 비일시적 컴퓨터 판독 가능 매체에 있어서, 상기 컨텐츠 처리 방법은, 컨텐츠를 수신하는 단계, 상기 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출하는 단계, 오디오 신호에서 음악이 차지하는 비율에 기초하여 상기 오디오 신호 내에서 특징 구간을 결정하고, 상기 특징 구간을 포함하는 세그먼트를 검출하는 단계, 및, 상기 세그먼트를 음악 인식 서버로 전송하는 단계;를 포함하며, 상기 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정된다.

도 1은 본 발명의 일 실시 예에 따른 음악 인식 시스템을 나타내는 도면,
도 2는 본 발명의 일 실시 예에 따른 컨텐츠 처리 장치의 구성을 나타낸 블럭도,
도 3은 본 발명의 일 실시 예에 따른 컨텐츠 처리 장치의 소프트웨어 구성을 나타내는 도면,
도 4는 본 발명의 일 실시 예에 따른 오디오 데이터의 세그먼트를 생성하는 방법을 나타내는 도면,
도 5는 본 발명의 일 실시 예에 따른 세그먼트의 구성을 도시한 도면,
도 6은 본 발명의 일 실시 예에 따른 세그먼트의 우선 순위를 할당하는 방법을 나타내는 도면,
도 7a 및 도 7b는 본 발명의 일 실시 예에 따른 세그먼트의 통합 및 분할 방법을 나타내는 도면,
도 8은 본 발명의 일 실시 예에 따른 세그먼트를 그룹화하여 재배열하는 방법을 나타내는 도면,
도 9및 도 10은 본 발명의 일 실시 예에 따른 세그먼트에 우선순위를 할당하는 방법을 나타내는 도면,
도 11은 본 발명의 일 실시 예에 따른 세그먼트를 기 설정된 주기로 분할하는 방법을 도시한 도면,
도 12는 본 발명의 일 실시 예에 따른 컨텐츠 처리 장치의 구성을 TV의 예를 들어 나타낸 블록도,
도 13a 내지 13e는 본 발명의 일 실시 예에 따른 컨텐츠 처리 장치의 음악 정보 표시 화면을 나타내는 도면,
도 14는 음악 정보가 컨텐츠 처리장치에 연결된 외부 장치에 표시되는 것을 나타내는 도면,
도 15는 본 발명의 일 실시 예에 따른 컨텐츠 처리 방법을 설명하기 위한 흐름도이다.

이하에서, 첨부된 도면을 이용하여 본 발명에 대하여 구체적으로 설명한다.

도 1은 본 발명의 일 실시 예에 따른 음악 인식 시스템을 나타내는 도면이다. 도 1을 참고하면, 음악 인식 시스템(10)은 컨텐츠 처리 장치(100) 및 음악 인식 서버(200)을 포함한다.

컨텐츠가 재생되는 경우, 사용자는 현재 재생중인 음악의 음악 정보가 필요한 경우가 있다. 여기서 음악 정보란 음악의 제목, 앨범명, 제작자, 작곡자, 작사자, 가수, 재생시간, 발매일, 기타 음악 정보를 포함할 수 있다.

사용자에게 음악 정보를 제공하기 위해, 컨텐츠 처리 장치(100)는 현재 재생되고 있는 컨텐츠의 오디오 신호로부터 특징 구간을 결정하고, 특징 구간을 포함하는 세그먼트를 생성하여 음악 인식 서버(200)로 전송한다. 이 경우, 컨텐츠 처리 장치(100)는 인터넷, 케이블 또는 위성 등과 같은 네트워크를 통해 음악 인식 서버(200)와 통신할 수 있다.

여기서 컨텐츠 처리 장치(100)는 네트워크와 방송, 마이크를 통해 오디오 스트림을 수집 / 재생할 수 있는 장치, 예를 들어, TV, 라디오, 휴대폰, 컴퓨터, MP3 player 등일 수 있다. 컨텐츠 처리 장치(100)의 구체적인 구성 및 동작에 대해서는 도 2를 참고하여 후술한다.

음악 인식 서버(200)는 세그먼트가 수신되면, 이 세그먼트의 오디오의 주파수 특성을 분석하여 음악의 정보를 찾는 작업을 처리한다. 처리 결과, 세그먼트와 매칭되는 음악이 발견되면, 음악 정보를 컨텐츠 처리 장치(100)으로 전송한다.

여기서 음악 인식 서버(200)는 사용자에게 음악 인식 서비스를 제공하기 위한 서버가 될 수 있다.

컨텐츠 처리 장치(100)는 음악 인식 서버(200)로부터 음악 정보를 수신하면 이 정보를 디스플레이부를 통해서 사용자에게 제공할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 컨텐츠 처리 장치의 구성을 나타낸 블록도이다.

도 2를 참고하면, 컨텐츠 처리 장치(100)는, 수신부(110), 오디오 처리부(120), 프로세서 (130) 및 통신부(140)을 포함한다.

수신부(110)는 컨텐츠 제공자로부터 컨텐츠를 수신한다. 컨텐츠는 오디오 데이터일 수 있으며, 비디오 데이터와 오디오 데이터를 모두 포함할 수 있다. 컨텐츠 제공자는, 공중파 방송사, 케이블 방송사, IPTV 방송사, Vod 시스템 등이 될 수 있다. 그러나, 이에 한정되지 않으며, 오디오 데이터를 포함하는 컨텐츠를 제공하는 서버 또는 시스템 등이 더 포함될 수 있다.

오디오 처리부(120)는 방송 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출한다. 또한, 오디오 처리부(120)는 디코딩된 오디오 신호를 재생하여 스피커부(미도시) 를 이용하여 출력할 수 있다.

프로세서(130)는 일반적으로 장치의 제어를 담당하는 구성으로, 중앙처리장치, 마이크로 프로세서, 제어부 등과 혼용될 수 있으며, 장치의 전반적인 동작을 제어할 수 있도록 하는 것으로 오디오 처리부(120), 통신부(140) 등 다른 기능부분과 결합되어 단일칩 시스템(System-on-a-chip 또는 System on chip, SOC, SoC)으로 구현될 수 있다.구체적으로, 프로세서(130)는 SNR에 기초하여 오디오 신호 내에서 특징 구간을 결정하고, 특징 구간을 포함하는 세그먼트를 검출한다. 더욱 구체적으로, 프로세서(130)는 오디오 처리부(120)에서 추출되는 오디오 신호를 오디오 데이터(PCM) 형태로 수신하여 저장하고, SNR에 기초하여 오디오 데이터를 분석함으로써 오디오 신호 내에서 특징 구간을 결정하고, 특징구간을 포함하는 세그먼트를 검출할 수 있다.

이 경우 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정될 수 있다. 여기서 SNR이란 오디오 신호에서 음악이 차지하는 비율을 의미하는 것으로, 구체적인 산출 방법은 도 4에서 후술한다.

또한, 프로세서(130)는 오디오 신호의 SNR을 산출하고, SNR이 기 설정된 임계 치 이상인 적어도 하나의 오디오 구간을 특징 구간으로 결정하며, 특징 구간의 시작 시점 및 종료 시점을 라벨링하여 세그먼트를 생성할 수 있다.

구체적으로, 프로세서(130)는 오디오 처리부에서 추출되는 오디오 신호를 오디오 데이터(PCM) 형태로 수신하여 저장하고, SNR에 기초하여 오디오 데이터를 분석함으로써 오디오 신호의 SNR이 기 설정된 임계 치 이상인 구간을 특징 구간으로 결정하여 이 구간에 해당하는 오디오 데이터의 세그먼트를 검출할 수 있다.

또한, 프로세서(130)는 특징 구간의 시작 시점 및 종료 시점을 라벨링하여 세그먼트를 생성하기 때문에, 라벨링된 시작 시점 및 종료 시점 정보를 이용하여 세그먼트의 크기를 측정할 수 있다.

또한, 프로세서(130)는 세그먼트의 크기가 임계 범위 미만이면 인접 세그먼트와 통합하고, 세그먼트의 크기가 임계 범위를 초과하면 세그먼트를 복수 개로 분할할 수 있다.

구체적으로, 프로세서(130)는 세그먼트에 라벨링된 시작 시점 및 종료 시점을 이용하여 세그먼트의 크기를 측정하고, 측정된 세그먼트의 크기와 임계 범위를 비교하여 세그먼트의 크기가 임계 범위 미만이면 세그먼트의 크기가 임계 범위 내로 되도록 인접한 세그먼트와 통합하고, 세그먼트의 크기가 임계 범위를 초과하면 세그먼트의 크기가 임계 범위 내로 되도록 세그먼트를 복수 개로 분할할 수 있다.

여기서 임계 범위란, 최소 임계 값 이상, 최대 임계 값 이하의 값으로, 최소 임계 값은 세그먼트가 음악 인식 서버에서 인식되기 위한 세그먼트의 최소 크기를 의미하고, 최대 임계 값은 네트워크 트래픽 및 리소스 낭비를 막기 위해 제한된 세그먼트의 크기를 의미한다. 구체적인 세그먼트의 통합 및 분할 방법은 도 7a 내지 도 7b에서 후술한다.

한편, 프로세서(130)는 세그먼트가 복수 개로 생성되면 생성된 복수 개의 세그먼트에 대해서 SNR이 높은 순서대로 우선 순위를 할당하고, 우선 순위에 따라 통신부(140)를 통해 복수의 세그먼트를 순차적으로 음악 인식 서버에 전송할 수 있다.

구체적으로, 프로세서(130)는 특징 구간의 컨피던스 스코어를 라벨링한 세그먼트를 생성하고, 컨피던스 스코어를 이용하여 각 세그먼트의 SNR 을 산출하고 SNR이 높은 순서대로 세그먼트를 재배열하여 통신부(140)를 통해 음악 인식 서버로 전송할 수 있다.

여기서 컨피던스 스코어는, 뮤직, 노이즈, 스피치, 기타 신호 각각의 크기를 뮤직, 노이즈, 스피치, 기타 신호 각각의 점수로써 산출한 값을 의미한다. 즉, 컨피던스 스코어는 입력 오디오 신호에서 MFCC(Mel Frequency Cepstral Coefficient), LPC(Linear Predictive Coding), Zero-cross, pitch 등의 특징 벡터를 결정하고, 이들 특징 벡터를 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model) 등의 확률모델에 대입하여, 뮤직, 노이즈, 스피치, 기타 신호 각각에 대한 확률 값으로써 산출될 수 있다.

또한 각 세그먼트의 SNR은 컨피던스 스코어를 이용하여 뮤직 스코어 / (노이즈 스코어 + 스피치 스코어 + 기타 스코어)의 공식으로 계산될 수 있다. 여기서 오디오에 뮤직과 함께 보컬 신호가 포함되어 있는 경우, 보컬 신호는 스피치로써 분류되어 SNR을 산출하는데 이용된다.

이 경우, 프로세서(130)는 기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 우선 순위를 할당할 수 있다.

구체적으로, 프로세서(130)는 음악이 계속적으로 재생이 되어 세그먼트가 계속적으로 생성이 되는 경우, 음악의 재생이 완료되기 이전이라도 기 설정된 개수의 세그먼트가 생성되면, 생성된 세그먼트들 만으로 우선 순위를 할당할 수 있다.

예를 들어, 프로세서(130)는 음악이 계속적으로 재생이 되면서 총 30개의 세그먼트가 생성될 경우에도, 기 설정된 개수인 10개의 세그먼트가 생성되면, 생성된 10개의 세그먼트 안에서 SNR이 높은 순서대로 우선 순위를 할당하고 세그먼트를 재배열하여 음악 인식 서버로 전송할 수 있다.

한편, 프로세서(130)는 세그먼트를 음악 인식 서버로 전송하도록 통신부(140)를 제어한다. 구체적으로, 프로세서(130)는 SNR에 기초하여 오디오 신호 내에서 특징 구간을 결정하고, 특징 구간을 포함하는 세그먼트를 검출하면, 세그먼트를 통신부(140)을 통해 음악 인식 서버로 전송할 수 있다.

또한, 프로세서(130)는 세그먼트가 복수 개인 경우, 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 음악 인식 서버로 전송하도록 통신부(140)을 제어할 수 있다.

구체적으로, 프로세서(130)는 세그먼트를 하나씩 순차적으로 음악 인식 서버로 전송할 수도 있지만, 복수개의 세그먼트를 그룹핑하여 음악 인식 서버로 전송할 수 있다. 예를 들어 프로세서(130)는 기 설정된 개수가 5개인 경우, 세그먼트가 5개 생성되면 생성된 5개의 세그먼트를 그룹핑하여 음악 인식 서버로 전송하고, 후속하여 세그먼트가 5개 생성되면 후속하여 생성된 5개의 세그먼트를 그룹핑하여 음악 인식 서버로 전송하는 방법으로, 그룹 단위로 단계적으로 세그먼트를 전송할 수 있다.

이 경우, 프로세서(130)는 하나의 세그먼트 그룹을 음악 인식 서버로 전송한 이후 통신부(140)를 통해 음악 인식 서버로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 음악 인식 서버로 전송할 수 있다. 예를 들어, 프로세서(130)는 생성된 5개의 세그먼트를 그룹핑하여 음악 인식 서버로 전송하고, 후속하는 5개의 세그먼트의 그룹을 전송하지 않고 대기하고 있다가, 음악 인식 서버로부터 음악 인식 실패 신호가 수신되면 후속하는 5개의 세그먼트 그룹을 음악 인식 서버로 전송할 수 있다.

또한, 프로세서(130)는 하나의 세그먼트 그룹을 음악 인식 서버로 전송한 이후 통신부(140)을 통해 음악 인식 서버로부터 음악 인식 완료 신호가 수신되면, 후속 세그먼트 그룹을 미 전송할 수 있다. 예를 들어, 프로세서(130)는 생성된 5개의 세그먼트를 그룹핑하여 음악 인식 서버로 전송하고, 후속하는 5개의 세그먼트의 그룹을 전송하지 않고 대기하고 있다가, 음악 인식 서버로부터 음악 인식 완료 신호 또는 인식된 음악에 대한 음악 정보가 수신되면 후속하는 5개의 세그먼트 그룹을 음악 인식 서버로 전송하지 않을 수 있다. 여기서 음악 인식 완료 신호는 음악 인식 서버(200)이 음악 인식을 완료했음을 알리는 신호이며, 프로세서(130)는 인식이 완료된 음악에 대한 음악 정보 역시 음악 인식 완료 신호로써 해석할 수 있다.

한편, 프로세서(130)는 음악 인식 서버로부터 세그먼트에 의해 인식된 음악 정보가 전송되면 음악 정보를 저장하도록 제어할 수 있다. 구체적으로, 음악 인식 서버로부터 세그먼트에 의해 인식된 음악 정보가 전송되면, 이 음악 정보를 리스트화해서 저장부(미도시)에 저장할 수 있다.

한편, 프로세서(130)는 음악 정보가 디스플레이부(미도시)에 디스플레이 되도록 제어할 수 있다. 구체적으로, 음악 인식 서버로부터 세그먼트에 의해 인식된 음악 정보가 통신부(140)를 통해 전송되면, 이 음악 정보를 리스트화해서 저장부(미도시)에 저장하고, 자동으로, 또는 사용자 조작이 있을 경우 저장된 음악 정보가 디스플레이부(미도시)에 디스플레이 되도록 제어할 수 있다.

통신부(140)는 음악 인식 서버(200)와 통신을 수행하는 역할을 한다. 여기서 통신부(140)는 인터넷, 케이블 또는 위성 등과 같은 네트워크를 통해 음악 인식 서버와 통신할 수 있다.

도 3은 본 발명의 일 실시 예에 따른 컨텐츠 처리 장치의 소프트웨어 구성을 나타내는 도면이다.

프로세서(130)는 CPU(131), 컨텐츠 처리 장치(100)의 제어를 위한 제어 프로그램이 저장된 롬(132, ROM) 및 컨텐츠 처리 장치(100)에서 수행되는 작업을 위한 기억영역으로 사용되는 램(133, RAM)을 포함할 수 있다.

저장부(180)는 오디오 데이터 수신 모듈(181), 오디오 구간 분류 모듈(182), 우선 순위 결정 모듈(183), 세그먼트 재배열 모듈(184) 등과 같은 각종 소프트웨어 모듈을 포함할 수 있다.

오디오 데이터 수신 모듈(181)은 오디오 처리부(120)에서 추출되는 오디오 신호를 오디오 데이터(PCM)의 형태로 수신하여 저장할 수 있다. 이 경우, 수신된 오디오 데이터를 컨텐츠 처리 장치(100)의 저장부(180)에 저장할 수 있다.

오디오 구간 분류 모듈(182)은 SNR에 기초하여 특징 구간을 결정하고 오디오 데이터로부터 특징구간을 포함하는 세그먼트를 생성할 수 있다.

구체적으로, 오디오 구간 분류 모듈(182)은 SNR에 기초하여 오디오 데이터를 분석함으로써 오디오 신호의 SNR이 기 설정된 임계 치 이상인 구간을 특징 구간으로 결정하여 이 구간에 해당하는 오디오 데이터의 세그먼트를 검출할 수 있다.

이 경우 오디오 구간 분류 모듈(182)은 세그먼트의 크기를 기 설정된 임계 범위 이내에서 가변적으로 결정할 수 있다. 또한, 오디오 구간 분류 모듈(182)은 특징 구간의 시작 시점 및 종료 시점을 라벨링하여 세그먼트를 생성하기 때문에, 라벨링된 시작 시점 및 종료 시점 정보를 이용하여 세그먼트의 크기를 측정할 수 있다.

또한, 오디오 구간 분류 모듈(182)은 컨피던스 스코어(뮤직 스코어, 노이즈 스코어, 스피치 스코어, 기타 스코어)를 라벨링할 수 있고, 컨피턴스 스코어를 분석하여 세그먼트의 종류(순수 뮤직, 뮤직+보이스/노이즈/스피치)를 라벨링할 수 있다.

한편, 오디오 구간 분류 모듈(182)은 SNR을 뮤직 스코어 / (노이즈 스코어 + 스피치 스코어 + 기타 스코어)의 공식으로 산출할 수 있다.

우선 순위 결정 모듈(183)은 세그먼트에 라벨링된 시작 시점 및 종료 시점을 이용하여 세그먼트의 크기를 측정하고, 측정된 세그먼트의 크기와 임계 범위를 비교하여 세그먼트의 크기가 임계 범위 미만이면 세그먼트의 크기가 임계 범위 내로 되도록 인접한 세그먼트와 통합하고, 세그먼트의 크기가 임계 범위를 초과하면 세그먼트의 크기가 임계 범위 내로 되도록 세그먼트를 복수 개로 분할할 수 있다.

또한, 우선 순위 결정 모듈(183)은 세그먼트가 복수 개로 생성되면 복수의 세그먼트에 대해서 SNR이 높은 순서대로 우선 순위를 할당할 수 있다. 구체적으로, 우선 순위 결정 모듈(183)은 세그먼트에 라벨링된 컨피던스 스코어를 이용하여 각 세그먼트의 SNR 을 산출하고 SNR이 높은 순서대로 우선 순위를 할당할 수 있다.

또한, 우선 순위 결정 모듈(183)은 기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 우선 순위를 할당할 수 있다. 구체적으로, 음악이 계속적으로 재생이 되어 세그먼트가 계속적으로 생성이 되는 경우, 하나의 음악의 재생이 완료되기 이전이라도 기 설정된 개수의 세그먼트가 생성되면, 생성된 세그먼트들 만으로 우선 순위를 할당할 수 있다.

세그먼트 재배열 모듈(184)은 세그먼트가 복수 개인 경우, 우선순위에 따라 서버에 전송하기 위한 순서로 세그먼트를 재배열할 수 있다. 이 경우 세그먼트들을 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 음악 인식 서버로 전송하도록 통신부(140)을 제어할 수 있다. 즉, 세그먼트 재배열 모듈(184)은 세그먼트를 하나씩 순차적으로 음악 인식 서버로 전송할 수도 있지만, 복수개의 세그먼트를 그룹핑하여 음악 인식 서버로 전송할 수 있다.

이 경우, 세그먼트 재배열 모듈(184)은 하나의 세그먼트 그룹을 음악 인식 서버로 전송한 이후 통신부(140)을 통해 음악 인식 서버로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 음악 인식 서버로 전송할 수 있다.

또한, 세그먼트 재배열 모듈(184)은 하나의 세그먼트 그룹을 음악 인식 서버로 전송한 이후 통신부(160)을 통해 음악 인식 서버로부터 음악 인식 완료 신호 또는 음악 정보가 수신되면, 후속 세그먼트 그룹을 미 전송할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 오디오 데이터의 세그먼트를 생성하는 방법을 나타내는 도면이다.

도 4를 참고하면, 도 4의 그래프의 가로축은 오디오 신호가 재생되는 시간을 의미하고, 세로축은 노이즈, 스피치, 음악 신호의 진폭을 의미한다. 프로세서(130)는 오디오 신호를 모니터링 함으로써 뮤직 스코어, 노이즈 스코어, 스피치 스코어 및 기타 스코어를 산출하고, 뮤직 스코어 / (노이즈 스코어 + 스피치 스코어 + 기타 스코어)의 공식으로 SNR을 산출할 수 있다.

한편, 프로세서(130)는 SNR을 뮤직 스코어 / (노이즈 스코어 + 스피치 스코어 + 기타 스코어)의 공식으로 산출할 수 있다.

도 4에서 구간 T1은 오디오 신호에 음악이 포함되지 않은 구간이다. 즉, 음악 없이 스피치, 노이즈 또는 기타 신호가 포함된 구간으로, 이 구간에서의 SNR 값은 기 설정된 임계 치 미만의 값이다. 따라서 프로세서(130)는 이 구간에서의 세그먼트를 검출하지 않는다.

구간 T2는 오디오 신호에 음악이 포함된 구간이다. 이 경우, SNR의 크기가 기 설정된 임계 치를 초과하는 바, 프로세서(130)는 구간 T2를 특징구간으로 하여 이 특징구간을 포함하는 세그먼트를 생성할 수 있다. 또한, 프로세서(130)는 세그먼트에 시작 시점(10초), 끝 시점(12초), 오디오의 종류(순수 뮤직), 컨피던스(뮤직 스코어, 노이즈 스코어, 스피치 스코어, 기타 스코어)를 라벨링 할 수 있다.

구간 T3는 오디오 신호에 음악이 포함된 구간이다. 이 경우, SNR의 크기가 기 설정된 임계 치를 초과하는 바, 프로세서(130)는 구간 T3를 특징구간으로 하여 이 특징구간을 포함하는 세그먼트를 검출할 수 있다. 또한, 프로세서(130)는 세그먼트에 시작 시점(12초), 끝 시점(13.5초), 오디오의 종류(뮤직 + 보컬), 컨피던스(뮤직 스코어, 노이즈 스코어, 스피치 스코어, 기타 스코어)를 라벨링할 수 있다.

구간 T4은 오디오 신호에 음악이 포함되지 않은 구간이다. 즉, 음악 없이 노이즈 또는 기타 신호가 포함된 구간으로, 이 구간에서의 SNR 값은 기 설정된 임계 치 미만의 값이다. 따라서 프로세서(130)는 이 구간에서의 세그먼트는 검출하지 않는다.

구간 T5, 구간 T7도 상술한 바와 마찬가지의 방법으로 세그먼트가 생성될 수 있다.

한편, 본 실시 예에서는 구간 T2와 T3 는 SNR이 상이한 바, T2와 T3가 별개의 구간으로 나뉘는 것으로 설명하였다. 다만, T2 구간의 SNR과 T3 구간의 SNR이 모두 기 설정된 임계 치를 초과하므로, 프로세서(130)는 T2 구간과 T3 구간을 하나의 구간으로 하여 세그먼트를 검출할 수도 있다.

또한, 본 실시 예에서는 음악 신호가 존재하는 구간인 T2, T3, T5, T7에서 모두 세그먼트가 검출되는 것으로 설명하였으나, 음악 신호가 존재하더라도 기타 신호(스피치, 노이즈, 기타)의 크기가 음악 신호에 비해 상대적으로 커서, SNR 값이 기 설정된 임계 치보다 작은 경우에는 세그먼트가 검출되지 않을 수 있다.

도 5는 본 발명의 일 실시 예에 따른 세그먼트의 구성을 도시한 도면이다. 각 세그먼트는 SNR 값에 따라 분할된 오디오 데이터를 포함하고, 시작 시점, 끝 시점, 종류(순수 뮤직, 뮤직+보이스/노이즈/스피치), 컨피던스(뮤직 스코어, 노이즈 스코어, 스피치 스코어, 기타 스코어)가 라벨링된 것을 알 수 있다.

도 6은 본 발명의 일 실시 예에 따른 세그먼트의 우선 순위를 할당하는 방법을 나타내는 도면이다.

세그먼트의 크기가 최소 임계 값 이상인지 측정된다(601).

측정 결과 세그먼트의 크기가 최소 임계 값 이상인 경우에는 세그먼트의 크기가 최대 임계 값 이하인지 측정된다(602). 측정 결과 세그먼트의 크기가 최대 임계 값 이하인 경우 이 세그먼트는 세그먼트의 분할, 통합 없이 세그먼트의 우선 순위를 할당하는 데 이용될 수 있다.

다만, 세그먼트의 크기가 최대 임계 값 이하인지 측정한 결과(602) 세그먼트의 크기가 최대 임계 값 이상인 경우에는, 세그먼트의 시작 시점, 끝 시점 정보를 이용하여 세그먼트의 크기가 최소 임계 값 이상, 최대 임계 값 이하가 되도록 세그먼트를 분할하여 세그먼트의 우선 순위를 할당하는데 이용할 수 있다.

한편, 세그먼트의 크기가 최소 임계 값 이상인지 측정하여(601) 측정 결과 세그먼트의 크기가 최소 임계 값 미만인 경우에는 세그먼트의 SNR의 크기가 기 설정된 임계 치 이상인지 측정된다(603).

측정 결과, SNR의 크기가 기 설정된 임계 치 이상인 경우에는 세그먼트의 시작 시점, 끝 시점 정보를 이용하여 세그먼트의 크기가 최소 임계 값 이상, 최대 임계 값 이하가 되도록 세그먼트를 인접한 세그먼트와 통합하여 새로운 세그먼트를 생성한다. 이 경우, 새롭게 생성된 세그먼트가 세그먼트의 우선 순위를 산출하는 데 이용될 수 있다.

다만, 세그먼트의 SNR의 크기가 기 설정된 임계 치 이상인지 측정한 결과(603) 세그먼트의 크기가 최소 임계 값 미만인 구간은, 음악 인식에 사용되지 않고 폐기된다.

도 7a는 본 발명의 일 실시 예에 따른 세그먼트의 분할 방법을 나타내는 도면이다.

도 7a를 참고하면, 세그먼트의 크기의 임계 범위를 3초 이상, 10초 이하로 가정했을 때, 세그먼트에 포함된 구간의 시작 시점 및 끝 시점 정보에 따라, T7 구간의 세그먼트의 크기가 최대 임계 값을 초과하는 것을 알 수 있다.

즉, 세그먼트의 끝 시점은 55초이고, 세그먼트의 시작 시점은 40초로써, 세그먼트의 크기는 15초 인 바, 세그먼트의 크기는 기 설정된 임계 값을 초과한다. 따라서, 네트워크의 트래픽 및 시스템 리소스 낭비를 막기 위해, 세그먼트를 임계 범위 이내로 분할하는 것이 필요하다.

따라서, 프로세서(130)는 분할된 세그먼트의 크기가 동일한 크기가 되도록, 즉, 각각의 세그먼트의 크기가 7.5초가 되도록 세그먼트를 분할할 수 있다.

한편, 본 실시 예에서는 분할되는 세그먼트의 크기가 동일하게 되도록 분할하였으나, 이에 한정되지 않는다. 즉, 프로세서(130)는 분할된 세그먼트 각각이 임계 범위 이내의(3초 이상, 10초 이하) 임의의 값이 되도록 세그먼트를 분할될 수 있다.

또한, 본 실시 예에서는 T7 구간의 세그먼트를 두 개의 세그먼트로 분할하였으나, 이에 한정되지 않는다. 예를 들어, 프로세서(130)는 최초 세그먼트의 크기가 30초인 경우, 최소 임계 값 3초 및 최대 임계 값 10초를 만족하는 범위에서 최소 3개, 최대 10개의 세그먼트로 최초 세그먼트를 분할할 수 있다.

도 7b는 본 발명의 일 실시 예에 따른 세그먼트의 통합 방법을 나타내는 도면이다.

도 7b를 참고하면, 세그먼트의 크기의 임계 범위를 3초 이상, 10초 이하로 가정했을 때, 세그먼트에 포함된 구간의 시작 시점 및 끝 시점 정보에 따라, 세그먼트의 크기가 최소 임계 값 미만임을 알 수 있다.

즉, T2 구간의 세그먼트의 시작 시점은 10초이고, 끝 시점은 12초로써, 세그먼트의 크기는 2초인 바, 세그먼트의 크기는 기 설정된 임계 값보다 작다. 또한, T3 구간의 세그먼트의 시작 시점은 12초이고, 끝 시점은 13.5초로써, 세그먼트의 크기는 1.5초인 바, 세그먼트의 크기는 최소 임계 값보다 작다. 따라서, 음악 인식 결과의 정확성을 보장하기 위해, 세그먼트를 임계 범위 이내로 통합하는 것이 필요하다.

따라서, 프로세서(130)는 각각의 세그먼트를 통합하여 임계 범위 이내의(3초 이상, 10초 이하) 임의의 값이 만족되는 3.5초의 크기의 세그먼트를 생성할 수 있다.

한편, 본 실시 예에서는 통합되는 세그먼트 각각의 크기가 최소 임계 값보다 작은 것으로 설명하였으나, 이에 한정되지 않는다. 즉, 하나의 세그먼트의 크기가 최소 임계 값 미만이면, 다른 세그먼트의 크기는 최소 임계 값 이상이어도 무방하다. 다만, 이 경우에도 통합 이후의 세그먼트의 크기가 임계 범위 이내의 값을 만족해야 한다.

또한, 본 실시 예에서는, 두 개의 세그먼트가 통합되는 것으로 설명하였으나, 이에 한정되지 않는다. 즉, 통합 이후의 세그먼트의 크기가 최소 임계 값 이상이 되도록 세 개 이상의 세그먼트를 통합할 수 있다.

한편, 본 실시 예에서는 시간적으로 연속적으로 이어지는 T2와 T3 구간의 세그먼트가 통합되는 것으로 설명하였으나, 이에 한정되지 않는다. 예를 들어, T2와 T3가 시간적으로 연속적으로 이어지지 않더라도, 즉 T2 구간과 T3 구간 사이에 SNR이 기 설정된 임계 치 이하인 구간이 존재하더라도 인접한 T2와 T3 구간의 세그먼트가 통합될 수 있다.

도 8은 본 발명의 일 실시 예에 따른 세그먼트를 그룹화하여 재배열하는 방법을 나타내는 도면이다.

도 8을 참고하면, 프로세서(130)는 생성된 세그먼트가 복수 개인 경우, 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 음악 인식 서버로 전송할 수 있다.

구체적으로, 프로세서(130)는 세그먼트를 하나씩 순차적으로 음악 인식 서버로 전송할 수도 있지만, 복수개의 세그먼트를 그룹핑하여 음악 인식 서버로 전송할 수도 있다.

예를 들어 기 설정된 개수가 5개인 경우, 세그먼트가 5개 생성되면 생성된 5개의 세그먼트를 1그룹으로 그룹핑하여 음악 인식 서버로 전송하고, 또 다시 세그먼트가 5개 생성되면 생성된 5개의 세그먼트를 제 2 그룹으로 그룹핑하여 음악 인식 서버로 전송하는 방법으로, 그룹 단위로 단계적으로 세그먼트를 전송할 수 있다.

이 경우 프로세서(130)는 하나의 세그먼트 그룹을 음악 인식 서버로 전송한 이후 통신부(140)을 통해 음악 인식 서버(200)로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 음악 인식 서버(200)로 전송할 수 있다.

예를 들어, 프로세서(130)는 제 1그룹의 세그먼트들을 음악 인식 서버(200)로 전송하고, 제 2그룹의 세그먼트들을 전송하지 않고 대기하고 있다가, 음악 인식 서버로부터 음악 인식 실패 신호가 수신되면 통신부(140)을 통해 제 2그룹의 세그먼트들을 음악 인식 서버(200)로 전송할 수 있다.

또한, 프로세서(130)는 하나의 세그먼트 그룹을 음악 인식 서버로 전송한 이후 통신부(160)을 통해 음악 인식 서버(200)로부터 음악 인식 완료 신호 또는 인식된 음악 정보가 수신되면, 후속 세그먼트 그룹을 미 전송할 수 있다.

예를 들어, 프로세서(130)는 제 1그룹의 세그먼트들을 음악 인식 서버로 전송하고, 후속하는 제 2그룹의 세그먼트들을 전송하지 않고 대기하고 있다가, 음악 인식 서버(200)로부터 음악 인식 완료 신호 또는 인식된 음악 정보가 통신부(140)을 통해 수신되면 후속하는 제 2그룹의 세그먼트들을 음악 인식 서버(200)로 전송하지 않을 수 있다.

본 실시 예에서는, 2개의 세그먼트 그룹이 존재하는 것으로 설명하였으나, 이에 한정되지 않는다. 즉, 음악 인식이 완료될 때까지 세그먼트 그룹의 전송이 순차적으로 이루어 질 수 있다. 또한, 본 실시 예에서는 하나의 세그먼트 그룹에 다섯 개의 세그먼트가 그룹핑하는 것으로 설명되었으나, 이에 한정되지 않는다.

도 9는 본 발명의 일 실시 예에 따른 세그먼트에 우선순위를 할당하는 방법을 나타내는 도면이다.

도 9를 참고하면, 세그먼트는 시작 시점, 끝 시점 정보에 따른 시간 순서에 따라 세그먼트 1, 세그먼트 2, 세그먼트 3, 세그먼트 4, 세그먼트 5의 순서로 배열되어 있다.

이 경우, 프로세서(130)는 SNR의 크기에 따라 각각의 세그먼트에 우선 순위를 부여하고, 이 우선 순위에 따라 음악 인식 서버에 세그먼트를 전송하는 순서를 재배열할 수 있다.

즉, 프로세서(130)는 SNR의 크기에 따라 세그먼트 5, 세그먼트 1, 세그먼트 4, 세그먼트 3, 세그먼트 2의 순서로 세그먼트 전송에 대한 우선 순위를 부여할 수 있다.

이와 같이 프로세서(130)는 세그먼트가 복수 개로 생성되면 복수의 세그먼트에 대해서 SNR 비율이 높은 순서대로 우선 순위를 할당하고, 우선 순위에 따라 복수의 세그먼트를 순차적으로 음악 인식 서버에 전송할 수 있다.

도 10은 본 발명의 일 실시 예에 따른 세그먼트에 우선순위를 할당하는 방법을 나타내는 도면이다.

도 10을 참고하면, 프로세서(130)는 기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 우선 순위를 할당할 수 있다.

구체적으로, 프로세서(130)는 음악이 계속적으로 재생이 되어 세그먼트가 계속적으로 생성이 되는 경우, 하나의 음악의 재생이 완료되기 이전이라도 기 설정된 개수의 세그먼트가 생성되면, 생성된 세그먼트들 만으로 우선 순위를 할당할 수 있다.

예를 들어, 기 설정된 세그먼트의 개수가 5인 경우, 음악이 계속적으로 재생이 되면서 총 30개의 세그먼트가 생성될 경우에도, 프로세서(130)는 기 설정된 개수인 5개의 세그먼트가 생성되면, 생성된 5개의 세그먼트 안에서 SNR이 높은 순서대로 우선 순위를 할당하고, 우선 순위에 따라 세그먼트를 순차적으로 음악 인식 서버(200)에 전송할 수 있다.

한편, 본 실시 예에서는 세그먼트가 하나씩 전송되는 것으로 설명되었으나, 도 8에서 설명한 방법과 마찬가지로, 프로세서(130)는 복수의 세그먼트를 그룹화 하여 전송할 수 있다.

예를 들어, 세그먼트에 우선순위를 부여하는 기 설정된 세그먼트의 개수가 10이고, 세그먼트를 그룹핑하는 기 설정된 개수 단위가 2인 경우, 프로세서(130)는 10개의 세그먼트 안에서 SNR이 높은 순서대로 우선 순위를 할당하고, 우선순위에 따라 2개의 세그먼트씩 그룹핑하여 그룹 단위로 음악 인식 서버에 전송할 수 있다.

도 11은 본 발명의 일 실시 예에 따른 세그먼트를 기 설정된 주기로 분할하는 방법을 도시한 도면이다.

도 11을 참고하면, 프로세서(130)는 기 설정된 주기에 따라 일정한 크기의 세그먼트를 생성할 수 있다.

구체적으로, 프로세서(130)는 세그먼트의 크기가 임계 범위 이내의 크기가 되도록 기 설정된 주기에 따라 일정하게 구간을 분할하여 세그먼트를 생성할 수 있다.

예를 들어, 임계 범위가 3초 이상, 10초 이하이면, 프로세서(130)는 3초 이상 10초 이하의 범위를 만족하는 일정한 주기에 따라 일정한 크기의 세그먼트를 생성할 수 있다. 도 11에서는, 5초 주기로 일정한 크기의 세그먼트를 생성하는 것을 도시하였다.

프로세서(130)는 생성된 세그먼트의 SNR이 기 설정된 값 이하인 경우, 이 세그먼트를 폐기한다.

또한, 프로세서(130)는 세그먼트가 복수 개로 생성되면 복수의 세그먼트에 대해서 SNR 비율이 높은 순서대로 우선 순위를 할당하고, 우선 순위에 따라 복수의 세그먼트를 순차적으로 음악 인식 서버에 전송할 수 있다.

구체적으로, 프로세서(130)는 특징 구간의 컨피던스 스코어를 라벨링한 세그먼트를 생성하고, 컨피던스 스코어를 이용하여 각 세그먼트의 SNR 을 산출하고, SNR이 높은 순서대로 세그먼트를 재배열하여 음악 인식 서버로 전송할 수 있다.

또한, 도 8에서 설명한 바와 같이, 세그먼트가 복수 개인 경우, 프로세서 (130)는 복수개의 세그먼트를 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 음악 인식 서버로 전송할 수 있다.

또한, 도 10에서 설명한 바와 같이, 프로세서(130)는 기 설정된 개수의 세그먼트가 생성되면, 생성된 세그먼트들 만으로 우선 순위를 할당하여 음악 인식 서버에 전송할 수 있다.

도 12는 본 발명의 일 실시예에 따른 컨텐츠 처리 장치의 구성을 TV의 예를 들어 나타낸 블록도이다.

도 12를 참고하면, 컨텐츠 처리 장치(100)는, 수신부(110), 오디오 처리부(120), 프로세서(130) 및 통신부(140) 외에 비디오 처리부(150), 디스플레이부(160), 스피커부(170), 저장부(180)를 더 포함할 수 있다.

비디오 처리부(150)는 방송 컨텐츠의 영상 데이터를, 영상 디코딩하거나, 영상 스케일링 등과 같이 신호 처리할 수 있다.

디스플레이부(160)는 비디오 처리부(150)에 의해 신호 처리된 영상 데이터를 화면상에 디스플레이 할 수 있다.

그리고, 디스플레이부(160)는 음악 정보를 디스플레이 할 수 있다. 구체적으로, 인식 서버로부터 세그먼트에 의해 인식된 음악 정보가 통신부(140)를 통해 수신되고, 수신된 음악 정보가 저장부(180)에 저장되면, 저장된 음악 정보를 디스플레이부(160)에 디스플레이하여 사용자에게 음악 정보를 제공할 수 있다.

스피커부(170)는 오디오 처리부(120)에 의해 신호 처리된 음성 데이터를 출력할 수 있다. 또한, 스피커부(170)는 프로세서(130)의 제어를 통해 음악 인식이 완료된 이후에도 음악 정보 리스트에서 사용자에 의해 선택된 음악을 출력할 수 있다.

한편, 저장부(180)는 음악 인식 서버로부터 세그먼트에 의해 인식된 음악 정보가 전송되면 음악 정보를 저장할 수 있다. 구체적으로, 저장부(180)는 음악 인식 서버(200)로부터 세그먼트에 의해 인식된 음악 정보가 통신부(160)를 통해 전송되면, 이 음악 정보를 저장할 수 있다.

또한, 음악 인식 서버(200)로부터 전송된 음악 정보가 복수개인 경우, 음악 정보를 리스트화 하여 저장할 수 있다.

한편, 도 12를 설명함에 있어서 TV의 예를 들어 설명하고 있으나, 이에 한정되지 않는다. 즉, 컨텐츠 처리 장치(100)는 네트워크와 방송, 마이크를 통해 오디오 스트림을 수집 / 재생할 수 있는 장치, 예를 들어, TV, 라디오, 휴대폰, 컴퓨터, MP3 player 등일 수 있다. 컨텐츠 처리 장치(100)가 다른 유형의 장치로 구현될 경우, 일부 구성요소들은 생략 또는 변경될 수 있다. 가령, 오디오 스트림만을 처리하는 장치인 경우, 비디오 처리부(150), 디스플레이부(160) 등은 생략될 수도 있다.

도 13a는 사용자가 음악 검색 모드를 온 시키는 메뉴 창을 도시한 도면이다.

도 13a를 참고하면, 사용자는 원격 제어 장치 또는 컨텐츠 처리 장치(100)의 임의의 영역에 형성된 기계적 버튼, 터치 패드, 휠 등의 다양한 유형의 버튼을 이용하여 메뉴 창(161)을 통해 음악 검색 모드를 온 시킬 수 있다.

여기서 원격 제어 장치는, Wireless HDMI, Wi-Fi, 블루투스, IR Blaster, 적외선 통신 등을 이용하여 제어 신호를 컨텐츠 처리 장치(100)에 전송할 수 있는 장치로써, 리모컨, 사용자 단말 장치 등을 포함할 수 있다.

프로세서(130)는 음악 검색 모드를 온 시키는 사용자 조작이 있는 경우, 오디오 처리부(120)에서 추출되는 오디오 신호를 오디오 데이터(PCM) 형태로 수신하여 저장하고, SNR에 기초하여 오디오 데이터를 분석함으로써 오디오 신호 내에서 특징 구간을 결정하고, 특징구간을 포함하는 세그먼트를 검출할 수 있다.

한편, 본 실시 예에서는 음악 검색 모드를 온 시키기 위한 메뉴 창(161)이 표시되는 것으로 설명하였으나, 이에 한정되지 않는다. 즉, 메뉴 창(161)이 제공되는 것 없이, 원격 제어 장치 등의 원터치 조작만으로도 음악 검색을 수행할 수 있다. 또한, 사용자의 설정에 의해, 별도의 조작 없이도 TV의 전원이 ON 되는 경우에는 자동으로 음악 인식을 수행하는 방식으로도 구현될 수 있다.

도 13b는 음악 인식 서버(200)로부터 수신된 음악 정보가 디스플레이부(160)을 통해 디스플레이되는 것을 나타낸다.

도 13b를 참고하면, 사용자가 음악 검색 모드를 온 시킨 경우, 현재 음악 검색 모드가 온 상태(162)임을 디스플레이 할 수 있고, 음악 검색 결과 창(163)에서 사용자에게 음악 정보를 제공할 수 있다.

한편, 음악 정보 중 제목만이 음악 검색 결과 창(163)에 표시되는 것으로 도시하였으나, 이에 한정되지 않는다. 예를 들어, 제목, 음악이 수록된 앨범 명, 제작자, 작곡자, 작사자, 가수, 재생시간, 발매일, 노래 가사, 기타 음악 정보가 추가적으로 표시될 수 있다.

도 13c는 음악 인식 서버(200)로부터 수신된 음악 정보가 디스플레이부(160)을 통해 표시되는 것을 나타낸다.

도 13c에 따르면, 음악 인식 서버(200)로부터 수신된 음악 정보(제목, 음악이 수록된 앨범 명, 제작자, 작곡자, 작사자, 가수, 재생시간, 발매일, 노래 가사, 기타 음악 정보)는 음악 검색 결과 창(132)안에서 이동하는 방식으로 표시될 수 있다.

도 13d는 음악 인식 서버(200)로부터 수신된 음악 정보 리스트(164)가 디스플레이부(160)을 통해 디스플레이되는 것을 나타낸다.

도 13d를 참고하면, 프로세서(130)는 음악 인식 서버(200)로부터 수신한 음악 정보를 리스트화해서 저장부(180)에 저장해 놓았다가, 사용자 조작에 따라 음악 검색 리스트(164)를 디스플레이부(160)에 표시할 수 있다.

음악 검색 리스트(164)에는 현재 시간을 기준으로 음악이 재생된 시간이 표시될 수 있다. 즉, 도 13d에 도시된 음악 검색 리스트(164)의 각각의 음악은 현재 시간을 기준으로 5분 전, 27분 전, 12시간 전, 1일 2시간 전에 컨텐츠 처리 장치(100)에서 재생된 것을 알 수 있다.

또한, 음악 검색 리스트(164)에는 음악이 재생될 때 어떠한 프로그램이 방송 중 이었는지가 표시될 수 있다. 예를 들어, “봉선화 순정”은 “업무의 달인”이라는 프로그램의 방송 중에 재생된 음악임을 알 수 있다.

한편, 본 실시 예에서는 음악 검색 리스트(164)에 검색 시간, 프로그램 명, 제목, 가수, 앨범 명, 발매 일이 표시되는 것으로 설명하였으나, 이에 한정되지 않는다. 즉, 음악의 제목, 앨범명, 제작자, 작곡자, 작사자, 가수, 재생시간, 발매일, 기타 음악 정보가 음악 검색 리스트(164)에 표시될 수 있다.

한편, GUI 생성부(미도시)는 음악 검색 리스트(134)에 대한 GUI를 생성하고, GUI 생성부(미도시)는 생성된 GUI를 비디오 처리부(150)에서 출력된 비디오 신호에 부가하여 디스플레이부(160)에 GUI가 부가된 영상을 표시하는 방식으로 음악 검색 리스트(164)를 표시할 수 있다.

도 13e는 음악 정보 리스트(134)에서 특정 음악을 선택했을 경우의 표시화면을 나타낸다.

도 13e를 참고하면, 음악 정보 리스트(134)에서 특정 음악을 선택한 경우 그 음악에 대한 듣기 서비스, 뮤직비디오 보기 서비스, 다운로드 서비스 등이 제공될 수 있다.

구체적으로, 음악 인식 서버(200) 또는 다른 컨텐츠 서비스 제공자에 의해 스트리밍 서비스로서 음악을 제공받아 재생할 수 있고, 음악 인식 서버(200) 또는 컨텐츠 서비스 제공자로부터 음악을 다운로드 할 수도 있다.

또한, 음악 인식 서버(200) 또는 컨텐츠 서비스 제공자가 제공하는 해당 음악의 뮤직비디오 또는 관련 VOD 서비스 등을 제공받을 수도 있다.

한편, 도시되지는 않았으나, 사용자에 의해 음악의 선택이 있는 경우 디스플레이부(160)에는 선택된 음악의 세부 정보가 표시될 수도 있다. 즉, 선택된 음악의 제목, 앨범명, 제작자, 작곡자, 작사자, 가수, 재생시간, 발매일, 기타 음악 정보의 일부 또는 전부가 디스플레이부(160)에 표시될 수 있다.

한편, 본 실시 예에서는 음악 검색이 완료된 후 리스트화된 음악 목록에서 음악을 선택하여 재생할 수 있는 것으로 설명하였으나, 이에 한정되지 않는다. 예를 들어 사용자에게 실시간으로 검색된 음악을 제공할 수 있다. 즉, 사용자의 음악 검색 명령이 있은 후, 음악 검색이 완료되면 곧바로 도 13e의 화면을 제공함으로써 사용자에게 실시간으로 검색된 음악을 제공할 수 있다. 또한, 도 13e에 도시된 창이 표시됨이 없이 음악 검색이 완료되면 곧바로 음악을 재생하거나 뮤직 비디오를 재생하는 형태로도 구현이 가능하다.

도 14는 음악 정보가 컨텐츠 처리장치에 연결된 외부 장치에 표시되는 화면을 나타내는 도면이다.

프로세서(130)는 컨텐츠 처리 장치(100)에 연결된 외부 장치(300)와 통신부(140)을 통해 통신하면서, 외부 장치(300)에 음악 정보를 제공하고, 외부장치(300)에서 음악이 재생되도록 제어할 수 있다.

여기서 외부 장치(300)는, Wireless HDMI, Wi-Fi, 블루투스, IR Blaster, 적외선 통신, HDMI, USB, IR Blaster 등을 통해 컨텐츠 처리 장치(100)과 연결되어 통신할 수 있는 장치로써, 이동 통신 단말기, PC, PMP, 리모콘, 태블릿 PC 등일 수 있다. 또한, 외부 장치는(300), 전화선, 무선랜, 블루투스, USB, IEEE 1394 등을 통해 구축된 홈 네트워크 시스템에서의 컨텐츠 처리 장치 외의 다른 장치들일 수 있다.

즉, 프로세서(130)는 컨텐츠 처리 장치(100)에 연결된 외부 장치(300)와 통신부(140)을 통해 통신하면서, 외부 장치(300)에 음악 정보를 제공하고, 외부 장치의 디스플레이부에 음악 정보(제목, 앨범명, 제작자, 작곡자, 작사자, 가수, 재생시간, 발매일, 기타 음악 정보)가 표시되도록 제어할 수 있다.

또한, 프로세서(130)는 음악 출력 기능을 구비한 외부 장치(300)에서 사용자에 의해 선택된 음악이 재생되도록 제어할 수 있다.

도 15은 본 발명의 일 실시 예에 따른 컨텐츠 처리 방법을 설명하기 위한 흐름도이다.

도 15를 참고하면, 먼저, 컨텐츠를 수신한다(S1510).

그리고 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출한다(S1520).

그리고 SNR에 기초하여 오디오 신호 내에서 특징 구간을 결정하고, 특징 구간을 포함하는 세그먼트를 검출한다(S1530). 구체적으로, 오디오 처리부에서 추출되는 오디오 신호를 오디오 데이터(PCM) 형태로 수신하여 저장하고, SNR에 기초하여 오디오 데이터를 분석함으로써 오디오 신호 내에서 특징 구간을 결정하고, 특징구간을 포함하는 세그먼트를 검출할 수 있다. 이 경우 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정될 수 있다.

그리고 세그먼트를 음악 인식 서버로 전송한다(S1540). 구체적으로, 세그먼트가 복수 개이면 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 인식 서버로 전송할 수 있다. 또한, 하나의 세그먼트 그룹을 인식 서버로 전송한 이후에, 인식 서버로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 상기 인식 서버로 전송하고, 인식 서버로부터 음악 인식 완료 신호가 수신되면, 후속 세그먼트 그룹을 미전송할 수 있다.

한편, 세그먼트의 크기가 임계 범위 미만이면 인접 세그먼트와 통합하고, 세그먼트의 크기가 임계 범위를 초과하면 상기 세그먼트를 복수 개로 분할하는 단계를 더 포함할 수 있다.

한편, 세그먼트가 복수 개로 생성되면, 복수의 세그먼트에 대해서 SNR이 높은 순서로 우선 순위를 할당하고, 우선 순위에 따라 복수의 세그먼트를 순차적으로 인식 서버로 전송할 수 있다. 이 경우, 기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 우선 순위를 할당할 수 있다.

한편, 인식 서버로부터 세그먼트에 의해 인식된 음악 정보가 전송되면, 음악 정보를 저장하는 단계를 더 포함할 수 있다.

한편, 음악 정보를 디스플레이하는 단계를 더 포함할 수 있다.

또한, 상술한 바와 같은 컨텐츠 처리 방법은, 상술한 바와 같은 컨텐츠 처리 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 비일시적 컴퓨터 판독 가능 매체에 저장될 수 있다.

비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되서는 안 될 것이다.

100: 컨텐츠 처리 장치 110: 수신부
120: 오디오 처리부 130: 프로세서
140: 통신부

Claims

컨텐츠를 수신하는 수신부;
상기 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출하는 오디오 처리부;
오디오 신호에서 음악이 차지하는 비율에 기초하여 상기 오디오 신호 내에서 특징 구간을 결정하고, 상기 특징 구간을 포함하는 세그먼트를 검출하는 프로세서; 및
상기 세그먼트를 음악 인식 서버로 전송하는 통신부;를 포함하며,
상기 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정되는, 컨텐츠 처리 장치.
제1항에 있어서,
상기 프로세서는,
상기 오디오 신호에서 음악이 차지하는 비율을 산출하고, 상기 오디오 신호에서 음악이 차지하는 비율이 기 설정된 임계 치 이상인 적어도 하나의 오디오 구간을 상기 특징 구간으로 결정하며, 상기 특징 구간의 시작 시점 및 종료 시점을 라벨링하여 상기 세그먼트를 생성하는, 컨텐츠 처리 장치.
제2항에 있어서,
상기 프로세서는,
상기 세그먼트의 크기가 상기 임계 범위 미만이면 인접 세그먼트와 통합하고, 상기 세그먼트의 크기가 상기 임계 범위를 초과하면 상기 세그먼트를 복수 개로 분할하는, 컨텐츠 처리 장치.
제 1항에 있어서,
상기 프로세서는,
상기 세그먼트가 복수 개이면 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 상기 인식 서버로 전송하도록 상기 통신부를 제어하는 컨텐츠 처리 장치.
제 4항에 있어서,
상기 프로세서는,
하나의 세그먼트 그룹을 상기 인식 서버로 전송한 이후에,
상기 통신부를 통해 상기 인식 서버로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 상기 인식 서버로 전송하고,
상기 인식 서버로부터 음악 인식 완료 신호가 수신되면, 상기 후속 세그먼트 그룹을 미전송하는 컨텐츠 처리 장치.
제 1항에 있어서,
상기 인식 서버로부터 상기 세그먼트에 의해 인식된 음악 정보가 전송되면, 상기 음악 정보를 저장하는 저장부; 및
상기 음악 정보를 디스플레이하는 디스플레이부;를 더 포함하는 컨텐츠 처리 장치.
제 1항에 있어서,
상기 프로세서는,
상기 세그먼트가 복수 개로 생성되면,
복수의 세그먼트에 대해서 상기 오디오 신호에서 음악이 차지하는 비율이 높은 순서로 우선 순위를 할당하고,
상기 우선 순위에 따라 상기 복수의 세그먼트를 순차적으로 상기 인식 서버로 전송하는 컨텐츠 처리 장치.
제 7항에 있어서,
상기 프로세서는,
기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 상기 우선 순위를 할당하는 컨텐츠 처리 장치.
제 1항에 있어서,
상기 오디오 신호에서 음악이 차지하는 비율은,
뮤직 스코어 / (노이즈 스코어 + 스피치 스코어 + 기타 스코어)의 공식으로 계산되는 것을 특징으로 하는 컨텐츠 처리 장치.
컨텐츠를 수신하는 단계;
상기 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출하는 단계;
오디오 신호에서 음악이 차지하는 비율에 기초하여 상기 오디오 신호 내에서 특징 구간을 결정하고, 상기 특징 구간을 포함하는 세그먼트를 검출하는 단계; 및
상기 세그먼트를 음악 인식 서버로 전송하는 단계;를 포함하며,
상기 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정되는, 컨텐츠 처리 장치의 세그먼트 전송 방법.
제10항에 있어서,
상기 세그먼트를 생성하는 단계는,
상기 오디오 신호에서 음악이 차지하는 비율을 산출하고, 상기 오디오 신호에서 음악이 차지하는 비율이 기 설정된 임계치 이상인 적어도 하나의 오디오 구간을 상기 특징 구간으로 결정하며, 상기 특징 구간의 시작 시점 및 종료 시점을 라벨링하여 상기 세그먼트를 생성하는 것을 특징으로 하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
제11항에 있어서,
상기 세그먼트의 크기가 상기 임계 범위 미만이면 인접 세그먼트와 통합하고, 상기 세그먼트의 크기가 상기 임계 범위를 초과하면 상기 세그먼트를 복수 개로 분할하는 단계;를 더 포함하는 것을 특징으로 하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
제 10항에 있어서,
상기 세그먼트를 음악 인식 서버로 전송하는 단계는,
상기 세그먼트가 복수 개이면 기 설정된 개수 단위로 그룹핑하여 그룹 단위로 단계적으로 상기 인식 서버로 전송하는 것을 특징으로 하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
제 13항에 있어서,
상기 세그먼트를 음악 인식 서버로 전송하는 단계는,
하나의 세그먼트 그룹을 상기 인식 서버로 전송한 이후에,
상기 인식 서버로부터 음악 인식 실패 신호가 수신되면, 후속 세그먼트 그룹을 상기 인식 서버로 전송하고,
상기 인식 서버로부터 음악 인식 완료 신호신호가 수신되면, 상기 후속 세그먼트 그룹을 미전송하는 것을 특징으로 하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
제 10항에 있어서,
상기 인식 서버로부터 상기 세그먼트에 의해 인식된 음악 정보가 전송되면, 상기 음악 정보를 저장하는 단계; 및
상기 음악 정보를 디스플레이하는 단계;를 더 포함하는 것을 특징으로 하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
제 10항에 있어서,
상기 세그먼트가 복수 개로 생성되면, 복수의 세그먼트에 대해서 상기 오디오 신호에서 음악이 차지하는 비율이 높은 순서로 우선 순위를 할당하는 단계;를 더 포함하고,
상기 전송하는 단계는,
상기 우선 순위에 따라 상기 복수의 세그먼트를 순차적으로 상기 인식 서버로 전송하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
제 16항에 있어서,
상기 우선 순위를 할당하는 단계는,
기 설정된 개수만큼의 세그먼트들이 생성되면, 생성된 세그먼트들을 대상으로 상기 우선 순위를 할당하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
제 10항에 있어서,
상기 오디오 신호에서 음악이 차지하는 비율은,
뮤직 스코어 / (노이즈 스코어 + 스피치 스코어 + 기타 스코어)의 공식으로 계산되는 것을 특징으로 하는 컨텐츠 처리 장치의 세그먼트 전송 방법.
컨텐츠 처리 장치와 결합되어 하기의 단계를 실행시키기 위하여 기록 매체에 저장된 컴퓨터 프로그램에 있어서,
컨텐츠를 수신하는 단계;
상기 컨텐츠에 포함된 오디오 데이터를 디코딩하여 오디오 신호를 추출하는 단계;
오디오 신호에서 음악이 차지하는 비율에 기초하여 상기 오디오 신호 내에서 특징 구간을 결정하고, 상기 특징 구간을 포함하는 세그먼트를 검출하는 단계; 및
상기 세그먼트를 음악 인식 서버로 전송하는 단계;를 포함하며,
상기 세그먼트의 크기는 기 설정된 임계 범위 이내에서 가변적으로 결정되는, 기록 매체에 저장된 컴퓨터 프로그램.