KR20080059650A

KR20080059650A - 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치

Info

Publication number: KR20080059650A
Application number: KR1020087011761A
Authority: KR
Inventors: 이사오 오츠카; 히데츠구 스기노하라
Original assignee: 미쓰비시덴키 가부시키가이샤
Priority date: 2005-12-27
Filing date: 2006-12-25
Publication date: 2008-06-30
Also published as: EP1968043A1; JP2007180669A; JP4321518B2; EP1968043A4; CN101310327A; CN101310327B; WO2007074755A1; US8855796B2; HK1122893A1; EP1968043B1; KR100962803B1; US20090088878A1

Abstract

과제 본 발명은 텔레비젼 방송으로부터 악곡 씬(musical composition scene)을 효율적으로 검출하는 방법을 제공하는 것이다.

해결수단 본 발명에 따른 악곡 구간 검출 방법은, 음성 신호와 영상 신호를 포함하는 데이터를 입력하는 데이터 입력 단계와, 각각 다른 기준에 근거하여, 상기 음성 신호로부터 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출 단계와, 상기 검출된 복수의 악곡 후보 구간에 근거하여, 악곡 구간을 검출하는 악곡 구간 검출 단계를 구비한다. 이에 따라, 록이나 엔카, 클래식 등, 곡조가 다른 광범위한 악곡에 대하여 높은 검출 정밀도를 확보할 수 있다.

Description

악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및 그 장치{MUSICAL COMPOSITION SECTION DETECTING METHOD AND ITS DEVICE, AND DATA RECORDING METHOD AND ITS DEVICE}

본 발명은, 텔레비젼 방송 등의 데이터로부터 악곡 구간을 검출하는 방법 및 장치, 및 이 방법에 의해 검출된 악곡 구간을 포함하는 데이터를, DVD-R나 DVD-RW 등을 포함하는 기록형 DVD 디스크, 하드디스크 드라이브, 또는 Blu-ray Disc 등의 기록 매체에 기록하는 기록 방법 및 장치에 관한 것이다.

텔레비젼 방송의 하나로, 소위 「노래 프로그램」이나 「음악 프로그램」이라고 불리는 쟝르가 존재한다. 음악 프로그램은 출연자에 의한 연주나 노래, 또는 비디오 영상에 의한 악곡의 영상(이하, 「악곡 씬(musical composition scene)」이라고 기재함. 또, 이 명세서에 있어서, 「악곡 씬」이란 노래나 연주 등의 음악이 음성에 포함되는 영상을 전반적으로 가리킴)과, 사회자 등에 의한 악곡의 소개나 출연자와의 토크(회화)쇼 등의 악곡 이외의 영상(이하, 「비악곡 씬」이라고 기재함)으로 구성되는 경우가 많다.

또한 민법방송이면, 프로그램의 광고주의 선전이나, 방송국 스스로의 광고 선전을 위한 광고 메시지 방송(이하, 「CM 방송」이라고 기재함. 또한, CM 방송의 구간을 「CM 방송 구간」이라고 기재함)이 프로그램의 구성에 포함되는 경우도 있다.

그런데, 녹화한 음악 프로그램을 재생하는 경우, 악곡에 집중하고 싶은 시청자에게 있어서는 비악곡 씬이나 CM 방송 등의 악곡 씬 이외를 효율적으로 건너뛰고 싶은 요망이 있다. 또한 반대로, 악곡에는 흥미가 없는 시청자에게는, 악곡 씬이나 CM 방송을 건너뛰고 토크쇼 등의 비악곡 씬만을 시청하고 싶다고 하는 요망도 있다.

이러한 요망에 대하여, 종래의 악곡 검출 방법 및 기록 방법에서는, 소리 정보의 주파수 스펙트럼의 피크가 주파수 방향에 대하여 시간적으로 안정되어 있는 특징을 이용하여 악곡 씬을 특정하고, 악곡의 영상 음성만을 저장하고 있다(예컨대, 특허문헌 1 참조).

[특허문헌 1] 일본 특허공개 평성 제11-266435호 공보(제5페이지, 도 1)

발명이 해결하고자 하는 과제

그러나, 특허문헌 1에 기재되어 있는 악곡 검출 방법에서는, 악곡 씬의 검출을 단일의 수법에 의해 판정하고 있었기 때문에, 록이나 엔카, 클래식 등, 곡조가 다른 모든 악곡에 대하여 한결같이 검출 정밀도를 확보하는 것은 곤란했다.

본 발명은, 상술한 바와 같이 과제를 해소하기 위해 이루어진 것으로, 텔레비젼 방송 등의 영상 신호 및 음성 신호를 포함하는 데이터로부터 악곡 씬을 효율적으로 검출하는 방법, 및 장치를 제공하는 것이다.

과제를 해결하기 위한 수단

본 발명에 따른 악곡 구간 검출 방법은, 음성 신호와 영상 신호를 포함하는 데이터를 입력하는 데이터 입력 단계와, 각각 다른 기준에 근거하여, 상기 음성 신호로부터, 상기 입력 데이터의 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출 단계와, 상기 검출된 복수의 악곡 후보 구간에 근거하여, 악곡 구간을 검출하는 악곡 구간 검출 단계를 구비하는 것으로 한 것이다.

발명의 효과

본 발명의 악곡 구간 검출 방법에 의하면, 음성 신호에 대하여 각각 다른 복수의 기준에 근거하여 악곡 후보 구간을 검출하고, 또한 이 검출된 복수의 악곡 후보 구간에서 악곡 구간을 검출하기 때문에, 록이나 엔카, 클래식 등, 곡조가 다른 광범위한 악곡에 대하여 높은 검출 정밀도를 확보할 수 있다.

도 1은 실시예 1의 영상 음성 기록 장치를 나타내는 시스템 블럭도,

도 2는 실시예 1의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도,

도 3은 실시예 1의 제 1 악곡 후보 검출부를 나타내는 블럭도,

도 4는 실시예 1의 제 2 악곡 후보 검출부를 나타내는 블럭도,

도 5는 실시예 1의 보정 처리를 나타내는 챠트,

도 6은 실시예 1의 악곡 구간의 검출 처리를 나타내는 챠트,

도 7은 실시예 1의 영상 음성 기록 장치의 파일 구성도,

도 8은 실시예 1의 메타데이터 구조도,

도 9는 실시예 2의 악곡 구간의 검출 처리를 나타내는 챠트,

도 10은 실시예 3의 영상 음성 기록 장치를 나타내는 시스템 블럭도,

도 11은 실시예 3의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도,

도 12는 실시예 3의 CM 방송 구간의 검출 처리를 나타내는 챠트이다.

부호의 설명

1 : 저장 미디어 2 : 기입 드라이브

3 : 영상 신호 4 : 음성 신호

5 : 비디오 인코더 6 : A/D 컨버터

7 : 오디오 인코더 8 : 멀티플렉서

9 : 기입 버퍼 메모리 10 : 제 1 악곡 후보 검출부

11 : 제 2 악곡 후보 검출부 12 : 제 1 보정부

13 : 제 2 보정부 14 : 악곡 검출부

15 : 메타데이터 생성부 16 : 기록 제어부

20 : 직교 변환 처리부 21 : 우도 비교 처리부

22 : 모델 데이터 30 : 차분 연산 처리부

40 : 시간 경과(가로축) 41 : 차이량(세로축)

42 : 차이량 43 : 임계값

44 : 라벨축 45 : 라벨

46a, 46b, 46c : 악곡 후보 구간 47 : 보정 처리 후의 라벨

48 : 보정 처리 후의 악곡 후보 구간 50 : 보정 처리 후의 라벨

51a, 51b, 51c : 보정 처리 후의 악곡 후보 구간

52 : 보정 처리 후의 라벨

53a, 53b, 53c, 53d : 보정 처리 후의 악곡 후보 구간

54 : 검출 처리 후의 라벨 55a, 55b, 55c, 55d : 악곡 구간

60 : 검출 처리 후의 라벨 61a, 61b, 61c : 악곡 구간

70 : CM 검출부 71 : 악곡 검출부

80 : 검출 처리 후의 라벨 81a, 81b : 악곡 구간

82 : CM 라벨 83a : CM 방송 구간

84 : CM 보정 처리 후의 라벨 85a, 85b : 악곡 구간

86 : 라벨축 90 : 루트 디렉토리

91 : 멀티미디어 디렉토리 92 : 메타데이터 디렉토리

93 : 정보 관리 파일 94 : 멀티미디어 데이터 파일

95 : 백업 파일 96 : 메타데이터 파일

100 : 영상 음성 기록 장치 130 : 메타데이터

131a : 메타데이터 관리 정보

131b : 프로그램 메타데이터 정보 서치 포인터

131c : 프로그램 메타데이터 정보 132a : 메타데이터 일반 정보

132b : 악곡 맵 정보 133a : 악곡 맵 일반 정보

133b : 악곡 엔트리 134a : 악곡 개시 시각 정보

134b : 악곡 종료 시각 정보 400 : 차이량의 그래프

405 : 라벨의 그래프 407 : 보정 처리 후의 라벨의 그래프

500 : 보정 처리 후의 라벨의 그래프

502 : 보정 처리 후의 라벨의 그래프

504 : 검출 처리 후의 라벨의 그래프

600 : 검출 처리 후의 라벨의 그래프

700 : 영상 음성 기록 장치

(실시예 1)

이하, 도면을 이용하여 본 실시예 1에 따른 악곡 검출 방법, 및 검출 장치, 및 기록 방법, 및 기록 장치를 설명한다. 본 실시예 1에 따른 악곡 검출 방법은, 음성 신호에 대하여 각각 다른 복수의 기준에 근거하여 악곡 후보 구간 검출하고, 또한 이 검출된 복수의 악곡 후보 구간에서 악곡 구간을 검출하는 것에 특징이 있 다.

또, 이 명세서에 있어서, 악곡 씬(musical composition scene)을 기록한 때, 기록 개시를 기점으로 하여 악곡 씬의 개시 시각으로 되는 시간 위치 정보와, 악곡 씬의 종료 시각으로 되는 시간 위치 정보에 의해 특정되는 구간을 「악곡 구간」이라고 한다.

여기서, 저장 미디어에 기록한 영상 음성을 재생 제어하는 방법에 대하여 설명한다. 일반적으로, 상기한 바와 같은 재생 제어를 행하는 경우에는, 시간 위치 정보를 90kHz에서 카운트하는 프리젠테이션 타임(PTM)이 널리 쓰이고 있다. 즉, 악곡 구간을 특정하기 위해, 개시 시각과 종료 시각의 PTM을 시간 위치 정보로서 참조하는 방법이다. 그러나, 이 이외에도, 영상 음성을 녹화 시간축으로써 1초간 등의 고정 시간으로 이산화했을 때에 악곡 씬인 구간은 High(1), 비악곡 씬인 구간은 Low(0)로 하는 등의 이치화하여 High로 되는 구간을 검색하는 등의 방법이 있다. 이 명세서에 있어서, 이들 악곡 구간의 개시점과 종료점을 특정하기 위한 정보를 「악곡 정보」라고 부른다.

도 1은 본 실시예 1의 영상 음성 기록 장치를 나타내는 시스템 블럭도이다. 또한, 도 2는 본 실시예 1의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도이다. 우선, 도 1 및 도 2를 이용하여 본 실시예 1의 영상 음성 기록 장치에 대하여 개략적으로 설명한다. 영상 음성 기록 장치(100)에는, 기록을 행하는 대상으로 되는 텔레비젼 방송 등의 영상 신호(3)와 음성 신호(4)가 입력된다(ST1). 다음에, 영상 신호(3)는, 비디오 인코더(5)에 있어서 MPEG-2 방식 등에 의해 부호화 압축되어, 영상 데이터로 된다.

한편, 음성 신호(4)가 아날로그 신호인 경우에는, 아날로그 디지털 변환기(A/D 컨버터)(6)에 의해 음성 파형을 일정 시간 간격으로 샘플링하여 진폭을 데이터화한 PCM(Pulse Code Modulation) 방식 등에 의해 디지털 신호로 변환된다(ST2). 그 후, 오디오 인코더(7)에 있어서 돌비 AC-3 방식 등에 의해 부호화 압축되어, 음성 데이터로 된다.

멀티플렉서(8)에서는, 영상 데이터와 음성 데이터를 다중화하여 멀티미디어 데이터를 생성한다. 그 후, 기입 버퍼(9)에서 멀티미디어 데이터를 차차 취입한 후에 기입 드라이브(2)에 송출하고, DVD-R나 DVD-RW 디스크 또는 기록형 Blu-ray Disc 등의 제거 가능한 저장 미디어(1)에 기록(일련의 처리는 「녹화」라고도 말하여짐)이 행하여진다. 영상 음성 기록 장치(100) 및 기입 드라이브(2)의 동작은, 마이크로프로세서 등으로 구성하는 기록 제어부(16)에 의해 통괄적으로 관리하고 제어되어 있다. 또 저장 미디어(1)와 기입 드라이브(2)는, 하드디스크 드라이브(HDD) 등의 제거 가능하지 않은 저장 미디어로 대체되더라도 상관없다.

다음에, 본 실시예 1의 영상 음성 기록 장치의 특징적인 구성 요소인 복수의 악곡 후보 검출부에 대하여 설명한다. 제 1 악곡 후보 검출부(10)에서는, A/D 컨버터(6)로부터 출력되는 PCM 방식의 디지털 신호를 분석하여 악곡 후보 구간을 검출한다(ST3, 4). 제 1 악곡 후보 검출부(10)에서 검출된 악곡 후보 구간은, 필요에 따라, 제 1 보정부(12)에 의해 검출 오차가 보정된다(ST6). 또한, 제 1 악곡 후보 검출부(10)와는 다른 기준을 가지는 제 2 악곡 후보 검출부(11)에서도, 제 1 악곡 후보 검출부(10)와 마찬가지로, 악곡 후보 구간이 검출되어(ST3, 5), 제 2 보정부(13)에 의해 필요에 따라 검출 오차가 보정된다(ST6).

제 1 악곡 후보 검출부(10)와 제 1 보정부(12)에 의해 검출·보정된 악곡 후보 구간과, 제 2 악곡 후보 검출부(11)와 제 2 보정부(13)에 의해 검출·보정된 악곡 후보 구간은 악곡 검출부(14)에 있어서 통합 또는 취사선택의 판단이 행하여져, 악곡 구간이 검출된다(ST7). 검출된 악곡 구간은, 메타데이터 생성부(15)에서 메타데이터 파일로 생성되어, 기입 버퍼 메모리(9)를 거쳐서 저장 미디어(1)에 기록된다(ST8). 또, 메타데이터 생성부(15)는, 차차 산출되어 결정하는 악곡 구간의 악곡 정보를 유지하는 메모리 기능을 갖고 있다.

또, 영상 음성 기록 장치(100)의 기록부의 개념으로서는, 기입 드라이브(2)만을 포함해도 좋고, 멀티플렉서(8), 메타데이터 생성부(15), 기입 버퍼(9), 기록 제어부(16)를 포함해도 좋다.

또한, 여기서는 악곡 후보 구간을 검출하는 악곡 후보 검출부(10, 11)가 2개인 경우에 대하여 기재했지만, 또한 많은 악곡 후보 검출부를 갖는 구성이더라도 좋다. 또한, 보정부(12, 13)는, 악곡 후보 검출부(10, 11)의 각각에 대하여 개별적으로 보정을 행한 후에, 악곡 검출부(14)에 보정 후의 악곡 후보 구간을 출력하는 구성에 대하여 기재했지만, 개별의 보정은 실행하지 않고, 하나의 보정부에 의해 보정된 후, 악곡 검출부(14)에 보정 후의 악곡 후보 구간을 출력하는 구성으로 해도 좋다. 또한, 악곡 검출부(14)에서 검출한 후의 악곡 구간에 대하여 보정을 하는 구성으로 해도 좋다.

도 3은, 본 실시예 1의 제 1 악곡 후보 검출부(10)를 상세히 적은 기능 블럭도이다. 제 1 악곡 후보 검출부(10)는, 직교 변환 처리부(20)와 우도 비교 처리부(21), 및 참조를 위한 데이터 테이블인 모델 데이터(22)로 구성된다. 도면에 도시하는 바와 같이, A/D 컨버터(6)로 변환된 디지털 신호의 직교 변환 계수가 직교 변환 처리부(20)로 산출되고, 또한 우도 비교 처리부(21)가 모델 데이터(22)를 참조하여 라벨이 할당된 후, 제 1 보정부(12)에 출력된다.

또한, 제 1 악곡 후보 검출부(10)에 의한 악곡 후보 구간의 검출의 상세에 대하여 말한다. 음성 신호(4)가 스테레오 신호인 경우, A/D 컨버터(6)에서는 오른쪽 채널과 왼쪽 채널의 PCM 데이터가 개별적으로 얻어진다. 이 스테레오 신호는, 민간용 리코더 기기이면, 샘플링 주파수는 48kHz, 양자화 비트수는 16bit 등의 품질이 쓰인다.

다음에, 직교 변환 처리부(20)에서는, 시간 영역의 PCM 데이터를 주파수 영역에 직교 변환을 실시한다(ST3). 직교 변환에는, PCM 데이터를 시간적으로 50% 중복하는 MDCT(변형 이산 코사인 변환)을 사용하는 예에 대하여 말한다. 50%의 오버랩을 하기 때문에, 512개의 PCM 데이터를 샘플링하면, 256개의 직교 변환 계수(MDCT 계수)가 오른쪽 채널과 왼쪽 채널의 각각에 대하여 얻어진다. 스테레오 신호의 한쪽 채널(예컨대 왼쪽 채널), 또는 모노럴(monaural) 신호의 1채널에 대한 직교 변환 계수로부터, 256차원의 계수 벡터를 얻을 수 있다. 계수 벡터는 계산량의 경감을 목적으로, 사영 변환에 의해 차원수의 저감을 도모하더라도 좋다.

또, 입력된 음성 신호를 분석하는 것에 앞서, 미리 주관 평가로 현저히 악곡 씬이라고 판단되는 음성의 계수 벡터를 수집하여 트레이닝 데이터로서, 계수 벡터의 분포 경향을, 혼합 가우스 분포 모델(GMM법)을 사용하여 모델화해 놓는다. 악곡 씬으로부터 작성한 것을 「음악 클래스 모델」이라고 부른다. 이밖에, 현저한 관객의 환성이나 성원, 박수, 웃음 소리, 출연자의 대화 씬, 등의 비악곡 씬에 관해서도 마찬가지로 트레이닝 데이터를 수집하여 혼합 가우스 분포 모델을 작성하여, 복수의 음성 클래스 모델을 준비한다.

모델 데이터(22)는, 이들 음성 클래스 모델이 참조할 수 있는 데이터 테이블로 된다. 우도 비교 처리부(21)에서는, 모델 데이터(22)를 참조하여, 기록을 행하고 있는 음성 신호의 직교 변환 계수 벡터가 벡터 공간으로서 가장 우도가 높은 음성 클래스를 찾아, 그 음성의 클래스를 해당 구간의 라벨로서 할당한다(ST4).

즉, 음악 클래스 모델의 주파수 특성과 우도가 높은 음성 입력이 있었던 경우에 악곡을 나타내는 라벨이 할당되고, 그 구간이 악곡 씬이라는 검출이 가능하게 된다. 또, 미리 준비한 모델을 참조하여 입력 신호의 음성 클래스를 특정하는 수법이면 혼합 가우스 분포 모델에 의한 우도 비교가 아니더라도 좋고, 히든 마르코프법(HMM 법) 등의 통계적인 수법을 사용하더라도 상관없다.

혼합 가우스 분포 모델에 의한 우도 비교에 의해 악곡을 나타내는 라벨을 할당하는 수법은, 스테레오 방송이나 모노럴 방송 등의 채널수에 영향을 받지 않고 높은 정확도로 악곡 씬만을 검출할 수 있다고 하는 장점이 있다. 그 한편, 악곡 씬과 비악곡 씬과의 경계를 검출하는 정밀도는 약간 애매하게 되는 단점도 있다. 또한 트레이닝 데이터의 수집 방법에 따라서는, 록이나 엔카, 클래식 등, 곡조나 악기 구성에 의한 능숙함, 서투름이 발생하는 경우가 있다.

다음에, 제 2 악곡 후보 검출부(11)에 대하여 설명한다. 도 4는 본 실시예 1의 제 2 악곡 후보 검출부(11)를 상세히 적은 기능 블럭도이다. 제 2 악곡 후보 검출부(11)는, 직교 변환 처리부(20)와 차분 연산 처리부(30)로 구성된다. 도면에 도시하는 바와 같이, A/D 컨버터(6)로 변환된 디지털 신호의 직교 변환 계수가 직교 변환 처리부(20)에서 산출되고, 또한 차분 연산 처리부(30)에서 직교 변환 계수의 차이량이 산출된 후, 제 2 보정부(13)에 출력된다.

또한, 제 2 악곡 후보 검출부(11)에 의한 악곡 후보 구간의 검출의 상세에 대하여 설명한다. 음성 신호(4)로부터 직교 변환 처리부(20)를 거쳐 256개의 직교 변환 계수(MDCT 계수)가 얻어지기까지의 과정(ST3)은 제 1 검출부(10)에서 설명한 것과 공통이며, 여기서는 생략한다.

직교 변환 계수를 (1×256)행렬로서, n 행째의 오른쪽 채널의 직교 변환 계수를 Mr(n), 왼쪽 채널의 직행변환 계수를 Ml(n)이라고 하면, 차분 연산 처리부(30)에서는 양 채널의 직교 변환 계수 행렬의 차를 산출하여, 계수의 자승합인 차이량 D를 다음 식에 의해 얻는다.

이 처리를 계속적으로 행함으로써, 기록을 행하는 프로그램의 차이량 D의 변화를 파악할 수 있다(ST5). 또, 차이량 D는 직교 계수 행렬의 차에 의한 계수의 자승합으로 했지만, 오른쪽 채널과 왼쪽 채널의 차이가 수치화되는 수법이면, 다른 산출식을 사용하더라도 상관없다.

여기서, 차이량은, 오른쪽 채널과 왼쪽 채널의 차이를 나타내는 것이며, 소리의 넓이감, 스테레오감 등도 표현할 수 있다. 일반적으로, 악곡 씬에서는 소리의 넓이감이 크고, 출연자에 의한 대화 씬 등의 비악곡 씬에서는 소리의 넓이감이 작은 것을 알 수 있다. 즉, 차이량이 소정의 값(임계값)을 넘는 구간이 악곡 씬이라는 검출이 가능하게 된다.

일반적으로, 악곡 씬과 비악곡 씬의 경계에서는 차이량이 크게 변동하기 때문에, 좌우 채널의 직교 계수 행렬의 차이량을 검출하는 수법은, 악곡 구간의 개시 시각 및 종료 시각을 높은 정밀도로 검출할 수 있다고 하는 장점이 있다. 그 한편, 콘서트나 라이브 회장 등 항상 소리의 넓이감이 높은 프로그램에서는 비악곡 씬이라도 높은 차이량을 검출하거나, 또한 모노럴 방송에서는 차이량을 검출할 수 없는 등의 단점도 있다. 또한 록이나 엔카, 클래식 등, 곡조나 악기 구성 등에 따른 능숙함, 서투름이 발생하는 경우가 있다.

도 5는 본 실시예 1의 보정 처리(도 2에서는, ST6의 「필터」에 상당)의 과정을 나타내는 챠트이다. 동 도면에 있어서, (1)는 제 2 악곡 후보 검출부(11)에서 산출된 차이량(42)을 플로팅한 그래프(400)이며, 가로축은 기록한 프로그램의 시간 경과(40), 세로축(41)은 차이량이다.

제 2 보정부(13)에서는, 차이량(42)을 소정의 임계값(43)에 의해 이치화하여, 임계값(43)을 넘는 구간에 악곡을 나타내는 라벨 부여를 행하고, 임계값(43)을 하회하는 구간은 비악곡을 나타내는 라벨 부여를 행한다. 동 도면에 있어서, (2)는 이치화한 라벨(45)을 플로팅한 그래프(402)에서, 악곡을 나타내는 라벨이 붙은 구간을 High, 비악곡 씬을 나타내는 라벨이 붙은 구간을 Low로 하여 라벨축(44)으로 나타내고 있다. 또한, 동 도면의 (3)은 라벨(45)에 대하여 보정의 처리를 행함으로써 얻어지는 보정 후의 라벨(47)을 플로팅한 그래프(407)이다.

여기서, 도 5를 이용하여, 제 2 악곡 후보 검출부(11)에서 산출된 차이량에 대한 제 2 보정부(13)에 의한 보정 처리의 상세에 대하여 설명한다. 일례인 차이량(42)을 임계값(43)에 의해 이치화하면, 라벨(45)과 같이 3개의 악곡 후보 구간(46a, 46b, 46c)이 검출된다.

그리고, 다음에, 이치화에 의해 얻은 라벨(45)에 대하여, 다음 세 가지의 보정 처리를 필요에 따라 실행한다.

(a) 악곡 후보 구간이 소정 시간 T1(예컨대 5초) 이하이면, 악곡에 라벨 부여된 구간은 비악곡(Low)으로 라벨을 변경한다.

(b) 연속하는 악곡 후보 구간의 간격이 소정 시간 T2(예컨대 5초) 이내이면, 비악곡으로 라벨 부여된 간격은, 악곡(High)으로 라벨을 변경한다.

(c) 상기의 (a), (b)의 라벨 변경을 행한 후, 악곡으로 라벨 부여된 구간이 소정 시간 T3(예컨대 60초)을 넘는 구간을 보정 후의 악곡 후보 구간으로 한다. 또, (a)와 (b)는 어느 한쪽이더라도 좋다.

도 5의 (2)를 이용하여 설명하면, 악곡 후보 구간(46c)은 간격 A는, 소정 시간 T1을 채우지 않기 때문에, 보정 처리 (a)에 의해 비악곡 구간으로 되고, 악곡 후보 구간(46a)과 악곡 후보 구간(46b)의 간격 B는, 소정 시간 T2보다 짧기 때문에, 보정 처리 (b)에 의해 하나의 악곡 후보 구간으로 된다. 그 결과, 얻어지는 악곡 후보 구간의 간격 C은 소정 시간 T3을 넘기 때문에, 이 보정 처리에 의해 악곡 구간(48)을 얻을 수 있는 것으로 된다.

또한, 제 1 악곡 후보 검출부(10)에서 산출한 라벨에 대한 제 1 보정부(12)에 의한 보정 처리에 대하여, 마찬가지로 도 5를 이용하여 설명한다. 제 1 악곡 후보 검출부(10)에서는 악곡을 나타내는 라벨과 비악곡을 나타내는 라벨이, 원래부터 2치(値)로 산출되어 있기 때문에, 그대로 도 5의 (2)의 라벨(45)의 플롯으로 된다. 일례로서 나타낸 라벨(45)에서는, 3개의 악곡 후보 구간(46a, 46b, 46c)이 검출된 것으로 되고, 이것에 대하여 제 2 보정부(13)와 마찬가지로, 보정 처리 (a), (b), (c)를 필요에 따라 실시함으로써 악곡 후보 구간(48)을 얻을 수 있는 것으로 된다.

이와 같이, 각각의 보정부에서 보정 처리를 실시함으로써, 출연자에 의한 토크쇼에서의 효과음 등의 비악곡 씬에서, 순간적으로 악곡 씬으로 오검출되어 버린 구간이나, 또는 연주 도중의 연출로서의 전체 휴지 등 악곡 씬임에 관계없이 부분적으로 비악곡 씬으로 오검출되어 버린 구간 등을 보정하는 것이 가능해진다. 또한, 일반적으로, 악곡의 1코러스에 상당하는 60초 등의 소정 시간을 넘어 악곡이 검출되는 구간을 악곡 후보 구간으로 함으로써 토크쇼에서의 단시간의 BGM이나 선전용으로 악곡의 사비부분의 비디오클립 소개, 또는 프로그램의 오프닝이나 엔딩 테마와 같은, 악곡 씬으로서 취급하기에는 적절하지 않은 씬을 제외할 수도 있다.

다음에, 도 1의 악곡 검출부(14)에서의 처리(ST7)에 대하여 설명한다. 도 6은, 본 실시예 1의 악곡 검출부(14)에 의한, 악곡 구간의 검출 처리의 과정을 나타내는 챠트이다. 동 도면에 있어서 (1)는, 제 1 악곡 후보 검출부(10)에서 산출된 라벨에 대하여, 제 1 보정부(12)에 의해 보정 처리를 실시하여 얻은 라벨(50)을 플로팅한 그래프(500)이다. 또한 마찬가지로, 동 도면의 (2)는, 제 2 악곡 후보 검출부(11)에서 산출된 차이량에 대하여, 제 2 보정부(13)에 의해 보정 처리를 실시하여 얻은 라벨(52)을 플로팅한 그래프(502)이다. 동 도면의 (3)은, 라벨(50)과 라벨(51)에 근거하여 검출 처리한 라벨(54)을 플로팅한 그래프(504)이다. 그래프(500, 502, 504)는 모두, 악곡을 나타내는 라벨이 붙은 구간을 High, 비악곡 씬을 나타내는 라벨이 붙은 구간을 Low로 하여 라벨축(44)으로 나타내고 있다.

또한, 도 6을 이용하여, 악곡 검출부(14)에 있어서의 악곡 구간의 검출 처리에 대하여 설명한다. 일례로서, 도면에 도시하는 바와 같이, 라벨(50)에 나타내는 악곡 후보 구간(51a, 51b, 51c)과, 라벨(52)에 나타내는 악곡 후보 구간(53a, 53b, 53c, 53d)이 검출되어 있다고 한다. 본 실시예 1의 악곡 검출부(14)에서는, 쌍방의 악곡 후보 구간을 논리 OR(논리합)로 처리하여, 악곡 구간을 검출한다. 이하, 도 6을 사용하여 구체적으로 설명한다.

일부의 시각에서 중복하여 검출된 악곡 후보 구간(51a와 53a)에서 악곡 구간을 검출하는 경우, 개시 시각 A1과 B1이 동일하면, 검출 후의 악곡 구간(55a)의 개시 시각은 C1로 결정한다. 다음에, 종료 시각 A2는 B2보다 길기(악곡 구간이 시간으로서 연장되는 방향) 때문에, 검출 후의 악곡 구간(55a)의 종료 시각은 A2의 시 각을 채용하여 C2로 된다.

마찬가지로, 악곡 후보 구간(51b와 53b)에서 악곡 구간을 검출하는 경우, 개시 시각 A3와 B3에서는 B3 쪽이 길기 때문에, 검출 후의 악곡 구간(55b)의 개시 시각은 B3의 시각을 채용하여 C3으로 된다. 종료 시각 A4와 B4에서는 B4쪽이 길기 때문에, 검출 후의 악곡 구간(55b)의 종료 시각은 B4의 시각을 채용하여 C4로 된다.

또한, 악곡 후보 구간(53c)에 대해서는 시각이 중복하는 다른 쪽의 악곡 후보 구간이 존재하지 않기 때문에, 개시 시각 B5와 종료 시각 B6이 그대로 검출 후의 악곡 구간(55c)의 개시 시각 C5와 종료 시각 C6으로 채용된다.

최후에, 악곡 후보 구간(51c과 53d)에서 악곡 구간을 검출하는 경우, 개시 시각 A5와 B7에서는 A5쪽이 길기 때문에, 검출 후의 악곡 구간(55d)의 개시 시각은 A5의 시각을 채용하여 C7로 된다. 종료 시각 A6와 B8에서는 A6쪽이 길기 때문에, 검출 후의 악곡 구간(55b)의 종료 시각은 A6의 시각을 채용하여 C8로 된다. 이에 따라, 검출 후의 악곡 구간(55a, 55b, 55c, 55d)이 결정된다.

이와 같이, 악곡 구간의 검출을 악곡 후보 구간의 논리 OR에 의해 판정함으로써, 복수의 악곡 검출 수단에 의해, 각각 다른 기준으로 검출된 악곡 후보 구간을 모두 악곡 구간으로서 결정하게 된다. 이에 따라, 채용하는 악곡 검출 수단에 따라 넓은 범위의 쟝르의 악곡을 검출하는 것이 가능해진다. 또한, 논리 OR에 의한 검출에서는 악곡 구간을 가산하는 것이기 때문에, 복수의 악곡 검출 수단에 의한 악곡 후보 구간중에 오검출된 비악곡 씬이 포함되어 있었다고 해도, 판정 처리 의 과정에서 다른 악곡 검출 수단에서 검출되어 있었던 악곡 씬이 폐해로서 삭제되어 버리는 일이 없다.

또한, 상기에서 설명한 바와 같이, 제 1 악곡 후보 검출 수단(10)은, 높은 정확도로 악곡 씬, 즉 악곡 구간의 도중을 검출할 수 있지만, 악곡 씬과 비악곡 씬의 경계를 검출하는 정밀도는 약간 애매하게 된다는 검출 특성을 갖는다. 한편, 제 2 악곡 후보 검출부(11)는, 악곡 구간의 개시 시각 및 종료 시각을 높은 정밀도로 검출할 수 있다는 검출 특성을 갖는다. 본 실시예 1의 악곡 검출 방법에서는, 상기한 바와 같이 서로 검출 특성이 다른 검출 방법을 조합시키는 것에 의해, 보다 정밀도가 높은 방법으로 하고 있다. 즉, 제 1 악곡 후보 검출 수단(10)의 검출 특성과 제 2 악곡 후보 검출부(11)의 검출 특성이 서로의 검출 특성을 서로 보완하는 관계로 되어 있기 때문에, 악곡 검출의 정밀도를 보다 높은 것으로 하고 있다.

다음에, 도 7, 8을 이용하여, 검출된 악곡 구간의 악곡 정보를 메타데이터 생성부(15)에서 메타데이터 파일로 생성하는 방법을 설명한다. 도 7은 본 실시예 1의 영상 음성 기록 장치의 파일 구성도이다. 즉, 도 7은 저장 미디어(1)의 논리 파일 구조를 나타낸 것이며, 논리적으로 계층 구조를 이루는 디렉토리 구조의 최상위 계층에 루트 디렉토리(90)가 배치되고, 그 루트 디렉토리(90)의 하위층에, 멀티미디어 디렉토리(91), 및 메타데이터 디렉토리(92)가 배치되어 있다.

멀티미디어 디렉토리(91)에는, 저장 미디어(1)에 기록되어 있는 프로그램의 관리 번호를 포함하는 관리 정보를 기술한 정보 관리 파일(93), 프로그램의 영상 신호 또는 음성 신호를 부호화 압축하여 다중화한 멀티미디어 데이터 파일(94), 또 한 정보 관리 파일(93) 등의 백업 파일(95)이 배치되어 있다.

한편, 메타데이터 디렉토리(92)에는, 프로그램을 기록하여 멀티미디어 데이터 파일(94)이 생성되었을 때에 검출된 악곡 구간의 악곡 정보가, 독립된 논리 파일로 이루는 메타데이터 파일(96)로 기술되어, 배치된다.

또, 도 7에서는, 멀티미디어 데이터 파일(94)과 메타데이터 파일(96)이 개별의 디렉토리에 배치되는 예를 나타내었다. 그러나, 동일한 디렉토리 내에 배치되거나, 메타데이터 파일(96)이 루트 디렉토리(90)에 직접 배치되더라도 좋다. 또한, 멀티미디어 데이터 파일(94), 또는 메타데이터 파일(96)은, 기록한 프로그램의 수에 따라 분할되거나, 파일 용량의 제한 등에 의해 복수로 분할되더라도 좋다.

또한, 본 실시예 1에 있어서의 메타데이터 파일(96)은, 그 데이터 형식에 관계없이, 텍스트 형식이더라도 2진 형식이더라도 좋다. 또한, 메타데이터 파일(96)에 기술되어 있는 데이터의 개찬이나, 정보의 유출을 저지하기 위해, 암호 처리를 실시하더라도 좋다.

또한, 관리 정보 파일(93)에, 소망의 프로그램에 대응하는 메타데이터 파일(96)이 존재하고 있는지 여부, 또는 메타데이터 파일(96)에 유효한 값이 존재하는지 여부, 등의 정보를 기술해 놓더라도 좋다. 이러한 정보가 관리 정보 파일(93)에 기록되어 있으면, 프로그램을 재생할 때에, 해당 정보를 참조하는 것으로, 민첩하게 악곡 정보의 존재 또는 유효성을 판단할 수 있다.

이와 같이, 메타데이터 파일(96)을 멀티미디어 데이터 파일(94)에 중첩, 다중화하지 않고 독립된 논리 파일로 한다. 이에 따라, 프로그램을 재생할 때에, 파 일 용량이 큰 멀티미디어 데이터 파일(94)을 주사하지 않고, 비교적 파일 용량이 작은 메타데이터 파일(96)을 판독하는 것으로 악곡 정보를 민첩하게 취득하는 것이 가능해진다.

또, 메타데이터 파일(96)을 멀티미디어 데이터 파일(94)에 중첩하더라도 좋다. 이 경우는, 파일수를 적게 할 수 있고, 또한, 멀티미디어 데이터와 동일한 파일이기 때문에, 악곡 정보를 따르는 멀티미디어 데이터를 제거 가능한 기록 매체에 기록하여 다른 기기에서 편집이나 복사 등의 파일 조작을 행할 때, 메타데이터가 산일하는 것을 억제할 수 있다.

도 8은 계층 구조인 본 실시예 1의 메타데이터 구조도이다. 도면에서, (A)는 데이터 구조의 최상위 계층의 메타데이터(130)이다.

다음에, 도 8(B)을 이용하여, 메타데이터(130)의 데이터 구조를 설명한다. 메타데이터 전체의 정보는, 메타데이터 관리 정보(131a)에 통괄적으로 기술되어 있다. 이 계층에는, 악곡 정보를 가지는 프로그램의 수(1부터 n개)에 따른 프로그램 메타데이터 정보(131c)와, 프로그램 메타데이터 정보(131c)를 개별적으로 액세스하기 위한 어드레스 정보인 프로그램 메타데이터 정보 서치 포인터(131b)가 배치된다.

여기서, 저장 미디어(1)에 악곡 정보를 가지는 프로그램이 존재하지 않는 경우에는, 메타데이터 파일(96)을 작성하지 않더라도 좋고, 또한, 메타데이터 관리 정보(131a)에 프로그램 메타데이터 정보(131c)를 0개로 기술한 메타데이터 파일(96)을 준비하더라도 좋다.

다음에, 도 8(C)를 이용하여, 프로그램 메타데이터 정보(131c)의 데이터 구조를 설명한다. 이 계층에는, 메타데이터 일반 정보(132a)와, 악곡 맵 정보(132b)가 배치된다. 메타데이터 일반 정보(132a)에는, 악곡 맵 정보(132b)를 액세스하기 위한 어드레스 정보 등의 외에, 프로그램 메타데이터 정보(131c)가 대응해야 되는 프로그램의 관리 번호가 기술된다. 이것은 음악 프로그램 이외를 기록한 때 등, 프로그램에 따라서는 악곡 정보를 생성하지 않는 경우도 있기 때문에, 정보 관리 파일(93)로 관리되는 프로그램의 관리 번호와 프로그램 메타데이터 정보(131c)의 번호가 일치하지 않는 경우에, 프로그램과 메타데이터를 관련짓기 위한 테이블이다.

다음에, 도 8(D)를 이용하여, 악곡 맵 정보(132b)의 데이터 구조를 설명한다. 이 계층에는, 악곡 맵 일반 정보(133a)와, 검출한 악곡의 수(1로부터 m 개)에 따른 악곡 엔트리(133b)가 배치된다. 악곡 맵 일반 정보(133a)에는, 악곡 엔트리(133b)를 개별적으로 액세스하기 위한 어드레스 정보가 기술된다.

최후에, 도 8(E)를 이용하여, 악곡 엔트리(133b)의 데이터 구조를 설명한다. 이 계층에는, 검출한 악곡 구간의 악곡 개시 시각 정보(134a)와, 악곡 종료 시각 정보(134b)가 배치된다. 시각 정보에는 프리젠테이션 타임(PTM) 등이 사용된다.

이상 설명한 바와 같이, 본 실시예 1에서는, 악곡 구간의 개시 시각과 종료 시각을 메타데이터로 기술하는 방법의 예를 말했지만, 기록한 프로그램으로부터 악곡 정보를 특정할 수 있는 데이터 구조이면 좋다. 예컨대, 프로그램을 1초간 등의 고정 시간으로 이산화했을 때에 악곡 씬인 구간은 High(1), 비악곡 씬인 구간은 Low(0)으로 하는 등 이치화한 결과를 악곡 맵 정보로서 열거하는 데이터 구조로 해도, 동등의 기능을 실현할 수 있다.

이에 따라, 저장 미디어(1)에 기록한 프로그램을 재생하는 때는 메타데이터 파일(96)로부터 메타데이터(130)를 판독하고, 프로그램에 존재하는 악곡의 악곡 정보를 파악할 수 있다. 따라서, 악곡 정보에 근거하는 재생 제어를 함으로써 악곡 구간만을 연속 재생하거나, 악곡 구간의 개시점 또는 종료점으로 수동으로 스킵하는 기능 등, 효율적으로 악곡 씬을 시청하는 것이 가능해진다.

즉, 종래는, 비악곡 씬이나 CM 방송(CM 방송에 대해서는, 실시예 3에서 설명함)을 건너뛰기 위해서는, 수동 조작에 의한 빨리 감기나 뒤로 감기 재생에 의해 악곡 씬의 선두나 종단 등의 경계를 검색해야 했다.

또한, 기록 매체에 장시간 기록된 프로그램으로부터 악곡 씬을 시청하고 싶은 경우, 또는 비악곡 씬을 시청하고 싶은 경우 등은, 시청자가 빨리 감기(순방향 스캔)나 뒤로 감기(역방향 스캔)한 영상을 보면서 소망의 씬을 찾거나, 15초 등의 고정 시간의 스킵에 의해 소망의 씬이 나타날 때까지 조작을 반복하거나 해야만 한다. 그 때문에, 악곡 씬의 시점이나 종점의 개소를 잘못하여 지나치지 않고 재생하기 위해서는, 미리 악곡 씬의 개소를 정확히 파악하지 않고 있으면 곤란했다. 특히, 처음 보는 프로그램을 재생하는 경우에 있어서는, 프로그램중의 어디에 악곡 씬이 있을지 모르기 때문에, 프로그램의 첫머리에서 악곡 씬을 검색하는 수고를 필요로 하고 있었다.

그러나, 본 실시예 1에 의해 기록된 프로그램을 재생하는 경우는, 상기한 바 와 같은 조작을 행할 필요가 없다. 즉, 재생시에는 처음 보는 프로그램이라도 악곡 구간을 미리 파악할 수 있기 때문에, 악곡 구간만의 연속 재생이나, 악곡 구간의 시점이나 종점에의 수동에서의 스킵 등의 재생 제어가 가능해진다.

또, 본 실시예 1에서는, 영상 신호(3)와 음성 신호(4)로서 텔레비젼 방송을 예로 설명했지만, 예컨대, 별도의 영상 재생 장치를 사용하여 외부 입력 단자로부터 공급되는 영상 음성 신호이더라도 좋다. 또는, 제거 가능한 저장 미디어(1)나 영상 기록 재생 장치에 내장한 하드디스크(도시하지 않음) 등에 기록하고 있는 영상 음성 데이터를 판독하고, 부호화 압축한 음성 데이터를 디코드(복호) 처리하여 PCM 신호를 얻어 악곡 정보를 검출하더라도 좋다. 이 방법이면, 기록시에 실시간으로 악곡 구간의 검출 처리를 할 필요가 없기 때문에, 기록 제어부의 처리 능력이 낮은 경우이더라도, 기록후에 시간을 들여 검출이 가능해진다. 또한, 이미 저장 미디어에 기록된 프로그램으로부터도 악곡 정보를 얻을 수 있다.

(실시예 2)

본 실시예 2에서는, 악곡 검출부(14)에 의한 악곡 구간의 검출 처리로서, 실시예 1에서 설명한 방법과는 다른 검출 방법에 대하여 설명한다. 도 6은, 본 실시예 2의 악곡 검출부(14)에 의한, 악곡 구간의 검출 처리의 과정을 나타내는 챠트이다. 동 도면에 있어서 (1), (2)는, 실시예 1의 도 6에 나타낸 것과 동일하고, 동 도면의 (3)은, 실시예 1과는 다른 검출 방법에 의해 검출된 라벨(60)을 플로팅한 그래프(600)이다.

도 9를 이용하여, 실시예 1과는 다른 악곡 검출부(14)에 있어서의 악곡 구간의 검출 처리에 대하여 설명한다. 본 실시예 2에서는, 라벨(50), 또는 라벨(52) 중 어느 한쪽을 기점으로 하여 악곡 구간을 검출하는 점에 특징이 있다.

일례로서, 도면에 도시하는 바와 같이, 라벨(50)에 나타내는 악곡 후보 구간(51a, 51b, 51c)과, 라벨(52)에 나타내는 악곡 후보 구간(53a, 53b, 53c, 53d)이 검출되어 있다고 한다. 여기서는, 라벨(50)을 기점으로 하는 경우에 대하여 설명한다.

우선, 악곡 후보 구간(51a)의 개시 시각 A1의 근방에서 라벨(52)의 악곡 후보 구간의 개시 시각을 검색하면, B1이 발견된다. 개시 시각 A1과 B1이 동일하면, 검출 후의 악곡 구간(61a)의 개시 시각은 P1로 결정한다. 다음에, 악곡 후보 구간(51a)의 종료 시각 A2의 근방으로 라벨(52)의 악곡 후보 구간의 종료 시각을 검색하면 B2가 발견되기 때문에, 검출 후의 악곡 구간(61a)의 종료 시각은 B2의 시각을 채용하여 P2로 된다.

또한, 악곡 후보 구간(51b)의 개시 시각 A3의 근방에서 라벨(52)의 악곡 후보 구간의 개시 시각을 검색하면 B3이 발견되기 때문에, 검출 후의 악곡 구간(61b)의 개시 시각은 B3을 채용하여 P3으로 된다. 마찬가지로, 종료 시각 A4에 대해서는 종료 시각 B4가 발견되기 때문에, 검출 후의 악곡 구간(61b)의 종료점은 B4를 채용하여 P4로 된다.

또, 이 때, A3을 기점으로 하여 라벨(52)에 있어서의 악곡 후보 구간의 개시 시각을 검색하는 범위는 A2로부터 A4까지의 시각으로 하고, A4를 기점으로 하여 라 벨(52)에 있어서의 악곡 후보 구간의 종료 시각을 검색하는 범위는 A3부터 A5까지로 한다. 이 경우, 가령, 라벨(52)의 악곡 후보 구간이 존재하지 않는 경우에는, 라벨(50)의 악곡 후보 구간이 검출 후의 악곡 구간으로 된다.

이하 마찬가지로, 악곡 구간(61c)에 대해서도 검출 처리에 의해 개시 시각 P5와 종료 시각 P6이 결정된다. 또, 라벨(52)의 악곡 후보 구간(53c)에 대해서는, 기점으로 되는 라벨(50)의 악곡 후보 구간이 존재하지 않기 때문에, 검출 처리에 의해 삭제되는 것으로 된다.

이와 같이, 본 실시예 2에서는, 높은 정확도로 악곡 씬, 즉 악곡 구간의 도중을 검출할 수 있지만, 악곡 씬과 비악곡 씬의 경계를 검출하는 정밀도는 약간 애매하게 된다는 검출 특성을 갖는 제 1 악곡 후보 검출 수단(10)에 의해 검출된 악곡 후보 구간을 기준으로 한다. 그리고, 악곡 구간의 개시 시각이나 종료 시각을 높은 정밀도로 검출할 수 있는 한편 비악곡 씬을 검출해 버리는 검출 특성을 가지는 제 2 악곡 후보 검출 수단(11)에 의해 검출된 악곡 후보 구간의 유무를 검출한다.

즉, 검출시에, 양자의 검출 특성을 고려하여, 악곡 구간의 개시 시각 및 종료 시각을, 제 2 악곡 후보 검출 수단(11)에 의해 검출된 악곡 후보 구간의 개시 시각과 종료 시각을 우선적으로 채용하는 검출 처리를 행한다. 이에 따라, 비악곡 씬의 오검출을 저감할 수 있고, 또한 악곡 구간의 개시 시각과 종료 시각을 높은 정밀도로 검출하는 것이 가능해진다.

즉, 양자가 서로 보완적인 관계에 있는 검출 특성을 고려하여, 악곡 구간의 도중인 악곡 씬을 기준으로 악곡 구간의 개시 시각과 종료 시각을 검출함으로써, 높은 정밀도로 악곡 구간을 검출하는 것이 가능해진다.

(실시예 3)

본 실시예 3에서는, CM 방송 구간을 검출하는 것에 특징이 있다. 도 10은 본 실시예 3의 영상 음성 기록 장치를 나타내는 시스템 블럭도이다. 또한, 도 11은 본 실시예 3의 악곡 구간의 검출, 기록 방법을 나타내는 흐름도이다. 영상 음성 기록 장치(700)에는, 기록을 행하는 대상으로 되는 텔레비젼 방송 등의 영상 신호(3)와 음성 신호(4)의 특징에 근거하여 CM 방송 구간을 검출하는 CM 검출부(70)를 구비한다(ST9). CM 검출부(70)에서 검출된 CM 방송 구간의 개시 시각과 종료 시각은 악곡 검출부(71)에 출력된다. 그 밖의 구성 요소에 대해서는 실시예 1에서 나타낸 것과 동일하고, 여기서는 설명을 생략한다.

다음에, 도 10, 도 11을 이용하여, CM 검출부(70)의 동작을 설명한다. 우선, 비디오 인코더(5)는, 영상 신호(3)를 MPEG-2 방식으로 부호화 압축한 영상 데이터에 있어서의 I 픽쳐 등의 영상 프레임의 휘도 신호나 색차 성분(YUV 포맷) 등의 변화량을 감시한다. 그리고, CM 검출부(70)는, 이 변화량이 소정의 임계값 이상으로 된 경우에 씬 변화가 발생했다고 판정하는 기능을 구비한다. 또한, CM 검출부(70)는, A/D 컨버터(6)에 있어서 음성 신호(4)를 PCM 방식으로 변환한 음성 데이터에 있어서의 음성 파형의 진폭이 소정의 임계값 이하로 된 경우를 무음이라고 판정하는 기능도 갖는다.

또, 텔레비젼 방송에 있어서, CM 방송 구간을 제외한 프로그램 본편의 구간을 「본편 방송 구간」이라고 한다. 일반적으로 CM 방송 구간과 본편 방송 구간과의 경계, 또는 복수 연속하는 CM 방송 구간과 CM 방송 구간의 경계에는, 무음과 씬 변화가 동일 시각에 존재한다. 또한, 하나의 CM 방송은 15초, 30초 등 시간이 결정되어 있다. 이들 현상에 착안하여, CM 검출부(70)는, 씬 변화와 무음이 동기하여 검출되는 개소가 소정 간격으로 연속하는 경우, 이 구간이 CM 방송 구간이라고 판단한다. CM 검출부(70)는, CM 방송이 복수 연속하는 구간의 개시 시각과 종료 시각의 시간 정보를 나타내는 프리젠테이션 타임(PTM)을 산출하여, 악곡 검출부(71)에 출력한다.

또, CM 방송의 검출 수단은, CM 방송 구간의 개시 시각과 종료 시각을 검출할 수 있는 방법이면 수법은 관계없다. 예컨대, 음성 신호(4)의 음성 방식이, 본편 방송에 많은 모노럴 신호로부터 CM 방송에 많은 스테레오 신호로 변화되는 개소를 검출하더라도 좋다. 또한, 영상 신호(3)에 있어서 본편 방송 구간과 CM 방송 구간의 경계에 나타나는 흑색 화면(블랙 프레임)을 검출하는 것이라도 좋다. 또한, 음성 신호만으로부터, 또는 영상 신호만으로부터 CM 방송 구간을 검출하더라도 좋다.

도 12는 본 실시예 3의 악곡 검출부(71)에 의한 검출 처리(도 11에서는, ST9의 「CM 검출」에 상당)의 과정을 나타내는 챠트이다. 동 도면에 있어서 (1)는, 검출된 악곡 구간인 라벨(80)을 플로팅한 그래프(800)이다. 악곡 구간의 검출 처리의 방법에 대해서는, 실시예 1 및 2에서 설명한 것을 이용한다. 또한, 동 도면 의 (2)은, CM 검출부에서 검출된 CM 방송 구간을 나타내는 CM 라벨(82)을 플로팅한 그래프(802)이다. 도면 중, CM 방송 구간으로서 검출된 구간을 High, 그 이외의 구간을 Low로서 라벨축(86)으로 나타내고 있다.

그리고, 동 도면의 (3)은, 검출 처리한 라벨(80)과 CM 라벨(82)을 또한 재검출하여 얻어지는 CM 보정한 라벨(84)을 플로팅한 그래프(804)이다. 그래프(800, 804)는 모두, 악곡 구간을 나타내는 라벨이 붙은 구간을 High, 비악곡 씬을 나타내는 라벨이 붙은 구간을 Low로서 라벨축(44)으로 나타내고 있다.

다음에, 도 12를 이용하여, 악곡 검출부(71)에 있어서의 CM 방송의 검출 처리에 대하여 설명한다. 일례로서, 제 1 악곡 검출 수단과 제 2 악곡 검출 수단에 의한 악곡 후보 구간에서 얻은 라벨(80)에 나타내는 악곡 구간(81a, 81b)과, CM 검출부(70)에 의해 CM 방송을 검출한 CM 방송 구간(83a)이 있는 경우, 악곡 구간(81a, 81b) 중 CM 방송 구간(83a)과 중복하는 구간을 비악곡 씬으로 하는 보정 처리를 행한다.

이하, 도 12를 이용하여 구체적으로 설명한다. 악곡 구간(85a)의 개시 시각 D1은, CM 방송과 중복하지 않지만, 종료 시각 D2는 CM 방송 구간(83a)과 중복하고 있다. 따라서, CM 보정 처리 후의 악곡 구간(85a)의 개시 시각은, D1의 시각을 채용하여 F1로 되고, 종료 시각은 CM 방송 구간(83a)의 개시 시각 E1을 채용하여 F2로 된다.

마찬가지로, 악곡 구간(81b)의 종료 시각 D4는 CM 방송과 중복하지 않지만, 개시 시각 D3은 CM 방송 구간(83a)과 중복하고 있다. 따라서, CM 보정 처리 후의 악곡 구간(85b)의 개시 시각은, CM 방송 구간(83a)의 종료 시각 E2를 채용하여 F3으로 되고, 종료 시각은 D4의 시각을 채용하여 F4로 된다. 여기서는 도시하지 않지만, 검출 처리 후의 악곡 구간이 완전히 CM 방송 구간과 중복하고 있는 경우에는, 그 악곡 구간은 CM 보정 처리에 의해 삭제되는 것으로 된다.

이와 같이, CM 방송이 검출된 구간은 악곡 구간에서 제외되기 때문에, BGM(배경음악)이나 효과음으로서 악곡이 다용되는 CM 방송을, 본래의 음악 프로그램으로서 시청하고 싶은 악곡과 혼동하여 오검출하지 않는 효과가 있다.

또, 본 실시예 3에서는, 악곡 구간의 검출의 후, CM 방송 구간을 제외하는 방법에 대하여 설명했지만, 악곡 후보 구간 결정 후에, 각각의 악곡 후보 구간에서 CM 방송 구간을 제외하고, 그 후에 악곡 구간을 검출하더라도 좋다. 또한, 악곡 후보 구간을 검출하기 전에 CM 방송 구간을 제외하더라도 좋다.

또, 상기 실시예 1 내지 3에서는, 악곡 후보 검출 수단과 보정 수단을 별도의 수단으로 했지만, 이들 두개의 수단의 기능을 갖는 하나의 악곡 검출 수단으로 해도 좋다.

또한, 상기 실시예 1 내지 3에서는, 악곡 구간을 포함한 멀티미디어 데이터를 기록한다고 했지만, 검출된 악곡 구간만의 멀티미디어 데이터를 기록하더라도 좋다.

Claims

음성 신호와 영상 신호를 포함하는 데이터를 입력하는 데이터 입력 단계와,

각각 다른 기준에 근거하여 상기 음성 신호로부터 상기 입력 데이터의 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출 단계와,

상기 검출된 복수의 악곡 후보 구간에 근거하여 악곡 구간을 검출하는 악곡 구간 검출 단계

를 구비하는 악곡 구간 검출 방법.
제 1 항에 있어서,

상기 복수의 기준에 포함되는 하나의 기준의 검출 특성은 상기 하나 이외의 다른 기준의 검출 특성을 보완하도록 설정되는 악곡 구간 검출 방법.
제 1 항에 있어서,

상기 기준의 하나는 상기 악곡 후보 구간과 상기 악곡 후보 구간 이외의 구간의 경계를 검출하도록 설정되는 악곡 구간 검출 방법.
제 1 항에 있어서,

상기 기준의 하나는 상기 악곡 후보 구간의 도중을 검출하도록 설정되는 악곡 구간 검출 방법.
제 1 항에 있어서,

상기 악곡 후보 구간 검출 단계는 상기 검출된 악곡 후보 구간을 보정하는 보정 단계를 구비하는 악곡 구간 검출 방법.
제 1 항에 있어서,

광고 구간을 검출하는 광고 검출 단계를 구비하고,

상기 악곡 구간에서 상기 광고 구간을 제외하는 악곡 구간 검출 방법.
청구항 1에 기재된 악곡 구간 검출 방법에 의해 검출된 악곡 구간을 포함하는 데이터를 기록하는 데이터 기록 단계와,

상기 악곡 구간을 특정하기 위한 정보를 기록하는 정보 기록 단계

를 구비하는 데이터 기록 방법.
각각 다른 기준에 근거하여, 음성 신호와 영상 신호를 포함하는 입력 데이터의 상기 음성 신호로부터, 상기 입력 데이터의 악곡 후보 구간을 검출하는 복수의 악곡 후보 구간 검출부와,

상기 검출된 복수의 악곡 후보 구간에 근거하여, 악곡 구간을 검출하는 악곡 구간 검출부

를 구비하는 악곡 구간 검출 장치.
제 8 항에 있어서,

상기 복수의 기준에 포함되는 하나의 기준의 검출 특성은 상기 하나 이외의 다른 기준의 검출 특성을 보완하도록 설정되는 악곡 구간 검출 장치.
제 8 항에 있어서,

상기 기준의 하나는, 상기 악곡 후보 구간과, 상기 악곡 후보 구간 이외의 구간의 경계를 검출하도록 설정되는 악곡 구간 검출 장치.
상기 기준의 하나는, 상기 악곡 후보 구간의 도중을 검출하도록 설정되는 악 곡 구간 검출 장치.
제 8 항에 있어서,

상기 검출된 악곡 후보 구간을 보정하는 보정부를 구비하고,

상기 악곡 검출부는, 상기 보정부에 의해 보정된 복수의 악곡 후보 구간에 근거하여 악곡 구간을 검출하는 악곡 구간 검출 장치.
제 8 항에 있어서,

광고 구간을 검출하는 광고 검출부를 구비하고,

상기 악곡 구간 검출부는, 상기 악곡 구간에서 상기 광고 구간을 제외하는

악곡 구간 검출 장치.
청구항 8에 기재된 악곡 구간 검출 장치에 의해 검출된 악곡 구간을 포함하는 데이터를 기록하는 데이터 기록부를 구비하고,

상기 데이터 기록부는 상기 악곡 구간을 특정하기 위한 정보를 기록하는

것을 특징으로 하는 데이터 기록 장치.